把RAG所有技巧一层层叠加:前Google搜索工程师的实战方法论
正在加载视频...
视频章节
这场演讲不是在罗列RAG新名词,而是给出了一套“何时该用什么”的实战路线图。前Google搜索工程师David Karam用真实失败案例解释:RAG不是一次性架构设计,而是按影响和成本逐步叠加的工程决策过程。
把RAG所有技巧一层层叠加:前Google搜索工程师的实战方法论
这场演讲不是在罗列RAG新名词,而是给出了一套“何时该用什么”的实战路线图。前Google搜索工程师David Karam用真实失败案例解释:RAG不是一次性架构设计,而是按影响和成本逐步叠加的工程决策过程。
为什么RAG技巧本身并不重要,重要的是顺序
这一节的关键在于一个反直觉的判断:大多数RAG系统失败,不是因为技术不够先进,而是因为“太早用了复杂技术”。David Karam一开始就交代了背景——他和联合创始人以及团队成员,曾长期在Google Search工作,亲历过搜索系统中无数关于相关性与复杂度的争论。
他明确反对把RAG技巧当成“升级树”或“最佳实践清单”。在演讲中他用了一个非常工程化的说法:“It’s just a cluster. It’s a catalog of stuff.”意思是,所有RAG技巧本质上只是一个工具集合,本身没有高下之分,只有是否在合适的阶段使用。
真正重要的,是他在幻灯片里强调的两列:difficulty(实现难度)和 impact(实际影响)。这是典型的搜索系统思维——任何新技术都必须回答一个问题:它能在多大程度上解决当前最痛的失败案例?如果你现在的问题是召回不足,却直接上重排序或多路召回,那几乎一定会浪费时间。
这一判断来自他在Google时期反复踩过的坑:复杂系统往往不是“缺一个算法”,而是“顺序错了”。这也是整场演讲的总线索:一条查询,一层技术,只有当上一层明确失败,才有理由进入下一层。
从最简单开始:为什么向量检索不是第一步
很多团队一谈RAG就直接想到向量数据库,但David在这里刻意放慢节奏。他提出的第一步,甚至不是embedding,而是“极其简单的检索”。原因很现实:你需要先知道系统到底在什么地方失败。
当话题转到向量检索(vector search)时,他给出的不是赞美,而是提醒:“this is where you need to be like tuned”。向量检索的优势是语义召回,但代价是调参复杂、失败模式更隐蔽。如果你连关键词检索的失败案例都没系统性理解,引入向量只会让问题更难诊断。
这里他反复强调一个工程原则:在投资一种技术之前,必须搞清楚“what every technique gives you”。也就是说,这个技术具体修复哪类失败?是漏召回,还是排序错误?如果你的查询本身就被错误路由,那再好的向量索引也救不了。
这是一个典型来自搜索系统的经验迁移:先用最可解释的方法暴露问题,再逐步引入不可解释但能力更强的模型。这一步看似保守,却是后面所有复杂RAG架构能够站稳的前提。
Embedding的威力与陷阱:相关性并不会自动变好
当演讲进入Embedding部分时,语气明显变得谨慎。David承认embedding“非常有趣”,尤其在购物等场景中,能够捕捉到关键词无法覆盖的语义关系。但他紧接着抛出一个现实问题:相关性失败,仍然是主因。
他指出,很多团队在引入embedding后,会误以为“语义理解”已经解决,但实际上只是把失败模式换了一种形式。特别是在查询被错误分类、或被送进错误RAG路径时,embedding反而会放大错误。
他提到一个高频问题:“you calling the wrong queries”。也就是系统在判断“这个查询是否需要RAG”时就已经错了。这种错误往往不在模型本身,而在调用逻辑——但embedding越强,团队越容易忽视这类基础判断。
这个部分的价值在于提醒读者:embedding不是终点,而是新的复杂度来源。你必须清楚它解决的是“相似性匹配”,而不是“业务正确性”。否则,相关性问题不会消失,只会更难解释。
当GPU开始融化:成本才是最后的现实边界
演讲后半段的转折非常现实,也很有记忆点。当系统一层层叠加后,David抛出了那句带着无奈的原话:“GPUs are melting.”
这并不是夸张修辞,而是他描述的真实状态:当你用更大的embedding、更复杂的重排序、更频繁的RAG调用时,最终撞上的不是相关性,而是成本上限。GPU算力、延迟预算、并发能力,会强迫你重新审视之前的每一个技术决策。
他强调,这一步往往发生在“你已经做了所有你能想到的事”之后。系统仍然失败,但继续加模型只会指数级增加成本。这时,工程判断重新回到最初的两列:difficulty 和 impact。
这个收尾非常搜索味道:最成熟的系统,不是技术最炫的,而是在效果、成本和复杂度之间找到平衡点的系统。RAG的尽头,并不是更多技巧,而是更少但更清楚的选择。
总结
这场演讲真正稀缺的,不是某个RAG新技巧,而是一套来自Google搜索体系的工程心法:先理解失败,再引入技术;先解决最大痛点,再接受新的复杂度。对今天构建RAG系统的团队来说,最大的启发或许是——少问“还能加什么”,多问“现在为什么会失败”。
关键词: RAG, 向量数据库, Embedding, Google搜索, GPU成本
事实核查备注: 演讲者:David Karam(Pi Labs联合创始人,前Google Search工程师);来源频道:AI Engineer;视频标题:Layering every technique in RAG, one query at a time;发布时间:2026-01-08;涉及技术:RAG、向量检索(vector search)、Embedding;涉及公司:Google;原话引用包括“It’s just a cluster. It’s a catalog of stuff.”、“you calling the wrong queries”、“GPUs are melting.”