把RAG所有技巧一层层叠加：前Google搜索工程师的实战方法论

AI PM 编辑部 · 2025年07月29日 · 23 阅读 · AI/人工智能

正在加载视频...

视频章节

这场演讲不是在罗列RAG新名词，而是给出了一套“何时该用什么”的实战路线图。前Google搜索工程师David Karam用真实失败案例解释：RAG不是一次性架构设计，而是按影响和成本逐步叠加的工程决策过程。

把RAG所有技巧一层层叠加：前Google搜索工程师的实战方法论

这场演讲不是在罗列RAG新名词，而是给出了一套“何时该用什么”的实战路线图。前Google搜索工程师David Karam用真实失败案例解释：RAG不是一次性架构设计，而是按影响和成本逐步叠加的工程决策过程。

为什么RAG技巧本身并不重要，重要的是顺序

这一节的关键在于一个反直觉的判断：大多数RAG系统失败，不是因为技术不够先进，而是因为“太早用了复杂技术”。David Karam一开始就交代了背景——他和联合创始人以及团队成员，曾长期在Google Search工作，亲历过搜索系统中无数关于相关性与复杂度的争论。

他明确反对把RAG技巧当成“升级树”或“最佳实践清单”。在演讲中他用了一个非常工程化的说法：“It’s just a cluster. It’s a catalog of stuff.”意思是，所有RAG技巧本质上只是一个工具集合，本身没有高下之分，只有是否在合适的阶段使用。

真正重要的，是他在幻灯片里强调的两列：difficulty（实现难度）和 impact（实际影响）。这是典型的搜索系统思维——任何新技术都必须回答一个问题：它能在多大程度上解决当前最痛的失败案例？如果你现在的问题是召回不足，却直接上重排序或多路召回，那几乎一定会浪费时间。

这一判断来自他在Google时期反复踩过的坑：复杂系统往往不是“缺一个算法”，而是“顺序错了”。这也是整场演讲的总线索：一条查询，一层技术，只有当上一层明确失败，才有理由进入下一层。

从最简单开始：为什么向量检索不是第一步

很多团队一谈RAG就直接想到向量数据库，但David在这里刻意放慢节奏。他提出的第一步，甚至不是embedding，而是“极其简单的检索”。原因很现实：你需要先知道系统到底在什么地方失败。

当话题转到向量检索（vector search）时，他给出的不是赞美，而是提醒：“this is where you need to be like tuned”。向量检索的优势是语义召回，但代价是调参复杂、失败模式更隐蔽。如果你连关键词检索的失败案例都没系统性理解，引入向量只会让问题更难诊断。

这里他反复强调一个工程原则：在投资一种技术之前，必须搞清楚“what every technique gives you”。也就是说，这个技术具体修复哪类失败？是漏召回，还是排序错误？如果你的查询本身就被错误路由，那再好的向量索引也救不了。

这是一个典型来自搜索系统的经验迁移：先用最可解释的方法暴露问题，再逐步引入不可解释但能力更强的模型。这一步看似保守，却是后面所有复杂RAG架构能够站稳的前提。

Embedding的威力与陷阱：相关性并不会自动变好

当演讲进入Embedding部分时，语气明显变得谨慎。David承认embedding“非常有趣”，尤其在购物等场景中，能够捕捉到关键词无法覆盖的语义关系。但他紧接着抛出一个现实问题：相关性失败，仍然是主因。

他指出，很多团队在引入embedding后，会误以为“语义理解”已经解决，但实际上只是把失败模式换了一种形式。特别是在查询被错误分类、或被送进错误RAG路径时，embedding反而会放大错误。

他提到一个高频问题：“you calling the wrong queries”。也就是系统在判断“这个查询是否需要RAG”时就已经错了。这种错误往往不在模型本身，而在调用逻辑——但embedding越强，团队越容易忽视这类基础判断。

这个部分的价值在于提醒读者：embedding不是终点，而是新的复杂度来源。你必须清楚它解决的是“相似性匹配”，而不是“业务正确性”。否则，相关性问题不会消失，只会更难解释。

当GPU开始融化：成本才是最后的现实边界

演讲后半段的转折非常现实，也很有记忆点。当系统一层层叠加后，David抛出了那句带着无奈的原话：“GPUs are melting.”

这并不是夸张修辞，而是他描述的真实状态：当你用更大的embedding、更复杂的重排序、更频繁的RAG调用时，最终撞上的不是相关性，而是成本上限。GPU算力、延迟预算、并发能力，会强迫你重新审视之前的每一个技术决策。

他强调，这一步往往发生在“你已经做了所有你能想到的事”之后。系统仍然失败，但继续加模型只会指数级增加成本。这时，工程判断重新回到最初的两列：difficulty 和 impact。

这个收尾非常搜索味道：最成熟的系统，不是技术最炫的，而是在效果、成本和复杂度之间找到平衡点的系统。RAG的尽头，并不是更多技巧，而是更少但更清楚的选择。

总结

这场演讲真正稀缺的，不是某个RAG新技巧，而是一套来自Google搜索体系的工程心法：先理解失败，再引入技术；先解决最大痛点，再接受新的复杂度。对今天构建RAG系统的团队来说，最大的启发或许是——少问“还能加什么”，多问“现在为什么会失败”。

关键词： RAG，向量数据库， Embedding， Google搜索， GPU成本

事实核查备注：演讲者：David Karam（Pi Labs联合创始人，前Google Search工程师）；来源频道：AI Engineer；视频标题：Layering every technique in RAG， one query at a time；发布时间：2026-01-08；涉及技术：RAG、向量检索（vector search）、Embedding；涉及公司：Google；原话引用包括“It’s just a cluster. It’s a catalog of stuff.”、“you calling the wrong queries”、“GPUs are melting.”

返回文章列表