AI搜索正在进化:从Embedding到多模态与指令理解

AI PM 编辑部 · 2025年06月27日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

MongoDB旗下Voyage AI的Frank Liu,用10多分钟梳理了AI搜索与检索的现状与未来。他不仅回顾了从BM25到Embedding的技术演进,更明确指出:真正拉开差距的不是“用不用向量”,而是Embedding质量、多模态能力,以及是否具备指令理解与推理能力。

AI搜索正在进化:从Embedding到多模态与指令理解

MongoDB旗下Voyage AI的Frank Liu,用10多分钟梳理了AI搜索与检索的现状与未来。他不仅回顾了从BM25到Embedding的技术演进,更明确指出:真正拉开差距的不是“用不用向量”,而是Embedding质量、多模态能力,以及是否具备指令理解与推理能力。

从Voyage AI到MongoDB:一次并不意外的转折

这场分享一开始,并不是从技术细节切入,而是从Frank Liu自己的背景说起。他介绍自己来自Voyage AI——一家专注于Embedding模型和Reranker的公司,并在演讲前几个月刚刚加入MongoDB。这个转变本身就很有象征意义:Embedding不再只是“模型层”的能力,而正在成为数据库和数据基础设施的一部分。

Frank用一句话概括Voyage AI的定位:“我们构建的是最准确、最具性价比的Embedding模型和Reranker,用于RAG和语义搜索。”但他随即补充,这些模型的用途早已超出搜索本身,还被大量用于分类、聚类等任务。这种“从搜索起家,却服务更广泛AI工作流”的路径,也解释了为什么它会被MongoDB这样的数据平台吸收。

这一段背景并非寒暄,而是在为后文埋下一个重要判断:AI搜索不再是一个独立系统,而是正在成为现代数据栈的基础能力。

什么才算AI搜索?它和传统检索真正的分水岭

在快速回顾阶段,Frank给出了他对“AI powered search”的定义。这一点很关键,因为很多系统表面上用了向量,其实思路仍停留在旧时代。他先提到了大家熟悉的TF-IDF、BM25等方法——它们擅长关键词匹配,但无法理解语义。

而AI搜索的核心变化在于Embedding:把文本映射到向量空间,让“意思相近”的内容在数学上彼此靠近。但Frank特别强调,这还不是全部。他明确指出,现代AI搜索已经开始具备“某种程度的推理能力和指令遵循能力”,并且这会在后面成为趋势重点。

这句话值得反复琢磨。他并没有夸大到通用推理,而是谨慎地说“some level”。但这已经意味着,搜索系统正在从“找相似内容”,走向“理解你想做什么”。

RAG与真实应用:Embedding质量决定天花板

当话题进入RAG(检索增强生成)时,Frank的态度非常明确。他称RAG是“AI搜索和检索中一个非常流行的用例”,但紧接着就抛出一个经常被忽视的事实:“embedding quality here is a very very core component.”

他用多个真实应用来说明这一点。第一个是“和你的代码库聊天”。表面上看,这是一个LLM问题,但实际效果高度依赖检索阶段:代码是否被切分得合理、Embedding是否能区分相似但语义不同的函数、是否需要Reranker重新排序结果。他反复强调,一定要做评估,“always do evaluations to see which one is best for your application”。

在后续案例中,他进一步指出:仅靠Embedding是不够的。混合搜索(关键词+向量)、Reranking,甚至更复杂的检索策略,才是生产系统里的常态。这些细节,恰恰是很多Demo与真实产品之间的鸿沟。

未来判断:多模态 + 指令调优将重塑搜索

在最后一部分,Frank不再回顾过去,而是直接给出判断:“the future is 100% multimodal.” 这不是一个模糊的愿景,而是对搜索形态的直接预判——未来的检索对象不只是文本,还包括图片、代码、表格等多种模态。

更重要的是,他提到Instruction Tuning(指令调优)会在搜索与检索中扮演巨大角色。Embedding模型不再只是“相似度机器”,而是要学会如何根据指令去区分“我是在找定义”“我是在找例子”“我是在找可执行方案”。

这也再次呼应了他前面关于“推理与指令遵循”的铺垫。搜索系统正在从被动匹配,走向主动理解任务意图,而这将直接决定AI应用的体验上限。

总结

Frank Liu这场分享的价值,不在于某个具体模型或参数,而在于他清晰勾勒出AI搜索的演进路径:从关键词到Embedding,从单一向量到混合检索,再到具备多模态与指令理解能力的系统。对开发者而言,最大的启发或许是:不要把搜索当成“接上向量数据库就结束”的模块,而要把它视为一整套需要评估、调优、持续演进的核心能力。


关键词: AI搜索, Embedding, 检索增强生成, 多模态, 指令调优

事实核查备注: Frank Liu:MongoDB成员,原Voyage AI团队;Voyage AI:Embedding与Reranker模型;关键原话:"embedding quality is a very very core component","the future is 100% multimodal";技术概念:BM25、TF-IDF、RAG、Embedding、Reranking、Instruction Tuning