正在加载视频...
视频章节
这场来自 Quotient AI 与 Tavily 的分享,直面一个被严重低估的问题:当 AI 搜索系统运行在真实、动态的互联网中,我们究竟该如何评估它是否“做对了”?演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架,试图回答生产级 AI Agent 的核心难题。
当搜索接入真实世界:如何评估会“变”的AI搜索系统
这场来自 Quotient AI 与 Tavily 的分享,直面一个被严重低估的问题:当 AI 搜索系统运行在真实、动态的互联网中,我们究竟该如何评估它是否“做对了”?演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架,试图回答生产级 AI Agent 的核心难题。
为什么传统评估方法,在 AI 搜索时代失效了
这场演讲从一个看似简单、却极具现实冲击力的判断开始:传统的软件监控和 AI 评估方法,已经跟不上今天 AI 搜索系统的复杂性。Julia 在开场就点出了根本差异——AI Agent 不再是“执行预设逻辑”的程序,而是在不断变化的环境中做实时决策。
这些变化来自三个层面。第一,信息源在变。AI 搜索系统依赖的是实时网络,而“web is not static”。昨天正确的答案,今天可能已经过期。第二,用户在变。真实用户不会按测试集提问,他们会输入不完整、带隐含背景、甚至语法混乱的问题。第三,失败模式在叠加发生:检索失败、推理错误、幻觉并不是独立事件,而是相互影响。
演讲中有一句非常值得反复咀嚼的原话:“Traditional monitoring approaches simply aren't keeping up with the complexity of modern AI systems.”这并不是技术悲观主义,而是一个现实提醒:如果评估框架本身是静态的,那它注定无法覆盖一个动态系统的真实风险。
一个真实挑战:如何在“没有标准答案”的世界里做评估
Quotient AI 真正开始系统性思考这个问题,源于一年前与 Tavily 的一次交流。Tavily 的 CEO 抛出了一个直击要害的问题:当你的 AI 搜索 Agent 同时面对不可控的网络变化和不可预测的用户行为时,如何构建一个真正可上线的系统?
Tavily 并不是小规模实验。演讲明确提到,他们的系统在生产环境中要处理“数亿级别”的搜索请求。这意味着任何评估方法,如果依赖人工标注、稳定 ground truth 或离线 benchmark,都会在规模和时效性上直接失效。
这里的关键转折在于对“正确性”的重新定义。演讲者直言:“truth is often subjective and contextual。”在法律、新闻、金融等场景中,并不存在唯一答案,更多是基于证据、时效和语境的“相对正确”。这也是为什么单纯依赖 HotpotQA 等静态数据集,只能覆盖问题的一小部分。
从静态基准到动态评估:让评估系统跟上互联网的节奏
真正的突破发生在评估范式的转变上。Quotient 和 Tavily 共同提出:评估本身必须是动态的。演讲中有一句非常直白的话——“You can’t answer today’s questions with yesterday’s data.”
为此,他们构建了一个开源评估 Agent,用来为基于 Web 的 RAG(检索增强生成)系统自动生成动态评测集。这个 Agent 基于 LangGraph 框架,流程包括:实时检索网页内容、抽取证据、生成基于证据的问题与答案对,并通过实验追踪工具记录不同版本的表现。
一个关键设计是引入“supervisor node”,用于审查和提升问答对质量。这并不是追求更难的题目,而是确保评估问题真实反映生产环境中的复杂性。这种方法的核心价值在于:系统始终在“最新的世界状态”下被评估,而不是和一个早已过期的答案对齐。
无参考评估与幻觉权衡:真正发现“哪里出了问题”
在后半段分享中,团队展示了对六家 AI 搜索提供商的两阶段评估实验。结果本身并不是重点,真正重要的是一个结论:即便有正确性评分,这种评估依然“falls short of identifying when things go wrong”。
于是他们转向无参考(reference-free)指标,重点关注三个维度:答案完整性、信息覆盖,以及幻觉检测。这里出现了一个非常现实、也非常诚实的发现——答案越完整,幻觉风险往往越高。这不是模型能力问题,而是目标函数冲突。
演讲者明确指出,没有任何一家被评估的搜索系统,在这三个指标上同时表现完美。这也是整场演讲最重要的洞见之一:AI 搜索评估不是寻找一个“满分系统”,而是帮助团队清楚地看到权衡在哪里、风险在哪里,从而持续改进。
总结
这场分享并没有给出一个“评估银弹”,反而提供了一种更成熟的视角:在真实世界中运行的 AI 搜索系统,评估本身必须是动态、可扩展、且接受不确定性的。对开发者而言,最大的启发或许在于:不要再迷信单一指标或静态 benchmark,而是构建一个能持续暴露问题、指导改进的评估体系。只有这样,所谓的“augmented AI”,才不是一句口号。
关键词: AI搜索, AI Agent, 检索增强生成, 幻觉检测, 动态评估
事实核查备注: 人物:Julia(Quotient AI CEO)、Danna Emmery(创始研究员)、Mara Sher(工程负责人);公司:Quotient AI、Tavily;技术名词:AI Agent、RAG、LangGraph、reference-free metrics;事实:Tavily 在生产环境处理数亿级搜索请求;核心原话:web is not static;truth is subjective and contextual;You can’t answer today’s questions with yesterday’s data。