RAG评测为何失灵:从“局部问答”到结构化推理的转向
在RAG几乎成为标配的当下,评测却悄然失真。AI21 Labs的Yuval Belfer和Niv Granot通过真实案例指出:我们正在为错误的基准优化系统。本文还原他们的核心论证,解释为什么主流RAG评测无法反映真实世界,并介绍一种以结构化数据为中心的替代路径。
在RAG几乎成为标配的当下,评测却悄然失真。AI21 Labs的Yuval Belfer和Niv Granot通过真实案例指出:我们正在为错误的基准优化系统。本文还原他们的核心论证,解释为什么主流RAG评测无法反映真实世界,并介绍一种以结构化数据为中心的替代路径。
这不是科幻设想,而是Augment Code团队的真实经历:一个AI编码代理在人的监督下,写下了自己90%以上的代码。Colin Flaherty分享了这个自举型Agent从集成工具、写测试到给自己做性能优化的全过程,以及他们在实践中踩过的坑与形成的方法论。
Apache Ranger 创始成员 Don Bosco Durai 结合自身开源与创业经历,系统拆解了 AI Agent 在企业落地时被严重低估的安全与合规问题,并给出一套可执行的三层方法论:从安全评估、零信任执行到持续可观测性,帮助团队真正把 Agent 放进生产环境。
Sierra工程负责人Zack Reneau‑Wedeen用一连串真实故事,讲述了他们如何构建、上线并持续改进AI Agent。与其谈模型参数,他更强调“开发生命周期”:从真实场景出发,让Agent在不断使用中进化。
这场来自Google DeepMind的分享,首次系统揭示了Gemini Deep Research背后的产品动机、UX权衡与技术挑战。它不只是“更慢但更长的回答”,而是一次试图让AI真正完成研究工作的实验。
这不是一场教你用框架的Agent演讲,而是一位工程师带你从最原始的循环、判断和工具调用开始,亲手“跑起来、弄坏它”,直到真正理解Agent为何会像一个能自主行动的系统。
这场来自 AI Engineer 频道的演示,展示了一种不同于传统 API 自动化的新路径:AI 网页代理直接在浏览器中工作,接管大量“没人愿意为之写接口”的长尾知识劳动。通过 Retriever 这一 Chrome 扩展,演讲者用多个现场用例说明:未来的自动化,正在从后端走向真实网页。
在这期Y Combinator访谈中,Perplexity CEO Aravind Srinivas回顾了公司从一次次失败实验走到AI搜索的过程。他分享了一个反直觉的判断:Perplexity的目标并非“杀死Google”,而是用更聪明的方式,帮助用户问出他们原本不会问的问题。
这是一个关于“外行人”如何闯入航空航天禁区的故事。Boom Supersonic 创始人布莱克·肖尔用一架XB-1验证:超音速客机并非不可能,而是被误解。他的方法论、关键决策和对失败的反思,为所有硬科技创业者提供了罕见样本。
这是一段很少被完整讲述的创业故事:David Lieb 如何从一款留不住用户的创业应用出发,历经失败、转向、并购与人生重击,最终成为 Google Photos 的核心缔造者之一。它讲的不是运气,而是长期投入、反复失败,以及在关键时刻继续向前的能力。