为什么AI项目80%的时间都花在评估上?
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
一场来自Harvey与LanceDB的联合分享,首次系统讲清楚企业级RAG在法律场景下面临的真实难题:复杂查询、超大规模数据、严格安全要求,以及为什么“评估”比算法本身更重要。
Goodfire AI 的 Mark Bissell 用大量现场演示解释了一个正在迅速升温的研究方向:AI 可解释性。他不仅回答了“模型内部到底发生了什么”,还展示了当你真的能看懂神经网络时,开发、调试和控制 AI 会发生怎样的质变。
这场来自 Glean 的分享,直面一个困扰无数 AI 工程师的问题:到底该做“工作流”,还是“智能体”?演讲者通过真实的工程取舍、形象的比喻和企业级场景的反思,给出了一套并不极端、却更可落地的方法论。
Retool 产品负责人 Donald Hruska 直言:企业在 AI 上已经投入了半万亿美元,却大多停留在聊天机器人和代码补全阶段。真正的拐点,是“能接入生产系统、带护栏的 AI Agents”。这场演讲系统讲清了 agents 为什么今年才成立、难点在哪,以及企业该如何在“自建还是买平台”之间做出理性选择。
这场演讲从一个现实问题出发:在复杂、密集的企业知识中,单纯依赖向量检索的RAG正在失效。Sam Julien结合真实系统演进过程,讲述了他们为何转向Graph-based RAG,以及这一转折带来的方法论启示。
Together AI 开发者关系负责人 Hassan El Mghari,用自己四年、每月一个项目的实战经历,拆解了如何用开源模型快速构建 AI 应用,并让其中一部分真正触达百万用户。这不仅是技术分享,更是一套可复制的构建与试错方法论。
这场演讲直指企业AI落地的最大幻觉:只要把数据“准备好”,AI就能可靠工作。Anushrut Gupta用大量真实场景说明,问题不在数据工具,而在AI不懂业务语言,并提出一种“像新人分析师一样成长”的Agentic语义层方案。
MongoDB旗下Voyage AI的Frank Liu,用10多分钟梳理了AI搜索与检索的现状与未来。他不仅回顾了从BM25到Embedding的技术演进,更明确指出:真正拉开差距的不是“用不用向量”,而是Embedding质量、多模态能力,以及是否具备指令理解与推理能力。
这场由OpenAI工程师Ilan Bigio带来的分享,系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”,他更强调一种工程化、循序渐进的思路:什么时候提示工程就够了,什么时候必须动用微调,以及如何避免投入巨大却收益有限。