为什么AI项目80%的时间都花在评估上?
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
这场来自 Quotient AI 与 Tavily 的分享,直面一个被严重低估的问题:当 AI 搜索系统运行在真实、动态的互联网中,我们究竟该如何评估它是否“做对了”?演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架,试图回答生产级 AI Agent 的核心难题。
这场演讲不是炫技,而是一位一线构建者对企业级生成式AI落地的复盘。从多模态搜索的现场演示,到AWS上的分层架构,再到ROI与个性化的取舍,Randall Hunt分享了把POC真正推向生产环境时,最容易被忽视却代价高昂的经验。
这场演讲展示了一种全新的阅读范式:书不再只是静态文字,而是能听、能问、能理解上下文的互动体验。演讲者通过真实的个人困惑出发,讲述了如何用AI重构阅读,并分享了隐藏AI、强调人类审美的产品方法论。
本文带你深入了解Perplexity创始人Aravind Srinivas如何以极致速度和技术创新挑战Google、OpenAI等巨头,揭秘AI搜索与智能代理的未来,以及创业路上的真实故事和独特洞见。
MongoDB旗下Voyage AI的Frank Liu,用10多分钟梳理了AI搜索与检索的现状与未来。他不仅回顾了从BM25到Embedding的技术演进,更明确指出:真正拉开差距的不是“用不用向量”,而是Embedding质量、多模态能力,以及是否具备指令理解与推理能力。
这场来自微软的技术演讲,并没有停留在“AI Agent是什么”的概念层面,而是用完整的工程实践,展示了如何用Azure AI Agent Service真正构建、运行和约束一个Agent系统。文章将带你理解2025年Agent浪潮背后的方法论,以及微软在工程化上的关键取舍。
Windsurf产品负责人Kevin Hou在AI Engineer Worlds Fair上,讲述了他们如何从“代码补全”迈向“全程代理”,以及一个核心理念:让人类与AI共享同一条时间线。本文还原演讲中最关键的洞见、案例与判断。
这场演讲分享了Cato在构建云架构AI Copilot过程中的真实探索:为什么传统自动化不够用,以及如何通过多智能体、图结构和严谨评估,让AI参与复杂的架构推理与决策。
这是一场来自彭博社AI工程负责人Anju Kambadur的实战分享。她没有停留在“Agent很有前途”的空谈,而是用彭博在真实金融场景中的产品经验,讲清楚什么是可落地的Agent、为什么必须是“半自动”、以及在高风险行业里,Agent规模化的真正难点。