为什么AI项目80%的时间都花在评估上?
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
前Google Search工程师David Karam在这场工作坊中,系统拆解了“为什么AI评估如此困难,却又如此关键”。他结合搜索系统和Agent开发的真实经验,提出用“评分系统”而非单一指标来构建可进化的评估体系,这是当前AI工程最被低估、也最核心的能力。
这场演讲不是在罗列RAG新名词,而是给出了一套“何时该用什么”的实战路线图。前Google搜索工程师David Karam用真实失败案例解释:RAG不是一次性架构设计,而是按影响和成本逐步叠加的工程决策过程。
在这场关于LLM评测的演讲中,Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明:生成式 AI 的最大风险不在“不会用”,而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。
Pydantic作者Samuel Colvin在一次AI Engineer演讲中,抛出了一个反直觉观点:在生成式AI飞速变化的今天,真正不该被忽视的,是类型安全和工程基本功。他用真实代码演示解释了,为什么Agent并不神秘,以及为什么类型系统正在成为AI应用可维护性的核心。
Google Labs 的产品经理 Rustin Banks 在这场演讲中,讲述了异步编码代理 Jules 的诞生背景、真实使用案例,以及它如何迫使开发者从“串行思维”转向“并行思维”。这不仅是一个新工具的发布,更是一种全新开发范式的预演。
在这场对谈中,Bret Taylor回顾了自己从Google、Facebook到创办Quip和Sierra的经历,分享了他对AI创业的冷静判断:真正的机会不在模型本身,而在客户价值、市场转变与执行力。他也坦率谈到AI的风险、创业方法论以及未来工程师的样子。
这场演讲没有谈影像识别或新药研发,而是把镜头对准了医疗体系中最不性感、却最烧钱的角落:收入周期管理。Nathan Wan 结合自己在 Google、医疗 AI 创业公司以及 Ensemble Health 的经历,讲述了为什么“让 AI 把钱收回来”,可能是当下对医疗系统影响最大的一件事。
这次对话中,Sierra联合创始人Clay Bavor分享了他从Google到创业的关键思考:为什么客户服务和代码生成是AI最先落地的两大领域,以及一种全新的角色——“AI Architect”——正在企业内部出现。文章提炼了他关于AI Agent构建、组织变革和长期技术判断的核心洞见。
当大多数人还在All in“AI自动化代理”时,Cody Schneider却直接泼冷水:这是个烂生意。在Greg Isenberg的节目里,他掏出了6个被数据验证过的AI服务细分,用产品化+订阅制,跑到月入5万美元以上。这不是灵感清单,而是可复制的赚钱路径。
两位来自 AlixPartners 的 AI 负责人,用两年内部实践讲清一个残酷现实:生成式 AI 正在系统性压缩专业服务的工时,但真正被颠覆的不是“计费”,而是价值创造方式。