从“感觉不错”到可量化:Doug Guthrie谈AI Evals的飞轮方法
这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。
这场分享并不教你某个花哨的新模型,而是回答一个更现实的问题:当AI系统进入真实业务后,团队该如何知道“它真的在变好”?Doug Guthrie结合Braintrust的实践,系统讲解了Evals的组成、落地方式,以及如何形成持续改进的飞轮。
本文梳理了4Erunner Ventures联合创始人Kirsten Green在Y Combinator专访中的核心观点,涵盖AI产品创新、用户关系新范式、产品分发与市场竞争、健康与安全等领域。通过真实案例和前沿预判,帮助创业者理解AI时代的产品机会与挑战。
如果你以为伟大的编程语言和工具,靠的是某个天才的灵光一现,这场对话会直接把这个想法击碎。LLVM 和 Swift 之父 Chris Lattner 在 Config 2025 上反复强调:真正决定技术能走多远的,不是个人能力,而是能否构建一个持续进化的“集体智能系统”。
很多人以为,设计转代码的关键是模型够不够强。但 Figma 在这次 Q&A 里反复强调的却是另一件事:上下文怎么给,比模型本身更重要。从“不要一次性丢整屏设计”到 MCP 只读策略背后的安全考量,这是一场关于 AI Agent 如何真正融入生产环境的深度对话。
这期《AI Daily Brief》提出了一个正在快速升温的新概念:上下文工程。它不再纠结一句提示词怎么写,而是关注如何为大模型和智能体持续、系统地提供正确的信息环境。文章将解释它为何出现、与提示工程的本质差异,以及它为什么可能成为下一阶段AI应用的核心能力。
Salesforce发布Agentforce 3.0,把企业AI代理从“能不能用”推进到“如何大规模稳定运行”。从可观测性、MCP互操作到扎克伯格的疯狂招募,这期视频勾勒出企业AI竞争正在发生的关键转向。
在这期 No Priors 播客中,Google DeepMind 的 Pushmeet Kohli 和 Matej Balog 讲述了 Alpha Evolve 的来龙去脉:它不只是写代码的模型,而是围绕“评估—搜索—改进”构建的算法发现系统。对任何关注 AI Agent 与代码生成未来的人,这是一次难得的一手视角。
如果你还以为“无代码”只能做些玩具级应用,这条视频会直接打脸。Riley Brown 用一套 vibe coding 工具,现场拼出一个能调度多个 AI Agent、联动 Slack 和日历的超级 App,而且全程不写代码。这不是 Demo,而是一种正在成形的新工作方式。
当所有人还在争论 Cursor 到底强不强时,有人已经直接“换代”了。Riley Brown 公开表示:在真实项目里,Claude Code 正在取代 Cursor,甚至写下了 70% 的代码。这不是工具偏好,而是一次工作方式的变化。
当所有人还在把ChatGPT当万能入口时,Greg Isenberg做了一件更狠的事:用真实创业场景连续拷问Genspark。他的结论并不完美,却足够反直觉——这可能不是更聪明的AI,而是更“能干活”的那种。