把大模型送进生产环境之前,评测才是真正的护城河
在这场关于LLM评测的演讲中,Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明:生成式 AI 的最大风险不在“不会用”,而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。
在这场关于LLM评测的演讲中,Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明:生成式 AI 的最大风险不在“不会用”,而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。
这不是一场关于“AI 很强”的演示,而是一场关于如何把 AI Agent 安全、可复现、可维护地交付到真实工程里的工作坊。Kyle Penfound 和 Jeremy Adams 用 Dagger 从零搭起一个能跑在本地、CI 和 GitHub Actions 里的 Agent,展示了工程化智能体的完整路径。
这场由 Bench 的 Damien Murphy 带来的 Workshop,用真实代码和现场 Demo 讲清了两个当下最火的概念:A2A 与 MCP。它不仅回答了“该用哪个”,更重要的是解释了“什么时候千万别用”,以及如何把它们组合成可落地的自动化系统。
这场演讲围绕一个核心问题展开:为什么“通用机器人”在今天才变得可行?两位来自Physical Intelligence的研究者,从视觉-语言-动作模型(VLA)的技术突破、数据引擎的构建方式,到真实家庭场景中的机器人演示,给出了一个比“算力更强了”更具体、更残酷也更乐观的答案。
Pydantic作者Samuel Colvin在一次AI Engineer演讲中,抛出了一个反直觉观点:在生成式AI飞速变化的今天,真正不该被忽视的,是类型安全和工程基本功。他用真实代码演示解释了,为什么Agent并不神秘,以及为什么类型系统正在成为AI应用可维护性的核心。
在这场分享中,OpenHands 联合创始人 Robert Brennan 以一线工具构建者的视角,拆解了“软件开发代理”到底是什么、擅长什么、不擅长什么,以及开发者该如何与它们协作。他给出的不是宏大叙事,而是一套能立刻改变你工作方式的心智模型。
很多AI编码工具能快速写出“能跑的代码”,却难以进入生产环境。Imbue CTO Josh Albrecht通过真实开发经验,系统拆解了AI代码质量失控的根源,并给出一套从预防到检测、修复的完整方法论,解释如何让AI真正成为可靠的软件工程师。
Factory创始人Eno Reyes通过真实演示与一线经验,讲述软件开发如何从“人驱动”迈向“AI代理驱动”。这不仅是效率提升,而是角色、流程与思维方式的根本转变。
本文深度还原了Linear联合创始人Karri Saarinen在Y Combinator设计评审中的独特洞见。他结合自身在Coinbase、Airbnb和Linear的经历,讲述了品牌如何与产品阶段和用户需求真实对话,并通过多个创业网站案例,揭示了初创公司在品牌塑造、用户沟通和设计细节上的关键取舍。
这场来自 Glean 的分享,直面一个困扰无数 AI 工程师的问题:到底该做“工作流”,还是“智能体”?演讲者通过真实的工程取舍、形象的比喻和企业级场景的反思,给出了一套并不极端、却更可落地的方法论。