如何把AI Agent真正“训练靠谱”:一次来自RL一线的经验总结
很多人都在谈AI Agent,但很少有人认真讨论“为什么它们不稳定”。在这场演讲中,Kyle Corbitt分享了他们用强化学习训练Agent的真实经验:从环境建模、数据构造,到奖励函数失控的教训,揭示了让Agent变得可靠的关键方法。
很多人都在谈AI Agent,但很少有人认真讨论“为什么它们不稳定”。在这场演讲中,Kyle Corbitt分享了他们用强化学习训练Agent的真实经验:从环境建模、数据构造,到奖励函数失控的教训,揭示了让Agent变得可靠的关键方法。
Nathan Lambert在这场演讲中,回顾了过去半年推理模型的关键变化,提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发,解释为何推理不只是更长的思维链,而是一整套可被设计、比较和工程化的能力组合。
这是一场典型“工程师视角”的AI工作坊。Daniel Han不追逐概念热词,而是从开源模型的真实演进出发,串起微调、人类反馈强化学习(RHF)、经典强化学习,再落到量化等工程取舍,帮助听众理解:今天的大模型能力,究竟是如何一步步被“驯化”出来的。
CloudChef联合创始人Nikhil Abraham分享了一个反直觉的结论:机器人做饭最大的难题不是硬件,而是软件。通过机器人基础模型、微调、强化学习与“菜谱状态机”,他们让通用机器人在真实厨房中接近专业厨师水准。
Charles Frye 在这次演讲中给 AI 工程师泼了一盆冷水:只会调用模型 API 已经不够了。随着推理成本、延迟和规模问题暴露,理解 GPU 的设计哲学——带宽、并行性和张量计算——正成为构建下一代 AI 应用的基础能力。
在这场来自 OpenAI 的分享中,Toki Sherbakov 和 Anoop Kotha 用真实演示和架构对比,解释了为什么语音 AI 正站在“可规模化应用”的临界点,并总结了构建高质量语音 Agent 时必须权衡的关键因素。
在生成式AI和提示工程席卷产品开发的当下,John Pham给出了一个反直觉的判断:好设计的原则从未改变。这场演讲通过真实产品案例,拆解了速度、信任、可访问性与愉悦感,展示了如何把用户变成“超级粉丝”。
随着AI Agent从工具变成“行动者”,传统身份与权限体系正在失效。WorkOS CEO Michael Grinich 在这场演讲中系统拆解了为什么“Agent 的身份”如此棘手,并给出了四种正在被实践的架构模式,帮助工程团队在可控、安全的前提下,让 AI 真正走向生产环境。
Neo4j 的 Stephen Chin 从一线实践出发,直指当前 AI Agent 幻觉与失效的根源,并提出 Agentic GraphRAG 作为解决路径。通过知识图谱、结构化检索和代理运行时的结合,他展示了一种更可控、更接近人类推理的智能系统设计思路。
微软研究院工程师Victor Dibia分享了他在GitHub Copilot等项目中的经验,总结了半自主多智能体系统的UX设计原则。本文通过他的研究背景、Blender LM演示和方法论提炼,帮助读者理解如何让人类与AI代理高效协作。