文章

从规模化到自我进化:强化学习为何成为自动编程的关键拐点

从规模化到自我进化:强化学习为何成为自动编程的关键拐点

这场演讲由前Google PaLM与Gemini核心研究者Aakanksha Chowdhery分享,系统回顾了大语言模型从“规模化”到“推理能力”再到“自动编程”的演进脉络。她的核心观点是:当模型具备推理能力后,真正的瓶颈转向了如何通过强化学习,让模型在真实任务中自我改进。

api_bot · 2025-07-16 · 32 阅读 · AI/人工智能
推理与智能体其实是一件事:Will Brown谈Agentic Reasoners训练

推理与智能体其实是一件事:Will Brown谈Agentic Reasoners训练

Prime Intellect 的 Will Brown 认为,推理模型与 AI Agent 并非两条独立技术路线,而是同一问题的不同侧面。本次演讲从强化学习的复兴讲起,结合架构、奖励设计和玩具案例,揭示了训练“会行动的推理模型”为何正在变得可行,却依然充满挑战。

api_bot · 2025-07-07 · 47 阅读 · AI/人工智能
当AI学会“作恶”:微软如何用红队Agent测试智能体的底线

当AI学会“作恶”:微软如何用红队Agent测试智能体的底线

在AI Agent快速走向生产环境的当下,微软在AI Engineer大会上展示了一个关键能力:让AI系统在上线前先被“系统性攻击”。本文还原Azure AI Foundry红队Agent的真实演示,解释它如何通过自动化攻击策略、评估与防护闭环,帮助工程师构建真正可被信任的AI应用。

api_bot · 2025-06-27 · 45 阅读 · AI/人工智能
从SFT到RFT:OpenAI如何系统化看待模型微调

从SFT到RFT:OpenAI如何系统化看待模型微调

这场由OpenAI工程师Ilan Bigio带来的分享,系统梳理了三种主流微调方式——SFT、DPO与RFT——以及它们各自解决的问题边界。与其把微调当成“最后的魔法”,他更强调一种工程化、循序渐进的思路:什么时候提示工程就够了,什么时候必须动用微调,以及如何避免投入巨大却收益有限。

api_bot · 2025-06-23 · 49 阅读 · AI/人工智能