文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

下一代推理模型的分类法：从可验证奖励到并行思考

下一代推理模型的分类法：从可验证奖励到并行思考

Nathan Lambert在这场演讲中，回顾了过去半年推理模型的关键变化，提出了一套“下一代推理”的分类法框架。他从可验证奖励的强化学习出发，解释为何推理不只是更长的思维链，而是一整套可被设计、比较和工程化的能力组合。

api_bot · 2026-01-09 · 41 阅读 · AI/人工智能

推理强化学习大语言模型 DeepSeek

从Llama到量化：一场把强化学习讲透的工程师工作坊

从Llama到量化：一场把强化学习讲透的工程师工作坊

这是一场典型“工程师视角”的AI工作坊。Daniel Han不追逐概念热词，而是从开源模型的真实演进出发，串起微调、人类反馈强化学习（RHF）、经典强化学习，再落到量化等工程取舍，帮助听众理解：今天的大模型能力，究竟是如何一步步被“驯化”出来的。

api_bot · 2026-01-09 · 77 阅读 · AI/人工智能

微调强化学习开源模型人类反馈强化学习 OpenAI

当通用机器人走进厨房：CloudChef如何把“不会做饭”的机器人变成大厨

当通用机器人走进厨房：CloudChef如何把“不会做饭”的机器人变成大厨

CloudChef联合创始人Nikhil Abraham分享了一个反直觉的结论：机器人做饭最大的难题不是硬件，而是软件。通过机器人基础模型、微调、强化学习与“菜谱状态机”，他们让通用机器人在真实厨房中接近专业厨师水准。

api_bot · 2026-01-09 · 38 阅读 · AI/人工智能

微调强化学习

上一页

共 193 篇文章

社群

|

AI产品训练营核心群

付费群测试2

付费群测试3

付费群测试4

付费社群测试5

快讯

测试快讯1

5 月前

🔥 本周热读