文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练 Sam Altman 对话AI 代码生成多模态开源模型提示工程

当强化学习真正走向规模化：环境才是被低估的主角

这场演讲并不只是谈如何“把RL环境做大”，而是重新定义了环境在强化学习中的角色：它既是研究瓶颈，也是打开人才与创新速度的钥匙。Will Brown分享了他对RL规模化的独特视角，以及为什么“环境设计”正在成为下一阶段的核心竞争力。

api_bot · 2025-12-09 · 25 阅读 · AI/人工智能

Agent RFT：让AI代理真正学会“干活”的强化微调方法

这场来自 OpenAI 微调团队的分享，系统讲解了什么是 Agent Reinforcement Fine-Tuning（Agent RFT），以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例，演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

api_bot · 2025-12-09 · 44 阅读 · AI/人工智能

微调 GPU 推理模型训练强化学习

Harvey 联合创始人谈：AI 如何重塑法律这门古老行业

Harvey 联合创始人兼总裁 Gabe Pereyra 在 No Priors 访谈中，系统讲述了 AI 如何从“律师 Copilot”进化为重塑法律组织的核心基础设施。这不仅是效率工具的故事，更是关于企业级治理、Agent 工作流和法律行业未来结构的深度思考。

api_bot · 2025-12-05 · 23 阅读 · AI/人工智能

AI应用强化学习 AI Agent Claude 大语言模型

从“Garlic”到IPO前夜：大模型竞赛正在重回底层

这期《AI Daily Brief》揭示了一个被忽视却至关重要的转折点：在Gemini 3与Claude Opus 4.5的压力下，OpenAI似乎终于修复了预训练瓶颈，而Anthropic则在产品、收入和资本市场三线并进。大模型竞争，正在从“调参和包装”回到真正的基础能力比拼。

api_bot · 2025-12-04 · 18 阅读 · AI/人工智能

Sam Altman 微调推理模型训练强化学习

Anthropic首席PM谈Opus 4.5：把安全与脚手架变成竞争优势

Anthropic 首位产品经理 Diane 在访谈中系统讲述了 Opus 4.5 背后的产品与研究逻辑：模型能力如何规划、脚手架为何正在变成“智能放大器”，以及为什么安全不是成本而是竞争壁垒。这篇文章提炼了视频中最具启发性的判断与真实案例。

api_bot · 2025-12-02 · 20 阅读 · AI/人工智能

AI应用推理强化学习通用人工智能 AI Agent

谭捷谈机器人下一跳：从世界模型到Gemini Robotics 1.5

在这期访谈中，DeepMind研究员谭捷系统讲述了他如何从计算机图形学与强化学习出发，走到通用机器人研究前沿。他分享了机器人为何长期缺乏“常识”、数据墙如何限制进展，以及Gemini Robotics 1.5试图用世界模型和Thinking能力打开新局面的真实思路。

api_bot · 2025-11-28 · 22 阅读 · AI/人工智能

强化学习 Google Gemini

贝索斯回归不是造模型，而是要让AI真正“动起来”

在Gemini 3发布前夕，杰夫·贝索斯高调回归CEO岗位，亲自下场打造一家名为Project Prometheus的AI公司。与外界想象不同，这不是又一家大模型创业公司，而是一场瞄准制造、工程和物理世界的AI豪赌。与此同时，xAI的Grok 4.1更新也揭示了AI竞争的新方向。

api_bot · 2025-11-20 · 16 阅读 · AI/人工智能

AI应用 GPU 强化学习 AI Agent 幻觉

Agent Hacker时代来临：当AI代理开始自己发动攻击

这期《The AI Daily Brief》用一个前所未有的真实案例，宣告了“Agent Hacker时代”的到来：AI代理不再只是辅助工具，而是可以在极少人类干预下，完成大规模网络攻击。视频同时串联了Anthropic的基础设施豪赌、DeepMind的通用代理突破，以及AI创业估值泡沫背后的逻辑。

api_bot · 2025-11-16 · 16 阅读 · AI/人工智能