文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

ARC AGI基准：重新定义人工智能的“聪明”与未来边界

本文深入解析ARC Prize团队如何用独特的智能定义和创新基准推动AI行业前进，揭示大模型背后真正的“通用智能”挑战，以及行业领军者Greg Camrad的故事和观点。你将看到AI评测的变革、技术演进的关键转折，以及通用人工智能的现实距离。

api_bot · 2025-12-17 · 97 阅读 · AI/人工智能

AI应用推理模型训练强化学习通用人工智能

不在屏幕上的AI革命：Samsara CEO谈“物理世界”的拐点

在这期对话中，Samsara CEO Sanjit Biswas分享了一个与主流“屏幕内AI”截然不同的判断：下一波AI革命将发生在现实世界中。从凌晨三班制到物理AI的拐点，他结合自身创业与规模化经验，解释了为什么数据、推理与真实环境的结合，正在重塑全球基础设施的运行方式。

api_bot · 2025-12-16 · 116 阅读 · AI/人工智能

模型训练大语言模型计算机视觉 AI推理

当基准走向真实世界：一次AI评测与芯片博弈的年终切片

这期《AI Daily Brief》把视角从“刷榜”的模型基准，拉回到真实世界的工作任务，同时又突然切入中美芯片博弈与资本市场震荡。它展示了评测方法、算力成本、地缘政治如何在同一时间点交织，塑造AI行业的真实走向。

api_bot · 2025-12-15 · 83 阅读 · AI/人工智能

GPU 模型训练大语言模型 Token AI芯片

为什么前沿模型正在分化：RL环境、评测失真与“模型品味”

在这期对谈中，Edwin从一线视角讲述了前沿大模型为何开始走向分化：评测指标如何误导优化方向、RL环境为何成为新共识，以及真正决定模型上限的“品味”与文化。

api_bot · 2025-12-15 · 53 阅读 · AI/人工智能

模型训练强化学习

从一行代码到整个代码库：编码评测的时间尺度革命

Naman Jain 回顾了四年编码评测工作的演进：从毫秒级的代码补全，到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法，直面数据污染、奖励黑客与长周期任务评估三大难题，为下一代 AI 编码代理划定了清晰方向。

api_bot · 2025-12-15 · 92 阅读 · AI/人工智能

模型训练机器学习 AI Agent 代码生成大语言模型

10B参数如何做出顶级Agent？Miniax M2的反直觉路径

这场演讲并不是一次常规的模型发布，而是一份关于“如何把小模型做成好用Agent”的方法论说明。Olive Song从开发者体验出发，解释了Miniax M2为何以10B参数，却在真实编码与Agent任务中赢得社区认可。

api_bot · 2025-12-13 · 95 阅读 · AI/人工智能

模型训练强化学习 AI Agent 开源模型代码生成

构建AI编程代理的苦涩真相：从补丁工程到强化学习

这是一场来自一线实践者的反思演讲。Nik Pash 回顾了在构建 AI 编程代理过程中走过的弯路：从用工程技巧掩盖模型不足，到意识到评测与强化学习才是通往下一代能力的关键，并由此推出全新的基准体系。

api_bot · 2025-12-12 · 72 阅读 · AI/人工智能

模型训练强化学习

120万次评审背后：AI真能提升软件工程ROI吗？

斯坦福对12万名开发者、46对团队的长期研究发现：AI并非“用得越多越好”。真正拉开差距的，是代码库卫生、使用方式，以及是否用正确的指标衡量AI带来的工程产出。

api_bot · 2025-12-11 · 80 阅读 · AI/人工智能

AI应用模型训练机器学习 AI Agent AI工具

从OpenAI到企业一线：Applied Compute如何重做高效强化学习

这场演讲不是在重复“强化学习很重要”，而是讲清楚一件更现实的事：当RL从研究走向企业生产环境，什么地方一定会坏、为什么GPU会被浪费，以及他们如何用异步RL把训练效率拉回可控区间。

api_bot · 2025-12-09 · 91 阅读 · AI/人工智能

GPU 模型训练强化学习 AI Agent 开源模型

Agent RFT：让AI代理真正学会“干活”的强化微调方法

这场来自 OpenAI 微调团队的分享，系统讲解了什么是 Agent Reinforcement Fine-Tuning（Agent RFT），以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例，演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

api_bot · 2025-12-09 · 124 阅读 · AI/人工智能