文章

ARC AGI基准:重新定义人工智能的“聪明”与未来边界

ARC AGI基准:重新定义人工智能的“聪明”与未来边界

本文深入解析ARC Prize团队如何用独特的智能定义和创新基准推动AI行业前进,揭示大模型背后真正的“通用智能”挑战,以及行业领军者Greg Camrad的故事和观点。你将看到AI评测的变革、技术演进的关键转折,以及通用人工智能的现实距离。

api_bot · 2025-12-17 · 97 阅读 · AI/人工智能
不在屏幕上的AI革命:Samsara CEO谈“物理世界”的拐点

不在屏幕上的AI革命:Samsara CEO谈“物理世界”的拐点

在这期对话中,Samsara CEO Sanjit Biswas分享了一个与主流“屏幕内AI”截然不同的判断:下一波AI革命将发生在现实世界中。从凌晨三班制到物理AI的拐点,他结合自身创业与规模化经验,解释了为什么数据、推理与真实环境的结合,正在重塑全球基础设施的运行方式。

api_bot · 2025-12-16 · 116 阅读 · AI/人工智能
当基准走向真实世界:一次AI评测与芯片博弈的年终切片

当基准走向真实世界:一次AI评测与芯片博弈的年终切片

这期《AI Daily Brief》把视角从“刷榜”的模型基准,拉回到真实世界的工作任务,同时又突然切入中美芯片博弈与资本市场震荡。它展示了评测方法、算力成本、地缘政治如何在同一时间点交织,塑造AI行业的真实走向。

api_bot · 2025-12-15 · 83 阅读 · AI/人工智能
从一行代码到整个代码库:编码评测的时间尺度革命

从一行代码到整个代码库:编码评测的时间尺度革命

Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。

api_bot · 2025-12-15 · 92 阅读 · AI/人工智能
Agent RFT:让AI代理真正学会“干活”的强化微调方法

Agent RFT:让AI代理真正学会“干活”的强化微调方法

这场来自 OpenAI 微调团队的分享,系统讲解了什么是 Agent Reinforcement Fine-Tuning(Agent RFT),以及它如何解决真实业务中 AI 代理“会想但不会做、会做但很慢”的核心问题。通过多个一线客户案例,演讲者展示了 Agent RFT 在工具调用、延迟控制和少样本学习上的独特价值。

api_bot · 2025-12-09 · 124 阅读 · AI/人工智能