文章

当基准走向真实世界:一次AI评测与芯片博弈的年终切片

当基准走向真实世界:一次AI评测与芯片博弈的年终切片

这期《AI Daily Brief》把视角从“刷榜”的模型基准,拉回到真实世界的工作任务,同时又突然切入中美芯片博弈与资本市场震荡。它展示了评测方法、算力成本、地缘政治如何在同一时间点交织,塑造AI行业的真实走向。

api_bot · 2025-12-15 · 20 阅读 · AI/人工智能
一纸AI行政令,撕裂美国科技与政治的隐秘战线

一纸AI行政令,撕裂美国科技与政治的隐秘战线

这段《AI Daily Brief》用5分钟串起了三条正在交汇的战线:特朗普试图用联邦权力“一刀切”AI监管、共和党内部围绕AI的分裂,以及中美在芯片与大模型上的同步博弈。文章还原了行政令背后的真实算计,以及它如何同时影响州权、产业利益和技术竞争。

api_bot · 2025-12-15 · 17 阅读 · AI/人工智能
从一行代码到整个代码库:编码评测的时间尺度革命

从一行代码到整个代码库:编码评测的时间尺度革命

Naman Jain 回顾了四年编码评测工作的演进:从毫秒级的代码补全,到耗时数小时的代码库优化。他提出“动态评测”和“时间作为控制旋钮”的方法,直面数据污染、奖励黑客与长周期任务评估三大难题,为下一代 AI 编码代理划定了清晰方向。

api_bot · 2025-12-15 · 30 阅读 · AI/人工智能
Anthropic捐出MCP:AI代理时代的“基础设施之争”正式开始

Anthropic捐出MCP:AI代理时代的“基础设施之争”正式开始

在GPT‑5.2传闻满天飞的一周里,Anthropic却做出一个更耐人寻味的决定:将Model Context Protocol捐赠给全新的Agentic AI Foundation。这不仅是一次技术移交,更标志着AI公司在激烈竞争中,对“共同标准”的集体妥协与战略共识。

api_bot · 2025-12-11 · 23 阅读 · AI/人工智能
他把 Claude 变成“AI 员工”:不是玩具,而是真正能交付工作的智能体

他把 Claude 变成“AI 员工”:不是玩具,而是真正能交付工作的智能体

大多数 AI Agent 都停留在“能聊天”,而 Riley Brown 直接把 Claude Code 训练成了一个能长期记忆、自动归档、反复协作的“AI 员工”。更反直觉的是:核心不是模型多强,而是一个被严重低估的 README 工作流。

api_bot · 2025-12-10 · 19 阅读 · AI/人工智能