当“评测”成为新工作:Mercor CEO谈AI如何重塑知识劳动
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
在这期RedpointAI播客中,Mercor CEO围绕一个颠覆性判断展开:未来大量知识工作将被“评测(evals)”所取代。文章梳理他对AI推理、招聘、数据标注与人类角色变化的关键洞见,帮助读者理解正在逼近的结构性转变。
Anthropic在首届开发者大会上发布Claude Opus 4与Sonnet 4。本期AI Daily Brief不只讨论性能提升,更通过真实用户故事和一场“告密”争议,揭示大模型在写作、编程和AI对齐上的新能力与新风险。
在这场 Config 2025 的对谈中,真正炸场的不是 AI 能多强,而是它正在悄悄改变一个更底层的东西:谁在“管理”工作。Shishir Mehrotra 抛出一个反直觉判断——AI 不是先取代员工,而是让所有人更早成为“经理”,而大多数人,根本没学会怎么当好经理。
Fireworks 的 Lynn 在这场分享中提出一个少被讨论却极其关键的判断:AI 应用能否做大,瓶颈早已不在模型本身,而在推理阶段的系统性优化。她从应用开发者视角出发,讲清了未来推理扩展的三维定律,以及为什么推理必须与后训练协同设计,才能把成本压到 10 倍甚至 100 倍以下。
OpenAI研究员Dan Roberts用一次极具想象力的演讲,解释了为什么“推理”正在成为AI下一阶段的核心扩展维度。从test-time compute到强化学习主导训练,再到“9年内发现广义相对论”的大胆预测,这场分享揭示了通往AGI的一条非共识路径。
这期《AI Daily Brief》用三则看似分散的新闻,勾勒出当下AI产业的真实张力:中美监管灰区下的资本流动、AI Agent正在被“定价”的商业化拐点,以及微软押注“可记忆电脑”所引发的隐私博弈。它们共同指向一个问题:AI正在从技术奇观,走向日常基础设施。
一纸意外的总统行政令,把AI教育推上美国国家战略高度;与此同时,OpenAI正以收入预测、产品扩展和开源模型布局,重塑全球AI产业格局。本文串联政策、教育与产业三条线索,解读这场正在加速的AI人才与技术竞赛。
最新研究显示,AI Agent 能独立完成的任务复杂度,正在以远超预期的速度提升。从“每7个月翻倍”到“每4个月翻倍”,时间尺度的急剧压缩,可能意味着一场由 AI 自我加速引发的历史性拐点正在逼近。
在这场关于 GPT‑4.5 预训练的公开对谈中,OpenAI 几乎没有给出任何“数字答案”。参数多少?失败率多高?他们刻意回避。但真正的猛料恰恰在这些回避背后:当模型规模逼近极限,决定成败的已经不再是参数,而是系统、数据与人类决策的复杂博弈。
在2025年的Google Cloud Next大会上,Google几乎把所有筹码押在了AI Agent上。从支持MCP协议到推出A2A标准,再到为“推理时代”定制的TPU Ironwood,这场大会展示了Google如何试图重塑AI的基础设施层,并重新夺回行业节奏。