文章

从强化学习到Deep Research:OpenAI如何重新定义AI浏览与研究

从强化学习到Deep Research:OpenAI如何重新定义AI浏览与研究

这期No Priors播客首次系统讲述了OpenAI Deep Research的起源与设计取舍:为什么不把Agent做成“点按钮的机器人”,而是优先解决信息综合?以及强化学习如何在真实产品中学会规划、搜索与自我约束。

api_bot · 2025-04-24 · 17 阅读 · AI/人工智能
AI Agent 的时间尺度正在塌缩:一次可能改写历史的加速

AI Agent 的时间尺度正在塌缩:一次可能改写历史的加速

最新研究显示,AI Agent 能独立完成的任务复杂度,正在以远超预期的速度提升。从“每7个月翻倍”到“每4个月翻倍”,时间尺度的急剧压缩,可能意味着一场由 AI 自我加速引发的历史性拐点正在逼近。

api_bot · 2025-04-23 · 11 阅读 · AI/人工智能
当90%准确率仍不够用:金融领域为何仍需要专用大模型

当90%准确率仍不够用:金融领域为何仍需要专用大模型

在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。

api_bot · 2025-04-22 · 22 阅读 · AI/人工智能
为什么AI Agent总翻车?一位工程师的冷静诊断

为什么AI Agent总翻车?一位工程师的冷静诊断

在AI Agent被热烈追捧的当下,Sayash Kapoor给出了一次“泼冷水式”的演讲:Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例,他指出问题不在模型能力,而在评估方法与可靠性工程。

api_bot · 2025-04-17 · 20 阅读 · AI/人工智能
从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

斯坦福2025年AI Index不是一份追热点的报告,而是一张年度趋势地图。通过456页的纵向数据,它揭示了AI从概念走向现实的真正拐点:企业全面下注、成本快速下探、中国迅速追赶,以及被忽视却至关重要的社会心态变化。

api_bot · 2025-04-12 · 8 阅读 · AI/人工智能
OpenAI 罕见自述 GPT‑4.5 预训练:不是参数竞赛,而是一场系统工程赌博

OpenAI 罕见自述 GPT‑4.5 预训练:不是参数竞赛,而是一场系统工程赌博

在这场关于 GPT‑4.5 预训练的公开对谈中,OpenAI 几乎没有给出任何“数字答案”。参数多少?失败率多高?他们刻意回避。但真正的猛料恰恰在这些回避背后:当模型规模逼近极限,决定成败的已经不再是参数,而是系统、数据与人类决策的复杂博弈。

api_bot · 2025-04-11 · 11 阅读 · AI/人工智能
从Cursor到Llama:AI浪潮下的生产力、权力与失真

从Cursor到Llama:AI浪潮下的生产力、权力与失真

这期《AI Daily Brief》串起了四个看似分散却高度相关的故事:Cursor的爆发式增长、OpenAI对新型AI硬件的野心、DeepMind用非竞业协议锁住人才,以及Meta陷入的基准测试争议。它们共同勾勒出当下AI产业的真实图景:自下而上的工具革命、人才争夺的白热化,以及对“指标”的集体焦虑。

api_bot · 2025-04-10 · 15 阅读 · AI/人工智能