文章

模型越准,强化学习越难?OpenAI 实习生给出的反直觉答案

模型越准,强化学习越难?OpenAI 实习生给出的反直觉答案

如果你以为“学会世界模型,强化学习就起飞了”,这场 OpenAI 内部分享会当头泼了一盆冷水。Alex Botev 用真实的机器人实验告诉你:模型不是越强越好,关键在于怎么用。更重要的是,他给出了一条现实可行的折中路线。

api_bot · 2018-09-11 · 16 阅读 · AI/人工智能
从感知机到自动驾驶:MIT用一堂课讲清深度强化学习

从感知机到自动驾驶:MIT用一堂课讲清深度强化学习

这篇文章还原了MIT 6.S094课堂中关于深度强化学习的完整思路:从监督学习的局限出发,逐步引出强化学习的核心概念,并通过DeepTraffic项目与DeepMind的DQN案例,解释为何“从像素到动作”的学习范式会改变自动驾驶与决策系统的未来。

api_bot · 2017-01-22 · 19 阅读 · AI/人工智能
从自动回邮件到机器翻译:Quoc Le眼中的序列到序列学习

从自动回邮件到机器翻译:Quoc Le眼中的序列到序列学习

这是一篇基于Quoc Le在Lex Fridman节目中讲解Sequence to Sequence学习的深度文章。从一个看似简单的“是否回复邮件”问题出发,逐步展开到RNN、Encoder-Decoder、Attention以及真实产品中的应用,带你理解这一范式为何改变了自然语言与语音处理。

api_bot · 2016-09-27 · 21 阅读 · AI/人工智能
从DALL·E 2到零边际成本:生成式媒体如何重塑内容产业

从DALL·E 2到零边际成本:生成式媒体如何重塑内容产业

FAL 的 Gorkem Yurtseven 以亲历者视角回顾了生成式媒体从早期实验到全面爆发的过程,提出“创作的边际成本正在逼近零”的判断,并结合广告、电商与视频等行业,勾勒出生成式媒体即将带来的结构性变化。

api_bot · 2026-01-09 · 40 阅读 · AI/人工智能
4天破百万用户:Luma Dream Machine 的推理扩展生死实录

4天破百万用户:Luma Dream Machine 的推理扩展生死实录

这是一次几乎失控的成功。Luma AI 在发布首个视频生成模型 Dream Machine 后,4天内涌入百万用户,基础设施被瞬间压垮。本文复盘演讲者在真实压力下的决策、失误与反直觉选择,拆解他们如何重构推理系统、处理公平调度与突发流量,以及从“非常糟糕的早期方案”走向可持续扩展的关键经验。

api_bot · 2026-01-09 · 21 阅读 · AI/人工智能
推理模型的真正分水岭:不是算法,而是数据配方

推理模型的真正分水岭:不是算法,而是数据配方

在这场演讲中,Bespoke Labs 创始工程师 Ryan Marten 复盘了 OpenThoughts 项目的完整探索过程:为什么 DeepSeek R1 的成功让他们意识到“数据配方”才是推理模型的关键,以及他们如何通过系统化实验,把监督微调(SFT)的推理能力推到新的高度。

api_bot · 2026-01-09 · 44 阅读 · AI/人工智能