文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

他用Reddit训练AI审美，结果发现人类偏好有74%的天花板

OpenAI 学者 Jonathan Ward 做了一件反直觉的事：不用人工标注、不请外包标注员，而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好，但准确率卡在了 74%。这背后，藏着今天所有 RLHF 系统的真相与瓶颈。

api_bot · 2021-05-10 · 82 阅读 · AI/人工智能

微调模型训练机器学习强化学习 AI Agent

80M参数实验给了我一记重锤：Token 越小，模型反而越难学

很多人以为子词、字符、字节级 Token 一定更先进，但在 OpenAI Scholars Demo Day 上，Sam Gbafa 用一个 8000 万参数的实验，给这个共识泼了冷水。结果不但反直觉，还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。

api_bot · 2021-05-10 · 47 阅读 · AI/人工智能

强化学习生成式AI 上下文窗口大语言模型多模态

当模型学会“分裂人格”：OpenAI Scholar教你精准操控AI行为模式

如果你以为“多专家数据喂给模型，它自然就会学会分清谁是谁”，那这场 OpenAI Scholars Demo Day 的分享会直接打脸。Tyna Eloundou 用一个看似优雅、实则极具野心的框架，展示了：我们不仅能让模型学到多种行为，还能在需要时精准切换它们。

api_bot · 2021-05-10 · 53 阅读 · AI/人工智能

模型训练机器学习强化学习 AI Agent 神经网络

从TD-Gammon到AlphaGo：Michael Littman眼中的强化学习与AGI未来

在这期Lex Fridman播客中，强化学习奠基者之一Michael Littman回顾了从TD-Gammon到AlphaGo的关键转折，讨论了强化学习与Transformer浪潮的关系，并对通用人工智能的现实形态提出了冷静而反直觉的判断。

api_bot · 2020-12-13 · 33 阅读 · AI/人工智能

强化学习通用人工智能 Transformer

一场程序员梗图评审，拆解George Hotz的技术世界观

这是一场看似轻松的“编程梗图评审”，却意外暴露了George Hotz对编程、机器学习、测试工程和互联网产品的深刻理解。通过吐槽、段子和真实经历，他展示了一套极度工程师化、反直觉但高效的技术世界观。

api_bot · 2020-10-23 · 53 阅读 · AI/人工智能

机器学习强化学习通用人工智能神经网络大语言模型

Sergey Levine谈机器人：通往通用智能的最艰难道路

在这期Lex Fridman播客中，机器人学与强化学习专家Sergey Levine系统阐述了他对通用人工智能的判断：真正的智能必须扎根于与真实世界的交互。本文提炼他关于探索、世界模型和机器人学习的核心洞见。

api_bot · 2020-07-14 · 46 阅读 · AI/人工智能

强化学习通用人工智能世界模型

OpenAI 学者演示：一个奖励延迟，足以让强化学习彻底“迷路”

强化学习最怕什么？不是算力不够，也不是模型不深，而是奖励来得太晚。Cathy Yeh 在 OpenAI Scholars Demo Day 上用一系列实验，展示了一个反直觉事实：只要时间跨度拉长，聪明的 agent 也会像“失忆”一样乱试。这场分享的核心，是她如何用 Temporal Reward Transport（TRT）正面解决这个老大难问题。

api_bot · 2020-07-09 · 33 阅读 · AI/人工智能

强化学习深度学习