他用Reddit训练AI审美,结果发现人类偏好有74%的天花板
OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。
OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
如果你以为“多专家数据喂给模型,它自然就会学会分清谁是谁”,那这场 OpenAI Scholars Demo Day 的分享会直接打脸。Tyna Eloundou 用一个看似优雅、实则极具野心的框架,展示了:我们不仅能让模型学到多种行为,还能在需要时精准切换它们。
在这期Lex Fridman播客中,强化学习奠基者之一Michael Littman回顾了从TD-Gammon到AlphaGo的关键转折,讨论了强化学习与Transformer浪潮的关系,并对通用人工智能的现实形态提出了冷静而反直觉的判断。
这是一场看似轻松的“编程梗图评审”,却意外暴露了George Hotz对编程、机器学习、测试工程和互联网产品的深刻理解。通过吐槽、段子和真实经历,他展示了一套极度工程师化、反直觉但高效的技术世界观。
在这期Lex Fridman播客中,机器人学与强化学习专家Sergey Levine系统阐述了他对通用人工智能的判断:真正的智能必须扎根于与真实世界的交互。本文提炼他关于探索、世界模型和机器人学习的核心洞见。
强化学习最怕什么?不是算力不够,也不是模型不深,而是奖励来得太晚。Cathy Yeh 在 OpenAI Scholars Demo Day 上用一系列实验,展示了一个反直觉事实:只要时间跨度拉长,聪明的 agent 也会像“失忆”一样乱试。这场分享的核心,是她如何用 Temporal Reward Transport(TRT)正面解决这个老大难问题。
我们总以为,把多个 AI Agent 放在同一个环境里,它们自然会像人类一样“偷师学艺”。但在 OpenAI Scholars Demo Day 上,Kamal N’dousse 用一系列实验给出了一个极不讨喜、却极其重要的结论:大多数时候,智能体根本懒得学别人。
在这次对话中,DeepMind研究者Matt Botvinick提出一个反直觉但极具启发性的观点:理解人类智能,不能只盯着大脑本身,还必须认真对待环境的结构。从图灵机隐喻到强化学习中的自我博弈,他勾勒出一条连接人类认知与现代AI的清晰线索。
这期对话中,DeepMind科学家Matt Botvinick从神经科学出发,讨论人类大脑究竟被理解到什么程度、前额叶在智能中的角色,以及这些认知如何塑造现代强化学习与通用人工智能的研究方向。