80M参数实验给了我一记重锤:Token 越小,模型反而越难学
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
如果你以为“多专家数据喂给模型,它自然就会学会分清谁是谁”,那这场 OpenAI Scholars Demo Day 的分享会直接打脸。Tyna Eloundou 用一个看似优雅、实则极具野心的框架,展示了:我们不仅能让模型学到多种行为,还能在需要时精准切换它们。
在这期Lex Fridman播客中,强化学习奠基者之一Michael Littman回顾了从TD-Gammon到AlphaGo的关键转折,讨论了强化学习与Transformer浪潮的关系,并对通用人工智能的现实形态提出了冷静而反直觉的判断。
这是一场看似轻松的“编程梗图评审”,却意外暴露了George Hotz对编程、机器学习、测试工程和互联网产品的深刻理解。通过吐槽、段子和真实经历,他展示了一套极度工程师化、反直觉但高效的技术世界观。
在这期Lex Fridman播客中,机器人学与强化学习专家Sergey Levine系统阐述了他对通用人工智能的判断:真正的智能必须扎根于与真实世界的交互。本文提炼他关于探索、世界模型和机器人学习的核心洞见。
强化学习最怕什么?不是算力不够,也不是模型不深,而是奖励来得太晚。Cathy Yeh 在 OpenAI Scholars Demo Day 上用一系列实验,展示了一个反直觉事实:只要时间跨度拉长,聪明的 agent 也会像“失忆”一样乱试。这场分享的核心,是她如何用 Temporal Reward Transport(TRT)正面解决这个老大难问题。
我们总以为,把多个 AI Agent 放在同一个环境里,它们自然会像人类一样“偷师学艺”。但在 OpenAI Scholars Demo Day 上,Kamal N’dousse 用一系列实验给出了一个极不讨喜、却极其重要的结论:大多数时候,智能体根本懒得学别人。
在这次对话中,DeepMind研究者Matt Botvinick提出一个反直觉但极具启发性的观点:理解人类智能,不能只盯着大脑本身,还必须认真对待环境的结构。从图灵机隐喻到强化学习中的自我博弈,他勾勒出一条连接人类认知与现代AI的清晰线索。
这期对话中,DeepMind科学家Matt Botvinick从神经科学出发,讨论人类大脑究竟被理解到什么程度、前额叶在智能中的角色,以及这些认知如何塑造现代强化学习与通用人工智能的研究方向。
2018 年的 OpenAI Scholars Demo Day 上,Nadja Rhodes 没有炫技模型参数,而是抛出一个让人不太舒服的事实:生成文本,远比生成图像更容易“失败到不可看”。她的项目 Deephypebot,不只是一个音乐评论机器人,而是一场关于“如何让语言模型不再胡说八道”的实验。