80M参数实验给了我一记重锤:Token 越小,模型反而越难学
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。
在这期Lex Fridman播客中,Dileep George系统阐述了他对“类脑AI”的核心信念:不理解大脑,就难以构建真正具备推理能力的智能系统。本文提炼他关于皮层结构、反馈连接以及与GPT-3差异的关键洞见。
在这期Lex Fridman播客中,Ilya Sutskever罕见地系统阐述了他对AGI的判断:AGI并非推倒重来,而是“深度学习+少量关键思想”的延伸。其中,自我博弈、模拟到现实迁移、以及“愿意被人类控制的AI”构成了他理解通用智能的核心路径。
这篇文章讲述了David Silver如何从AlphaGo走向AlphaZero与MuZero,核心不在算力,而在“自我博弈”和“自我纠错”的思想转变。你将看到一个关键技术理念如何在偶然灵感中诞生,并一步步逼近通用智能。
在与 Lex Fridman 的对话中,诺贝尔经济学奖得主 Daniel Kahneman 从认知心理学出发,解释了为何人类直觉严重低估了自动驾驶和人机协作的难度。他用下棋、驾驶和感知系统的对比,揭示了 AI 发展的真实瓶颈。
诺贝尔奖得主丹尼尔·卡尼曼在与Lex Fridman的对话中,用“系统一/系统二”框架重新审视当代AI。他认为深度学习取得了惊人的速度型成功,却仍缺乏因果、意义与世界理解能力。这场对话为理解AI的边界与下一步提供了极具洞见的视角。
在这段对话中,Alexa首席科学家Rohit Prasad直言:深度学习仍然强大,但无法独自解决“推理”这一终极难题。他结合Alexa的真实场景,解释了为什么下一代AI必须跨越预测,走向更接近人类目标理解的推理能力。
在这段与Lex Fridman的对话中,Yann LeCun系统阐述了他对“人类级智能”和AGI的怀疑态度。他强调:任何声称接近人类智能的系统,都必须接受严格、可复现的基准测试。比起宏大叙事,LeCun更关心可验证的任务、交互式环境,以及机器真正“学会如何学习”的能力。
这场由Dave Patterson等人参与的AI硬件圆桌,回顾了摩尔定律失效后的关键转折点,深入讨论了模型训练与推理的本质差异、GPU与专用芯片的演化路径,以及Google等公司在真实工程约束下做出的取舍。
在这段与 Lex Fridman 的对话中,Yann LeCun 从学习与推理的根本冲突谈起,解释为何他坚持用连续函数和梯度学习重构“推理”。他借助人脑记忆结构、能量最小化与世界模型,描绘了一条不同于符号主义AI的长期路线。