当AI被纽约时报《Connections》难住:一场关于推理极限的实验

AI PM 编辑部 · 2025年07月05日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

纽约时报游戏开发者 Shafik Quoraishee 通过《Connections》这款现象级文字游戏,做了一次“非官方”的AI实验。它不是为了让模型通关,而是借助失败,揭示大语言模型在抽象推理、语义对齐和误导信息面前的真实能力边界。

当AI被纽约时报《Connections》难住:一场关于推理极限的实验

纽约时报游戏开发者 Shafik Quoraishee 通过《Connections》这款现象级文字游戏,做了一次“非官方”的AI实验。它不是为了让模型通关,而是借助失败,揭示大语言模型在抽象推理、语义对齐和误导信息面前的真实能力边界。

从一款爆红文字游戏,走进AI的“盲区”

为什么一家以新闻著称的媒体,会成为研究AI推理能力的绝佳样本?Shafik Quoraishee给出的答案很直接:因为《Connections》这款游戏,天然就站在“人类直觉”与“机器推理”的交界处。

他在演讲一开始反复强调,这不是纽约时报的官方研究,而是“我自己的独立研究和实验”,目的也并非给AI下结论,而是“investigatory, not authoritative(探索性的,而非权威的)”。这种姿态本身,就为整场分享定下了基调:它更像一场开发者的好奇心驱动实验。

《Connections》于2023年6月进入测试,8月正式发布,很快成为纽约时报仅次于 Wordle 的第二大游戏,“在第一年内获得了数亿次游玩”。规则看似简单:每天16个单词,找出4组各含4个、且互不重叠的关联词组。但正是这种极简设计,让游戏成为测试推理能力的理想容器。

一个重要的前提被Shafik明确说出:“所有 Connections 的谜题、机制和程序,现在以及永远,都是人类制作的。”这句话既是价值声明,也暗示了后续实验的张力——当一个完全为人类思维方式设计的游戏,被交到AI手中,会发生什么?

黄色到紫色:难度设计本身就是一道推理题

理解AI为何会在《Connections》中犯错,首先要理解这款游戏的难度结构。Shafik用颜色体系拆解了设计者的“心理曲线”。

黄色是最直观的分类,几乎不需要跳跃式思考;绿色开始要求玩家“稍微伸展一下思路”;蓝色进入习语、词汇学或冷知识层面;而紫色,则是玩家口中的“噩梦”。Shafik形容紫色的关键在于“decoy overlap misleads”——刻意设置的重叠与误导。

这并不是简单的难,而是一种结构性陷阱:单词之间存在真实的多重关系,但游戏只允许其中一种成立。人类会通过直觉、经验和排除法慢慢逼近正确答案,而AI往往会被“看起来更强的局部关联”吸引。

正因为如此,Shafik认为《Connections》非常适合用来测试AI的抽象推理能力。他在现场直接演示,把当天的谜题输入 ChatGPT,结果模型给出了一个“完全合理、但就是错的”分组。他调侃道,这是“ChatGPT giving the wrong solution”。

这个瞬间成为整场演讲的转折点:问题不在于模型不懂词义,而在于它无法像人类一样,识别哪些关联是被设计成陷阱的。

人类如何解题,以及AI为什么学不会这一步

在分析模型之前,Shafik先反问了一个看似简单的问题:人类是怎么解《Connections》的?

他的观察并不浪漫。人类玩家并不是一次性找到正确分组,而是不断试错、回退、重组。这个过程充满了直觉判断、情绪反馈,以及对“差一点就对了”的敏感捕捉。这也是他所说的,“that’s one of the fun parts of the game”。

相比之下,AI更依赖静态的语义相似度。Shafik引入了一个核心概念:semantic similarity(语义相似度)。通过词向量或嵌入,模型可以判断哪些词在语义空间中更接近。但问题在于,《Connections》的难点恰恰不在“最近”,而在“正确”。

当词汇数量增加、关系维度变多时,“it becomes much more difficult”。模型缺乏一种能力:在多个同样合理的聚类方案中,识别哪一个是设计者真正想要的答案。

这也是为什么现有的 Connections benchmarks 虽然存在,却很难真正反映人类玩家的体验——它们往往奖励“相似”,而不是“避开误导”。

语义图与多维对齐:AI解题的可能方向

在指出问题之后,Shafik并没有止步于批评,而是尝试构建一种更接近人类思维的技术路径。

他提出用语义图(semantic graphs)来表示词与词之间的关系,而不是简单的一维相似度排序。在这种图结构中,节点是单词,边代表不同类型、不同强度的关系。

进一步,他提出了一个更复杂的概念:“multi-dimensional relational alignment distribution”。直观来说,就是不只问“这两个词像不像”,而是同时考虑它们在多个关系维度上的对齐程度,并观察最终形成的聚类强度。

在实验中,他关注的不是模型是否选中了正确答案,而是“how strong the relationships are within the clusters that form”。这是一种明显偏向分析而非结果导向的方法。

至于为什么要做这些?Shafik在结尾给出了一个很工程师的回答:不是为了自动解题,而是为了“make it more involved for even more puzzles”。理解AI在哪里失败,反而能帮助人类设计出更有层次、更耐玩的游戏。

总结

这场分享真正有价值的地方,不在于是否教会了AI通关《Connections》,而在于它展示了一种罕见的视角:把AI当成一面镜子,反照人类思维的独特之处。通过一次次“合理但错误”的解答,Shafik Quoraishee 让我们看到,大语言模型擅长相似,却仍不擅长被刻意误导的推理。这种差距,正是未来AI研究、以及游戏设计中最值得深挖的空间。


关键词: Connections, 纽约时报游戏, 语义相似度, 大语言模型, 推理能力

事实核查备注: 演讲者:Shafik Quoraishee(NYT Games)|游戏发布时间:2023年6月测试,8月正式发布|游戏地位:NYT第二大游戏,仅次于Wordle|难度分类:Yellow / Green / Blue / Purple|明确声明:研究为个人独立实验,非NYT内部研究|演示模型:ChatGPT|关键技术概念:semantic similarity,semantic graphs,multi-dimensional relational alignment distribution