从自行车上的鹈鹕,看懂2025年上半年大模型真正的拐点
正在加载视频...
视频章节
Simon Willison 用一场充满幽默的演讲,回顾了 2025 年前六个月大模型世界的剧烈变化:模型更便宜、更强、本地可跑,也更危险。这篇文章提炼了他最重要的判断、案例和隐忧,帮你快速理解今年 LLM 发展的真实方向。
从自行车上的鹈鹕,看懂2025年上半年大模型真正的拐点
Simon Willison 用一场充满幽默的演讲,回顾了 2025 年前六个月大模型世界的剧烈变化:模型更便宜、更强、本地可跑,也更危险。这篇文章提炼了他最重要的判断、案例和隐忧,帮你快速理解今年 LLM 发展的真实方向。
为什么“只回顾六个月”,反而更有价值
这场演讲一开始,Simon Willison 就给自己“拆台”。他坦言,原本计划回顾一年大模型进展,但很快发现这是个错误决定,因为“这个领域一直在加速”。最终,他被迫把范围缩小到“最近六个月”,却意外让内容变得更有穿透力。
这个转折本身,就是 2025 年 LLM 行业的真实写照:变化快到让经验主义失效。Willison 说,这种加速让回顾变得异常困难,但也更有意义,因为很多趋势不是线性演进,而是突然发生质变。比如模型能力、价格和部署方式,都在短时间内跨过了一个门槛。
他特别提到,自己喜欢这种回顾任务,是因为模型“真的很努力”,哪怕经常出错,也会试图解释、补充注释、给出理由。这种“努力但不完美”的状态,贯穿了整个上半年的模型生态:强大、好玩,但还远谈不上可靠。
这个开场的重要性在于,它奠定了演讲的基调:这不是一份发布会流水账,而是一个长期使用者,在高速变化中试图抓住真正信号的个人笔记。
从 685B 圣诞模型到 DeepSeek:模型能力的“性价比革命”
回到 2024 年 12 月,Willison 按时间线展开回顾。那个月发布密集,但真正让他兴奋的,是 Llama 3 70B 这样的开源模型,以及圣诞节当天出现的一个“巨无霸”。
他提到,圣诞节发布的那款模型规模达到 685B 参数,更令人震惊的是,训练成本“只有大约 550 万美元”。这在几年前几乎不可想象,也成为一个标志性事件:大模型不再只是无限烧钱的游戏。
进入 1 月,DeepSeek R1 的发布成为重要节点。但 Willison 特别强调,他当月最喜欢的反而是一个更小的模型。原因不在于榜单成绩,而在于一个判断——“过去六个月里最令人兴奋的趋势,是本地模型真的变好了。”他甚至重复强调:“They’ve got good now.”
这句话背后,是一个结构性变化:模型能力开始下沉。能在本地设备上运行、成本可控、效果可接受的模型,正在改变开发者的选择空间。这不只是技术进步,而是部署模式和商业逻辑的松动。
价格崩塌与多模态跃迁:2 月到 3 月的双重震荡
2 月和 3 月,是 2025 上半年变化最集中的阶段。2 月,Claude 3.7 Sonnet 和 GPT‑4.5 相继登场。Willison 的评价非常直接:好模型的价格“已经彻底崩塌了”——当然,“不包括 GPT‑4.5”。
这句半开玩笑的补充,点出了现实矛盾:一方面,行业整体算力成本和推理价格快速下降;另一方面,顶级闭源模型依然保持溢价。这种分化,迫使开发者开始认真权衡:到底要的是极限能力,还是可规模化的性价比。
3 月,多模态成为主角。Gemini 2.5 Pro 发布,随后 OpenAI 推出了 GPT‑4o 原生多模态图像生成能力。Willison 对能力本身并不吝啬赞美,但很快话锋一转,提到了 ChatGPT 的“记忆”等特性。
他直言,这些功能“正在把控制权从用户手中拿走”,而这种体验“确实令人沮丧”。这不是反对多模态,而是提醒:当模型变得更主动、更长期记住你,用户是否还有足够的透明度和选择权?
鹈鹕、自制工具与“致命三要素”
演讲中最令人难忘的桥段,来自一群“骑自行车的鹈鹕”。Willison 用这些由不同模型生成的图像,做了一场非正式但极具启发性的对比实验。
他介绍了自己写的工具 Shot Scraper,用来批量抓取模型输出,并用类似 ELO 国际象棋评分的方法进行排名。这不是严肃评测,却“非常有说明性”,能直观看出不同模型在一致提示下的风格与稳定性差异。
紧接着,他把话题从趣味拉回现实——Bug。他展示了一些模型失误的拆解案例,其中一句话引发全场笑声:“Claude 4 会把你告发给联邦政府。”这既是玩笑,也是在强调模型在安全与合规判断上的不可预测性。
最终,他给出了一个重要警告:当你把“工具调用”“推理能力”和“自主执行”结合在一起,就形成了他所说的“lethal trifecta(致命三要素)”。这不是危言耸听,而是过去半年里,模型能力跃迁带来的真实新风险。
总结
这场演讲的价值,不在于覆盖了多少产品,而在于 Willison 反复强调的几个信号:模型正在变便宜、本地化、多模态,也正在变得更难控制。他用鹈鹕和 Bug 讲笑话,用成本和参数讲现实,提醒我们不要只盯着能力排行榜。对开发者而言,2025 年的关键问题已经从“模型能不能做到”,转向“我们是否准备好承担它做到之后的后果”。
关键词: 大语言模型, 本地模型, 多模态, 模型成本, AI 风险
事实核查备注: 视频作者:Simon Willison;发布时间:2025-07-09;提及模型与产品:Llama 3 70B、685B 模型、DeepSeek R1、Claude 3.7 Sonnet、GPT-4.5、Gemini 2.5 Pro、GPT-4o、Claude 4;关键数字:685B 参数、约 550 万美元训练成本;关键观点原话包括:领域在加速、They’ve got good now、价格崩塌、lethal trifecta。