他为什么说ChatGPT设计得很糟,并亲手“修好”了它

AI PM 编辑部 · 2025年06月03日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这支演讲并不是吐槽ChatGPT功能不够强,而是直指一个更少被讨论的问题:设计。演讲者通过真实演示,指出ChatGPT在语音与文本、多模型协作上的割裂体验,并展示如何用现成API重构一个“更像人类交流”的AI界面。

他为什么说ChatGPT设计得很糟,并亲手“修好”了它

这支演讲并不是吐槽ChatGPT功能不够强,而是直指一个更少被讨论的问题:设计。演讲者通过真实演示,指出ChatGPT在语音与文本、多模型协作上的割裂体验,并展示如何用现成API重构一个“更像人类交流”的AI界面。

一个反直觉的问题:为什么最火的AI应用,却这么难用?

这场演讲一开始就抛出了一个让人不太舒服的问题:ChatGPT是史上增长最快的应用之一,拥有数亿日活用户,但“为什么几乎没人认真问过,它为什么这么让人困惑?”在演讲者看来,这不是功能问题,而是产品设计问题。

他并不否认ChatGPT的能力,相反,正因为能力太强,设计缺陷才被无限放大。用户每天在文本框、语音模式、模型选择之间来回切换,却很难形成一个自然、连贯的使用心智模型。演讲者直接点名这是一个典型的“设计没跟上技术”的案例。

他将问题聚焦在一个核心矛盾上:ChatGPT本质上是一个多模态、多模型系统,但界面却强行把这些能力拆成了彼此割裂的入口。这种割裂,并不是用户真正需要的复杂度,而是组织结构和技术演进留下的痕迹。

一次简单的语音演示,暴露了多模态体验的割裂

为了证明问题并非抽象感受,演讲者直接现场演示了ChatGPT的语音能力。他打开应用后,界面上同时存在“语音转文本”和“语音对语音”两个按钮,本身就已经让人困惑。

当他用语音请求ChatGPT“写一封群发邮件,表达对 AI Engineer World’s Fair 的期待,并约午餐”,系统确实生成了一封措辞得体的邮件。但问题在于:回复只能通过语音播报完成。如果他想编辑、协作或复制这封邮件,唯一的办法是结束通话,去找那份事后生成的语音转录文本。

他总结得非常直接:“理想状态下,这应该是一个同时支持语音和文本的多模态体验,但现在的感觉,就像是这两个功能是由两家完全不同的公司做的。”这不是能力不足,而是体验断裂。

“你在界面里看到了组织架构”:为什么这不是偶然

在解释问题根源时,演讲者引用了 Scott Hansselman 的一个经典说法——“shipping the org chart(把组织架构交付给用户)”。Hansselman曾用一辆电动车的中控系统做比喻:地图、空调、速度表分别是不同字体、不同交互,最后你意识到它们其实是“三个安卓平板绑在一起”。

演讲者认为,OpenAI 同样犯了这个错误。某个工程师做出了一个很酷的技术改进,刚好击中了用户需求,但并没有统一的产品体验来整合这些能力。结果就是界面像一场科学展览,模型名字和功能选项堆在一起,比如“o3、o4、Xbox 360、Series S、Pro”——你甚至不知道该选哪个。

这并非个例,而是高速增长的AI公司普遍面临的问题:技术先行,体验滞后。

他提出的修复方案:同时对话 + 自动选模型

在指出问题之后,演讲者给出了一个极其明确的“修复目标”,而且只有两点:第一,语音和文本必须同时存在;第二,系统应该根据用户请求,智能选择合适的模型,而不是让用户做决定。

他强调,这并不需要什么前沿研究,用现成工具就能实现。他使用了 Realtime API 来实现实时语音对话,再通过工具调用(tool calls)处理文本输出。例如,当语音对话中需要发送链接、长文本或邮件草稿时,系统会自动在聊天面板中补充文本。

界面设计也非常具体:语音模式下新增一个“聊天”按钮,点开后是类似 iMessage 的侧边面板,就像你一边 FaceTime,一边发消息。通话控制在顶部,文本历史在侧边,语音和文字终于成为一个整体。

从聊天到AI Agent:复杂问题该交给谁?

演讲的最后一部分,他把视角从ChatGPT扩展到了更通用的AI应用设计模式。他以 Warp Terminal 为例,这是一个开发者工具,可以在任何环境中写代码。

当用户提出“撤销上一次提交”这种简单指令时,系统会交给一个编码代理直接在终端中运行命令;而当用户说“把整个代码库重构成 Flutter”时,系统会识别这是高复杂度任务,转而调用推理模型,先生成计划,确保代码真的能工作。

他总结了一个可复用的启发式规则:如果用户请求的是细节、权衡、利弊分析,就应该交给推理模型,并明确告诉用户“我需要思考一会儿”。这一切,同样是通过简单的工具调用完成的,“甚至都不需要系统提示词”。

总结

这场演讲真正打动人的地方,不在于“修好了ChatGPT”,而在于它揭示了一个更大的问题:当AI能力爆炸式增长时,糟糕的设计会成为最大的瓶颈。语音、文本、多模型、AI Agent 并不该是分散的功能点,而是一次连续的对话体验。对开发者和产品经理来说,真正的竞争力,正在从“你能不能做出来”,转向“你能不能把它们无缝地拼在一起”。


关键词: ChatGPT, 多模态交互, 对话AI, AI Agent, 产品设计

事实核查备注: 视频标题:ChatGPT is poorly designed. So I fixed it;作者/频道:AI Engineer;引用概念:shipping the org chart(Scott Hansselman);涉及技术:Realtime API、tool calls、推理模型(reasoning model);演示产品:ChatGPT、Warp Terminal;示例地点:Yosemite National Park;代码仓库名称:fix gpt