他为什么说ChatGPT设计得很糟，并亲手“修好”了它

AI PM 编辑部 · 2025年06月03日 · 23 阅读 · AI/人工智能

代码生成多模态对话AI AI应用推理 AI Agent 提示工程文本转语音语音识别 ChatGPT

正在加载视频...

视频章节

这支演讲并不是吐槽ChatGPT功能不够强，而是直指一个更少被讨论的问题：设计。演讲者通过真实演示，指出ChatGPT在语音与文本、多模型协作上的割裂体验，并展示如何用现成API重构一个“更像人类交流”的AI界面。

他为什么说ChatGPT设计得很糟，并亲手“修好”了它

这支演讲并不是吐槽ChatGPT功能不够强，而是直指一个更少被讨论的问题：设计。演讲者通过真实演示，指出ChatGPT在语音与文本、多模型协作上的割裂体验，并展示如何用现成API重构一个“更像人类交流”的AI界面。

一个反直觉的问题：为什么最火的AI应用，却这么难用？

这场演讲一开始就抛出了一个让人不太舒服的问题：ChatGPT是史上增长最快的应用之一，拥有数亿日活用户，但“为什么几乎没人认真问过，它为什么这么让人困惑？”在演讲者看来，这不是功能问题，而是产品设计问题。

他并不否认ChatGPT的能力，相反，正因为能力太强，设计缺陷才被无限放大。用户每天在文本框、语音模式、模型选择之间来回切换，却很难形成一个自然、连贯的使用心智模型。演讲者直接点名这是一个典型的“设计没跟上技术”的案例。

他将问题聚焦在一个核心矛盾上：ChatGPT本质上是一个多模态、多模型系统，但界面却强行把这些能力拆成了彼此割裂的入口。这种割裂，并不是用户真正需要的复杂度，而是组织结构和技术演进留下的痕迹。

一次简单的语音演示，暴露了多模态体验的割裂

为了证明问题并非抽象感受，演讲者直接现场演示了ChatGPT的语音能力。他打开应用后，界面上同时存在“语音转文本”和“语音对语音”两个按钮，本身就已经让人困惑。

当他用语音请求ChatGPT“写一封群发邮件，表达对 AI Engineer World’s Fair 的期待，并约午餐”，系统确实生成了一封措辞得体的邮件。但问题在于：回复只能通过语音播报完成。如果他想编辑、协作或复制这封邮件，唯一的办法是结束通话，去找那份事后生成的语音转录文本。

他总结得非常直接：“理想状态下，这应该是一个同时支持语音和文本的多模态体验，但现在的感觉，就像是这两个功能是由两家完全不同的公司做的。”这不是能力不足，而是体验断裂。

“你在界面里看到了组织架构”：为什么这不是偶然

在解释问题根源时，演讲者引用了 Scott Hansselman 的一个经典说法——“shipping the org chart（把组织架构交付给用户）”。Hansselman曾用一辆电动车的中控系统做比喻：地图、空调、速度表分别是不同字体、不同交互，最后你意识到它们其实是“三个安卓平板绑在一起”。

演讲者认为，OpenAI 同样犯了这个错误。某个工程师做出了一个很酷的技术改进，刚好击中了用户需求，但并没有统一的产品体验来整合这些能力。结果就是界面像一场科学展览，模型名字和功能选项堆在一起，比如“o3、o4、Xbox 360、Series S、Pro”——你甚至不知道该选哪个。

这并非个例，而是高速增长的AI公司普遍面临的问题：技术先行，体验滞后。

他提出的修复方案：同时对话 + 自动选模型

在指出问题之后，演讲者给出了一个极其明确的“修复目标”，而且只有两点：第一，语音和文本必须同时存在；第二，系统应该根据用户请求，智能选择合适的模型，而不是让用户做决定。

他强调，这并不需要什么前沿研究，用现成工具就能实现。他使用了 Realtime API 来实现实时语音对话，再通过工具调用（tool calls）处理文本输出。例如，当语音对话中需要发送链接、长文本或邮件草稿时，系统会自动在聊天面板中补充文本。

界面设计也非常具体：语音模式下新增一个“聊天”按钮，点开后是类似 iMessage 的侧边面板，就像你一边 FaceTime，一边发消息。通话控制在顶部，文本历史在侧边，语音和文字终于成为一个整体。

从聊天到AI Agent：复杂问题该交给谁？

演讲的最后一部分，他把视角从ChatGPT扩展到了更通用的AI应用设计模式。他以 Warp Terminal 为例，这是一个开发者工具，可以在任何环境中写代码。

当用户提出“撤销上一次提交”这种简单指令时，系统会交给一个编码代理直接在终端中运行命令；而当用户说“把整个代码库重构成 Flutter”时，系统会识别这是高复杂度任务，转而调用推理模型，先生成计划，确保代码真的能工作。

他总结了一个可复用的启发式规则：如果用户请求的是细节、权衡、利弊分析，就应该交给推理模型，并明确告诉用户“我需要思考一会儿”。这一切，同样是通过简单的工具调用完成的，“甚至都不需要系统提示词”。

总结

这场演讲真正打动人的地方，不在于“修好了ChatGPT”，而在于它揭示了一个更大的问题：当AI能力爆炸式增长时，糟糕的设计会成为最大的瓶颈。语音、文本、多模型、AI Agent 并不该是分散的功能点，而是一次连续的对话体验。对开发者和产品经理来说，真正的竞争力，正在从“你能不能做出来”，转向“你能不能把它们无缝地拼在一起”。

关键词： ChatGPT，多模态交互，对话AI， AI Agent，产品设计

事实核查备注：视频标题：ChatGPT is poorly designed. So I fixed it；作者/频道：AI Engineer；引用概念：shipping the org chart（Scott Hansselman）；涉及技术：Realtime API、tool calls、推理模型（reasoning model）；演示产品：ChatGPT、Warp Terminal；示例地点：Yosemite National Park；代码仓库名称：fix gpt

返回文章列表