Claude学会用电脑：AI代理从工具走向行动者

AI PM 编辑部 · 2024年12月06日 · 22 阅读 · AI/人工智能

Sam Altman 多模态代码生成 AI安全模型训练计算机视觉 AI Agent 大语言模型视觉语言模型 AI应用

正在加载视频...

视频章节

Anthropic推出的Claude Computer Use，让AI第一次像人一样“看屏幕、点按钮、填表格”。这不仅是功能升级，而是软件范式的转折点：模型开始适配现实世界的工具，AI代理时代真正到来。

Claude学会用电脑：AI代理从工具走向行动者

Anthropic推出的Claude Computer Use，让AI第一次像人一样“看屏幕、点按钮、填表格”。这不仅是功能升级，而是软件范式的转折点：模型开始适配现实世界的工具，AI代理时代真正到来。

为什么“会用电脑”的AI是分水岭

在视频一开始，主持人用一句极具画面感的话点题：“石头不仅能说话，它们还能读、能看，现在甚至能自己用电脑。”这不是修辞，而是在描述一个真实发生的变化。过去的大模型再强，也主要停留在“对话”和“生成内容”的层面；而Claude Computer Use第一次让模型进入人类真实的工作界面——浏览器、表格、按钮、输入框。

这一变化的重要性在于范式反转。此前，开发者必须为模型量身定制工具和环境，让AI在封闭系统中完成任务；而现在，Anthropic选择了反过来做——“我们可以让模型去适配现有的工具”。这意味着，整个互联网、所有传统软件界面，理论上都可以成为AI的工作场所。

视频中明确指出，Anthropic并不是唯一看到这一方向的公司。Sam Altman公开表示希望重现电影《Her》里的Samantha，OpenAI计划推出名为Operator的代理，Google也在开发类似系统。但截至目前，Anthropic是第一个把“AI用电脑”以产品形态推向开发者的头部实验室，而且还是公开Beta。这也是YC认为它可能成为Game Changer的核心原因。

Claude是如何学会“点鼠标”的

Computer Use并不是从零开始的魔法，而是一次典型的能力外推。Anthropic在视频中解释得很直白：Claude早在Claude 3时期就已经具备成熟的图像理解能力，能分析图片并用文本回答问题。新的变化只有一个——这些图片变成了电脑截图。

在此基础上，Anthropic训练模型输出两类新信息：一是屏幕上的具体坐标，用于“点击哪里”；二是键盘指令，用于“输入什么”。令人意外的是，团队强调“并没有进行大量额外训练”，模型就能在这项任务上表现得相当不错，这是一次非常典型的“泛化能力”展示。

更难的部分在于精度。为了让Claude真正可用，Anthropic必须训练它识别精确到像素级的位置，同时理解界面状态，并推理下一步行动。这不是简单的视觉识别，而是把‘看见’和‘行动规划’结合起来。正如视频中的原话所说：“我们训练模型理解屏幕上发生了什么，并推理它应该如何使用软件工具来完成任务。”这句话几乎定义了AI代理的技术内核。

代理循环：AI如何自己纠错并完成复杂任务

真正让Computer Use区别于自动脚本的，是Anthropic反复强调的“Agent Loop”。这是一个不断重复的决策流程：分析任务 → 选择工具 → 执行动作 → 截图检查结果 → 必要时回退并调整。

视频中的演示非常具体。Claude在填写表格时发现某家公司不在已有的电子表格中，于是主动切换到搜索页面，滚动网页，查找匹配信息，再返回继续填写。每一步之间，它都会截屏自检，确认任务是否仍在正轨上。这种“边做边看、做错就改”的能力，是此前多数自动化工具不具备的。

从使用门槛上看，Anthropic并没有把这套系统做成黑箱。开发者需要在虚拟机或Docker容器中运行它，配置Anthropic API Key，并在一个分屏界面中观察：左边是用户提示，右边是Claude的实时操作。这种透明性既方便调试，也隐含着Anthropic对安全的谨慎态度——所有操作都被限制在受控环境中。

真实案例、现实限制，以及即将到来的冲击

Anthropic展示的案例并不追求炫技，而是强调“能不能真的省事”。例如，Claude可以自行规划金门大桥的日出徒步：搜索信息、确认时间、最后直接创建Google Calendar事件。Wharton教授Ethan Mollick则给了它一个更严肃的测试——让Claude分析施工现场视频，持续截图检查安全隐患，并最终生成一份类似OSHA合规检查的表格。

但视频也没有回避问题。Computer Use目前速度较慢，偶尔崩溃，甚至会“走神”。Anthropic自己分享的一个片段中，Claude在任务中途突然开始搜索黄石国家公园的照片。主持人半开玩笑地说：“说实话，人类有时也会这样分心。”

安全是另一个关键限制。Claude被明确禁止账号创建、社交媒体内容发布等高风险行为，也容易受到Prompt Injection攻击——比如网页暗中诱导模型泄露敏感信息。Anthropic的应对方式是：限制虚拟机权限、控制可访问网站、隔离敏感数据。视频最后指出，这些限制很可能会随着Beta结束逐步放松。

值得注意的是，YC也提到生态正在迅速进化。一家YC创业公司Kura已经推出了自己的浏览器代理，并在Web Voyager基准测试中超过了Claude。这意味着，Computer Use不是终点，而是竞赛的起点。

总结

Claude Computer Use真正重要的，不是“又一个新功能”，而是它把AI从建议者变成了执行者。当模型能够直接使用我们每天依赖的软件时，软件开发、企业管理、个人效率都会被重写。正如视频最后的提问：“这种AI不再只是助手，而是接管整项工作——那么，你会用它来构建什么？”

关键词： Claude Computer Use， AI Agent， Anthropic，多模态模型，人机交互

事实核查备注：人物：Sam Altman，Ethan Mollick；公司：Anthropic、OpenAI、Google、Y Combinator；产品与模型：Claude、Claude 3、Claude 3.5 Haiku、Claude 3.5 Sonnet（视频中称Sonic）；技术概念：Computer Use、Agent Loop、多模态、Prompt Injection、虚拟机/Docker；案例：Google Calendar事件创建、施工现场安全检查、Web Voyager Benchmark、YC公司Kura。

返回文章列表