正在加载视频...

视频章节

Anthropic推出的Claude Computer Use,让AI第一次像人一样“看屏幕、点按钮、填表格”。这不仅是功能升级,而是软件范式的转折点:模型开始适配现实世界的工具,AI代理时代真正到来。

Claude学会用电脑:AI代理从工具走向行动者

Anthropic推出的Claude Computer Use,让AI第一次像人一样“看屏幕、点按钮、填表格”。这不仅是功能升级,而是软件范式的转折点:模型开始适配现实世界的工具,AI代理时代真正到来。

为什么“会用电脑”的AI是分水岭

在视频一开始,主持人用一句极具画面感的话点题:“石头不仅能说话,它们还能读、能看,现在甚至能自己用电脑。”这不是修辞,而是在描述一个真实发生的变化。过去的大模型再强,也主要停留在“对话”和“生成内容”的层面;而Claude Computer Use第一次让模型进入人类真实的工作界面——浏览器、表格、按钮、输入框。

这一变化的重要性在于范式反转。此前,开发者必须为模型量身定制工具和环境,让AI在封闭系统中完成任务;而现在,Anthropic选择了反过来做——“我们可以让模型去适配现有的工具”。这意味着,整个互联网、所有传统软件界面,理论上都可以成为AI的工作场所。

视频中明确指出,Anthropic并不是唯一看到这一方向的公司。Sam Altman公开表示希望重现电影《Her》里的Samantha,OpenAI计划推出名为Operator的代理,Google也在开发类似系统。但截至目前,Anthropic是第一个把“AI用电脑”以产品形态推向开发者的头部实验室,而且还是公开Beta。这也是YC认为它可能成为Game Changer的核心原因。

Claude是如何学会“点鼠标”的

Computer Use并不是从零开始的魔法,而是一次典型的能力外推。Anthropic在视频中解释得很直白:Claude早在Claude 3时期就已经具备成熟的图像理解能力,能分析图片并用文本回答问题。新的变化只有一个——这些图片变成了电脑截图。

在此基础上,Anthropic训练模型输出两类新信息:一是屏幕上的具体坐标,用于“点击哪里”;二是键盘指令,用于“输入什么”。令人意外的是,团队强调“并没有进行大量额外训练”,模型就能在这项任务上表现得相当不错,这是一次非常典型的“泛化能力”展示。

更难的部分在于精度。为了让Claude真正可用,Anthropic必须训练它识别精确到像素级的位置,同时理解界面状态,并推理下一步行动。这不是简单的视觉识别,而是把‘看见’和‘行动规划’结合起来。正如视频中的原话所说:“我们训练模型理解屏幕上发生了什么,并推理它应该如何使用软件工具来完成任务。”这句话几乎定义了AI代理的技术内核。

代理循环:AI如何自己纠错并完成复杂任务

真正让Computer Use区别于自动脚本的,是Anthropic反复强调的“Agent Loop”。这是一个不断重复的决策流程:分析任务 → 选择工具 → 执行动作 → 截图检查结果 → 必要时回退并调整。

视频中的演示非常具体。Claude在填写表格时发现某家公司不在已有的电子表格中,于是主动切换到搜索页面,滚动网页,查找匹配信息,再返回继续填写。每一步之间,它都会截屏自检,确认任务是否仍在正轨上。这种“边做边看、做错就改”的能力,是此前多数自动化工具不具备的。

从使用门槛上看,Anthropic并没有把这套系统做成黑箱。开发者需要在虚拟机或Docker容器中运行它,配置Anthropic API Key,并在一个分屏界面中观察:左边是用户提示,右边是Claude的实时操作。这种透明性既方便调试,也隐含着Anthropic对安全的谨慎态度——所有操作都被限制在受控环境中。

真实案例、现实限制,以及即将到来的冲击

Anthropic展示的案例并不追求炫技,而是强调“能不能真的省事”。例如,Claude可以自行规划金门大桥的日出徒步:搜索信息、确认时间、最后直接创建Google Calendar事件。Wharton教授Ethan Mollick则给了它一个更严肃的测试——让Claude分析施工现场视频,持续截图检查安全隐患,并最终生成一份类似OSHA合规检查的表格。

但视频也没有回避问题。Computer Use目前速度较慢,偶尔崩溃,甚至会“走神”。Anthropic自己分享的一个片段中,Claude在任务中途突然开始搜索黄石国家公园的照片。主持人半开玩笑地说:“说实话,人类有时也会这样分心。”

安全是另一个关键限制。Claude被明确禁止账号创建、社交媒体内容发布等高风险行为,也容易受到Prompt Injection攻击——比如网页暗中诱导模型泄露敏感信息。Anthropic的应对方式是:限制虚拟机权限、控制可访问网站、隔离敏感数据。视频最后指出,这些限制很可能会随着Beta结束逐步放松。

值得注意的是,YC也提到生态正在迅速进化。一家YC创业公司Kura已经推出了自己的浏览器代理,并在Web Voyager基准测试中超过了Claude。这意味着,Computer Use不是终点,而是竞赛的起点。

总结

Claude Computer Use真正重要的,不是“又一个新功能”,而是它把AI从建议者变成了执行者。当模型能够直接使用我们每天依赖的软件时,软件开发、企业管理、个人效率都会被重写。正如视频最后的提问:“这种AI不再只是助手,而是接管整项工作——那么,你会用它来构建什么?”


关键词: Claude Computer Use, AI Agent, Anthropic, 多模态模型, 人机交互

事实核查备注: 人物:Sam Altman,Ethan Mollick;公司:Anthropic、OpenAI、Google、Y Combinator;产品与模型:Claude、Claude 3、Claude 3.5 Haiku、Claude 3.5 Sonnet(视频中称Sonic);技术概念:Computer Use、Agent Loop、多模态、Prompt Injection、虚拟机/Docker;案例:Google Calendar事件创建、施工现场安全检查、Web Voyager Benchmark、YC公司Kura。