不止于API:AI网页代理如何自动化知识工作的长尾

AI PM 编辑部 · 2025年02月22日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自 AI Engineer 频道的演示,展示了一种不同于传统 API 自动化的新路径:AI 网页代理直接在浏览器中工作,接管大量“没人愿意为之写接口”的长尾知识劳动。通过 Retriever 这一 Chrome 扩展,演讲者用多个现场用例说明:未来的自动化,正在从后端走向真实网页。

不止于API:AI网页代理如何自动化知识工作的长尾

这场来自 AI Engineer 频道的演示,展示了一种不同于传统 API 自动化的新路径:AI 网页代理直接在浏览器中工作,接管大量“没人愿意为之写接口”的长尾知识劳动。通过 Retriever 这一 Chrome 扩展,演讲者用多个现场用例说明:未来的自动化,正在从后端走向真实网页。

为什么“长尾知识工作”才是AI代理的真正战场

这一节之所以重要,是因为它点出了一个长期被忽视的问题:绝大多数知识工作,并不存在现成、稳定、干净的 API 接口。演讲一开始,Arin 和 Bani 就直接抛出了他们的判断:如果 AI 只能通过 API 工作,那么它只能覆盖极小的一部分数字世界。

他们介绍 Retriever 时,用了一句非常直白的话来概括定位——“retriever changes all this by being a Chrome extension that leverages being an AI web agent”。这里的“改变”,指的正是绕过 API 的依赖,直接在浏览器里观察、理解并操作网页本身。网页,而不是接口,才是人类真实工作的主要场所。

在他们看来,所谓‘长尾知识工作’,包括:在 LinkedIn 上逐条筛选信息、在档案型网站里翻页搜索、从评论区或搜索结果中整理数据。这些任务单个价值不高,却大量存在,也正因如此,很少有公司愿意为它们构建工程化的 API。这正是 AI 网页代理最有机会释放生产力的地方。

从 LinkedIn 开始:让 AI 像人一样“看”和“点”

理解 AI 网页代理,最好的方式不是架构图,而是具体场景。演讲中第一个反复出现的例子,就是 LinkedIn。演讲者说:“so let's dive into a use case so say you're on LinkedIn…”,然后直接在页面上演示 Retriever 的行为。

这里的关键不在于它“能抓取数据”,而在于它的工作方式:Retriever 不是简单的爬虫,而是作为浏览器扩展,能理解当前页面结构、文本语义,并执行点击、滚动、筛选等操作。这些都是人类每天在做、但自动化工具极难泛化的动作。

他们特别强调了一点:这种方式让用例不再被提前限定。你不是在调用一个“获取候选人列表”的函数,而是在告诉代理“在这个页面上,帮我完成这件事”。这也解释了为什么他们多次提到“even more complex use cases”——复杂性不来自代码,而来自网页本身的多样性。

不只是提取:从档案搜索到评论整理

在后续演示中,团队刻意把场景推向更困难的方向,比如档案型搜索页面和评论密集的网站。他们指出:“even more than doing actions just as basic extractions”,意思是 Retriever 并不满足于把页面内容复制下来。

在一个具体展示中,代理被要求从页面中提取“最近的评论”。这听起来简单,但现实是:评论往往需要翻页、排序,甚至在动态加载后才出现。演讲者总结这一段时说:“so yeah so it was able to extract these most recent reviews…”。

更有意思的是结果的去向。在另一个用例里,Retriever 直接把提取到的信息“right into your Google Sheets”。这里出现了唯一被明确点名的第三方公司——Google,也暗示了这种浏览器级代理,天然适合与现有办公工具衔接,而不是重建一整套工作流。

函数调用与图表生成:网页代理开始“组合能力”

如果前面的演示还停留在‘替人操作网页’,那么后半段开始显露出更系统性的野心。演讲者提到:“one of the cool features we have is our function calling features… all in like one click”。这里的函数调用,指的是让代理在网页操作之外,触发预定义的计算或处理逻辑。

紧接着,他们展示了图表生成的用例:“now let's do one more use case which is the graph generation”。这一步非常关键,因为它意味着网页代理不只是信息搬运工,而是开始承担分析和呈现的角色。

在回顾整体格局时,他们用了一句话收尾:“bringing it back home… the overall agentic landscape”。在这个框架下,Retriever 被放在一个更大的趋势中:AI 代理正逐步从单点工具,演变为能在浏览器中完成端到端任务的数字劳动力。

总结

这场演示最大的价值,并不在某一个炫目的功能,而在于它提出了一种现实而务实的判断:真正阻碍自动化的,不是模型能力,而是世界本身的“非结构化”。通过把 AI 放进浏览器,Retriever 选择直面这个问题。对读者而言,这意味着一个新的思考方向——与其等待完美的 API,不如让 AI 学会像人一样使用网页。


关键词: AI Agent, 网页代理, 浏览器自动化, 知识工作, Retriever

事实核查备注: 视频标题:Beyond APIs: How AI Web Agents Are Automating the "Long Tail" of Knowledge Work;频道:AI Engineer;发布时间:2025-02-22;产品名称:Retriever(Chrome 扩展);明确提及公司:Google;核心概念:AI web agent、browser extension、function calling、graph generation