不止于API：AI网页代理如何自动化知识工作的长尾

AI PM 编辑部 · 2025年02月22日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自 AI Engineer 频道的演示，展示了一种不同于传统 API 自动化的新路径：AI 网页代理直接在浏览器中工作，接管大量“没人愿意为之写接口”的长尾知识劳动。通过 Retriever 这一 Chrome 扩展，演讲者用多个现场用例说明：未来的自动化，正在从后端走向真实网页。

不止于API：AI网页代理如何自动化知识工作的长尾

这场来自 AI Engineer 频道的演示，展示了一种不同于传统 API 自动化的新路径：AI 网页代理直接在浏览器中工作，接管大量“没人愿意为之写接口”的长尾知识劳动。通过 Retriever 这一 Chrome 扩展，演讲者用多个现场用例说明：未来的自动化，正在从后端走向真实网页。

为什么“长尾知识工作”才是AI代理的真正战场

这一节之所以重要，是因为它点出了一个长期被忽视的问题：绝大多数知识工作，并不存在现成、稳定、干净的 API 接口。演讲一开始，Arin 和 Bani 就直接抛出了他们的判断：如果 AI 只能通过 API 工作，那么它只能覆盖极小的一部分数字世界。

他们介绍 Retriever 时，用了一句非常直白的话来概括定位——“retriever changes all this by being a Chrome extension that leverages being an AI web agent”。这里的“改变”，指的正是绕过 API 的依赖，直接在浏览器里观察、理解并操作网页本身。网页，而不是接口，才是人类真实工作的主要场所。

在他们看来，所谓‘长尾知识工作’，包括：在 LinkedIn 上逐条筛选信息、在档案型网站里翻页搜索、从评论区或搜索结果中整理数据。这些任务单个价值不高，却大量存在，也正因如此，很少有公司愿意为它们构建工程化的 API。这正是 AI 网页代理最有机会释放生产力的地方。

从 LinkedIn 开始：让 AI 像人一样“看”和“点”

理解 AI 网页代理，最好的方式不是架构图，而是具体场景。演讲中第一个反复出现的例子，就是 LinkedIn。演讲者说：“so let's dive into a use case so say you're on LinkedIn…”，然后直接在页面上演示 Retriever 的行为。

这里的关键不在于它“能抓取数据”，而在于它的工作方式：Retriever 不是简单的爬虫，而是作为浏览器扩展，能理解当前页面结构、文本语义，并执行点击、滚动、筛选等操作。这些都是人类每天在做、但自动化工具极难泛化的动作。

他们特别强调了一点：这种方式让用例不再被提前限定。你不是在调用一个“获取候选人列表”的函数，而是在告诉代理“在这个页面上，帮我完成这件事”。这也解释了为什么他们多次提到“even more complex use cases”——复杂性不来自代码，而来自网页本身的多样性。

不只是提取：从档案搜索到评论整理

在后续演示中，团队刻意把场景推向更困难的方向，比如档案型搜索页面和评论密集的网站。他们指出：“even more than doing actions just as basic extractions”，意思是 Retriever 并不满足于把页面内容复制下来。

在一个具体展示中，代理被要求从页面中提取“最近的评论”。这听起来简单，但现实是：评论往往需要翻页、排序，甚至在动态加载后才出现。演讲者总结这一段时说：“so yeah so it was able to extract these most recent reviews…”。

更有意思的是结果的去向。在另一个用例里，Retriever 直接把提取到的信息“right into your Google Sheets”。这里出现了唯一被明确点名的第三方公司——Google，也暗示了这种浏览器级代理，天然适合与现有办公工具衔接，而不是重建一整套工作流。

函数调用与图表生成：网页代理开始“组合能力”

如果前面的演示还停留在‘替人操作网页’，那么后半段开始显露出更系统性的野心。演讲者提到：“one of the cool features we have is our function calling features… all in like one click”。这里的函数调用，指的是让代理在网页操作之外，触发预定义的计算或处理逻辑。

紧接着，他们展示了图表生成的用例：“now let's do one more use case which is the graph generation”。这一步非常关键，因为它意味着网页代理不只是信息搬运工，而是开始承担分析和呈现的角色。

在回顾整体格局时，他们用了一句话收尾：“bringing it back home… the overall agentic landscape”。在这个框架下，Retriever 被放在一个更大的趋势中：AI 代理正逐步从单点工具，演变为能在浏览器中完成端到端任务的数字劳动力。

总结

这场演示最大的价值，并不在某一个炫目的功能，而在于它提出了一种现实而务实的判断：真正阻碍自动化的，不是模型能力，而是世界本身的“非结构化”。通过把 AI 放进浏览器，Retriever 选择直面这个问题。对读者而言，这意味着一个新的思考方向——与其等待完美的 API，不如让 AI 学会像人一样使用网页。

关键词： AI Agent，网页代理，浏览器自动化，知识工作， Retriever

事实核查备注：视频标题：Beyond APIs： How AI Web Agents Are Automating the "Long Tail" of Knowledge Work；频道：AI Engineer；发布时间：2025-02-22；产品名称：Retriever（Chrome 扩展）；明确提及公司：Google；核心概念：AI web agent、browser extension、function calling、graph generation

返回文章列表