为什么Paul Klein说:AI时代,浏览器才是终极基础设施

AI PM 编辑部 · 2025年06月20日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Browserbase 创始人 Paul Klein 在这场演讲中提出一个反直觉却极具现实感的判断:对 AI Agent 来说,浏览器不是可选项,而是“集成的终点站”。他用创业踩坑、技术对比和现场演示,解释了为什么“The Web Browser Is All You Need”。

为什么Paul Klein说:AI时代,浏览器才是终极基础设施

Browserbase 创始人 Paul Klein 在这场演讲中提出一个反直觉却极具现实感的判断:对 AI Agent 来说,浏览器不是可选项,而是“集成的终点站”。他用创业踩坑、技术对比和现场演示,解释了为什么“The Web Browser Is All You Need”。

从痴迷到判断:为什么他认定“浏览器就是一切”

理解这场演讲,先要理解 Paul Klein 本人。他一开场就自我调侃:“I am obsessed with browsers. Specifically… headless browsers.” 这不是营销姿态,而是长期工程经验的自然结果。Paul 反复强调,他谈的不是注意力机制,不是某个流行框架,而是一个被低估的事实:浏览器本身,尤其是作为 MCP server 的浏览器,已经覆盖了绝大多数 AI Agent 的真实需求。

这个判断之所以重要,是因为它直接挑战了当前 AI Agent 生态中“无限集成”的默认思路。很多团队相信,只要接入足够多的 API、工具和插件,Agent 就会更强。但 Paul 看到的却是另一面:真实世界的系统高度异构,API 不完整、文档过期、权限复杂,反而让 Agent 更脆弱。于是他抛出一句全场记忆点十足的话:“Every AI agent needs a web browser. That’s the point of this whole talk.”

在他看来,浏览器不是第一选择,而是“integration of last resort”——当你没有现成集成、没有稳定接口时,浏览器永远能工作,因为人类就是靠它完成任务的。这种思路,为 AI Agent 提供了一条更稳健的退路。

创业的真实代价:自建浏览器基础设施有多痛苦

Paul 并不是抽象地谈“浏览器很重要”,而是从血泪教训出发。他展示了一张让工程师会心一笑的画面:自建浏览器基础设施,“It’s messy and it breaks all the time.” 这句话背后,是无数次崩溃的依赖、版本不兼容、资源泄漏和不可复现的错误。

正是这种痛苦,催生了 Browserbase。它要解决的不是“让浏览器更酷”,而是一个极其朴素的问题:如何在云端稳定地运行成千上万个 headless browser,并且让它们“Very easy to control”。这个规模和稳定性要求,恰恰是单个团队最难自己搞定的部分。

这里有一个很容易被忽略的洞见:AI Agent 的能力上限,往往被基础设施决定。不是模型不够聪明,而是浏览器卡死了、页面加载失败了、状态没保存。Paul 的判断是,如果浏览器本身不可靠,所有更上层的 Agent 设计都是空中楼阁。这个结论,明显来自长期和“坏掉的系统”搏斗的经验,而不是 PPT 推演。

两条技术路线:视觉型 Agent 与 DOM 型 Agent 的取舍

当谈到“Agent 如何控制浏览器”时,Paul 给出了一个清晰但不简化的技术划分:vision-based agents 和 DOM-based agents。这个区分之所以关键,是因为它直接影响 Agent 的可靠性和成本。

DOM 型 Agent,依赖页面结构,读取元素、标签和层级关系,速度快、成本低,但前提是 DOM 稳定。一旦前端改版、class 名变化,Agent 就会失效。视觉型 Agent 则更接近人类,通过“看”页面来操作,“without all the extra div tags and classes”,对结构变化更有韧性,但推理成本更高。

Paul 并没有给出简单的二选一答案,而是强调“right fit”。不同任务、不同频率、不同容错需求,都会影响选择。他明确表达了自己的底线判断:“I do believe your AI agent needs a browser tool.” 无论你用哪种 Agent,本质上都绕不开浏览器这一层。它不是实现细节,而是能力边界。

MCP、现场演示与未来自动化的边界

在演讲后半段,Paul 将话题拉回 MCP(Model Context Protocol)以及现实集成问题。他反复提醒听众:在选择 MCP server 时,要认真思考“你到底在集成什么类型的能力”。浏览器型 MCP server 的价值,在于它天然覆盖了大量“没人愿意专门做 API”的系统。

他甚至穿插了现场 live coding,半开玩笑地说“there hasn’t been enough live coding”,用真实操作来展示 Agent 如何应对页面变化和“weird changes”。这类演示的意义不在炫技,而在于暴露边界:什么时候 Agent 会失败,什么时候浏览器是唯一可行路径。

在结尾,Paul 把话题提升到更长期的视角:“the future of automation with us”。他关心的不只是 AI 能做什么,而是哪些自动化值得被构建、被信任、被部署到真实系统中。而在他看来,浏览器正是连接 AI 与现实世界最稳定、最被低估的一层。

总结

Paul Klein 的核心观点并不复杂,却极具穿透力:当现实世界充满不完美接口时,浏览器是 AI Agent 最可靠的通用工具。这不是对新技术的否定,而是对工程现实的尊重。对开发者而言,真正的启发或许在于:与其不断追逐更复杂的集成,不如先问一句——这个问题,用浏览器能不能已经解决了?


关键词: AI Agent, Headless Browser, Browserbase, MCP, 自动化

事实核查备注: 演讲者:Paul Klein IV;公司:Browserbase;核心判断原话包括“Every AI agent needs a web browser”“It’s messy and it breaks all the time”“I do believe your AI agent needs a browser tool”;技术概念:headless browser、MCP(Model Context Protocol)、vision-based agents、DOM-based agents;视频发布时间:2025-06-20。