为什么Paul Klein说：AI时代，浏览器才是终极基础设施

AI PM 编辑部 · 2025年06月20日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

Browserbase 创始人 Paul Klein 在这场演讲中提出一个反直觉却极具现实感的判断：对 AI Agent 来说，浏览器不是可选项，而是“集成的终点站”。他用创业踩坑、技术对比和现场演示，解释了为什么“The Web Browser Is All You Need”。

为什么Paul Klein说：AI时代，浏览器才是终极基础设施

Browserbase 创始人 Paul Klein 在这场演讲中提出一个反直觉却极具现实感的判断：对 AI Agent 来说，浏览器不是可选项，而是“集成的终点站”。他用创业踩坑、技术对比和现场演示，解释了为什么“The Web Browser Is All You Need”。

从痴迷到判断：为什么他认定“浏览器就是一切”

理解这场演讲，先要理解 Paul Klein 本人。他一开场就自我调侃：“I am obsessed with browsers. Specifically… headless browsers.” 这不是营销姿态，而是长期工程经验的自然结果。Paul 反复强调，他谈的不是注意力机制，不是某个流行框架，而是一个被低估的事实：浏览器本身，尤其是作为 MCP server 的浏览器，已经覆盖了绝大多数 AI Agent 的真实需求。

这个判断之所以重要，是因为它直接挑战了当前 AI Agent 生态中“无限集成”的默认思路。很多团队相信，只要接入足够多的 API、工具和插件，Agent 就会更强。但 Paul 看到的却是另一面：真实世界的系统高度异构，API 不完整、文档过期、权限复杂，反而让 Agent 更脆弱。于是他抛出一句全场记忆点十足的话：“Every AI agent needs a web browser. That’s the point of this whole talk.”

在他看来，浏览器不是第一选择，而是“integration of last resort”——当你没有现成集成、没有稳定接口时，浏览器永远能工作，因为人类就是靠它完成任务的。这种思路，为 AI Agent 提供了一条更稳健的退路。

创业的真实代价：自建浏览器基础设施有多痛苦

Paul 并不是抽象地谈“浏览器很重要”，而是从血泪教训出发。他展示了一张让工程师会心一笑的画面：自建浏览器基础设施，“It’s messy and it breaks all the time.” 这句话背后，是无数次崩溃的依赖、版本不兼容、资源泄漏和不可复现的错误。

正是这种痛苦，催生了 Browserbase。它要解决的不是“让浏览器更酷”，而是一个极其朴素的问题：如何在云端稳定地运行成千上万个 headless browser，并且让它们“Very easy to control”。这个规模和稳定性要求，恰恰是单个团队最难自己搞定的部分。

这里有一个很容易被忽略的洞见：AI Agent 的能力上限，往往被基础设施决定。不是模型不够聪明，而是浏览器卡死了、页面加载失败了、状态没保存。Paul 的判断是，如果浏览器本身不可靠，所有更上层的 Agent 设计都是空中楼阁。这个结论，明显来自长期和“坏掉的系统”搏斗的经验，而不是 PPT 推演。

两条技术路线：视觉型 Agent 与 DOM 型 Agent 的取舍

当谈到“Agent 如何控制浏览器”时，Paul 给出了一个清晰但不简化的技术划分：vision-based agents 和 DOM-based agents。这个区分之所以关键，是因为它直接影响 Agent 的可靠性和成本。

DOM 型 Agent，依赖页面结构，读取元素、标签和层级关系，速度快、成本低，但前提是 DOM 稳定。一旦前端改版、class 名变化，Agent 就会失效。视觉型 Agent 则更接近人类，通过“看”页面来操作，“without all the extra div tags and classes”，对结构变化更有韧性，但推理成本更高。

Paul 并没有给出简单的二选一答案，而是强调“right fit”。不同任务、不同频率、不同容错需求，都会影响选择。他明确表达了自己的底线判断：“I do believe your AI agent needs a browser tool.” 无论你用哪种 Agent，本质上都绕不开浏览器这一层。它不是实现细节，而是能力边界。

MCP、现场演示与未来自动化的边界

在演讲后半段，Paul 将话题拉回 MCP（Model Context Protocol）以及现实集成问题。他反复提醒听众：在选择 MCP server 时，要认真思考“你到底在集成什么类型的能力”。浏览器型 MCP server 的价值，在于它天然覆盖了大量“没人愿意专门做 API”的系统。

他甚至穿插了现场 live coding，半开玩笑地说“there hasn’t been enough live coding”，用真实操作来展示 Agent 如何应对页面变化和“weird changes”。这类演示的意义不在炫技，而在于暴露边界：什么时候 Agent 会失败，什么时候浏览器是唯一可行路径。

在结尾，Paul 把话题提升到更长期的视角：“the future of automation with us”。他关心的不只是 AI 能做什么，而是哪些自动化值得被构建、被信任、被部署到真实系统中。而在他看来，浏览器正是连接 AI 与现实世界最稳定、最被低估的一层。

总结

Paul Klein 的核心观点并不复杂，却极具穿透力：当现实世界充满不完美接口时，浏览器是 AI Agent 最可靠的通用工具。这不是对新技术的否定，而是对工程现实的尊重。对开发者而言，真正的启发或许在于：与其不断追逐更复杂的集成，不如先问一句——这个问题，用浏览器能不能已经解决了？

关键词： AI Agent， Headless Browser， Browserbase， MCP，自动化

事实核查备注：演讲者：Paul Klein IV；公司：Browserbase；核心判断原话包括“Every AI agent needs a web browser”“It’s messy and it breaks all the time”“I do believe your AI agent needs a browser tool”；技术概念：headless browser、MCP（Model Context Protocol）、vision-based agents、DOM-based agents；视频发布时间：2025-06-20。

返回文章列表