不用写爬虫、不怕封号：AI Agent 正在让数据管道“自己长出来”

AI PM 编辑部 · 2026年06月07日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在为写爬虫、改 selector、半夜被反爬打醒，那你已经落后一个范式了。Rafael Levi 在这场分享里抛出一个反直觉观点：真正能规模化的数据管道，不是写出来的，而是“长出来的”。AI Agent 正在把最脏最累的工作自动化。

如果你还在为写爬虫、改 selector、半夜被反爬打醒，那你已经落后一个范式了。Rafael Levi 在这场分享里抛出一个反直觉观点：真正能规模化的数据管道，不是写出来的，而是“长出来的”。AI Agent 正在把最脏最累的工作自动化。

很多工程师以为，数据抓取的难点在技术：HTML 结构复杂、selector 易碎、网站三天两头改版。但 Rafael 一上来就点破了真正的痛点：这是一个“需要人随时待命”的系统。你得提前分析 DOM、写规则、测试，再祈祷线上别炸。结果往往是——它还是炸了。

他说了一句特别有画面感的话：传统爬虫会让你“半夜被叫醒”。不是因为你代码写得不好，而是因为这个模式本身就不可持续。规模一上来，页面一多，维护成本呈指数级增长。这不是工程能力问题，而是范式问题。

在这场分享里，Agent 被反复强调的一个能力是：它把“临时决策”从人手里拿走了。什么时候解析 HTML？selector 变了怎么办？页面是静态还是动态？这些过去需要人判断的分支，现在交给 Agent。

关键不是 Agent 比你更懂 HTML，而是它可以持续尝试、修正、再尝试。Rafael 直言：写 scraper 之所以复杂，是因为你在为所有未来情况提前做假设。而 Agent 的策略是——等情况真的发生，再现场解决。这直接减少了认知负担，也减少了维护代码的规模。

一个很容易被忽略的问题是成本。有人会问：既然大语言模型这么强，为什么不直接让 LLM 解析所有页面？Rafael 的回答非常现实：因为这会让你破产。

对每个页面都调用一次大模型，不仅慢，而且贵。更麻烦的是，很多网站还躲在 Cloudflare 之类的防护后面，根本不是“能不能解析”的问题，而是“你进不进得去”。他强调 MCP（反封锁策略）的存在意义就在这里：不是为了更炫的 AI，而是为了让整个流程稳定、可控、不被封。

一个被不少人忽略的点是：这套东西不只会抓数据，还能“做事”。在 Q&A 里，有人直接问：能不能在抓取之外执行操作？这其实暴露了一个趋势——数据管道正在从一次性脚本，演化成长期运行的系统。

当你把 Agent、反封锁、成本控制这些拼在一起，结果不是一个更复杂的爬虫，而是一个更像产品的 pipeline。它可以被复用、被优化、被扩展，用在市场调研等真实业务场景里，而不是一次性任务。

这场分享真正值得 AI 从业者警惕的一点是：如果你的数据获取流程还高度依赖人工维护，那你正在用“旧时代的工程思维”解决“新时代的问题”。AI Agent 并不是来秀智商的，而是来接管那些不确定、反复、低价值但又不可或缺的决策。

对你而言，takeaway 很直接：下次再写数据管道时，别先问“selector 怎么写”，而是先问——这一步，能不能交给 Agent？未来真正有壁垒的，不是谁 scraper 写得更细，而是谁的系统在变化面前更不需要人。这个差距，只会越拉越大。

关键词： AI Agent，数据抓取，大语言模型，自动化管道，反爬与封锁

事实核查备注：需要核查：演讲者 Rafael Levi 的具体背景与职位；MCP 的完整定义与技术细节；演示中提到的 Cloudflare、Walmart 是否仅为示例；视频实际时长与是否为现场 Demo。