正在加载视频...
视频章节
如果你还在为写爬虫、改 selector、半夜被反爬打醒,那你已经落后一个范式了。Rafael Levi 在这场分享里抛出一个反直觉观点:真正能规模化的数据管道,不是写出来的,而是“长出来的”。AI Agent 正在把最脏最累的工作自动化。
不用写爬虫、不怕封号:AI Agent 正在让数据管道“自己长出来”
如果你还在为写爬虫、改 selector、半夜被反爬打醒,那你已经落后一个范式了。Rafael Levi 在这场分享里抛出一个反直觉观点:真正能规模化的数据管道,不是写出来的,而是“长出来的”。AI Agent 正在把最脏最累的工作自动化。
最反直觉的一点:问题不在“怎么爬”,而在“为什么这么痛苦”
很多工程师以为,数据抓取的难点在技术:HTML 结构复杂、selector 易碎、网站三天两头改版。但 Rafael 一上来就点破了真正的痛点:这是一个“需要人随时待命”的系统。你得提前分析 DOM、写规则、测试,再祈祷线上别炸。结果往往是——它还是炸了。
他说了一句特别有画面感的话:传统爬虫会让你“半夜被叫醒”。不是因为你代码写得不好,而是因为这个模式本身就不可持续。规模一上来,页面一多,维护成本呈指数级增长。这不是工程能力问题,而是范式问题。
AI Agent 的价值:不是更聪明,而是替你扛下“不可预测性”
在这场分享里,Agent 被反复强调的一个能力是:它把“临时决策”从人手里拿走了。什么时候解析 HTML?selector 变了怎么办?页面是静态还是动态?这些过去需要人判断的分支,现在交给 Agent。
关键不是 Agent 比你更懂 HTML,而是它可以持续尝试、修正、再尝试。Rafael 直言:写 scraper 之所以复杂,是因为你在为所有未来情况提前做假设。而 Agent 的策略是——等情况真的发生,再现场解决。这直接减少了认知负担,也减少了维护代码的规模。
为什么不让 LLM 直接解析每个页面?答案和“钱”有关
一个很容易被忽略的问题是成本。有人会问:既然大语言模型这么强,为什么不直接让 LLM 解析所有页面?Rafael 的回答非常现实:因为这会让你破产。
对每个页面都调用一次大模型,不仅慢,而且贵。更麻烦的是,很多网站还躲在 Cloudflare 之类的防护后面,根本不是“能不能解析”的问题,而是“你进不进得去”。他强调 MCP(反封锁策略)的存在意义就在这里:不是为了更炫的 AI,而是为了让整个流程稳定、可控、不被封。
从爬数据到“做动作”:管道开始像产品,而不是脚本
一个被不少人忽略的点是:这套东西不只会抓数据,还能“做事”。在 Q&A 里,有人直接问:能不能在抓取之外执行操作?这其实暴露了一个趋势——数据管道正在从一次性脚本,演化成长期运行的系统。
当你把 Agent、反封锁、成本控制这些拼在一起,结果不是一个更复杂的爬虫,而是一个更像产品的 pipeline。它可以被复用、被优化、被扩展,用在市场调研等真实业务场景里,而不是一次性任务。
总结
这场分享真正值得 AI 从业者警惕的一点是:如果你的数据获取流程还高度依赖人工维护,那你正在用“旧时代的工程思维”解决“新时代的问题”。AI Agent 并不是来秀智商的,而是来接管那些不确定、反复、低价值但又不可或缺的决策。
对你而言,takeaway 很直接:下次再写数据管道时,别先问“selector 怎么写”,而是先问——这一步,能不能交给 Agent?未来真正有壁垒的,不是谁 scraper 写得更细,而是谁的系统在变化面前更不需要人。这个差距,只会越拉越大。
关键词: AI Agent, 数据抓取, 大语言模型, 自动化管道, 反爬与封锁
事实核查备注: 需要核查:演讲者 Rafael Levi 的具体背景与职位;MCP 的完整定义与技术细节;演示中提到的 Cloudflare、Walmart 是否仅为示例;视频实际时长与是否为现场 Demo。