当AI爬虫失控:开发者如何重新思考网站防御

AI PM 编辑部 · 2025年07月30日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

Arcjet 创始人 David Mytton 结合多年一线经验,讲述 AI 时代机器人流量为何变得更危险,以及开发者该如何从“识别好坏机器人”转向“构建多信号防御体系”。

当AI爬虫失控:开发者如何重新思考网站防御

Arcjet 创始人 David Mytton 结合多年一线经验,讲述 AI 时代机器人流量为何变得更危险,以及开发者该如何从“识别好坏机器人”转向“构建多信号防御体系”。

从创业者视角看:这不是一个新问题,但正在急剧恶化

为什么这件事值得今天重新讨论?因为在 David Mytton 看来,问题本身并不新,但环境已经彻底变了。作为 Arcjet 的创始人,他一开始就点明了背景:“我们为开发者提供安全 SDK,我今天讲的,基本都是过去几年我们亲手踩过的坑。”这不是纸上谈兵,而是持续与真实攻击对抗的总结。

他指出,机器人访问网站已经困扰行业“几十年”了,但 AI 的出现显著放大了影响。过去,哪怕是大型网站,也默认机器人流量是可控的;而现在,即便使用 serverless 架构,计算资源并非无限,只是“你不用想,但账单会替你想”。当大量爬虫不断请求内容时,压力最终体现在成本和稳定性上。

一个典型例子是 Wikipedia。David 提到,AI 爬虫正在大量抓取内容,而且“它们并不守规矩”。这类故事之所以重要,是因为它说明:即便是公益性、开放内容的网站,也正在被新一代 AI 抓取方式拖入资源消耗战。

“好机器人 vs 坏机器人”的旧逻辑正在失效

为什么传统防御思路不再可靠?因为判断标准已经被打破。David 回顾说,“过去我们有一个很简单的世界观:好机器人和坏机器人。”比如搜索引擎爬虫通常自报家门,遵守规则,而恶意爬虫特征明显。

但随着多个 AI 提供商同时运行爬虫,这个边界开始模糊。他特别提到 OpenAI,“他们至少有四种不同类型的机器人”。其中有的还算透明,但有的“比如 operator,看起来就像一个普通的 Chrome 浏览器”,这让识别难度直线上升。

更麻烦的是,坏机器人会主动伪装。David 在谈到防御时直言:“坏 bots 会直接改,他们会假装自己是 Google,或者假装是 Chrome。”这意味着,单靠 User-Agent 或简单规则,几乎注定会失败。

IP、地理位置与数据中心:信号有用,但永远不够

为什么很多团队在这里卡住?因为这些信号听起来合理,却很容易被绕过。David 解释说,从概率上看,“一个来自数据中心 IP 的请求,很可能不是你想要的流量”。这确实是一个有价值的判断基础。

问题在于,它只是一个信号,而不是答案本身。当你进一步尝试使用地理位置数据时,复杂度会迅速上升。David 提醒,“你必须不断积累信号,并建立你自己的数据库,才能真正理解这些流量从哪里来”。这不是买一个现成 API 就能解决的事情。

这一段的核心洞见在于:防御 AI 爬虫不是配置问题,而是长期工程。你需要接受一个事实——没有任何单一维度能帮你区分人类、好机器人和恶意机器人。

验证码、指纹与限流:组合拳才是现实解法

为什么“加个验证码”不再让人安心?因为它已经被证明并非万能。David 很直接地说:“Captcha 是标准做法,但它甚至可能不是某些攻击的防御手段。”尤其是当攻击目标不是登录,而是内容抓取时,验证码常常无能为力。

他提到了一些有趣的开源项目,核心思路是浏览器指纹(fingerprint)。即便攻击者不断更换 IP,“你仍然可以直接封掉那个指纹”。在此基础上,再配合 rate limiting(限流),防御效果才开始真正成型。

这也是他整场演讲的收束点:没有银弹,只有层层叠加的策略。正如他用行动而非口号传达的那样,防御 AI 机器人,本质上是一场耐心和工程能力的较量。

总结

David Mytton 的分享提醒我们,AI 时代的网站防御已经从“识别谁是好人”转变为“在不确定中持续建立信号”。AI 爬虫让旧规则失效,也逼迫开发者正视成本、架构和长期维护的问题。真正可行的策略,不是依赖单一工具,而是接受复杂性,并用工程方法与之共存。


关键词: AI爬虫, 网站安全, Arcjet, OpenAI, 机器人防御

事实核查备注: David Mytton:Arcjet 创始人;Arcjet:为开发者提供安全 SDK;提及案例:Wikipedia 遭遇 AI 爬虫压力;技术概念:serverless、AI bots、User-Agent、数据中心 IP、浏览器指纹(fingerprint)、rate limiting、Captcha;公司:OpenAI、Google;观点引用均来自演讲原意