当AI爬虫失控：开发者如何重新思考网站防御

AI PM 编辑部 · 2025年07月30日 · 19 阅读 · AI/人工智能

正在加载视频...

视频章节

Arcjet 创始人 David Mytton 结合多年一线经验，讲述 AI 时代机器人流量为何变得更危险，以及开发者该如何从“识别好坏机器人”转向“构建多信号防御体系”。

当AI爬虫失控：开发者如何重新思考网站防御

Arcjet 创始人 David Mytton 结合多年一线经验，讲述 AI 时代机器人流量为何变得更危险，以及开发者该如何从“识别好坏机器人”转向“构建多信号防御体系”。

从创业者视角看：这不是一个新问题，但正在急剧恶化

为什么这件事值得今天重新讨论？因为在 David Mytton 看来，问题本身并不新，但环境已经彻底变了。作为 Arcjet 的创始人，他一开始就点明了背景：“我们为开发者提供安全 SDK，我今天讲的，基本都是过去几年我们亲手踩过的坑。”这不是纸上谈兵，而是持续与真实攻击对抗的总结。

他指出，机器人访问网站已经困扰行业“几十年”了，但 AI 的出现显著放大了影响。过去，哪怕是大型网站，也默认机器人流量是可控的；而现在，即便使用 serverless 架构，计算资源并非无限，只是“你不用想，但账单会替你想”。当大量爬虫不断请求内容时，压力最终体现在成本和稳定性上。

一个典型例子是 Wikipedia。David 提到，AI 爬虫正在大量抓取内容，而且“它们并不守规矩”。这类故事之所以重要，是因为它说明：即便是公益性、开放内容的网站，也正在被新一代 AI 抓取方式拖入资源消耗战。

“好机器人 vs 坏机器人”的旧逻辑正在失效

为什么传统防御思路不再可靠？因为判断标准已经被打破。David 回顾说，“过去我们有一个很简单的世界观：好机器人和坏机器人。”比如搜索引擎爬虫通常自报家门，遵守规则，而恶意爬虫特征明显。

但随着多个 AI 提供商同时运行爬虫，这个边界开始模糊。他特别提到 OpenAI，“他们至少有四种不同类型的机器人”。其中有的还算透明，但有的“比如 operator，看起来就像一个普通的 Chrome 浏览器”，这让识别难度直线上升。

更麻烦的是，坏机器人会主动伪装。David 在谈到防御时直言：“坏 bots 会直接改，他们会假装自己是 Google，或者假装是 Chrome。”这意味着，单靠 User-Agent 或简单规则，几乎注定会失败。

IP、地理位置与数据中心：信号有用，但永远不够

为什么很多团队在这里卡住？因为这些信号听起来合理，却很容易被绕过。David 解释说，从概率上看，“一个来自数据中心 IP 的请求，很可能不是你想要的流量”。这确实是一个有价值的判断基础。

问题在于，它只是一个信号，而不是答案本身。当你进一步尝试使用地理位置数据时，复杂度会迅速上升。David 提醒，“你必须不断积累信号，并建立你自己的数据库，才能真正理解这些流量从哪里来”。这不是买一个现成 API 就能解决的事情。

这一段的核心洞见在于：防御 AI 爬虫不是配置问题，而是长期工程。你需要接受一个事实——没有任何单一维度能帮你区分人类、好机器人和恶意机器人。

验证码、指纹与限流：组合拳才是现实解法

为什么“加个验证码”不再让人安心？因为它已经被证明并非万能。David 很直接地说：“Captcha 是标准做法，但它甚至可能不是某些攻击的防御手段。”尤其是当攻击目标不是登录，而是内容抓取时，验证码常常无能为力。

他提到了一些有趣的开源项目，核心思路是浏览器指纹（fingerprint）。即便攻击者不断更换 IP，“你仍然可以直接封掉那个指纹”。在此基础上，再配合 rate limiting（限流），防御效果才开始真正成型。

这也是他整场演讲的收束点：没有银弹，只有层层叠加的策略。正如他用行动而非口号传达的那样，防御 AI 机器人，本质上是一场耐心和工程能力的较量。

总结

David Mytton 的分享提醒我们，AI 时代的网站防御已经从“识别谁是好人”转变为“在不确定中持续建立信号”。AI 爬虫让旧规则失效，也逼迫开发者正视成本、架构和长期维护的问题。真正可行的策略，不是依赖单一工具，而是接受复杂性，并用工程方法与之共存。

关键词： AI爬虫，网站安全， Arcjet， OpenAI，机器人防御

事实核查备注： David Mytton：Arcjet 创始人；Arcjet：为开发者提供安全 SDK；提及案例：Wikipedia 遭遇 AI 爬虫压力；技术概念：serverless、AI bots、User-Agent、数据中心 IP、浏览器指纹（fingerprint）、rate limiting、Captcha；公司：OpenAI、Google；观点引用均来自演讲原意

返回文章列表