
整理 | 苏宓
时下,AI 爬虫把多样网站折腾得不轻,不是让其崩了就是卡了,导致运行也变得极为不通晓,哪怕改革了用于公法搜索引擎捏取用具不错拜谒网站上哪些网址的 robots.txt 文献、屏蔽已知的爬虫标识(User-Agent)、致使过滤可疑流量,它们照旧能绕过闭塞,伪造身份、用住宅 IP 代理,怎么齐拦不住......
跟着 AI 本事的快速迭代,不幼年型诞生商、开源诞生者发出咆哮,他们称我梗直被 AI 爬虫逼到崩溃旯旮,而这究竟是怎么一趟事?
个东说念主诞生者:实在没主义的话,只可关工作器了
身为本事教育者、AI 艺术家的 Xe Iaso 等于稠密“受害者”之一。
本年 1 月,她公开叱咤亚马逊的 AI 爬虫,称其落拓捏取我方的 Git 代码托管工作,导致网站往往崩溃,险些无法平方运行。
Xe Iaso 暗示,我方发布这篇帖子的指标并不是为了共享信息,而是一种求援。她径直向 AmazonBot 运营者喊话,但愿对方能将我方的 Git 工作器 git.xeserv.us 加入屏蔽列表。“要是你们有任何情理非要爬取我的 Git 工作器,请先连接我,咱们不错接洽如何支付相应的用度来升级硬件,以匹配你们夸张的资源销耗。”
但问题远比设想的辣手。Xe Iaso 已经在工作器的 robots.txt 文献中明确回绝系数爬虫:
User-agent: * Disallow: /
然而,这并莫得起到任何作用。多样 AI 爬虫用具依旧猖獗,它们会伪造身份、修改 User-Agent,致使使用住宅 IP 代理来绕过扬弃。
“我真是不想把我的 Gitea 工作器澈底关闭对公众的拜谒,但要是莫得别的主义,我只可这样作念”,Xe Iaso 坦言。
无奈之下,她在 Ingress 确立中添加了胁制 Amazon 爬虫的代码:
nginx.ingress.kubernetes.io/configuration-snippet: |if ($http_user_agent ~* "(Amazon)" ){return 418;}
但这些爬虫依然连续更换 IP 链接轰炸,其中约 10% 的恳求致使莫得使用 AmazonBot 的 User-Agent,完全无法通过成例技巧浮松。「我已经不知说念还能怎么办了。我气愤这个改日。」
访佛的情况不啻发生在 Xe laso 身上。本年 1 月,咱们曾经报说念过乌克兰一家专注于东说念主体 3D 模子的网站 Trilegangers 倏得崩了,开首,该公司 CEO Oleksandr Tomchuk 仅仅收到一则警报,进而发现公司的电子商务网站已完全瘫痪了。依然排查,罪魁首恶居然是——OpenAI 此前研发的一款机器东说念主 GPTbot。
“他们的爬虫模范正在迫害咱们的网站!”Oleksandr Tomchuk 无奈说念,“这基本上是一次 DDoS 膺惩。”
彼时,网友曾质疑 Trilegangers 反爬机制不够强,但执行就像 Xe Iaso 说的——根蒂防不住。
除了 Trilegangers、Xe Iaso 的遇到以外,开源样式也成重灾地。
开源样式也成为 AI 爬虫的重灾地
近日,Fedora Pagure 项指标系统管理员 Kevin Fenzi 发布博文披露,AI 爬虫的影响愈演愈烈,致使导致 pagure.io(Fedora 代码托管平台)瘫痪。尽管团队尝试闭塞部分子网,但要在不影响平方用户的情况下完全胁制爬虫,险些不可能。
“上周四和周五,情况变得更糟”,Fenzi 写说念。“咱们发现,大部分坏心流量来自 .br(巴西)的 IP 段,终末只可闭塞通盘 .br(巴西)的拜谒,才拼凑规复网站反应。”
但他也承认,这仅仅临时措施,流量减少后(按理说,爬虫发现没法链接捏取后就会管制)就会废除闭塞。“咱们需要更好的处分决策”,Fenzi 暗示。他打算经营 mod_qos 来优化流量管理,同期已为 pagure.io 增多 CPU 资源,以缓解工作器压力。
“请不要当着我的面,把特等的老本转接到我身上”
不问可知,AI 爬虫的鼎力捏取不仅对工作器带来千里重压力,也让稠密本事团队濒临高尚的运营老本。
对此,开源软件诞生平台 SourceHut 首创东说念主兼 CEO Drew DeVault 于上周发布了一篇《请不要再当着我的面把你们的老本转嫁给我了》,直指 AI 公司无视 robots.txt,大限制捏取数据,导致 SourceHut 工作器往往中断。
DeVault 披露,在以前几个月里,本该专注于 SourceHut 中枢使命的他,却不得不在每周花 20% 到 100% 的时刻去搪塞 LLM 爬虫系数。
“这已经不是 SourceHut 第一次被坏心活动盯上,也不是第一次被动为别东说念主转嫁的老本买单——险些每隔几年,总有东说念主能发明出新的样式来折磨我”,他写说念。
DeVault 称,四年前,SourceHut 被滥用于挖矿,被动改为付费使用 CI 工作;两年前,平台遇到 Go 模块镜像的滥用,逐日需处理 TB 级 Git 克隆恳求。如今,LLM 爬虫成为新的清贫。
DeVault 指出,这些爬虫不仅无视 robots.txt,还会伪装成普通用户流量,愚弄立时 User-Agent 和大宗住宅 IP 地址,绕过闭塞战略,专门针对高销耗 API(如 git blame、Git 日记页面、每个仓库的提交纪录等)。
「目下,咱们每周齐会履历数十次片晌宕机,我每天齐得屡次检讨并调治提神措施,以免情况变得更糟。即便偶尔偶然刻处理其他事务,也时常不得不中断,因为提神措施又失效了、警报又响了。SourceHut 的许多要津任务已经被推迟了数周致使数月,因为咱们连续被这些爬虫膺惩打断。况兼,由于爬虫和平方用户的流量难以辞别,咱们的提神技巧偶然也会误伤用户,导致他们的体验受损」,DeVault 说说念。
不啻 SourceHut,其他开源项指标系统管理员们通常苦不可言。DeVault 暗示,每当和同业交流,话题总会转向如何搪塞爬虫,而谜底恒久是:“没东说念主找到澈底处分主义。”
「 这种不振的心绪肉眼可见。」
面对 AI 公司无节制的数据捏取,DeVault 不悦说念:“我已经受够了。这些外部老本被赤裸裸地甩到我脸上,而我只可被动搪塞。作念点对社会特地念念真理的事情,或者从我的工作器上滚出去。在烧掉大齐资金之前,至少先想想如何为大师利益作念点孝顺吧,不然等系统管理员们孰不可忍,哪天不屈了,你们就等着吧。”
不消置疑,AI 爬虫的落拓捏取闪开源样式堕入了艰巨境地。这些样式依赖社区合作,但资源远远比不上贸易公司。
正在不屈的诞生者们
天然,为了抵御爬虫,不少诞生者也想过主义。
上文提到的 AI 艺术家的 Xe Iaso 在我方博文中暗示,我方诞生了一套叫 “Anubis” 的系统( https://git.xeserv.us/ )。这是一个基于使命量说明(Proof-of-Work)的挑战机制,使命旨趣是,当用户拜谒启用了 Anubis 的网站时,Anubis 会条款浏览器完成一个基于 SHA-256 的 PoW 挑战。这一挑战需要销耗一定的规划资源,普通用户险些察觉不到延长,但关于大限制爬虫而言,这种特等的规划支拨会显赫增多捏取老本,从而起到遏制作用。
自后,GNOME 的 GitLab 实例应用了这一方法,在页面加载时运转出现一位动漫仙女。
在 Mastodon 上,GNOME 系统管理员 Bart Piotrowski 粗豪地共享了一些数字,让东说念主们充分了解问题的规模。据他先容,在或者两个半小时内,他们总共收到了 81000 个恳求,其中惟有 3% 通过了 Anubi 的使命量说明,这意味着 97% 的流量来自机器东说念主——这是一个落拓的数字!
天然 “Anubis” 确乎能有用胁制爬虫,但它也给平方用户带来了繁忙。要是有好多东说念主同期拜谒并吞个 GitLab 通顺,比如在群聊平共享通顺时,网站加载可能会变得十分慢。据报说念,有用户反馈,他们遇到了长达 1 分钟的延长,而另一位用户在手机上恭候了或者 2 分钟。
除了这种方法以外,据悉,全球最大的集聚基础设施公司之一 Cloudflare 最近发布了一个叫作念 「AI迷宫」(AI Labyrinth) 的全新用具,专门用来对付那些未经允许、到处捏取网页内容的爬虫机器东说念主。
Cloudflare 披露,每天 AI 爬虫在他们的集聚上发起卓越 500 亿次恳求,占他们总流量的近 1%。
凭证 Cloudflare 在官方博客上的先容,当系统检测到有“很是的爬虫活动”时,这个免费的可采用具就会运转进展作用。它会沟通这些坏机器东说念主走进一个充满通顺的迷宫。这些通顺指向的绝对是AI自动生成的「空幻页面」,而这些页面里的内容齐是毫无价值、用来勾引机器东说念主的妄言。指标是:“让这些居心不良的机器东说念主变得越来越慢、越来越迷濛,最终耗尽他们我方的资源”。
另外,据科技媒体 Ars Technica 报说念,也有一位匿名诞生者 “Aaron” 遐想了一个用具 “Nepenthes”,专门让爬虫掉进用之约束的假页面迷宫长达“几个月”,销耗大宗时刻和规划资源。他直言:“让这些爬虫白白烧钱,它们正本就还没盈利,这对它们但是个大繁忙。”
https://zadzmo.org/code/nepenthes/
跟着 AI 模子的快速迭代,数据已经成为“稀缺”的资源,这俨然已经成为 AI 模子公司和诸多诞生者之间的一场永恒“博弈”。
有东说念主觉得,AI 生成的垃圾内容正在充斥互联网,而 AI 爬虫则在连续榨取数据资源。要是 AI 公司链接无节制地捏取数据,而不给开源样式任何赔偿,最终可能会挟制到提拔当代互联网的基础设施。
也有网友暗示,「与其单纯屏蔽爬虫,不如让它们赢得“负价值”信息,举例投喂空幻或无真理真理的内容,让爬虫捏取到的内容变得毫无价值。」
更有诞生者评价说念:
目下来看,这些大模子爬虫还算“蠢”,它们仅仅浮浅狰狞地捏取数据,并莫得什么高档战略。不外,万一它们以后变机灵了,也许不错愚弄这少量来反制它们。
但即使它们照旧这样笨,照旧有主义对付的。比如,不错检讨爬虫的 User-Agent(它声明我方是什么浏览器或用具),要是它说的和它本色作念的不符,就给它复返乖张信息(这样像 Lynx 这种老旧浏览器的平方用户就不会受影响)。
另一种主义是用多样技巧“忽悠”爬虫,比如:
让它们连续重定向到无效地址,或者把它们沟通到一些公司里面 API,淆乱它们的剖析逻辑;复返无效的 UTF-8 编码或损坏的压缩数据,让它们剖析失败;发送“ZIP 炸弹”(一个小文献,解压后造成超大文献),让爬虫耗光规划资源;使用 EICAR 测试文献(凡俗用来检测杀毒软件),望望爬虫会不会被吓跑;要是知说念爬虫的确凿身份,还不错尝试“反向 ping”来对付它们。
这些方法具体能不可收效,得看爬虫用的是什么软件,可能需要多试几种样式身手找到最有用的技巧。
你如何看待这一局势?是否有过联系的履历?接待留言共享。
参考:
https://news.ycombinator.com/item?id=43476337
https://www.scrye.com/blogs/nirik/posts/2025/03/15/mid-march-infra-bits-2025/
https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html
https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries/
https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/凯时体育游戏app平台