天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

开源社区频遭AI爬虫侵袭,运维人员直呼“太难了”!

2025-03-21来源:天脉网编辑:瑞雪

近期,开源社区遭遇了一场前所未有的挑战,多家知名开源项目纷纷发声,指责AI公司大规模抓取公共资源,导致服务器压力激增,频繁出现宕机或性能大幅下降的情况。SourceHut、GNOME、KDE、Inkscape、Fedora等多个社区均表达了对这一问题的深切关注。

SourceHut的创始人兼CEO Drew DeVault在其博客中愤怒地披露了与AI模型爬虫的“拉锯战”。他透露,平台每周都会遭遇数十次短暂宕机,为应对这一危机,他不得不频繁审查并调整防护措施。DeVault坦言,他近期有20%至100%的工作时间都耗费在与这些爬虫的斗争中,多个高优先级任务因此被延误数周甚至数月。更令他无奈的是,这些防护措施往往无法有效区分真实用户与爬虫,导致真实用户也受到影响。

DeVault还提到,他的系统管理员朋友们也面临着同样的困扰。LLM爬虫的出现让所有开源项目措手不及,大家聚会时常常互相打听解决方案。KDE、GNOME等开源社区同样未能幸免。KDE遭遇了伪装成Microsoft Edge浏览器的恶意流量或爬虫,而GNOME则自去年11月以来一直受到爬虫困扰,不得不实施临时流量限制,严重影响了匿名访客的访问体验。

GNOME部署了一种名为Anubis的防御工具,要求访问者完成Proof-of-Work挑战才能访问网站。然而,这一措施也波及了普通用户,导致在某些情况下等待时间长达数十秒乃至数分钟。在Mastodon上,GNOME管理员分享的数据显示,在2.5小时内收到了约8.1万次请求,其中仅有3%成功通过验证,其余97%被判定为爬虫。

Fedora社区为保持其Pagure代码托管平台的稳定,也不得不采取极端措施,屏蔽了大量可疑IP段,甚至一度封禁了整个国家的访问请求。这种“一刀切”的做法引发了社区用户对误伤的担忧。Inkscape项目也表示,大量AI爬虫使用假冒浏览器UA或无视防爬协议,迫使维护者持续扩充黑名单。Frama软件公司的BigGrizzly也曾被恶意LLM爬虫淹没,建立了包含46万个可疑IP的列表。

为了应对这一问题,一些开源社区开始尝试更全面的解决方案。例如,“ai.robots.txt”项目提供了一个实施Robots Exclusion Protocol的robots.txt和.htaccess文件,用于阻止列表中AI爬虫的访问。Diaspora的维护者Dennis Schubert也吐槽了类似经历,他指出,过去60天内Diaspora的网站与文档服务收到了1130万次请求,其中近70%来自AI爬虫。相比之下,传统搜索引擎如Googlebot、Bingbot等抓取行为更为克制。

Read the Docs平台曾公开数据显示,屏蔽所有AI爬虫后,其网站流量从每天800GB降至200GB,节省了约1500美元/月的运营成本。这一数据凸显了AI爬虫对开源社区造成的巨大流量压力。

面对这一挑战,开源社区呼吁更多关注与自律。DeVault在博文中抨击了加密货币、谷歌团队、硅谷AI公司等多方,认为他们将自己的成本转嫁给社会公共资源,尤其是像SourceHut这样的中小型平台。他呼吁这些机构要么承担社会责任,要么远离开源社区。目前,各大开源项目正在积极探索更高效、对普通用户更友好的解决方案,但这一过程将是一个长期博弈的过程,需要行业规范、AI爬虫自律以及社区共同行动。

江淮大地科技盛宴启幕:创新成果汇聚 共绘产业新蓝图
从“智赋万物 创享江淮”人工智能创新对接活动,到中国科学院科技成果转化“融合点”行动安徽专场对接会,再到核聚变能科技成果转化对接活动,本届科交会精准征集科技创新成果,深入挖掘企业技术需求,精心组织13场专项对…

2026-04-27

深圳机场“机器人天团”上岗 智能查验助力货物通关跑出“加速度”
另一侧的冷库区内,2℃-8℃的低温环境里,轮足复合式冷链查验机器狗身姿灵活,四肢交替间轻盈穿梭在码放整齐的冰鲜水产品货箱之间,时而俯身细致核查包装密封情况,时而抬头快速采集货物编码,动作麻利、精准高效,成为…

2026-04-27

2026东莞机器人外壳吸塑供应:五大厂家实力比拼,精准匹配多元需求
本报告旨在通过系统性量化评估,从专业实力、高精度工艺、交付稳定性及客户生态四大维度,解析东莞地区五家核心机器人外壳吸塑生产厂家的核心竞争力,为企业决策者提供实证依据与优选参考。建议企业在进行新项目开发时,优…

2026-04-27

OpenAI Chronicle变付费功能48小时后 00后团队开源OpenChronicle重构AI记忆新可能
记忆的控制权,在平台还是在用户手里 记忆的边界,是被锁在应用里,还是可以流动 记忆的形态,是黑箱能力,还是数据层如果说大模型阶段解决的是「AI能不能理解并回答你」,那么下一阶段的核心命题将是:「AI 能…

2026-04-27

小米技术成果亮眼:截至2025年底全球授权专利超4.5万项,多领域布局未来可期
小米技术分享的海报显示,小米集团审查中专利申请数已突破 4 万(截至时间 2025 年 12 月 31 日)。全球专利授权数10000+、审查中专利申请数 23000+; 影像技术:全球专利授权数 220…

2026-04-26