开发者生态
morning
超过 340 个当地新闻媒体限制互联网档案馆的访问
2026-05-21
1 阅读
jaredwiener
2026 年 5 月 20 日下午 5:03聚合和发现 超过 340 家当地新闻媒体正在限制互联网档案馆对其新闻的访问,McClatchy、Advance Local、Tribune Publishing 和其他主要报纸连锁店正在限制非营利组织的归档机器人。作者:Andrew Deck 和 Hanaa' Tameez 2026 年 5 月 20 日下午 5:03 2026 年 5 月 20 日下午 5:03一月份,尼曼实验室爆料称,包括《纽约时报》、《卫报》和《今日美国》在内的主要新闻出版商已开始封锁互联网档案馆,因为担心人工智能公司可能会窃取该非营利组织的存储库中的训练数据。没有新闻出版商向尼曼实验室证实,一家人工智能公司已经从 Wayback Machine 上删除了他们的内容。尽管如此,自我们发表故事以来的五个月里,封锁互联网档案馆的新闻网站数量仍在持续增加。相关文章 由于人工智能抓取问题,新闻出版商限制互联网档案馆的访问 Andrew Deck 2026 年 1 月 28 日 绝大多数情况下,这些网站都是本地新闻媒体。我们的新分析显示,美国 340 多个地方新闻网站现在限制互联网档案馆访问和保存其故事的能力。我们样本中的许多网站都属于该国七大本地新闻出版商中的五家:USA Today Co.、McClatchy、Advance Local、MediaNews Group 和 Tribune Publishing。后两家都是“秃鹫对冲基金”奥尔登全球资本的子公司。世界各地的研究人员、历史学家和公民依靠当地新闻网站的网络档案来完成他们的工作。密苏里大学新闻图书馆员爱德华·麦凯恩说:“阻止互联网档案馆的网络爬虫威胁到我们长期捕获和存储新闻内容的最有效方式之一。” “目前我们可能有一些解决方法,但从长远来看,它削弱了主要来源材料中的一个重要联系,我们需要了解我们去过哪里以及我们想去哪里。”职业记者是 Wayback Machine 本地新闻档案最频繁的用户之一。上个月,网上请愿书呼吁新闻媒体公司允许互联网档案馆保存他们的新闻报道。 “我在纽约罗克兰县、沙利文县和罗克兰县的一个更大的新闻沙漠中报道新闻。这意味着我需要严重依赖已故媒体或僵尸媒体的旧新闻文章的档案数据,”《门罗公报》时事通讯的编辑 B.J. Mendelson 在最近一份由 200 多名记者签名的请愿书中写道。 “如果没有互联网档案馆,我的[工作]将很难完成。”相关文章 在新闻出版商限制文章存档后,记者拥护 Wayback Machine Andrew Deck 2026 年 4 月 15 日 面对出版商的担忧,Wayback Machine 强调了其为尽量减少网站滥用所做的努力,包括实施限制批量下载的系统以及与 Cloudflare 等供应商合作来监控机器人活动。 Wayback Machine 的创始人马克·格雷厄姆 (Mark Graham) 告诉尼曼实验室:“我们正在与许多出版商进行对话,并很高兴有机会解决他们的担忧。”他指出,互联网档案馆的使用条款只允许将其馆藏用于学术或研究目的。纽约大学数据记者兼教授梅雷迪思·布鲁萨德 (Meredith Broussard) 表示,随着新闻利润率下降,新闻出版商保护其知识产权只会变得更加重要。 “自互联网档案馆成立以来,每个人都在与它进行同样的斗争,”布鲁萨德说。 “互联网档案馆是一个非常老派的‘信息应该免费’的组织。但是投资不同的人有不同的优先事项。在这种情况下,有许多不同的历史、法律和经济问题相互冲突。人工智能公司是一场非常古老的战斗中最新小冲突的催化剂。”一月份,尼曼实验室使用记者 Ben Welsh 的数据库(包含 1,167 个新闻网站的 robots.txt 文件)来确定哪些网站不允许互联网档案馆。当时,互联网档案馆没有回应确认其正在使用哪些爬行机器人的请求,因此我们确定了人工智能用户代理看门狗服务“黑暗访客”与它们关联的四个机器人。 (您可以在此处找到我们的完整方法。)我们发现 241 个新闻网站至少不允许使用一种互联网档案馆附属的爬行机器人。其中大约 80% 的网站属于 USA Today Co.(该公司以前称为 Gannett)。到 5 月,我们发现另外 141 个新闻网站至少禁止一个互联网档案馆附属机器人,使我们样本中的网站总数增加到 382 个。其中一些新增内容出现在威尔士的数据库中。我们自己通过检查 robots.txt 文件找到了其他人。我们的最终样本包括 10 个国家/地区的站点,但绝大多数 (93%) 位于联合国