ブログ/記事一覧/「ウェブの歴史が消える」241のニュースサイトがInternet Archiveを締め出した理由
internet-archive-blocked-by-publishers-ai-cover

「ウェブの歴史が消える」241のニュースサイトがInternet Archiveを締め出した理由

NYTやガーディアンなど9カ国241のニュースサイトがInternet Archiveのクローラーをブロック。AI学習データの流出を恐れた措置だが、1兆ページ超のウェブの歴史記録が消失する懸念をEFFが警告している。

ニュース
kkm-horikawa

kkm

Backend Engineer / AWS / Django

2026.03.228 min6 views

241のニュースサイトがInternet Archiveを締め出した

9カ国、241のニュースサイトが、Internet Archiveのクローラーを自社サイトから追い出しました。

Nieman Journalism Labの調査によると、ニューヨーク・タイムズ(NYT)、ガーディアン、フィナンシャル・タイムズ(FT)、USAトゥデイなど、世界的な大手メディアが次々とブロックに踏み切っています。2025年末にNYTがrobots.txtにarchive.org_botを追加したのを皮切りに、ガーディアンはAPI経由のアクセスを遮断、Redditも2025年8月にブロックを宣言しました。

調査対象1,167サイトのうち、241サイトがInternet Archiveのボットを少なくとも1つブロックしています。うち87%にあたる210サイトはGannett(USAトゥデイの親会社)傘下のメディアです。Gannettは2025年9月だけで7,500万回のAIボットアクセスをブロックしており、そのうち7,000万回はOpenAIからのものでした。

そして2026年3月16日、電子フロンティア財団(EFF)が声明を発表しました。タイトルはこうです。「Internet Archiveをブロックしても、AIは止まらない。消えるのはウェブの歴史記録だ」。

Internet Archive(Wayback Machine)とは何か

Internet Archiveは1996年にブリュースター・ケール氏が設立した非営利のデジタル図書館です。「ウェブのすべてを保存する」という、途方もない目標を掲げています。

中核サービスのWayback Machineは、ウェブページのスナップショットを自動で保存し続けています。保存ページ数は1兆を超え、1997年6月にはNYTの最初のウェブページも記録されています。

利用しているのはノスタルジーに浸りたい人だけではありません。ジャーナリストが過去の報道内容を検証するとき、研究者が削除された論文を追跡するとき、弁護士が裁判の証拠としてウェブページの過去の状態を提示するとき。Wayback Machineは「ウェブの図書館」として、情報の正確性を支えるインフラになっています。

ウィキペディアだけでも、249言語にまたがる246万件のニュース記事がInternet Archiveにリンクしています。これらのリンクが「ページが見つかりません」に変わったら、何が起きるでしょうか。

なぜ出版社はブロックするのか。AI企業という「裏口」

出版社がInternet Archiveを敵視し始めた理由は、AI企業にあります。

2023年、ワシントン・ポストの調査で、Wayback MachineのデータがGoogleの学習用データセット「C4」に含まれていることが判明しました。C4は1,500万ドメインを収録しており、Wayback Machineはその中で187位にランクされています。GoogleのT5モデルやMetaのLlamaも、このデータセットで学習しています。

ガーディアンのロバート・ハーン氏(ビジネス担当責任者)はNieman Labの取材でこう語っています。「AI企業は、すぐに使える構造化されたコンテンツのデータベースを探している。Internet ArchiveのAPIは、自社のマシンを接続してIPを吸い出すには最も手っ取り早い場所だった」。

出版社にとっては、AI企業との交渉で不利な立場に立ちたくないという事情もあります。NewsCorp(ウォール・ストリート・ジャーナルの親会社)はOpenAIと5年間で2億5,000万ドル以上の契約を結んでいます。Taylor & FrancisはMicrosoftと3,000誌以上を対象に1,000万ドルの契約を交わしました。無料で手に入るデータがあるうちは、こうした契約に応じるAI企業は少ないでしょう。

つまり、出版社にとってInternet Archiveは「善意の図書館」ではなく、AI企業がニュースコンテンツにタダ乗りするための「裏口」に見えている。そういうことです。

出版社ごとに対応が違う。NYT・ガーディアン・Gannett

ブロックの方法は出版社ごとにかなり異なります。

出版社ブロック方法Wayback Machineへの影響
ニューヨーク・タイムズrobots.txt + 技術的な
ハードブロック
新規ページの保存が停止
ガーディアンAPI制限 +
記事ページをURL除外
トップページ・セクションページは
閲覧可。記事は不可
フィナンシャル・タイムズ有料記事への全ボット
アクセスをブロック
無料記事のみ保存が残る
Gannett(210サイト)robots.txtに2種類の
IAボットを追加
「このURLはWayback Machineから
除外されています」と表示
ル・モンド3種類のIAボットを
robots.txtでブロック
フランス語・英語版ともに
保存停止
Reddit2025年8月にブロック宣言過去の投稿・スレッドの
保存が停止

robots.txtというのは、ウェブサイトのルートに置かれるテキストファイルで、「このボットは来ていいけど、こっちのボットはダメ」とクローラーに指示するものです。GoogleやBingのボットは許可しつつ、Internet Archiveのボットだけを名指しでブロックしている出版社が大半です。

ちなみに、Internet Archive自身のrobots.txtは以前こう書かれていました。「Welcome to the Archive! Please crawl our files. We appreciate it if you can crawl responsibly. Stay open!」。Nieman Labの取材後、この文面は変更されました。

「アーカイブを止めてもAIは止まらない」EFFの警告

EFF(電子フロンティア財団)は、アメリカを拠点とするデジタル権利の擁護団体です。インターネット上のプライバシーや表現の自由を守るために活動しており、AI規制や著作権訴訟でも積極的に意見を発信しています。

そのEFFが2026年3月16日に発表した声明の骨子はこうです。

出版社がInternet Archiveをブロックしても、AI企業によるコンテンツの利用は止まらない。AI企業はすでに独自のクローラーを持っており、Internet Archiveを経由する必要はない。ブロックが止めるのは、30年分のウェブの歴史記録だけだ。

EFFのジョー・マリン氏は、アーカイブ行為とAI学習を明確に区別すべきだと主張します。アーカイブは「公共の記録を保存する」行為であり、「商用AIモデルを構築する」行為とは目的が根本的に異なる。そしてアーカイブ行為については、Googleブックス訴訟の判例で「検索可能にするための複製はフェアユースである」と確立されている、と。

「出版社とAI企業の著作権紛争は裁判所で解決すべきだ。その過程で数十年分の歴史文書を消滅させることは、深刻で不可逆的な誤りになる」。EFFの声明はそう結ばれています。

Wayback Machineが消えると何が起きるのか

「別にWayback Machineがなくても困らない」と思うかもしれません。でも、実際にはすでに影響が出始めています。

2025年5月から10月にかけて、ニュースサイトのホームページのスナップショット数は87%減少しました。アーカイブプロジェクトの機能低下が原因です。ここにブロックが加わると、将来の研究者がこの時代のニュースを調べようとしたとき、巨大な空白に直面することになります。

オールド・ドミニオン大学のコンピュータ科学者マイケル・ネルソン氏はNieman Labの取材でこう語っています。

「Common CrawlやInternet Archiveは広く『善玉(good guys)』と見なされている。それをOpenAIのような『悪玉(bad guys)』が利用した。LLMに支配されたくないという全員の反感のなかで、善玉が巻き添えを食っているんだ」

具体的に何が失われるのか、整理してみます。

  • 1. 過去の報道の検証。ニュースサイトは記事を日常的に修正・削除します。「あのとき何と書いてあったか」を確認する手段がなくなります。フェイクニュースの検証にも使えなくなります
  • 2. ウィキペディアのリンク切れ。249言語・246万件のニュースリンクが「ページが見つかりません」になる可能性があります。ウィキペディアの信頼性を支える参照元が消えるということです
  • 3. 法的証拠の消失。裁判所では、ウェブページの過去の状態をWayback Machineのスナップショットで証明することが認められています。この手段が使えなくなります
  • 4. 歴史の空白。将来の研究者が「2020年代に何が起きていたか」を調べるとき、主要メディアの報道が丸ごと欠落した時代として記録されます

ウェブの「図書館」を守るか、著作権を守るか

出版社の行動を一方的に批判するのは簡単ですが、彼らにも事情があります。

AI企業は出版社が何十年もかけて積み上げたコンテンツを、許可なく、対価も払わずに学習データに使いました。出版社が「もうタダでは渡さない」と言うのは、ビジネスとしてはまっとうな判断です。

問題は、その「タダでは渡さない」の射程が広すぎることです。AI企業のクローラーだけをブロックすればいいものを、Internet Archiveまで巻き添えにしてしまっている。AIへの怒りが、30年間ウェブの記録を黙々と保存してきた非営利団体に向かっている。

Internet Archiveの創設者ブリュースター・ケール氏は「出版社が図書館を制限すれば、市民は歴史記録へのアクセスを失う」と警告し、業界協議を呼びかけています。しかし、現時点で主要な出版社が交渉のテーブルについたという報道はありません。

ウェブの歴史は、誰かが意識して保存しなければ消えます。サーバーが止まればページは消え、URLが変われば過去の記事にはたどり着けません。Wayback Machineが30年間やってきたのは、その「消える前に写真を撮る」作業でした。

出版社とAI企業の戦いは裁判所で決着すべきものです。その戦いの巻き添えでウェブの図書館が閉まるとしたら、失うものはAI企業の学習データではなく、私たちの歴史そのものです。

参照元