【調査リリース】国内主要3,200媒体の「LLM事前学習データ通過率」を初の大規模調査

株式会社トドオナダ

【調査リリース】国内主要3,200媒体の「LLM事前学習デ

全国紙100%・地方紙67%・主要ポータル94%がLLMの学習データから事実上「消えている」。プレスリリース配信も約3割が「即捨て」と判定

PRテック企業の株式会社トドオナダ（本社：東京都台東区、代表取締役：松本泰行、以下「当社」）は、当社が提供するPR効果測定サービス「Qlipper（クリッパー）」に搭載されているLLMフレンドリーチェック機能を用いて、国内主要3,166媒体を対象に、生成AI（LLM）の事前学習データパイプラインを通過できる媒体がどの程度存在するかを定量調査いたしました。
[画像1: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-671707999737719b636362884e87593b-1920x1080.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

その結果、LLMの事前学習データに「通過見込み」で採用される国内媒体はわずか10.0%（317件）、「条件付き通過」を含めても33.6%（1,063件）にとどまることが明らかになりました。さらに、伝統メディア（全国紙・地方紙・通信社）はrobots.txtによる完全遮断で、主要ポータル・ネットニュース系はコンテンツ構造側の問題で、それぞれ別の理由でLLMから排除されているという二層構造が初めて定量化されました。また、広報担当者が頼りとしてきたプレスリリース配信（ワイヤーサービス）も、robots.txtを完全開放しているにもかかわらず約3割が「即捨て」と判定され、配信先サイトの構造そのものがLLM到達率の壁となっている実態が明らかになりました。
■ 調査背景：LLM事前学習データパイプラインとは

ChatGPT、Claude、Geminiなどの生成AI（LLM）は、Web上の膨大な文書を学習素材として取り込むことで言語能力を獲得しています。しかし、Web上のすべてのコンテンツが学習に使われているわけではなく、各社AIベンダーは概ね以下のような多段フィルタパイプラインを経て学習データを選別しています。
[表1: https://prtimes.jp/data/corp/54369/table/242_1_c8b85e95b4a949588a287a0f9792a9c2.jpg?v=202606290415 ]
特に重要なのは１.と２.が独立した二層になっている点です。robots.txtで許可していても、サーバー側でAIクローラのUser-Agentを判定して拒否するケースが近年急増しており、CDN大手のCloudflareは2024年に「AIボットをデフォルトでブロックする」機能を提供開始しました。

robots.txtで「許可」していても、実際にはサーバー・CDN・WAFの層で遮断されているサイトが多数存在する

本調査は１.robots.txt層と３.４.クレンジング/品質層を測定対象としており、２.のUA判定層によるさらなる脱落は本調査の数値の「外側」に追加で存在します。実際の生成AIへの到達率は、本調査の通過見込み率（10.0%）よりさらに低い可能性が高いと考えられます。
つまり、「サイトがWeb上に存在している」ことと、「LLMに学習素材として届く」ことは全く別物であり、PR広報業界がこれまで前提としてきた「掲載=露出」という効果測定の枠組みは、生成AI時代にはそのまま機能しないことを意味します。
■ 調査概要
[表2: https://prtimes.jp/data/corp/54369/table/242_2_deb2b950bf77a2a1c81b58b9c9c28f62.jpg?v=202606290415 ]
※「LLMフレンドリーチェック機能」は、自社サイト・自社クライアント媒体がLLMにどの程度「見えているか」を診断する当社独自機能です。本リリースの調査は、同機能の大規模適用例の第一報となります。
■ 主要な調査結果
【結果1】LLM学習データに通過する国内媒体はわずか10.0%
[画像2: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-1beef646945ebc1ed98e1bbda3f6fed4-1633x1185.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

国内主要3,166媒体のうち、LLM事前学習パイプラインを「通過見込み」で抜けられる媒体はわずか317件（10.0%）。「条件付き通過」を含めても1,063件（33.6%）にとどまりました。残りの66.4%（2,103件）が何らかの理由でLLM学習素材から事実上排除されていることが、初めて定量的に明らかになりました。
【結果2】通過不可の原因は「robots遮断」より「コンテンツ品質」が圧倒的に多い
[画像3: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-c3666af231f3e37c5d83288635cd00cf-1585x1185.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

通過しなかった媒体の原因を切り分けると、以下のような分布になりました。
[表3: https://prtimes.jp/data/corp/54369/table/242_3_a77948be745c6778fb01e240d429bced.jpg?v=202606290415 ]
世間で語られがちな「AIがメディアをブロックしている」という議論とは逆に、実際の最大の壁は、サイト自体のコンテンツ構造がLLM学習パイプラインの要件を満たしていないことにありました。
【結果3】robots.txtによるLLMクローラ拒否の実態
[画像4: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-900d558ee187287a53b22ec017246498-1400x1035.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

robots.txtを正常に取得できた2,847媒体のうち、全クローラを完全拒否しているサイトは171件（5.4%）、一部クローラのみを狙い撃ち拒否しているサイトは223件（7.0%）でした。
[画像5: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-8f55ca80bfe2b223feb423ad854d5c13-1486x887.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

[表4: https://prtimes.jp/data/corp/54369/table/242_4_399b5360facef0f606414dff7dbfe994.jpg?v=202606290415 ]
サイト運営者は無差別にAIを拒否しているのではなく、OpenAI/Common Crawlは警戒、Perplexityは許容という明確な選別を行っています。媒体ごとに「どのAIに載るか/載らないか」のマップが既に形成されつつあると言えます。
【結果4】カテゴリ別の特徴-「3層の通過不可構造」
[画像6: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-a98ae32d1a3d9a0748a78f14560efe54-1632x1187.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

▼ 第1層：伝統メディアは「入口」で完全に閉ざしている
[表5: https://prtimes.jp/data/corp/54369/table/242_5_27415e5caa61b1257a6d5cff74b84ebe.jpg?v=202606290415 ]
権威ある一次情報を持つ伝統メディアほどLLM学習データへの提供を強く拒否しており、広報担当者がこれらの媒体に記事を載せても、生成AIの応答にはほぼ反映されない構図が明確になりました。
▼ 第2層：ポータルサイト-「複合的に詰まる」最重要盲点
[表6: https://prtimes.jp/data/corp/54369/table/242_6_ab1bd10319b1529ce7589889fc765342.jpg?v=202606290415 ]
広報業界で「掲載=成功」とみなされてきたポータルですが、通過見込み率はわずか5.9%（17媒体中1媒体）。robots遮断とコンテンツ品質の両方で詰まる「複合型の通過不可」であり、伝統メディアともネット系とも違う第三の問題類型を形成しています。
▼ 第3層：ネット系媒体は「許可するが品質で落ちる」
[表7: https://prtimes.jp/data/corp/54369/table/242_7_8f226a1c9947687ed5cc3af08a3a5c98.jpg?v=202606290415 ]
▼ 全体の4割を占める「専門サイト」は玉石混交
[表8: https://prtimes.jp/data/corp/54369/table/242_8_a80c48b29d2910012d8c1e980bde2857.jpg?v=202606290415 ]
全調査対象の40%を占める最大カテゴリである専門サイトは、スコア分布が二峰性（下位25%は0.098以下、上位75%は0.555以上）を示し、「LLMに通る専門サイト群」と「即捨てされる専門サイト群」に二分化されています。広報担当者が「業界専門サイトに載った」と判断したとき、その実効性はコイントスに近い確率で分かれることになります。
[画像7: https://prcdn.freetls.fastly.net/release_image/54369/242/54369-242-bebe475dfb31bfadedfd3e417b107d5f-2058x1279.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

【結果5】広報の頼みの綱・プレスリリース配信（ワイヤーサービス）も期待を裏切る
[表9: https://prtimes.jp/data/corp/54369/table/242_9_ec85d87176dd80dde0b5161d71c2de3a.jpg?v=202606290415 ]
調査対象の主要ワイヤーサービス10媒体は、robots.txtによる拒否率は0%--LLMクローラに対して門戸を完全に開放しています。これは構造的に当然で、プレスリリース配信は「広く拡散させること」が事業目的そのものであり、AIクローラを排除する動機がないためです。
ところが、門戸を全開にしているにもかかわらず、即捨て率は30.0%、記事URL不取得30.0%にのぼり、結果として通過見込みに到達するのは10媒体中3媒体にとどまりました。「robots.txtを許可している」ことと「LLMに届く」ことが別物であるという本調査の中核的発見が、もっとも極端な形で表れたカテゴリと言えます。
生成AI時代の広報活動において、配信本数や配信ペースだけでなく、配信先サイトがLLM学習パイプラインに通る構造になっているかが、新しい効果指標として浮上する
■ 総括：広報業界が直面する「媒体ポートフォリオの再設計」
本調査により、生成AI時代の広報活動は以下の事実を前提とせざるを得ないことが明らかになりました。
- 国内媒体の3社中2社は、LLMの学習素材として事実上「見えていない」- 権威ある伝統メディアほどLLMから消えているという逆説的構造- ポータル・ネットニュースに頼った従来型PRは、LLM経由の認知獲得に貢献しない- 広報の頼みの綱・プレスリリース配信ですら3割は「即捨て」--robots.txt開放は必要条件にすぎず、配信先サイトの構造改善なしにはLLMに届かない- 通過不可の最大要因はrobots遮断ではなく、サイト側のコンテンツ構造であり、改善余地が大きい
広報担当者が長年培ってきた「どの媒体に載るか」という発想は、「どの媒体ならLLMに届くか」「自社サイトはLLMに通る構造になっているか」という新たな問いへと拡張される必要があります。
■ 株式会社トドオナダの取り組み
当社では、本調査で用いた「LLMフレンドリーチェック機能」を、PR効果測定サービス「Qlipper」上で広報担当者向けに提供しています。自社サイト・自社クライアントのコンテンツが、LLM事前学習パイプラインのどの段階で落ちているのか、どう改善すれば通過率が上がるのかを、定量診断ベースで可視化することが可能です。
さらに、LLMがどのように自社・自社クライアントを認知・引用しているかをチャット形式で診断する「ディギディギ（Digidigi）」を開発しました。PR広報業界における「LLM時代の認知測定」のスタンダード確立を目指してまいります。
■ 本リリースに関するお問い合わせ
株式会社トドオナダ
担当：Qlipper運営事務局
Email：qlipper@todo-o-nada.com
Web：https://qlipper.jp/
■ 会社概要
[表10: https://prtimes.jp/data/corp/54369/table/242_10_0ce23c182b59aad3844076bdedc9681e.jpg?v=202606290415 ]
※本リリースに記載されている数値はすべて2026年6月28日時点の調査結果に基づきます。調査対象媒体・調査手法の詳細については、ご要望に応じて別途資料をご提供いたします。

プレスリリース提供：PR TIMES

【調査リリース】国内主要3,200媒体の「LLM事前学習デ