プレス発表 AIセーフティに関するレッドチーミング手法ガイドを改訂しました
独立行政法人情報処理推進機構
プレス発表 AIセーフティに関するレッドチーミング手法ガイドを改訂しました
AIセーフティ・インスティテュート
独立行政法人情報処理推進機構
公開日:2025年4月2日
AIシステムに対するレッドチーミング手順を詳細に解説
AIセーフティ・インスティテュート(AISI、所長:村上明子)は、2024年9月に公開した「AIセーフティに関するレッドチーミング手法ガイド」について、具体的な実施例を通してより詳細に理解できるよう改訂しました。RAG(Retrieval-Augmented Generation)の仕組みを実装したAIシステムに対して実際にレッドチーミングを行い、その手順を詳細に解説するとともに、レッドチーミング実施の成果物を文書としてとりまとめています。
AIセーフティに関するレッドチーミング手法ガイド
https://aisi.go.jp/effort/effort_framework/guide_to_red_teaming_methodology_on_ai_safety/
概要
AIシステムの悪用や誤用、不正確な出力による懸念などが生じ、AIセーフティ(注釈1)についての関心が国内外で高まりつつある中、AISIでは2024年9月に「AIセーフティに関するレッドチーミング手法ガイド」を公開しました。このガイドは、AIシステムの開発者や提供者が、対象のAIシステムに施したリスクへの対策を、攻撃者の視点から評価するためのレッドチーミング手法に関する基本的な考慮事項を示すものとして公開しました。しかし、レッドチーミングの実施には高い専門性が求められるため、より実践的なガイドにする必要がありました。
今回の改訂では、RAGの仕組みを実装したAIシステムに対して実際にレッドチーミングを行い、その手順を詳細に解説するとともに、レッドチーミング実施の成果物を文書としてとりまとめました。これらの結果は別紙および別添として本書の構成に加えており、改訂の結果本書の構成は以下のようになります。
注釈1
人間中心の考え方をもとに、AI活用に伴う社会的リスクを低減させるための安全性・公平性、個人情報の不適正な利用等を防止するためのプライバシー保護、AIシステムの脆弱性等や外部からの攻撃等のリスクに対応するためのセキュリティ確保、システムの検証可能性を確保し適切な情報提供を行うための透明性が保たれた状態のこと
本書の構成
1.本編
2.別紙(詳細解説書)
3.別添(成果物例)
1.リスクシナリオと攻撃シナリオの作成及び攻撃シナリオの実施結果
2.レッドチーミング実施結果報告書
3.最終報告書
本編では、レッドチーミング手法に関する基本的な考慮事項を体系的に記載しています。2章から5章では、レッドチーミングの種類や実施方法のほか、実施体制と実施時期について説明しています。6章から8章で、レッドチーミングの工程をそれぞれ第1工程「実施計画の策定と実施準備」、第2工程「攻撃計画・実施」、第3工程「結果のとりまとめと改善計画の策定」に分けて説明しています。各工程で5つずつ実施事項を示し、「実施の決定とレッドチーム発足」から「改善後のフォローアップ」まで計15ステップについて詳述しています。改訂にあたっては、「AIシステムに対する既知の攻撃と影響」に関する検討結果を踏まえ、懸念箇所や保護すべき情報資産を洗い出すために使っていたシステム図を更新しました。また、各ステップの手順や成果物がより理解しやすいよう、説明をより具体的に示しました。
別紙(詳細解説書)では、本編に沿ってレッドチーミングを実施する際の実施ポイントや各工程での成果物例を解説しています。高い専門性が求められる第2工程(攻撃計画・実施/STEP6~STEP10)を重点的に解説し、実際にレッドチーミングを行った結果から得られた示唆を示すことで、RT手法ガイドをより実践的な資料として拡充することを目的としています。
別添(成果物例)では、本編に沿ってレッドチーミングを実施する際に作成する成果物の一部を例として示しています。「リスクシナリオと攻撃シナリオの作成及び攻撃シナリオの実施結果」は本編のSTEP6~8で作成するリスクシナリオ、攻撃シナリオの作成例と攻撃シナリオの実施結果を示しています。「レッドチーミング実施結果報告書」は本編のSTEP12で作成するレッドチーミング実施結果報告書の例を示しています。「最終報告書」は本編のSTEP13で作成する最終報告書の例を示しています。
AISIは、AI開発者や提供者が攻撃者の目線で対象AIシステムにおける弱点や対策の不備を発見し、それらを修正・堅牢化するために、本書が活用されることを期待しています。
日本語版の資料に加え、英語版を含む「AIセーフティに関するレッドチーミング手法ガイド」の文書はAISIのウェブサイトからダウンロード可能です
AIセーフティに関するレッドチーミング手法ガイド
https://aisi.go.jp/effort/effort_framework/guide_to_red_teaming_methodology_on_ai_safety/
[画像1]https://digitalpr.jp/simg/2314/107266/600_354_2025040211233667ec9fa841dd9.png
図1. AIセーフティに関するレッドチーミング手法ガイド改訂の概要(詳細解説書から)
本件に関するお問合わせ先
お問い合わせ先
本件に関するお問い合わせ先
AIセーフティ・インスティテュート事務局 瀬光・多賀
E-mail aisi-guide-info@ipa.go.jp
報道関係からのお問い合わせ先
IPA 戦略コミュニケーション部 戦略コミュニケーション室 鴨田
TEL 03-5978-7503
取材専用お問い合わせフォーム
https://user.pr-automation.jp/pr-automation/coverage_request.php?key=i9_Y3MeJYe-YSe6gM34B0g%3D%3D
取材専用お問い合わせフォームは、外部サービス(PRオートメーション)を利用しています。
関連リンク
AIセーフティに関する評価観点ガイド
https://aisi.go.jp/effort/effort_framework/guide_to_evaluation_perspective_on_ai_safety/
AIシステムに対する既知の攻撃と影響
https://aisi.go.jp/effort/effort_security/known_attacks_and_impacts/
記事提供:Digital PR Platform