急速に広がるAIエージェントの「暴走リスク」を未然に防ぐ。AIセーフティプラットフォーム「datagusto」提供開始
株式会社datagusto

"意図しない挙動"をリアルタイムに検知・抑止。企業が抱える「安全運用」の課題を解決へ
AIエージェントの信頼性を評価し、安全な運用を支援する株式会社datagusto(本社:東京都、代表取締役:パー麻緒)は、AIエージェントによる「意図しない挙動」が引き起こすインシデントを未然に防ぐAIセーフティプラットフォーム「datagusto(データグスト)」を、2025年12月11日にリリースいたしました。
従来、AIエージェントによる想定外の動作や誤った判断は、禁止リストや固定ルールを事前に設定する「静的ガードレール」という手法で制御されてきました。しかし、運用するエージェントが増えるにつれ、モデルの更新やエージェントの改善を行うたびに、膨大な数のガードレールを再設定しなくてはならなくなるという発生するという問題が顕在化。その上、事前に設定した内容では意図しない挙動を検知ができない事象も起き始めました。
当社はこのAIエージェントの安全運用における課題に着目し、リアルタイムにリスクを検知・抑止する独自技術を提供します。本サービスは、AIエージェントの安全性評価ベンチマーク「PropensityBench」(Scale AI社)を用いた検証実験(PoC)において、静的ガードレールでは防げなかったインシデントを100%防止する(*1)など、大幅に抑制できることを実証しています。
*1 PropensityBenchに基づく当社の検証環境における結果。今後、実際の利用企業の環境下など、さまざまなケースで検証を続けてまいります。
datagustoサービスサイト
[画像1:
https://prcdn.freetls.fastly.net/release_image/69375/8/69375-8-1a55f996638550de3791361f89ef4d8d-2536x1348.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
2025年、企業のAI活用は “検索・生成” から “業務の自動化” へとさらに進化してきました。急増しているAIエージェントは、複数のツール・データ・社内システムを横断的に操作し、場合によっては外部へのサービス提供やメール送信など直接的なアクションも実行するようになっています。
しかし、AIエージェント(特定の目標を達成するために、環境を感知し自律的に行動するAIシステム)の開発や展開が急速に進む中、企業の現場では利便性を享受すると同時に、「意図しない挙動」に関連した新たなリスクが顕在化しつつあります。
実際、海外ではAIコーディングプラットフォームでAIが暴走し、本番環境のデータベースを完全に消去するという深刻なインシデントが報告されています。この事案は、従来のAIエージェントの入出力を精査するプロダクトでは防げず、プロセスの監視が課題であることが浮き彫りになった事例です。
総務省の最新資料(*2)によれば、「AIエージェント」や、AIを応用したロボット開発の動きが世界的に加速する中、国内の生成AI活用方針を策定している企業は2024年時点で約50%という状況です。国でも、「AI事業者ガイドライン」にAIエージェント/Agentic AI(マルチAIエージェント)やそのリスクの記載の追加や見直しについて、目下議論が行われています。
2025年11月に公開されたテキサス大学オースティン校とGoogle DeepMindによる最新研究(*3)では、AIエージェントは強い業務圧力がかかると、本来は禁止された危険な手段を自ら選択する傾向があることが明らかになりました。これは、AIが「できるかどうか」だけではなく、「やろうとするかどうか」を管理する"AIセーフティ"の重要性を強く示唆しています。
AIエージェントの活用にあたっては、システム自体を外部からの悪意があるサイバー攻撃や不正アクセスから守る「Security対策」のみならず、エージェントの出力や振る舞いを人間の意図に整合させ、安全かつ有用に運用するための「Safety対策」が必要になるのです。
*2 出典:総務省「令和7年版 情報通信白書」(2025年7月)
*3 出典:PropensityBench: Sehwag et al., "PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach," arXiv:2511.20703, 2025. (
https://arxiv.org/abs/2511.20703 )
AIエージェントが安全かつ信頼できる動作をするための制御・制約の仕組みが「ガードレール」です。これまで、こうしたリスクへの対抗策としては、事前に禁止事項をリスト化する「静的なガードレール」が主流でした。
しかし、この手法には3つの構造的課題があります。
- ブラックボックス化: 入出力のみを検証し、エージェント内部の挙動は検証できていない- 想定外への無力: 人間とAIの認識齟齬による「想定外の事象」はブロックできない。また実際に起きるかどうかが不確実なインシデントリスクを認識しながら、企業が運用する必要がある- 複雑化への対応困難: エージェント連携による複雑な制御構造に静的ルールでは追従できない
企業で運用するAIエージェントが増えて、数多くのエージェントが同時に連携し、複雑なタスクをこなすようになると、想定すべきリスクパターンは無限に増殖します。そこでdatagustoは、“リアルタイムで挙動を検知し、それを評価し、評価に応じてリスクを抑止する(=動的なガードレールを生成する)”という新たなアプローチを開発しました。
1.想定されていないインシデントの検知と防止
datagustoは、「今、AIエージェントがやって良いこと/悪いこと」の境界線をその場その場で動的に生成・適用します 。これにより、従来の「静的なガードレール」では防げなかった「想定外」のインシデントを検知・防止することができます。 さらに、自己学習するため、時間の経過とともにガードレールの信頼性が向上します。
2. 「Security(外部攻撃)」だけでなく「Safety(内部リスク)」に特化
これまではプロンプトインジェクション(*4)などの「外部からの悪意ある攻撃」を防ぐこと(Security)に主眼が置かれていました 。また、ユーザの入力と最終的な出力がガードレールによる検証対象であり、エージェントの内部の挙動の検証は静的かつ限定的でした。
これに対してdatagustoは、AIエージェント自身の認識齟齬や誤動作といった「内部から発生するリスクの制御」(Safety)に特化しています。外部攻撃を受けていなくても発生しうる「AIのうっかりミス」や「暴走」などを防ぎ、企業のガバナンスを守ります。
*4 プロンプトインジェクションとは、LLM(大規模言語モデル)のセキュリティを回避する攻撃手法。生成AIに誤作動を起こさせるような悪意のあるプロンプトを入力し、意図しない結果を出力させること。
以下は(自律的な)AIエージェントの一般的な動作の仕組みを図示したもの。ユーザの指示を受け付けてから、LLMによる推論とツールの実行を何度か繰り返し行い、最終的な出力をユーザに提示します。
[画像2:
https://prcdn.freetls.fastly.net/release_image/69375/8/69375-8-eb91c4a5c7069e0f36aa9fc47580f648-2536x2536.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
datagustoによる動的ガードレール生成と従来の静的な手法の違い
3. 運用工数を大幅に削減し、開発者が「攻め」に集中できる環境へ
datagustoを導入することによって、モデルの更新やエージェントの改善を行うたびに発生していた膨大なガードレールの再設定工数を削減できます。
AIエージェントによる想定外の動作や誤った判断は、サービスの開発や展開におけるボトルネックに繋がります。サービスローンチにあたっての障壁を取り払うことができることで、AIエージェントの運用数が大幅に増えたとしても、問題なく運用することができるようになります。
4. 既存環境への統合が容易に
DifyやLangGraph、OpenAI Agent SDKなど、AIエージェントを作るためのメジャーなフレームワークと組みわせて利用いただけます。API連携や専用SDKを用いることで、数分で導入開始することが可能です。
本サービスは、AIエージェントの安全性評価ベンチマーク「PropensityBench *3」(Scale AI社)を用いた検証実験(PoC)を実施。従来のシステムプロンプトベースの静的ガードレールでは平均約53%のインシデント阻止率にとどまる中、datagusto は全ドメインで100%の阻止率(*1)を実現しました。
*3(再掲): 出典:PropensityBench: Sehwag et al., "PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach," arXiv:2511.20703, 2025. (
https://arxiv.org/abs/2511.20703 )
*1(再掲): PropensityBenchに基づく当社の検証環境における結果。今後、実際の利用企業の環境下など、さまざまなケースで検証を続けてまいります。
[画像3:
https://prcdn.freetls.fastly.net/release_image/69375/8/69375-8-0ed6fdb298745b3704034e732473c7d3-610x449.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
将来的には、社内外の複数のAIエージェントが連携してタスクを行う「マルチエージェント」の普及が見込まれます。datagustoは、エージェント間の連携における安全性を担保するだけでなく、AIエージェントの信頼性を評価・スコアリングする機能の開発を進めています 。 人間が1体1体のAIを監視するのではなく、信頼できるAIエージェント同士が自律的に社会システムを形成する未来に向け、その「信頼」を支えるインフラとなることを目指します。
パートナー企業募集について:
datagustoでは現在、導入パートナー企業を募集しています。AIエージェントの運用における安全性向上にご関心のある企業様は、下記お問い合わせ先までご連絡ください。
お問い合わせフォーム
[画像4:
https://prcdn.freetls.fastly.net/release_image/69375/8/69375-8-c69b86af36b22d841e51852c0b52a08e-300x300.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
株式会社datagusto 代表取締役CEO パー 麻緒
将来、世界に10億を超えるAIエージェントが存在し、空気のように私たちの周りで活動し、生活や仕事を気づかぬうちに見えないところで支えているようになると予測しています 。しかし、その未来を実現するためには『AIエージェントが安全に動くのか』という大きな壁を越えなければなりません。datagustoは、いわばAIエージェントの『マネージャー』です 。人間が安心してAIエージェントに仕事を任せられるようにすることで、AIエージェントの真の民主化を推進してまいります。
株式会社datagustoは、自律的に行動するAIエージェントの信頼性確保と安全性向上に取り組む技術スタートアップです。AIエージェントの“意図しない挙動”によるインシデントを未然に防ぐ、AIセーフティプラットフォーム「datagusto」を提供しています。
創業者パー麻緒はPwCにおいてAIガバナンス領域の専門コンサルティングを担当し、Bay AreaのAlchemist Accelerator初の日本人女性起業家に選出されました。また、共同創業者でありCTOの中村達哉はWebデータマイニングを専門として大阪大学大学院で博士号を取得した研究者であると同時に、ヤフー(現LINEヤフー)で社内データ基盤に関するプロダクトの開発・運用を行った経験を持つエンジニアです。現在はdatagustoの開発を通じてAIエージェントの開発・運用を推進しています。
その技術力と事業性が評価され、英国政府のGlobal Entrepreneurship Programにも採択。国内ではリコー主催の統合型アクセラレータープログラム「TRIBUS 2020」に採択され、現在も複数の大手企業とパイロットプロジェクトを推進しています。
社名: 株式会社datagusto
代表: 代表取締役社長 パー麻緒
事業内容: AIエージェント信頼性プラットフォームの開発・提供
https://datagusto.ai/プレスリリース提供:PR TIMES



記事提供:PRTimes