既存の物体検知AIの検知結果をAIの再学習や改修なしで高精度に補正するAI技術を開発
株式会社 日立製作所

製造現場や社会インフラなどにおける誤検知抑制や見逃し低減を実現
日立は、製造現場や社会インフラなど幅広い分野での安全確保や業務効率化に向けて、既存の物体検知AIの検知結果を後付けで補正するAI技術を開発しました。従来手法では画像全体の状況を示す情報と細かい領域ごとの特徴との相互関係を十分に捉えることが難しかったという課題に対し、本技術は、これらを統合的に分析することを可能とし、画像や映像から対象物を検知する物体検知AIの検知結果をより正確に補正します。複数の公開ベンチマーク*1で検証した結果、最新の物体検知モデル*2で最大50%以上の検知精度の改善を確認しました。さらに、追加の処理時間は画像1枚あたり0.1秒程度*3で、精度向上と処理効率を両立しています。また、本技術は検知結果を補正するためAIの再学習や改修を必要とせず、API*4経由で利用するブラックボックス型AIにも適用できるため、既存の物体検知AIを生かしながら未知の物体や複雑な環境での誤検知の抑制や見逃しの低減を実現します。
今後、日立は本技術をLumada 3.0を支える技術の一つとして位置づけ、製造、設備保守、インフラ監視、空撮画像解析などの分野における画像認識の高度化を通じて、安全・安心で持続可能な社会の実現に貢献していきます。
*1 COCO、LVIS、ODinW13、Pascal VOCなど、物体検知タスクで広く用いられている一般画像データセット。
*2 Grounding DINO、LLMDetなど、画像中の任意の対象をテキストで指定して検知できる物体検知モデル。
*3 一般向けPC環境(CPU:Intel(R) Core(TM) i9、GPU:RTX 2080 Ti)で評価した性能測定結果。
*4 API: Application Programming Interfaceの略。異なるソフトウェア同士がデータや機能をやり取りするための接点(窓口)やルール(規約)。
■背景および課題
製造現場での製品検査や設備保守、インフラ監視、空撮画像解析などのさまざまな分野で、画像や映像から対象物を検知する物体検知AIの活用が広がっています。これらの現場では、品質保証や安全確保、安定稼働などに影響するため、検知結果には高い信頼性が求められます。一方で、未知の物体や外観が類似した物体が多数存在するほか、込み入った背景情報や時間経過による環境変化などにより、誤検知や見逃しが発生するリスクがあります。その対策として、検知結果を補正する手法が用いられていますが、従来は画像全体の情報と検知領域ごとの詳細な情報の相互関係を捉えた高精度な補正が難しく、さらに、既存の物体検知AIの再学習や改修が必要となる場合がありました。そのため、既存の物体検知AIをそのまま活用しながら、多様なAIに後付けで適用でき、誤検知の抑制と見逃しの低減を両立する技術が求められていました。
■開発した技術の特長
そこで日立は、既存の物体検知AIの出力結果を活用し、画像全体と細かい領域ごとの情報を統合的に分析することで、検知結果を高精度に補正するAI技術を開発しました。技術の特長は以下の通りです。
1. 誤検知抑制と見逃し低減を両立する検知結果補正技術
本技術は、まず画像から重要な情報を取り出す特徴抽出モジュールにより、画像全体の特徴と細かい領域ごとの特徴を取得します。次に、それらの情報を特徴統合モジュールに入力し、全体と領域ごとの関係性を互いに分析しながら、画像全体が何であるかを判断するための全体の予測と、検知領域が何であるかを判断するための検知領域ごとの予測の両方を出せるように学習させます。最後に、これらの予測結果を元の物体検知結果と組み合わせることで、検知結果をより正確に補正します。これにより、従来は難しかった画像全体と個々の検知結果を同時に考慮した補正が可能となり、誤検知の抑制と見逃しの低減を両立します。
2. 多様な物体検知AIに後付け可能なモデル非依存型の設計
本技術は画像と物体検知AIの出力結果(予測されたラベル情報と検知領域の座標情報)のみを入力情報として処理するため、AIモデルの内部構造や学習済みパラメータに依存せず、再学習や改修を行うことなく適用可能です。これにより、コードが公開されている通常の物体検知AIだけではなく、AIモデル内部にアクセスできずAPI経由で利用するAI(生成AIサービスなど)を含むブラックボックス型AIを含めた多様な物体検知AIに後付け可能となり、既存の画像認識システムをそのまま活用できます。
[画像:
https://prcdn.freetls.fastly.net/release_image/152541/65/152541-65-2b5745f37751e567ae4aa80ed6545760-3774x1897.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図1:画像全体と検知領域ごとの特徴を同時に活用し、物体検知AIの検知結果を補正するAI技術の概要(画像はイメージ)
■確認した効果
本技術を複数の公開ベンチマークで検証した結果、Grounding DINO、LLMDetなどさまざまな最新の物体検知モデルで一貫した精度向上を確認し、元の物体検知モデルで最大50%以上の検知精度の改善を達成しました。さらに、各物体検知モデルに本技術を適用した場合の追加の処理時間は画像1枚あたり0.1秒程度で、精度向上と処理効率を両立しています。これにより、未知の物体や複雑な環境においても安定した検知精度を維持し、さまざまな実運用環境での適用が可能です。
■今後の展望
今後、日立は本技術をLumada 3.0を支える技術の一つとして位置づけ、製造、設備保守、インフラ監視、空撮画像解析など幅広い分野への展開を進め、既存の画像認識システムを活用した検知精度の向上により、現場の安全確保や業務効率化を支援します。さらに、各業務環境や用途に応じた適用技術の高度化や、他のAI技術との連携にも取り組み、より信頼性の高い画像認識基盤の構築をめざします。これにより、社会インフラや産業分野におけるデジタル活用を加速し、安全・安心で持続可能な社会の実現に貢献していきます。
なお、本成果の一部は2026年6月3日~7日に開催されるCVPR 2026 (The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026)のFindings Trackで発表予定です*5。
*5 Soichiro Okazaki, Tatsuya Sasaki, Hiroki Ohashi, “
DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer”, CVPR 2026 (Findings), 2026.
■関連情報
日立の研究開発ウェブサイト
■照会先
株式会社日立製作所 研究開発グループ
問い合わせフォームへプレスリリース提供:PR TIMES
記事提供:PRTimes