少数のデータを基に同種データをAIに抽出・説明させる技術に関する主著論文が「GECCO2025」の本会議にて採択
株式会社日本総合研究所
株式会社日本総合研究所(本社: 東京都品川区、代表取締役社長: 内川淳、以下「日本総研」)は、手元にある少数のデータを基に大量のデータの中から同様の種類のデータをAIに抽出・説明させる技術に関する論文が、進化計算分野で権威ある国際学会「GECCO2025」(注1)の本会議に採択されましたのでお知らせします。
採択された論文「Feature selection based on cluster assumption in PU learning」(以下「本論文」)は、2023年8月に開始した国立大学法人筑波大学の秋本洋平氏との共同研究の中で、日本総研・先端技術ラボ(注2)に所属する打越元信を筆頭著者として執筆されました。
本論文は、2025年7月にスペイン・マラガで開催される「GECCO2025」で発表される予定です。
■本論文の概要
本論文では、正解を示すラベル付きのデータが少ない場合でも、PU学習(注3)に必要なデータだけを選び取る特徴選択(注4)を行うことによって、それらのデータと同様のデータを効率的かつ高い精度で見つけ出し、見つけ出したデータについて説明する手法について提案しています。
人工データを用いた実験において、あらかじめ用意した正解の特徴を推定した際の正解率は、従来手法9種類の最大値が78%であったのに対して、提案手法は89%と優れた結果を示しました(5回実験した平均値)。
また、オープンデータを用いた実験では、選択した特徴をラベル予測に活用した際の性能を従来手法10種類と比較しました。特徴量とラベルがセットになった検証用のデータセット三つに対してそれぞれ実験を行ったところ、そのうちの二つにおいて従来手法の上位と同程度の水準の結果を収めることができました。しかし、残り一つでは一部の従来手法に劣後する結果に終わっています。提案手法には、実用的な水準に達していると期待される面がある一方、まだ改善の余地も残されていることが分かりました。
■提案手法の活用先
この提案手法の適用が期待できる例としては、
・スパム報告のある少数のメールを基に、大量のメールからスパムを検出し、どのようなスパムかを説明
・少数の不正送金のデータを基に、大量の送金から不正送金を検出し、どのような不正タイプかを説明
・少数の富裕層顧客データを基に、大量の顧客から潜在富裕層にあたる顧客を特定し、なぜそういえるかを説明
などが挙げられます。
(注1)「GECCO」はThe Genetic and Evolutionary Computation Conferenceの略称であり、Association for Computing Machinery (ACM)によって1999年から開催されている、進化計算分野の権威ある国際会議です。
(注2) 先端技術ラボは、AIや量子コンピュータ、ブロックチェーンなどITの先端技術分野を早期に業務に適用させるための企画・推進を目的として2017年に設立された、日本総研の研究組織です。金融分野をはじめとした社会の様々な課題を技術で解決することを目指し、専門機関や大学などのアカデミアとの共同研究を行っています。また、AIの中核技術である機械学習やデータ分析の能力向上と専門人材の育成を目的として、国際学会やカンファレンスなどに積極的に参加し、それらへの取り組み成果を基にした研究発表や情報発信にも取り組んでいます。
(注3) PU学習(Positive-Unlabeled learning)は、「1種類の」ラベル情報が少数あり、未確定のデータが大量にあるデータでのモデル学習です。「良い例(ポジティブ)」だけがラベル付けされたデータと、それ以外のラベルが不明なデータ(アンラベルド)を活用して、高精度な分類を行います。従来のAIは、すべてのデータにラベルが必要なものが多い一方で、PU学習は限られたラベル情報でも学習できるため、ラベル収集コストの削減や頻度の少ないイベントの検知などに強みを持ちます。
(注4) 特徴選択は、AIが判断に必要な情報だけを選び取り、精度や効率を高める技術です。特徴選択により、AIがなぜそう判断したかが見える化され、活用先の現場でも納得して使えるAIモデルの構築が可能になります。
■本件に関するお問い合わせ
広報部 山口 電話: 080-7154-5017
プレスリリース提供:PR TIMES
記事提供:PRTimes