世界初、人工知能で手術動画から真珠腫の検出に成功
学校法人慈恵大学
―内視鏡・顕微鏡統合AIの臨床応用と教育支援の第一歩―
東京慈恵会医科大学耳鼻咽喉科学講座 宮澤渉助教、高橋昌寛講師、小島博己講座担当教授らとサイオステクノロジー株式会社 野田勝彦、吉田要らの研究グループは、手術動画から真珠腫を検出する人工知能(AI)モデルの開発に世界で初めて成功しました。希少疾患でも高精度で病変の有無を判定でき、将来的な臨床応用や若手医師の教育支援、人工知能研究に貢献すると期待されます。
本研究は2025年10月21日に学術誌 Applied Sciences に掲載されました。
<ポイント>
内視鏡、顕微鏡による真珠腫手術動画から、病変の残存を判別するAIモデルを開発しました。
平均予測精度は内視鏡で81.0%(感度77.3%、特異度84.7%)、顕微鏡では78.6%(感度79.1%、特異度78.2%)を達成しました。
内視鏡・顕微鏡データを統合的にAIに学習させることで診断精度が向上しました。
希少な疾患領域においてもAIモデルの構築が可能であることが示されました。
中耳真珠腫は、進行すると骨破壊や難聴、顔面神経麻痺を引き起こす疾患で、唯一の治療法は手術による摘出です。しかし、病変の残存や再発が生じることもあり、手術技術に高度な熟練を要します。
本研究では、2020~2023年に実施された真珠腫手術88例(144本)の動画を解析対象とし、手術時の映像をAIに学習させることで、病変残存の有無を自動判定するシステムを構築しました。AIモデルは、複数の深層学習モデルを組み合わせたアンサンブル予測を採用し、内視鏡・顕微鏡のいずれでも安定した診断精度を示しました。
限られた症例数でも高い精度を得られたことから、希少疾患におけるAI応用の可能性を示す結果となりました。本研究は概念実証段階ですが、将来的にはリアルタイム術中支援や若手医師の教育支援などへの応用が期待されます。今後は他施設との共同研究を進め、臨床現場での活用を目指します。
【本研究内容についてのお問い合わせ先】
東京慈恵会医科大学 耳鼻咽喉科学講座
助教 宮澤 渉
講師 高橋昌寛
電話 03-3433-1111(代)
【報道機関からのお問い合わせ窓口】
学校法人慈恵大学 経営企画部 広報課 電話 03-5400-1280 メール koho@jikei.ac.jp
サイオステクノロジー株式会社 広報 電話 03-6401-5120 メール mktg@sios.com
研究の詳細
1. 背景
中耳真珠腫は中耳内に角化上皮が異常に増殖する良性疾患で、進行すると骨破壊や難聴、顔面神経麻痺などを引き起こします。唯一の治療法は手術による病変の摘出ですが、手術は高い技術を要し、術後に残存病変や再発が生じることがあることが課題でした。2018年に本邦で行われた中耳真珠腫に関する全国疫学調査では再発率が14.0%と完全摘出の難しさを示しており、再発率は術者の経験と判断力に大きく依存しています。
近年の人工知能(AI)や機械学習技術の発展は著しく、医療分野にも応用が進んでいます。2000年代に機械学習による予測技術が実用化されて以降、2010年には多層構造をもつ深層学習(Deep Neural Network:DNN)が導入され、2012年にはその精度が従来の手法を上回りました。さらに2015年には、人間の画像識別精度を超える水準に到達したことが報告されています。しかし、DNNモデルの学習には一般的に大量のデータが必要であり、消化器内視鏡やCT画像の分野では臨床への実装が急速に進展している一方で、真珠腫を含む希少疾患の診断への応用は依然として困難な状況です。少ないサンプル数で精度を向上させるシステム解析手法の開発は、医療AI研究の重要な課題です。
東京慈恵会医科大学耳鼻咽喉科学講座では、これまでにCT(コンピュータ断面撮影)で中耳真珠腫の進展範囲を診断するシステムや、鼻副鼻腔乳頭腫に対するAI診断システムの開発を進めており、希少疾患の多い耳鼻科領域におけるAI活用の先駆的な研究を継続しています。
本研究はその一環として、中耳真珠腫手術の術中映像(内視鏡と顕微鏡の映像)をAIに学習させ、病変の残存の有無を自動判定するシステムを開発したものです。
これまで主に静止画を対象としたAI解析が中心でしたが、本研究では実際の手術動画(内視鏡と顕微鏡を含む)を用いた動的解析に取り組み、AIが実際の手術映像から残存病変を識別できるシステムの開発を目的としました。
2. 手法
2020年から2023年にかけて東京慈恵会医科大学耳鼻咽喉・頭頸部外科で行われた88名144本の中耳真珠腫手術動画を対象としました。約5秒以上でかつ手術操作がない場面に限定して手術動画を編集し、真珠腫摘出前の動画と真珠腫摘出後の動画に分類しました。次に動画を内視鏡や顕微鏡の数や動画の長さに差が出ないように6つのグループに分類して学習用と評価用を分けて交差検証を行ってモデルAIを作成しました。
ニューラルネットワークと学習
学習用の画像は元の1440倍の数に拡張(オーグメント)後、224×224ピクセルのサイズに切り出しました。各モデルでは、拡張後のプールからランダムに抽出した元画像の10倍数のデータを用いて学習を行いました。1回の学習サイクルは10回の反復学習(10エポック)で構成されました。全データを6つのサブセットに分割して交差検証を行うことで、データセットあたり6つのモデルを生成しました。(学習セット:評価セット=5:1)。各DNNモデルの学習は少数の患者からオーグメントで生成した大量のデータを用いるため、学習するたびに能力・精度に差が出でます。その能力・精度の変動を検証するために、24の学習セットを作成しました。その結果、6モデル×24セット=144 個のモデル(Before Model)が生成されました。
さらに、手術動画に映る皮膚や手術器具を除外するように元の動画(144本)をトリミングしたビデオも作成し、同様にトレーニングと144個のモデル(After Model)を作成しました。
評価
評価に使用した画像は、”オリジナル”と”125%拡大”の2種類の画像を用いた。
評価は、全画像単位と単位時間あたりでの評価を実施した。それぞれの画像の評価は、シングルモデル予測とアンサンブル予測を実施した。シングルモデル予測では、学習で得られたモデルをそれぞれ単一で使用し、各画像のスコアを予測した。アンサンブル予測では、学習で得られたモデルのうち、23個のモデルを使用して得られた23個のスコアを平均した数値をその画像のスコアとして取り扱った。
3. 成果
AIモデルの性能評価では、全画像における陽性判定率(動画単位の診断率)において、高い診断精度が確認されました。編集前のオリジナル画像における最高の精度はアンサンブル予測における、内視鏡81.0%(感度 77.3%、特異度84.7%)、顕微鏡78.6%(感度 79.1%、特異度78.2%)であり、いずれの撮影条件においてもAIが良好な識別性能を示しました。また、編集前の画像を125%拡大した場合には、顕微鏡において精度が上昇し、編集後の画像においては、内視鏡では3%、顕微鏡では5%程度の精度上昇が見られました。以上より病変を中心に学習することで診断率が上昇する可能性があることが明らかになりました。
次に、単位時間あたりの陽性判定率による評価では、使用する動画の時間が長いほどAIの精度が向上する傾向が明らかとなりました。いずれのモデル・条件でもアンサンブルモデルでの診断精度が高い結果となりました。
内視鏡での最高精度は、オリジナルで84.7%(編集後)、125%拡大で81.3%(編集後)でした。顕微鏡映像での最高精度は、オリジナルで85.7%(編集後)、125%拡大で85.3%(編集後)でした。これらから、より長い時間情報を用いることで安定した判定が可能となる可能性が明らかになりました。
本研究のAIモデル開発において、内視鏡データと顕微鏡データの両方を学習および診断に用いた場合、それぞれのモダリティを個別に学習・テストした場合と比較して、診断精度が向上することがわかりました。当初は、内視鏡データと顕微鏡データを分離することで学習プロセスが簡素化され、AIの学習効率が向上すると想定されていたが、逆の結果が得られ、興味深い発見となりました。
本研究は、症例数の制約からデータセットの規模は小さかったものの、限られた映像データから安定した精度を示しており、希少疾患領域におけるAI応用の有用性を示す成果と考えます。また、学習に用いた映像は実際の手術映像を使用しており、より実臨床に近い環境での評価ができました。しかし本研究は概念実証(proof of concept)段階のものであり、現時点でリアルタイムの術中検出システムを構築するものではありませんが、今後のリアルタイム術中支援AIの開発に向けた重要な基礎的知見を提供するものです。
4.今後の応用、展開
手術動画から真珠腫を診断するAIモデルを開発し、内視鏡画像と顕微鏡画像の両方で一定レベルの診断精度を達成しました。この研究は、AIを活用した術中残存真珠腫の検出を実現する可能性を示す成果であり、将来の臨床応用への第一歩と考えています。今回の経験を活かし他の有病率の低い疾患に対する解析や、自施設で使用できるAIモデルの作成なども検討していきたいと考えています。
発表雑誌
雑誌名:Applied Sciences
論文タイトル:Detection of Cholesteatoma Residues in Surgical Videos Using Artificial Intelligence
著者:Wataru Miyazawa, Masahiro Takahashi, Katsuhiko Noda, Kota Wada, Kazuhisa Yamamoto, Yutaka Yamamoto, Hiromi Kojima
DOI:
https://doi.org/10.3390/app15208647
5.脚注、用語説明
深層学習(ディープラーニング):
深層学習とは、機械学習の手法の1つであり、多層のニューラルネットワークまたは複数の機械学習アルゴリズムを組み合わせた手法の事を指します。
ネットワークモデル:
深層ニューラルネットワークの構造は、多数提案されており、代表的な構造には名称が付与され、総じてネットワークモデルと呼びます。
オーグメント:
オリジナル画像の明度やコントラストの変更、回転・反転、拡大・縮小などにより、擬似的に画像の枚数を増やす行為を指します。
以上
本件に関するお問合わせ先
学校法人慈恵大学 広報課
メール:koho@jikei.ac.jp
電話:03-5400-1280
関連リンク
慈恵大学 プレスリリース一覧
https://www.jikei.ac.jp/press/
記事提供:Digital PR Platform