生成AIが医療面接評価を支援：AI採点は教員評価と高い一致

学校法人順天堂

生成AIが医療面接評価を支援：AI採点は教員評価と高い

― 医療面接の会話記録を用いた妥当性検証で、評価時間を約6割短縮 ―

順天堂大学医学部総合診療科学講座の高橋宏瑞非常勤講師、内藤俊夫主任教授らは、ChatGPT*¹のカスタムGPTで構築した生成AI*²模擬患者*³（27歳男性の下肢筋力低下症例）と医学生・研修医・指導医の計7名との医療面接*⁴の会話記録を用い、医師と患者の会話記録を評価する際のAI採点の有効性の検討を行いました。患者中心の医療面接コミュニケーション能力を評価する25項目について、生成AI（GPT-o1 Pro／GPT-5 Pro）と臨床指導医5名による採点結果を比較したところ、AI採点は人間採点と高い一致を示し（r=0.87-0.90、CCC=0.86-0.88）、繰り返し採点においても安定していました。変動係数は人間の約半分であり、採点時間も58～67.6％短縮されました。少数例かつ単一症例による予備的研究ではあるものの、「AIが一次採点を行い、教員がその内容を確認する評価モデル」によって、評価業務の省力化と、迅速かつ標準化されたフィードバック機会の拡大が期待されます。今後は、多症例・多施設での一般化可能性の検証が望まれます。
本論文はJMIR Medical Education誌のオンライン版に2026年2月17日付で公開されました。

本研究成果のポイント
● AI模擬患者と医学生・研修医・指導医の医療面接の会話記録を用い、生成AI（GPT-o1 Pro／GPT-5 Pro）による自動採点と臨床指導医5名の採点を比較する妥当性検証を実施
● AI採点は人間採点と高い一致を示し、平均得点差も小さいことを確認
● AI採点により評価時間を約6割短縮し、繰り返し採点の安定性も高いことから、AIが一次採点を行い教員が確認する評価モデルによる面接教育の省力化とスケールの可能性を提示

背景
医師に求められるのは知識だけではありません。限られた時間の中で患者さんの訴えを整理し、見落としなく鑑別を進めながら、安心感を与える面接力が重要です。面接の質は、診断の精度や医療安全、患者さんの納得感にも直結します。近年では、医学生の面接力を客観的に評価し、到達度に応じて育成する教育の重要性が高まっています。しかし、その評価とフィードバックには、教員や模擬患者（患者役）の確保に加え、採点作業も必要となるため、教育現場の労働負担が大きいのが実情です。多人数を対象とした教育では、十分な回数の面接機会を提供しにくいという課題もあります。さらに、採点のばらつきや指導の遅れが生じやすく、教育の質保証や教育機会の確保を難しくしています。もし信頼できる自動評価が可能になれば、教育者の負担軽減につながるだけでなく、反復練習と即時フィードバックをより広く提供できるようになります。しかし、医療面接の会話記録に対するAI評価が、教員による評価と同程度に信頼できるかどうかは、これまで十分に検証されていませんでした。そこで本研究では、医療面接の文字記録について、AIと臨床指導医が同一の基準で採点を行い、その一致度と評価時間の短縮効果を検証することを目的としました。

内容
本研究では、ChatGPTのカスタムGPTで構築した生成AI模擬患者（27歳男性の下肢筋力低下症例）との医療面接を、医学生2名、研修医3名、指導医2名の計7名が実施し、会話ログから自動生成された文字起こしデータ（手作業による修正なし）を評価対象としました。面接評価には、患者中心の医療面接コミュニケーション能力を評価する25項目・合計125点の評価尺度を用い、臨床指導医5名が独立して採点した平均値を人間評価としました。一方、生成AI（GPT-o1 Pro、GPT-5 Pro）は、各会話記録を同一の指示条件で5回ずつ採点し、人間評価との一致度および採点の安定性、すなわち同じ記録を繰り返し評価した際のぶれの小ささを検証しました。その結果、平均得点は人間評価の53.7点に対し、AIは52.1点および53.2点と近い値を示し、得点の推移も良好に一致しました（相関係数0.87～0.90）。また、AIと人間の点数差は平均0.43点（差の範囲−4.87～5.72）および1.54点（−8.60～11.68）であり、大きな偏りは認められませんでした。採点時間については、人間が1件あたり平均10分16秒を要したのに対し、AIは4分19秒（58％短縮）および3分20秒（67.6％短縮）であり、繰り返し採点時のばらつきも人間より小さい結果となりました。なお、人間評価には評価者間のばらつきがみられましたが、複数名で平均化することにより安定性が高まる性質も確認されました。
以上より、AIが一次評価を担い、教員が要所を確認する運用モデルによって、評価負担を軽減しながら、迅速かつ標準化されたフィードバックを拡大できる可能性が示されました（図1）。

今後の展開
研究グループは、生成AIを用いた模擬患者の開発、それを活用した自動評価システムの構築、ならびに教育効果に関するエビデンスの蓄積を一体的に進めており、本研究はその中でも「評価」に焦点を当てた成果です。今後は、医療面接において本来、人間同士の対話を通じて培われる能力のうち、どの要素までをAI模擬患者との対話によって十分に育成できるのかを明らかにすることを、次の研究課題としています。具体的には、主訴、現病歴、既往歴など、問診の基本的な型の習得については、AI模擬患者との反復対話によって強化できる可能性があります。今後は、学習者のレベルや症例の種類に応じて、AIが担える訓練領域と、教員や実患者との学習が不可欠な領域とを切り分けながら検証を進めていきます。AIによって培える能力が明確になれば、教育資源をより重要な指導に集中させることができ、反復的な面接訓練を支える教員・教育機関の人的、時間的負担の軽減とより多くの学習者への教育機会の拡大につながると考えられます。最終的には、面接技能の底上げを通じて、医師―患者関係の質の向上と、安心して相談できる医療の実現に貢献していきたいと考えています。

[画像: https://prcdn.freetls.fastly.net/release_image/21495/861/21495-861-d41ef62c518403367add22d2ed5ee673-1350x754.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

図1：AI模擬患者との医療面接記録をもとに、医師評価と生成AI評価を比較検証している場面
この写真は、生成AIを活用した医療面接評価の実証研究の一場面です。画面中央には、AI模擬患者との対話から作成された医療面接記録が表示され、左側では医師が同じ記録をもとに評価尺度に沿って採点を行っています。右側では、自動評価システムが同一の面接記録を解析し、評価結果を算出しています。
今回の検証では、生成AIによる評価は人間評価と近い得点を示し、一致度も高く、採点時間も人間評価に比べて大幅に短縮されました。これらの結果は、生成AIが医療面接の形成的評価を迅速かつ再現性高く支援し、教員や指導医の評価負担の軽減につながる可能性を示しています。
　　　
用語解説
*1　ChatGPTのカスタムGPT： ChatGPTを特定の目的に合わせて、設定や指示（ルール）を組み込んで作った専用版。ここでは「模擬患者として応答する」「採点者として評価する」などの役割を担うように設計されている。
*2　生成AI（Generative AI）：文章や会話などの「新しいコンテンツ」を作り出せるAI。今回の研究では、医療面接の会話を評価（採点）する役割でも用いている。
*3　生成AI模擬患者（AI模擬患者）：学習者の質問に対して“患者役”として受け答えするAI。医療面接の練習を、時間や場所の制約を減らして反復できる点が特徴。
*4　医療面接（問診）：医師が患者の症状や経過、背景（既往歴、生活状況など）を聞き取り、問題を整理して診断や方針につなげる対話。
　　　
原著論文　
本研究はJMIR Medical Education誌のオンライン版で(2026年2月17日付）先行公開されました。
タイトル： AI- vs Human-Based Assessment of Medical Interview Transcripts in a Generative AI-Simulated Patient System: Cross-Sectional Validation Study
タイトル（日本語訳）：生成AI模擬患者システムにおける医療面接トランスクリプトのAI評価と人間評価の比較：横断的妥当性検証研究
著者： Hiromizu Takahashi, Kiyoshi Shikino, Takeshi Kondo, Yuji Yamada, Yoshitaka Tomoda, Minoru Kishi, Yuki Aiyama, Sho Nagai, Akiko Enomoto, Yoshinori Tokushima, Takahiro Shinohara, Fumiaki Sano, Takeshi Matsuura, Rikiya Watanabe, Toshio Naito
著者（日本語表記）：高橋宏瑞 1)、鋪野紀好 2)、近藤猛 3,4)、山田悠史 5)、友田義崇 6)、岸稔 7)、相山佑樹 8)、永井翔 9)、榎本明子 9)、徳島圭宜 10)、篠原義宏 11)、佐野文昭 1)、松浦武史 12)、渡邉力也 13)、内藤俊夫 1)
著者所属：1) 順天堂大学医学部総合診療科学講座、2) 千葉大学大学院医学研究院地域医療教育学、3) 名古屋大学医学部附属病院卒後臨床研修・キャリア形成支援センター、4) マーストリヒト大学大学院医療者教育学研究科、5) マウントサイナイ・アイカーン医科大学ブルックデール老年医学・緩和医療科、6) 板橋中央総合病院総合内科、7) 西脇市立西脇病院内科、8) 天理よろづ相談所病院麻酔科・集中治療部、9) 人間環境大学看護学部看護学科、10) 佐賀大学医学部附属病院総合診療部、11) 東京科学大学大学院医歯学総合研究科総合診療医学分、12) 市立美唄病院総合診療科、13) 北播磨総合医療センター総合内科
DOI： 10.2196/81673
　　　　
本研究は日本学術振興会科研費：JP23K05953、日本医学教育学会研究助成：2025年度、文部科学省（MEXT）高度医療人材養成拠点形成事業の支援を受け多施設との共同研究の基に実施されました。なお、本研究にご協力いただいた皆様には深謝いたします。

プレスリリース提供：PR TIMES

記事提供：PRTimes

その他 – とれまがニュース

経済や政治がわかる新聞社や通信社の時事ニュースなど配信