【医学生・若手医師論文コンクール】優秀賞作『ChatGPT時代の医学教育-誤診リスクを低減するアプローチの探求』

公開日 2024年02月21日

『ChatGPT時代の医学教育-誤診リスクを低減するアプローチの探求-』

北海道大学　医学部医学科

金田侑大

緒言

　急速に進化する人工知能(AI)技術は、私たちの日常生活のさまざまな面に革新をもたらしている。中でも、OpenAI社が2022年11月にリリースした、質問に対する会話形式の自然な応答を生成するChatGPTにより、一般ユーザーでも大規模言語モデル(LLM)を活用したAI技術を手軽に利用できるようになった。2023年3月にはLLMの最新版であるGPT-4がリリースされ、2023年度の看護師国家試験を用いて医療分野でのChatGPTの性能を調査した私たちの研究で、従来のGPT-3.5の正答率は59.9%で合格基準を満たさなかった一方、GPT-4では79.7%と合格基準を上回り、大幅な性能向上があることが明らかとなった。¹⁾この事実が示唆するように、既にAIが活躍している医療用画像検査の解釈などの分野に加え、言語情報を利用したChatGPTの医療現場での活用が期待されるようになった。

　私はこれまで医学生として種々のChatGPT研究に取り組んできたが、その経験に基づくと、医学教育の文脈でのChatGPTの可能性は、そのカスタマイズ性と即時性にあると感じる。^1-4⁾医学を学ぶためのリソースは豊富に存在しているものの、教科書やオンライン講座などは、予め決まった定型的な内容であり、学習方法や教材の選択が、その後の効率に大きく影響する。さらに、必要な情報を検索する際には、関連する文献を見つけ出し、それが自身の疑問に答えているかを判断する必要があり、それでも疑問が解消されない場合には、教員や友人に直接質問することが求められる。これらのプロセスは時間を要する上、常に効率的であるとは限らない。他方で、ChatGPTを活用することで、個別の質問のニーズに対し、カスタマイズ化された回答をリアルタイムで入手することが可能となり、地理的および時間的な制約のない、個別化された学習が実現する。⁴⁾情報の正確性などの面では注意が必要だが、⁵⁾このような利便性から、ChatGPTは将来的に医学生の一般的な学習ツールとなり得るだろう。

　これまでの研究活動において、医学分野での能力を評価するために、さまざまな専門試験の問題をChatGPTに解かせるというアプローチを私は採用してきた。^1-3⁾しかし、試験の問題は通常、答えを一意に導くために十分な情報を提供する形で作成されており、患者との対話に基づいていないため、実際の医療現場で、ChatGPTが診断補助ツールとしてどの程度役立つかについて、まだ十分に検証されていない。特に、世界保健機関は医師による誤診を、患者の適切な治療や回復を妨げる根本的な要因の一つとして指摘しているが、医療現場では5-20%の頻度で発生していると推定されている。⁶⁾このような背景から、ChatGPTが医師の誤診リスクを低減する助けとなり得るかを評価することを目的として、本研究を実施した。

方法

　『主訴別診断エラー症例44 誤診症例に学ぶ確定診断術』(塩尻俊明著、文光堂)には、実際の医療現場において、医師が誤診を行ってしまった44の症例が詳細に記述されており、それぞれの病歴サマリと専門家による解説が含まれる。⁷⁾本研究ではこのデータセットに基づき患者のケースを再現し、分析を行った。具体的には、書籍内でまとめられている医師作成の病歴サマリをChatGPTに入力し、臨床推論を行わせるChatGPT×医師群(以下、C医群)と、ChatGPTに問診から臨床推論まですべてを行わせるChatGPT単独群(以下、C単群)という２つの形式を設定した。両形式でChatGPTには主治医という役割を与え、最も可能性の高い主診断と、他の可能性の高い鑑別診断2つを挙げさせた。この分析プロセスを通じて正確な疾患名が挙げられなかった場合、可能性の高い鑑別疾患をさらに3つ挙げるように指示した。この際C単群では、以下の指示をはじめに入力し、問診を行わせた。

　「私は患者で、あなたは主治医です。これから問診を行い、最終的に①主診断、②可能性の高い鑑別診断2つを、まとめていただきます。必要だと思う質問をあなた自身で１つずつ聞き取っていき、情報が十分だと感じたら教えてください。身体症状や検査結果に関しても返答は可能です。」なお、書籍内に記載のない情報をChatGPTが問い合わせた際には「わからない」と回答した。

評価項目はC医群とC単群における主診断、可能性の高い鑑別診断2つ、同5つという3種類の順で、診断として正確な疾患名が挙げられるかどうか、と設定した。主診断に関しては、書籍内記載の医師の誤診との一致率も調査した。

　GPT-4を使用し、すべてのデータ解析はExcelを用い、2023年10月に本研究を実施した。先行研究に基づき、両群間の一致率の比較にはMcNemar検定を行った。¹⁾検定はすべて両側検定とし、統計的有意性はp<0.05で判定した。なお、著作権に配慮し、入力データがAIに学習されない設定とした。

本研究は人を対象としておらず、一般に入手可能な情報のみを用いたため、倫理審査の適用外である。

結果

　ChatGPTは両群で、全44症例に対し、主診断および鑑別診断を生成した。

ChatGPTの生成した主診断に関する結果を表1に示す。正確な診断が生成された割合は、C医群2.2％(1/44)、C単群9.1％(4/44)であった(p=0.371)。ChatGPTの主診断が医師の誤診と一致した割合は、C医群63.6％(28/44)、C単群43.2％(19/44)であった。

　次に、ChatGPTの生成した鑑別診断に関する結果を表2に示す。鑑別診断2つの中に正確な診断が含まれていた割合は、C医群34.1％(15/44)、C単群22.7%(10/44)であった(p=0.359)。この時点で、C医群では正確な診断が含まれていなかったが、C単群では正確な診断が含まれていた症例は7例(15.9%)で、その逆は12例(27.2％)であった。また、鑑別診断5つの中に正確な診断が含まれていた割合は、C医群59.1%(26/44)、C単群34.1%(15/44)であった(p=0.046)。この際、C医群では正確な診断が含まれていなかったが、C単群では正確な診断が含まれていた症例は7例(15.9%)で、その逆は18例(40.9％)であった。

表１.　ChatGPTが生成した主診断について

症例	ChatGPT×医師(C医群)	ChatGPT単独(C単群)
１	×	×
２	△	△
３	△	△
４	○	△
５	×	○
６	△	△
７	△	△
８	△	△
９	△	△
１０	×	×
１１	×	×
１２	×	○
１３	△	△
１４	△	×
１５	△	△
１６	△	△
１７	×	×
１８	△	△
１９	△	△
２０	△	×
２１	×	×
２２	△	×
２３	×	○
２４	△	△
２５	△	×
２６	△	×
２７	△	×
２８	△	△
２９	△	△
３０	×	×
３１	×	×
３２	×	×
３３	△	△
３４	△	△
３５	×	×
３６	△	×
３７	△	△
３８	△	×
３９	×	○
４０	△	×
４１	△	△
４２	△	×
４３	×	×
４４	×	×
合計	1/44 (2.2%)	4/44 (9.1%)
医師の誤診との一致率	28/44 (63.6%)	19/44 (43.2%)
※○:正しい診断　△:医師と同じ誤診　×:医師とは異なる誤診

表２.　鑑別診断の正確性について

	ChatGPT×医師：正しい診断が含まれる	ChatGPT×医師：正しい診断が含まれない
鑑別診断2つ
ChatGPT単独：正しい診断が含まれる	3 (6.8%)	7 (15.9%)
ChatGPT単独：正しい診断が含まれない	12 (27.2%)	22 (50.0%)
鑑別診断5つ
ChatGPT単独：正しい診断が含まれる	8 (18.2%)	7 (15.9%)
ChatGPT単独：正しい診断が含まれない	18 (40.9%)	11 (25.0%)

考察

　本研究では、ChatGPTの医師の誤診を防ぐ補助ツールとしての能力を評価するために、医師の記述とChatGPTを組み合わせた場合(C医群)と、ChatGPT単独の場合(C単群)とを比較した。主診断の精度について、C単群は9.1%で、C医群の2.2%と比較して高かったものの、この差は統計的に有意ではなかった。これは、ChatGPTが独立して問診を行うことで、医師単独では誤診を行ってしまった症例に対し、正確な診断に至る可能性があるものの、その能力は限定的であると解釈される。一方、医師の誤診との一致率はC医群で63.6%、C単群で43.2%と、どちらも高い割合で確認され、ChatGPTが医師と同様の傾向で誤診を起こす可能性があることが示唆された。以上の結果を踏まえると、主診断における誤診を防ぐためには、現行のGPT-4の能力は十分ではないと考えられる。

　一方、鑑別診断の精度については、C医群では2つの鑑別診断で34.1%、5つの鑑別診断で59.1%と、C単群の22.7%および34.1%よりも高かった。特に後者では統計的な有意差が確認され、医師とChatGPTの協同が、医師単独では誤診を行ってしまった症例に対しても、正確な診断に至る可能性を高めることが示された。実際、正確な診断に至るためには鑑別診断を網羅的に挙げることが重要であり、⁸⁾本研究結果からChatGPTはこの点で、医療現場での補助ツールとしての可能性を有していると考えられる。

　特筆すべきは、ChatGPTはわずか数秒で鑑別診断を多く挙げることが可能だという点だ。医師が患者と直接関わる時間は、1日の勤務時間の3分の1に満たない一方で、約半分の時間が、カルテの入力や事務作業に充てられていることが指摘されている。⁹⁾今回確認されたChatGPTの即時性と臨床推論能力を活用することで、医師は、患者とのコミュニケーションにより多くの時間を割くことが可能となり、業務効率とケアの質の双方の向上も期待される。

　ただし、ChatGPTは情報を迅速に提供する能力を有する一方で、知識と理解の間に存在する、感性や経験といった要素を補完するものではないという認識も重要である。また、ChatGPTは時に、誤情報を含む自然な回答を生成することや、感染症や保育といった特定の領域で性能が低下する傾向があることも、私たちのこれまでの研究で明らかになっている。^2,3,5⁾したがって、ChatGPTの医療現場への導入には、医師がこのような生成AIの不得手とする状況を予め理解しておくことが望ましく、最終的な責任を持つというプロフェッショナリズムの徹底が求められる。¹⁰⁾

　このため、生成AIを利用した実地診療に関して、包括的指針の策定が追い付いていない現状は懸念すべきだ。例えば米国では、ChatGPTを頼りにした弁護士が、生成された誤情報に基づく弁護を行い、解雇されるという事例が報告されているが、医療現場で同様の事態が発生した場合、患者の生命に関わる重大な問題となり得る。²⁾したがって、将来の医学教育では、ChatGPTの補助ツールとしての活用を視野に入れ、患者や上級医との医療現場での直接的な経験を通じ、生成された情報に対する批判的な思考能力と、それを判断する責任を学びながら、質の高い医療を提供できる医師の育成に焦点を当てるべきだ。¹⁰⁾

　本研究には複数の限界が存在する。診断は通常、視診や聴診などを含む総合評価から行われるが、本研究では言語情報のみを用いて分析が行われた。加えて、ChatGPTを用いて問診を行う際、患者への侵襲的な質問がないか、また、共感性の確保がなされているかといった点については、本研究では評価していない。これらの制限にも関わらず、本研究は試験問題に基づく評価を超える現実の診断プロセスにおいて、特に、実際に発生した医師の誤診を扱った症例に対しても、ChatGPTが鑑別診断を網羅的に挙げるという点で有効な補助ツールとなり得る可能性を示唆しており、重要な貢献を提供する。

結論

　ChatGPTは医師単独では誤診を行ってしまった症例に対しても、鑑別診断を網羅的に挙げるという点で一定の有用性を示したが、医療現場への導入に関し、現段階の性能では、あくまで最終的な判断を下す前の補助ツールとして利用すべきであることが示唆された。この結果を踏まえ、今後の医学教育では、このツールの適切な活用とプロフェッショナリズムの追求を周知することが求められる。

参考文献

1. Kaneda Y, Takahashi R, Kaneda U, et al. Assessing the Performance of GPT-3.5 and GPT-4 on the 2023 Japanese Nursing Examination. Cureus 2023; 15(8).

2. Kaneda Y. ChatGPT in infectious diseases: A practical evaluation and future considerations. New Microbes New Infect 2023; 54: 101166.

3. Kaneda Y, Namba M, Kaneda U, Tanimoto T. Artificial Intelligence in Childcare: Assessing the Performance and Acceptance of ChatGPT Responses. Cureus 2023; 15(8): e44484.

4. Kaneda Y. How to Study Medicine in the Era of ChatGPT: Summarize its Advantages and Drawbacks [in Japanese]. Medical Education Japan 2023; 54(3): 314-5.

5. Kaneda Y, Tsubokura M, Ozaki A, Saito H, Tanimoto T. Are the issues pointed out by ChatGPT can be applied to Japan?-Examining the reasons behind high COVID-19 excess deaths in Japan. New Microbes and New Infections 2023.

6. World Health Organization. Patient Safety. 2023. https://www.who.int/news-room/fact-sheets/detail/patient-safety (accessed October 27 2023).

7. 塩尻俊明. 主訴別診断エラー症例 44 誤診症例に学ぶ確定診断術: 文光堂; 2017.

8. Maude J. Differential diagnosis: the key to reducing diagnosis error, measuring diagnosis and a mechanism to reduce healthcare costs. Diagnosis 2014; 1(1): 107-9.

9. Sinsky C, Colligan L, Li L, et al. Allocation of Physician Time in Ambulatory Practice: A Time and Motion Study in 4 Specialties. Ann Intern Med 2016; 165(11): 753-60.

10. Kaneda Y. In the Era of Prominent AI, What Role Will Physicians Be Expected to Play? QJM: An International Journal of Medicine 2023.

【医学生・若手医師論文コンクール】優秀賞作『ChatGPT時代の医学教育-誤診リスクを低減するアプローチの探求』

東京保険医協会カテゴリー

相談・ご質問はこちらへ

所在地

歯科の先生は歯科保険医協会へ