【医学生・若手医師論文コンクール2025】優秀賞作『日本語版医療用大規模言語モデルの現状と展望―若手医師の立場から考える「医療DX」と「医療用大規模言語モデル」』

公開日 2026年03月28日

『日本語版医療用大規模言語モデルの現状と展望
―若手医師の立場から考える「医療DX」と「医療用大規模言語モデル」』

東京慈恵会医科大学 大学院医学研究科
笠 兼太朗

1. 背景:医療DXと医療用大規模言語モデル

 日本の医療DXは、厚生労働省が推進する「全国医療情報プラットフォーム」構想(図1)のもと、電子カルテの標準化、2024年秋の健康保険証廃止を伴うマイナンバーカードとの一体化、そしてAIによる診療支援の実装を軸に急速に進展している1)。2025年度には電子カルテ情報共有サービスの運用開始、2026年度以降には概ね全ての医療機関や薬局での導入を目指している。

(図1)

 こうした推進を技術的に支える中核技術の一つが、大規模言語モデル (Large Language Model: LLM)である。LLMは膨大なテキストデータを学習したAIモデルで、代表的なものにOpenAI社のChatGPTやGoogle社のGeminiがあり、医療分野では診療記録の自動生成、症例サマリーの作成、診断支援、医学教育など多岐にわたる応用が期待されている。世界ではMe-LLaMAやMedGemma等に代表される医療特化型LLMが台頭し、AIとの協働が進められている。

 政府は令和6年度補正予算において「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」を立ち上げた2)。本事業では、複数のモデルを構築・比較し、AIセーフティ・インスティテュート (AISI)による第三者評価を通じて安全性や信頼性を検証する体制が整えられている。一方、日本の医療現場では医療従事者の不足や地域偏在、2024年度から適用された医師の時間外労働規制に伴う働き方改革への対応、さらには増大する医療財政といった構造的課題が深刻化している。これらの課題に対し、LLMによる診療記録の自動化や文書業務の効率化は医療従事者の労働負担を軽減し、診断支援機能は専門医不在地域における医療の質の向上に寄与し得る。また、業務効率化による医療コストの削減も期待される。こうした背景から、日本の医療現場での利活用を見越した性能と安全性を兼ね備えた日本語版医療用LLMの開発が急務となっている。

2. 日本語版医療用LLMの現状

 内閣府主導の「戦略的イノベーション創造プログラム (SIP)」は、Society 5.0の実現に向けて府省連携による分野横断的な取り組みを推進する国家的プログラムである3)。SIPは第1期 (平成26-30年度)を経て、第2期 (平成30-令和4年度)の成果として開発された「SIP-jmed-llm-2-8×13b」は、倫理や安全性を中心に据えた日本語版医療用LLMの代表例である4)。令和5年度から第3期 (令和5-9年度)に入り、「統合型ヘルスケアシステムの構築」が重点課題の一つとして採択された5)。令和5年度補正予算 (図2)で「我が国における大規模言語モデル (LLM)の開発力強化に向けたデータの整備・拡充及びリスク対応力強化」として、基盤モデルの透明性・信頼性確保に向けた研究開発拠点形成や科学研究向け基盤モデルの開発が進められている6)。さらに、デジタル庁が推進する「デジタル社会の実現に向けた重点計画」 (図3)では、AIの活用環境整備と利活用促進が最重点課題として位置づけられており、政府等におけるAI基盤の構築や地方公共団体・民間事業者との共創が計画されている7)。このような政策的背景もあり、2024年以降から複数の日本語版医療用LLMが登場し、社会実装に向けた実証が本格化している (表1) 8-10)。

(図2)

(図3)

(表1)

3. 医師としての臨床経験から考えるLLMの意義と課題

(1) 臨床現場で直面する状況

 外科医としての臨床経験において、複数の手術や長時間にわたる手術後に病棟でのカルテ記載や退院サマリー作成、紹介状返書、カンファレンス資料作成などの文書業務の負担を痛感している。この実態が昨今の医師の働き方改革の実現を妨げる大きな要因の一つであり、これらの業務は医学的判断を要するものの、その多くは定型的な記述の組み合わせであることからLLMによる支援が最も効果を発揮する領域と考えられる。また、私自身が現在の大学院生として基礎研究に従事する立場から、先行研究の系統的レビューや解析環境の実装などにおいてLLMの有用性を実感している。最新の文献や診療ガイドラインの参照において、LLMは膨大な文献から関連情報を抽出し、エビデンスに基づいた診療や研究に関する先行文献の検索を支援する。

(2) 自身の研究から見えたLLMの意義

 専門医取得を目指す若手医師にとって、LLMは効率的な自己学習ツールとして機能し得ると考え、実際に検証を行った。ChatGPTやGeminiなどの主要なLLMに過去の心臓血管外科専門医試験の回答を作成させ、その正答率を比較する研究を実施した。最新モデルであるChatGPT-5とGemini 2.5 Proでは合格水準である正答率8割を超える結果が得られた。さらに注目すべきは、生成された解説の質である。単に正答を示すだけでなく、病態生理や治療根拠を含む教育的な内容が、洗練された文章で出力された。この結果から、AIの医学知識レベルが専門医試験に合格できる水準に達しており、自己学習における有用なツールとしての可能性を確認できた。本研究結果については現在論文を投稿中である (図4)。

(図4)

 一方で、日本と海外のガイドラインの違いによる回答の齟齬も明らかになった。例えば、急性心筋梗塞の初期治療において、英語圏のデータで学習したLLMは欧米のガイドラインに基づいた推奨を行うが、日本循環器学会のガイドラインとは薬剤選択や投与量が異なる場合がある。また、保険適用の範囲や承認薬剤が国ごとに異なるため、LLMの提案が日本の実臨床では使用できないケースが散見された。この経験から、日本のガイドライン、保険制度、承認薬剤、臨床データに基づいた日本語版医療用LLMの必要性を強く実感した。日本語版医療用LLMは単なる言語の問題ではなく、日本の医療システムに最適化されたAI基盤として必要不可欠である。

(3) 臨床現場における課題とリスク

 AIの誤出力やハルシネーション (誤情報の生成)、説明責任、個人情報保護といった課題は依然として大きい。特に医療分野では、AIの誤答が生命や法的責任に直結するため、ヒトが常に監督するHuman-in-the-Loop (HITL)構造が不可欠である。LLMは事実と異なる情報を事実であるかの如く出力するため、医師がその正確性を検証できる能力が求められる。AIを使用すること以上に、AIの出力を"医学的な観点から"批判的に読む力 (AIリテラシー)が、今後の医学教育に必須と考える。これは単なるデジタルリテラシーではなく、AIの限界を理解し、出力の妥当性を自らの医学的知識で評価し、最終的な臨床判断を下す能力である。実際に、これから専門医試験を受験する立場である私が自己学習に使用していく中で、正しくない内容をあたかも正しいことのように出力される場面に遭遇することもあった。その一方で、それらの不正確な情報を見抜くための、姿勢は私自身の知識の定着に効果的に働いていたと実感した。しかしながら、一般論としてAIに過度に依存することで医師の臨床推論能力や診断能力が低下するリスクも考慮しなければならず、AI支援下において医師が自ら深く考え、学び続ける姿勢を維持する教育文化を植え付けることが重要となる。

Ⅳ.医療機関の経営状況と将来のキャリア選択に関するアンケート調査

 若手医師がこれからの時代の医療DX、LLMに対してどう向き合うべきか、「開発段階からの参画」、「評価基準の構築」、「AIリテラシー教育」の3点から述べる。

(1) 開発段階からの参画:エンジニアとの協働

 これまでのAI開発は、エンジニア主導で進められ、実臨床のニーズとのギャップが生じてきた。医師が開発の初期段階から継続的に参画し、実臨床での使用場面に即した機能設計や医療安全を最優先とした設計を実現する必要がある。若手医師は、デジタルネイティブ世代として、臨床経験とデジタルリテラシーを兼ね備えた「通訳者」の役割を担うべきである。

(2) 評価基準の構築:医療AI評価基盤の確立

 現状では医療AIの評価基準が明確ではない。LLMの出力精度評価 (正答率、ハルシネーションの頻度、バイアスの定量化)、臨床現場での有用性評価 (業務時間の短縮効果、医療過誤の発生率)、倫理的評価 (個人情報保護、説明責任、公平性)を含む包括的な評価基準を、医師が主導して確立すべきである。私が行った専門医試験での評価研究も、その一歩と考える。

(3) AIリテラシー教育:批判的思考の育成

 AIを使うこと以上に重要なのは、AIの出力を批判的に評価する能力である。医学部教育や初期臨床研修、専門医研修プログラムにAIリテラシー教育を組み込み、AIの限界、バイアス、ハルシネーションについて学び、実際のケーススタディを通じてAIと協働する訓練を行う必要がある。これは単なるデジタルリテラシーではなく、AIの限界を理解し、出力の妥当性を自らの医学的知識で評価し、最終的な臨床判断を下す能力である。

5. 若手医師の役割:変革の担い手として

 医療DXは、国が推進するから進めるものではない。私たち若手医師が、臨床現場の問題を解決するために、主体的に取り組むべき変革である。私自身、外科医としての臨床経験と大学院生として基礎研究に従事する立場から、AIの医療応用に関する研究を進めている。医療応用とは、技術に我々が使用されるものではなく、我々が技術を使いこなすためである。深夜の文書業務の時間を、患者のベッドサイドに、手術室に、後輩の教育に使うためである。医療DXとLLMは、医師の仕事を奪うものではなく、医師が本来の仕事に集中できるようにするための「ツール」である。しかし、それを実現するかどうかは、医療とテクノロジーの架け橋として私たち若手医師がどう向き合うかにかかっている。

6. 結語

 日本語版医療用LLMは、日本語、日本人の疾患特性、日本の医療制度に最適化されたAI基盤であり、医療安全・制度適合・データ主権の観点から必要不可欠である。医師がAIの開発、評価、運用に参画することで、患者に対する最良の医療提供へと繋がる。私たち若手医師には、今後の医療DXの変革を主導していく責任がある。

〈参考文献〉

1.    厚生労働省. 医療DX推進本部. 医療DX. 2025. https://www.mhlw.go.jp/stf/iryoudx.html#1
2.    経済産業省. 日本語版医療特化型LLMの社会実装に向けた安全性検証・実証. 2025 Jan. https://www8.cao.go.jp/cstp/bridge/keikaku/r6-h06_bridge_r6.pdf
3.    内閣府. 科学技術・イノベーション推進事務局. 戦略的イノベーション創造プログラム (SIP)概要. 2025 May. https://www8.cao.go.jp/cstp/gaiyo/sip/sipgaiyou.pdf
4.    NII (国立情報学研究所)/SIP-jmed-LLM開発コンソーシアム. SIP-jmed-llm-2-8×13b-OP-instruct. Hugging Face; 2025. https://huggingface.co/SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct
5.    内閣府. 統合型ヘルスケアシステムの構築 社会実装に向けた戦略及び研究開発計画. 2024 Oct. https://www8.cao.go.jp/cstp/gaiyo/sip/sip_3/keikaku/02_healthcare.pdf
6.    内閣府. 経済対策におけるAI施策について (令和5年度補正予算). 2024. https://www8.cao.go.jp/cstp/ai/yosan_5nendo_hosei.pdf
7.    デジタル庁. デジタル社会の実現に向けた重点計画. 2025 Jun. https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/5ecac8cc-50f1-4168-b989-2bcaabffe870/173b3039/20250613_policies_priority_outline_08.pdf
8.    株式会社ELYZA. ELYZA、国産の日本語版"医療"特化LLM基盤「ELYZA-LLM-Med」を開発. 2025 Jul. https://prtimes.jp/main/html/rd/p/000000061.000047565.html
9.    Preferred Networks 株式会社. Preferred-MedLLM-Qwen-72B-OP-instruct. Hugging Face; 2025. https://huggingface.co/pfnet/Preferred-MedLLM-Qwen-72B
10.    富士通株式会社. 富士通、生成AI「Takane」を臨床研究・治験支援のために展開. 2025 May. https://pr.fujitsu.com/jp/news/2025/05/23-01.html