リサーチ・論文 5月4日 theguardian.com

OpenAI o1モデル、救急診断で医師を上回る67%の正解率を達成

原題: OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors

なぜ重要か

救急医療でのAI活用が現実的段階に入り、医療効率向上と診断精度改善により医療業界の変革が加速する可能性

ハーバード大学の研究で、OpenAIのo1推論モデルが救急外来のトリアージ診断において67%の正確率を記録し、医師の50-55%を上回った。76名の救急患者を対象とした実験で、AIが最小限の情報での迅速な判断を特に得意とすることが判明した。

ハーバード大学が実施した画期的な研究により、AI システムが救急医療のトリアージにおいて人間の医師を上回る性能を示すことが明らかになった。この研究結果は学術誌「Science」に掲載され、大規模言語モデルが「臨床推論の大半のベンチマークを凌駕した」と著者らは述べている。

ボストンの病院救急外来に搬送された76名の患者を対象とした実験では、OpenAIのo1推論モデルと人間の医師ペアが同一の電子健康記録を読み、診断を行った。記録には通常、バイタルサインデータ、人口統計情報、看護師による患者の来院理由に関する数行の記述が含まれている。

AIは67%のケースで正確または非常に近い診断を特定し、50-55%の正解率だった人間の医師を上回った。特に最小限の情報での迅速な判断が求められるトリアージ状況において、AIの優位性が顕著に現れた。

より詳細な情報が利用可能な場合、AIの診断精度は82%まで上昇した。これに対し専門医は70-79%の精度を達成したが、この差は統計的に有意ではなかった。またAIは、抗生物質処方などの長期治療計画の提供においても、より大規模な医師グループを上回る性能を示した。

独立した専門家らは、この結果をAIの臨床推論における「真の前進」を示すものと評価し、「医療を再構築する技術の根本的変化」を表すと研究者らは述べている。