外稿_產經, 新聞來源:商傳媒, 綜合

研究：OpenAI o1 臨床推理勝醫師診斷準確率超越人類

2026-05-17

我要分享

瀏覽數: 223

商傳媒｜林昭衡／綜合外電報導

根據一份最新研究報告指出，由 OpenAI 開發的最新大型語言模型（LLM）「OpenAI o1」預覽版，在多項臨床推理與診斷任務中的表現，已超越人類醫師與先前的 AI 模型，例如 GPT-4。《MedpageToday》報導，這項發表在《科學》（Science）期刊的研究，為人工智慧在醫療領域的應用帶來新的討論。

由哈佛醫學院生物醫學資訊學系研究員阿瓊·K·曼賴（Arjun K. Manrai, PhD）及其團隊所進行的實驗顯示，在急診初步分類中，OpenAI o1 預覽版在 67.1% 的案例中能提供精確或極接近的診斷，而兩位醫師的準確度分別為 55.3% 和 50%。研究人員將患者的電子病歷（未經特別整理）直接複製貼入 LLM 進行測試，以模擬實際臨床應用情境。

OpenAI o1 預覽版不只在急診表現亮眼，其在鑑別診斷、診斷測試選擇及其他任務上亦有優異表現。例如，在針對《新英格蘭醫學雜誌》（New England Journal of Medicine, NEJM）刊登的 143 份臨床病理研討案例進行評估時，該模型在 78.3% 的案例中，其鑑別診斷包含了正確結果；若將可能有所幫助或極為接近的診斷納入，準確率更達 97.9%。此外，在《NEJM Healer》課程的 80 個臨床推理案例中，OpenAI o1 預覽版在 78 個案例中獲得滿分，大幅優於 GPT-4（47/80）、主治醫師（28/80）及住院醫師（16/72）。

阿瓊·K·曼賴強調，這些發現不代表人工智慧將取代醫生，而是「我們正在見證一項將重塑醫學的深刻技術變革」。他呼籲，現在需要透過嚴謹的臨床試驗來評估這項技術。弗林德斯大學研究員 Ashley Hopkins, PhD 和 Erik Cornelisse 在隨刊評論中亦提到，雖然 AI 的評估方法持續進步，但其部署速度已超越了評估進度，並指出「在通過驗證的任務上取得準確性，並不保證已部署的系統會將其功能限制在該任務範圍內」。

研究作者總結，AI 在醫療保健領域應扮演協作角色，由臨床醫師提供監督、情境判斷和責任。這份研究報告也指出了其局限性，僅針對 OpenAI o1 的預覽版進行評估，且主要集中在急診醫學和內科領域，實驗也僅限於文本資訊，缺乏真實世界中醫師所需的聽覺或視覺線索。