警政時報

研究:OpenAI o1 臨床推理勝醫師 診斷準確率超越人類

我要分享

商傳媒|林昭衡/綜合外電報導

根據一份最新研究報告指出,由 OpenAI 開發的最新大型語言模型(LLM)「OpenAI o1」預覽版,在多項臨床推理與診斷任務中的表現,已超越人類醫師與先前的 AI 模型,例如 GPT-4。《MedpageToday》報導,這項發表在《科學》(Science)期刊的研究,為人工智慧在醫療領域的應用帶來新的討論。

由哈佛醫學院生物醫學資訊學系研究員阿瓊·K·曼賴(Arjun K. Manrai, PhD)及其團隊所進行的實驗顯示,在急診初步分類中,OpenAI o1 預覽版在 67.1% 的案例中能提供精確或極接近的診斷,而兩位醫師的準確度分別為 55.3% 和 50%。研究人員將患者的電子病歷(未經特別整理)直接複製貼入 LLM 進行測試,以模擬實際臨床應用情境。

OpenAI o1 預覽版不只在急診表現亮眼,其在鑑別診斷、診斷測試選擇及其他任務上亦有優異表現。例如,在針對《新英格蘭醫學雜誌》(New England Journal of Medicine, NEJM)刊登的 143 份臨床病理研討案例進行評估時,該模型在 78.3% 的案例中,其鑑別診斷包含了正確結果;若將可能有所幫助或極為接近的診斷納入,準確率更達 97.9%。此外,在《NEJM Healer》課程的 80 個臨床推理案例中,OpenAI o1 預覽版在 78 個案例中獲得滿分,大幅優於 GPT-4(47/80)、主治醫師(28/80)及住院醫師(16/72)。

阿瓊·K·曼賴強調,這些發現不代表人工智慧將取代醫生,而是「我們正在見證一項將重塑醫學的深刻技術變革」。他呼籲,現在需要透過嚴謹的臨床試驗來評估這項技術。弗林德斯大學研究員 Ashley Hopkins, PhD 和 Erik Cornelisse 在隨刊評論中亦提到,雖然 AI 的評估方法持續進步,但其部署速度已超越了評估進度,並指出「在通過驗證的任務上取得準確性,並不保證已部署的系統會將其功能限制在該任務範圍內」。

研究作者總結,AI 在醫療保健領域應扮演協作角色,由臨床醫師提供監督、情境判斷和責任。這份研究報告也指出了其局限性,僅針對 OpenAI o1 的預覽版進行評估,且主要集中在急診醫學和內科領域,實驗也僅限於文本資訊,缺乏真實世界中醫師所需的聽覺或視覺線索。

我要分享

按個讚!警政時報粉絲團!讓您立馬觀看獨家影片!也可向我們投訴爆料哦    點這裡