【科技醫療】醫師真的要被取代了？哈佛實證：AI 診斷準確率狂勝人類，但為何我們還不能把命交給它？

2026/05/04 更新2026/05/04 發佈閱讀 6 分鐘

想像一下：未來有一天，當你走進診間，對面坐著的不是穿著白袍的醫師，而是一台能瞬間調閱全球醫學文獻的超級 AI，你敢把自己的健康甚至性命交給它嗎？

最近，一則醫療科技新聞在醫界與科技圈投下了震撼彈：「醫師也要被取代了？哈佛實證研究：AI 在臨床推理測驗上已超越人類，但離接手醫療決策還很遠」。

這個標題看似矛盾，卻精準地點出了當前智慧醫療的殘酷現實與未來走向。AI 到底有多強？既然它已經超越人類，為什麼還不能直接幫我們看病？

📝 殘酷的成績單：AI 獨自看病，分數竟然「輾壓」人類醫師

這份發表在國際頂尖醫學期刊《JAMA Network Open》上的研究，由哈佛大學與史丹佛大學的團隊共同進行。他們找來了 50 位專業的住院醫師與主治醫師，並準備了 6 份極具挑戰性的真實罕見病例，要求醫師們在限制時間內給出診斷與推理依據。

研究團隊將醫師分為兩組：

A 組（傳統組）： 只能使用傳統資源（如醫學參考書、Google 搜尋）。
B 組（AI 輔助組）： 可以使用 ChatGPT 作為輔助工具。
C 選手（純 AI 組）： 讓 ChatGPT 自己單獨作答。

結果出爐，跌破了所有人的眼鏡：只能用傳統資源的醫師（A組），平均得分是 74 分；有了 ChatGPT 幫忙的醫師（B組），成績微幅上升到 76 分。然而，沒有任何人類介入、單獨作答的 ChatGPT，居然拿下了高達 90 分的「A 級」優異成績！

https://www.science.org/doi/10.1126/science.adz4433

🤔 為什麼「醫師＋AI」沒有變成無敵鐵金剛？

這個結果帶出了一個非常有趣的盲點。過去我們總以為「人類＋電腦＝完美無缺」，但研究卻發現，當醫師獲得了這個強大的 AI 神隊友時，整體的診斷準確率並沒有顯著提升。

為什麼會這樣？史丹佛大學的研究人員分析，這代表我們還沒有學會「如何跟 AI 溝通」。有時候醫師太相信自己的直覺，忽略了 AI 給出的正確提示；有時候則是醫師不知道該輸入什麼樣的「提示詞（Prompt）」，導致 AI 產出無效的廢話。

這就像是給了一個頂尖車手一台配備最新自動駕駛系統的 F1 賽車，如果車手不知道怎麼切換系統，這台車的極限就永遠發揮不出來。

🛡️ 既然 AI 這麼神，為何它還不能接手醫療決策？

看到這裡，你可能會想：「既然 AI 考了 90 分，那以後我看病直接問 ChatGPT 不就好了？」

千萬不要！哈佛與麻省總醫院的學者在後續的研究中，嚴厲警告了這種想法的危險性。AI 雖然在「處理現成資訊」上拿了高分，但它離真正的臨床看診，還差了十萬八千里，原因在於：

1. 真實的病患，不會像考卷一樣「資訊齊全」 在考試中，病例的所有症狀、抽血數據、病史都已經被完美地整理成了文字。AI 最擅長的就是處理這些結構化的完美資訊。但在真實診間裡，病人可能會隱瞞病史、可能會說「我就是覺得肚子怪怪的」，甚至伴隨著焦慮與恐慌。如何從病人的肢體語言、語氣，甚至一個不經意的觸診中「挖出」關鍵線索，這種「醫學的藝術（Art of Medicine）」，AI 完全無法複製。

2. 鑑別診斷（Differential Diagnosis）的盲區 當資訊不足時，人類醫師會透過經驗與直覺，列出一系列可能的疾病並逐一排除；但 AI 目前在資訊不對稱的複雜情境下，非常容易產生「幻覺（Hallucinations）」，一本正經地給出一個錯誤的治療方案。

3. 生命的重量與問責機制 當 AI 誤診導致病患傷亡時，誰該負責？是開發軟體的工程師，還是醫院？在法律與倫理的框架完善之前，AI 永遠只能是「輔助工具」，醫療決策的最終拍板與責任承擔，依然必須由人類醫師一肩扛起。