哈佛大學剛發表在《Science》期刊的一項研究讓整個醫療圈和 AI 圈同時炸鍋。研究團隊讓 OpenAI 的 o1 模型與數百名醫生在同一個急診場景下比賽診斷,結果 AI 的正確率是 67%,人類醫生的平均正確率只有 50% 到 55%。當病例資料更完整時,AI 的準確率甚至衝到 82%。你沒看錯,這不是在實驗室裡玩圖像辨識,而是在波士頓一家真實醫院的急診室裡,針對 76 位實際病患做的對照測試。
這個數字之所以驚人,不是因為 AI 贏了,而是因為它贏在急診分診這個最殘酷、最資訊不完整的場景。急診室從來不是資訊完美的戰場,它是資訊殘缺的角鬥場;而 AI 在這種混亂中比人類更冷靜,才是這項研究最可怕的地方。實驗到底怎麼做的
這次試驗的設計相當嚴謹,沒有給 AI 開外掛。研究人員給 AI 和兩名人類醫生同一份標準電子病歷,裡面包含生命徵象、人口統計資料、主訴和現有病例記錄。也就是說,AI 看到的東西和醫生完全一樣,沒有額外的血檢數據,也沒有偷偷餵答案。然後雙方各自給出診斷和治療建議。
結果,當訊息量最少的時候,AI 和人類醫生的差距最大。這違反了很多人的直覺。我們通常以為 AI 需要海量資料才能贏過人類,但這項研究顯示,在資訊極度稀缺的急診分診情境下,AI 的推理能力反而更佔優勢。原因很簡單:人類會疲憊、會受情緒干擾、會被前一位重症患者的情緒帶著走;AI 不會。它不會因為前一個小時剛處理過心臟驟停的病患,就對下一個腹痛患者的判斷產生偏見。
研究人員還做了另一組測試,讓 AI 與 46 名醫生針對五個臨床案例撰寫長期治療計畫,包括抗生素療程和臨終照護安排。AI 在這方面的表現同樣優於多數參與測試的醫生。換句話說,這不只是「猜病名猜得準」這種小聰明,而是牽涉到治療策略的臨床推理能力。
研究作者在論文中直接用了一個很重的詞:大型語言模型已經「超越了大多數臨床推理的基準線」(eclipsed most benchmarks of clinical reasoning)。這句話出自頂尖學術期刊的同行評審論文,不是科技公司的新聞稿。
為什麼急診室是 AI 的終極試煉場
如果你去過急診室,你就知道那裡的運作節奏有多瘋狂。護士在一邊量血壓,醫生在另一邊接電話,救護車的鳴笛聲還沒停,下一台車子又來了。在這種環境下,分診醫生通常只有極短的時間做出判斷:這個病人是馬上需要插管,還是可以等三個小時?是心臟問題還是胃食道逆流?
這種「高壓力、低資訊、快決策」的場景,對人類來說是噩夢,對 AI 來說卻是主場。因為 AI 的護城河不在於它知道多少罕見疾病,而在於它不會被壓力扭曲判斷。當醫生連續值班 12 個小時,他的認知疲勞會讓誤診率偷偷上升;AI 不會累,也不會因為醫院走廊太吵就漏看了一個關鍵指標。
哈佛的研究特別指出,AI 的優勢在「需要快速決策且資訊最少的分診環境」中最為明顯。這句話翻譯成白話就是:醫療體系最痛、人最貴、錯誤代價最高的環節,恰恰是 AI 最能發威的地方。
別急著叫好,雙面刃才剛開始磨
當然,這項研究也有非常明確的限制。研究人員自己說了:AI 目前只能讀文字,讀不到病人的表情、讀不到他們臉色發白還是冒冷汗、讀不到家屬語氣裡的恐慌。這些「非文字訊號」在急診室裡往往是關鍵線索。一位經驗老道的急診醫生看到病人走進來的步伐和眼神,可能就已經在腦中啟動了某條診斷捷徑,這是 AI 現在完全做不到的。
更重要的是,AI 錯了怎麼辦?當一位醫生誤診,我們有一套幾百年累積下來的法律、倫理和專業責任體系去追責和學習。當 AI 誤診,責任要算在誰頭上?是開發模型的公司、是導入系統的醫院、還是按下「採用 AI 建議」的那名醫生?這道題到現在還沒有標準答案。AI 在醫療領域是一柄雙面刃,鋒利的那一面對著效率,另一面對著責任。
而且別忘了,這次測試用的是 OpenAI 的 o1,背後的運算成本不便宜。如果要把這套系統部署到全美每一家醫院,基礎設施開支和維運成本從哪來?是醫院自掏腰包,還是醫保給付?這些都是比技術更難解決的政治和商業問題。
醫療 AI 的軍備競賽已經開打
雖然這篇研究是用 OpenAI 的模型做的,但它打開的其實是一整片戰場。Google DeepMind 的醫療 AI、微軟與 Nuance 合作的臨床文件系統、Amazon 的 HealthLake,各家科技巨頭早就把醫療當成 AI 商業化的核心灘頭堡。這不是普通的軍備競賽,這是搶奪未來十年最有價值垂直領域制高點的戰爭。
為什麼是醫療?因為醫療市場夠大、夠痛、夠願意付錢。全球醫療支出每年超過九兆美元,而且絕大部分成本花在人力和行政上。如果 AI 能把診斷效率提高 20%,把行政文書時間砍掉一半,省下的錢就是億級美元。對科技巨頭來說,醫療不是公益,是下一個操作系統級別的市場。
但這場軍備競賽的贏家不一定是模型最強的公司。在醫療這個高度監管的領域,合規能力、臨床試驗數據、醫生信任度,這些都是比模型參數量更厚的護城河。一個準確率 70% 但已經通過 FDA 審查的系統,往往比一個準確率 90% 但完全沒有臨床認證的黑盒子更有商業價值。
急診室的未來會長什麼樣子
設想五年後你走進急診室,流程可能會完全不一樣。你掛號的同時,AI 已經讀完你過去十年的病歷、用藥記錄和過敏史。護士量完血壓和體溫後,AI 在三十秒內給出一份初步分診建議和可能的診斷清單,並標註哪些檢查要優先做。醫生不是被取代,而是被增強——他不用在混亂中憑記憶拼湊資訊,而是可以站在 AI 整理好的全局視野上做最終判斷。
當 AI 的診斷準確率比醫生高出整整 12 到 17 個百分點,你以為這是一場人機對決的開始,但其實這更像是給醫生發了一台超級計算機。最好的急診醫生不會拒絕 AI,而是會學會怎麼讓 AI 替他扛住資訊過載,自己專注在只有人類能做的事——握住病人的手,判斷話語背後的恐懼,做出帶有人性溫度的決定。
這場醫療革命的進度條才剛走到 5%。OpenAI o1 在這次試驗中展現的不是終點,而是一張邀請函:邀請醫療體系、政策制定者和整個社會,開始認真思考怎麼把一顆超級大腦放進全球最混亂也最神聖的房間裡。急診室的下一個十年,絕對會不一樣。


















