AI 打敗醫生:哈佛大學急診實驗揭開醫療革命的序幕

更新 發佈閱讀 7 分鐘

哈佛大學剛發表在《Science》期刊的一項研究讓整個醫療圈和 AI 圈同時炸鍋。研究團隊讓 OpenAI 的 o1 模型與數百名醫生在同一個急診場景下比賽診斷,結果 AI 的正確率是 67%,人類醫生的平均正確率只有 50% 到 55%。當病例資料更完整時,AI 的準確率甚至衝到 82%。你沒看錯,這不是在實驗室裡玩圖像辨識,而是在波士頓一家真實醫院的急診室裡,針對 76 位實際病患做的對照測試。

這個數字之所以驚人,不是因為 AI 贏了,而是因為它贏在急診分診這個最殘酷、最資訊不完整的場景。急診室從來不是資訊完美的戰場,它是資訊殘缺的角鬥場;而 AI 在這種混亂中比人類更冷靜,才是這項研究最可怕的地方。

實驗到底怎麼做的

這次試驗的設計相當嚴謹,沒有給 AI 開外掛。研究人員給 AI 和兩名人類醫生同一份標準電子病歷,裡面包含生命徵象、人口統計資料、主訴和現有病例記錄。也就是說,AI 看到的東西和醫生完全一樣,沒有額外的血檢數據,也沒有偷偷餵答案。然後雙方各自給出診斷和治療建議。

結果,當訊息量最少的時候,AI 和人類醫生的差距最大。這違反了很多人的直覺。我們通常以為 AI 需要海量資料才能贏過人類,但這項研究顯示,在資訊極度稀缺的急診分診情境下,AI 的推理能力反而更佔優勢。原因很簡單:人類會疲憊、會受情緒干擾、會被前一位重症患者的情緒帶著走;AI 不會。它不會因為前一個小時剛處理過心臟驟停的病患,就對下一個腹痛患者的判斷產生偏見。

研究人員還做了另一組測試,讓 AI 與 46 名醫生針對五個臨床案例撰寫長期治療計畫,包括抗生素療程和臨終照護安排。AI 在這方面的表現同樣優於多數參與測試的醫生。換句話說,這不只是「猜病名猜得準」這種小聰明,而是牽涉到治療策略的臨床推理能力。

研究作者在論文中直接用了一個很重的詞:大型語言模型已經「超越了大多數臨床推理的基準線」(eclipsed most benchmarks of clinical reasoning)。這句話出自頂尖學術期刊的同行評審論文,不是科技公司的新聞稿。

為什麼急診室是 AI 的終極試煉場

如果你去過急診室,你就知道那裡的運作節奏有多瘋狂。護士在一邊量血壓,醫生在另一邊接電話,救護車的鳴笛聲還沒停,下一台車子又來了。在這種環境下,分診醫生通常只有極短的時間做出判斷:這個病人是馬上需要插管,還是可以等三個小時?是心臟問題還是胃食道逆流?

這種「高壓力、低資訊、快決策」的場景,對人類來說是噩夢,對 AI 來說卻是主場。因為 AI 的護城河不在於它知道多少罕見疾病,而在於它不會被壓力扭曲判斷。當醫生連續值班 12 個小時,他的認知疲勞會讓誤診率偷偷上升;AI 不會累,也不會因為醫院走廊太吵就漏看了一個關鍵指標。

哈佛的研究特別指出,AI 的優勢在「需要快速決策且資訊最少的分診環境」中最為明顯。這句話翻譯成白話就是:醫療體系最痛、人最貴、錯誤代價最高的環節,恰恰是 AI 最能發威的地方。

別急著叫好,雙面刃才剛開始磨

當然,這項研究也有非常明確的限制。研究人員自己說了:AI 目前只能讀文字,讀不到病人的表情、讀不到他們臉色發白還是冒冷汗、讀不到家屬語氣裡的恐慌。這些「非文字訊號」在急診室裡往往是關鍵線索。一位經驗老道的急診醫生看到病人走進來的步伐和眼神,可能就已經在腦中啟動了某條診斷捷徑,這是 AI 現在完全做不到的。

更重要的是,AI 錯了怎麼辦?當一位醫生誤診,我們有一套幾百年累積下來的法律、倫理和專業責任體系去追責和學習。當 AI 誤診,責任要算在誰頭上?是開發模型的公司、是導入系統的醫院、還是按下「採用 AI 建議」的那名醫生?這道題到現在還沒有標準答案。AI 在醫療領域是一柄雙面刃,鋒利的那一面對著效率,另一面對著責任。

而且別忘了,這次測試用的是 OpenAI 的 o1,背後的運算成本不便宜。如果要把這套系統部署到全美每一家醫院,基礎設施開支和維運成本從哪來?是醫院自掏腰包,還是醫保給付?這些都是比技術更難解決的政治和商業問題。

醫療 AI 的軍備競賽已經開打

雖然這篇研究是用 OpenAI 的模型做的,但它打開的其實是一整片戰場。Google DeepMind 的醫療 AI、微軟與 Nuance 合作的臨床文件系統、Amazon 的 HealthLake,各家科技巨頭早就把醫療當成 AI 商業化的核心灘頭堡。這不是普通的軍備競賽,這是搶奪未來十年最有價值垂直領域制高點的戰爭。

為什麼是醫療?因為醫療市場夠大、夠痛、夠願意付錢。全球醫療支出每年超過九兆美元,而且絕大部分成本花在人力和行政上。如果 AI 能把診斷效率提高 20%,把行政文書時間砍掉一半,省下的錢就是億級美元。對科技巨頭來說,醫療不是公益,是下一個操作系統級別的市場。

但這場軍備競賽的贏家不一定是模型最強的公司。在醫療這個高度監管的領域,合規能力、臨床試驗數據、醫生信任度,這些都是比模型參數量更厚的護城河。一個準確率 70% 但已經通過 FDA 審查的系統,往往比一個準確率 90% 但完全沒有臨床認證的黑盒子更有商業價值。

急診室的未來會長什麼樣子

設想五年後你走進急診室,流程可能會完全不一樣。你掛號的同時,AI 已經讀完你過去十年的病歷、用藥記錄和過敏史。護士量完血壓和體溫後,AI 在三十秒內給出一份初步分診建議和可能的診斷清單,並標註哪些檢查要優先做。醫生不是被取代,而是被增強——他不用在混亂中憑記憶拼湊資訊,而是可以站在 AI 整理好的全局視野上做最終判斷。

當 AI 的診斷準確率比醫生高出整整 12 到 17 個百分點,你以為這是一場人機對決的開始,但其實這更像是給醫生發了一台超級計算機。最好的急診醫生不會拒絕 AI,而是會學會怎麼讓 AI 替他扛住資訊過載,自己專注在只有人類能做的事——握住病人的手,判斷話語背後的恐懼,做出帶有人性溫度的決定。

這場醫療革命的進度條才剛走到 5%。OpenAI o1 在這次試驗中展現的不是終點,而是一張邀請函:邀請醫療體系、政策制定者和整個社會,開始認真思考怎麼把一顆超級大腦放進全球最混亂也最神聖的房間裡。急診室的下一個十年,絕對會不一樣。


留言
avatar-img
今天學 AI
1會員
41內容數
AI 離你沒有那麼遠。「今天學 AI」每天為你整理最新的 AI 工具實測、產業動態、商業案例與技術解析,用你聽得懂的話,幫你跟上這個變化最快的時代。不管你是好奇的新手,還是想把 AI 用在工作裡的行動派,這裡都是你的第一站。
今天學 AI的其他內容
2026/05/02
蘋果在 4 月 30 日交出了一份讓華爾街鼓掌的成績單:2026 會計年度第二季營收達到 1,112 億美元,創下公司史上最佳的三月季度紀錄。iPhone 17 全系列賣到供不應求,每個地理分區都繳出兩位數成長。這本該是一場徹徹底底的勝利遊行,但執行長 Tim Cook 在財報會...
2026/05/02
蘋果在 4 月 30 日交出了一份讓華爾街鼓掌的成績單:2026 會計年度第二季營收達到 1,112 億美元,創下公司史上最佳的三月季度紀錄。iPhone 17 全系列賣到供不應求,每個地理分區都繳出兩位數成長。這本該是一場徹徹底底的勝利遊行,但執行長 Tim Cook 在財報會...
2026/05/01
2026年5月1日,xAI 沒有開記者會,沒有發新聞稿,只在技術文件裡多放了一行「grok-4.3」。四小時後,Hacker News 上這篇條目累積 135 點、165 則留言,討論串比模型本身還精彩。 你先看數字。一百萬 token 的上下文窗口、每百萬 token 輸入 1...
2026/05/01
2026年5月1日,xAI 沒有開記者會,沒有發新聞稿,只在技術文件裡多放了一行「grok-4.3」。四小時後,Hacker News 上這篇條目累積 135 點、165 則留言,討論串比模型本身還精彩。 你先看數字。一百萬 token 的上下文窗口、每百萬 token 輸入 1...
2026/04/29
2026年9月,你的 Android 手機將不再屬於你。這不是陰謀論,是 Google 去年八月親口宣布、準備在九個月後全面推行的「開發者驗證計畫」。根據 StatCounter 最新數據,Android 佔全球手機作業系統市場的 <b>67.46%</b>。換句話說,全世界超過...
2026/04/29
2026年9月,你的 Android 手機將不再屬於你。這不是陰謀論,是 Google 去年八月親口宣布、準備在九個月後全面推行的「開發者驗證計畫」。根據 StatCounter 最新數據,Android 佔全球手機作業系統市場的 <b>67.46%</b>。換句話說,全世界超過...
看更多
你可能也想看
Thumbnail
2026 年初一項由蒙特婁大學團隊發表於《Scientific Reports》的大型研究,針對超過十萬名「人類受試者」與當前幾個大型語言模型進行直接比較,發現一個驚人且值得深思的結果: 生成 AI在「創造力」的標準化測驗上已經超過「平均人類」的表現,但是在「最具創造力」的頂尖者面前仍難以望其項背。
Thumbnail
2026 年初一項由蒙特婁大學團隊發表於《Scientific Reports》的大型研究,針對超過十萬名「人類受試者」與當前幾個大型語言模型進行直接比較,發現一個驚人且值得深思的結果: 生成 AI在「創造力」的標準化測驗上已經超過「平均人類」的表現,但是在「最具創造力」的頂尖者面前仍難以望其項背。
Thumbnail
閉上眼睛三秒鐘,問自己一個問題: 五年前你最渴望的那種生活,現在實現了嗎?還是你依然用著五年前一模一樣的藉口,在同一個困境裡「鬼打牆」? 同樣的雷,踩兩次叫運氣差;踩三次叫習慣;踩了無數次,叫「從未真正為自己活過」。 多數人引以為傲的「十年經驗」,很多時候不過是把第一年的妥協與無奈,重複了九次
Thumbnail
閉上眼睛三秒鐘,問自己一個問題: 五年前你最渴望的那種生活,現在實現了嗎?還是你依然用著五年前一模一樣的藉口,在同一個困境裡「鬼打牆」? 同樣的雷,踩兩次叫運氣差;踩三次叫習慣;踩了無數次,叫「從未真正為自己活過」。 多數人引以為傲的「十年經驗」,很多時候不過是把第一年的妥協與無奈,重複了九次
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
艾倫·麥席森·圖靈,OBE,FRS是英國電腦科學家、數學家、邏輯學家、密碼分析學家和理論生物學家,他被譽為電腦科學與人工智慧之父。 二次世界大戰期間,「Hut 8」小組,負責德國海軍密碼分析。 期間他設計了一些加速破譯德國密碼的技術,包括改進波蘭戰前研製的機器Bombe,一種可以找到恩尼格瑪密碼機設
Thumbnail
艾倫·麥席森·圖靈,OBE,FRS是英國電腦科學家、數學家、邏輯學家、密碼分析學家和理論生物學家,他被譽為電腦科學與人工智慧之父。 二次世界大戰期間,「Hut 8」小組,負責德國海軍密碼分析。 期間他設計了一些加速破譯德國密碼的技術,包括改進波蘭戰前研製的機器Bombe,一種可以找到恩尼格瑪密碼機設
Thumbnail
世界西洋棋冠軍 Garry Kasparov分享了他在 1997 年與 IBM Deep Blue 比賽下棋卻輸給機器的故事。然而,他呼籲人們不要害怕被人工智能超越,而是要與機器合作,因為科技的進步將帶來更多力量。影片中提到了與人工智能共存的可能性,以及機器與人類各自的優勢。值得一看的影片!
Thumbnail
世界西洋棋冠軍 Garry Kasparov分享了他在 1997 年與 IBM Deep Blue 比賽下棋卻輸給機器的故事。然而,他呼籲人們不要害怕被人工智能超越,而是要與機器合作,因為科技的進步將帶來更多力量。影片中提到了與人工智能共存的可能性,以及機器與人類各自的優勢。值得一看的影片!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
最近用 Google 搜尋資料時,你是不是也常遇到一種詭異的狀況?點進一個網站,文章的用詞看起來都怪怪的,但你又說不上來哪裡特別怪。 這類文章通常是為了解決一個具體的問題。比如我之前搜尋過:「英國留學要不要辦當地銀行的帳戶?」這算是每隔一段時間就會有新生發問的問題,網路上照理說一定會有大量的經驗談
Thumbnail
最近用 Google 搜尋資料時,你是不是也常遇到一種詭異的狀況?點進一個網站,文章的用詞看起來都怪怪的,但你又說不上來哪裡特別怪。 這類文章通常是為了解決一個具體的問題。比如我之前搜尋過:「英國留學要不要辦當地銀行的帳戶?」這算是每隔一段時間就會有新生發問的問題,網路上照理說一定會有大量的經驗談
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意 摘要 CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。
Thumbnail
結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意 摘要 CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。
Thumbnail
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
Thumbnail
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
Thumbnail
理由很簡單,就算 AI 和人一樣強大,比如貢獻值是 1,只需要一般人往上面加個 0.1,那麼你的成品就超過了 AI 的作品了⋯ 不懂 AI 的人會過時嗎,會被淘汰嗎? 可以說是又可以說不是⋯ 不懂 AI 的人的薪酬肯定被降低了,不過不等於會消失⋯ 就像很多人也不懂電腦的專業知識,比如連簡單的計
Thumbnail
理由很簡單,就算 AI 和人一樣強大,比如貢獻值是 1,只需要一般人往上面加個 0.1,那麼你的成品就超過了 AI 的作品了⋯ 不懂 AI 的人會過時嗎,會被淘汰嗎? 可以說是又可以說不是⋯ 不懂 AI 的人的薪酬肯定被降低了,不過不等於會消失⋯ 就像很多人也不懂電腦的專業知識,比如連簡單的計
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News