81.1% vs 61.1%——GPT-5.2 與開源模型的 RADS 分類準確率差距，能被縮小嗎？

Way

2026/01/10 更新2026/01/10 發佈閱讀 8 分鐘

為什麼放射科需要一套「共同語言」？

影像報告如果沒有標準化輸出，臨床端就很難得到明確的處置指引。RADS 系統就是為此而生——它把影像發現轉成統一的風險分級，讓後續決策有據可循。

舉個例子：乳房攝影看到一個結節，BI-RADS 2 表示「良性發現」，BI-RADS 5 則是「高度懷疑惡性，建議切片」。一個數字，臨床就知道下一步該怎麼做。

目前常用的 RADS 有十幾種：乳房的 BI-RADS、肝臟的 LI-RADS、前列腺的 PI-RADS……每一套都有自己的判斷邏輯。

但這些規則有多複雜？

以 LI-RADS 來說，判斷一顆肝臟腫瘤就像在玩一場「連續選擇題」：先看動脈期有沒有強化？有的話，洗出夠不夠快？有沒有包膜？門脈有沒有被侵犯？每一關的答案都會影響最終分類。光記住這張決策樹就夠累了，更別提每天幾十份報告等著處理。

如果 AI 能自動幫忙分類呢？

有團隊做了一個實驗：用 1,600 份模擬報告（由 AI 生成、再經放射科醫師審過），讓 41 個開源模型和 GPT-5.2 比賽，看誰能正確判讀 RADS 分類。

結果？最好的開源模型已經追到專有模型的 96%——但差距全集中在最難的那 20% 任務上。

測試資料從哪來？

要比 AI 的能力，先得有一套標準考題。研究團隊準備了 1,600 份模擬放射報告，涵蓋 10 種 RADS 系統。

為什麼用模擬的？因為真實報告有隱私問題，而且要請醫師一份一份讀、一份一份標正確答案，太花時間。模擬報告則可以控制每種情境的數量，測起來更全面。

怎麼確保「假報告」像真的？研究團隊用了三招：

用多個 AI 模型（GPT、Claude、Gemini）一起生成，避免風格太單一
模擬 5 種醫師的寫作習慣（從資深專家到住院醫師）
最後請真人放射科醫師審兩輪，確認內容合理、分類正確

當然，模擬再像也不是真的——這是這套測試的主要限制。

模型大小，真的有差嗎？

這次測試了 41 個開源模型，參數量從 0.27B 到 32B 不等。加上 OpenAI 的 GPT-5.2 當作比較基準。

整體成績單

準確率比較：

GPT-5.2：81.1%
開源模型平均：61.1%
最佳開源（20-32B）：78%

「有效輸出率」是什麼？就是模型有沒有按照指令、好好回答一個 RADS 分類。小模型常常答非所問，或格式錯誤——這在臨床上等於沒用。

10B 是個分水嶺

把模型按大小分組，規律很明顯：

≤ 1B：27%（幾乎是亂猜）
1-10B：58%
10-30B：73-74%
GPT-5.2：81%

跨過 10B 門檻後，準確率才開始逼近 GPT-5.2。

開啟「思考模式」有用嗎？

有些開源模型支援「Thinking mode」——讓 AI 先推理一輪再回答。

以開源模型來說：

開啟 Thinking：68.4%
不開：56.5%

差了 12%，效果明顯。

而 GPT-5.2 的 81.1% 準確率，也是在 Thinking 模式下測得的——所以「讓模型想一下再回答」這招，不管開源或專有模型都有效。

「指引式提示詞」也很重要

除了 Thinking 模式，怎麼下指令也影響結果。

研究團隊比較了兩種方式：

指引式提示詞（Guided prompting）：給 AI 詳細的系統指令，包含 RADS 規則、輸出格式限制
零樣本提示（Zero-shot）：只說「讀這份報告，輸出 RADS 分類」

結果：

指引式：78.5%
零樣本：69.6%

差了將近 9%。所以不只是模型大小，怎麼問也很關鍵。

哪些 RADS 最難判？

不是所有 RADS 都一樣難。研究團隊給每個系統打了「複雜度分數」，滿分 10 分。

複雜度排名：

LI-RADS（肝臟 CT/MRI）：10 分 ← 最難
PI-RADS（前列腺）：9 分
O-RADS（卵巢 MRI）：8 分
BI-RADS（乳房 MRI）：7 分
Lung-RADS（肺）：4 分 ← 相對簡單

為什麼 LI-RADS 最難？

因為它像在玩「連續選擇題」：動脈期強化了嗎？洗出夠快嗎？有包膜嗎？每一關的答案都影響下一步。而且很多判斷帶有主觀性——「這算洗出嗎？」不同醫師可能有不同答案。

相比之下，Lung-RADS 主要依據結節大小和生長速度來分類，規則相對明確，判讀的主觀空間較小。

複雜度如何影響 AI 表現？

這裡差距最明顯：

高複雜度任務（LI-RADS、PI-RADS）：

GPT-5.2：90%
開源模型：49.4%

低複雜度任務（Lung-RADS）：

GPT-5.2：91%
開源模型：73.5%

簡單任務大家都還行，但一碰到複雜的，開源模型就掉隊了。

實務建議：怎麼選模型？

如果資源充足（硬體夠強、不在意 API 費用），直接用 GPT-5.2 或 32B 開源模型處理所有任務最省事。

但如果需要考慮成本、速度或本地部署限制，可以分級處理：

簡單任務（Lung-RADS、LI-RADS 超音波）→ 10B+ 開源模型就夠用
中等任務（BI-RADS、TI-RADS）→ 20-32B 開源 + 指引式提示詞
複雜任務（LI-RADS CT/MRI、PI-RADS）→ GPT-5.2，或混合管線（AI + 規則引擎）

結論：開源模型能用了嗎？

簡單說：可以，但要看情況。

值得期待的發展

20-32B 開源模型已經能達到 GPT-5.2 約 96% 的準確率
可以本地部署，不用擔心病患資料外洩
搭配 Thinking 模式 + 指引式提示詞（Guided prompting），效果更好

需要注意的限制

高複雜度任務（LI-RADS CT/MRI、PI-RADS）開源模型仍有明顯差距
小模型（<10B）格式錯誤率高，不適合直接用
模擬報告畢竟不是真實報告，實際表現可能有落差

如果你想在臨床試用

驗證輸出格式：確保 AI 真的回答了一個 RADS 分類，不是答非所問
人工複核：特別是高風險類別（如 LI-RADS 5），一定要有人看過
混合管線：論文建議可以讓 AI 先抽取特徵，再用規則引擎（rule engine）做最終判定，減少自由格式輸出的錯誤

論文資訊

原文標題：Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models

來源：arXiv:2601.03232v1 [cs.CL] 6 Jan 2026

作者：Bose K, Kumar A, Soundararajan R, et al.

資源：GitHub - RadioX-Labs/RADSet

留言

AI*放射*學習筆記

0會員

2內容數

專挑醫學影像 × AI 的論文來讀，消化完寫成筆記放這裡。沒有論文腔，只有重點整理 + 我的觀點。適合：想追 AI 趨勢但沒時間讀 paper 的醫療人／想懂影像應用的工程師。

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

九運科技

鴻海跨入AI核心、Google推出下一代影像模型

當AI從「軟體革命」進入「硬體競賽」，全球科技版圖正在被重新洗牌。今天的三則新聞分別從製造、能源、模型演進切入，呈現 AI 生態系正全面擴張：鴻海用「製造實力」進軍AI核心；軟銀以「重資本」重構算力供應； Google則以模型創新搶攻下一代生成式應用。

#數位遊牧#AI工作流#科技

2025/11/21

九運科技

鴻海跨入AI核心、Google推出下一代影像模型

#數位遊牧#AI工作流#科技

2025/11/21

TN科技筆記(TechNotes)的沙龍

Sora 2 登場，被譽為「影片界的 GPT-3.5 時刻」：與 Veo 3、Kling、Runway 的對決

AI 影片生成領域的競爭，正以前所未有的速度升溫。過去，我們驚嘆於靜態圖片的生成，如今，高品質、具備物理真實感、甚至能同步生成聲音的動態影片，正走向我們的生活。2025 年 9 月 30 日，OpenAI 正式發表了其最新的影片生成模型 Sora 2，更被其內部譽為「影片界的 GPT-3.5 時刻」

#科技#人工智慧#科技公司

2025/10/01

TN科技筆記(TechNotes)的沙龍

Sora 2 登場，被譽為「影片界的 GPT-3.5 時刻」：與 Veo 3、Kling、Runway 的對決

#科技#人工智慧#科技公司

2025/10/01

牧牧的成長實驗室

Microsoft Bing「影像建立工具」指令詳細使用懶人包

Microsoft Bing「影像建立工具」指令詳細使用懶人包 https://www.bing.com/images/create?fbclid=IwAR16Z7j63pN0sG5SXjK1l6lGSS0fM2yxpeBPSzu_CKuoRuHZQHws9HhM6x0 🎯 核心觀念 Bi

#日常#力量#智慧

2025/08/14

牧牧的成長實驗室

Microsoft Bing「影像建立工具」指令詳細使用懶人包

Microsoft Bing「影像建立工具」指令詳細使用懶人包 https://www.bing.com/images/create?fbclid=IwAR16Z7j63pN0sG5SXjK1l6lGSS0fM2yxpeBPSzu_CKuoRuHZQHws9HhM6x0 🎯 核心觀念 Bi

#日常#力量#智慧

2025/08/14

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

在AI浪潮下，009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸，等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈，到如今AI崛起，主線已由應用端轉向底層。AI發展離不開算力與電力支撐，009819的價值，在於押中「沒有它不行」的核心資產。

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

九運科技

從 Apple 影像模型突破，到 AI 程式碼風險，再到校園 AI 普及

AI 的發展正在進入一個更現實的階段。不再只是模型有多強，而是好不好用、用得安不安全、誰能真正用得起。 Apple 推出 UniGen-1.5，試圖重塑影像生成與編輯的標準；研究卻指出 AI 生成程式碼的缺陷率仍高於人類；而台鋼科技大學，已把 AI 從研究工具，變成校務與學習的日常基礎。

#科技#程式

2025/12/19

九運科技

從 Apple 影像模型突破，到 AI 程式碼風險，再到校園 AI 普及

#科技#程式

2025/12/19

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News