Google MedGemma 1.5 :看懂 CT、聽懂醫囑的專業醫療 AI 模型

更新 發佈閱讀 7 分鐘

2026 年 1 月,Google Research 再次為醫療 AI 領域注入了新的動能,正式發布 MedGemma 1.5 模型以及專用的語音識別模型 MedASR,讓開始學習像人類醫生一樣,具備解讀 3D 影像、理解病歷時間軸,甚至聽懂專業術語的能力。

vocus|新世代的創作平台

Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR

MedGemma 1.5 與 MedASR

這次發布主要包含兩個模型:

  1. MedGemma 1.5 (4B 參數版本):這是 Google 開源醫療模型系列的最新力作。與前代相比,它最大的突破在於「多模態能力的擴展」。除了理解平面的 X 光片,現在更能處理高維度的醫療影像(如 3D 的 CT 和 MRI),以及具備時間序列的病歷分析能力。值得注意的是,Google 這次選擇發布 4B 的輕量化版本,正是為了讓開發者能更容易地在本地端或有限算力下進行部署。
  2. MedASR:這是一個專為醫療場景微調的自動語音識別 (ASR) 模型。它的任務很單純也很關鍵:將充滿專業術語、藥名和縮寫的醫生口述,精準地轉化為文字,讓其成為 MedGemma 的「耳朵」,讓語音能直接作為 AI 的輸入指令。

從平面到立體:MedGemma 1.5

突破二維限制:高維度影像解讀

過去的醫療 AI 模型多半停留在解讀 2D 影像,例如單張胸部 X 光片或皮膚病變照片。然而,臨床醫學中含金量極高的資訊,往往藏在 3D 影像中。

MedGemma 1.5 引入了對高維度醫療影像的支援,使用者可以將 CT(電腦斷層)或 MRI(核磁共振)的多個切片作為輸入傳給模型,讓模型透過綜合分析多個切面的資訊,建立起對病灶的立體認知。根據 Google 內部測試,在疾病相關的 CT 發現分類上,準確率提升了 3%;在 MRI 的分類上,準確率更是大幅提升了 14% (從 51% 提升至 65%)。

時間的維度:縱向病歷分析

醫生看病從來不是只看「現在」,更要看「過去」。一張 X 光片如果顯示肺部有陰影,醫生首先會問:「以前的片子有嗎?」如果以前沒有,那是新發病灶;如果以前就有且沒變化,那可能無需擔憂。

MedGemma 1.5 新增縱向分析的能力,特別是在胸部 X 光的時間序列回顧上。模型可以同時接收病患「當下」與「過去」的影像,並進行比較分析。這對於追蹤腫瘤大小變化、肺炎復原進度等使用場景相當重要。在 MS-CXR-T 基準測試中,這種具備時間觀念的分析能力,讓準確率提升了 5%。

聽見專業術語:MedASR

醫療領域的語音識別一直是大難題。通用的語音模型(如 OpenAI 的 Whisper)雖然強大,但在面對醫學術語,以及醫生快速口述時的縮寫習慣時,往往會發生災難性的錯誤。

Google 推出的 MedASR 專門針對醫療聽寫進行了微調。Google 將 MedASR 與 Whisper large-v3 進行了對比。結果顯示,在胸部 X 光聽寫任務中,MedASR 的錯誤率減少了 58%;在涵蓋多種專科的內部基準測試中,錯誤率更是驚人地減少了 82% (詞錯誤率 WER 從 28.2% 降至 5.2%)。MedASR 不僅是用來轉錄文字,它還能作為 MedGemma 的輸入端。醫生可以直接「口述」指令,讓 MedASR 轉成文字後,再由 MedGemma 進行推理分析,實現完全免動手的 AI 輔助流程。

實際落地案例:從馬來西亞到臺灣

文件中特別提到了兩個具體的應用場景,證明了這些模型已經走出實驗室:

  1. 馬來西亞:他們利用 MedGemma 打造了一個名為 askCPG 的系統,讓醫生能透過對話介面查詢馬來西亞超過 150 份的臨床實踐指南。這解決了醫生在忙碌的臨床工作中,難以快速翻閱厚重指南的問題。
  2. 臺灣:衛生福利部中央健康保險署已經應用 MedGemma 來評估肺癌手術的術前評估。透過從超過 30,000 份病理報告和非結構化數據中提取關鍵資訊,健保署能夠進行更精確的統計分析,不僅優化了手術決策,更有助於未來的醫療政策制定。

開發者生態系的考量

Google 選擇發布 4B 版本在於對醫療產業的考量,醫療數據極度敏感,許多醫院受限於法規或隱私考量,原則上幾乎不可能將病患影像上傳到公有雲。4B 大小的模型足夠輕量,可以在醫院內部的本地伺服器,甚至是高階工作站上運行。另外透過 Hugging Face 和 Google Vertex AI 的整合,加上 Kaggle 比賽的推動,Google 正在試圖推動新創開發者使用 MedGemma 作為基底模型來開發應用,讓 Google 在醫療 AI 領域的護城河隨之建立。

TN科技筆記的觀點

Google 發布 4B 模型是一個非常精明的商業與技術決策。在醫療領域,數據隱私是重點考量,另外對人體內部 3D 結構的理解也是一大考量,藉由 Google 擅長的多模態模型能力,又是能在本地端跑得動、且經過專業醫療微調的模型,相信比在雲端但無法合規使用的超大模型有更多價值。然而目前的準確率(如 MRI 的 65%)雖然比前代進步,但距離「醫療級」的可靠度仍有一大段距離。相信隨著模型能力提升,遲早能夠成為醫生的得力助手,只是屆時醫療判斷的責任歸屬將是另外一大挑戰。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
242內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2026/01/14
Google 發布 Universal Commerce Protocol (UCP) 與 Gemini 零售解決方案,正式開啟「代理商務」時代。本文深度解析 AI Agent 如何重塑從搜尋到下單的完整路徑。
Thumbnail
2026/01/14
Google 發布 Universal Commerce Protocol (UCP) 與 Gemini 零售解決方案,正式開啟「代理商務」時代。本文深度解析 AI Agent 如何重塑從搜尋到下單的完整路徑。
Thumbnail
2026/01/09
了解 Cursor 提出的「動態內容探索」技術如何解決 AI 程式助理的 Context Window 限制。解析其核心原理,以及如何透過將一切視為「檔案」來提升效率、改善 AI 回應品質並大幅降低 Token 消耗。
Thumbnail
2026/01/09
了解 Cursor 提出的「動態內容探索」技術如何解決 AI 程式助理的 Context Window 限制。解析其核心原理,以及如何透過將一切視為「檔案」來提升效率、改善 AI 回應品質並大幅降低 Token 消耗。
Thumbnail
2026/01/02
Google DeepMind 的聯合創辦人 Shane Legg 在近期給出了明確的 AGI 分級定義、時間表,並直言不諱地剖析了這項技術將如何從根本上重塑我們的經濟、社會與個人價值。
Thumbnail
2026/01/02
Google DeepMind 的聯合創辦人 Shane Legg 在近期給出了明確的 AGI 分級定義、時間表,並直言不諱地剖析了這項技術將如何從根本上重塑我們的經濟、社會與個人價值。
Thumbnail
看更多
你可能也想看
Thumbnail
在AI迅速發展的當下,如何應對這場顛覆成為重要課題。萬維鋼在其著作《拐點:站在 AI 顛覆世界的前夜》中說明AI如何挑戰Google的搜尋霸主地位,並探討生成式AI的限制,以及在這個變革中個人如何利用AI提升決策能力,掌握未來的主導權。人要比AI凶!
Thumbnail
在AI迅速發展的當下,如何應對這場顛覆成為重要課題。萬維鋼在其著作《拐點:站在 AI 顛覆世界的前夜》中說明AI如何挑戰Google的搜尋霸主地位,並探討生成式AI的限制,以及在這個變革中個人如何利用AI提升決策能力,掌握未來的主導權。人要比AI凶!
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
上篇文章《奧特曼傳》聚焦 OpenAI 如何從「讓 AI 造福人類」的理想出發,演變成資本與權力的角逐賽,奧特曼與馬斯克分道揚鑣後,OpenAI 與微軟攜手推出 ChatGPT,席捲全球;然而,真正的較量並不僅限於兩人,而是以「AI 霸主」之名,在更廣闊的戰場上展開......
Thumbnail
上篇文章《奧特曼傳》聚焦 OpenAI 如何從「讓 AI 造福人類」的理想出發,演變成資本與權力的角逐賽,奧特曼與馬斯克分道揚鑣後,OpenAI 與微軟攜手推出 ChatGPT,席捲全球;然而,真正的較量並不僅限於兩人,而是以「AI 霸主」之名,在更廣闊的戰場上展開......
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我們最常聽到的 ChatGPT,背後的推手就是這家公司——OpenAI。 對我來說,OpenAI 不只是一間科技公司,它更像是一個把「未來」帶到我們「現在」生活的領航員。今天就來簡單聊聊它能為我們做什麼吧!🌿 1. OpenAI 是誰? 🤔 簡單說,它是目前全球最頂尖的人工智慧研究實驗
Thumbnail
我們最常聽到的 ChatGPT,背後的推手就是這家公司——OpenAI。 對我來說,OpenAI 不只是一間科技公司,它更像是一個把「未來」帶到我們「現在」生活的領航員。今天就來簡單聊聊它能為我們做什麼吧!🌿 1. OpenAI 是誰? 🤔 簡單說,它是目前全球最頂尖的人工智慧研究實驗
Thumbnail
OpenAI 創辦人奧特曼(Sam Altman)在《The Gentle Singularity》認為,AGI 正在形成、智慧變得不再稀缺,我們即將迎來生產力大爆炸的時代。但真的這麼溫柔(gentle)嗎?本篇文章結合《控制邊緣》、AI 2027 及當 AI 學會說謊,思考人類如何尋找一線生機。
Thumbnail
OpenAI 創辦人奧特曼(Sam Altman)在《The Gentle Singularity》認為,AGI 正在形成、智慧變得不再稀缺,我們即將迎來生產力大爆炸的時代。但真的這麼溫柔(gentle)嗎?本篇文章結合《控制邊緣》、AI 2027 及當 AI 學會說謊,思考人類如何尋找一線生機。
Thumbnail
過去,我們擔心的是「數位落差」,但今天,我們擔心的是「AI 落差」。AI 發展至今,已經不是誰不知道 AI,而是你會不會用,面對快速變化的適應力與韌性。本文綜合 2025 AI 人才高峰會中,Google 台灣前董事總經理簡立峰、均一平台教育基金會董事長呂冠緯等講者觀點,回顧幾個關鍵問題...
Thumbnail
過去,我們擔心的是「數位落差」,但今天,我們擔心的是「AI 落差」。AI 發展至今,已經不是誰不知道 AI,而是你會不會用,面對快速變化的適應力與韌性。本文綜合 2025 AI 人才高峰會中,Google 台灣前董事總經理簡立峰、均一平台教育基金會董事長呂冠緯等講者觀點,回顧幾個關鍵問題...
Thumbnail
很多時候我們會覺得,台灣之所以被全世界關注,是因為台積電的先進製程。但真正撐起這座「天選矽島」的,是遍佈全島、無所不在的 ICT 產業生態系。本文探討美中科技戰、供應鏈去中化對臺灣的影響,並分析臺灣、美國、中國、日本、韓國等國家的產業定位和戰略選擇。
Thumbnail
很多時候我們會覺得,台灣之所以被全世界關注,是因為台積電的先進製程。但真正撐起這座「天選矽島」的,是遍佈全島、無所不在的 ICT 產業生態系。本文探討美中科技戰、供應鏈去中化對臺灣的影響,並分析臺灣、美國、中國、日本、韓國等國家的產業定位和戰略選擇。
Thumbnail
曾經是中國互聯網巨頭 BAT 市值第一、中國最大搜尋引擎的百度,如今市值卻跌至其他兩間公司的不到十分之一。近年來,百度加大對 AI(文心一言、阿波羅)和自駕車技術(蘿蔔快跑)的投入,積極轉型為「AI 公司」。面對阿里巴巴和騰訊等強大對手的挑戰,百度如何在 AI 時代重新站穩腳跟,甚至逆勢崛起?
Thumbnail
曾經是中國互聯網巨頭 BAT 市值第一、中國最大搜尋引擎的百度,如今市值卻跌至其他兩間公司的不到十分之一。近年來,百度加大對 AI(文心一言、阿波羅)和自駕車技術(蘿蔔快跑)的投入,積極轉型為「AI 公司」。面對阿里巴巴和騰訊等強大對手的挑戰,百度如何在 AI 時代重新站穩腳跟,甚至逆勢崛起?
Thumbnail
本文探討 OpenAI 執行長山姆·奧特曼的崛起之路,以及他和伊隆·馬斯克的合作與決裂。從奧特曼的童年經歷、創業歷程,到 OpenAI 的創立、轉型以及與微軟的合作,探討了 AI 發展的潛力和風險,以及對人類未來的影響。
Thumbnail
本文探討 OpenAI 執行長山姆·奧特曼的崛起之路,以及他和伊隆·馬斯克的合作與決裂。從奧特曼的童年經歷、創業歷程,到 OpenAI 的創立、轉型以及與微軟的合作,探討了 AI 發展的潛力和風險,以及對人類未來的影響。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News