Google 發佈了號稱最強的離線翻譯AI模型 translate Gemma. 來個4B版本實測

更新 發佈閱讀 9 分鐘

在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。

以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少時間。

vocus|新世代的創作平台


這款模型是基於 Google 最新的 Gemma 3 架構開發的,專門為翻譯任務進行了深度優化。以下是關於它「最強離線手機運行」賣點的詳細重點:

核心規格與版本

TranslateGemma 提供三種不同大小的版本,以適應不同的硬體環境:

  • 4B (40 億參數): 這是專為手機與邊緣設備設計的版本,旨在實現高效的裝置端(On-device)離線運行。
  • 12B (120 億參數): 適合在消費級筆記型電腦上本地運行。
  • 27B (270 億參數): 針對雲端或高效能工作站設計,追求最高的翻譯準確度。


TranslateGemma 的三大賣點

  • 手機端高效離線運行: 這是它最大的突破。
    4B 版本透過「蒸餾(Distillation)」技術,將強大的 Gemini 模型翻譯能力濃縮進較小的體積中。這讓它在不需要網路連線的情況下,依然能在手機上提供接近雲端等級的翻譯品質,對於隱私保護和出國旅遊(無網路環境)非常實用。
  • 多模態翻譯能力: 由於繼承了 Gemma 3 的基因,TranslateGemma 不僅能翻譯文字,還具備理解圖像的能力。這意味著它可以直接翻譯照片中的標牌、菜單或螢幕截圖中的文字,且準確率比以往的輕量化模型大幅提升。
  • 支援 55 種核心語言: 它在 WMT24++ 等國際評測標準中表現優異,涵蓋了 55 種核心語言。官方數據顯示,12B 版本的翻譯品質甚至在某些測試中超越了兩倍體積的舊版模型。


開源與應用

目前 TranslateGemma 的模型權重已在 Hugging Face 和 Kaggle 上開放下載。這意味著開發者可以將這套強大的離線翻譯功能整合進自己的手機 App 中,而不需要支付昂貴的雲端 API 費用。

以下就來實際測試下辨識圖片文字或翻譯文字的效果: (go.py)

from transformers import pipeline
import torch

# 替換為您的實際 Token
my_hf_token = "hf_QNXXXXXXXXXXXX"

# 載入 TranslateGemma 模型
pipe = pipeline(
"image-text-to-text",
model="google/translategemma-4b-it",
device="cuda",
dtype=torch.bfloat16,
token=my_hf_token # 關鍵:在此加入 token
)

# ---- 任務一:純文字翻譯 (英文 ➔ 繁體中文) ----
text_messages = [
{
"role": "user",
"content": [
{
"type": "text",
"source_lang_code": "en-US",
"target_lang_code": "zh-Hant",
"text": "The rapid development of on-device AI is changing how we interact with technology.",
}
],
}
]

text_output = pipe(text=text_messages, max_new_tokens=200)
print("--- 文字翻譯結果 ---")
print(text_output[0]["generated_text"][-1]["content"])

# ---- 任務二:視覺翻譯 (繁體中文圖片 ➔ 英文) ----
# 這裡以一張包含中文招牌或標示的圖片為例
image_messages = [ { "role": "user",
"content": [ { "type": "image",
"source_lang_code": "zh-Hant",
"target_lang_code": "en-US",
# 這裡可以替換成任何含有中文文字的圖片網址或本地路徑
"url": "https://c7.alamy.com/comp/2YAX36N/traffic-signs-in-czech-republic-pedestrian-zone-2YAX36N.jpg",
},
],
}
]

image_output = pipe(text=image_messages, max_new_tokens=200)
print("\n--- 圖片翻譯結果 ---")
print(image_output[0]["generated_text"][-1]["content"])

關鍵修改說明:

  • 語言代碼 (Language Codes)
    • zh-Hant:代表繁體中文(Traditional Chinese)。
    • en-US:代表美式英文(English)。
    • 如果您想翻譯成簡體中文,請使用 zh-Hans。
  • 設備適配
    • 如果您是在一般的筆記型電腦上運行且沒有 NVIDIA GPU,請將 device="cuda" 改為 device="cpu"(但速度會慢許多)。
  • 視覺翻譯的應用
    • 在第二個例子中,模型會識別圖片中的「當心行人」或類似標誌,並直接將其轉譯成英文。這在開發離線翻譯 App 時非常強大,因為不再需要額外的 OCR 模組。

shell command> python go.py

如出現以下訊息:

Cannot access gated repo for url https://huggingface.co/google/translategemma-4b-it/resolve/main/config.json.
Access to model google/translategemma-4b-it is restricted. You must have access to it and be authenticated to access it. Please log in.

遇到這個錯誤是因為 Google 的 Gemma 系列模型(包括 TranslateGemma)屬於 Gated Models(受限模型)。這意味著你必須先在 Hugging Face 官網上手動同意其使用條款,並在程式碼中進行身分驗證,才能下載模型權重。

請按照以下二個步驟解決此問題:

第一步:在 Hugging Face 官網獲取權限

  1. 登入您的 Hugging Face 帳號。
  2. 前往 google/translategemma-4b-it 頁面。
  3. 您會看到一個申請表格(通常需要提供姓名、電子郵件和用途),填寫完成後點擊 "Accept License""Acknowledge"
    • 註:Google 通常會即時自動批准這些申請。

第二步:建立 Access Token

  1. 點擊頁面右上角的頭像,選擇 Settings
  2. 點擊左側欄的 Access Tokens
  3. 點擊 Create new token,類型選擇 Read,並給它一個名稱(例如 "Gemma-Access")。
  4. 複製這個 Token(以 hf_ 開頭)。
vocus|新世代的創作平台
vocus|新世代的創作平台


留言
avatar-img
Hank吳的沙龍
17會員
161內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2026/01/16
在 2026 年1月,Gmail 與 Gemini 3 的整合已經進入全面應用階段。這項更新不僅提升了處理速度(主要歸功於 Gemini 3 Flash 的低延遲),更引入了「Agentic AI(代理型 AI)」的概念,讓 Gmail 從單純的收發工具轉變為個人辦公助手。
Thumbnail
2026/01/16
在 2026 年1月,Gmail 與 Gemini 3 的整合已經進入全面應用階段。這項更新不僅提升了處理速度(主要歸功於 Gemini 3 Flash 的低延遲),更引入了「Agentic AI(代理型 AI)」的概念,讓 Gmail 從單純的收發工具轉變為個人辦公助手。
Thumbnail
2026/01/14
以下是相關言論發表的詳細背景與管道: 1. 發表時間與主要管道 發表時間: 2026 年 1 月 11 日至 1 月 14 日(近期)。 首發管道: 貝瑞在其個人的 Substack(付費電子報平台)以及 X(原 Twitter) 上發布了一系列針對 AI 泡沫與特定公司的深度分析。
Thumbnail
2026/01/14
以下是相關言論發表的詳細背景與管道: 1. 發表時間與主要管道 發表時間: 2026 年 1 月 11 日至 1 月 14 日(近期)。 首發管道: 貝瑞在其個人的 Substack(付費電子報平台)以及 X(原 Twitter) 上發布了一系列針對 AI 泡沫與特定公司的深度分析。
Thumbnail
2026/01/13
「黃金標普比」是指「標普500指數與黃金比率」(S&P 500 to Gold Ratio)。 這是一個總體經濟指標,用來觀察「風險資產(股票)」與「避險資產(黃金)」之間的相對強弱關係。 它能幫助投資人判斷目前的市場情緒是偏向「貪婪(看好經濟)」還是「恐懼(擔憂崩盤或通膨)」。
Thumbnail
2026/01/13
「黃金標普比」是指「標普500指數與黃金比率」(S&P 500 to Gold Ratio)。 這是一個總體經濟指標,用來觀察「風險資產(股票)」與「避險資產(黃金)」之間的相對強弱關係。 它能幫助投資人判斷目前的市場情緒是偏向「貪婪(看好經濟)」還是「恐懼(擔憂崩盤或通膨)」。
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
這篇文章分享使用「沉浸式翻譯」工具的心得,包含其五個主要功能:一鍵翻譯、雙語對照、PDF 文件翻譯、輸入框翻譯和影片雙語字幕,並深入介紹如何連接 OpenAI API 以提升翻譯品質,比較 Google 翻譯和 OpenAI API 翻譯結果的差異。
Thumbnail
這篇文章分享使用「沉浸式翻譯」工具的心得,包含其五個主要功能:一鍵翻譯、雙語對照、PDF 文件翻譯、輸入框翻譯和影片雙語字幕,並深入介紹如何連接 OpenAI API 以提升翻譯品質,比較 Google 翻譯和 OpenAI API 翻譯結果的差異。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 翻譯 (https://translate.google.com/) 提供了一個隨時可用的官方翻譯介面,Google 在其翻譯演算法中也擁有 Transf
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 翻譯 (https://translate.google.com/) 提供了一個隨時可用的官方翻譯介面,Google 在其翻譯演算法中也擁有 Transf
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
出國旅遊、國際會議、看外語影片時,語言障礙總是最大的困擾。Google 最新推出的 Translate 應用實時翻譯功能,現已支援超過 70 種語言,而且不限於特定耳機型號,任何配備麥克風的耳機都能使用。
Thumbnail
出國旅遊、國際會議、看外語影片時,語言障礙總是最大的困擾。Google 最新推出的 Translate 應用實時翻譯功能,現已支援超過 70 種語言,而且不限於特定耳機型號,任何配備麥克風的耳機都能使用。
Thumbnail
福壽(股票代號1219) 1. 今年Q1~Q3,營業活動現金流為負數;但如果拆單季來看,Q3稅後淨利雖然為-0.34億元,但因為存貨降低,所以Q3的營業活動現金流為6.88億元。 2. 福壽的融資餘額偏高,但如果量衝高,融資餘額也就不高了。 3. 福壽的營收成長比例,與獲利成長的比例異常。 4. 1
Thumbnail
福壽(股票代號1219) 1. 今年Q1~Q3,營業活動現金流為負數;但如果拆單季來看,Q3稅後淨利雖然為-0.34億元,但因為存貨降低,所以Q3的營業活動現金流為6.88億元。 2. 福壽的融資餘額偏高,但如果量衝高,融資餘額也就不高了。 3. 福壽的營收成長比例,與獲利成長的比例異常。 4. 1
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
應該不少人發現,在使用網頁版Google翻譯的時候,就算系統或是瀏覽器選的是繁體中文,但依然還是會自動跳到簡體翻譯的情況吧?
Thumbnail
應該不少人發現,在使用網頁版Google翻譯的時候,就算系統或是瀏覽器選的是繁體中文,但依然還是會自動跳到簡體翻譯的情況吧?
Thumbnail
Google 在 2025 年 12 月推出多項 AI 更新,包括 Gemini 3 Flash 上線、影片真偽驗證、GenTabs 分頁整理、即時語音翻譯、Deep Research 研究 Agent 開放,以及 Search、YouTube、Photos Recap 的個人化強化。
Thumbnail
Google 在 2025 年 12 月推出多項 AI 更新,包括 Gemini 3 Flash 上線、影片真偽驗證、GenTabs 分頁整理、即時語音翻譯、Deep Research 研究 Agent 開放,以及 Search、YouTube、Photos Recap 的個人化強化。
Thumbnail
免費使用Google Gemini API並有效應用其功能,需透過以下步驟與場景實現: 免費獲取Gemini API金鑰 1. 透過Google AI Studio申請 登入Google帳號後,前往Google AI Studio [https://ai.google.dev/]或Make
Thumbnail
免費使用Google Gemini API並有效應用其功能,需透過以下步驟與場景實現: 免費獲取Gemini API金鑰 1. 透過Google AI Studio申請 登入Google帳號後,前往Google AI Studio [https://ai.google.dev/]或Make
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News