Google Gemma-4 本地部署：開源模型引領社群實踐，避坑指南與工具鏈解析

2026/05/10 更新2026/05/10 發佈閱讀 7 分鐘

Google 開源了模型，社群才把它做成產品。2,546 名開發者幫你踩完坑，附完整工具鏈與硬體避坑指南。

引言

我有個習慣：每次 HN（Hacker News）出現高分帖子，我不先看內文，我先去找評論區裡那些已經動手試過的人。

四月初，「Gemma-4 竟然能在 iPhone 上跑了」衝到 868 點（HN 的 upvote 數，代表有多少人認為這篇值得討論），我點進評論，一口氣讀了一個多小時。接下來一個月，又有四篇高分 Gemma-4 帖子陸續冒出——本地工作站、多 token 加速、Codex CLI 開發實戰。我全部讀完，做了筆記。

合計：2,546 點，五篇，三十天（HN 一般熱門帖約 100–400 點，單篇破 500 點已屬罕見）。

這不是模型評測，也不是 Google 的行銷文案。這是幾千個工程師在自問一件事：「這個模型，到底能不能進我的真實工作流程？」他們用投票給出了答案——這篇文章是我整理出來的，讓你不用重複踩他們踩過的坑。

社群拼出的工具鏈與兩個加速技巧

讀這五篇帖子的時候，有一件事讓我有點好笑：沒有人在問 MMLU（Massive Multitask Language Understanding）幾分。

工程師們問的是「能不能一行指令搞定」。他們不在意 Gemma-4 「多聰明」，只在意「能不能融入我今天的工作」。這個差距，比任何基準測試都更能說明本地 AI 走到了哪個階段。

然後在 407 pts的帖子裡，我看到了答案。Gemma-4 的本地工作流程不是 Google 設計的——是幾個工程師在評論區東拼西湊試出來的：有人貼了 LM Studio 的 headless 啟動方式，有人說可以直接把 Claude Code 接上去當前端，另一個人試了之後回覆「一行就搞定」：

ollama launch claude --model gemma4:26b

LM Studio headless CLI 啟動推理服務，Claude Code 或 Codex CLI 當前端，完整本地工作站就位。這套組合同時用到了 Google 和 Anthropic 的產品，但兩家公司都沒有設計這個組合。是社群自己找路走的。

讀完工具鏈，有兩個技巧讓我覺得特別值得記下來：

技巧一：用 26B MoE（Mixture of Experts，混合專家架構）替 31B 做 speculative decoding（推測解碼）。原理是：讓小模型先快速產出一段文字草稿，再交給大模型一次性審核——關鍵在於「審核」比「逐字生成」快得多。接受率超過 70% 時，等於七成的文字由小模型包辦，大模型只負責把關，速度大幅提升。

有人在帖子裡說了一句我覺得是這五篇裡最誠實的話：「這是第一個讓我覺得本地模型真的能完成工作的組合——我在用它學 Rust。」

Rust 是一個以難學著稱的程式語言，不是用來跑個 Hello World 的那種。他說「在用它學 Rust」，意思是：這套工具鏈已經進了他的真實學習流程，不是在跑測試。不是「看起來不錯」，是「我每天都在靠這個」。差很多。

技巧二：一個即將讓速度感受完全不同的升級——多 token 預測（MTP）。正常情況下模型每次只輸出一個字詞，MTP 讓它同時輸出好幾個，像打字時大腦直接跳過中間步驟、整段話一起往前走。有人說改善的感覺是「從撥號網路升到寬頻」——還是比不上雲端模型，但你會第一次感覺到「這個速度，我可以接受」。

這個功能正在被加進 llama.cpp——大多數本地 AI 工具（包括 LM Studio）的底層引擎。一旦合入，你不需要做任何事，自動受益。之前因為速度問題選了其他模型放棄 Gemma 的人，到時候值得再試一次。

硬體與平台：兩個坑要在下手前知道

如果你正在猶豫要買哪台 Mac 來跑本地模型，先停下來把這件事記住：

MoE 不省 VRAM（Video RAM，顯示記憶體）。

Gemma-4 26B MoE 雖然叫「26B」，但模型推理時所有權重仍需完整載入記憶體，實際 VRAM 需求接近 31B。帖子裡出現了不只一次這句話：「我本來打算買低記憶體的 Mac，現在知道要往上調。」這個誤解的代價不是小錢——是幾萬元的配置差距。

選購原則很簡單：跑 26B MoE，記憶體至少 36GB，64GB 更穩；跑 31B，直接看 64GB。

另一個坑在平台政策，不在技術。

如果你在想「能不能把本地 LLM 包進 iOS app 發布」——截至 2026 年 5 月，答案可能是不行。App Store 2.5.2 條款正在擋含本地 LLM 的第三方 app 上架，已經有開發者明說撞牆了。Google AI Edge Gallery 自己的 app 目前還能下載，但那是 Google 的特例，不是你的特例。Android 限制相對寬鬆，可以透過 AI Core 或 llama.cpp 繞過去。

如果你有這個計畫，先把這個風險評估進來，再開始動工。

為了幫大家節省翻閱數千則評論的時間，我將社群公認的最強工具組合與硬體配置建議整理成下圖。如果你正準備下單硬體或建置環境，請務必以此圖為最後檢查清單。

我的觀察

讀完這五篇，我腦子裡有一個問題一直繞著：Google 在打什麼算盤？

他們開源了 Gemma-4，模型免費，但沒有積極推自家的 Vertex AI 雲端推理服務。開源但不賣雲端——這個邏輯說不通，帖子裡也有人反覆在問同樣的問題。我沒有答案，但我覺得這件事本身就是一個信號：本地 AI 已經強到讓雲端廠商不敢硬推雲端了。

這就是為什麼社群跑得比官方快。工程師不等 Google 出教學，自己東拼西湊出了工具鏈；Apple 那扇門關著，就先從 Android 那扇開著的門進去；不等 llama.cpp 正式支援 MTP，已經在評論區提前測了。

真正值得追蹤的信號不是 Gemma-4 的 MMLU 分數，而是：工具鏈在收斂。LM Studio + Claude Code / Codex CLI 這套組合，是幾千個工程師用投票選出來的事實標準——不是任何公司設計的，是集體的集體決定。這種收斂，通常是下一波爆發的前兆。

如果你有 36GB 以上的 Mac，這週就能試。 先跑 ollama launch claude --model gemma4:26b，工具鏈五分鐘內就位。從 26B MoE 開始，確認工作流程跑通，再考慮要不要升 31B。社群已經幫你踩完坑了——你現在需要的只是動手。

留言

Slow Signals的沙龍

0會員

3內容數

Slow Signals | 捕捉 AI 浪潮中的真實信號 Too much noise. Not enough signal. 每週精選 AI 工具與科技趨勢，幫你過濾雜訊、找到真正值得關注的訊號。寫給想用 AI 做更多事、卻不想每天追新聞的人。

你可能也想看

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

#釀電影#釀評論#藝術評論

2026/02/28

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

TN科技筆記(TechNotes)的沙龍

Sora 2 登場，被譽為「影片界的 GPT-3.5 時刻」：與 Veo 3、Kling、Runway 的對決

AI 影片生成領域的競爭，正以前所未有的速度升溫。過去，我們驚嘆於靜態圖片的生成，如今，高品質、具備物理真實感、甚至能同步生成聲音的動態影片，正走向我們的生活。2025 年 9 月 30 日，OpenAI 正式發表了其最新的影片生成模型 Sora 2，更被其內部譽為「影片界的 GPT-3.5 時刻」

#科技#人工智慧#科技公司

2025/10/01