128GB 的 ROG Flow Z13,該把記憶體怎麼分給本地 LLM?從 27B 到 70B 的實用配置思路

Josh-avatar-img
發佈於AI
更新 發佈閱讀 9 分鐘
vocus|新世代的創作平台

如果你手上的是 ASUS ROG Flow Z13 2025,搭配 Ryzen AI Max+ 395128GB LPDDR5X-8000 統一記憶體,那麼這台機器的特別之處,不只是「記憶體很多」,而是它本身就是一台為 本地生成式 AI大型語言模型 預留空間的行動平台。AMD 官方明確指出,Ryzen AI Max+ 395 在 128GB 統一記憶體配置下,最高可提供大量記憶體空間給 GPU 端使用,並將這個平台定位為可執行 70B 級 LLM 的行動裝置;而 ASUS 的 Flow Z13 也採用了相同的統一記憶體設計。

也因為如此,這台機器在本地跑 LLM 時,真正要思考的問題往往不是「有沒有 128GB」,而是 這 128GB 要怎麼分。因為 Flow Z13 並不是傳統獨顯筆電,它沒有固定不變的獨立 VRAM,而是由 CPU 與 Radeon 8060S 共用同一池系統記憶體。ASUS 官方甚至直接提供了調整機制,讓使用者可以依需求決定要預留多少記憶體給 iGPU 使用。

先理解一件事:你在調的不是「顯示卡容量」,而是工作模式

在 Flow Z13 上,ASUS 官方提供的調整方式很明確:你可以在 Armoury Crate → System Settings → Free up memory 中手動設定 iGPU 的記憶體配置。對 128GB 機型來說,可選值包含 0.5GB、1GB、2GB、4GB、8GB、16GB、32GB、64GB、96GB,另外也有 Auto 模式;其中預設值是 4GB

這裡最重要的一點是:預設值 4GB 並不適合本地大型語言模型。 4GB 比較像一般日常、輕度圖形或基本系統用途下的出廠設定,並不是為 27B、32B 甚至 70B 級模型準備的配置。ASUS 官方也特別提醒,雖然 Auto 模式會自動分配記憶體,但某些應用可能無法正確辨識,仍然可能跳出「可用顯示記憶體不足」之類的錯誤,因此若你的目的是跑本地 LLM,手動固定值通常比 Auto 更穩定

為什麼 27B 級模型會讓「記憶體分配」變成真正的重點?

如果你把本地 LLM 的需求聚焦到 27B 級 Dense 模型,事情就會變得很實際。以常見的 27B GGUF 量化版本來看,Q4_K_M 檔案大小大約是 17.13GBQ6_K23.08GB,而 Q8_0 則大約來到 28.67GB。這只是模型檔本體的體積,實際推理時還會加上 context、KV cache、runtime overhead,以及工具鏈本身吃掉的額外空間。

換句話說,雖然你看到的模型檔可能只有二十幾 GB,但在實際使用時,真正要給這個模型工作的空間並不只等於模型大小本身。這也是為什麼很多人看著 128GB 覺得「很大」,實際上卻仍然會遇到載入、切換模型、長上下文或多工時不夠穩定的情況。問題不在總容量,而在 你有沒有把足夠的記憶體預留給 GPU / LLM 端

如果你的主力是 27B,本質上就是在 32GB、64GB、96GB 三種模式之間做選擇

我認為,對 128GB 的 Flow Z13 來說,最實用的配置其實可以分成三種。

第一種:32GB,偏效率導向的工作模式

如果你的主要用途是 27B Q4_K_M,而且你平常不只是跑模型,還會同時開很多 IDE、瀏覽器分頁、Office、Teams 或其他背景工具,那麼 32GB 會是一個很務實的起點。因為 32GB 足以應付 Q4 等級的 27B 模型,同時也能把更多空間留給 Windows 與其他工作流程。對於重視多工與日常使用感的人來說,32GB 的好處是整體系統更寬鬆。ASUS 官方支援這個設定值,而 27B Q4 級量化檔案也確實落在這個配置可嘗試的範圍內。

不過,32GB 的限制也很明顯:一旦你從 Q4 升到 Q6_KQ8_0,或是把 context 拉長,32GB 很容易從「夠用」變成「偏緊」。如果你已經知道自己不只會跑單一模型,而是會來回切換、長時間互動,甚至跑 code assistant、agent 類工作流,那麼 32GB 很可能只是暫時的配置,而不是最後會留下來的主力模式。

第二種:64GB,最適合當主力配置的平衡點

如果你問我只能選一個最推薦的值,我會直接回答:64GB

理由很簡單。對 27B Q4、Q6、Q8 這類本地模型來說,64GB 幾乎是最好的平衡點。它不像 32GB 那樣容易在長上下文、模型切換或多工時顯得吃緊,也不像 96GB 那樣過度壓縮 Windows 與其他應用的活動空間。你可以把 64GB 理解成一種「日常 AI 主力模式」:夠大,夠穩,也不至於讓整台電腦只剩下 AI 可以用。ASUS 官方提供 64GB 這個檔位,而 27B 級量化模型的大小區間,也很適合用 64GB 作為實戰上的主力配置。

如果你平常要做的是 本地 coding assistant、Copilot 類工作流、長時間聊天、模型切換、Ollama 或 LM Studio 的日常使用,那麼 64GB 幾乎是最不容易出錯的選擇。它不是極限配置,但非常像真正能天天用的配置。對多數人來說,這也是最接近「設完就不用一直改」的答案。

第三種:96GB,重度 AI 或大模型衝刺模式

那麼 96GB 呢?它有沒有必要?

有,但前提是你真的知道自己在做什麼。ASUS 官方在 128GB 機型上允許手動把 iGPU 記憶體拉到 96GB,而 AMD 官方也直接把 128GB 統一記憶體平台描述為能夠支援 70B 級 LLM 的裝置。這代表 96GB 並不是一個沒有用途的選項,它的存在就是為了更大模型、更長 context,或更重度的 AI 實驗而準備。

但同時也要誠實地說,96GB 不適合作為日常常駐值。因為當你把 96GB 長期預留給 GPU / LLM 端後,Windows 與其他應用可自由使用的空間就會明顯縮小。這樣的配置比較像「今天我要把這台機器當成 AI 專用盒來測大模型」,而不是「我今天要一邊工作、一邊開發、還順便跑幾個工具」。所以,96GB 的最佳角色不是預設值,而是 大模型衝刺模式

如果你今天不想想太多,可以直接這樣分

如果你的目標很明確,就是想把這台 128GB 的 Flow Z13 變成一台 本地 LLM 主力機,那我會這樣建議:

平常工作、文書、多工、偶爾跑小模型時,使用 16GB 或 32GB。因為這樣能留給系統最多空間,整體操作體感最輕鬆,而 ASUS 官方也把這些值納入正式選項。

要進入 27B 級模型、程式碼助理、Agent 工作流、LM Studio 或 Ollama 的主要使用情境時,直接切到 64GB。這是最穩定、最實用,也最推薦作為主力模式的設定。

只有在你要挑戰 更大模型、70B 級量化、或更長上下文 時,再把它拉到 96GB。因為這時候你的目標已經不只是「日常使用」,而是「讓這台機器盡量接近 AI 專用平台」。

結論:對 128GB 的 Flow Z13 來說,最重要的不是容量,而是配置思維

很多人在看到 128GB 統一記憶體 時,第一個反應是「這樣應該什麼都能跑」。這句話其實只說對了一半。真正讓這台機器變強的,不只是它有 128GB,而是它允許你把這 128GB 依照工作型態重新分配。而本地 LLM,正是最能放大這種優勢的場景之一。ASUS 已經把這種調整能力做進官方工具中,AMD 也把 Ryzen AI Max+ 395 明確定位為可處理大型本地 AI 工作負載的平台。

如果你現在的重點是 27B 級本地模型,那麼最簡單也最實用的答案其實很清楚:

32GB 是效率模式,64GB 是主力模式,96GB 是衝刺模式。 你不需要把每一次設定都想得很複雜,只要先決定今天是要「工作」、要「穩定地跑 27B」,還是要「衝大模型」,接著切到對應模式就夠了。這也是 128GB Z13 與一般高階筆電最大的差異:它不是只有規格大,而是連使用策略本身都可以被你重新定義。


 

留言
avatar-img
Josh的沙龍
149會員
144內容數
分享知識
Josh的沙龍的其他內容
2026/04/17
深度解析 2026 年主流 AI 架構:傳統 Dense 與新興 MoE 的核心差異。本文結合 Gemma 4 與 Llama 4 等最新模型,探討其運作原理、推理效率與硬體需求,助您掌握大模型時代的技術選型與硬體配置關鍵。
Thumbnail
2026/04/17
深度解析 2026 年主流 AI 架構:傳統 Dense 與新興 MoE 的核心差異。本文結合 Gemma 4 與 Llama 4 等最新模型,探討其運作原理、推理效率與硬體需求,助您掌握大模型時代的技術選型與硬體配置關鍵。
Thumbnail
2026/04/17
在編寫 agent.md 時,若想保留指令但不讓 AI 執行,傳統註解可能失效。本文分享 HTML 註解、Internal Note 以及代碼塊隔離等三種實用技巧,幫助開發者精準控制 AI 行為,確保指令執行不失準。
Thumbnail
2026/04/17
在編寫 agent.md 時,若想保留指令但不讓 AI 執行,傳統註解可能失效。本文分享 HTML 註解、Internal Note 以及代碼塊隔離等三種實用技巧,幫助開發者精準控制 AI 行為,確保指令執行不失準。
Thumbnail
2026/04/15
想要打破本地模型的資料時效限制嗎?本文教你如何透過 MCP 協議,為 LM Studio 串接熱門搜尋引擎插件。只需簡單三步驟,即可讓 Llama 4 或 Qwen 3 等最新模型具備即時聯網能力,打造掌握全球資訊的個人 AI 助理。
Thumbnail
2026/04/15
想要打破本地模型的資料時效限制嗎?本文教你如何透過 MCP 協議,為 LM Studio 串接熱門搜尋引擎插件。只需簡單三步驟,即可讓 Llama 4 或 Qwen 3 等最新模型具備即時聯網能力,打造掌握全球資訊的個人 AI 助理。
Thumbnail
看更多
你可能也想看
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
我在我Substack上的電子報開設了一個新專題,分享自己由 0 開始學習 AI 開發的過程,例如 RAG、AI Agent,有興趣可以訂閱我的電子報。
Thumbnail
我在我Substack上的電子報開設了一個新專題,分享自己由 0 開始學習 AI 開發的過程,例如 RAG、AI Agent,有興趣可以訂閱我的電子報。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
本文介紹瞭如何在 Raspberry Pi 上建置 AI 專案,例如能夠評估穿搭的智慧魔鏡,以及能與你進行長期記憶對話的桌上型 AI 電子雞。這些專案強調 AI 的實體化與本地運算,讓 AI 更貼近生活,同時保護使用者隱私。
Thumbnail
本文介紹瞭如何在 Raspberry Pi 上建置 AI 專案,例如能夠評估穿搭的智慧魔鏡,以及能與你進行長期記憶對話的桌上型 AI 電子雞。這些專案強調 AI 的實體化與本地運算,讓 AI 更貼近生活,同時保護使用者隱私。
Thumbnail
人工智慧(AI)近年快速發展,其中 LLM(大型語言模型) 成為生成式 AI 的核心技術,廣泛應用於聊天機器人、AI 寫作與程式輔助工具。 本文將介紹 LLM 是什麼與運作原理,並比較 雲端 AI 與本地 AI 的差異與優缺點,幫助新手快速理解大型語言模型與 AI 技術趨勢。
Thumbnail
人工智慧(AI)近年快速發展,其中 LLM(大型語言模型) 成為生成式 AI 的核心技術,廣泛應用於聊天機器人、AI 寫作與程式輔助工具。 本文將介紹 LLM 是什麼與運作原理,並比較 雲端 AI 與本地 AI 的差異與優缺點,幫助新手快速理解大型語言模型與 AI 技術趨勢。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
Ollama 是一款允許你在本地電腦運行大型語言模型 (LLM) 的工具,無需網路連線,保護你的機密資料安全。本文提供 Ollama 的下載、安裝、模型選擇、Turbo 模式說明及相關資源連結,並針對不同電腦規格推薦合適的模型。
Thumbnail
Ollama 是一款允許你在本地電腦運行大型語言模型 (LLM) 的工具,無需網路連線,保護你的機密資料安全。本文提供 Ollama 的下載、安裝、模型選擇、Turbo 模式說明及相關資源連結,並針對不同電腦規格推薦合適的模型。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News