預計訓練7B模型使用2張RTX-5090

JH Young

發佈於滴咕雞

2026/03/04 更新2026/03/04 發佈閱讀 6 分鐘

兩張 RTX 5090（每張擁有 32GB GDDR7 顯存與 Blackwell 架構）是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train（預訓練），這個配置非常理想，甚至可以說是非常奢侈。

在 2026 年的技術標準下，針對此硬體與 7B 模型，以下是最佳實踐指南：

1. 記憶體預算分析 (7B Model @ 2x 5090)

一個 7B 模型在預訓練（混合精度 BF16）時的顯存佔用大致如下：

模型參數：

梯度 (Gradients)：

優化器狀態 (Adam Optimizer)：

(這是最大的負擔)

總計：約 112 GB。

結論：兩張 5090 共有 64GB 顯存，無法直接塞下所有狀態。因此，必須使用 DeepSpeed ZeRO-2 或 ZeRO-3，並配合 CPU Offload。

2. 核心技術組合建議

DeepSpeed: ZeRO-2 + Offload (首選)

由於 5090 的單卡顯存（32GB）大於模型參數+梯度的總和（約 28GB），建議使用 ZeRO-2。

優勢：將 84GB 的優化器狀態切分並放一部分到系統記憶體（RAM）中。這比 ZeRO-3 快，因為模型參數不需要在每層運算時重新廣播。
硬體要求：建議您的系統 RAM 至少配備 128GB。

Liger Kernel: 必開

針對 5090 的 Blackwell 架構，Liger Kernel 的 FusedLinearCrossEntropy 非常關鍵。

作用：預訓練時詞表（Vocabulary）很大，這一層非常耗顯存。Liger Kernel 可以把這部分的顯存佔用降低 60% 以上，讓您能使用更大的 Micro Batch Size，從而提高訓練效率。

Flash Attention 3

5090 支援第五代 Tensor Cores，務必使用 Flash Attention 3。

作用：針對 Blackwell 架構優化，能極大化利用這張卡的 FP8/BF16 計算能力，尤其在處理長文本序列時，速度優勢極其明顯。

3. 推薦的 DeepSpeed 配置文件 (JSON)

這是一個針對「2x RTX 5090 + 7B Model」量身打造的配置參考：

</>JSON
{
  "train_micro_batch_size_per_gpu": 4,
  "gradient_accumulation_steps": 8,
  "bf16": {
    "enabled": true
  },
  "zero_optimization": {
    "stage": 2,
    "offload_optimizer": {
      "device": "cpu",
      "pin_memory": true
    },
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "overlap_comm": true,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "contiguous_gradients": true
  },
  "gradient_clipping": 1.0,
  "steps_per_print": 10
}

4. 實作代碼片段 (整合 Liger Kernel)

在訓練腳本開頭，加入以下代碼即可自動優化所有 Llama 或類似結構的層：

</>Python
from liger_kernel.transformers import apply_liger_kernel_to_llama
import transformers

# 在載入模型前調用，自動替換優化算子
apply_liger_kernel_to_llama()

# 正常載入模型
model = transformers.AutoModelForCausalLM.from_pretrained("your-base-config")

5. 特別提醒

散熱與電源： RTX 5090 的功耗（TDP）高達 575W，兩張卡加上 CPU，整機滿載會逼近 1500W-1600W。請務必確認電源供應器（PSU）至少有 1600W (80+ Platinum) 以上，且機殼通風良好。
PCIe 頻寬： 5090 雖然沒有 NVLink，但支援 PCIe Gen 5。請確保主機板支援兩條 PCIe 5.0 x16（或至少 x8/x8），否則在 DeepSpeed 交換梯度時會遇到嚴重瓶頸。

留言

sirius數字沙龍

18會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

⚔️ 從頭開始進行預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現，更是對硬體資源與數據處理能力的極致考驗。既然目標是 Pre-train，這意味著您需要處理海量的 Token（通常以 Trillion 為單位）以及極長的時間。

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

在訓練大語言模型（LLM）時，記憶體（VRAM）不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術：DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用，而 Quantization 則負責把模型「壓扁」以節省空間。

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

2026/03/03

如何使用多張顯卡訓練LLM？

⭐使用多張顯卡（Multi-GPU）訓練大語言模型（LLM）已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億（Billion），單張顯卡的顯存（VRAM）往往無法容納完整的模型與訓練數據，因此我們需要透過[並行運算（Parallelism）]來解決。

2026/03/03

如何使用多張顯卡訓練LLM？

看更多

你可能也想看

迷茫人生的沙龍

NVIDIA GB300 GPU深度解析：chiplet架構、HBM3e與NVLink的系統級挑戰

NVIDIA 的 GB300 GPU 作為 H100 的繼任者，採用創新的 chiplet 架構，帶來效能與設計上的重大變革。本文深入探討其 chiplet 結構、HBM3e 記憶體、NVLink 第四代互連設計等核心技術，並分析其對伺服器主板設計與系統整合帶來的挑戰與影響。

#人工智慧#ChatGPT#數學

2025/04/01

迷茫人生的沙龍

NVIDIA GB300 GPU深度解析：chiplet架構、HBM3e與NVLink的系統級挑戰

#人工智慧#ChatGPT#數學

2025/04/01

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

理性分析;感性生活

在AI浪潮下，記憶體需求如「無底洞」：群聯潘董揭示5個顛覆你想像的產業真相

在今年8月，群聯潘董率先喊出Flash將因AI需求而缺貨，事實證明他是這波浪潮的先知，11/22年代新聞有專訪潘董，整段影片看完，收穫良多，更加堅定續抱美光和Kioxia的決心。

#群聯#Flash#雲端

2025/11/23

理性分析;感性生活

在AI浪潮下，記憶體需求如「無底洞」：群聯潘董揭示5個顛覆你想像的產業真相

#群聯#Flash#雲端

2025/11/23

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

Ai股票研究室

全球張量處理單元 (TPU) 供應鏈深度調查報告：架構革命、市場格局與地緣政治下的戰略佈局

傳統的CPU雖然具備極高的指令集通用性，但在處理大規模矩陣運算時受限於記憶體牆瓶頸；而GPU雖具備強大的並行計算能力，但其原始設計並非專門針對深度學習。在這種背景下，TPU作為一種特定領域架構應運而生，標誌著計算架構從通用化向極致專業化的跨越。

#研究報告#2026年#TPU

2026/02/25

Ai股票研究室

全球張量處理單元 (TPU) 供應鏈深度調查報告：架構革命、市場格局與地緣政治下的戰略佈局

#研究報告#2026年#TPU

2026/02/25

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

豐譽投資－族群脈動分析

2025/10/7 AMD與OpenAI將共同建立人工智慧基礎設施，帶動相關供應鏈；比特幣BTC再創歷史新高。

台股今 (3) 日在台積電衝上 1400 元新天價下，收盤大漲 382.67 點，趕在中秋連假前同步收在歷史新高 26761.06 點，成交金額 4630.9 億元；本周 4 個交易日台股上漲 1180 點或 4.6%。

#記憶體#被動元件#NAND

2025/10/07

豐譽投資－族群脈動分析

2025/10/7 AMD與OpenAI將共同建立人工智慧基礎設施，帶動相關供應鏈；比特幣BTC再創歷史新高。

#記憶體#被動元件#NAND

2025/10/07

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News