預計訓練7B模型使用2張RTX-5090

更新 發佈閱讀 6 分鐘

兩張 RTX 5090(每張擁有 32GB GDDR7 顯存與 Blackwell 架構)是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train(預訓練),這個配置非常理想,甚至可以說是非常奢侈。

在 2026 年的技術標準下,針對此硬體與 7B 模型,以下是最佳實踐指南:


1. 記憶體預算分析 (7B Model @ 2x 5090)

一個 7B 模型在預訓練(混合精度 BF16)時的顯存佔用大致如下:

  • 模型參數:
vocus|新世代的創作平台
  • 梯度 (Gradients):
vocus|新世代的創作平台
  • 優化器狀態 (Adam Optimizer):
vocus|新世代的創作平台

(這是最大的負擔)

  • 總計: 約 112 GB。

結論: 兩張 5090 共有 64GB 顯存,無法直接塞下所有狀態。因此,必須使用 DeepSpeed ZeRO-2 或 ZeRO-3,並配合 CPU Offload


2. 核心技術組合建議

DeepSpeed: ZeRO-2 + Offload (首選)

由於 5090 的單卡顯存(32GB)大於模型參數+梯度的總和(約 28GB),建議使用 ZeRO-2

  • 優勢: 將 84GB 的優化器狀態切分並放一部分到系統記憶體(RAM)中。這比 ZeRO-3 快,因為模型參數不需要在每層運算時重新廣播。
  • 硬體要求: 建議您的系統 RAM 至少配備 128GB。

Liger Kernel: 必開

針對 5090 的 Blackwell 架構,Liger Kernel 的 FusedLinearCrossEntropy 非常關鍵。

  • 作用: 預訓練時詞表(Vocabulary)很大,這一層非常耗顯存。Liger Kernel 可以把這部分的顯存佔用降低 60% 以上,讓您能使用更大的 Micro Batch Size,從而提高訓練效率。

Flash Attention 3

5090 支援第五代 Tensor Cores,務必使用 Flash Attention 3

  • 作用: 針對 Blackwell 架構優化,能極大化利用這張卡的 FP8/BF16 計算能力,尤其在處理長文本序列時,速度優勢極其明顯。

3. 推薦的 DeepSpeed 配置文件 (JSON)

這是一個針對「2x RTX 5090 + 7B Model」量身打造的配置參考:

</>JSON
{
"train_micro_batch_size_per_gpu": 4,
"gradient_accumulation_steps": 8,
"bf16": {
"enabled": true
},
"zero_optimization": {
"stage": 2,
"offload_optimizer": {
"device": "cpu",
"pin_memory": true
},
"allgather_partitions": true,
"allgather_bucket_size": 5e8,
"overlap_comm": true,
"reduce_scatter": true,
"reduce_bucket_size": 5e8,
"contiguous_gradients": true
},
"gradient_clipping": 1.0,
"steps_per_print": 10
}

4. 實作代碼片段 (整合 Liger Kernel)

在訓練腳本開頭,加入以下代碼即可自動優化所有 Llama 或類似結構的層:

</>Python
from liger_kernel.transformers import apply_liger_kernel_to_llama
import transformers

# 在載入模型前調用,自動替換優化算子
apply_liger_kernel_to_llama()

# 正常載入模型
model = transformers.AutoModelForCausalLM.from_pretrained("your-base-config")

5. 特別提醒

  1. 散熱與電源: RTX 5090 的功耗(TDP)高達 575W,兩張卡加上 CPU,整機滿載會逼近 1500W-1600W。請務必確認電源供應器(PSU)至少有 1600W (80+ Platinum) 以上,且機殼通風良好。
  2. PCIe 頻寬: 5090 雖然沒有 NVLink,但支援 PCIe Gen 5。請確保主機板支援兩條 PCIe 5.0 x16(或至少 x8/x8),否則在 DeepSpeed 交換梯度時會遇到嚴重瓶頸。
留言
avatar-img
sirius數字沙龍
18會員
422內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/04
⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現,更是對硬體資源與數據處理能力的極致考驗。 既然目標是 Pre-train,這意味著您需要處理海量的 Token(通常以 Trillion 為單位)以及極長的時間。
Thumbnail
2026/03/04
⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現,更是對硬體資源與數據處理能力的極致考驗。 既然目標是 Pre-train,這意味著您需要處理海量的 Token(通常以 Trillion 為單位)以及極長的時間。
Thumbnail
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
看更多
你可能也想看
Thumbnail
NVIDIA 的 GB300 GPU 作為 H100 的繼任者,採用創新的 chiplet 架構,帶來效能與設計上的重大變革。本文深入探討其 chiplet 結構、HBM3e 記憶體、NVLink 第四代互連設計等核心技術,並分析其對伺服器主板設計與系統整合帶來的挑戰與影響。
Thumbnail
NVIDIA 的 GB300 GPU 作為 H100 的繼任者,採用創新的 chiplet 架構,帶來效能與設計上的重大變革。本文深入探討其 chiplet 結構、HBM3e 記憶體、NVLink 第四代互連設計等核心技術,並分析其對伺服器主板設計與系統整合帶來的挑戰與影響。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
在今年8月,群聯潘董率先喊出Flash將因AI需求而缺貨,事實證明他是這波浪潮的先知,11/22年代新聞有專訪潘董,整段影片看完,收穫良多,更加堅定續抱美光和Kioxia的決心。
Thumbnail
在今年8月,群聯潘董率先喊出Flash將因AI需求而缺貨,事實證明他是這波浪潮的先知,11/22年代新聞有專訪潘董,整段影片看完,收穫良多,更加堅定續抱美光和Kioxia的決心。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
傳統的CPU雖然具備極高的指令集通用性,但在處理大規模矩陣運算時受限於記憶體牆瓶頸;而GPU雖具備強大的並行計算能力,但其原始設計並非專門針對深度學習。在這種背景下,TPU作為一種特定領域架構應運而生,標誌著計算架構從通用化向極致專業化的跨越 。
Thumbnail
傳統的CPU雖然具備極高的指令集通用性,但在處理大規模矩陣運算時受限於記憶體牆瓶頸;而GPU雖具備強大的並行計算能力,但其原始設計並非專門針對深度學習。在這種背景下,TPU作為一種特定領域架構應運而生,標誌著計算架構從通用化向極致專業化的跨越 。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
台股今 (3) 日在台積電衝上 1400 元新天價下,收盤大漲 382.67 點,趕在中秋連假前同步收在歷史新高 26761.06 點,成交金額 4630.9 億元;本周 4 個交易日台股上漲 1180 點或 4.6%。
Thumbnail
台股今 (3) 日在台積電衝上 1400 元新天價下,收盤大漲 382.67 點,趕在中秋連假前同步收在歷史新高 26761.06 點,成交金額 4630.9 億元;本周 4 個交易日台股上漲 1180 點或 4.6%。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News