從頭開始進行預訓練LLM（Pre-train）

JH Young

發佈於滴咕雞

2026/03/04 更新2026/03/04 發佈閱讀 4 分鐘

⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現，更是對硬體資源與數據處理能力的極致考驗。

既然目標是 Pre-train，這意味著您需要處理海量的 Token（通常以 Trillion 為單位）以及極長的時間。在這種情況下，上述技術的配置優先順序會與微調（Fine-tuning）截然不同。💡

1. 預訓練的核心架構佈局

🧮 在預訓練中，您的目標是極大化 MFU (Model Flops Utilization)，也就是讓 GPU 的運算單元盡可能保持滿載，而不是在等待數據傳輸。

DeepSpeed 的核心作用：ZeRO-3 + ZeRO-Offload

🔥 對於預訓練，DeepSpeed 不僅僅是節省顯存，它提供的 ZeRO-3 可以將模型參數、梯度和優化器狀態（Optimizer States）均勻分佈在所有 GPU 上。

關鍵點： 預訓練通常使用 Adam 優化器，它佔用的顯存是模型參數的數倍。ZeRO 技術能讓你訓練比單卡顯存大得多的模型。

Flash Attention 2/3：長文本的關鍵

目前的 LLM 趨勢是訓練 8k、32k 甚至 128k 的上下文（Context Window）。

優勢： 如果沒有 Flash Attention，長文本的記憶體消耗會呈指數增長。它能確保您在增加序列長度時，計算量依然保持在可控範圍內。

2. Liger Kernel：預訓練的「隱形英雄」

👉 在預訓練中，Liger Kernel 的價值被放到了最大。

Cross Entropy Loss 優化： 預訓練的最後一層通常是巨大的詞表（Vocab Size，如 128k）。計算 Cross Entropy 時會產生極大的中間張量。Liger Kernel 對此進行了融合優化，能省下大量的顯存，讓你增加 Batch Size。
吞吐量（Throughput）： 預訓練往往持續數週甚至數月，Liger Kernel 提供的 20% 速度提升，直接等同於節省了 20% 的算力成本。

3. 預訓練中的 Quantization (量化)

❌ 注意：預訓練通常「不」直接在量化後的權重上進行。

BF16 (Bfloat16) 是標配： 為了保持數值穩定性並防止梯度消失，預訓練通常使用 BF16 混合精度。
量化的角色： 在預訓練中，量化更多是用於 通信壓縮（例如壓縮 GPU 之間傳遞的梯度），或者是為了在有限顯存下測試模型結構。

4. 預訓練實踐建議清單

✅ 如果您正準備啟動預訓練腳本，請確認以下清單：

數據吞吐量優化： 使用 WebDataset 或 Megatron-LM 的數據加載器。預訓練最怕「卡磁盤」，確保您的數據是預先 Tokenized 並打包成二進制格式（如 .bin 或 .mmap）。
節省顯存的最佳組合：

- 開啟 Flash Attention 2。
- 整合 Liger Kernel（替代掉 Transformers 庫中的原生 Layer）。
- 使用 DeepSpeed ZeRO-1 或 ZeRO-2（如果顯存足夠，ZeRO-1/2 的通訊開銷比 ZeRO-3 小，訓練更快）。

監控與 Checkpoint： 預訓練極易崩潰（Loss Spike）。務必設置頻繁的 Checkpoint 以及使用 WandB 或 TensorBoard 監控梯度的範數（Gradient Norm）。

留言

sirius數字沙龍

18會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

在訓練大語言模型（LLM）時，記憶體（VRAM）不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術：DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用，而 Quantization 則負責把模型「壓扁」以節省空間。

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

2026/03/03

如何使用多張顯卡訓練LLM？

⭐使用多張顯卡（Multi-GPU）訓練大語言模型（LLM）已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億（Billion），單張顯卡的顯存（VRAM）往往無法容納完整的模型與訓練數據，因此我們需要透過[並行運算（Parallelism）]來解決。

2026/03/03

如何使用多張顯卡訓練LLM？

2026/03/02

手算「RTX 4090 能訓練多大模型」

真正工程級手算一次：目標： 👉 用 NVIDIA GeForce RTX 4090（24GB VRAM） 👉 看「能訓練多大模型」一、先確定 4090 的條件 VRAM：24GB 訓練通常用：FP16 / BF16 Optimizer：AdamW（最常見）

2026/03/02

手算「RTX 4090 能訓練多大模型」

看更多

你可能也想看

解浩靈的思考和紀錄本

中國大陸 AI 又想彎道超車了！DeepSeek V3：低成本、高效能的開源大型語言模型

開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4，其創新模型架構、高效訓練策略與基礎設施，以及 FP8 混合精度訓練等技術，大幅降低開發成本，僅需 532.8 萬美元預訓練成本，每百萬 Token 成本不到 0.5 美元。

#數據#整合#智慧

2024/12/28

解浩靈的思考和紀錄本

中國大陸 AI 又想彎道超車了！DeepSeek V3：低成本、高效能的開源大型語言模型

#數據#整合#智慧

2024/12/28

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

杯米的投資筆記

從震撼到變革！DeepSeek 如何成為 AI 產業強力催化劑？

DeepSeek-R1大型語言模型的出現，為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求，但長期來看，AI普及化將帶動算力需求提升，並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會，並提出投資建議。

#deepseek#gpu#模型

2025/02/03

杯米的投資筆記

從震撼到變革！DeepSeek 如何成為 AI 產業強力催化劑？

#deepseek#gpu#模型

2025/02/03

IDMockup & Precision Mold 汐紫模型

駕馭AI時代的熱浪：汐紫模型如何以精密製造，助您打造次世代伺服器散熱模組

我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長，背後都依賴著伺服器內數以萬計的高效能CPU與GPU，進行著永不停歇的巨量運算。然而，這股強大的算力洪流，也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。散熱，已不再是伺服器設計中的一個次要環節，而是決

#測試#設計師#專業

2025/09/18

IDMockup & Precision Mold 汐紫模型

駕馭AI時代的熱浪：汐紫模型如何以精密製造，助您打造次世代伺服器散熱模組

#測試#設計師#專業

2025/09/18

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11