從頭開始進行預訓練LLM(Pre-train)

更新 發佈閱讀 4 分鐘

⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現,更是對硬體資源與數據處理能力的極致考驗。

既然目標是 Pre-train,這意味著您需要處理海量的 Token(通常以 Trillion 為單位)以及極長的時間。在這種情況下,上述技術的配置優先順序會與微調(Fine-tuning)截然不同。💡


1. 預訓練的核心架構佈局

🧮 在預訓練中,您的目標是極大化 MFU (Model Flops Utilization),也就是讓 GPU 的運算單元盡可能保持滿載,而不是在等待數據傳輸。

DeepSpeed 的核心作用:ZeRO-3 + ZeRO-Offload

🔥 對於預訓練,DeepSpeed 不僅僅是節省顯存,它提供的 ZeRO-3 可以將模型參數、梯度和優化器狀態(Optimizer States)均勻分佈在所有 GPU 上。

  • 關鍵點: 預訓練通常使用 Adam 優化器,它佔用的顯存是模型參數的數倍。ZeRO 技術能讓你訓練比單卡顯存大得多的模型。

Flash Attention 2/3:長文本的關鍵

目前的 LLM 趨勢是訓練 8k、32k 甚至 128k 的上下文(Context Window)。

  • 優勢: 如果沒有 Flash Attention,長文本的記憶體消耗會呈指數增長。它能確保您在增加序列長度時,計算量依然保持在可控範圍內。

2. Liger Kernel:預訓練的「隱形英雄」

👉 在預訓練中,Liger Kernel 的價值被放到了最大。

  • Cross Entropy Loss 優化: 預訓練的最後一層通常是巨大的詞表(Vocab Size,如 128k)。計算 Cross Entropy 時會產生極大的中間張量。Liger Kernel 對此進行了融合優化,能省下大量的顯存,讓你增加 Batch Size
  • 吞吐量(Throughput): 預訓練往往持續數週甚至數月,Liger Kernel 提供的 20% 速度提升,直接等同於節省了 20% 的算力成本。

3. 預訓練中的 Quantization (量化)

注意:預訓練通常「不」直接在量化後的權重上進行。

  • BF16 (Bfloat16) 是標配: 為了保持數值穩定性並防止梯度消失,預訓練通常使用 BF16 混合精度。
  • 量化的角色: 在預訓練中,量化更多是用於 通信壓縮(例如壓縮 GPU 之間傳遞的梯度),或者是為了在有限顯存下測試模型結構。

4. 預訓練實踐建議清單

✅ 如果您正準備啟動預訓練腳本,請確認以下清單:

  1. 數據吞吐量優化: 使用 WebDatasetMegatron-LM 的數據加載器。預訓練最怕「卡磁盤」,確保您的數據是預先 Tokenized 並打包成二進制格式(如 .bin.mmap)。
  2. 節省顯存的最佳組合:
    • 開啟 Flash Attention 2。
    • 整合 Liger Kernel(替代掉 Transformers 庫中的原生 Layer)。
    • 使用 DeepSpeed ZeRO-1 或 ZeRO-2(如果顯存足夠,ZeRO-1/2 的通訊開銷比 ZeRO-3 小,訓練更快)。
  1. 監控與 Checkpoint: 預訓練極易崩潰(Loss Spike)。務必設置頻繁的 Checkpoint 以及使用 WandBTensorBoard 監控梯度的範數(Gradient Norm)。


留言
avatar-img
sirius數字沙龍
18會員
422內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
2026/03/02
真正工程級手算一次: 目標: 👉 用 NVIDIA GeForce RTX 4090(24GB VRAM) 👉 看「能訓練多大模型」 一、先確定 4090 的條件 VRAM:24GB 訓練通常用:FP16 / BF16 Optimizer:AdamW(最常見)
Thumbnail
2026/03/02
真正工程級手算一次: 目標: 👉 用 NVIDIA GeForce RTX 4090(24GB VRAM) 👉 看「能訓練多大模型」 一、先確定 4090 的條件 VRAM:24GB 訓練通常用:FP16 / BF16 Optimizer:AdamW(最常見)
Thumbnail
看更多
你可能也想看
Thumbnail
開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4,其創新模型架構、高效訓練策略與基礎設施,以及 FP8 混合精度訓練等技術,大幅降低開發成本,僅需 532.8 萬美元預訓練成本,每百萬 Token 成本不到 0.5 美元。
Thumbnail
開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4,其創新模型架構、高效訓練策略與基礎設施,以及 FP8 混合精度訓練等技術,大幅降低開發成本,僅需 532.8 萬美元預訓練成本,每百萬 Token 成本不到 0.5 美元。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
DeepSeek-R1大型語言模型的出現,為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求,但長期來看,AI普及化將帶動算力需求提升,並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會,並提出投資建議。
Thumbnail
DeepSeek-R1大型語言模型的出現,為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求,但長期來看,AI普及化將帶動算力需求提升,並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會,並提出投資建議。
Thumbnail
我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長,背後都依賴著伺服器內數以萬計的高效能CPU與GPU,進行著永不停歇的巨量運算。然而,這股強大的算力洪流,也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。 散熱,已不再是伺服器設計中的一個次要環節,而是決
Thumbnail
我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長,背後都依賴著伺服器內數以萬計的高效能CPU與GPU,進行著永不停歇的巨量運算。然而,這股強大的算力洪流,也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。 散熱,已不再是伺服器設計中的一個次要環節,而是決
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News