DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

2026/03/04 更新2026/03/03 發佈閱讀 4 分鐘

👉在訓練大語言模型（LLM）時，記憶體（VRAM）不足和計算速度慢是兩大難題。為了克服這些挑戰，業界發展出了幾項關鍵技術：DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用，而 Quantization 則負責把模型「壓扁」以節省空間。

以下是這四項技術的詳細介紹：

1. DeepSpeed：多卡並行與顯存釋放

👉由微軟開發，是目前最主流的分布式訓練框架。其核心是 ZeRO (Zero Redundancy Optimizer) 技術，專門解決多張顯卡之間「資料重複」的問題。

ZeRO-1/2/3： 傳統並行會在每張卡都存一份完整的優化器狀態和模型參數，非常浪費。ZeRO 會將這些數據切分到不同顯卡上。
Offload 技術： 當 GPU 顯存真的不夠時，DeepSpeed 可以把暫時用不到的參數「暫存」到 CPU 記憶體甚至 NVMe 硬碟中，讓你用低配顯卡也能跑大模型。

2. Flash Attention：加速注意力機制

👉Transformer 模型最耗時、最佔記憶體的部位就是 Attention (注意力機制)。隨著輸入字數（Context Length）增加，記憶體消耗會呈「平方等級」爆炸。

核心原理： 傳統 Attention 會產生一個巨大的中間矩陣（Attention Matrix）。Flash Attention 透過 Tile（分塊） 與 Kernel Fusion（算子融合）技術，讓運算直接在 GPU 的高速緩存（SRAM）中完成，不產生巨大中間矩陣。
結果： 速度提升 2~4 倍，且顯存佔用大幅下降，是訓練長文本（如 32k、128k 窗口）的必備技術。目前已更新至 Flash Attention-3，針對 NVIDIA H100 等新架構進行了極致優化。

3. Liger Kernel：全方位的層優化

👉如果說 Flash Attention 專攻「注意力層」，那麼 Liger Kernel（由 LinkedIn 開源）就是對模型其他層的全面加速。

優化對象： 針對 LLM 常用的 RMSNorm、RoPE（旋轉位置編碼）、SwiGLU 激活函數和 CrossEntropy Loss 進行優化。
技術特點： 使用 OpenAI 的 Triton 語言重寫了這些運算子（Kernel），實現了算子融合。
效益： 記憶體減少約 60%：透過減少中間變數的產生。吞吐量提升約 20%：讓訓練跑得更快。無損精確度：它只是優化計算過程，數學結果與原生 PyTorch 完全一致。

4. Quantization (量化)：模型壓縮技術

👉量化是指將模型參數從高精度（如 FP32 或 BF16，每個參數佔 2~4 Byte）轉換為低精度（如 INT8 或 INT4，每個參數僅佔 0.5~1 Byte）。

訓練中的應用 (QLoRA)： 在微調模型時，我們可以用 4-bit 量化載入模型權重（極省顯存），僅訓練一小部分額外的參數（LoRA Adapters）。這讓一張 24GB 的消費級顯卡（如 RTX 3090/4090）就能微調 70B 規模的大模型。
推論 (Inference)： 訓練完後，透過量化（如 GGUF、GPTQ 格式）可以讓手機或普通電腦也能流暢執行原本需要伺服器的模型。

🎯總結對比表

🧬

留言

sirius數字沙龍

18會員

424內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/03

如何使用多張顯卡訓練LLM？

⭐使用多張顯卡（Multi-GPU）訓練大語言模型（LLM）已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億（Billion），單張顯卡的顯存（VRAM）往往無法容納完整的模型與訓練數據，因此我們需要透過[並行運算（Parallelism）]來解決。

2026/03/03

如何使用多張顯卡訓練LLM？

2026/03/02

手算「RTX 4090 能訓練多大模型」

真正工程級手算一次：目標： 👉 用 NVIDIA GeForce RTX 4090（24GB VRAM） 👉 看「能訓練多大模型」一、先確定 4090 的條件 VRAM：24GB 訓練通常用：FP16 / BF16 Optimizer：AdamW（最常見）

2026/03/02

手算「RTX 4090 能訓練多大模型」

2026/03/02

RTX 6000 Pro、 B200、DGX B300等硬體對這些「浮點數格式」的支援程度？

到了 2026 年，隨著 Blackwell 系列硬體的全面普及，AI 運算已經進入了「極低精度（Low Precision）」的時代。您提到的這三款硬體分別代表了專業工作站、雲端運算單元以及企業級超級電腦系統的頂級規格，以下是它們對於 FP8、FP16 以及最新 FP4 格式的支援程度分析。

2026/03/02

RTX 6000 Pro、 B200、DGX B300等硬體對這些「浮點數格式」的支援程度？

看更多

你可能也想看

楊蘭欣的沙龍

臺灣核三延役公投：世紀大辯論與你我的選擇

本文探討臺灣核三延役公投議題，深入分析正反雙方論點、政治角力、產業影響及國際趨勢，並呈現恆春居民的複雜觀點。

#核三廠#電力#核三延役公投

2025/08/14

楊蘭欣的沙龍

臺灣核三延役公投：世紀大辯論與你我的選擇

本文探討臺灣核三延役公投議題，深入分析正反雙方論點、政治角力、產業影響及國際趨勢，並呈現恆春居民的複雜觀點。

#核三廠#電力#核三延役公投

2025/08/14

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11