DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

更新 發佈閱讀 4 分鐘

👉在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。為了克服這些挑戰,業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash AttentionLiger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。

以下是這四項技術的詳細介紹:


1. DeepSpeed:多卡並行與顯存釋放

👉由微軟開發,是目前最主流的分布式訓練框架。其核心是 ZeRO (Zero Redundancy Optimizer) 技術,專門解決多張顯卡之間「資料重複」的問題。

  • ZeRO-1/2/3: 傳統並行會在每張卡都存一份完整的優化器狀態和模型參數,非常浪費。ZeRO 會將這些數據切分到不同顯卡上。
  • Offload 技術: 當 GPU 顯存真的不夠時,DeepSpeed 可以把暫時用不到的參數「暫存」到 CPU 記憶體甚至 NVMe 硬碟中,讓你用低配顯卡也能跑大模型。

2. Flash Attention:加速注意力機制

👉Transformer 模型最耗時、最佔記憶體的部位就是 Attention (注意力機制)。隨著輸入字數(Context Length)增加,記憶體消耗會呈「平方等級」爆炸。

  • 核心原理: 傳統 Attention 會產生一個巨大的中間矩陣(Attention Matrix)Flash Attention 透過 Tile(分塊) 與 Kernel Fusion(算子融合) 技術,讓運算直接在 GPU 的高速緩存(SRAM)中完成,不產生巨大中間矩陣。
  • 結果: 速度提升 2~4 倍,且顯存佔用大幅下降,是訓練長文本(如 32k、128k 窗口)的必備技術。目前已更新至 Flash Attention-3,針對 NVIDIA H100 等新架構進行了極致優化。

3. Liger Kernel:全方位的層優化

👉如果說 Flash Attention 專攻「注意力層」,那麼 Liger Kernel(由 LinkedIn 開源)就是對模型其他層的全面加速。

  • 優化對象: 針對 LLM 常用的 RMSNorm、RoPE(旋轉位置編碼)、SwiGLU 激活函數和 CrossEntropy Loss 進行優化。
  • 技術特點: 使用 OpenAI 的 Triton 語言重寫了這些運算子(Kernel),實現了算子融合。
  • 效益: 記憶體減少約 60%:透過減少中間變數的產生。吞吐量提升約 20%:讓訓練跑得更快。無損精確度:它只是優化計算過程,數學結果與原生 PyTorch 完全一致。

4. Quantization (量化):模型壓縮技術

👉量化是指將模型參數從高精度(如 FP32 或 BF16,每個參數佔 2~4 Byte)轉換為低精度(如 INT8 或 INT4,每個參數僅佔 0.5~1 Byte)。

  • 訓練中的應用 (QLoRA): 在微調模型時,我們可以用 4-bit 量化載入模型權重(極省顯存),僅訓練一小部分額外的參數(LoRA Adapters)。這讓一張 24GB 的消費級顯卡(如 RTX 3090/4090)就能微調 70B 規模的大模型。
  • 推論 (Inference): 訓練完後,透過量化(如 GGUF、GPTQ 格式)可以讓手機或普通電腦也能流暢執行原本需要伺服器的模型。

🎯總結對比表

vocus|新世代的創作平台

🧬

留言
avatar-img
sirius數字沙龍
18會員
424內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
2026/03/03
⭐使用多張顯卡(Multi-GPU)訓練大語言模型(LLM)已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億(Billion),單張顯卡的顯存(VRAM)往往無法容納完整的模型與訓練數據,因此我們需要透過[並行運算(Parallelism)]來解決。
Thumbnail
2026/03/02
真正工程級手算一次: 目標: 👉 用 NVIDIA GeForce RTX 4090(24GB VRAM) 👉 看「能訓練多大模型」 一、先確定 4090 的條件 VRAM:24GB 訓練通常用:FP16 / BF16 Optimizer:AdamW(最常見)
Thumbnail
2026/03/02
真正工程級手算一次: 目標: 👉 用 NVIDIA GeForce RTX 4090(24GB VRAM) 👉 看「能訓練多大模型」 一、先確定 4090 的條件 VRAM:24GB 訓練通常用:FP16 / BF16 Optimizer:AdamW(最常見)
Thumbnail
2026/03/02
到了 2026 年,隨著 Blackwell 系列硬體的全面普及,AI 運算已經進入了「極低精度(Low Precision)」的時代。您提到的這三款硬體分別代表了專業工作站、雲端運算單元以及企業級超級電腦系統的頂級規格,以下是它們對於 FP8、FP16 以及最新 FP4 格式的支援程度分析。
Thumbnail
2026/03/02
到了 2026 年,隨著 Blackwell 系列硬體的全面普及,AI 運算已經進入了「極低精度(Low Precision)」的時代。您提到的這三款硬體分別代表了專業工作站、雲端運算單元以及企業級超級電腦系統的頂級規格,以下是它們對於 FP8、FP16 以及最新 FP4 格式的支援程度分析。
Thumbnail
看更多
你可能也想看
Thumbnail
本文探討臺灣核三延役公投議題,深入分析正反雙方論點、政治角力、產業影響及國際趨勢,並呈現恆春居民的複雜觀點。
Thumbnail
本文探討臺灣核三延役公投議題,深入分析正反雙方論點、政治角力、產業影響及國際趨勢,並呈現恆春居民的複雜觀點。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
台股今 (31) 日迎來 2025 年封關日,台積電再衝新高價,領軍電子股走強,帶動盤中一度衝破 2 萬 9 千點大關,終場收在 28963.6 點,為歷史收盤新高價,漲幅達 256.47 點,成交量更放大至 5477 億元。2025 年全年大盤上漲 5928.2 點。
Thumbnail
台股今 (31) 日迎來 2025 年封關日,台積電再衝新高價,領軍電子股走強,帶動盤中一度衝破 2 萬 9 千點大關,終場收在 28963.6 點,為歷史收盤新高價,漲幅達 256.47 點,成交量更放大至 5477 億元。2025 年全年大盤上漲 5928.2 點。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
開箱評測 Acer Swift Lite 14 (SFL14-54M),顛覆對粉色筆電的刻板印象,搭載 Intel Core Ultra 7、32GB 記憶體,重量僅 999g。評測外觀、重量、效能、隨開隨用、擴充性,並提供適用對象建議,適合自媒體、業務、學生與顏值控。內含蝦皮購物連結。
Thumbnail
開箱評測 Acer Swift Lite 14 (SFL14-54M),顛覆對粉色筆電的刻板印象,搭載 Intel Core Ultra 7、32GB 記憶體,重量僅 999g。評測外觀、重量、效能、隨開隨用、擴充性,並提供適用對象建議,適合自媒體、業務、學生與顏值控。內含蝦皮購物連結。
Thumbnail
靈魂記憶會累積「信任感」 大家好,這裡是阿吉讀書心得。 用書本整理思緒,用生活驗證想法。 分享閱讀帶來的改變與日常觀察。 靈魂記憶,確實會累積「信任感」 但它不是對某個人、某個制度的信任,而是三種更深層的東西: 一、對「存在本身」的信任 靈魂在多次經驗中,會
Thumbnail
靈魂記憶會累積「信任感」 大家好,這裡是阿吉讀書心得。 用書本整理思緒,用生活驗證想法。 分享閱讀帶來的改變與日常觀察。 靈魂記憶,確實會累積「信任感」 但它不是對某個人、某個制度的信任,而是三種更深層的東西: 一、對「存在本身」的信任 靈魂在多次經驗中,會
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News