FlashAttention：突破 AI 記憶體牆，徹底革新 Transformer 的速度與效率

2025/12/03 更新2025/12/03 發佈閱讀 6 分鐘

Transformer 模型在 AI 領域取得了巨大的成功，但其核心的自注意力機制（Self-Attention）卻長期面臨一個嚴重的瓶頸：計算複雜度與序列長度 N 的平方 O(N^2) 成正比。這不僅導致訓練時間極長，更讓記憶體存取成為了 GPU 運算的致命傷，也就是業界常說的「記憶體牆」（Memory Wall）。

由 Tri Dao 等人提出的 FlashAttention 算法，正是一種為解決這個根本性問題而生的 IO-Aware（輸入/輸出感知）技術。它在不犧牲模型精確度的前提下，從根本上改變了我們處理大規模注意力計算的方式，也連帶影響了記憶體產業的發展走向。

💡 一、核心痛點：為什麼標準注意力這麼慢？

標準的注意力計算在 GPU 上之所以緩慢，並不是因為 GPU 的算力不足，而是因為記憶體頻寬跟不上。

GPU 的記憶體由多個層級組成：

• SRAM (靜態隨機存取記憶體)：位於晶片內部，速度極快，但容量極小（僅數十 MB）。

• HBM (高頻寬記憶體)：位於晶片外部，容量大（數十 GB），但速度相對慢得多。

傳統注意力算法在計算過程中，必須將一個龐大的 N \times N 注意力矩陣（即 Softmax 的輸入與輸出）完整地實體化並寫入速度較慢的 HBM 中。大量的讀取和寫入操作（IO 存取）佔據了絕大部分時間，導致 GPU 的計算核心經常處於閒置狀態，等待數據傳輸。

🛠️ 二、FlashAttention 的解方：分塊與重計算

FlashAttention 的核心策略是重新組織計算流程，目標只有一個：盡可能避免存取慢速的 HBM。

1. 分塊平鋪 (Tiling)：

FlashAttention 將輸入的 Q, K, V 矩陣分割成小塊。它利用外層迴圈將 K 和 V 的區塊載入到超快速的 SRAM 中；接著在內層迴圈中，載入 Q 的區塊並直接在 SRAM 上執行所有的計算（包括矩陣乘法和 Softmax）。

關鍵突破：所有的中間運算都在 SRAM 內完成，只有最終的輸出結果會寫回 HBM。這避免了將巨大的 N \times N 中間矩陣頻繁寫入主記憶體。

2. 重計算 (Recomputation)：

在模型訓練的反向傳播（Backward Pass）階段，傳統做法需要儲存龐大的前向傳播結果。FlashAttention 選擇不儲存這些大矩陣，而是儲存少量的統計數據，並在需要時重新執行部分運算。

這是一種「以時間換空間」的極致策略：利用 GPU 強大的閒置算力，來換取寶貴的記憶體頻寬。

最終，FlashAttention 帶來了約 7.6 倍的注意力計算加速，並將記憶體消耗從 O(N^2) 降低到與序列長度 O(N) 線性相關，這讓訓練超長文本的 AI 模型成為可能。

💰 三、落地概念：對記憶體產業的深遠影響

FlashAttention 的成功不僅是演算法的勝利，它更向記憶體硬體產業發出了清晰的需求信號，改變了產品設計的優先級：

1. HBM 「容量」的重要性超越「頻寬」

過去，AI 晶片極度依賴 HBM 的極致頻寬來搬運數據。FlashAttention 通過優化演算法減輕了頻寬壓力，但它同時開啟了長上下文 (Long Context) 的大門（例如讓模型能一次讀完一整本書）。

這意味著，為了存放更長的上下文緩存（KV Cache），記憶體廠商必須優先推動 HBM 的容量與密度爆炸性增長。對於記憶體廠而言，誰能做出單顆容量更大的 HBM，誰就能主導下一代 AI 市場。

2. SRAM 成為 GPU 設計的新戰場

FlashAttention 的高效能完全依賴於 GPU 晶片內部那塊小小的 SRAM。這迫使 AI 晶片設計者（如 NVIDIA 和 AMD）在下一代架構中，必須大幅增加片上 SRAM 或 L2/HBM 快取的大小。這實質上是在晶片內部實現了一種「近存計算」，以硬體規格來配合高效的 IO-Aware 演算法。

3. 加速 PIM (近記憶體計算) 的商業化進程

FlashAttention 用軟體證明了「將計算移近記憶體」是正確的路。這為硬體界的 PIM (Processing-in-Memory) 技術提供了最強的市場驗證。

• 概念驗證：如果軟體優化 IO 就能帶來 7 倍加速，那麼直接在硬體層面消除 IO（將計算單元做進記憶體裡）將是終極解法。

• 產業現狀：三星的 HBM-PIM 和 SK 海力士的 GDDR6-AiM 已經將簡單的 AI 運算單元嵌入記憶體晶片中。雖然目前尚未被主流 GPU 全面採用，但 FlashAttention 的普及將迫使硬體巨頭加速採用這類技術，特別是在對能效極為敏感的邊緣運算與推論晶片領域。

總結來說，FlashAttention 標誌著 AI 進入了 IO-Aware Computing 的時代。它告訴產業界：未來的決勝點不只是算力，更是如何以最聰明的方式管理數據流動，這將推動記憶體產業朝向更大容量、更高密度，以及更智慧的「計算記憶體」方向演進。

留言

SSD驗證工程師的告白

60會員

334內容數

針對平時SSD驗證上的感想

SSD驗證工程師的告白的其他內容

2025/12/03

SSD驗證工程師的日常與成長路徑

在當今數據爆炸的時代，固態硬碟 (SSD) 已成為從個人電腦、智慧手機到數據中心、AI 伺服器等各類計算設備不可或缺的核心組件。它們以其卓越的速度、低延遲和高可靠性，徹底改變了數據儲存的面貌。然而，SSD 的複雜性遠超傳統硬碟，它集成了高速控制器、先進的 NAND Flash 技術、複雜的韌體演算法

2025/12/03

SSD驗證工程師的日常與成長路徑

2025/11/29

SSD白箱驗證的挑戰與解決方案：攻克複雜性的堡壘

儘管白箱測試在SSD驗證中具有不可替代的價值，但其自身的實施也面臨著諸多挑戰。這些挑戰源於SSD系統的固有複雜性、NAND Flash的物理特性、以及韌體開發的特殊性。然而，透過合理的策略、先進的工具和持續的投入，這些挑戰是可以被有效克服的。 1. 挑戰一：韌體複雜度高，學習曲線陡峭 SSD韌體

2025/11/29

SSD白箱驗證的挑戰與解決方案：攻克複雜性的堡壘

2025/11/26

CXL SSD 驗證關鍵解析：從 Memory Pool 到 Persistent Memory 的挑戰與機會

一、前言：CXL 是 SSD 驗證的新戰場隨著人工智慧（AI）、高效能運算（HPC）與大規模資料中心對運算能力的渴求呈現爆炸性增長，「記憶體牆」（Memory Wall）問題日益凸顯，成為制約系統效能提升的關鍵瓶頸 [1]。記憶體牆是指處理器速度的增長遠遠超過記憶體頻寬與存取速度的提升，導致強大

2025/11/26

CXL SSD 驗證關鍵解析：從 Memory Pool 到 Persistent Memory 的挑戰與機會

看更多

你可能也想看

老男孩的沙龍

體驗

年輕，生活很累時。總會去體驗一些事，告訴自己活著真好！會點杯Martini ，晃著橄欖，看著爵士樂團演出。會選個沒去過的國家探險，看看不同的人土風情！之後，告訴自己：活著真好！我要繼續好好的活下去！年紀大了之後，對金錢和權力的慾望蓋過一切！不再體驗生活，而在財富的計算和權力的算計中活著！

2023/11/12

2023/11/12

為客戶創造個性化的禮品體驗。透過我們的網站，客戶可以輕鬆將心中所想轉化為實物，例如在拼圖、帆布畫或卡牌上印刷自己喜歡的圖片或特別的字句。這種創意性的印刷服務為客戶帶來了許多好處。首先，客人無需擔心送出相同的禮物，因為每一份都是獨

2023/12/11

2023/12/11

已經忘了何時開始每天會寫些東西沒有特別想些什麼沒有特定的主題

#體驗

2025/04/17

claire的沙龍

鋼筆初體驗

已經忘了何時開始每天會寫些東西沒有特別想些什麼沒有特定的主題

#體驗

2025/04/17

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

角落教學，故事中心教育本質是~一棵樹搖動另一棵樹。

體驗

每天做同樣一件無聊但有意義的事，久了，就會找到樂趣，而且會成就專業~這是我這些時日很深的感動。

#人生#校園#體驗

2025/10/17

角落教學，故事中心教育本質是~一棵樹搖動另一棵樹。

體驗

每天做同樣一件無聊但有意義的事，久了，就會找到樂趣，而且會成就專業~這是我這些時日很深的感動。

#人生#校園#體驗

2025/10/17

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News