夜星的沙龍

DeepSeek開源週,第一個開源項目FlashMLA

2025/02/24 更新2025/02/24 發佈閱讀 1 分鐘

DeepSeek近期開源的FlashMLA是針對Hopper GPU架構設計的高效多頭潛在注意力（Multi-Head Latent Attention, MLA）解碼核心，專為可變長度序列推理場景優化。

FlashMLA通過「以計算換顯存」的設計哲學，針對Hopper架構特性實現端到端優化，成為長上下文、低延遲推理場景的專用加速方案。其生態價值在於突破Transformer模型的記憶體瓶頸，為千億參數級模型的邊緣部署提供可行性路徑。

FlashMLA 技術參數

對照基準：NVIDIA FlashAttention-2/3

一、核心技術參數

vocus｜新世代的創作平台

二、計算與記憶體效能

1. 記憶體相關

顯存佔用（32K序列長度）：
FlashMLA在DeepSeek-V2模型實現93.3%的KV Cache壓縮率，同等序列長度下顯存佔用僅為FlashAttention-2的1/15。例如處理32K長上下文時：
- FlashMLA：2.1 GB
- FlashAttention-2：31.5 GB
記憶體頻寬利用率（H800 GPU）：
- 峰值：3000 GB/s
- 對比FlashAttention-3：2400 GB/s

2. 計算效能

FlashMLA在計算密集型場景實現580 TFLOPS，較FlashAttention-3的450 TFLOPS提升28.9%，主要來自：

指令級並行優化（ILP）
延遲隱藏技術（Latency Hiding）

vocus｜新世代的創作平台

三、硬體與軟體依賴

vocus｜新世代的創作平台

留言

夜星的沙龍

1會員

16內容數

或許這裡更接近作為一個個人知識庫,我通常運用大模型來協助整理我所感興趣的資訊,除了放在自己電腦中,或許進一步分享出來會更有趣.

夜星的沙龍的其他內容

2025/03/26

Google Gemini 2.5 技術解析：從模型演進到平台整合的全景圖

隨著人工智慧技術持續快速演進，Google於3月25日發布的Gemini 2.5 Pro再度成為業界焦點。作為迄今為止最強大的「思考型模型」，Gemini 2.5不僅在推理能力、多模態理解與編碼性能方面展現出前所未有的表現，更在多項基準測試中領先競爭對手，為大型語言模型（LLM）樹立了新的技術標竿

2025/03/26

Google Gemini 2.5 技術解析：從模型演進到平台整合的全景圖

隨著人工智慧技術持續快速演進，Google於3月25日發布的Gemini 2.5 Pro再度成為業界焦點。作為迄今為止最強大的「思考型模型」，Gemini 2.5不僅在推理能力、多模態理解與編碼性能方面展現出前所未有的表現，更在多項基準測試中領先競爭對手，為大型語言模型（LLM）樹立了新的技術標竿

2025/03/22

MCP協議：重塑AI生態系統的新標準 - 2025年全面解析

Model Context Protocol (MCP) 是由Anthropic於2024年11月25日發布的開放式AI通訊標準，旨在解決大型語言模型（LLM）與外部系統整合的碎片化問題。

2025/03/22

MCP協議：重塑AI生態系統的新標準 - 2025年全面解析

Model Context Protocol (MCP) 是由Anthropic於2024年11月25日發布的開放式AI通訊標準，旨在解決大型語言模型（LLM）與外部系統整合的碎片化問題。

2025/03/21

亞馬遜自研AI加速器Trainium：技術規格、市場競爭與財務價值全解析

此筆記綜合呈現AWS Trainium技術規格、市場競爭格局、商業價值與財務影響，基於AWS官方數據、分析師報告與技術白皮書，並透過合理推論填補資訊缺口，為理解亞馬遜AI硬體戰略提供全方位視角。

2025/03/21

亞馬遜自研AI加速器Trainium：技術規格、市場競爭與財務價值全解析

此筆記綜合呈現AWS Trainium技術規格、市場競爭格局、商業價值與財務影響，基於AWS官方數據、分析師報告與技術白皮書，並透過合理推論填補資訊缺口，為理解亞馬遜AI硬體戰略提供全方位視角。

#方格新手的其他內容

方格新手村：讓 vocus 送你見面禮！

目前共 31348 篇

在格子的縫隙裡，我「看見」了自己

方格子 vocus 官方沙龍

老格友看過來！給新朋友的一封信🫶

方格小窩再生記 § 沙龍圖片尺寸懶人包

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Learn AI 不 BI

AI說書 - 從0開始 - 68

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因

#AI#ai#PromptEngineering

2024/07/01

Learn AI 不 BI

AI說書 - 從0開始 - 68

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因

#AI#ai#PromptEngineering

2024/07/01

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

在AI浪潮下，009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸，等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈，到如今AI崛起，主線已由應用端轉向底層。AI發展離不開算力與電力支撐，009819的價值，在於押中「沒有它不行」的核心資產。

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

在AI浪潮下，009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸，等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈，到如今AI崛起，主線已由應用端轉向底層。AI發展離不開算力與電力支撐，009819的價值，在於押中「沒有它不行」的核心資產。

#AI#算力#電力

2026/04/11

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 56

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 56

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Learn AI 不 BI

AI說書 - 從0開始 - 57

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 57

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/27

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 64

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。到 AI說書 - 從0開始 - 63 為止，我們已經介紹完 Multi-Head Attention ，接著我們來談 Add & Norm 兩元件的功能： Add

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 64

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。到 AI說書 - 從0開始 - 63 為止，我們已經介紹完 Multi-Head Attention ，接著我們來談 Add & Norm 兩元件的功能： Add

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 59

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 59

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI#ai#PromptEngineering

2024/06/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News