Google 剛發布的 TurboQuant 在業內引起很大回響.
簡單講就是這技術能做到其壓縮性能接近理論極限,讓大語言模型在不損失精度的前提下大幅減少模型大小,這使得大語言模型速度更快、效率更高。
傳統量化的困境:隱形成本的「元數據」陷阱
在大型語言模型(LLM)生成文字時,每個 Token 的計算結果都會存入 KV Cache,當處理數萬字以上的長文本時,這些快取數據會迅速撐爆 GPU 顯存。
傳統量化技術(如將 32-bit 壓縮為 4-bit)雖然減少了數據體積,但為了維持精確度,必須分塊記錄「縮放係數(Scaling factors)」或「偏移值(Zero-points)」。這些額外的「Metadata」通常需以 FP16 高精度儲存。
在長文本下,Metadata的空間佔比會抵消掉一部分量化帶來的節省,而這種抵銷會在低位元時更加顯著, 像是 4-bit 量化的實際空間接近 5-6 bit,導致在更低位元的量化就沒有意義(位元縮減帶來的效益被 Metadata 給抵銷).
像是從 4-bit 量化到 2-bit 量化,數據體積減半-但為了維持精確度所必須儲存的 FP16 Metadata(縮放係數)卻可能不減反增,導致幾乎抵銷了量化帶來的記憶體節省。
而 TurboQuant 的關鍵就在於實踐了 「零元數據(Zero-metadata)」 .
第一階段:PolarQuant(極座標量化)
TurboQuant 的第一步是將數據從傳統的XYZ座標轉換為極座標,將向量拆解為代表大小的「半徑」與代表方向的「角度」。
- 物理特性利用: 研究發現,LLM 的高維向量呈現特殊的「錐形分佈(Cone Distribution)」,意味著極座標中的角度分佈極度集中且具有高度可預測性。
- 零元數據優勢: 既然角度分佈可預測,TurboQuant 可以直接對角度進行 3-bit 或 4-bit 量化,完全不需要存儲「每區塊正規化」的常數;實踐了零元數據(Zero-metadata)。
第二階段:1-bit 誤差修正(QJL 演算法)
極低位元(如 3-bit)量化必然會產生雜訊,導致模型在長文本中產生幻覺。
- QJL 投影: Google 團隊引入了 Quantized Johnson-Lindenstrauss (QJL) 演算法,這是一種基於隨機投影的降維技術。
- 1-bit 補丁: 它將 PolarQuant 產生的殘餘誤差投影到低維空間,並僅記錄其「正負號(Sign bit)」。
- 消除偏差: 這額外的 1-bit 就像一個極輕量的補丁,抵銷了注意力機制計算中的系統性偏差,確保模型在 3-bit 壓縮下依然保有 FP32 等級的精準度。
為何現在才突破?老瓶裝新酒的三大關鍵
PolarQuant 其實並非新概念,過去在影像處裡跟訊號處裡都很常見,但一直到 2026 年才被 Google 團隊發揚光大應用在LLM長文本,主因在於:
- 認知轉向: 過去幾年傳統量化的作法就已經帶來很大進步;但後來意識到傳統量化的限制,要做到 Zero-metadata 就要從 PolarQuant 開始。
- 硬體進化: 過去 GPU 計算平方根與三角函數很慢;然而 NVIDIA H100 等新一代 GPU 強化特殊函數運算單元(SFU)讓極座標轉換延遲大幅降低。
- 演算法成熟(QJL 解決累加誤差): 透過近幾年才成熟的 QJL 隨機投影技術,解決了過去 PolarQuant 誤差隨層數不斷放大的致命傷。
Google 的 Amir Zandieh 與 Vahab Mirrokni 團隊並非發明了全新的東西,而是敏銳地捕捉到了現代 GPU(如 H100)處理特殊函數的高效率,並結合新穎的 1-bit 誤差修正技術.
這才解決了傳統量化技術的瓶頸;在不損失精度的前提下大幅減少模型大小,這使得大語言模型速度更快、效率更高.
💡 啟發
我想花點力氣,講講這給我們的啟發:
做影像處理的對「極座標(Polar/Log-Polar)」與「頻域轉換」再熟悉不過了。
- TurboQuant 的核心是將複雜的動態數據(KV Cache)轉化為可預測的幾何特徵以做更有效率的壓縮,很像是將 「影像壓縮」 的經典重新應用到大語言模型。
- 餘弦相似度的幾何化: 影像處理中常用的 DCT(離散餘弦變換)與 Attention 機制中的 Cosine Similarity 有異曲同工之妙。
- 影像處理中的運動補償(Motion Estimation)與大語言模型(LLM)中的注意力機制(Attention)本質上都在處理:「如何從過去的資訊中,找到與現在最相關的部分,並略過重複的冗餘?」
- 關鍵幀 (I-Frame) vs.概念錨點 Token (Anchor Tokens):兩者概念都是不需存儲所有完整數據,只對語義轉折點(如標點、關鍵詞)或關鍵幀存高精度,其餘僅存微小的位移差值。
- 感知編碼 (Perceptual Coding) vs.注意力感知壓縮 (Attention-aware Compression):前者是在人眼看不出的地方大膽壓縮,後者是 LLM 中注意力權重極低的背景 Token 可以直接降至 1-bit 或丟棄。
仔細看會發現很多 LLM 的壓縮技術(無論是成熟的或是還在發展中的),概念都是從影像處理那邊過來的.
另外對於做 IC 設計硬體的人來講,這也是一個極其成功的 「軟硬體協同設計(Hardware-Algorithm Co-design)」 案例:
- 運算換取頻寬(Compute for Bandwidth): 過去硬體設計師致力於減少運算次數(降低 FLOPS)。但在現代 GPU 等架構下,資料傳輸才是瓶頸,算力可能相對是過剩的。 TurboQuant 就是透過設計更強的特殊函數單元(SFU)用極座標轉換來換取極致的數據壓縮,因為變小省頻寬所以更快。
- 特殊函數的價值: 過去被視為「非必要」的三角函數運算這類特殊運算,現在成了提升 AI 效能的關鍵。這會影響未來 AI 晶片在設計指令集時,怎麼判斷演算法的趨勢來決定對於這類特殊運算的支援。
大概是這樣,想到的話再來補充.



















