AI 訓練浮點數格式解析

更新 發佈閱讀 3 分鐘

AI 在訓練時,**浮點數格式(Floating Point Format)**決定了:

  • 權重(weights)如何儲存
  • 梯度(gradients)如何計算
  • 訓練速度
  • VRAM 需求
  • 數值穩定性

這其實是你之前問「怎樣算 VRAM」的核心之一。


一、為什麼 AI 訓練需要浮點數?

神經網路本質是:

vocus|新世代的創作平台

所有:

  • 權重 W
  • 偏置 b
  • 梯度
  • activation

都是連續實數

電腦只能用浮點數表示。


二、IEEE 754 浮點數結構

FP32(單精度)

vocus|新世代的創作平台

結構:

vocus|新世代的創作平台

精度:約 7 位有效數字


FP16(半精度)

vocus|新世代的創作平台

結構:

vocus|新世代的創作平台

精度:約 3–4 位有效數字


三、AI 訓練常見數值格式

vocus|新世代的創作平台

四、BF16 為什麼重要?

vocus|新世代的創作平台

BF16 結構:

vocus|新世代的創作平台

👉 重點:Exponent 和 FP32 一樣大

這代表:

  • 數值範圍接近 FP32
  • 不容易梯度爆炸
  • 非常適合 Transformer

所以現在:

  • NVIDIA H100/B200 主打 BF16
  • Google TPU 也主推 BF16

五、為什麼不能全用 FP16?

問題:梯度 underflow

當梯度太小:

vocus|新世代的創作平台

FP16 表示不出來 → 直接變 0

結果:

  • 模型不學習
  • Loss 卡死

所以現代做法是:


六、混合精度訓練(Mixed Precision)

流程:

  1. 權重用 FP16 / BF16
  2. 反向傳播用 FP32 master copy
  3. 使用 Loss Scaling

這樣可以:

  • VRAM 減半
  • 訓練速度 ×2
  • 幾乎不掉精度

七、VRAM 佔用怎麼算?

假設:

  • 7B 模型
  • FP32
vocus|新世代的創作平台

FP16:

vocus|新世代的創作平台

再加上:

  • 梯度
  • optimizer states(通常 ×2)

實際訓練需求:

FP32 7B 可能需要 80–100GB VRAM

這就是為什麼:

  • RTX 4090 很難訓練 7B 全參數
  • H100 可以

八、FP8 是未來嗎?

vocus|新世代的創作平台

FP8 常見格式:

  • E4M3
  • E5M2

優點:

  • VRAM 再減半
  • 訓練更快

缺點:

  • 數值不穩定
  • 需要特製硬體(Transformer Engine)

九、給一個武俠式比喻 😄

  • FP32 = 重劍無鋒(穩)
  • FP16 = 輕劍快攻(快)
  • BF16 = 內力深厚(範圍大)
  • FP8 = 飛刀(危險但高效)

十、總結(工程角度)

AI 訓練核心其實是:

在「數值穩定」與「顯存成本」之間取得平衡

目前主流:

  • 訓練 → BF16 + FP32 master
  • 推理 → FP16 / FP8 / INT8


留言
avatar-img
sirius數字沙龍
16會員
408內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/01
設計一套專門為武俠小說微調(LoRA)設計的資料格式, 比如: 唐玄宗開元年間 絲路 / 祆教 / 波斯密使 軋犖山(安祿山) 華山派、公孫嫣 宗教與權謀交織 我們目標不是普通小說生成,而是: 🎯 訓練出「懂世界觀、會寫武功、能操控角色」的武俠模型
Thumbnail
2026/03/01
設計一套專門為武俠小說微調(LoRA)設計的資料格式, 比如: 唐玄宗開元年間 絲路 / 祆教 / 波斯密使 軋犖山(安祿山) 華山派、公孫嫣 宗教與權謀交織 我們目標不是普通小說生成,而是: 🎯 訓練出「懂世界觀、會寫武功、能操控角色」的武俠模型
Thumbnail
2026/03/01
在家用 GPU(例如 RTX 3060 / 4070 / 4090) 是可以訓練「小型 LLM」的 —— 但要方法正確。 我給你一個完整可執行流程圖。 🎯 先講現實 ❌ 你做不到的 從零訓練 7B 模型 用幾 TB 數據做 pretraining
Thumbnail
2026/03/01
在家用 GPU(例如 RTX 3060 / 4070 / 4090) 是可以訓練「小型 LLM」的 —— 但要方法正確。 我給你一個完整可執行流程圖。 🎯 先講現實 ❌ 你做不到的 從零訓練 7B 模型 用幾 TB 數據做 pretraining
Thumbnail
2026/03/01
訓練一個 LLM(大型語言模型),本質上是讓一個巨大的 Transformer 神經網路,學會「預測下一個字」。 我們分成 完整流程 7 個階段 來看。 🏗 整體流程總覽 資料蒐集 → 清洗 → 分詞 → 建模 → 預訓練 → 對齊訓練 → 部署優化 ① 模型架構選擇(Transfor
Thumbnail
2026/03/01
訓練一個 LLM(大型語言模型),本質上是讓一個巨大的 Transformer 神經網路,學會「預測下一個字」。 我們分成 完整流程 7 個階段 來看。 🏗 整體流程總覽 資料蒐集 → 清洗 → 分詞 → 建模 → 預訓練 → 對齊訓練 → 部署優化 ① 模型架構選擇(Transfor
Thumbnail
看更多
你可能也想看
Thumbnail
接續上篇篩選機制,本次挑論排序方式跟權重調整方式,00939的權重調整方式分成為兩段式,到底有何功用?追動能的力道,跟低波好嗎?跟00713還有00915的低波篩選機制比較起來如何?另外討論用配息率加權好嗎?這檔ETF的優點跟缺點討論看看,最後用因子來總結。     大綱: 1.
Thumbnail
接續上篇篩選機制,本次挑論排序方式跟權重調整方式,00939的權重調整方式分成為兩段式,到底有何功用?追動能的力道,跟低波好嗎?跟00713還有00915的低波篩選機制比較起來如何?另外討論用配息率加權好嗎?這檔ETF的優點跟缺點討論看看,最後用因子來總結。     大綱: 1.
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
前言 接續上次的內容,這次詳細討論規則修改前後的差異。跟指數修改對股價的影響、想吃豆腐的人、對長期持有的人的影響。 修改後的檔案: 臺灣指數公司特選高股息低波動股價指數編製規則 修改前的檔案:1164台灣高息低波ETF-公開說明書 大綱   1.修改後的優缺點  
Thumbnail
前言 接續上次的內容,這次詳細討論規則修改前後的差異。跟指數修改對股價的影響、想吃豆腐的人、對長期持有的人的影響。 修改後的檔案: 臺灣指數公司特選高股息低波動股價指數編製規則 修改前的檔案:1164台灣高息低波ETF-公開說明書 大綱   1.修改後的優缺點  
Thumbnail
本篇文章分享了作者在職涯中的反思與掙扎,探討了工作的真正意義。作者認為,工作不僅僅是追求享受,更是一個成長與付出的過程。配合自身的職場經驗,文章指出挑戰和壓力實際上能促進個人成長,而找到適合自己的工作才是最重要的追求。
Thumbnail
本篇文章分享了作者在職涯中的反思與掙扎,探討了工作的真正意義。作者認為,工作不僅僅是追求享受,更是一個成長與付出的過程。配合自身的職場經驗,文章指出挑戰和壓力實際上能促進個人成長,而找到適合自己的工作才是最重要的追求。
Thumbnail
前言 009804這檔ETF推出時,讓我印象很深刻曾經在媒體上有看過一篇文章寫0050已足夠分散,不需設權重上限。但後來又有看到媒體宣傳009804。投信表示,009804設30%權重上限,旨在避免單一持股過高帶來的集中風險,特別針對台積電占比過高的情況。媒體上對於0050已夠分散
Thumbnail
前言 009804這檔ETF推出時,讓我印象很深刻曾經在媒體上有看過一篇文章寫0050已足夠分散,不需設權重上限。但後來又有看到媒體宣傳009804。投信表示,009804設30%權重上限,旨在避免單一持股過高帶來的集中風險,特別針對台積電占比過高的情況。媒體上對於0050已夠分散
Thumbnail
同事間合作案件的點數分配原則,以及如何透過有效分工、專案管理,讓合作效益最大化,並避免合作關係破裂。
Thumbnail
同事間合作案件的點數分配原則,以及如何透過有效分工、專案管理,讓合作效益最大化,並避免合作關係破裂。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
前言 這集主要夢到有朋友跟我討論指數的設計精神,我覺得很有意思,做了此集作補充,可能在前3集內容不足或有誤之處,在這集作補充,最後用六因子表做總結。這集內容比較有深度,建議沒看過前三集的朋友,先去回放。   最近常有人問能不能買,投資人在投資時,該重視的是篩選邏輯要符合自身的投資理念,
Thumbnail
前言 這集主要夢到有朋友跟我討論指數的設計精神,我覺得很有意思,做了此集作補充,可能在前3集內容不足或有誤之處,在這集作補充,最後用六因子表做總結。這集內容比較有深度,建議沒看過前三集的朋友,先去回放。   最近常有人問能不能買,投資人在投資時,該重視的是篩選邏輯要符合自身的投資理念,
Thumbnail
前言 在前兩次的篩選機制心得後,這次來討論剩下幾個部分,主要是權重計算與風險揭露。這檔ETF的權重計算個別個股可以拉高到30%,這樣設計的原因可能為何? 何時可以配息,這個是大家比較關注的,另外也討論不配息的情況是什麼。大多的人,通常很少會去仔細看ETF的風險揭露,這次也來整
Thumbnail
前言 在前兩次的篩選機制心得後,這次來討論剩下幾個部分,主要是權重計算與風險揭露。這檔ETF的權重計算個別個股可以拉高到30%,這樣設計的原因可能為何? 何時可以配息,這個是大家比較關注的,另外也討論不配息的情況是什麼。大多的人,通常很少會去仔細看ETF的風險揭露,這次也來整
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這篇來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.預擬資產管理做什麼用? 2.權重
Thumbnail
前兩篇篩選機制針對篩選指標做完整的討論,這篇來針對權重計算來討論,權重計算的目的為何?另外有提到預擬資產管理規模,這個特殊方式似乎沒有在其他的高股息指數上看到,為何有此設計?最後討論此檔指數的優點與缺點,來探討看看。     大綱: 1.預擬資產管理做什麼用? 2.權重
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News