AI 訓練浮點數格式解析

JH Young

發佈於滴咕雞

2026/03/02 更新2026/03/02 發佈閱讀 3 分鐘

AI 在訓練時，**浮點數格式（Floating Point Format）**決定了：

權重（weights）如何儲存
梯度（gradients）如何計算
訓練速度
VRAM 需求
數值穩定性

這其實是你之前問「怎樣算 VRAM」的核心之一。

一、為什麼 AI 訓練需要浮點數？

神經網路本質是：

所有：

權重 W
偏置 b
梯度
activation

都是連續實數

電腦只能用浮點數表示。

二、IEEE 754 浮點數結構

FP32（單精度）

結構：

精度：約 7 位有效數字

FP16（半精度）

結構：

精度：約 3–4 位有效數字

三、AI 訓練常見數值格式

四、BF16 為什麼重要？

BF16 結構：

👉 重點：Exponent 和 FP32 一樣大

這代表：

數值範圍接近 FP32
不容易梯度爆炸
非常適合 Transformer

所以現在：

NVIDIA H100/B200 主打 BF16
Google TPU 也主推 BF16

五、為什麼不能全用 FP16？

問題：梯度 underflow

當梯度太小：

FP16 表示不出來 → 直接變 0

結果：

模型不學習
Loss 卡死

所以現代做法是：

六、混合精度訓練（Mixed Precision）

流程：

權重用 FP16 / BF16
反向傳播用 FP32 master copy
使用 Loss Scaling

這樣可以：

VRAM 減半
訓練速度 ×2
幾乎不掉精度

七、VRAM 佔用怎麼算？

假設：

7B 模型
FP32

FP16：

再加上：

梯度
optimizer states（通常 ×2）

實際訓練需求：

FP32 7B 可能需要 80–100GB VRAM

這就是為什麼：

RTX 4090 很難訓練 7B 全參數
H100 可以

八、FP8 是未來嗎？

FP8 常見格式：

E4M3
E5M2

優點：

VRAM 再減半
訓練更快

缺點：

數值不穩定
需要特製硬體（Transformer Engine）

九、給一個武俠式比喻 😄

FP32 = 重劍無鋒（穩）
FP16 = 輕劍快攻（快）
BF16 = 內力深厚（範圍大）
FP8 = 飛刀（危險但高效）

十、總結（工程角度）

AI 訓練核心其實是：

在「數值穩定」與「顯存成本」之間取得平衡

目前主流：

訓練 → BF16 + FP32 master
推理 → FP16 / FP8 / INT8

留言

sirius數字沙龍

16會員

408內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/01

設計一個「武俠小說寫作」訓練資料格式

設計一套專門為武俠小說微調（LoRA）設計的資料格式，比如：唐玄宗開元年間絲路 / 祆教 / 波斯密使軋犖山（安祿山）華山派、公孫嫣宗教與權謀交織我們目標不是普通小說生成，而是： 🎯 訓練出「懂世界觀、會寫武功、能操控角色」的武俠模型

2026/03/01

設計一個「武俠小說寫作」訓練資料格式

2026/03/01

如何用家用 GPU 訓練自己的小模型？

在家用 GPU（例如 RTX 3060 / 4070 / 4090）是可以訓練「小型 LLM」的 —— 但要方法正確。我給你一個完整可執行流程圖。 🎯 先講現實 ❌ 你做不到的從零訓練 7B 模型用幾 TB 數據做 pretraining

2026/03/01

如何用家用 GPU 訓練自己的小模型？

2026/03/01

如何訓練LLM？

訓練一個 LLM（大型語言模型），本質上是讓一個巨大的 Transformer 神經網路，學會「預測下一個字」。我們分成完整流程 7 個階段來看。 🏗 整體流程總覽資料蒐集 → 清洗 → 分詞 → 建模 → 預訓練 → 對齊訓練 → 部署優化 ① 模型架構選擇（Transfor

2026/03/01

如何訓練LLM？

看更多

你可能也想看

威利財經生活隨筆的沙龍

00939指數篩選機制怎麼看?(下)兩段式權重怎麼看，優缺點討論。是波動度低的好標的嗎?

接續上篇篩選機制，本次挑論排序方式跟權重調整方式，00939的權重調整方式分成為兩段式，到底有何功用?追動能的力道，跟低波好嗎?跟00713還有00915的低波篩選機制比較起來如何?另外討論用配息率加權好嗎?這檔ETF的優點跟缺點討論看看，最後用因子來總結。大綱: 1.

#威利研究室#00939#統一高息動能

2024/03/27

威利財經生活隨筆的沙龍

00939指數篩選機制怎麼看?(下)兩段式權重怎麼看，優缺點討論。是波動度低的好標的嗎?

#威利研究室#00939#統一高息動能

2024/03/27

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11