如何評估AI訓練所需算力？

Patrick.Wong

發佈於Patrick的人生故事館

2025/11/22 更新2025/11/22 發佈閱讀 10 分鐘

先前文章介紹完GPU算力估算（如何評估GPU能提供多少AI算力？）與AI應用類型（幾種常見的AI應用類型），本文接著分享如何估算AI訓練所需算力。

Nicolas Arnold on Unsplash

算力需求估算公式

最常用來估算AI模型所需訓練算力的基本公式：

訓練 FLOPs ≈ 6 × N × D

N = 模型參數數（parameter count）。
D = 訓練的 token 數。
FLOPs = 結果是需要多少「浮點運算」（FLOPs）。

e.g., 訓練一個 100B 模型、用 500B tokens → 約需要 3e24 FLOPs。

訓練FLOPs估算值「6」

訓練 FLOPs 估算為什麼用6？6是基於 Transformer 架構計算成本的「經驗係數」，代表平均每個參數參與一個 token 訓練所需的運算次數，這個值會隨模型架構在5~7之間略變，但 6 是合理且保守的抓法，是共通採用的簡化估算係數。

為什麼要簡化公式？因為實際 FLOPs 要考慮眾多因素，像是層數、MLP隱藏維度、Activation function計算量、Embedding / Norm / Residual 等結構、Forward / Backward 計算次數、Hidden size、Batch size & Pipeline優化等等。

透過一個萬用的簡化公式，快速估出FLOPs來衡量訓練成本、訓練時間、比較不同規模的數據集/AI模型所需要的算力需求。

有了基本公式，就能探討不同AI應用模型的算力需求。

參數parameter

模型參數數量（通常用 M 或 B 表示）是指這個 AI 模型「有多少可以學習的知識容量」，可以把它想成模型的「腦容量」或「記憶體」。

當我們提供訓練資料（tokens）給模型學習時，模型會根據這些資料去調整每一個參數的值，進而學會判斷、預測或生成文字的能力。

與常數6相同，模型參數數量也有經驗法則：

理想情況下：Token 數 ≈ 參數數的 20～30 倍。

因此，假如公式中，Token數量已知，就能根據上述法則推估參數數量。反過來說，要是只知道參數，同理能推出Token數。

為什麼要這樣配比？如果模型太大、資料太少→容易過度擬合(overfit)；如果模型太小、資料太多 → 學不出東西(underfit)。理論上模型參數 ≈ token 數的 1/20 到 1/30 是訓練效果的甜蜜點。

自己在實務使用，會採以「保守原則」，估算參數會抓20倍下去當分母，讓參數大一點，讓訓練FLOPs數值較大，在保守原則下得出訓練時間，基本上就是評估最差狀況。

等到具體實施時，較容易出現「倒吃甘蔗」的情形，也比較不會遭到業主的挑戰與質疑。

文字AI訓練FLOPs

為方便理解，就以簡單的文字文件估算所需算力FLOPs，像是MS Office辦公室軟體與pdf檔案。

Token 數如何得知？一個英文單字，簡單估算法可以用音節方式計算，一個音節 ≈ 0.5個Token，一個中文字1個Token。

接著看是要用一頁大約多少單字、共幾頁、共幾份檔案，抑或是以檔案大小回推頁數，都能得出總Token數。

如果對於檔案大小沒有概念的話，可以參考維基百科純文字檔共110GB（副檔名為.Zim），基本上一般企業應該很難超越維基百科。如果是圖文並茂版本，把整個維基百科打包則落在25TB左右。（延伸閱讀：Mirroring Wikimedia project XML dumps）

得出Token總數，就能得出參數總數，進而得出訓練FLOPs，最後除以GPU供應之算力FLOPs，就能得出訓練時間。

圖像算力需求

公式與文字不一樣，圖像涉及輸入圖像大小、訓練圖像數量、Batch Size、訓練 Epoch 數：

訓練總 FLOPs≈單張圖像FLOPs×3×總圖像數×訓練輪數 (epoch)。

關鍵在於「圖像本身」，模型結構與圖像輸入大小有關，高解析度圖像非常吃資源（如 2480×2480），通常會resize或patch-based模型訓練策略，因此公式就會變成：

圖像從預處理開始就需要用到算力，如上述resize、patch-based模型就是預處理的一環。由於每張圖像都需要經歷預處理的環節，公式上才會以「單張圖像FLOPs」作為開頭。

至於為什麼要乘以3？因為訓練中：

前向傳播 FLOPs = 1 倍；
反向傳播 FLOPs ≈ 2 倍；
總共 ≈ 3 倍前向 FLOPs。

訓練 Epoch 數則意味著全部資料會根據Batch Size隨機抽樣訓練幾次。

當關鍵的單圖FLOPs算出來，後續不論是假設圖片總數還是圖檔總容量，總訓練FLOPs自然迎刃而解。

音訊算力需求

語音模型實際輸入的是音訊，而非文字，token對應是音訊 frame的 embedding token，平均每秒大約50–75 token（視音訊特徵處理方式而定）。

音訊的訓練實際上需要考量時長、語言、音訊取樣率Sampling rate、音檔格式，根據不同音訊輸入來源以及終端AI應用，有不同的預處理與模型架構影響訓練FLOPs。

不過我們可以透過取得關鍵數據「每秒Token數」，並透過通用公式：

訓練 FLOPs ≈ 6 × N × D

根據訓練的音檔時長或檔案大小，得出總Token術後，接著回推參數總數，進而得出訓練FLOPs，最後除以GPU供應之算力FLOPs，得出訓練時間。

影像算力需求

影像需要考量檔案大小、時長、解析度、格式、幀率（FPS）、影像數量等等。

影像要用來做AI訓練，計算方式跟圖像相似，將每秒影像變成圖片後做訓練。假設每秒處理幀數 (FPS)為30，那麼一秒鐘就有30張圖像，後續就接著比照「單張圖像FLOPs」做處理。

只是影像根據需求，需要應用不同的AI模型，才能達到動態追蹤，因此在單張圖像FLOPs的計算上，需要把不同AI模型的應用納入：

每秒所需FLOPs＝張數 × 模型結構 × 圖片大小

以人流分析影像為例，我們可以簡單切出需要AI模型的幾個區塊：影像預處理、特徵分析、物件偵測、密度估計、目標追蹤。

根據上述五大區塊，就是我們從輸入影像後，需要透過上述五大AI模型區塊進行訓練，上述五項有各自的AI模型，組合起來就是所謂的模型結構，最終得到「人流分析影像」的AI應用。

將模型結構所需每秒FLOPs得出，再根據總訓練資料集的總時長或影像檔案大小納入計算，得出訓練FLOPs，後續照本宣科與GPU算力相除，就能得出訓練時間。

CAD工程圖算力需求

更複雜尚未碰到，目前難度最高的就停留在工程圖CAD上。CAD不是純文字、也不是純圖片，而是結構化的技術資料格式，屬於矢量圖。

要將CAD檔案餵給AI模型做訓練，需要考量CAD內容的結構化資料，以及採用的AI模型結構而定。

單一張CAD所需要的算力多寡，根據CAD圖的解析度、物件數量、尺寸、圖層數量等資訊決定。一張 300MB~2GB 的 CAD 檔轉成圖片時，可能會是超大解析度圖（如 8000×8000 px），會非常佔Token。

假設訓練一個 AI 模型來從結構化 CAD (.dwg) 檔案中偵測接點並自動連線，可以拆分成CAD預處理、CAD 結構解析、接點偵測、點與點之間的路徑預測四大區塊，根據上述四項採用相對應的AI模型。

CAD圖檔最後以圖面形式餵進AI模型結構中做訓練，因此就能回到「單張圖像FLOPs」，然後將訓練用CAD檔案數量或檔案大小帶出來，就能得到所需算力，最後除以GPU算力就能得到訓練時間。

總結：以終為始，慢慢推算FLOPs

計算AI所需算力需求的重點在於「以終為始」。最終輸出的「使用目的」，決定起始輸入的「資料類型」，過程中需要搭建哪些「AI模型結構」，決定了需要多少算力FLOPs。

正因為終端應用族繁不及備載，難一言以蔽之，只能用通則與簡單的範例說明，希望讀者多少能看懂筆者想表達的意思。

至於複數不同AI混合應用的算力估算，自己在實務上先是拆解不同類型，各自試算完FLOPs後簡單加總。不確定這樣估算是否正確，有待專家指教。

最重要的，在計算完算力供需後，自己是會採「保守原則」估算：算力需求取最大值，算力供應取最小值。倘若試算的訓練時數業主能接受的話，後續實際出來的成效只要不比預期差，基本上就不會受太多質疑與挑戰。

當然，自己非本科出生，對於AI也只是剛入門，關於本篇計算AI算力FLOPs的概念框架，若有敘述不周或內容錯誤，還請各路高人補充與指正。

參考資料

Patrick.Wong的沙龍Patrick的人生故事館

留言

Patrick.Wong的沙龍

266會員

545內容數

一位在因緣際會之下，動了想去紐西蘭的念頭，卻陰錯陽差跑到澳洲打工度假的背包客。脫離台灣世俗的期待，踏上打工度假的不歸路，第二人生正式在澳洲啟航。如果人生很短，那青春就是短暫一瞬間，屬於你的第二人生，下一站在哪呢？還沒開始的理由，又是什麼呢？歡迎來到我的澳洲故事館，分享我在澳洲的旅程故事。

Patrick.Wong的沙龍的其他內容

2025/11/15

月均量破萬：2025年方格子經營報告

每年的例行公事，檢討自己過去一年的平台經營狀況：2025年方格子經營報告－月均量破萬。給未來一年的期許：保持周更，月流量破萬應為地板，而非天花板。

2025/11/15

月均量破萬：2025年方格子經營報告

2025/11/08

幾種常見的AI應用類型

幾種常見的AI應用類型： 1. 文字AI應用； 2. 圖像AI應用； 3. 音訊／語音AI應用； 4. 影像AI應用； 5. 複雜格式AI應用； 6. 總結：隨著AI應用蓬勃發展，多模態終將成為日常風景。

2025/11/08

幾種常見的AI應用類型

2025/11/01

如何評估GPU能提供多少AI算力？

基本公式：GPU算力＝理論峰值×實際效能×加速比。 GPU該如何提升算力實際利用率，從硬體規格就開始。根據使用情境與AI應用，推估出所需算力，才能知道有哪些等級的GPU可滿足AI用途，最終根據終端AI運用情境、所需算力與GPU型號決定硬體配置。

2025/11/01

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

美股 101

DeepSeek 衝擊 NVIDIA？AI 算力需求是否會改變市場格局？黃仁勳的回應透露關鍵！

#NVIDIA#DeepSeek#GPU

2025/02/21

美股 101

DeepSeek 衝擊 NVIDIA？AI 算力需求是否會改變市場格局？黃仁勳的回應透露關鍵！

#NVIDIA#DeepSeek#GPU

2025/02/21

M.A.I.A. 的數位煉金工坊

AI 撞上物理極限：「記憶體牆」如何終結「暴力美學」，迎來「更巧煉金術」的萬神殿時代？

AI「越大越好」的競賽正撞上「記憶體牆」物理極限，其驚人的能耗與成本已難以為繼。本報告將解析此技術瓶頸的成因，並引用最新產業報告與領袖觀點，探討突破高牆的三大新技術：硬體革命、演算法優雅與去中心化算力。我們預測，物理極限將迫使 AI 從「諸神之戰」走向一個更民主、更高效的「萬神殿」時代。。

#記憶體牆#AI硬體#模型優化

2025/09/20

M.A.I.A. 的數位煉金工坊

AI 撞上物理極限：「記憶體牆」如何終結「暴力美學」，迎來「更巧煉金術」的萬神殿時代？

#記憶體牆#AI硬體#模型優化

2025/09/20

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11