如何評估AI訓練所需算力?

更新 發佈閱讀 10 分鐘

先前文章介紹完GPU算力估算(如何評估GPU能提供多少AI算力?)與AI應用類型(幾種常見的AI應用類型),本文接著分享如何估算AI訓練所需算力。

算力需求估算公式

最常用來估算AI模型所需訓練算力的基本公式:

訓練 FLOPs ≈ 6 × N × D
  • N = 模型參數數(parameter count)。
  • D = 訓練的 token 數。
  • FLOPs = 結果是需要多少「浮點運算」(FLOPs)。

e.g., 訓練一個 100B 模型、用 500B tokens → 約需要 3e24 FLOPs。

訓練FLOPs估算值「6」

訓練 FLOPs 估算為什麼用6?6是基於 Transformer 架構計算成本的「經驗係數」,代表平均每個參數參與一個 token 訓練所需的運算次數,這個值會隨模型架構在5~7之間略變,但 6 是合理且保守的抓法,是共通採用的簡化估算係數。

為什麼要簡化公式?因為實際 FLOPs 要考慮眾多因素,像是層數、MLP隱藏維度、Activation function計算量、Embedding / Norm / Residual 等結構、Forward / Backward 計算次數、Hidden size、Batch size & Pipeline優化等等。

透過一個萬用的簡化公式,快速估出FLOPs來衡量訓練成本、訓練時間、比較不同規模的數據集/AI模型所需要的算力需求。

有了基本公式,就能探討不同AI應用模型的算力需求。

參數parameter

模型參數數量(通常用 M 或 B 表示)是指這個 AI 模型「有多少可以學習的知識容量」,可以把它想成模型的「腦容量」或「記憶體」。

當我們提供訓練資料(tokens)給模型學習時,模型會根據這些資料去調整每一個參數的值,進而學會判斷、預測或生成文字的能力。

與常數6相同,模型參數數量也有經驗法則:

理想情況下:Token 數 ≈ 參數數的 20~30 倍。

因此,假如公式中,Token數量已知,就能根據上述法則推估參數數量。反過來說,要是只知道參數,同理能推出Token數。

為什麼要這樣配比?如果模型太大、資料太少→容易過度擬合(overfit);如果模型太小、資料太多 → 學不出東西(underfit)。理論上模型參數 ≈ token 數的 1/20 到 1/30 是訓練效果的甜蜜點。

自己在實務使用,會採以「保守原則」,估算參數會抓20倍下去當分母,讓參數大一點,讓訓練FLOPs數值較大,在保守原則下得出訓練時間,基本上就是評估最差狀況。

等到具體實施時,較容易出現「倒吃甘蔗」的情形,也比較不會遭到業主的挑戰與質疑。

文字AI訓練FLOPs

為方便理解,就以簡單的文字文件估算所需算力FLOPs,像是MS Office辦公室軟體與pdf檔案。

Token 數如何得知?一個英文單字,簡單估算法可以用音節方式計算,一個音節 ≈ 0.5個Token,一個中文字1個Token。

接著看是要用一頁大約多少單字、共幾頁、共幾份檔案,抑或是以檔案大小回推頁數,都能得出總Token數。

如果對於檔案大小沒有概念的話,可以參考維基百科純文字檔共110GB(副檔名為.Zim),基本上一般企業應該很難超越維基百科。如果是圖文並茂版本,把整個維基百科打包則落在25TB左右。(延伸閱讀:Mirroring Wikimedia project XML dumps

得出Token總數,就能得出參數總數,進而得出訓練FLOPs,最後除以GPU供應之算力FLOPs,就能得出訓練時間。

圖像算力需求

公式與文字不一樣,圖像涉及輸入圖像大小、訓練圖像數量、Batch Size、訓練 Epoch 數:

訓練總 FLOPs≈單張圖像FLOPs×3×總圖像數×訓練輪數 (epoch)

關鍵在於「圖像本身」,模型結構與圖像輸入大小有關,高解析度圖像非常吃資源(如 2480×2480),通常會resize或patch-based模型訓練策略,因此公式就會變成:

vocus|新世代的創作平台

圖像從預處理開始就需要用到算力,如上述resize、patch-based模型就是預處理的一環。由於每張圖像都需要經歷預處理的環節,公式上才會以「單張圖像FLOPs」作為開頭。

至於為什麼要乘以3?因為訓練中:

  • 前向傳播 FLOPs = 1 倍;
  • 反向傳播 FLOPs ≈ 2 倍;
  • 總共 ≈ 3 倍前向 FLOPs。

訓練 Epoch 數則意味著全部資料會根據Batch Size隨機抽樣訓練幾次。

當關鍵的單圖FLOPs算出來,後續不論是假設圖片總數還是圖檔總容量,總訓練FLOPs自然迎刃而解。

音訊算力需求

語音模型實際輸入的是音訊,而非文字,token對應是音訊 frame的 embedding token,平均每秒大約50–75 token(視音訊特徵處理方式而定)。

音訊的訓練實際上需要考量時長、語言、音訊取樣率Sampling rate、音檔格式,根據不同音訊輸入來源以及終端AI應用,有不同的預處理與模型架構影響訓練FLOPs。

不過我們可以透過取得關鍵數據「每秒Token數」,並透過通用公式:

訓練 FLOPs ≈ 6 × N × D

根據訓練的音檔時長或檔案大小,得出總Token術後,接著回推參數總數,進而得出訓練FLOPs,最後除以GPU供應之算力FLOPs,得出訓練時間。

影像算力需求

影像需要考量檔案大小、時長、解析度、格式、幀率(FPS)、影像數量等等。

影像要用來做AI訓練,計算方式跟圖像相似,將每秒影像變成圖片後做訓練。假設每秒處理幀數 (FPS)為30,那麼一秒鐘就有30張圖像,後續就接著比照「單張圖像FLOPs」做處理。

只是影像根據需求,需要應用不同的AI模型,才能達到動態追蹤,因此在單張圖像FLOPs的計算上,需要把不同AI模型的應用納入:

每秒所需FLOPs=張數 × 模型結構 × 圖片大小

以人流分析影像為例,我們可以簡單切出需要AI模型的幾個區塊:影像預處理、特徵分析、物件偵測、密度估計、目標追蹤。

根據上述五大區塊,就是我們從輸入影像後,需要透過上述五大AI模型區塊進行訓練,上述五項有各自的AI模型,組合起來就是所謂的模型結構,最終得到「人流分析影像」的AI應用。

將模型結構所需每秒FLOPs得出,再根據總訓練資料集的總時長或影像檔案大小納入計算,得出訓練FLOPs,後續照本宣科與GPU算力相除,就能得出訓練時間。

CAD工程圖算力需求

更複雜尚未碰到,目前難度最高的就停留在工程圖CAD上。CAD不是純文字、也不是純圖片,而是結構化的技術資料格式,屬於矢量圖。

要將CAD檔案餵給AI模型做訓練,需要考量CAD內容的結構化資料,以及採用的AI模型結構而定。

單一張CAD所需要的算力多寡,根據CAD圖的解析度、物件數量、尺寸、圖層數量等資訊決定。一張 300MB~2GB 的 CAD 檔轉成圖片時,可能會是超大解析度圖(如 8000×8000 px),會非常佔Token。

假設訓練一個 AI 模型來從結構化 CAD (.dwg) 檔案中偵測接點並自動連線,可以拆分成CAD預處理、CAD 結構解析、接點偵測、點與點之間的路徑預測四大區塊,根據上述四項採用相對應的AI模型。

CAD圖檔最後以圖面形式餵進AI模型結構中做訓練,因此就能回到「單張圖像FLOPs」,然後將訓練用CAD檔案數量或檔案大小帶出來,就能得到所需算力,最後除以GPU算力就能得到訓練時間。

總結:以終為始,慢慢推算FLOPs

計算AI所需算力需求的重點在於「以終為始」。最終輸出的「使用目的」,決定起始輸入的「資料類型」,過程中需要搭建哪些「AI模型結構」,決定了需要多少算力FLOPs。

正因為終端應用族繁不及備載,難一言以蔽之,只能用通則與簡單的範例說明,希望讀者多少能看懂筆者想表達的意思。

至於複數不同AI混合應用的算力估算,自己在實務上先是拆解不同類型,各自試算完FLOPs後簡單加總。不確定這樣估算是否正確,有待專家指教。

最重要的,在計算完算力供需後,自己是會採「保守原則」估算:算力需求取最大值,算力供應取最小值。倘若試算的訓練時數業主能接受的話,後續實際出來的成效只要不比預期差,基本上就不會受太多質疑與挑戰。

當然,自己非本科出生,對於AI也只是剛入門,關於本篇計算AI算力FLOPs的概念框架,若有敘述不周或內容錯誤,還請各路高人補充與指正。


參考資料

  1. 你知道嗎?你可以在 110 GB 以下下載整個維基百科?
  2. 有沒有人知道下載維基百科,而且文章裡有圖片,這件事的可行性?
  3. Mirroring Wikimedia project XML dumps
  4. Wikipedia:Database download
留言
avatar-img
Patrick.Wong的沙龍
266會員
545內容數
一位在因緣際會之下,動了想去紐西蘭的念頭,卻陰錯陽差跑到澳洲打工度假的背包客。 脫離台灣世俗的期待,踏上打工度假的不歸路,第二人生正式在澳洲啟航。 如果人生很短,那青春就是短暫一瞬間,屬於你的第二人生,下一站在哪呢?還沒開始的理由,又是什麼呢? 歡迎來到我的澳洲故事館,分享我在澳洲的旅程故事。
Patrick.Wong的沙龍的其他內容
2025/11/15
每年的例行公事,檢討自己過去一年的平台經營狀況:2025年方格子經營報告-月均量破萬。給未來一年的期許:保持周更,月流量破萬應為地板,而非天花板。
Thumbnail
2025/11/15
每年的例行公事,檢討自己過去一年的平台經營狀況:2025年方格子經營報告-月均量破萬。給未來一年的期許:保持周更,月流量破萬應為地板,而非天花板。
Thumbnail
2025/11/08
幾種常見的AI應用類型: 1. 文字AI應用; 2. 圖像AI應用; 3. 音訊/語音AI應用; 4. 影像AI應用; 5. 複雜格式AI應用; 6. 總結:隨著AI應用蓬勃發展,多模態終將成為日常風景。
Thumbnail
2025/11/08
幾種常見的AI應用類型: 1. 文字AI應用; 2. 圖像AI應用; 3. 音訊/語音AI應用; 4. 影像AI應用; 5. 複雜格式AI應用; 6. 總結:隨著AI應用蓬勃發展,多模態終將成為日常風景。
Thumbnail
2025/11/01
基本公式:GPU算力=理論峰值×實際效能×加速比。 GPU該如何提升算力實際利用率,從硬體規格就開始。 根據使用情境與AI應用,推估出所需算力,才能知道有哪些等級的GPU可滿足AI用途,最終根據終端AI運用情境、所需算力與GPU型號決定硬體配置。
Thumbnail
2025/11/01
基本公式:GPU算力=理論峰值×實際效能×加速比。 GPU該如何提升算力實際利用率,從硬體規格就開始。 根據使用情境與AI應用,推估出所需算力,才能知道有哪些等級的GPU可滿足AI用途,最終根據終端AI運用情境、所需算力與GPU型號決定硬體配置。
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
AI「越大越好」的競賽正撞上「記憶體牆」物理極限,其驚人的能耗與成本已難以為繼。本報告將解析此技術瓶頸的成因,並引用最新產業報告與領袖觀點,探討突破高牆的三大新技術:硬體革命、演算法優雅與去中心化算力。我們預測,物理極限將迫使 AI 從「諸神之戰」走向一個更民主、更高效的「萬神殿」時代。 。
Thumbnail
AI「越大越好」的競賽正撞上「記憶體牆」物理極限,其驚人的能耗與成本已難以為繼。本報告將解析此技術瓶頸的成因,並引用最新產業報告與領袖觀點,探討突破高牆的三大新技術:硬體革命、演算法優雅與去中心化算力。我們預測,物理極限將迫使 AI 從「諸神之戰」走向一個更民主、更高效的「萬神殿」時代。 。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
「AI 教父」辛頓示警,AI 發展存在不可控、欺騙及挑戰人類獨特性三大風險。他從 Google 離職以自由發聲,並強調數位運算雖促成 AI 知識快速共享,卻也可能導致失控。企業應對此浪潮,需重視模型權重控管、辨識偽造內容、處理 AI 偏見,並積極推動人才轉型,在 AI 的機遇與風險中找到平衡點。
Thumbnail
「AI 教父」辛頓示警,AI 發展存在不可控、欺騙及挑戰人類獨特性三大風險。他從 Google 離職以自由發聲,並強調數位運算雖促成 AI 知識快速共享,卻也可能導致失控。企業應對此浪潮,需重視模型權重控管、辨識偽造內容、處理 AI 偏見,並積極推動人才轉型,在 AI 的機遇與風險中找到平衡點。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
DeepSeek崛起,中國AI新勢力衝擊全球!本文深入探討DeepSeek技術突破、AI產業發展趨勢、企業應用與監管挑戰。阿峰老師剖析AI發展的「油門與煞車」,並分享AI時代個人與企業的應變之道,帶領讀者掌握AI新知,提升競爭力。
Thumbnail
DeepSeek崛起,中國AI新勢力衝擊全球!本文深入探討DeepSeek技術突破、AI產業發展趨勢、企業應用與監管挑戰。阿峰老師剖析AI發展的「油門與煞車」,並分享AI時代個人與企業的應變之道,帶領讀者掌握AI新知,提升競爭力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News