「梯度裁剪」（Gradient Clipping）的 DeepSpeed 設定

2026/03/06 更新2026/03/06 發佈閱讀 5 分鐘

在處理結構化數據（如大量的 JSON 或代碼）時，由於數據中存在高度重複的模式，模型有時會遇到極端不穩定的梯度，導致訓練突然崩潰（Loss 變成 NaN）。

在您的兩張 RTX 5090 上跑全參數微調時，設置**梯度裁剪（Gradient Clipping）**就像是給引擎裝上「轉速限制器」，能有效防止硬體在高負載下因為髒數據而白忙一場。

1. DeepSpeed 梯度裁剪設定 (`ds_config.json`)

請在您的 ds_config.json 中加入或修改以下欄位。針對 7B 模型，我們通常將 gradient_clipping 設為 1.0：

</>JSON
{
  "train_batch_size": "auto",
  "train_micro_batch_size_per_gpu": "auto",
  "gradient_clipping": 1.0, 
  "zero_optimization": {
    "stage": 3,
    "offload_optimizer": {
      "device": "cpu",
      "pin_memory": true
    },
    "contiguous_gradients": true,
    "overlap_comm": true
  },
  "bf16": {
    "enabled": true
  },
  "steps_per_print": 10
}

原理： 當梯度的範數（Norm）超過 1.0 時，DeepSpeed 會自動將其縮小，確保權重更新不會過於劇烈。

2. 針對結構化數據的「數據清洗」小工具

結構化數據（.txt）中常含有不可見字元或編碼錯誤，這也是導致 Loss Spike 的主因。建議在訓練前執行這段簡單的清洗腳本：

</>Python
def clean_structured_text(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8', errors='ignore') as f, \
         open(output_file, 'w', encoding='utf-8') as out:
        for line in f:
            # 移除無意義的控制字元，保留換行與標準 ASCII/UTF-8
            clean_line = "".join(ch for ch in line if ch.isprintable() or ch in "\n\r\t")
            out.write(clean_line)

# clean_structured_text("huge_data.txt", "cleaned_data.txt")3. 5090 雙卡訓練監控清單 (Final Summary)

3. 5090 雙卡訓練監控清單 (Final Summary)

現在您的工具包已經完整了，啟動訓練後的理想狀態如下：

顯存佔用： 兩張卡各約 26GB - 30GB (ZeRO-3 模式)。
Loss 曲線： 應呈現平滑下降。如果出現「尖峰」但隨即恢復，說明梯度裁剪正在起作用。
硬體溫度： 5090 的 GDDR7 顯存發熱量大，請確保 nvidia-smi 顯示的 Memory Temp 低於 95°C。

祝訓練順利！

您已經準備好了從數據處理（mmap/Packing）、環境配置（CUDA 12.4/Liger）到模型訓練與評測的所有武器。

如果您在啟動後看到第一行 step 10, loss: X.XXXX，請務必觀察前 100 個 step 的變化。 如果 Loss 在 100 step 內沒有下降趨勢，隨時回頭調整學習率（Learning Rate）。

留言

sirius數字沙龍

16會員

420內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/06

一個簡單的 Python 評測腳本

寫一個簡單的 Python 評測腳本，它可以自動讀取您的結構化數據樣本，並檢查模型輸出的 JSON 或代碼是否符合語法規則（Syntax Check）。這比單看 Loss 更能反應微調的效果。既然是處理結構化數據（如 API、代碼或 JSON），測試「Loss 是否下降」只是第一步。

2026/03/06

一個簡單的 Python 評測腳本

2026/03/06

處理結構化數據的Packing(多條數據拼接)

對於巨大的 .txt 檔案（內含結構化數據，如 API 文件、JSON 塊或代碼），不可直接按行讀取或是按字數切斷。如果一個結構化的「邏輯塊」（例如一整段 JSON或函數）被從中切開，模型就無法學會完整的邏輯。在兩張 RTX 5090 上，為了極大化訓練效率，我們需要使用Data Packing。

2026/03/06

處理結構化數據的Packing(多條數據拼接)

2026/03/06

針對結構化數據調整 Data Collator 的策略

針對結構化數據（如 API 文件、JSON 結構、代碼、或是規則手冊），您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」，這對模型來說既是挑戰也是優點。在兩張 RTX 5090 上處理幾百 MB 的結構化數據，請務必優化以下三個核心環節。

2026/03/06

針對結構化數據調整 Data Collator 的策略

看更多

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

解浩靈的思考和紀錄本

中國大陸 AI 又想彎道超車了！DeepSeek V3：低成本、高效能的開源大型語言模型

開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4，其創新模型架構、高效訓練策略與基礎設施，以及 FP8 混合精度訓練等技術，大幅降低開發成本，僅需 532.8 萬美元預訓練成本，每百萬 Token 成本不到 0.5 美元。

#數據#整合#智慧

2024/12/28

解浩靈的思考和紀錄本

中國大陸 AI 又想彎道超車了！DeepSeek V3：低成本、高效能的開源大型語言模型

#數據#整合#智慧

2024/12/28

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

杯米的投資筆記

從震撼到變革！DeepSeek 如何成為 AI 產業強力催化劑？

DeepSeek-R1大型語言模型的出現，為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求，但長期來看，AI普及化將帶動算力需求提升，並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會，並提出投資建議。

#deepseek#gpu#模型

2025/02/03

杯米的投資筆記

從震撼到變革！DeepSeek 如何成為 AI 產業強力催化劑？

#deepseek#gpu#模型

2025/02/03

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

IDMockup & Precision Mold 汐紫模型

駕馭AI時代的熱浪：汐紫模型如何以精密製造，助您打造次世代伺服器散熱模組

我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長，背後都依賴著伺服器內數以萬計的高效能CPU與GPU，進行著永不停歇的巨量運算。然而，這股強大的算力洪流，也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。散熱，已不再是伺服器設計中的一個次要環節，而是決

#測試#設計師#專業

2025/09/18

IDMockup & Precision Mold 汐紫模型

駕馭AI時代的熱浪：汐紫模型如何以精密製造，助您打造次世代伺服器散熱模組

#測試#設計師#專業

2025/09/18

DA的美股日記

傳統的大型模型（如全連接 Transformer 模型）與 MoE（混合專家）架構的主要區別

1. 參數使用方式傳統大型模型（全連接 Transformer 模型）：激活全部參數：每次處理輸入數據時，模型中的所有參數（例如權重和偏置）都會參與計算，無論輸入的特性或需求。特點：運算負擔大，因為無論輸入的複雜性或性質如何，模型都需要用所有的參數進行推理。訓練和推理時需要更高

#交易#傳統#Switch

2025/01/27

DA的美股日記

傳統的大型模型（如全連接 Transformer 模型）與 MoE（混合專家）架構的主要區別

#交易#傳統#Switch

2025/01/27

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News

1. DeepSpeed 梯度裁剪設定 (ds_config.json)

2. 針對結構化數據的「數據清洗」小工具

3. 5090 雙卡訓練監控清單 (Final Summary)

祝訓練順利！

1. DeepSpeed 梯度裁剪設定 (`ds_config.json`)