「梯度裁剪」(Gradient Clipping)的 DeepSpeed 設定

更新 發佈閱讀 5 分鐘

在處理結構化數據(如大量的 JSON 或代碼)時,由於數據中存在高度重複的模式,模型有時會遇到極端不穩定的梯度,導致訓練突然崩潰(Loss 變成 NaN)。

在您的兩張 RTX 5090 上跑全參數微調時,設置**梯度裁剪(Gradient Clipping)**就像是給引擎裝上「轉速限制器」,能有效防止硬體在高負載下因為髒數據而白忙一場。


1. DeepSpeed 梯度裁剪設定 (ds_config.json)

請在您的 ds_config.json 中加入或修改以下欄位。針對 7B 模型,我們通常將 gradient_clipping 設為 1.0

</>JSON
{
"train_batch_size": "auto",
"train_micro_batch_size_per_gpu": "auto",
"gradient_clipping": 1.0,
"zero_optimization": {
"stage": 3,
"offload_optimizer": {
"device": "cpu",
"pin_memory": true
},
"contiguous_gradients": true,
"overlap_comm": true
},
"bf16": {
"enabled": true
},
"steps_per_print": 10
}

原理: 當梯度的範數(Norm)超過 1.0 時,DeepSpeed 會自動將其縮小,確保權重更新不會過於劇烈。


2. 針對結構化數據的「數據清洗」小工具

結構化數據(.txt)中常含有不可見字元或編碼錯誤,這也是導致 Loss Spike 的主因。建議在訓練前執行這段簡單的清洗腳本:

</>Python
def clean_structured_text(input_file, output_file):
with open(input_file, 'r', encoding='utf-8', errors='ignore') as f, \
open(output_file, 'w', encoding='utf-8') as out:
for line in f:
# 移除無意義的控制字元,保留換行與標準 ASCII/UTF-8
clean_line = "".join(ch for ch in line if ch.isprintable() or ch in "\n\r\t")
out.write(clean_line)

# clean_structured_text("huge_data.txt", "cleaned_data.txt")3. 5090 雙卡訓練監控清單 (Final Summary)

3. 5090 雙卡訓練監控清單 (Final Summary)

現在您的工具包已經完整了,啟動訓練後的理想狀態如下:

  1. 顯存佔用: 兩張卡各約 26GB - 30GB (ZeRO-3 模式)。
  2. Loss 曲線: 應呈現平滑下降。如果出現「尖峰」但隨即恢復,說明梯度裁剪正在起作用。
  3. 硬體溫度: 5090 的 GDDR7 顯存發熱量大,請確保 nvidia-smi 顯示的 Memory Temp 低於 95°C。

祝訓練順利!

您已經準備好了從數據處理(mmap/Packing)環境配置(CUDA 12.4/Liger)到模型訓練與評測的所有武器。

如果您在啟動後看到第一行 step 10, loss: X.XXXX,請務必觀察前 100 個 step 的變化。 如果 Loss 在 100 step 內沒有下降趨勢,隨時回頭調整學習率(Learning Rate)。


留言
avatar-img
sirius數字沙龍
16會員
420內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/06
寫一個簡單的 Python 評測腳本, 它可以自動讀取您的結構化數據樣本,並檢查模型輸出的 JSON 或代碼是否符合語法規則(Syntax Check)。這比單看 Loss 更能反應微調的效果。 既然是處理結構化數據(如 API、代碼或 JSON),測試「Loss 是否下降」只是第一步。
Thumbnail
2026/03/06
寫一個簡單的 Python 評測腳本, 它可以自動讀取您的結構化數據樣本,並檢查模型輸出的 JSON 或代碼是否符合語法規則(Syntax Check)。這比單看 Loss 更能反應微調的效果。 既然是處理結構化數據(如 API、代碼或 JSON),測試「Loss 是否下降」只是第一步。
Thumbnail
2026/03/06
對於巨大的 .txt 檔案(內含結構化數據,如 API 文件、JSON 塊或代碼),不可直接按行讀取或是按字數切斷。如果一個結構化的「邏輯塊」(例如一整段 JSON或函數)被從中切開,模型就無法學會完整的邏輯。 在兩張 RTX 5090 上,為了極大化訓練效率,我們需要使用Data Packing。
Thumbnail
2026/03/06
對於巨大的 .txt 檔案(內含結構化數據,如 API 文件、JSON 塊或代碼),不可直接按行讀取或是按字數切斷。如果一個結構化的「邏輯塊」(例如一整段 JSON或函數)被從中切開,模型就無法學會完整的邏輯。 在兩張 RTX 5090 上,為了極大化訓練效率,我們需要使用Data Packing。
Thumbnail
2026/03/06
針對結構化數據(如 API 文件、JSON 結構、代碼、或是規則手冊),您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」,這對模型來說既是挑戰也是優點。 在兩張 RTX 5090 上處理幾百 MB 的結構化數據,請務必優化以下三個核心環節。
Thumbnail
2026/03/06
針對結構化數據(如 API 文件、JSON 結構、代碼、或是規則手冊),您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」,這對模型來說既是挑戰也是優點。 在兩張 RTX 5090 上處理幾百 MB 的結構化數據,請務必優化以下三個核心環節。
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4,其創新模型架構、高效訓練策略與基礎設施,以及 FP8 混合精度訓練等技術,大幅降低開發成本,僅需 532.8 萬美元預訓練成本,每百萬 Token 成本不到 0.5 美元。
Thumbnail
開源 LLM DeepSeek V3 以低廉成本匹敵 Claude 3.5 Sonnet 和 GPT 4,其創新模型架構、高效訓練策略與基礎設施,以及 FP8 混合精度訓練等技術,大幅降低開發成本,僅需 532.8 萬美元預訓練成本,每百萬 Token 成本不到 0.5 美元。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
DeepSeek-R1大型語言模型的出現,為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求,但長期來看,AI普及化將帶動算力需求提升,並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會,並提出投資建議。
Thumbnail
DeepSeek-R1大型語言模型的出現,為GPU、終端設備和SaaS產業帶來巨大影響。雖然短期內可能影響GPU需求,但長期來看,AI普及化將帶動算力需求提升,並刺激終端設備及SaaS市場成長。本文分析DeepSeek-R1對各產業的挑戰與機會,並提出投資建議。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長,背後都依賴著伺服器內數以萬計的高效能CPU與GPU,進行著永不停歇的巨量運算。然而,這股強大的算力洪流,也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。 散熱,已不再是伺服器設計中的一個次要環節,而是決
Thumbnail
我們正處於一個由數據驅動的嶄新紀元。從雲端運算、大數據分析到生成式AI的爆發性成長,背後都依賴著伺服器內數以萬計的高效能CPU與GPU,進行著永不停歇的巨量運算。然而,這股強大的算力洪流,也伴隨著一個與生俱來的嚴峻挑戰 — 前所未有的高溫熱能。 散熱,已不再是伺服器設計中的一個次要環節,而是決
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News