針對結構化數據調整 Data Collator 的策略

更新 發佈閱讀 5 分鐘

針對結構化數據(如 API 文件、JSON 結構、代碼、或是規則手冊),您的訓練策略必須比處理一般文章更為精確。結構化數據的特性在於其「邏輯嚴密性」與「格式固定性」,這對模型來說既是挑戰也是優點。

在兩張 RTX 5090 上處理幾百 MB 的結構化數據,請務必優化以下三個核心環節:


1. 數據預處理:從「文字」到「邏輯塊」

結構化數據最忌諱被「隨機切斷」。如果一個 API 的定義被切成兩半放在不同的訓練樣本中,模型很難學會完整的邏輯。

  • Packing 策略:

使用 "Constant Length Padding"。將多個完整的結構化塊拼接到 40968192Token,並在每個塊之間加入特殊的 EOS(End of Sequence)符號。

  • 範例處理:如果數據是 API 文件,建議格式化為:

### Definition: [API_NAME] \n ### Schema: [JSON_BODY] \n ### Usage: [CODE_EXAMPLE] <|end_of_text|>


2. 訓練器的關鍵設定 (5090 特化)

處理結構化數據時,模型需要更高的注意力精確度

優先級一:Flash Attention 3 與長文本

結構化數據往往包含長列表或嵌套結構。5090 配合 Flash Attention 3 可以輕鬆處理 8192 甚至更長的序列。

  • 優點: 讓模型在看 API 的結尾時,依然能「記住」開頭的定義。

優先級二:Liger Kernel 的 FusedLinearCrossEntropy

由於結構化數據中包含大量重複的符號(如 {, }, [, ] 或特定 Key 值),這會導致模型在計算 Loss 時,最後一層的邏輯非常集中。

  • 配置: 務必開啟 Liger Kernel,它優化的 Cross Entropy 計算能讓模型在面對高重複性 Token 時,梯度更新更穩定,且省下更多顯存。

3. DeepSpeed Stage 3 + 8-bit Adam

儘管 5090 很強,但全參數微調 7B 模型時,優化器狀態會佔用巨大空間。

  • 配置建議: 使用 DeepSpeed ZeRO-3,並將 offload_optimizer 設為 cpu。同時,為了加速收斂並節省 RAM,建議使用 bitsandbytes 8-bit AdamW 優化器
</>JSON
{
"zero_optimization": {
"stage": 3,
"offload_optimizer": {
"device": "cpu"
}
},
"optimizer": {
"type": "AdamW",
"params": {
"lr": 1e-5,
"betas": [0.9, 0.95],
"eps": 1e-8,
"weight_decay": 0.1
}
}
}

4. 針對結構化數據的特殊調整:學習率與權重衰減

  • Learning Rate (LR): 建議設為 1e-5。結構化數據不需要模型「發揮創意」,需要的是「精確記憶」。較低的 LR 能防止模型過度擬合(Overfitting)導致喪失對話能力。
  • Weight Decay: 設為 0.1。這能強制模型學習數據背後的規律,而不是死背某個特定的 API 參數名稱。

5. 驗證與測試 (Evaluation)

訓練完成後,結構化數據的驗證不能只看 Loss,建議建立一個小的 測試集 (Evaluation Set)

  1. 給予一個 API 名稱,看模型是否能輸出正確的 JSON 格式。
  2. 給予一個邏輯需求,看模型是否能調用正確的結構。



留言
avatar-img
sirius數字沙龍
17會員
422內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/05
根據不同專業數據量,判斷該用 Full Fine-Tuning 還是 LoRA,給出對應的 python 訓練參數設定。對於幾百 MB 的純文字數據(這大約相當於數億個 Token),是一個非常尷尬的規模:用 LoRA 可能學得不夠深,但全參數微調(Full Fine-Tuning)又非常吃資源。
Thumbnail
2026/03/05
根據不同專業數據量,判斷該用 Full Fine-Tuning 還是 LoRA,給出對應的 python 訓練參數設定。對於幾百 MB 的純文字數據(這大約相當於數億個 Token),是一個非常尷尬的規模:用 LoRA 可能學得不夠深,但全參數微調(Full Fine-Tuning)又非常吃資源。
Thumbnail
2026/03/05
如果數據量很大,建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字,再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。 準備讓模型吸收專業知識,在 2x RTX 5090 的硬體基礎下,最專業的做法是分為兩個階段。
Thumbnail
2026/03/05
如果數據量很大,建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字,再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。 準備讓模型吸收專業知識,在 2x RTX 5090 的硬體基礎下,最專業的做法是分為兩個階段。
Thumbnail
2026/03/05
如果要讓模型「學習新的專業知識」(例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔),這屬於 知識注入(Knowledge Injection) 範疇。 在這種場景下,微調的策略與單純改變說話語氣(Style Transfer)完全不同。
Thumbnail
2026/03/05
如果要讓模型「學習新的專業知識」(例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔),這屬於 知識注入(Knowledge Injection) 範疇。 在這種場景下,微調的策略與單純改變說話語氣(Style Transfer)完全不同。
Thumbnail
看更多
你可能也想看
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
查詢某集團的投資架構時,發現公開的電子檔案一個低級錯誤。提醒社畜的各位,注意這些小細節。農曆年後也是許多人轉職到新工作的開始,新的開始注意這些小細節,別一開頭就歪腰!
Thumbnail
查詢某集團的投資架構時,發現公開的電子檔案一個低級錯誤。提醒社畜的各位,注意這些小細節。農曆年後也是許多人轉職到新工作的開始,新的開始注意這些小細節,別一開頭就歪腰!
Thumbnail
在這邊的技巧僅限於使用 Microsoft 的 Word 還有就是使用電子簽核。真的遇到問題時 Microsoft 的支援和搜尋會比這篇有用。
Thumbnail
在這邊的技巧僅限於使用 Microsoft 的 Word 還有就是使用電子簽核。真的遇到問題時 Microsoft 的支援和搜尋會比這篇有用。
Thumbnail
上一篇分享了我們申請加拿大工作簽證的時間表,在這個過程中,我們準備和填寫了很多文件,因此在這裡做一個所需文件總整理,之後再針對官方表格的部份,一個一個教各位如何填寫。
Thumbnail
上一篇分享了我們申請加拿大工作簽證的時間表,在這個過程中,我們準備和填寫了很多文件,因此在這裡做一個所需文件總整理,之後再針對官方表格的部份,一個一個教各位如何填寫。
Thumbnail
一個時常被問到的問題:作家是如何寫作的? 規律的生活,這是最常聽到的答案。 然而我們在回答的當下總會有一絲心虛或異樣感,有時連我們自己都忘了這樣的異樣感所為何來。我現在揭示這個問題:那是因為提出這個問題的人,真正想問的是寫作的當下發生了什麼,或者說真正能滿足他們好奇心的答案,隱藏在寫作的當下發生
Thumbnail
一個時常被問到的問題:作家是如何寫作的? 規律的生活,這是最常聽到的答案。 然而我們在回答的當下總會有一絲心虛或異樣感,有時連我們自己都忘了這樣的異樣感所為何來。我現在揭示這個問題:那是因為提出這個問題的人,真正想問的是寫作的當下發生了什麼,或者說真正能滿足他們好奇心的答案,隱藏在寫作的當下發生
Thumbnail
外籍人士持駐外館處所核發並加註不得延期之停留簽證入境中華民國後,如因罹患急性重症,或遇天災或其他不可抗力事故,致無法依限離境時,要如何處理? 務請於原持停留簽證在臺停留期限屆滿5個工作天前,備妥說明書、護照正本、中華民國簽證申請表及相關證明文件(如醫院診斷證明書),向領務局或外交部各分支機構申請改辦
Thumbnail
外籍人士持駐外館處所核發並加註不得延期之停留簽證入境中華民國後,如因罹患急性重症,或遇天災或其他不可抗力事故,致無法依限離境時,要如何處理? 務請於原持停留簽證在臺停留期限屆滿5個工作天前,備妥說明書、護照正本、中華民國簽證申請表及相關證明文件(如醫院診斷證明書),向領務局或外交部各分支機構申請改辦
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
參加曼陀號 PM 組第二次的月會的活動心得, 這次的主題是 PRD 的撰寫,PRD 的全文是 Product Requirement Document,是每個產品經理工作中最常接觸的工作內容。
Thumbnail
參加曼陀號 PM 組第二次的月會的活動心得, 這次的主題是 PRD 的撰寫,PRD 的全文是 Product Requirement Document,是每個產品經理工作中最常接觸的工作內容。
Thumbnail
今天來講:用 MkDocs 快速建立文件網頁,並部署在 Read The Docs 上。 (南瓜標記🎃 2023082901號文章)
Thumbnail
今天來講:用 MkDocs 快速建立文件網頁,並部署在 Read The Docs 上。 (南瓜標記🎃 2023082901號文章)
Thumbnail
M3U8是什麼文件? M3U8文件是各種音頻和視頻播放使用的播放列表文件。M3U8文件是記錄了一個多媒體索引純文本文件,打開它時播放軟體並不是播放它,而是根據它的索引找到對應的音視頻文件的本地或者網路地址進行播放。
Thumbnail
M3U8是什麼文件? M3U8文件是各種音頻和視頻播放使用的播放列表文件。M3U8文件是記錄了一個多媒體索引純文本文件,打開它時播放軟體並不是播放它,而是根據它的索引找到對應的音視頻文件的本地或者網路地址進行播放。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News