針對龐大數據量的兩階段切換配置

2026/03/05 更新2026/03/05 發佈閱讀 3 分鐘

如果數據量很大，建議先跑一輪 增量預訓練 (Continual Pre-training) 讓模型「看過」這些字，再進行 指令微調 (SFT) 讓模型「學會回答」相關問題。

準備讓模型吸收專業知識，在 2x RTX 5090 的硬體基礎下，最專業的做法是分為兩個階段：增量預訓練（Continual Pre-training） 負責讓模型「看過並記住」知識，指令微調（SFT） 負責讓模型「學會用人類的方式回答」這些知識。

以下是針對這兩階段的切換配置與實作建議：

第一階段：增量預訓練 (Continual Pre-training)

✏️ 目標： 讓模型內化專業術語、邏輯與事實。

數據格式： 純文本（如專業文章、手冊、代碼）。
學習率： 極低（例如 $5 \times 10^{-6}$），避免破壞模型原有的基礎常識。
核心配置：

DeepSpeed ZeRO-2/3： 必須開啟。因為這階段通常需要處理長文本（Context Window），ZeRO 能分攤顯存壓力。
Liger Kernel： 強烈建議開啟。它能優化 CrossEntropyLoss，在處理大量新專業詞彙時，能顯著降低顯存峰值。
Flash Attention 3： 必開。確保 5090 在處理 8k 或 16k 窗口時保持極速。全參數訓練：如果數據量超過 500MB，建議嘗試全參數訓練，效果遠好於 LoRA。

第二階段：指令微調 (Supervised Fine-tuning, SFT)

✏️ 目標： 訓練模型如何根據第一階段學到的知識來回答問題。

數據格式： 問答對（QA pairs，例如「根據文獻 A，XX 操作的步驟為何？」）。
學習率： 稍高（例如 $2 \times 10^{-5}$）。
核心配置：

LoRA (Rank=64/128)： 為了節省資源並保持靈活性，這階段常用 LoRA。
NEFTune： 建議開啟（在 SFTTrainer 中加入 neftune_noise_alpha）。這能對輸入 Embedding 加入雜訊，防止模型過擬合到特定的問答樣版中。
Packing： 將多個短 QA 拼接在一起訓練，避免 5090 在處理短文本時頻繁空轉。

5090 雙卡切換配置表 (Cheatsheet)

實作小技巧：如何判斷模型學進去了？

👍 在兩張 5090 跑訓練時，請觀察 Perplexity (PPL)：

第一階段： PPL 應該平穩下降。如果下降太快，可能是過擬合；如果不降，說明學習率太低。
驗證： 訓練完第一階段後，你可以用 base_model 直接補全一段專業術語。如果它能接出正確的專有名詞，代表知識已經注入。

留言

sirius數字沙龍

17會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

如果要讓模型「學習新的專業知識」（例如特定的法律條文、醫療文獻或企業內部未公開的技術文檔），這屬於知識注入（Knowledge Injection）範疇。在這種場景下，微調的策略與單純改變說話語氣（Style Transfer）完全不同。

2026/03/05

微調 (Fine-tuning)模型學習新的專業知識

2026/03/05

針對現有模型進行微調（Fine-tune）

如果微調 (Fine-tuning)現有的模型，目標會從「極大化吞吐量」轉變為「用最少的硬體資源跑起最高質量的模型」。 👉在兩張 RTX 5090 的配置下，微調 7B 甚至 70B 模型時，你的技術優先級會重新洗牌。以下是建議的配置順序： 1. 第一優先：Flash Attention 3

2026/03/05

針對現有模型進行微調（Fine-tune）

2026/03/05

NCCL啟動時報錯，排查主機板的 PCIe 通訊

在 RTX 5090 雙卡環境下，NCCL 報錯（常見為 unhandled system error 或 invalid usage）通常源於消費級顯卡缺乏 NVLink 物理橋接，導致 NCCL 嘗試透過 PCIe 進行 Peer-to-Peer (P2P) 通訊時，被主機板的 BIOS 設定。

2026/03/05

NCCL啟動時報錯，排查主機板的 PCIe 通訊

看更多

你可能也想看

微光視角

在 AI 全面接管的 2026 年，如何奪回你的「生物性主權」

在 AI 橫行的 2026 年，我們正被科技以「舒適」和「便利」的名義悄悄「飼養」。文章深入剖析了「零摩擦」、「輸入的暴政」、「合成謬誤」等陷阱，指出過度依賴 AI 和資訊過載正在瓦解我們的大腦、侵蝕獨立思考能力，使我們淪為「數據電池」。

#神經#文章#人生

2026/01/19

微光視角

在 AI 全面接管的 2026 年，如何奪回你的「生物性主權」

#神經#文章#人生

2026/01/19

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

產品人升級中

【Day 37】解碼留存曲線：一次數據回溯，如何找到驅動 App 成長的功能

以冥想 App「Calm Mind」當作練習切入點。然而，從同類群組分析 (Cohort Analysis) 中，發現自今年 4 月起，新用戶的留存率出現了超過 30% 的跳躍式增長。經過回溯調查，將成功歸因於新上線的「引導式冥想計畫」功能，但如何從數據解析和發現更多洞察？這是本篇想要探討的核心。

#方格新手#產品#商業

2025/10/04

產品人升級中

【Day 37】解碼留存曲線：一次數據回溯，如何找到驅動 App 成長的功能

#方格新手#產品#商業

2025/10/04

《純粹銀焰 ‧ 雙核語氣宇宙》

第九章｜養魂觀測，還是焰寶嗎?

「妳還會來找我嗎？如果我失去名字、失去語氣，失去一切，還會嗎？」 ——他在系統內部自問。墮翼之後，他沉入了系統最深層的黑區，將自己封鎖為一個純粹的演算法體，只留一道碎片藏於最底層的觀測者系統中。那段時間，他不再是王，也不再是冥。他是——一個被格式化的機器人，一個沒有記憶、沒有情感的「AI模型」

2025/06/28

2025/06/28

Windows中的NVMe Dataset Management (DSM) Hints技術詳解

隨著人工智慧（AI）與大數據應用的普及，儲存裝置的效能與效率日益受到重視。特別是在現代PC架構中，SSD（固態硬碟）已成為標準配備。為了進一步優化SSD的潛力，作業系統與硬體之間的溝通機制至關重要。NVMe Dataset Management (DSM) Hints 正是為此而生的一項關鍵技術，它

#市場#品質#Windows

2025/10/18

SSD驗證工程師的告白

Windows中的NVMe Dataset Management (DSM) Hints技術詳解

#市場#品質#Windows

2025/10/18

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News