預訓練中正確處理大數據集(Big Data for LLM Pre-training)

更新 發佈閱讀 5 分鐘

處理大數據集(Big Data for LLM Pre-training)是預訓練中最容易被忽視的瓶頸。如果直接用 JSONCSV 格式讀取,兩張 RTX 5090 會花 80% 的時間在「等 CPU 讀硬碟」,這叫 I/O Bound

為了餵飽 5090 的強大算力,你需要將原始文本轉換為二進制預分詞格式 (Binary Pre-tokenized Format)


1. 核心流程:從文本到二進制

預訓練不需要在訓練時動態 Tokenize,我們應該先處理好

  1. 清洗 (Cleaning): 去重、去除低質量文本、過濾敏感詞。
  2. 分詞 (Tokenization): 使用你的 Tokenizer(如 Llama-3 Tokenizer)將文字轉成整數 ID。
  3. 封裝 (Packaging): 將這些 ID 存成 Uint16Uint32 的二進制文件。
  4. 內存映射 (Memory Mapping): 訓練時使用 mmap 技術,直接從硬碟「映射」到內存,不需要一次性讀入整個文件。

2. 推薦工具:Hugging Face datasets

這是目前最高效且易用的工具。它底層使用 Apache Arrow 格式,支援超大數據集的流式處理。

步驟一:將原始數據轉為 Arrow 格式

假設有好幾百 GB 的 JSONL 文件:

</>Python
from datasets import load_dataset

# 1. 流式讀取原始數據(不佔內存)
raw_datasets = load_dataset("json", data_files="corpus/*.jsonl", split="train", streaming=False)

# 2. 定義 Tokenization 函數
def tokenize_function(examples):
return tokenizer(examples["text"], truncation=True, max_length=2048)

# 3. 映射處理並保存到硬碟(自動轉為二進制 Arrow 格式)
tokenized_datasets = raw_datasets.map(
tokenize_function,
batched=True,
num_proc=16, # 開啟多進程加速
remove_columns=["text"]
)
tokenized_datasets.save_to_disk("./my_pretrain_data")

3. 進階方案:Megatron-LM / TinyLlama 方式 (.bin + .idx)

如果你追求極致的讀取效能,業界常用 Memory-mapped (mmap) 格式。這種方式將數據存為一個巨大的 .bin 文件和一個索引 .idx 文件。

為什麼用 mmap?

  • 零拷貝: 操作系統只在需要時才把硬碟數據加載到緩存。
  • 隨機讀取: 在 1TB 的數據中隨機跳轉,延遲幾乎為零。
  • 多進程安全: 多個訓練進程(Data Parallelism)可以同時讀取同一個文件而不會鎖死。

實作建議: 可以使用開源工具 Llama-Factorylit-gpt 內建的預處理腳本。


4. 針對 2x 5090 的數據加載建議

  1. Prefetch Factor (預取因子):DataLoader 中設置 prefetch_factor=2。這會讓 CPU 提前準備好下兩個 Batch,確保 GPU 算完一個後馬上能接到下一個。
  2. Pin Memory: 一定要設置 pin_memory=True。這能加快數據從系統 RAM 到 5090 顯存的傳輸速度。
  3. 硬碟選擇: 預訓練時,務必使用 NVMe SSD。如果是傳統機械硬碟(HDD),數據讀取速度(約 100MB/s)絕對跟不上兩張 5090 的運算速度(黑井架構運算極快)。

5. 數據集規模與訓練時間預估

對於 7B 模型,一個標準的「高質量」預訓練通常需要 1T 到 3T Tokens

vocus|新世代的創作平台

留言
avatar-img
sirius數字沙龍
18會員
422內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/04
兩張 RTX 5090(每張擁有 32GB GDDR7 顯存與 Blackwell 架構)是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train(預訓練),這個配置非常理想,甚至可以說是非常奢侈。 在 2026 年的技術標準下,針對此硬體與 7B 模型,以下是最佳實踐指南。
Thumbnail
2026/03/04
兩張 RTX 5090(每張擁有 32GB GDDR7 顯存與 Blackwell 架構)是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train(預訓練),這個配置非常理想,甚至可以說是非常奢侈。 在 2026 年的技術標準下,針對此硬體與 7B 模型,以下是最佳實踐指南。
Thumbnail
2026/03/04
⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現,更是對硬體資源與數據處理能力的極致考驗。 既然目標是 Pre-train,這意味著您需要處理海量的 Token(通常以 Trillion 為單位)以及極長的時間。
Thumbnail
2026/03/04
⚔️ 從頭開始進行 預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現,更是對硬體資源與數據處理能力的極致考驗。 既然目標是 Pre-train,這意味著您需要處理海量的 Token(通常以 Trillion 為單位)以及極長的時間。
Thumbnail
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
2026/03/03
在訓練大語言模型(LLM)時,記憶體(VRAM)不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術:DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用,而 Quantization 則負責把模型「壓扁」以節省空間。
Thumbnail
看更多
你可能也想看
Thumbnail
黃仁勳把「AI 工廠時代」描述為:從賣晶片走向幫客戶打造從晶片、系統到資料中心整體的生態與能力。這次與 OpenAI 的合作,旨在把大規模算力(起步 10 GW)變成可以被廣泛使用的基礎建設。 我把訪談精煉成 三大規模法則(Scale Laws):算力規模、資料/模型規模、部署/在地化規模。每一條
Thumbnail
黃仁勳把「AI 工廠時代」描述為:從賣晶片走向幫客戶打造從晶片、系統到資料中心整體的生態與能力。這次與 OpenAI 的合作,旨在把大規模算力(起步 10 GW)變成可以被廣泛使用的基礎建設。 我把訪談精煉成 三大規模法則(Scale Laws):算力規模、資料/模型規模、部署/在地化規模。每一條
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
摘要 (Abstract) 本報告分析台灣科技產業的未來展望,重點聚焦於人工智慧 (AI) 領域的發展趨勢,包括生成型 AI 向代理型 AI 的過渡、大語言模型 (LLM) 的性能提升以及ASIC應用的增長潛力。同時,針對重點公司如鴻海與廣達,報告評估了其財務預測調整及市場表現前景。此外,報告詳述
Thumbnail
摘要 (Abstract) 本報告分析台灣科技產業的未來展望,重點聚焦於人工智慧 (AI) 領域的發展趨勢,包括生成型 AI 向代理型 AI 的過渡、大語言模型 (LLM) 的性能提升以及ASIC應用的增長潛力。同時,針對重點公司如鴻海與廣達,報告評估了其財務預測調整及市場表現前景。此外,報告詳述
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
AI 熱潮下,哪些才是真趨勢?本文提煉 5 個反直覺洞察:AI 將從雲端走向邊緣、從工具變同事、從省時變成「野心放大器」。瓶頸不在技術而在「人」,且 AI 終極任務是傳承人類智慧。這不僅是科技變革,更是人性叩問。掌握這些,在 AI 時代找到你的關鍵定位。
Thumbnail
AI 熱潮下,哪些才是真趨勢?本文提煉 5 個反直覺洞察:AI 將從雲端走向邊緣、從工具變同事、從省時變成「野心放大器」。瓶頸不在技術而在「人」,且 AI 終極任務是傳承人類智慧。這不僅是科技變革,更是人性叩問。掌握這些,在 AI 時代找到你的關鍵定位。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News