預訓練中正確處理大數據集（Big Data for LLM Pre-training）

2026/03/04 更新2026/03/04 發佈閱讀 5 分鐘

處理大數據集（Big Data for LLM Pre-training）是預訓練中最容易被忽視的瓶頸。如果直接用 JSON 或 CSV 格式讀取，兩張 RTX 5090 會花 80% 的時間在「等 CPU 讀硬碟」，這叫 I/O Bound。

為了餵飽 5090 的強大算力，你需要將原始文本轉換為二進制預分詞格式 (Binary Pre-tokenized Format)。

1. 核心流程：從文本到二進制

預訓練不需要在訓練時動態 Tokenize，我們應該先處理好。

清洗 (Cleaning)： 去重、去除低質量文本、過濾敏感詞。
分詞 (Tokenization)： 使用你的 Tokenizer（如 Llama-3 Tokenizer）將文字轉成整數 ID。
封裝 (Packaging)： 將這些 ID 存成 Uint16 或 Uint32 的二進制文件。
內存映射 (Memory Mapping)： 訓練時使用 mmap 技術，直接從硬碟「映射」到內存，不需要一次性讀入整個文件。

2. 推薦工具：Hugging Face `datasets`

這是目前最高效且易用的工具。它底層使用 Apache Arrow 格式，支援超大數據集的流式處理。

步驟一：將原始數據轉為 Arrow 格式

假設有好幾百 GB 的 JSONL 文件：

</>Python
from datasets import load_dataset

# 1. 流式讀取原始數據（不佔內存）
raw_datasets = load_dataset("json", data_files="corpus/*.jsonl", split="train", streaming=False)

# 2. 定義 Tokenization 函數
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, max_length=2048)

# 3. 映射處理並保存到硬碟（自動轉為二進制 Arrow 格式）
tokenized_datasets = raw_datasets.map(
    tokenize_function, 
    batched=True, 
    num_proc=16, # 開啟多進程加速
    remove_columns=["text"]
)
tokenized_datasets.save_to_disk("./my_pretrain_data")

3. 進階方案：Megatron-LM / TinyLlama 方式 (.bin + .idx)

如果你追求極致的讀取效能，業界常用 Memory-mapped (mmap) 格式。這種方式將數據存為一個巨大的 .bin 文件和一個索引 .idx 文件。

為什麼用 mmap？

零拷貝： 操作系統只在需要時才把硬碟數據加載到緩存。
隨機讀取： 在 1TB 的數據中隨機跳轉，延遲幾乎為零。
多進程安全： 多個訓練進程（Data Parallelism）可以同時讀取同一個文件而不會鎖死。

實作建議： 可以使用開源工具 Llama-Factory 或 lit-gpt 內建的預處理腳本。

4. 針對 2x 5090 的數據加載建議

Prefetch Factor (預取因子)： 在 DataLoader 中設置 prefetch_factor=2。這會讓 CPU 提前準備好下兩個 Batch，確保 GPU 算完一個後馬上能接到下一個。
Pin Memory： 一定要設置 pin_memory=True。這能加快數據從系統 RAM 到 5090 顯存的傳輸速度。
硬碟選擇： 預訓練時，務必使用 NVMe SSD。如果是傳統機械硬碟（HDD），數據讀取速度（約 100MB/s）絕對跟不上兩張 5090 的運算速度（黑井架構運算極快）。

5. 數據集規模與訓練時間預估

對於 7B 模型，一個標準的「高質量」預訓練通常需要 1T 到 3T Tokens。

留言

sirius數字沙龍

18會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/04

預計訓練7B模型使用2張RTX-5090

兩張 RTX 5090（每張擁有 32GB GDDR7 顯存與 Blackwell 架構）是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train（預訓練），這個配置非常理想，甚至可以說是非常奢侈。在 2026 年的技術標準下，針對此硬體與 7B 模型，以下是最佳實踐指南。

2026/03/04

預計訓練7B模型使用2張RTX-5090

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

⚔️ 從頭開始進行預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現，更是對硬體資源與數據處理能力的極致考驗。既然目標是 Pre-train，這意味著您需要處理海量的 Token（通常以 Trillion 為單位）以及極長的時間。

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

在訓練大語言模型（LLM）時，記憶體（VRAM）不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術：DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用，而 Quantization 則負責把模型「壓扁」以節省空間。

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

看更多

你可能也想看

26歲努力上班投資鴻海的白領女孩

黃仁勳把「AI 工廠時代」描述為：從賣晶片走向幫客戶打造從晶片、系統到資料中心整體的生態與能力。這次與 OpenAI 的合作，旨在把大規模算力（起步 10 GW）變成可以被廣泛使用的基礎建設。我把訪談精煉成三大規模法則（Scale Laws）：算力規模、資料/模型規模、部署/在地化規模。每一條

2025/09/29

2025/09/29

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11