針對 RTX 5090 (Blackwell 架構),安裝環境的關鍵在於 CUDA 版本。5090 必須使用 CUDA 12.4 或更高版本 才能發揮其硬體特性(如 FP8 加速與第五代 Tensor Cores)。
🧮 以下是conda 環境安裝指南:1. 建立基礎環境
建議使用 Python 3.11,因為它在處理大模型腳本時比 3.10 更快,且比 3.12 更穩定。
</>Bash
# 建立環境
conda create -n llm_train python=3.11 -y
conda activate llm_train
2. 安裝 PyTorch (CUDA 12.4+ 專用版)
目前 RTX 50 系列最推薦搭配 PyTorch 2.4 或更高版本,以確保原生支援 Blackwell 架構。
</>Bash
# 安裝 PyTorch, torchvision, torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
3. 安裝預訓練關鍵套件 (DeepSpeed, Flash Attention, Liger)
這些套件需要從源碼編譯或安裝特定版本,以完美適配雙卡 5090 環境:
</>Bash
# 1. 安裝高效能算子與加速庫
pip install packaging ninja
pip install flash-attn --no-build-isolation
pip install liger-kernel
# 2. 安裝 DeepSpeed (預訓練必備)
pip install deepspeed
# 3. 安裝 Hugging Face 套件包
pip install transformers datasets accelerate
4. 驗證環境是否識別雙卡 5090
安裝完成後,請執行這段指令檢查硬體狀態:
</>Python
python -c "import torch; print(f'GPU 數量: {torch.cuda.device_count()}'); print(f'顯卡型號: {torch.cuda.get_device_name(0)}'); print(f'CUDA 版本: {torch.version.cuda}'); print(f'BF16 支援: {torch.cuda.is_bf16_supported()}')"
預期輸出:
GPU 數量: 2,顯卡型號: NVIDIA GeForce RTX 5090,BF16 支援: True。
5. RTX 5090 的硬體優化建議 (Ubuntu 系統)
🔥 為了確保兩張 5090 在長達數週的預訓練中穩定,建議在系統層級進行以下設定:
- 開啟顯卡持久模式 (Persistence Mode): 減少 GPU 喚醒延遲。
</>Bash
sudo nvidia-smi -pm 1 - 解鎖功率限制 (選配): 5090 預設功耗很高,若散熱良好可確保性能不縮水。
</>Bash
# 查看當前限額
nvidia-smi -q -d POWER - 安裝 NVIDIA Fabric Manager (僅限企業級,5090 視主機板支援度): 雖然 5090 沒 NVLink 橋接器,但若主機板支援 PCIe P2P 通訊,確保
nccl驅動是最新的,能加快雙卡間的梯度同步。
⚔️ 下一步動作
環境裝好後,您就可以嘗試跑一個簡單的 DeepSpeed Hello World。


