提供 RTX 5090 最適合的 conda 安裝指令

更新 發佈閱讀 4 分鐘

針對 RTX 5090 (Blackwell 架構),安裝環境的關鍵在於 CUDA 版本。5090 必須使用 CUDA 12.4 或更高版本 才能發揮其硬體特性(如 FP8 加速與第五代 Tensor Cores)。

🧮 以下是 conda 環境安裝指南:


1. 建立基礎環境

建議使用 Python 3.11,因為它在處理大模型腳本時比 3.10 更快,且比 3.12 更穩定。

</>Bash
# 建立環境
conda create -n llm_train python=3.11 -y
conda activate llm_train

2. 安裝 PyTorch (CUDA 12.4+ 專用版)

目前 RTX 50 系列最推薦搭配 PyTorch 2.4 或更高版本,以確保原生支援 Blackwell 架構。

</>Bash
# 安裝 PyTorch, torchvision, torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

3. 安裝預訓練關鍵套件 (DeepSpeed, Flash Attention, Liger)

這些套件需要從源碼編譯或安裝特定版本,以完美適配雙卡 5090 環境:

</>Bash
# 1. 安裝高效能算子與加速庫
pip install packaging ninja
pip install flash-attn --no-build-isolation
pip install liger-kernel

# 2. 安裝 DeepSpeed (預訓練必備)
pip install deepspeed

# 3. 安裝 Hugging Face 套件包
pip install transformers datasets accelerate

4. 驗證環境是否識別雙卡 5090

安裝完成後,請執行這段指令檢查硬體狀態:

</>Python
python -c "import torch; print(f'GPU 數量: {torch.cuda.device_count()}'); print(f'顯卡型號: {torch.cuda.get_device_name(0)}'); print(f'CUDA 版本: {torch.version.cuda}'); print(f'BF16 支援: {torch.cuda.is_bf16_supported()}')"

預期輸出: GPU 數量: 2, 顯卡型號: NVIDIA GeForce RTX 5090, BF16 支援: True


5. RTX 5090 的硬體優化建議 (Ubuntu 系統)

🔥 為了確保兩張 5090 在長達數週的預訓練中穩定,建議在系統層級進行以下設定:

  • 開啟顯卡持久模式 (Persistence Mode): 減少 GPU 喚醒延遲。
    </>Bash
    sudo nvidia-smi -pm 1
  • 解鎖功率限制 (選配): 5090 預設功耗很高,若散熱良好可確保性能不縮水。
    </>Bash
    # 查看當前限額
    nvidia-smi -q -d POWER
  • 安裝 NVIDIA Fabric Manager (僅限企業級,5090 視主機板支援度): 雖然 5090 沒 NVLink 橋接器,但若主機板支援 PCIe P2P 通訊,確保 nccl 驅動是最新的,能加快雙卡間的梯度同步。

⚔️ 下一步動作

環境裝好後,您就可以嘗試跑一個簡單的 DeepSpeed Hello World



留言
avatar-img
sirius數字沙龍
17會員
422內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/04
96GB 的原始文本在 Tokenize 之後,轉換為 Uint16 的二進制數據大約會佔用 150GB - 200GB 的磁碟空間。在兩張 RTX 5090 上運行 7B 模型時,使用 Memory Mapping (mmap) 是確保 GPU 不會因為等待 I/O 而閒置的最強方案。
Thumbnail
2026/03/04
96GB 的原始文本在 Tokenize 之後,轉換為 Uint16 的二進制數據大約會佔用 150GB - 200GB 的磁碟空間。在兩張 RTX 5090 上運行 7B 模型時,使用 Memory Mapping (mmap) 是確保 GPU 不會因為等待 I/O 而閒置的最強方案。
Thumbnail
2026/03/04
處理大數據集(Big Data for LLM Pre-training)是預訓練中最容易被忽視的瓶頸。如果直接用 JSON 或 CSV 格式讀取,兩張 RTX 5090 會花 80% 的時間在「等 CPU 讀硬碟」,這叫 I/O Bound。 為了餵飽 5090 的強大算力,你需要將原始文本轉換
Thumbnail
2026/03/04
處理大數據集(Big Data for LLM Pre-training)是預訓練中最容易被忽視的瓶頸。如果直接用 JSON 或 CSV 格式讀取,兩張 RTX 5090 會花 80% 的時間在「等 CPU 讀硬碟」,這叫 I/O Bound。 為了餵飽 5090 的強大算力,你需要將原始文本轉換
Thumbnail
2026/03/04
兩張 RTX 5090(每張擁有 32GB GDDR7 顯存與 Blackwell 架構)是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train(預訓練),這個配置非常理想,甚至可以說是非常奢侈。 在 2026 年的技術標準下,針對此硬體與 7B 模型,以下是最佳實踐指南。
Thumbnail
2026/03/04
兩張 RTX 5090(每張擁有 32GB GDDR7 顯存與 Blackwell 架構)是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train(預訓練),這個配置非常理想,甚至可以說是非常奢侈。 在 2026 年的技術標準下,針對此硬體與 7B 模型,以下是最佳實踐指南。
Thumbnail
看更多