1. 核心重點與關鍵概念表
核心重點 | 關鍵概念 |
超參數調校 | 學習率(Learning Rate)影響收斂速度與穩定性。 |
激活函數選擇 | ReLU 常用於隱藏層,因為計算快,且可緩解梯度消失。 |
優化器特性 | Adam 是常用的自適應學習率優化器。 |
正則化技術 | L1 會促進稀疏解,常用於特徵選擇。 |
資料不平衡處理 | 過採樣(Oversampling)增加少數類樣本。 |
模型壓縮技術 | 知識蒸餾是大模型教小模型。 |
2. 重要比較
🔹 學習率與批次大小
在模型訓練中,兩個非常重要的調整參數是學習率(LR)與批次大小(BS)。
參數 | 過高 / 過大 | 過低 / 過小 |
學習率 | 容易震盪、無法收斂,嚴重時可能梯度爆炸。 | 收斂很慢,可能長時間停在不佳區域或需要很多步才接近較佳解。 |
批次大小 | 梯度估計較穩定,但較耗記憶體,且泛化表現有時不如小批次。 | 噪聲較大、訓練較不穩,但有時較有助於泛化與跳離不佳解。 |
🔹 激活函數場景
該用哪個函數?記住對應場景。
- 隱藏層:首選 ReLU,因為計算效率高,且能緩解梯度消失。
- 輸出層二元分類:Sigmoid,輸出可解讀為 0 到 1 的機率。
- 輸出層多類別單選:Softmax,所有類別機率加總為 1。
- 需要對稱輸出:Tanh,輸出範圍為 -1 到 1。
3. 易混淆觀念
🔹 L1 vs. L2 vs. Elastic Net
比較項目 | L1 正則化(Lasso) | L2 正則化(Ridge) | Elastic Net |
懲罰類型 | 權重絕對值總和。 | 權重平方總和。 | L1 + L2 的組合。 |
主要效果 | 促進稀疏化,會把部分不重要權重直接壓成 0。 | 讓權重縮小、模型更平滑,但通常不會變成 0。 | 兼具部分稀疏性與穩定性,稀疏程度通常介於 L1 與 L2 之間。 |
常見用途 | 想自動做特徵選擇、簡化模型時。 | 想降低過擬合、處理共線性、提升穩定性時。 | L1 與 L2 折衷,適合相關特徵多、又想兼顧篩選與穩定時使用。 |
🔹 過採樣 vs 欠採樣
- 過採樣(Oversampling):增加少數類樣本,若只是重複複製,可能造成過擬合。→ SMOTE 屬於過採樣方法,透過少數類樣本之間的插值法合成新樣本,而不是單純複製舊樣本。
- 欠採樣(Undersampling):減少多數類樣本,缺點是可能丟失原始資訊。
4. 訓練優化策略對照表
策略名稱 | 核心作用 | 重點細節 | 口訣 |
Dropout | 防止過擬合、提升泛化能力。 | 只在訓練階段啟用;推論/測試階段不啟用,不會再隨機丟棄神經元。 | 訓練時隨機關閉部分神經元,測試時不啟用。 |
Early Stopping | 防止過擬合,並減少不必要的訓練時間。 | 通常監控驗證集表現,例如 validation loss 或 validation accuracy;當連續數個 epoch 不再改善時停止訓練。 | 看驗證集,沒進步就停。 |
Mini-batch | 在訓練速度、梯度估計品質與記憶體使用之間取得平衡。 | Batch Size 需要調校;太大較穩定但耗記憶體,太小噪聲較大但可能有助泛化。 | 每次使用一小批樣本更新參數,以兼顧效率、穩定性與記憶體使用。 |
Learning Rate | 控制每次參數更新幅度,影響收斂速度與穩定性。 | 常見策略包含 Warm-up 與 Decay;Warm-up 可讓初期訓練較穩,Decay 可讓後期更平滑收斂。 | 前期可暖身,後期要降速。 |
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製
















