深度學習是機器學習的子領域,透過多層神經網路自動學習高維資料的抽象表示。
1. 神經網路的基本組成與激勵函數
神經網路透過層級運算機制來模擬資料模式。
- 激勵函數 (Activation Function): 引入「非線性」,使模型能處理複雜特徵。
- ReLU: 目前最主流,解決梯度消失問題,數學式為 f(x)=max(0,x)。
- Sigmoid: 將輸出壓縮至 [0, 1],常用於二元分類的輸出層。
- Softmax: 常用於「多類別分類」,將輸出轉為機率分佈。
2. 經典模型架構
考試常考 CNN 與 Transformer 的差異及其應用場景。
模型類型 | 核心機制 | 擅長領域 | 特色 |
CNN (卷積神經網路) | 卷積運算 (Convolution)、池化層 (Pooling) | 電腦視覺 (CV)、影像瑕疵檢測、全景分割 | 具備區域感知與參數共享特性,能自動提取局部特徵並大幅減少運算量。 |
傳統 RNN | 遞迴結構 (Recurrent),每步輸出依賴前步狀態 | 基礎序列資料、短文本處理 | 能處理語序與時間序列資訊,但處理長序列時梯度消失問題嚴重。 |
LSTM / GRU | 門控機制 (Gating):遺忘門、輸入門、輸出門 | 長期時序預測、語音辨識、翻譯 | 透過門控機制儲存資訊,有效解決傳統 RNN 的梯度消失問題。 |
Transformer | 自注意力機制 (Self-Attention) | 自然語言 (NLP)、大型語言模型 (LLM) | 完全平行化運算(非逐字處理),捕捉長距離語境依賴能力最強。 |
🛠 訓練優化與模型微調
1. 防止過擬合 (Overfitting) 的手段
當模型在訓練集表現超好,但在驗證集很差時,就需要這些方法:
- Dropout: 訓練時隨機讓部分神經元失效,增加模型魯棒性。
- L1/L2 正則化: 透過懲罰項限制權重大小(L1 趨向產生稀疏模型)。
- 早期停止 (Early Stopping): 監控驗證集損耗 (Val Loss),當不再改善時提早收工。
2. 優化器 (Optimizer) 的進化
優化器的任務是找出一組能讓損失函數最小化的參數。
- SGD: 更新快、需求記憶體低,但路徑較震盪。
- Adam: 結合動量 (Momentum) 與 RMSprop,是目前最穩、最常用的選擇。
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容由 AI 產製













