梯度爆炸(Exploding Gradients)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/24 發佈閱讀 3 分鐘

「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題，尤其是在遞迴神經網路 (RNNs) 中。

梯度爆炸是指在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得異常的大。

為什麼會發生梯度爆炸？

梯度爆炸通常發生在以下情況：

激活函數的導數過大： 如果使用的激活函數的導數值很大（大於 1），那麼在反向傳播的過程中，每一層的梯度都會被放大。當網路層數很深或者存在循環連接（如在 RNN 中）時，這種放大效應會被累加，導致梯度變得非常大。
權重過大： 如果網路的初始權重設定得過大，或者在訓練過程中權重持續增大，也會導致梯度在反向傳播時被放大。
RNN 中的循環連接： 在 RNN 中，由於每個時間步的梯度都會受到前一個時間步梯度的影響，如果梯度在某個時間步變得很大，這個大的梯度可能會在時間上不斷累積，導致梯度爆炸。

梯度爆炸會帶來什麼問題？

訓練不穩定： 極大的梯度會導致權重在一次更新中發生劇烈的變化，使得訓練過程變得非常不穩定，模型可能無法收斂。
權重溢出 (NaN)： 過大的梯度可能導致權重的值超出計算機所能表示的範圍，從而出現 NaN (Not a Number) 的情況，使得訓練完全失敗。
模型性能下降： 即使沒有導致權重溢出，不穩定的訓練也可能導致模型無法學習到有效的表示，從而影響最終的性能。

在 RNN 中梯度爆炸的特別影響：

在 RNN 中，梯度爆炸可能會導致模型在訓練過程中突然出現巨大的權重更新，進而破壞已經學到的信息。這會使得模型的訓練非常難以控制。

如何緩解梯度爆炸問題？

常見的緩解梯度爆炸的方法包括：

梯度裁剪 (Gradient Clipping): 這是最常用的方法之一。它設定一個梯度閾值，當梯度的範數（例如 L2 範數）超過這個閾值時，就將梯度縮放到閾值範圍內。這樣可以限制梯度的最大值，防止梯度過大。
使用 L1 或 L2 正規化 (Regularization): 正規化可以限制模型權重的大小，從而在一定程度上防止梯度爆炸。
調整學習率 (Learning Rate): 使用較小的學習率可以減緩權重更新的速度，從而降低梯度爆炸的風險。
權重初始化： 仔細選擇權重的初始化方法，避免初始權重過大。
使用不同的網路結構： 某些更穩定的網路結構，例如基於 Transformer 的模型，在處理長序列時對梯度爆炸和梯度消失問題的魯棒性更好。

總之，梯度爆炸是訓練深度神經網路，尤其是 RNN 時可能遇到的另一個挑戰。通過理解其原因和影響，並採用適當的緩解方法，我們可以更有效地訓練我們的模型。通常來說，梯度裁剪是應對梯度爆炸問題最直接且有效的方法。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

梯度消失 (Vanishing Gradient)

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。為什麼會發生梯度消失？這主要是因為以下兩個原因：激活函數

2025/05/24

梯度消失 (Vanishing Gradient)

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

2025/05/24

魯棒性 (lǔbàng xìng)

"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下，仍然能夠維持其功能和性能的能力。簡單來說，就是指它夠不夠 "堅強"、"穩定"，不容易被意外情況影響而崩潰或失效。你可以想像一下：一個堅固的杯子：即使不小心掉到地上，也不容易摔碎，這就是

2025/05/24

魯棒性 (lǔbàng xìng)

看更多

你可能也想看

Nomoremargin ｜外匯倫敦盤的短線交易者

最複雜的概念，Fractal - 碎形、分形

因為 Fractal 好像沒標準的翻譯，所以Fractal 以下內文都統稱碎形碎形的前提 Fractal 是我認為在交易中最複雜的概念。它涵括了時間範圍、參與者的改變、新聞、消息...等變因，才造就了不同時框的 K 棒變化。交易者所習慣觀察的時框大小，導致碎形能提供的資訊有所落差。例

#外匯#期貨#當沖

2024/08/11

Nomoremargin ｜外匯倫敦盤的短線交易者

最複雜的概念，Fractal - 碎形、分形

#外匯#期貨#當沖

2024/08/11

螃蟹_crab的沙龍

[Python]導數與偏導數(學習心得)

直觀理解導數：考慮的是單一變數的函數，描述的是函數在某點的斜率或變化率。偏導數：考慮的是多變數函數，描述的是函數在某個變數變化時的變化率，其他變數保持不變。 (針對各維度的調整或者稱變化你要調多少) 應用導數：在物理學中應用廣泛，例如描述速度和加速度。偏導數：在多變量分析、優

2024/06/01

2024/06/01

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11