梯度消失 (Vanishing Gradient)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/24 發佈閱讀 3 分鐘

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。

為什麼會發生梯度消失？

這主要是因為以下兩個原因：

激活函數的導數：許多常用的激活函數，例如 Sigmoid 和 Tanh，它們的導數值域在 (0, 1] 或 (-1, 1] 之間。在反向傳播過程中，每一層的梯度都需要乘以激活函數的導數。當網路層數很深時，許多小於 1 的數值連乘，結果會變得非常小，趨近於零。
網路的深度：網路越深，梯度需要經過的層數就越多，每次乘以一個小於 1 的導數，都會進一步縮小梯度。

梯度消失會帶來什麼問題？

學習緩慢甚至停止： 當梯度變得非常小時，底層（靠近輸入層）的權重和偏差幾乎不會得到更新，導致這些層無法有效地學習到有用的特徵。
網路訓練停滯不前： 即使訓練持續進行，模型的性能也可能不再提升，因為梯度太小，無法引導模型向更好的方向優化。
難以訓練深層網路： 梯度消失是訓練非常深的網路的一個主要障礙。

在 RNN 中梯度消失的特別影響：

在 RNN 中，梯度消失的問題尤其會影響模型學習長期依賴關係的能力。當梯度在時間上反向傳播時，如果序列很長，早期的時間步的梯度就會變得非常小，導致模型難以學習到很久以前的輸入對當前輸出的影響。這限制了標準 RNN 在處理長文本、長語音等序列數據上的能力。

如何緩解梯度消失問題？

研究人員已經提出了許多方法來緩解梯度消失的問題，包括：

使用不同的激活函數： 例如 ReLU (Rectified Linear Unit) 及其變體 (Leaky ReLU, Parametric ReLU 等)。ReLU 在正區間的導數為 1，可以減少梯度消失的影響。
使用更複雜的網路結構： 例如長短期記憶網路 (LSTM) 和門控循環單元 (GRU)，它們引入了門機制來更好地控制信息的流動和梯度的傳播。
殘差連接 (Residual Connections): 在深層網路中加入跳躍連接，允許梯度直接跳過某些層，減少梯度消失的風險。這是訓練非常深的 CNN 的常用技巧。
梯度裁剪 (Gradient Clipping): 當梯度過大時，將其縮放到一個合理的範圍內，可以防止梯度爆炸，有時也有助於緩解梯度消失。
更好的權重初始化方法： 合理的權重初始化可以幫助梯度在網路中更好地傳播。

總之，梯度消失是訓練深度神經網路時需要注意的一個重要問題。理解其原因和影響，並採取相應的措施來緩解它，是成功訓練深層模型的關鍵。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

2025/05/24

魯棒性 (lǔbàng xìng)

"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下，仍然能夠維持其功能和性能的能力。簡單來說，就是指它夠不夠 "堅強"、"穩定"，不容易被意外情況影響而崩潰或失效。你可以想像一下：一個堅固的杯子：即使不小心掉到地上，也不容易摔碎，這就是

2025/05/24

魯棒性 (lǔbàng xìng)

2025/05/24

泛化能力 (generalization ability)

"泛化能力" (generalization ability) 指的是一個模型或系統在未曾見過的資料上表現良好的能力。簡單來說，就是模型能夠從已知的訓練資料中學習到的規律，並將這些規律應用到新的、未知的資料上。你可以將它想像成一個學生學習解數學題的過程。如果一個學生只是死記硬背課本上的例題，那麼

2025/05/24

泛化能力 (generalization ability)

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

#AI#ai#PromptEngineering

2024/06/23

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 65

#AI#ai#PositionalEncoding

2024/06/29

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11