梯度消失 (Vanishing Gradient)

更新 發佈閱讀 3 分鐘

在訓練深度神經網路(包括遞迴神經網路 RNNs 和更深層的前饋神經網路)時,梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得越來越小,甚至趨近於零。

為什麼會發生梯度消失?

這主要是因為以下兩個原因:

  1. 激活函數的導數: 許多常用的激活函數,例如 Sigmoid 和 Tanh,它們的導數值域在 (0, 1] 或 (-1, 1] 之間。在反向傳播過程中,每一層的梯度都需要乘以激活函數的導數。當網路層數很深時,許多小於 1 的數值連乘,結果會變得非常小,趨近於零。
  2. 網路的深度: 網路越深,梯度需要經過的層數就越多,每次乘以一個小於 1 的導數,都會進一步縮小梯度。

梯度消失會帶來什麼問題?

  • 學習緩慢甚至停止: 當梯度變得非常小時,底層(靠近輸入層)的權重和偏差幾乎不會得到更新,導致這些層無法有效地學習到有用的特徵。
  • 網路訓練停滯不前: 即使訓練持續進行,模型的性能也可能不再提升,因為梯度太小,無法引導模型向更好的方向優化。
  • 難以訓練深層網路: 梯度消失是訓練非常深的網路的一個主要障礙。

在 RNN 中梯度消失的特別影響:

在 RNN 中,梯度消失的問題尤其會影響模型學習長期依賴關係的能力。當梯度在時間上反向傳播時,如果序列很長,早期的時間步的梯度就會變得非常小,導致模型難以學習到很久以前的輸入對當前輸出的影響。這限制了標準 RNN 在處理長文本、長語音等序列數據上的能力。

如何緩解梯度消失問題?

研究人員已經提出了許多方法來緩解梯度消失的問題,包括:

  • 使用不同的激活函數: 例如 ReLU (Rectified Linear Unit) 及其變體 (Leaky ReLU, Parametric ReLU 等)。ReLU 在正區間的導數為 1,可以減少梯度消失的影響。
  • 使用更複雜的網路結構: 例如長短期記憶網路 (LSTM) 和門控循環單元 (GRU),它們引入了門機制來更好地控制信息的流動和梯度的傳播。
  • 殘差連接 (Residual Connections): 在深層網路中加入跳躍連接,允許梯度直接跳過某些層,減少梯度消失的風險。這是訓練非常深的 CNN 的常用技巧。
  • 梯度裁剪 (Gradient Clipping): 當梯度過大時,將其縮放到一個合理的範圍內,可以防止梯度爆炸,有時也有助於緩解梯度消失。
  • 更好的權重初始化方法: 合理的權重初始化可以幫助梯度在網路中更好地傳播。

總之,梯度消失是訓練深度神經網路時需要注意的一個重要問題。理解其原因和影響,並採取相應的措施來緩解它,是成功訓練深層模型的關鍵。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
2025/05/24
"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是,RNN 具有「記憶」能力,能夠利用先前輸入的資訊來影響後續的輸出。 你可以想像一下,當你閱讀一篇文章時,你不會孤立地理解每一個字,而是會根據前面讀
2025/05/24
"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下,仍然能夠維持其功能和性能的能力。簡單來說,就是指它夠不夠 "堅強"、"穩定",不容易被意外情況影響而崩潰或失效。 你可以想像一下: 一個堅固的杯子: 即使不小心掉到地上,也不容易摔碎,這就是
2025/05/24
"魯棒性" (lǔbàng xìng) 指的是一個系統、模型或產品在面對各種異常、錯誤或不確定性的情況下,仍然能夠維持其功能和性能的能力。簡單來說,就是指它夠不夠 "堅強"、"穩定",不容易被意外情況影響而崩潰或失效。 你可以想像一下: 一個堅固的杯子: 即使不小心掉到地上,也不容易摔碎,這就是
2025/05/24
"泛化能力" (generalization ability) 指的是一個模型或系統在未曾見過的資料上表現良好的能力。簡單來說,就是模型能夠從已知的訓練資料中學習到的規律,並將這些規律應用到新的、未知的資料上。 你可以將它想像成一個學生學習解數學題的過程。如果一個學生只是死記硬背課本上的例題,那麼
2025/05/24
"泛化能力" (generalization ability) 指的是一個模型或系統在未曾見過的資料上表現良好的能力。簡單來說,就是模型能夠從已知的訓練資料中學習到的規律,並將這些規律應用到新的、未知的資料上。 你可以將它想像成一個學生學習解數學題的過程。如果一個學生只是死記硬背課本上的例題,那麼
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News