LSTM (Long Short-Term Memory)

2025/08/08 更新2025/05/24 發佈閱讀 4 分鐘

"LSTM (Long Short-Term Memory)" 是一種特殊的遞迴神經網路 (RNN) 架構，旨在解決標準 RNN 在處理長序列數據時遇到的梯度消失和記憶長期依賴關係困難的問題。它通過引入稱為「門 (gates)」的機制來控制信息的流動，使其能夠更好地學習和保留長期信息。

你可以將 LSTM 想像成一個擁有更複雜記憶功能的 RNN 單元。標準 RNN 的隱藏狀態在每個時間步都會被完全覆蓋，而 LSTM 則擁有一個額外的「單元狀態 (cell state)」，這個單元狀態可以像一條傳送帶一樣，在時間上攜帶重要的信息，並且能夠通過門機制進行修改。

LSTM 的核心組件：門 (Gates)

LSTM 單元主要由三個門控制信息的流動：

遺忘門 (Forget Gate): 決定哪些來自先前單元狀態的信息應該被遺忘。它接收前一個時間步的隱藏狀態和當前輸入，並輸出一個 0 到 1 之間的值，表示遺忘的程度（0 表示完全遺忘，1 表示完全保留）。
輸入門 (Input Gate): 決定哪些來自當前輸入的信息應該被更新到單元狀態中。它也接收前一個時間步的隱藏狀態和當前輸入，並輸出兩個部分：
- 一個決定哪些信息需要更新的Sigmoid層。一個候選值的Tanh層，表示可能要加入到單元狀態的新信息。然後，這兩個輸出會進行元素級的乘法，決定哪些新的信息真正被添加到單元狀態中。
輸出門 (Output Gate): 決定當前單元狀態中的哪些信息應該作為當前時間步的輸出（隱藏狀態）。它接收前一個時間步的隱藏狀態和當前輸入，並輸出一個 0 到 1 之間的值，表示輸出的程度。然後，它會將當前單元狀態通過一個 Tanh 函數進行處理，並與輸出門的輸出進行元素級的乘法，最終得到當前時間步的隱藏狀態。

LSTM 的運作方式 (簡化版):

遺忘階段： 遺忘門根據先前的隱藏狀態和當前輸入，決定哪些舊信息應該從單元狀態中丟棄。
輸入階段： 輸入門根據先前的隱藏狀態和當前輸入，決定哪些新的信息應該被添加到單元狀態中。
更新階段： 結合遺忘門和輸入門的決策，更新單元狀態。
輸出階段： 輸出門根據更新後的單元狀態、先前的隱藏狀態和當前輸入，決定當前時間步的輸出（新的隱藏狀態）。

LSTM 的優點：

緩解梯度消失問題： LSTM 的門機制可以有效地控制梯度的流動，使得梯度在反向傳播時不容易消失，從而可以訓練更深的 RNN 和處理更長的序列。
記憶長期依賴關係： 單元狀態的引入使得 LSTM 能夠在很長的時間跨度內保留和利用信息，這對於理解長文本、時間序列預測等任務非常重要。

LSTM 的應用：

由於其優越的性能，LSTM 被廣泛應用於各種序列數據處理任務，包括：

自然語言處理 (NLP):
- 文本生成 (Text Generation) 機器翻譯 (Machine Translation) 情感分析 (Sentiment Analysis) 問答系統 (Question Answering)
語音辨識 (Speech Recognition)
時間序列預測 (Time Series Forecasting)
影像描述 (Image Captioning)
音樂生成 (Music Generation)

總之，LSTM 是一種非常強大且廣泛使用的遞迴神經網路變體，它通過引入門機制有效地解決了標準 RNN 的一些關鍵問題，並在處理各種序列數據任務中取得了巨大的成功。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用序列模型與架構

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

梯度爆炸(Exploding Gradients)

「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題，尤其是在遞迴神經網路 (RNNs) 中。梯度爆炸是指在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得異常的大。為什麼會發生梯度爆炸？梯度

2025/05/24

梯度爆炸(Exploding Gradients)

2025/05/24

梯度消失 (Vanishing Gradient)

在訓練深度神經網路（包括遞迴神經網路 RNNs 和更深層的前饋神經網路）時，梯度消失是一個常見的問題。它指的是在反向傳播 (Backpropagation) 演算法中，當梯度從輸出層向輸入層傳播時，可能會變得越來越小，甚至趨近於零。為什麼會發生梯度消失？這主要是因為以下兩個原因：激活函數

2025/05/24

梯度消失 (Vanishing Gradient)

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

"遞迴神經網路 (Recurrent Neural Network, RNN)" 是一種特別設計來處理序列數據的神經網路。和傳統的前饋神經網路不同的是，RNN 具有「記憶」能力，能夠利用先前輸入的資訊來影響後續的輸出。你可以想像一下，當你閱讀一篇文章時，你不會孤立地理解每一個字，而是會根據前面讀

2025/05/24

遞迴神經網路 (Recurrent Neural Network, RNN)

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 11

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI#ai#PromptEngineering

2024/06/11

Learn AI 不 BI

AI說書 - 從0開始 - 11

#AI#ai#PromptEngineering

2024/06/11

螃蟹_crab的沙龍

[深度學習]LSTM模型

長短期記憶（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文首次發表於1997年。 LSTM（長短期記憶）是一種特定類型的遞歸神經網絡（RNN），在許多需要處理時間序列數據或順序數據的應用中非常有用。以下是一些常見的 LSTM 應用：

2024/07/20

2024/07/20

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11