序列到序列模型 (Sequence-to-Sequence, Seq2Seq)

更新 發佈閱讀 5 分鐘

"序列到序列模型 (Sequence-to-Sequence, Seq2Seq)" 是一種深度學習模型架構,特別設計用於處理輸入和輸出都是序列數據的任務。它的目標是將一個輸入序列轉換成另一個輸出序列,這兩個序列的長度可能不同。

你可以將 Seq2Seq 模型想像成一個翻譯員,它接收一種語言的句子(輸入序列),然後輸出該句子在另一種語言的對應翻譯(輸出序列)。

Seq2Seq 模型的核心架構通常包含兩個主要部分:

  1. 編碼器 (Encoder): 編碼器的作用是接收輸入序列,並將其轉換成一個固定長度的向量,這個向量被稱為「上下文向量 (context vector)」或「思想向量 (thought vector)」。這個上下文向量試圖捕捉整個輸入序列的關鍵信息和語義。編碼器通常是一個 RNN(例如 LSTM 或 GRU),它逐個處理輸入序列中的元素,並在最後一個時間步輸出上下文向量。
  2. 解碼器 (Decoder): 解碼器的作用是接收編碼器產生的上下文向量,並將其轉換成目標輸出序列。解碼器通常也是一個 RNN(例如 LSTM 或 GRU),它以編碼器的上下文向量作為初始隱藏狀態,然後逐個生成輸出序列中的元素。在生成每個輸出元素時,解碼器可能會參考前一個時間步的輸出,以便生成連貫的序列。

Seq2Seq 模型的工作流程 (簡化版):

  1. 輸入序列進入編碼器: 輸入序列中的每個元素(例如,一個句子中的每個詞語)被逐個輸入到編碼器 RNN 中。
  2. 編碼器生成上下文向量: 編碼器處理完整個輸入序列後,會輸出一個固定長度的上下文向量,這個向量概括了輸入序列的整體信息。
  3. 上下文向量傳遞給解碼器: 這個上下文向量作為解碼器 RNN 的初始狀態。
  4. 解碼器生成輸出序列: 解碼器從初始狀態開始,逐步生成輸出序列中的每個元素。在每個時間步,解碼器會考慮前一個生成的輸出和當前的隱藏狀態,來預測下一個輸出元素。這個過程通常會持續到解碼器生成一個特殊的「結束符號 (end-of-sequence token)」。

Seq2Seq 模型的一些重要概念:

  • 上下文向量 (Context Vector): 編碼器將整個輸入序列壓縮成這個固定長度的向量,它是編碼器輸出的最後一個隱藏狀態。
  • 起始符號 (Start-of-Sequence Token): 解碼器通常會接收一個特殊的起始符號作為其生成輸出序列的開始。
  • 結束符號 (End-of-Sequence Token): 解碼器在生成輸出序列時,當預測到結束符號時,就表示輸出序列的生成完成。

Seq2Seq 模型的常見應用:

Seq2Seq 模型在許多需要將一個序列轉換成另一個序列的任務中都非常有用,包括:

  • 機器翻譯 (Machine Translation): 將一種語言的文本翻譯成另一種語言。
  • 文本摘要 (Text Summarization): 將一篇長文本縮減成更短的摘要。
  • 問答系統 (Question Answering): 根據輸入的問題生成答案。
  • 對話系統 (Dialogue Systems / Chatbots): 根據使用者的輸入生成回覆。
  • 程式碼生成 (Code Generation): 根據自然語言描述生成程式碼。
  • 語音辨識 (Speech Recognition) 和語音合成 (Speech Synthesis)
  • 時間序列預測 (Time Series Forecasting) (例如,預測未來一段時間的股票價格)
  • 影片描述 (Video Captioning): 為影片生成文字描述。

注意力機制 (Attention Mechanism):

雖然基本的 Seq2Seq 模型非常有用,但它的一個限制是編碼器需要將整個輸入序列的信息壓縮成一個固定長度的上下文向量。對於長輸入序列來說,這可能會導致信息丟失,尤其是序列開頭的信息。為了解決這個問題,研究人員提出了注意力機制 (Attention Mechanism)。注意力機制允許解碼器在生成每個輸出元素時,有選擇地關注輸入序列的不同部分,而不是僅僅依賴於編碼器的最後一個隱藏狀態。這大大提高了 Seq2Seq 模型處理長序列的能力。

總而言之,序列到序列模型 (Seq2Seq) 是一種強大的深度學習架構,它能夠學習將一個序列轉換成另一個序列,並在許多需要這種轉換的任務中取得了顯著的成功。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/24
"GRU (Gated Recurrent Unit)" 是另一種流行的遞迴神經網路 (RNN) 架構,它和 LSTM (Long Short-Term Memory) 類似,也被設計用來解決標準 RNN 的梯度消失問題以及更好地處理序列數據中的長期依賴關係。相較於 LSTM,GRU 通常被認為在結
2025/05/24
"GRU (Gated Recurrent Unit)" 是另一種流行的遞迴神經網路 (RNN) 架構,它和 LSTM (Long Short-Term Memory) 類似,也被設計用來解決標準 RNN 的梯度消失問題以及更好地處理序列數據中的長期依賴關係。相較於 LSTM,GRU 通常被認為在結
2025/05/24
"LSTM (Long Short-Term Memory)" 是一種特殊的遞迴神經網路 (RNN) 架構,旨在解決標準 RNN 在處理長序列數據時遇到的梯度消失和記憶長期依賴關係困難的問題。它通過引入稱為「門 (gates)」的機制來控制信息的流動,使其能夠更好地學習和保留長期信息。 你可以將
2025/05/24
"LSTM (Long Short-Term Memory)" 是一種特殊的遞迴神經網路 (RNN) 架構,旨在解決標準 RNN 在處理長序列數據時遇到的梯度消失和記憶長期依賴關係困難的問題。它通過引入稱為「門 (gates)」的機制來控制信息的流動,使其能夠更好地學習和保留長期信息。 你可以將
2025/05/24
「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題,尤其是在遞迴神經網路 (RNNs) 中。 梯度爆炸是指在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得異常的大。 為什麼會發生梯度爆炸? 梯度
2025/05/24
「梯度爆炸 (Exploding Gradients)」就是另一個在訓練深度神經網路時可能遇到的問題,尤其是在遞迴神經網路 (RNNs) 中。 梯度爆炸是指在反向傳播 (Backpropagation) 演算法中,當梯度從輸出層向輸入層傳播時,可能會變得異常的大。 為什麼會發生梯度爆炸? 梯度
看更多
你可能也想看
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News