神經網路基礎 for NLP

更新 發佈閱讀 6 分鐘

自然語言處理 (NLP) 中使用的神經網路建立在一些基礎的概念之上。理解這些基礎知識對於深入學習更複雜的 NLP 模型(如 RNN、LSTM、Transformer 等)至關重要。以下是 NLP 中一些關鍵的神經網路基礎知識:

  1. 感知器 (Perceptron) 和基礎前饋神經網路 (Basic Feedforward Neural Networks):
    • 感知器: 是最簡單的神經網路單元,它接收多個輸入,對它們進行加權求和,然後通過一個激活函數輸出一個結果。 前饋神經網路: 由多個感知器或層組成,信息從輸入層單向地流向輸出層,沒有反饋迴路。在 NLP 中,簡單的前饋網路可以用於基本的文本分類任務。
  2. 激活函數 (Activation Functions):
    • 激活函數引入了非線性,使得神經網路能夠學習複雜的模式。常見的激活函數包括: ReLU (Rectified Linear Unit): 對於正輸入返回該值,對於負輸入返回 0。在許多深度學習模型中常用。 Sigmoid: 將輸入壓縮到 0 和 1 之間,常用於二元分類的輸出層。 Tanh (Hyperbolic Tangent): 將輸入壓縮到 -1 和 1 之間。 Softmax: 將一個包含任意實數值的向量轉換為一個概率分布,常用於多類別分類的輸出層。
  3. 稠密層 (Dense Layer) / 全連接層 (Fully Connected Layer):
    • 在稠密層中,每個神經元都與前一層的所有神經元和後一層的所有神經元相連接。這種層可以用於將輸入表示映射到輸出表示,並在 NLP 中用於文本分類、生成等任務的輸出層。
  4. 詞嵌入 (Word Embeddings):
    • 這是 NLP 中非常核心的概念。詞嵌入將詞語表示成低維、連續的向量空間中的點。相似的詞語在嵌入空間中的距離更近。常用的詞嵌入方法包括: Word2Vec (Skip-gram 和 CBOW): 使用淺層神經網路模型學習詞語的嵌入。 GloVe (Global Vectors for Word Representation): 基於詞語共現矩陣進行學習。 FastText: 在 Word2Vec 的基礎上考慮了詞語的內部結構(例如詞根和詞綴)。 也可以使用更深層的神經網路模型(例如 Transformer)學習上下文相關的詞嵌入。
  5. 損失函數 (Loss Functions):
    • 損失函數用於衡量模型的預測結果與真實標籤之間的差異。訓練的目標是最小化這個損失函數。在 NLP 分類任務中常用的損失函數包括: 交叉熵損失 (Cross-Entropy Loss) / 對數損失 (Log Loss): 用於衡量多類別或二元分類模型的性能。 二元交叉熵損失 (Binary Cross-Entropy Loss): 用於二元分類問題。 在 NLP 回歸任務中,可以使用均方誤差 (Mean Squared Error, MSE) 等損失函數。
  6. 優化器 (Optimizers):
    • 優化器用於更新模型的權重,以最小化損失函數。常見的優化器包括: 隨機梯度下降 (Stochastic Gradient Descent, SGD) Adam (Adaptive Moment Estimation) RMSprop (Root Mean Square Propagation)
  7. 反向傳播 (Backpropagation) 和梯度下降 (Gradient Descent):
    • 這是訓練神經網路的核心算法。 梯度下降: 是一種迭代優化算法,用於尋找使損失函數最小化的模型參數。它通過計算損失函數關於模型參數的梯度,並朝著梯度的反方向更新參數來實現。 反向傳播: 是一種高效計算神經網路中每個權重的梯度的方法。它從輸出層開始,向後計算每一層的梯度,利用鏈式法則將梯度傳播回前面的層。

理解了這些基礎概念,你就能更好地理解 NLP 中更複雜的神經網路架構是如何設計和工作的,例如:

  • 卷積神經網路 (Convolutional Neural Networks, CNNs): 在 NLP 中用於提取局部特徵,例如 n-gram 特徵,常用於文本分類。
  • 遞迴神經網路 (Recurrent Neural Networks, RNNs): 用於處理序列數據,能夠捕捉時間上的依賴關係。
  • 長短期記憶網路 (Long Short-Term Memory, LSTM) 和門控循環單元 (Gated Recurrent Unit, GRU): 解決了傳統 RNN 的梯度消失問題,更擅長處理長序列。
  • Transformer 網路: 完全基於注意力機制,能夠並行處理序列,並在捕捉長距離依賴方面表現出色。

這些更高級的架構都是建立在上述這些基礎的神經網路概念之上的。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/24
「編碼器-解碼器架構 (Encoder-Decoder Architecture)」是一種常見的深度學習模型架構,特別適用於處理序列到序列 (Sequence-to-Sequence) 的任務,也就是輸入是一個序列,輸出是另一個序列,且兩個序列的長度可能不同。這種架構的核心思想是將輸入序列的信息壓縮
2025/05/24
「編碼器-解碼器架構 (Encoder-Decoder Architecture)」是一種常見的深度學習模型架構,特別適用於處理序列到序列 (Sequence-to-Sequence) 的任務,也就是輸入是一個序列,輸出是另一個序列,且兩個序列的長度可能不同。這種架構的核心思想是將輸入序列的信息壓縮
2025/05/24
語言模型 (Language Model, LM) 是一個廣泛的術語,指的是用於預測文本序列中下一個詞語(或字符)概率的計算模型。隨著深度學習的發展,出現了許多不同架構和訓練方法的語言模型。以下是一些常見的語言模型及其分類: 基於傳統方法的語言模型: n-gram 模型: 這是一種早期的統計語言
2025/05/24
語言模型 (Language Model, LM) 是一個廣泛的術語,指的是用於預測文本序列中下一個詞語(或字符)概率的計算模型。隨著深度學習的發展,出現了許多不同架構和訓練方法的語言模型。以下是一些常見的語言模型及其分類: 基於傳統方法的語言模型: n-gram 模型: 這是一種早期的統計語言
2025/05/24
自然語言處理 (NLP) 中的偏見指的是 NLP 模型和系統在處理文本時,系統性地傾向於某些群體或觀點,而對其他群體或觀點產生不公平或不準確的表示。這些偏見可能會導致 NLP 系統產生帶有歧視性、刻板印象或不公平的輸出。 NLP 中偏見的常見類型: 性別偏見 (Gender Bias): 模型在
2025/05/24
自然語言處理 (NLP) 中的偏見指的是 NLP 模型和系統在處理文本時,系統性地傾向於某些群體或觀點,而對其他群體或觀點產生不公平或不準確的表示。這些偏見可能會導致 NLP 系統產生帶有歧視性、刻板印象或不公平的輸出。 NLP 中偏見的常見類型: 性別偏見 (Gender Bias): 模型在
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文主要筆記使用pytorch建立graph的幾個概念與實作。在傳統的神經網路模型中,數據點之間往往是互相連接和影響的,使用GNN,我們不僅處理單獨的數據點或Xb,而是處理一個包含多個數據點和它們之間連結的特徵。GNN的優勢在於其能夠將這些連結關係納入模型中,將關係本身作為特徵進行學習。
Thumbnail
本文主要筆記使用pytorch建立graph的幾個概念與實作。在傳統的神經網路模型中,數據點之間往往是互相連接和影響的,使用GNN,我們不僅處理單獨的數據點或Xb,而是處理一個包含多個數據點和它們之間連結的特徵。GNN的優勢在於其能夠將這些連結關係納入模型中,將關係本身作為特徵進行學習。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News