神經網路基礎 for NLP

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/24 發佈閱讀 6 分鐘

自然語言處理 (NLP) 中使用的神經網路建立在一些基礎的概念之上。理解這些基礎知識對於深入學習更複雜的 NLP 模型（如 RNN、LSTM、Transformer 等）至關重要。以下是 NLP 中一些關鍵的神經網路基礎知識：

感知器 (Perceptron) 和基礎前饋神經網路 (Basic Feedforward Neural Networks):
- 感知器：是最簡單的神經網路單元，它接收多個輸入，對它們進行加權求和，然後通過一個激活函數輸出一個結果。前饋神經網路：由多個感知器或層組成，信息從輸入層單向地流向輸出層，沒有反饋迴路。在 NLP 中，簡單的前饋網路可以用於基本的文本分類任務。
激活函數 (Activation Functions):
- 激活函數引入了非線性，使得神經網路能夠學習複雜的模式。常見的激活函數包括： ReLU (Rectified Linear Unit): 對於正輸入返回該值，對於負輸入返回 0。在許多深度學習模型中常用。 Sigmoid: 將輸入壓縮到 0 和 1 之間，常用於二元分類的輸出層。 Tanh (Hyperbolic Tangent): 將輸入壓縮到 -1 和 1 之間。 Softmax: 將一個包含任意實數值的向量轉換為一個概率分布，常用於多類別分類的輸出層。
稠密層 (Dense Layer) / 全連接層 (Fully Connected Layer):
- 在稠密層中，每個神經元都與前一層的所有神經元和後一層的所有神經元相連接。這種層可以用於將輸入表示映射到輸出表示，並在 NLP 中用於文本分類、生成等任務的輸出層。
詞嵌入 (Word Embeddings):
- 這是 NLP 中非常核心的概念。詞嵌入將詞語表示成低維、連續的向量空間中的點。相似的詞語在嵌入空間中的距離更近。常用的詞嵌入方法包括： Word2Vec (Skip-gram 和 CBOW): 使用淺層神經網路模型學習詞語的嵌入。 GloVe (Global Vectors for Word Representation): 基於詞語共現矩陣進行學習。 FastText: 在 Word2Vec 的基礎上考慮了詞語的內部結構（例如詞根和詞綴）。也可以使用更深層的神經網路模型（例如 Transformer）學習上下文相關的詞嵌入。
損失函數 (Loss Functions):
- 損失函數用於衡量模型的預測結果與真實標籤之間的差異。訓練的目標是最小化這個損失函數。在 NLP 分類任務中常用的損失函數包括：交叉熵損失 (Cross-Entropy Loss) / 對數損失 (Log Loss): 用於衡量多類別或二元分類模型的性能。二元交叉熵損失 (Binary Cross-Entropy Loss): 用於二元分類問題。在 NLP 回歸任務中，可以使用均方誤差 (Mean Squared Error, MSE) 等損失函數。
優化器 (Optimizers):
- 優化器用於更新模型的權重，以最小化損失函數。常見的優化器包括：隨機梯度下降 (Stochastic Gradient Descent, SGD) Adam (Adaptive Moment Estimation) RMSprop (Root Mean Square Propagation)
反向傳播 (Backpropagation) 和梯度下降 (Gradient Descent):
- 這是訓練神經網路的核心算法。梯度下降：是一種迭代優化算法，用於尋找使損失函數最小化的模型參數。它通過計算損失函數關於模型參數的梯度，並朝著梯度的反方向更新參數來實現。反向傳播：是一種高效計算神經網路中每個權重的梯度的方法。它從輸出層開始，向後計算每一層的梯度，利用鏈式法則將梯度傳播回前面的層。

理解了這些基礎概念，你就能更好地理解 NLP 中更複雜的神經網路架構是如何設計和工作的，例如：

卷積神經網路 (Convolutional Neural Networks, CNNs): 在 NLP 中用於提取局部特徵，例如 n-gram 特徵，常用於文本分類。
遞迴神經網路 (Recurrent Neural Networks, RNNs): 用於處理序列數據，能夠捕捉時間上的依賴關係。
長短期記憶網路 (Long Short-Term Memory, LSTM) 和門控循環單元 (Gated Recurrent Unit, GRU): 解決了傳統 RNN 的梯度消失問題，更擅長處理長序列。
Transformer 網路： 完全基於注意力機制，能夠並行處理序列，並在捕捉長距離依賴方面表現出色。

這些更高級的架構都是建立在上述這些基礎的神經網路概念之上的。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用NLP模型與演算法

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

編碼器-解碼器架構 (Encoder-Decoder Architecture)

「編碼器-解碼器架構 (Encoder-Decoder Architecture)」是一種常見的深度學習模型架構，特別適用於處理序列到序列 (Sequence-to-Sequence) 的任務，也就是輸入是一個序列，輸出是另一個序列，且兩個序列的長度可能不同。這種架構的核心思想是將輸入序列的信息壓縮

2025/05/24

編碼器-解碼器架構 (Encoder-Decoder Architecture)

2025/05/24

語言模型 (Language Model, LM)

語言模型 (Language Model, LM) 是一個廣泛的術語，指的是用於預測文本序列中下一個詞語（或字符）概率的計算模型。隨著深度學習的發展，出現了許多不同架構和訓練方法的語言模型。以下是一些常見的語言模型及其分類：基於傳統方法的語言模型： n-gram 模型: 這是一種早期的統計語言

2025/05/24

語言模型 (Language Model, LM)

2025/05/24

NLP 中的偏見(Bias)

自然語言處理 (NLP) 中的偏見指的是 NLP 模型和系統在處理文本時，系統性地傾向於某些群體或觀點，而對其他群體或觀點產生不公平或不準確的表示。這些偏見可能會導致 NLP 系統產生帶有歧視性、刻板印象或不公平的輸出。 NLP 中偏見的常見類型：性別偏見 (Gender Bias): 模型在

2025/05/24

NLP 中的偏見(Bias)

看更多

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Karen的沙龍

【邁向圖神經網絡GNN】Part2: 使用PyTorch構建圖形結構的全過程

本文主要筆記使用pytorch建立graph的幾個概念與實作。在傳統的神經網路模型中，數據點之間往往是互相連接和影響的，使用GNN，我們不僅處理單獨的數據點或Xb，而是處理一個包含多個數據點和它們之間連結的特徵。GNN的優勢在於其能夠將這些連結關係納入模型中，將關係本身作為特徵進行學習。

#Graph#GNN#node

2024/07/24

Karen的沙龍

【邁向圖神經網絡GNN】Part2: 使用PyTorch構建圖形結構的全過程

#Graph#GNN#node

2024/07/24

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Learn AI 不 BI

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 65

#AI#ai#PositionalEncoding

2024/06/29

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 39

#AI#ai#PromptEngineering

2024/06/22

Karen的沙龍

【邁向圖神經網絡GNN】Part4: 實作圖神經網路訊息傳遞機制

透過這篇文章，我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制，從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制，並通過對單次和多次傳遞過程的結果，可以看到節點特徵如何逐步傳遞與更新。

#pytorch#GNN#messagepassing

2024/07/24

Karen的沙龍

【邁向圖神經網絡GNN】Part4: 實作圖神經網路訊息傳遞機制

#pytorch#GNN#messagepassing

2024/07/24

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11