Skip-gram

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「Skip-gram」是 Word2Vec 中用來生成詞向量的另一種主要模型架構（與 CBOW 相對）。與 CBOW 通過周圍詞語預測目標詞語不同，Skip-gram 模型的作用是通過目標詞語來預測其周圍的上下文詞語。

你可以將 Skip-gram 模型想像成，給你一個詞語，模型會嘗試預測這個詞語附近可能會出現哪些其他詞語。通過大量這樣的預測任務，模型也能夠學習到詞語的向量表示。

Skip-gram 模型的工作原理：

輸入目標詞語 (Input Target Word): 對於訓練數據中的每一個詞語，Skip-gram 模型會將其作為輸入（即目標詞語）。
One-hot Encoding 輸入詞語: 輸入的目標詞語會被轉換成 one-hot encoding 向量，其長度等於詞彙表的大小，只有對應於該詞語的索引位置上的值為 1。
詞向量查找 (Word Embedding Lookup): 這個 one-hot encoding 的輸入向量會乘以一個權重矩陣（輸入嵌入矩陣）。這個權重矩陣的每一行代表一個詞語的詞向量，相乘的結果就是該輸入詞語的詞向量。
通過隱藏層 (Hidden Layer): 目標詞語的詞向量可以選擇性地通過一個隱藏層進行進一步的非線性轉換。
輸出層 (Output Layer): 隱藏層（或直接是目標詞語的詞向量）會被送到一個輸出層。對於目標詞語上下文窗口中的每一個詞語，輸出層都會有一個獨立的 Softmax 單元。每個 Softmax 單元輸出的都是一個長度等於詞彙表大小的概率分布向量，表示詞彙表中每個詞語作為目標詞語周圍詞語的可能性。
預測上下文詞語：模型訓練的目標是使得對於輸入的目標詞語，其上下文窗口中實際出現的詞語的概率最大化。例如，如果目標詞語是 "dog"，而上下文窗口大小為 2，且周圍的詞語是 "the", "quick", "lazy", "brown"，那麼模型會嘗試最大化輸出層中對應於 "the", "quick", "lazy", "brown" 這些詞語的概率。

Skip-gram 模型的訓練過程：

Skip-gram 模型同樣使用大量的文本數據進行訓練。對於訓練數據中的每一個詞語，模型都會將其作為目標詞語，並嘗試預測其周圍上下文窗口中的詞語。模型通過反向傳播算法不斷調整輸入嵌入矩陣和輸出權重矩陣中的參數，使得預測結果越來越接近真實的上下文詞語。最終，輸入嵌入矩陣中的每一行就代表了對應詞語的學習到的詞向量。

Skip-gram 模型的主要特點和優點：

擅長捕捉罕見詞語的表示： 相對於 CBOW 模型，Skip-gram 模型對於訓練集中出現次數較少的詞語也能夠產生較好的詞向量表示。這是因為在 Skip-gram 模型中，每個目標詞語都會被用來預測其周圍的上下文詞語，即使目標詞語出現次數不多，但只要其周圍的上下文詞語比較常見，也能夠為學習其詞向量提供足夠的信息。
對於大型語料庫效果更好： 在大型語料庫上訓練時，Skip-gram 模型通常能產生更高質量的詞向量。

總結來說，Skip-gram 模型是 Word2Vec 中另一種重要的詞向量生成方法，它通過利用目標詞語來預測其周圍的上下文詞語，從而學習到詞語的低維向量表示。它在處理罕見詞語和大型語料庫方面通常表現更好，並被廣泛應用於各種 NLP 任務中。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用詞彙表達與語意理解

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

CBOW (Continuous Bag-of-Words)

「CBOW (Continuous Bag-of-Words)」是 Word2Vec 中用來生成詞向量的兩種主要模型架構之一（另一種是 Skip-gram）。CBOW 模型通過周圍詞語（上下文）來預測目標詞語。你可以將 CBOW 模型想像成一個完形填空遊戲。模型會看到句子中目標詞語周圍的詞語，然

2025/05/25

CBOW (Continuous Bag-of-Words)

2025/05/25

詞向量 / 詞嵌入 (Word Embedding)

「詞向量 (Word Embedding)」或「詞嵌入」是自然語言處理 (NLP) 中一種非常核心且強大的技術，它將詞語表示成低維、連續的向量空間中的點。與傳統的離散表示方法（如詞袋模型中的 one-hot encoding）不同，詞向量能夠捕捉詞語之間的語義關係和上下文信息。你可以將詞向量想像

2025/05/25

詞向量 / 詞嵌入 (Word Embedding)

2025/05/25

TF-IDF (Term Frequency-Inverse Document Frequency)

「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法，用於衡量一個詞語對於一個文檔集合（語料庫）中的某個文檔的重要程度。 TF-IDF 的核心思想是：一個詞語在一個文檔中出現的頻率越高

2025/05/25

TF-IDF (Term Frequency-Inverse Document Frequency)

你可能也想看

高中數學主題練習—向量分點公式

2024/08/11

高中數學主題練習—向量分點公式

2024/08/11

高中數學主題練習—二階行列式

2024/08/11

高中數學主題練習—二階行列式

2024/08/11

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11