CBOW (Continuous Bag-of-Words)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「CBOW (Continuous Bag-of-Words)」是 Word2Vec 中用來生成詞向量的兩種主要模型架構之一（另一種是 Skip-gram）。CBOW 模型通過周圍詞語（上下文）來預測目標詞語。

你可以將 CBOW 模型想像成一個完形填空遊戲。模型會看到句子中目標詞語周圍的詞語，然後嘗試預測中間缺失的那個詞語。通過大量這樣的預測任務，模型就能夠學習到詞語的向量表示。

CBOW 模型的工作原理：

輸入上下文詞語 (Input Context Words): 對於給定的目標詞語，CBOW 模型會以它周圍的幾個詞語作為輸入。這些周圍的詞語被稱為上下文詞語，上下文窗口的大小（即目標詞語周圍要考慮多少個詞語）是一個可以調整的超參數。例如，如果上下文窗口大小為 2，那麼對於目標詞語 "dog" 在句子 "The quick brown fox jumps over the lazy dog." 中，輸入的上下文詞語就是 "quick", "brown", "jumps", "over"。
One-hot Encoding 輸入詞語: 輸入的每一個上下文詞語都會被轉換成 one-hot encoding 向量。這個向量的長度等於詞彙表的大小，並且只有對應於該詞語的索引位置上的值為 1，其餘位置上的值為 0。
詞向量查找 (Word Embedding Lookup): 每個 one-hot encoding 的輸入向量都會乘以一個共享的權重矩陣（輸入嵌入矩陣）。這個權重矩陣的每一行代表一個詞語的詞向量。相乘的結果就是該輸入詞語的詞向量。
取平均 (Average Embedding): 模型會將所有上下文詞語的詞向量進行平均化，得到一個固定長度的向量，這個向量代表了上下文的整體信息。
通過隱藏層 (Hidden Layer): 這個平均後的上下文向量可以選擇性地通過一個隱藏層進行進一步的非線性轉換。
輸出層 (Output Layer): 隱藏層（或直接是平均後的上下文向量）會被送到一個輸出層。輸出層是一個 Softmax 層，它輸出的也是一個長度等於詞彙表大小的概率分布向量。這個概率分布表示的是對於給定的上下文，詞彙表中每個詞語作為目標詞語的可能性。
預測目標詞語：模型訓練的目標是使得輸出概率分布中對應於實際目標詞語的概率最大化。

CBOW 模型的訓練過程：

CBOW 模型通常使用大量的文本數據進行訓練。對於訓練數據中的每一個詞語，模型都會以它周圍的詞語作為輸入，並嘗試預測該詞語。模型通過反向傳播算法不斷調整輸入嵌入矩陣和輸出權重矩陣中的參數，使得預測結果越來越接近真實的目標詞語。最終，輸入嵌入矩陣中的每一行就代表了對應詞語的學習到的詞向量。

CBOW 模型的主要特點和優點：

速度較快： 相對於 Skip-gram 模型，CBOW 模型通常訓練速度更快，因為它需要預測一個目標詞語，而不是多個上下文詞語。
擅長捕捉上下文信息： CBOW 模型直接利用周圍詞語的信息來預測目標詞語，因此在捕捉上下文語義方面表現良好。
對於頻繁詞語的表示可能更好： CBOW 模型通過平均周圍詞語的向量來預測目標詞語，這可能使得對於頻繁出現的詞語，其學習到的表示更加穩定。

總結來說，CBOW 模型是 Word2Vec 中一種重要的詞向量生成方法，它通過利用詞語的上下文信息來預測目標詞語，從而學習到詞語的低維向量表示。這些詞向量能夠捕捉到詞語之間的語義關係，並被廣泛應用於各種 NLP 任務中。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用詞彙表達與語意理解

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

詞向量 / 詞嵌入 (Word Embedding)

「詞向量 (Word Embedding)」或「詞嵌入」是自然語言處理 (NLP) 中一種非常核心且強大的技術，它將詞語表示成低維、連續的向量空間中的點。與傳統的離散表示方法（如詞袋模型中的 one-hot encoding）不同，詞向量能夠捕捉詞語之間的語義關係和上下文信息。你可以將詞向量想像

2025/05/25

詞向量 / 詞嵌入 (Word Embedding)

2025/05/25

TF-IDF (Term Frequency-Inverse Document Frequency)

「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法，用於衡量一個詞語對於一個文檔集合（語料庫）中的某個文檔的重要程度。 TF-IDF 的核心思想是：一個詞語在一個文檔中出現的頻率越高

2025/05/25

TF-IDF (Term Frequency-Inverse Document Frequency)

2025/05/25

詞袋模型 (Bag-of-Words, BoW)

「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本（例如一個句子、一個文檔）表示為其中所包含的詞語的集合，而忽略詞語的順序和語法結構。你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋

2025/05/25

詞袋模型 (Bag-of-Words, BoW)

看更多

你可能也想看

鏟薯員的窩

無痛入手 C++：基礎教學7 - 變數範圍

#程式#教學#入門

2024/05/01

鏟薯員的窩

無痛入手 C++：基礎教學7 - 變數範圍

#程式#教學#入門

2024/05/01

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

高中數學主題練習—ab換底

2024/08/13

高中數學主題練習—ab換底

2024/08/13

2024/05/05

2024/05/05

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

#數據#資訊#模型

2024/08/07

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11