CBOW (Continuous Bag-of-Words)

更新 發佈閱讀 4 分鐘

「CBOW (Continuous Bag-of-Words)」是 Word2Vec 中用來生成詞向量的兩種主要模型架構之一(另一種是 Skip-gram)。CBOW 模型通過周圍詞語(上下文)來預測目標詞語

你可以將 CBOW 模型想像成一個完形填空遊戲。模型會看到句子中目標詞語周圍的詞語,然後嘗試預測中間缺失的那個詞語。通過大量這樣的預測任務,模型就能夠學習到詞語的向量表示。

CBOW 模型的工作原理:

  1. 輸入上下文詞語 (Input Context Words): 對於給定的目標詞語,CBOW 模型會以它周圍的幾個詞語作為輸入。這些周圍的詞語被稱為上下文詞語,上下文窗口的大小(即目標詞語周圍要考慮多少個詞語)是一個可以調整的超參數。例如,如果上下文窗口大小為 2,那麼對於目標詞語 "dog" 在句子 "The quick brown fox jumps over the lazy dog." 中,輸入的上下文詞語就是 "quick", "brown", "jumps", "over"。
  2. One-hot Encoding 輸入詞語: 輸入的每一個上下文詞語都會被轉換成 one-hot encoding 向量。這個向量的長度等於詞彙表的大小,並且只有對應於該詞語的索引位置上的值為 1,其餘位置上的值為 0。
  3. 詞向量查找 (Word Embedding Lookup): 每個 one-hot encoding 的輸入向量都會乘以一個共享的權重矩陣(輸入嵌入矩陣)。這個權重矩陣的每一行代表一個詞語的詞向量。相乘的結果就是該輸入詞語的詞向量。
  4. 取平均 (Average Embedding): 模型會將所有上下文詞語的詞向量進行平均化,得到一個固定長度的向量,這個向量代表了上下文的整體信息。
  5. 通過隱藏層 (Hidden Layer): 這個平均後的上下文向量可以選擇性地通過一個隱藏層進行進一步的非線性轉換。
  6. 輸出層 (Output Layer): 隱藏層(或直接是平均後的上下文向量)會被送到一個輸出層。輸出層是一個 Softmax 層,它輸出的也是一個長度等於詞彙表大小的概率分布向量。這個概率分布表示的是對於給定的上下文,詞彙表中每個詞語作為目標詞語的可能性。
  7. 預測目標詞語: 模型訓練的目標是使得輸出概率分布中對應於實際目標詞語的概率最大化。

CBOW 模型的訓練過程:

CBOW 模型通常使用大量的文本數據進行訓練。對於訓練數據中的每一個詞語,模型都會以它周圍的詞語作為輸入,並嘗試預測該詞語。模型通過反向傳播算法不斷調整輸入嵌入矩陣和輸出權重矩陣中的參數,使得預測結果越來越接近真實的目標詞語。最終,輸入嵌入矩陣中的每一行就代表了對應詞語的學習到的詞向量。

CBOW 模型的主要特點和優點:

  • 速度較快: 相對於 Skip-gram 模型,CBOW 模型通常訓練速度更快,因為它需要預測一個目標詞語,而不是多個上下文詞語。
  • 擅長捕捉上下文信息: CBOW 模型直接利用周圍詞語的信息來預測目標詞語,因此在捕捉上下文語義方面表現良好。
  • 對於頻繁詞語的表示可能更好: CBOW 模型通過平均周圍詞語的向量來預測目標詞語,這可能使得對於頻繁出現的詞語,其學習到的表示更加穩定。

總結來說,CBOW 模型是 Word2Vec 中一種重要的詞向量生成方法,它通過利用詞語的上下文信息來預測目標詞語,從而學習到詞語的低維向量表示。這些詞向量能夠捕捉到詞語之間的語義關係,並被廣泛應用於各種 NLP 任務中。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/25
「詞向量 (Word Embedding)」或「詞嵌入」是自然語言處理 (NLP) 中一種非常核心且強大的技術,它將詞語表示成低維、連續的向量空間中的點。與傳統的離散表示方法(如詞袋模型中的 one-hot encoding)不同,詞向量能夠捕捉詞語之間的語義關係和上下文信息。 你可以將詞向量想像
2025/05/25
「詞向量 (Word Embedding)」或「詞嵌入」是自然語言處理 (NLP) 中一種非常核心且強大的技術,它將詞語表示成低維、連續的向量空間中的點。與傳統的離散表示方法(如詞袋模型中的 one-hot encoding)不同,詞向量能夠捕捉詞語之間的語義關係和上下文信息。 你可以將詞向量想像
2025/05/25
「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法,用於衡量一個詞語對於一個文檔集合(語料庫)中的某個文檔的重要程度。 TF-IDF 的核心思想是:一個詞語在一個文檔中出現的頻率越高
2025/05/25
「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法,用於衡量一個詞語對於一個文檔集合(語料庫)中的某個文檔的重要程度。 TF-IDF 的核心思想是:一個詞語在一個文檔中出現的頻率越高
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
高中數學主題練習—ab換底
Thumbnail
高中數學主題練習—ab換底
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—二階行列式
Thumbnail
高中數學主題練習—二階行列式
Thumbnail
繫詞(英語:copula、複數為copulas或copulae、英文簡稱cop),又譯為繫動詞、聯繫動詞,在語言學為表示用於與謂詞(主語補語)鏈接句子之主詞的字詞
Thumbnail
繫詞(英語:copula、複數為copulas或copulae、英文簡稱cop),又譯為繫動詞、聯繫動詞,在語言學為表示用於與謂詞(主語補語)鏈接句子之主詞的字詞
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News