條件隨機場 (Conditional Random Field, CRF)

更新 發佈閱讀 4 分鐘

條件隨機場(Conditional Random Field,CRF)是一種判別的式機率模型,常用於序列標籤(Sequence Labeling)格式化預測(Structured Prediction)任務中。它可以用於預測序列中每個元素的標籤,同時考慮到相鄰元素之間的依賴關係。

核心概念:

與生成式模型(如隱馬可夫模型HMM)不同,CRF直接建模給出設定起始序列關係條件下的標籤序列的條件機率分配,即P(標籤序列|起始序列)。這使得CRF在建模標籤之間的複雜依賴時非常靈活。

主要特點:

  1. 別式模型: CRF直接學習從啟動序列到標籤的映射,而不需要對啟動序列的生成過程進行建模。這使得它在訓練時更專注於區分不同的標籤序列。
  2. 圖模型: CRF 是一種圖模型,通常用於建模線性鏈結構的序列資料(例如,文本中的詞彙序列)。在這種情況下,圖的節點對應於序列中的元素(例如,詞彙),邊表示相鄰元素之間的依賴關係。
  3. 條件機率分佈: CRF定義了一個在給定初始序列X = (x_1, x_2, ..., x_n)的條件下,標記序列Y = (y_1, y_2, ..., y_n)的條件機率P(Y|X)
  4. 特徵函數: CRF 的核心是利用一系列的特徵函數(特徵函數)來描述序列和標籤序列之間的關係。這些特徵函數可以是:
    • 特徵節點函數(節點特徵):僅依賴目前位置的安裝和標籤。例如,如果當前字是“is”,則當前標籤很可能是動詞。
    • 邊緣特徵函數(邊緣特徵):依賴目前位置和前一個位置的起始和標籤。例如,如果前一個詞的標籤是形容詞,則當前詞的標籤很可能是名詞。
  5. 權重學習:在訓練CRF模型時,會學習每個特徵函數的權重(權重)。這些權重反映了每個特徵在預測標籤序列時的重要性。目標是找到一組權重,使得在給定訓練資料的情況下,正確標籤序列的條件機率最大化。

CRF 與 HMM 的比較:

特點條件隨機場 (CRF)隱馬可夫模型 (HMM)模型類型判別式生成式建模目標P(標籤序列導入序列)特徵依賴可以使用任何複雜的、全域的特徵,依賴整個安裝序列通常相當於購買依賴當前隱藏狀態標籤依賴可以對任意依賴關係之間的標籤進行建模通常假設當前標籤僅依賴前一個標籤訓練目標直接最大化條件似然函數最大化聯合似然函數匯出到試算表

CRF的應用場景:

CRF 在許多序列標註和標準化預測任務中都表現出色,包括:

  • 自然語言處理(NLP):
    • 每個詞性標籤(詞性標註):為句子中的標籤詞性。
    • 命名實體辨識(Named Entity Recognition,NER):從文字中辨識出具有特定意義的實體,例如人名、地名、組織名等。
    • 語塊分析(Chunking):將句子分成若干文法組塊(例如,名詞片語、動詞片語)。
    • 資訊抽取(Information Extraction):從文本中提取資訊。
  • 生物資訊學(生物資訊學):
    • 基因組序列標記。
  • 電腦視覺(電腦視覺):
    • 影像分割(Image Segmentation):將影像中的像素劃分為不同的區域或類別。雖然深度學習方法現在比較常用,但CRF也可以作為後續處理步驟來優化分割結果。
  • 語音辨識(語音辨識):
    • 對語音序列進行標註。

總結:

條件隨機場(CRF)是一種強大的判別式序列建模工具,透過它建模給定設定序列條件下的標籤序列的條件機率分佈,能夠有效地捕捉標籤之間的複雜依賴關係,並在序列標註和格式化預測任務中取得良好的性能。它與生成式模型HMM形成對比,並在特徵靈活方面具有優勢。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/25
「主題模型 (Topic Modeling)」是一種在自然語言處理 (NLP) 領域中用於發現大量文檔集合中潛在主題 (topics) 的無監督學習技術。它的目標是自動地從文本數據中識別出隱藏的語義結構,這些結構可以幫助我們理解文檔集合的主要討論內容。 你可以將主題模型想像成一位偵探,試圖從大量的
2025/05/25
「主題模型 (Topic Modeling)」是一種在自然語言處理 (NLP) 領域中用於發現大量文檔集合中潛在主題 (topics) 的無監督學習技術。它的目標是自動地從文本數據中識別出隱藏的語義結構,這些結構可以幫助我們理解文檔集合的主要討論內容。 你可以將主題模型想像成一位偵探,試圖從大量的
2025/05/25
「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法,用於衡量一個詞語對於一個文檔集合(語料庫)中的某個文檔的重要程度。 TF-IDF 的核心思想是:一個詞語在一個文檔中出現的頻率越高
2025/05/25
「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法,用於衡量一個詞語對於一個文檔集合(語料庫)中的某個文檔的重要程度。 TF-IDF 的核心思想是:一個詞語在一個文檔中出現的頻率越高
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
看更多
你可能也想看
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News