TF-IDF (Term Frequency-Inverse Document Frequency)

更新 發佈閱讀 3 分鐘

「TF-IDF (Term Frequency-Inverse Document Frequency)」是一種在信息檢索 (IR) 和文本挖掘中廣泛使用的數值統計方法,用於衡量一個詞語對於一個文檔集合(語料庫)中的某個文檔的重要程度。

TF-IDF 的核心思想是:一個詞語在一個文檔中出現的頻率越高,同時在整個語料庫中出現的文檔頻率越低,那麼這個詞語對於這個文檔來說就越重要,越能代表該文檔的主題。

TF-IDF 的計算方法結合了兩個部分:

  1. 詞頻 (Term Frequency, TF): 衡量一個詞語在一個文檔中出現的頻率。詞頻的計算有多種方式,最常見的是:
    原始計數 (Raw Count): 詞語在文檔中出現的實際次數。 詞語頻率 (Term Frequency): 詞語在文檔中出現的次數除以文檔的總詞數,以對不同長度的文檔進行歸一化。 對數尺度 (Log Scale): 對原始計數取對數,以減少頻繁詞語的影響。 布爾值 (Boolean): 如果詞語出現了,TF 為 1,否則為 0。
  2. 逆文檔頻率 (Inverse Document Frequency, IDF): 衡量一個詞語在整個文檔集合中的普遍程度。如果一個詞語在很多文檔中都出現,那麼它的 IDF 值就低;如果一個詞語只在少數文檔中出現,那麼它的 IDF 值就高。這可以幫助我們識別那些在特定文檔中獨特出現的詞語。

TF-IDF 的計算方式:

一個詞語在一個文檔中的 TF-IDF 值就是它的 TF 值乘以它的 IDF 值:

TF-IDF 的作用和優點:

  • 識別關鍵詞: TF-IDF 可以幫助我們識別出一個文檔中最重要的詞語,這些詞語往往能夠很好地代表文檔的主題。
  • 文本表示: TF-IDF 可以將文本轉換成一個數值向量,這個向量可以用於後續的機器學習模型,例如文本分類、聚類等。
  • 信息檢索: 在搜索引擎中,TF-IDF 可以用於計算查詢詞語與文檔之間的相關性,從而返回更相關的搜索結果。
  • 降低常見詞語的權重: IDF 部分可以有效地降低那些在許多文檔中都出現的常見詞語(例如停用詞)的權重,使得模型更關注那些更具辨識度的詞語。

TF-IDF 的局限性:

  • 仍然是詞袋模型: TF-IDF 本質上仍然是一個詞袋模型,它忽略了詞語的順序和語義關係。
  • 對於短文本可能效果不佳: 在短文本中,詞語的頻率可能不夠穩定,導致 TF-IDF 的效果不佳。
  • 沒有考慮詞語的語義相似性: TF-IDF 將每個詞語都視為獨立的,無法捕捉到同義詞或近義詞之間的語義聯繫。

總結來說,TF-IDF 是一種簡單但非常實用的文本表示方法,它通過考慮詞語在單個文檔中的頻率以及在整個文檔集合中的普遍程度,來為每個詞語賦予一個權重,從而幫助我們識別重要的詞語並將文本轉換成數值形式,以便用於後續的 NLP 任務。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
2025/05/25
「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本(例如一個句子、一個文檔)表示為其中所包含的詞語的集合,而忽略詞語的順序和語法結構。 你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋
2025/05/25
「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟,它與詞幹提取 (Stemming) 的目標相似,都是將詞語還原為其基本形式。然而,詞形還原更加精確,它會考慮詞語的詞性 (Part of Speech, POS) 和語境,將詞語轉換
2025/05/25
「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟,它與詞幹提取 (Stemming) 的目標相似,都是將詞語還原為其基本形式。然而,詞形還原更加精確,它會考慮詞語的詞性 (Part of Speech, POS) 和語境,將詞語轉換
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
看更多
你可能也想看
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
在方格子這邊不少時間了。剛剛瀏覽一下數據統計,發現文章被瀏覽量超過六位數了,雖然以往不怎看這個數字統計,但是既然看到了,值得一書紀念。 其實來這邊的初心是想有系統的把自己的文章集合一下,像是私淑的小學旅行、和孩子的互動等,以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而
Thumbnail
在方格子這邊不少時間了。剛剛瀏覽一下數據統計,發現文章被瀏覽量超過六位數了,雖然以往不怎看這個數字統計,但是既然看到了,值得一書紀念。 其實來這邊的初心是想有系統的把自己的文章集合一下,像是私淑的小學旅行、和孩子的互動等,以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
在這篇文章中,整理了WORD中不同符號的代碼,以及一些比較不常見的符號代表的意思,讓你在word編輯時更加得心應手。另外也分享了一本書《複利領導:簡單的事重複做就會有力量》的摘要,透過這本書讓你看到那些每天的小事,竟然能在長遠的時間軸上,產生巨大的改變。
Thumbnail
在這篇文章中,整理了WORD中不同符號的代碼,以及一些比較不常見的符號代表的意思,讓你在word編輯時更加得心應手。另外也分享了一本書《複利領導:簡單的事重複做就會有力量》的摘要,透過這本書讓你看到那些每天的小事,竟然能在長遠的時間軸上,產生巨大的改變。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News