NLP分類任務估指標

更新 發佈閱讀 6 分鐘

NLP 分類任務,有一些常用的評估指標可以衡量模型的性能。以下是一些主要的指標及其解釋:

  1. 準確率 (Accuracy):
    • 定義: 指模型預測正確的樣本數占總樣本數的比例。 公式: Accuracy = (預測正確的樣本數) / (總樣本數) 適用場景: 當各個類別的樣本數量相對平衡時,準確率是一個直觀且常用的指標。 局限性: 在類別不平衡的情況下,準確率可能會產生誤導。例如,如果一個二元分類任務中,90% 的樣本都屬於正類,一個總是預測為正類的模型也能達到 90% 的準確率,但實際上這個模型並沒有學到任何有用的東西。
  2. 精確率 (Precision):
    • 定義: 指在所有被模型預測為正類的樣本中,真正屬於正類的樣本所占的比例。 公式: Precision = (真正例數 True Positives, TP) / (真正例數 TP + 假正例數 False Positives, FP) 適用場景: 當我們更關心模型預測為正類的結果中,有多少是真正正確的時候,例如在垃圾郵件過濾中,我們希望被標記為垃圾郵件的郵件盡可能是真正的垃圾郵件,以避免誤判重要的郵件。
  3. 召回率 (Recall) / 靈敏度 (Sensitivity) / 真正例率 (True Positive Rate, TPR):
    • 定義: 指在所有真正屬於正類的樣本中,被模型正確預測為正類的樣本所占的比例。 公式: Recall = (真正例數 TP) / (真正例數 TP + 假負例數 False Negatives, FN) 適用場景: 當我們更關心模型是否能找到所有真正的正類樣本時,例如在疾病診斷中,我們希望盡可能地找出所有患病的人,避免漏診。
  4. F1 分數 (F1-Score):
    • 定義: 精確率和召回率的調和平均值。它綜合考慮了精確率和召回率,是一個更全面的評價指標。 公式: F1-Score = 2 * (Precision * Recall) / (Precision + Recall) 適用場景: 當我們需要在精確率和召回率之間找到平衡時,F1 分數是一個很好的選擇,尤其是在類別不平衡的情況下。
  5. 混淆矩陣 (Confusion Matrix):
    • 定義: 一個表格,用於總結模型預測結果與真實標籤之間的對應關係。對於二元分類問題,它通常包含四個值: 真正例 (True Positive, TP): 模型預測為正類,實際也為正類。 假正例 (False Positive, FP): 模型預測為正類,實際為負類(Type I error)。 假負例 (False Negative, FN): 模型預測為負類,實際為正類(Type II error)。 真負例 (True Negative, TN): 模型預測為負類,實際也為負類。 適用場景: 混淆矩陣可以提供更詳細的分類結果信息,幫助我們理解模型在哪些類別上表現良好,在哪些類別上容易出錯。許多其他的評估指標(如精確率、召回率)都是基於混淆矩陣計算出來的。
  6. 受試者工作特徵曲線下面積 (Area Under the Receiver Operating Characteristic Curve, AUC-ROC):
    • 定義: ROC 曲線是以假正例率 (False Positive Rate, FPR) 為橫軸,真正例率 (True Positive Rate, TPR 或 Recall) 為縱軸繪製的曲線。AUC-ROC 的值表示 ROC 曲線下方的面積,取值範圍在 0 到 1 之間。 公式: FPR = FP / (FP + TN) 適用場景: AUC-ROC 常用於二元分類問題,特別是在關注模型區分正負類能力的場景下。AUC 值越接近 1,表示模型的分類性能越好。即使在類別不平衡的情況下,AUC-ROC 也能提供一個相對可靠的評價。
  7. 對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):
    • 定義: 這個指標衡量的是模型預測的概率分布與真實標籤之間的差異。它是一個損失函數,通常在模型的訓練過程中被最小化。在評估階段,較小的對數損失表示模型預測的概率分布更接近真實情況。 適用場景: 適用於輸出概率的分類模型,例如邏輯回歸、Softmax 分類的神经网络等。

多類別分類的評估指標:

對於多類別分類問題,上述的一些指標需要進行擴展或調整:

  • 準確率 (Accuracy) 的計算方式仍然相同。
  • 精確率 (Precision)召回率 (Recall)F1 分數 (F1-Score) 可以針對每一個類別分別計算,然後可以取平均值(例如,宏平均 macro-average、微平均 micro-average、加權平均 weighted-average)。
    • 宏平均: 計算每個類別的指標,然後取平均值,對每個類別的貢獻相同。 微平均: 將所有樣本的預測結果和真實標籤放在一起計算總體的 TP、FP、TN、FN,然後計算指標,對每個樣本的貢獻相同。 加權平均: 計算每個類別的指標,然後根據該類別的樣本數量進行加權平均。

選擇哪些評估指標取決於具體的任務目標和數據特性。在實際應用中,通常會同時考慮多個指標來全面評估模型的性能。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/24
「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型(如 GPT 系列)在應用到新的、未見過的任務時,所需訓練數據量的能力。這兩種能力都非常強大,因為它們減少了對大量標註數據的依賴。 零樣本學習能力 (Zero-s
2025/05/24
「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型(如 GPT 系列)在應用到新的、未見過的任務時,所需訓練數據量的能力。這兩種能力都非常強大,因為它們減少了對大量標註數據的依賴。 零樣本學習能力 (Zero-s
2025/05/24
是 OpenAI 開發的一系列語言模型的名稱,它和 BERT 一樣,也是基於 Transformer 模型架構。然而,GPT 的主要目標和訓練方式與 BERT 有一些關鍵的不同。GPT 家族以其強大的文本生成能力而聞名。 GPT 的主要特點和創新: 基於 Transformer 解碼器 (Dec
2025/05/24
是 OpenAI 開發的一系列語言模型的名稱,它和 BERT 一樣,也是基於 Transformer 模型架構。然而,GPT 的主要目標和訓練方式與 BERT 有一些關鍵的不同。GPT 家族以其強大的文本生成能力而聞名。 GPT 的主要特點和創新: 基於 Transformer 解碼器 (Dec
2025/05/24
是一種基於 Transformer 模型架構的預訓練語言模型,由 Google 於 2018 年提出,並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示,從而在各種下游 NLP 任務中取得了卓越的性能。 BERT 的主要特點和創新:
2025/05/24
是一種基於 Transformer 模型架構的預訓練語言模型,由 Google 於 2018 年提出,並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示,從而在各種下游 NLP 任務中取得了卓越的性能。 BERT 的主要特點和創新:
看更多
你可能也想看
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—平均數計算
Thumbnail
高中數學主題練習—平均數計算
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記,未來將不定期新增內容,此技術屬AI人工智慧範疇。 1.2 Structured Probabilistic Models 既然要融入Uncertainty和Probability
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News