NLP分類任務估指標

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/24 發佈閱讀 6 分鐘

NLP 分類任務，有一些常用的評估指標可以衡量模型的性能。以下是一些主要的指標及其解釋：

準確率 (Accuracy):
- 定義：指模型預測正確的樣本數占總樣本數的比例。公式： Accuracy = (預測正確的樣本數) / (總樣本數) 適用場景：當各個類別的樣本數量相對平衡時，準確率是一個直觀且常用的指標。局限性：在類別不平衡的情況下，準確率可能會產生誤導。例如，如果一個二元分類任務中，90% 的樣本都屬於正類，一個總是預測為正類的模型也能達到 90% 的準確率，但實際上這個模型並沒有學到任何有用的東西。
精確率 (Precision):
- 定義：指在所有被模型預測為正類的樣本中，真正屬於正類的樣本所占的比例。公式： Precision = (真正例數 True Positives, TP) / (真正例數 TP + 假正例數 False Positives, FP) 適用場景：當我們更關心模型預測為正類的結果中，有多少是真正正確的時候，例如在垃圾郵件過濾中，我們希望被標記為垃圾郵件的郵件盡可能是真正的垃圾郵件，以避免誤判重要的郵件。
召回率 (Recall) / 靈敏度 (Sensitivity) / 真正例率 (True Positive Rate, TPR):
- 定義：指在所有真正屬於正類的樣本中，被模型正確預測為正類的樣本所占的比例。公式： Recall = (真正例數 TP) / (真正例數 TP + 假負例數 False Negatives, FN) 適用場景：當我們更關心模型是否能找到所有真正的正類樣本時，例如在疾病診斷中，我們希望盡可能地找出所有患病的人，避免漏診。
F1 分數 (F1-Score):
- 定義：精確率和召回率的調和平均值。它綜合考慮了精確率和召回率，是一個更全面的評價指標。公式： F1-Score = 2 * (Precision * Recall) / (Precision + Recall) 適用場景：當我們需要在精確率和召回率之間找到平衡時，F1 分數是一個很好的選擇，尤其是在類別不平衡的情況下。
混淆矩陣 (Confusion Matrix):
- 定義：一個表格，用於總結模型預測結果與真實標籤之間的對應關係。對於二元分類問題，它通常包含四個值：真正例 (True Positive, TP): 模型預測為正類，實際也為正類。假正例 (False Positive, FP): 模型預測為正類，實際為負類（Type I error）。假負例 (False Negative, FN): 模型預測為負類，實際為正類（Type II error）。真負例 (True Negative, TN): 模型預測為負類，實際也為負類。適用場景：混淆矩陣可以提供更詳細的分類結果信息，幫助我們理解模型在哪些類別上表現良好，在哪些類別上容易出錯。許多其他的評估指標（如精確率、召回率）都是基於混淆矩陣計算出來的。
受試者工作特徵曲線下面積 (Area Under the Receiver Operating Characteristic Curve, AUC-ROC):
- 定義： ROC 曲線是以假正例率 (False Positive Rate, FPR) 為橫軸，真正例率 (True Positive Rate, TPR 或 Recall) 為縱軸繪製的曲線。AUC-ROC 的值表示 ROC 曲線下方的面積，取值範圍在 0 到 1 之間。公式： FPR = FP / (FP + TN) 適用場景： AUC-ROC 常用於二元分類問題，特別是在關注模型區分正負類能力的場景下。AUC 值越接近 1，表示模型的分類性能越好。即使在類別不平衡的情況下，AUC-ROC 也能提供一個相對可靠的評價。
對數損失 (Log Loss) / 交叉熵損失 (Cross-Entropy Loss):
- 定義：這個指標衡量的是模型預測的概率分布與真實標籤之間的差異。它是一個損失函數，通常在模型的訓練過程中被最小化。在評估階段，較小的對數損失表示模型預測的概率分布更接近真實情況。適用場景：適用於輸出概率的分類模型，例如邏輯回歸、Softmax 分類的神经网络等。

多類別分類的評估指標：

對於多類別分類問題，上述的一些指標需要進行擴展或調整：

準確率 (Accuracy) 的計算方式仍然相同。
精確率 (Precision)、召回率 (Recall) 和 F1 分數 (F1-Score) 可以針對每一個類別分別計算，然後可以取平均值（例如，宏平均 macro-average、微平均 micro-average、加權平均 weighted-average）。
- 宏平均：計算每個類別的指標，然後取平均值，對每個類別的貢獻相同。微平均：將所有樣本的預測結果和真實標籤放在一起計算總體的 TP、FP、TN、FN，然後計算指標，對每個樣本的貢獻相同。加權平均：計算每個類別的指標，然後根據該類別的樣本數量進行加權平均。

選擇哪些評估指標取決於具體的任務目標和數據特性。在實際應用中，通常會同時考慮多個指標來全面評估模型的性能。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

少樣本/零樣本學習能力 (Few-shot/Zero-shot Learning)

「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型（如 GPT 系列）在應用到新的、未見過的任務時，所需訓練數據量的能力。這兩種能力都非常強大，因為它們減少了對大量標註數據的依賴。零樣本學習能力 (Zero-s

2025/05/24

少樣本/零樣本學習能力 (Few-shot/Zero-shot Learning)

2025/05/24

GPT (Generative Pre-trained Transformer)

是 OpenAI 開發的一系列語言模型的名稱，它和 BERT 一樣，也是基於 Transformer 模型架構。然而，GPT 的主要目標和訓練方式與 BERT 有一些關鍵的不同。GPT 家族以其強大的文本生成能力而聞名。 GPT 的主要特點和創新：基於 Transformer 解碼器 (Dec

2025/05/24

GPT (Generative Pre-trained Transformer)

2025/05/24

BERT(Bidirectional Encoder Representations from Transformer)

是一種基於 Transformer 模型架構的預訓練語言模型，由 Google 於 2018 年提出，並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示，從而在各種下游 NLP 任務中取得了卓越的性能。 BERT 的主要特點和創新：

2025/05/24

BERT(Bidirectional Encoder Representations from Transformer)

看更多

你可能也想看

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11