針對 NLP 生成任務(例如機器翻譯、文本摘要、文本生成、對話系統等),常用的評估指標與分類任務有所不同,主要關注生成文本的質量,包括其與參考答案的相似度、流暢度、連貫性以及是否忠實於輸入等。以下是一些主要的指標及其解釋:
- BLEU (Bilingual Evaluation Understudy):
- 定義: BLEU 是一種廣泛用於評估機器翻譯質量的指標。它通過計算模型生成的譯文與一個或多個參考譯文之間 n-gram (連續的 n 個詞語) 的重疊程度來衡量翻譯的相似度。 公式: BLEU 是一個介於 0 和 1 之間的數值,值越高表示生成的文本與參考文本的相似度越高。BLEU 的計算通常會考慮不同長度的 n-grams (例如 unigrams, bigrams, trigrams, and 4-grams) 的精確率,並對過短的生成文本進行懲罰。 適用場景: 主要用於評估機器翻譯,也可以用於其他文本生成任務作為參考。 局限性: BLEU 僅僅關注 n-gram 的重疊,可能無法很好地衡量語義的準確性、流暢性和整體連貫性。它對參考譯文的依賴性也比較強。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
- 定義: ROUGE 是一套用於評估文本摘要質量的指標。與 BLEU 類似,ROUGE 也通過計算生成摘要與參考摘要之間 n-gram 的重疊程度來衡量摘要的質量。但 ROUGE 更側重於召回率 (recall)。 主要變體: ROUGE-N: 計算生成摘要和參考摘要之間 n-gram 的召回率。例如,ROUGE-1 計算 unigram 的召回率,ROUGE-2 計算 bigram 的召回率。 ROUGE-L: 基於最長公共子序列 (Longest Common Subsequence, LCS) 計算相似度,能夠考慮詞語的順序。 ROUGE-S: 考慮跳躍式的詞語對 (skip-bigram) 的匹配。 適用場景: 主要用於評估文本摘要,但也可用於其他生成任務。 局限性: 與 BLEU 類似,ROUGE 也主要關注詞語的重疊,可能無法完全反映語義和連貫性。
- METEOR (Metric for Evaluation of Translation with Explicit Ordering):
- 定義: METEOR 是一種用於評估機器翻譯質量的指標,旨在改進 BLEU 的一些缺點。它不僅考慮精確率,還考慮召回率,並且使用了詞語的詞幹 (stemming) 和同義詞 (synonyms) 匹配,使得評估更具靈活性。METEOR 還考慮了匹配詞語的連續性。 公式: METEOR 的計算涉及精確率、召回率以及對不連續匹配的懲罰。 適用場景: 主要用於評估機器翻譯,通常被認為比 BLEU 更能反映人類的判斷。
- Perplexity (困惑度):
- 定義: Perplexity 通常用於評估語言模型的性能。它衡量的是模型預測下一個詞語的不確定性。Perplexity 越低,表示模型對下一個詞語的預測越準確,語言模型就越好。 公式: Perplexity 是交叉熵損失的指數形式。 適用場景: 主要用於評估語言模型,例如 GPT 系列。雖然它衡量的是模型對訓練數據的擬合程度,但也可以間接反映模型生成文本的流暢度和合理性。 局限性: Perplexity 並不能直接衡量生成文本的語義質量或與輸入的相關性。
- CIDEr (Consensus-based Image Description Evaluation):
- 定義: 最初用於評估圖像描述的質量,但也逐漸被應用於其他生成任務。CIDEr 通過計算生成文本和一組參考文本之間 TF-IDF 加權的 n-gram 的餘弦相似度來衡量一致性。 適用場景: 適用於需要生成與參考答案在概念上相關的文本的任務。
- SPICE (Semantic Propositional Image Captioning Evaluation):
- 定義: 也是最初為圖像描述設計的,但可以用於更廣泛的生成任務。SPICE 試圖評估生成文本是否準確地表達了參考文本中的語義內容,它會將文本解析成語義圖 (semantic scene graph) 進行比較。 適用場景: 適用於需要評估生成文本語義準確性的任務。
雖然自動評估指標很有用,但它們往往無法完全捕捉到生成文本的所有重要方面,例如語義的準確性、邏輯的連貫性、創造性、以及是否符合人類的偏好。因此,在許多情況下,人為評估仍然是衡量生成模型性能的最終標準。人為評估通常會讓評估者根據一些標準(例如流暢度、相關性、忠實度等)對生成的文本進行評分或比較。
選擇哪個指標?
選擇合適的評估指標取決於具體的生成任務。例如:
- 機器翻譯: 常用的指標包括 BLEU、METEOR 和 COMET (一種基於神經網路的模型)。
- 文本摘要: 常用的指標包括 ROUGE。
- 語言模型: 常用的指標包括 Perplexity。
- 開放式文本生成和對話系統: 自動指標的評估可能更具挑戰性,通常需要結合人為評估。
需要注意的是,每個自動評估指標都有其優點和局限性,並且它們與人類判斷的相關性也可能因任務而異。在實際應用中,通常會結合使用多個自動指標,並輔以人為評估,以更全面地了解生成模型的性能。


















