【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境

更新 發佈閱讀 8 分鐘
vocus|新世代的創作平台

準確率、精確率、召回率、F1-Score 是在評估分類模型表現時常用的四個重要指標。當我們建立分類模型來進行預測時,如何衡量模型的好壞至關重要。這些指標各自側重於不同的評估角度,因此選擇合適的指標能幫助我們更全面地了解模型的效果。本文將帶你一步步了解這些指標的定義、如何計算它們,以及在什麼情境下應該使用它們,從而幫助你在未來的數據分析和機器學習項目中做出更明智的決策。


# 可使用目錄功能快速確認要閱覽的主題


何謂「正類」與「負類 」

在了解今天要說明的評估指標之前,要先了解何謂 正類(Positive Class) 與負類 (Negative Class)。

「正類」(Positive Class)是指在分類任務中,模型所關注的「感興趣的類別」。通常,正類是我們希望檢測或預測的目標。例如:

  • 在醫學診斷中,正類通常指的是「有疾病」的病人,而「負類」(Negative Class)指的是「沒有疾病」的病人。
  • 在信用卡流失預測中,正類可以是「流失的客戶」,負類是「未流失的客戶」。




評估指標重點總結

vocus|新世代的創作平台
vocus|新世代的創作平台



Accuracy(準確度)

定義

準確度是所有正確預測的樣本數佔總樣本數的比例,衡量模型在所有樣本中的預測表現。


公式

vocus|新世代的創作平台



  • TP(True Positive):真陽性,實際為正,預測也為正。
  • TN(True Negative):真陰性,實際為負,預測也為負。
  • FP(False Positive):假陽性,實際為負,預測為正。
  • FN(False Negative):假陰性,實際為正,預測為負。


舉例

如果在一個包含 100 個樣本的數據集中,模型正確預測了 85 個樣本,那麼模型的準確度就是 85%。


重點

準確度是一個簡單的指標,反映模型整體預測的表現,但當類別不平衡時,可能會給出誤導性的結果。例如,當正類樣本很少時,即使模型只預測負類,準確度仍然可能很高。


實際應用案例

  • 情境:

 電子郵件分類系統(將郵件分類為垃圾郵件或正常郵件)

  • 需求:

 當大部分郵件是正常郵件,垃圾郵件只佔一小部分時,你的目標是要正確分類出所有的郵件。

  • 使用準確度的原因:

 大多數郵件是正常的,所以模型只要能在大部分情況下正確分類就可以達到很高的準確度。因此,在這種情況下,準確度是一個合理的評估指標,因為系統需要正確分類所有郵件。

  • 何時使用準確度:
  1. 當類別分佈比較均衡時。
  2. 當錯誤分類不會帶來太大成本(如分類錯誤的後果可接受)。



精確率 (Precision)

定義

精確率是指在所有被模型預測為「正類」(例如預測為「流失」的客戶)中,有多少實際上是正確的。也就是說,精確率衡量的是模型在 「預測為正類的結果中有多少是真正的正類」


公式

vocus|新世代的創作平台



  • TP(True Positive,真正類): 被正確預測為正類的樣本數(實際為正,預測也為正)。
  • FP(False Positive,假正類): 被錯誤預測為正類的樣本數(實際為負,預測為正)。


舉例

如果模型預測了 100 個「流失」的客戶,其中 70 個實際上是真的流失,30 個沒有流失(模型預測錯了),那麼精確率是:

vocus|新世代的創作平台



這意味著模型預測的「流失」客戶中,有 70% 是正確的。


重點

精確率告訴我們「模型預測正類的結果有多準確」,重點是「錯誤預測為正類的次數」,即 FP 的數量。如果你不希望誤將「非流失」的客戶錯誤預測為「流失」,那麼你會希望精確率較高。


實際應用案例

  • 情境:

 醫療診斷中的癌症檢測(分類病人是否患有癌症)

  • 需求:

 當檢測結果顯示一個病人患有癌症時,這個結果應該高度可信。如果檢測說病人患有癌症,但實際上他是健康的,這將導致不必要的壓力和昂貴的進一步檢查。

  • 使用精確率的原因:

 你更關注於確保所有被檢測為陽性的病人實際上確實患有癌症,因此,你希望最大化精確率。這樣可以減少「假陽性」(即無病被檢測為患病)的情況。

  • 何時使用精確率:
  1. 當假陽性成本很高(如誤判一個健康人患病)。
  2. 當你想避免誤報(false positives)



召回率 (Recall)

定義

召回率是指在所有實際的正類樣本中,有多少被模型正確預測出來。換句話說,召回率衡量的是模型在 「實際正類的樣本中有多少被正確預測」


公式

vocus|新世代的創作平台



  • TP(True Positive,真正類): 被正確預測為正類的樣本數(實際為正,預測也為正)。
  • FN(False Negative,假負類): 被錯誤預測為負類的樣本數(實際為正,預測為負)。


舉例

假設實際上有 100 個流失的客戶,其中模型正確地預測了 70 個流失客戶,但有 30 個流失客戶沒有被預測出來,那麼召回率是:

vocus|新世代的創作平台



這意味著模型能夠召回 70% 的實際流失客戶。


重點

召回率告訴我們「模型對正類的樣本捕捉得有多好」,重點是「實際正類樣本未被預測為正類的次數」,即 FN 的數量。如果你希望能夠盡可能地識別所有流失客戶,那麼你會希望召回率較高。


實際應用案例

  • 情境:

 偵測詐欺交易(銀行系統要偵測哪些交易是詐欺)

  • 需求:

 銀行不想漏掉任何可疑的詐欺交易,即使這意味著有時候正常的交易可能會被標記為可疑。

  • 使用召回率的原因:

 這種情況下,偵測到的每一個詐欺交易都很重要,漏掉任何一個詐欺交易都可能導致重大損失。因此,召回率應該被優先考慮,即使這意味著會有更多「假陽性」(即正常交易被誤標為詐欺)。

  • 何時使用召回率:
  1. 當漏掉正類樣本的代價很高(如漏掉詐欺交易、患者診斷等)。
  2. 當需要最大化檢測能力



F1-score

定義

F1-score 是精確率 (Precision) 和召回率 (Recall) 的調和平均數,用來平衡兩者的關係,尤其在精確率和召回率之間有取捨時使用。


公式

vocus|新世代的創作平台




舉例

假設模型的精確率是 80%,召回率是 60%,那麼 F1-score 就是這兩者的調和平均數,代表模型在整體預測上平衡兩者的表現。


重點

F1-score 在類別不平衡的情況下尤為有用,當你需要在精確率和召回率之間取得平衡時,它是一個很好的綜合指標。F1-score 越高,表示模型在識別正類樣本的準確性和完整性上表現越好。


實際應用案例

  • 情境:

 資訊檢索系統(如搜索引擎要找到最相關的搜索結果)

  • 需求:

 搜索引擎應該找到盡可能多的相關搜索結果(召回率高),同時,返回的結果應該是高度相關的(精確率高)。在這裡,精確率和召回率同樣重要,需要在兩者之間找到一個平衡。

  • 使用 F1-score 的原因:

 如果一個系統找到了很多搜索結果,但大部分不相關(精確率低),或是找到了少數結果,但都是相關的(召回率低),都不是理想的情況。F1-score 是平衡精確率和召回率的指標,在這樣的情境下非常有用。

  • 何時使用 F1-score:
  1. 當你想在精確率和召回率之間取得平衡
  2. 當類別不平衡且精確率和召回率同樣重要
留言
avatar-img
JayRay 的沙龍
23會員
23內容數
JayRay 的沙龍的其他內容
2025/01/21
本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介,並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。
Thumbnail
2025/01/21
本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介,並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。
Thumbnail
2025/01/05
本篇文章提供描述性統計的完整指南,涵蓋集中趨勢、離散趨勢和數據分佈等重要概念,並附上豐富的實務應用案例與 Python 資料視覺化參考連結,協助讀者快速瞭解數據分析的基礎知識。
Thumbnail
2025/01/05
本篇文章提供描述性統計的完整指南,涵蓋集中趨勢、離散趨勢和數據分佈等重要概念,並附上豐富的實務應用案例與 Python 資料視覺化參考連結,協助讀者快速瞭解數據分析的基礎知識。
Thumbnail
2024/12/25
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
2024/12/25
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
看更多
你可能也想看
Thumbnail
我們將介紹各種類型的信度和統計方法,包含Cohen Kappa 係數、組內相關係數、α係數的SPSS教學。信度的可以使用不同的評估方法來評估。信度對於確定評分標準或量表的一致性和穩定度至關重要。
Thumbnail
我們將介紹各種類型的信度和統計方法,包含Cohen Kappa 係數、組內相關係數、α係數的SPSS教學。信度的可以使用不同的評估方法來評估。信度對於確定評分標準或量表的一致性和穩定度至關重要。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
CFA和SEM分析的擬合指標通常需要達到專家門檻,才可以進行分析。我整理知名統計學者Hair的建議,並附上相關文獻佐證,讓讀者能正確地進行模型修正,讓適配指標過關。
Thumbnail
CFA和SEM分析的擬合指標通常需要達到專家門檻,才可以進行分析。我整理知名統計學者Hair的建議,並附上相關文獻佐證,讓讀者能正確地進行模型修正,讓適配指標過關。
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
加入我們ASC 的 Discore: https://discord.gg/a4C57cVR6B 1.如何判斷一個好的交易策略? a.報酬率 b.最大回撤 : 當一個k棒從波峰到波谷回踩的時候,那最大回撤就是波動最大的那一段。 c.夏普比率: 夏普率 = (報酬率 – 無風險利率)/標準差 夏普率:
Thumbnail
加入我們ASC 的 Discore: https://discord.gg/a4C57cVR6B 1.如何判斷一個好的交易策略? a.報酬率 b.最大回撤 : 當一個k棒從波峰到波谷回踩的時候,那最大回撤就是波動最大的那一段。 c.夏普比率: 夏普率 = (報酬率 – 無風險利率)/標準差 夏普率:
Thumbnail
本文章收集與評論三個體現「精準度-可解釋性權衡 (Accuracy-Interpretability Tradeoff)」的例子。 在詐欺偵測的數據集中,本來預期要觀察到的權衡,似乎並沒有出現。這令人非常好奇這個權衡的故事,源頭是哪邊。 本文章收錄三個,對於此權衡的認知升級。
Thumbnail
本文章收集與評論三個體現「精準度-可解釋性權衡 (Accuracy-Interpretability Tradeoff)」的例子。 在詐欺偵測的數據集中,本來預期要觀察到的權衡,似乎並沒有出現。這令人非常好奇這個權衡的故事,源頭是哪邊。 本文章收錄三個,對於此權衡的認知升級。
Thumbnail
BEC重點 以下整理各章節一定要記得的地方,僅為個人念書心得,適合已經唸過一次課本或考前複習者快速複習重點、針對考點準備,並非完整的觀念解說。
Thumbnail
BEC重點 以下整理各章節一定要記得的地方,僅為個人念書心得,適合已經唸過一次課本或考前複習者快速複習重點、針對考點準備,並非完整的觀念解說。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News