19/100 類別不平衡問題的解決方案 🚦 用權重調整或數據合成技術(SMOTE),讓預測更公平!

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》

19/100 第二週:資料處理與特徵工程

19. 類別不平衡問題的解決方案 🚦 用權重調整或數據合成技術(SMOTE),讓預測更公平!

1️⃣ 問題理解:什麼是類別不平衡?

在分類任務中,如果多數類別的數據量遠高於少數類別,模型往往會偏向多數類別,導致少數類別的識別效果非常差。

🔍 實際案例:詐欺交易檢測

類別 筆數

✅ 正常交易 95,000

❌ 詐欺交易 5,000

如果模型只預測「正常交易」,準確率看似高達 95%,但對於詐欺檢測完全無效。

2️⃣ 解決策略:兩大方向

🧩 A. 數據層面處理(Resampling Techniques)

方法 說明 適用場景

過採樣 增加少數類別數據 數據量較少時

欠採樣 減少多數類別數據 數據量巨大時

SMOTE 合成少數類別樣本 數據偏少,避免過擬合

🧩 B. 模型層面處理(Algorithm-Level Techniques)

方法 說明 適用場景

權重調整 讓模型更重視少數類別 數據量大不想更動數據集

特殊演算法 如 XGBoost、LightGBM 極端不平衡或大數據

3️⃣ 實戰流程演練!

💡 Step 1: 數據準備

import pandas as pd

from sklearn.datasets import make_classification

# 模擬不平衡數據集

X, y = make_classification(

n_samples=10000, n_features=20,

n_classes=2, weights=[0.95, 0.05],

random_state=42

)

print(pd.Series(y).value_counts())

💡 Step 2: 數據處理

✅ 過採樣 (RandomOverSampler)

from imblearn.over_sampling import RandomOverSampler

oversampler = RandomOverSampler(random_state=42)

X_resampled, y_resampled = oversampler.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

✅ 欠採樣 (RandomUnderSampler)

from imblearn.under_sampling import RandomUnderSampler

undersampler = RandomUnderSampler(random_state=42)

X_resampled, y_resampled = undersampler.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

✅ SMOTE 合成少數類別數據

from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)

X_resampled, y_resampled = smote.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

💡 Step 3: 模型層面處理

✅ 權重調整 (Class Weight)

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(class_weight="balanced", random_state=42)

model.fit(X_resampled, y_resampled)

✅ XGBoost 調整 scale_pos_weight

from xgboost import XGBClassifier

scale_pos_weight = (len(y_resampled[y_resampled == 0]) / len(y_resampled[y_resampled == 1]))

model = XGBClassifier(scale_pos_weight=scale_pos_weight, use_label_encoder=False, eval_metric='logloss')

model.fit(X_resampled, y_resampled)

💡 Step 4: 模型評估

不要只看準確率!用這組指標:

from sklearn.metrics import classification_report

# 假設已分割測試集

y_pred = model.predict(X_resampled)

print(classification_report(y_resampled, y_pred))

重點關注:

Precision 精確率:預測為「詐欺」的中,實際是詐欺的比例

Recall 召回率:所有詐欺中,被成功預測出的比例

F1-Score:綜合 Precision 和 Recall 的平均

AUC-ROC:多閾值下的效果

4️⃣ 方法選擇指南

面對類別不平衡問題,數據少時用 SMOTE,數據多用 欠採樣或權重調整,極端不平衡(99:1)選擇 XGBoost 的 scale_pos_weight,若數據難以修改,則採用 模型權重調整,靈活應對各種情境,提升模型表現。

🎉 結論:推薦配方!

📌 最穩定的組合建議:

✅ 數據層面:使用 SMOTE

✅ 模型層面:加上 class_weight="balanced"

✅ 評估指標:Precision / Recall / F1-Score / AUC-ROC

📌 千萬別只看準確率! 這樣能讓你的 AI 模型對少數類別也有公平對待,適合詐欺檢測、醫療診斷、品質異常檢測等高風險應用場景!

留言
avatar-img
艾韓思 AIHANS|AI 應用工程筆記
46會員
78內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
2025/05/26
失衡的詐欺、醫療資料若不修正,模型易忽視少數類別。本單元教你 RandomOversampling、SMOTE、欠採樣及 class_weight,並用 Precision、Recall、F1、AUC 評估,附 sklearn 範例,快速提升召回率,打造公平 AI,必讀!
Thumbnail
2025/05/26
失衡的詐欺、醫療資料若不修正,模型易忽視少數類別。本單元教你 RandomOversampling、SMOTE、欠採樣及 class_weight,並用 Precision、Recall、F1、AUC 評估,附 sklearn 範例,快速提升召回率,打造公平 AI,必讀!
Thumbnail
2025/05/26
模型準確不代表真正聰明!訓練集、測試集合理拆分,是驗證泛化能力的關鍵。學習本單元,你將掌握隨機分割、時間序列留出、交叉驗證等技巧,避免「記答案」陷阱,確保模型在未知資料也能穩健表現。從理論到 sklearn 實作,一次搞懂資料切分黃金比例與常見誤區,為後續調參與部署奠定紮實基礎,推薦必讀!
Thumbnail
2025/05/26
模型準確不代表真正聰明!訓練集、測試集合理拆分,是驗證泛化能力的關鍵。學習本單元,你將掌握隨機分割、時間序列留出、交叉驗證等技巧,避免「記答案」陷阱,確保模型在未知資料也能穩健表現。從理論到 sklearn 實作,一次搞懂資料切分黃金比例與常見誤區,為後續調參與部署奠定紮實基礎,推薦必讀!
Thumbnail
2025/05/26
想讓模型更快更準?PCA 是入門降維首選!本單元手把手示範數據標準化、解釋方差分析、視覺化技巧,搭配 Python 實作範例,教你在保持資訊量的同時大幅減少維度,解決高維詛咒與共線性。無論是基因序列、影像特徵還是金融指標,學完即可立即應用,提升演算法效率與洞察力,絕對值得收藏!
Thumbnail
2025/05/26
想讓模型更快更準?PCA 是入門降維首選!本單元手把手示範數據標準化、解釋方差分析、視覺化技巧,搭配 Python 實作範例,教你在保持資訊量的同時大幅減少維度,解決高維詛咒與共線性。無論是基因序列、影像特徵還是金融指標,學完即可立即應用,提升演算法效率與洞察力,絕對值得收藏!
Thumbnail
看更多
你可能也想看
Thumbnail
今天說的是一種稱為「自動化偏誤」(automation bias)的認知偏誤。人們常會不加思索地認為由自動化決策系統,例如現在常用的ChatGPT,會有程式語言賦予的理性與客觀,比較能避免人類常見的各種偏見。
Thumbnail
今天說的是一種稱為「自動化偏誤」(automation bias)的認知偏誤。人們常會不加思索地認為由自動化決策系統,例如現在常用的ChatGPT,會有程式語言賦予的理性與客觀,比較能避免人類常見的各種偏見。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
AI與人類分工:預測與判斷的智慧結合
Thumbnail
AI與人類分工:預測與判斷的智慧結合
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
生成式AI與以創意為生的「廣告人」,有可能和平共處嗎?使用AI工具幫客戶做行銷企畫,會不會有「偷吃步」的嫌疑?
Thumbnail
生成式AI與以創意為生的「廣告人」,有可能和平共處嗎?使用AI工具幫客戶做行銷企畫,會不會有「偷吃步」的嫌疑?
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
ChatGPT剛問世的那陣子,世界各地不約而同,出現許多試著教會AI「1+1=3」的人類。
Thumbnail
ChatGPT剛問世的那陣子,世界各地不約而同,出現許多試著教會AI「1+1=3」的人類。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News