SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術

更新 發佈閱讀 2 分鐘

SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果。

SMOTE的實現原理:

  • 對少數類樣本,找出其k個最近鄰(通常k=5),
  • 隨機選擇一個最近鄰,
  • 在當前樣本與該鄰居樣本的特徵向量之間,隨機線性插值生成一個新的合成樣本,
  • 重複此過程直到少數類樣本數量達到預期的擴充比例。

SMOTE的優點:

  • 相比簡單複製少數類樣本,生成了具有多樣性的合成樣本,有助於模型學習更平滑的決策邊界,
  • 減少過擬合的可能性,
  • 搭配少數類欠採樣常能提升模型整體性能。

注意事項:

  • SMOTE生成的樣本不考慮多數類邊界信息,可能在類別重疊區域造成模糊樣本,
  • 在極度不平衡或高維度中,需配合異常檢測和特徵選擇以避免噪聲擾動。

使用場景與應用:

  • 不平衡分類問題(如醫療診斷、欺詐偵測、故障預測)中提升少數類識別率,
  • 與多種分類器(如決策樹、SVM、神經網絡)結合使用。

總結:SMOTE是一種通過合成少數類樣本來增強訓練數據平衡性的技術,是解決類別不均衡問題的通用且有效方法。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
看更多
你可能也想看
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我們將從四個角度切入,深度理解虛擬製作的核心主題與模式
Thumbnail
我們將從四個角度切入,深度理解虛擬製作的核心主題與模式
Thumbnail
高中數學主題練習—配方法
Thumbnail
高中數學主題練習—配方法
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
高中數學主題練習—配方法
Thumbnail
高中數學主題練習—配方法
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
ChatGPT剛問世的那陣子,世界各地不約而同,出現許多試著教會AI「1+1=3」的人類。
Thumbnail
ChatGPT剛問世的那陣子,世界各地不約而同,出現許多試著教會AI「1+1=3」的人類。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
我相信有更聰明好用的方法,不過目前我還是喜歡用這個一人群組。
Thumbnail
我相信有更聰明好用的方法,不過目前我還是喜歡用這個一人群組。
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
Thumbnail
抽樣方式影響調查的樣本結果是否可以代表母體狀況。方便抽樣可能導致偏誤,應考慮更系統化的抽樣方法,例如簡單隨機抽樣,以確保樣本情況可以回推母體情況。文章透過範例說明,解釋樣本和母體之間關聯。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News