異常值的檢測方法

更新 發佈閱讀 2 分鐘

異常值的檢測方法主要可分為統計方法、機器學習方法和基於距離或密度的方法,這些方法能幫助識別數據中偏離正常模式的點,常用於資料清理、風險控制及異常事件偵測。

常見異常值檢測方法:

1. 統計方法

Z-Score標準化:計算數據點距離平均值的標準差距離,通常超過3倍標準差的被視為異常。

四分位數範圍法(IQR):計算上四分位數(Q3)和下四分位數(Q1)之間的距離,凡超過 或 的數據點視為異常。

假設檢驗:基於特定分布假設檢驗數據點是否符合該分布。

2. 距離和密度方法

最近鄰距離(k-NN):計算數據點與其最近鄰的距離,距離大者判定為異常。

局部離群因子(LOF):評估點密度相對於其鄰居的密度,密度明顯較低的為異常值。

3. 機器學習方法

孤立森林(Isolation Forest):透過隨機切割數據以孤立異常點,異常點被孤立的平均步驟較少。

支持向量機異常檢測(One-Class SVM):找出包圍正常數據的超平面,外部點為異常。

自編碼器(Autoencoder):利用神經網絡重建數據,重建誤差高的點被視為異常。

時間序列異常檢測:對於時序數據,利用趨勢、季節性分解及預測誤差來識別異常。

檢測異常值的挑戰:

特徵選取難題,異常值的表現形式多樣。

正常與異常邊界不明確。

標記資料缺乏,異常資料稀少。

資料噪聲和動態變化影響檢測準確度。

簡單比喻:

異常檢測就像是在一大群人中找出不合群的那幾個特別的“奇葩”,方法多樣且各有側重。

總結:

異常值檢測方法包括統計指標、距離密度評估與多種機器學習技術,根據特定應用與數據類型選擇合適方法,以精準識別與處理異常數據。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
你可能也想看
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News