缺失值模式

更新於 發佈於 閱讀時間約 3 分鐘

缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型:

1. 完全隨機缺失(MCAR, Missing Completely At Random)

  • 缺失值的產生完全隨機,與數據中任何其他變量的值無關。
  • 換句話說,缺失和數據本身沒有任何系統性聯繫。
  • 處理方法較簡單,刪除缺失樣本或用簡單填補通常可行。
  • 例如:系統故障導致部分數據未能錄入。

2. 隨機缺失(MAR, Missing At Random)

  • 缺失值的產生依賴於觀察到的其它變量,而不是缺失變量本身。
  • 舉例:收入這個欄位缺失與受試者的年齡有關,但與收入本身無關。
  • 需用更複雜的填補方法如多重插補、機器學習模型預測等。

3. 非隨機缺失(MNAR, Missing Not At Random)

  • 缺失值的產生與缺失的變量本身隱含關係,即缺失的數據與缺失原因相關。
  • 例如:高收入的人可能更不願透露收入導致其缺失。
  • 處理比較棘手,需要結合領域知識、專門的模型或數據建模策略。

缺失值處理的一般方法

  • 刪除法:移除含缺失值的樣本或變量,簡單但可能損失大量資訊。
  • 填補法:用均值、中位數、眾數、插值或模型預測值填補缺失值。
  • 多重插補:生成多個合理填補版本,減少單一填補可能的偏差。
  • 機器學習填補:利用KNN、回歸樹、深度學習等算法預測缺失值。

理解缺失值生成模式可以幫助有效選擇處理策略,避免分析偏差,提高模型準確性與穩健性。缺失值模式指資料中缺失數據出現的機制,常見有三種:

1. 完全隨機缺失(MCAR,Missing Completely At Random)

缺失值出現與資料中任何變數無關,完全隨機發生,例如測量錯誤。此時刪除缺失資料一般不會引入偏差。

2. 隨機缺失(MAR,Missing At Random)

缺失值依賴於其他已觀察變數,但與缺失本身無關。例如收入缺失與年齡有關。此類缺失可採用模型插補等方法處理。

3. 非隨機缺失(MNAR,Missing Not At Random)

缺失值與自身的隱藏值相關,如高收入者更傾向不報收入。此種缺失較難處理,需結合領域知識及特定建模技術。

理解缺失值的模式對選擇合適的資料處理方法至關重要。常見的缺失值處理技術包含刪除法、簡單填補法與基於機器學習的預測填補等。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
481內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
當我們在做很多處理時,結果可能會是List包住一些數值,例如找輪廓或連通域分析時,沒有剛好的特徵可能就會有List含(空值得)形式出現。 為了避免報錯,我們就要額外先做一些處理,先做判斷是否有值在往下一個階段。 all 和 any 是 Python 中用於檢查可迭代物件(如清單、元組、集合等)
Thumbnail
當我們在做很多處理時,結果可能會是List包住一些數值,例如找輪廓或連通域分析時,沒有剛好的特徵可能就會有List含(空值得)形式出現。 為了避免報錯,我們就要額外先做一些處理,先做判斷是否有值在往下一個階段。 all 和 any 是 Python 中用於檢查可迭代物件(如清單、元組、集合等)
Thumbnail
在程式中,了解資料型態是相當重要的。 為什麽? 因為許多error,常常都是因為資料型態不正確所導致的。 舉個例子,在python中: a = 1 + 2 print(a) 結果就是3 a = = "1"+"2" print(a) 結果就是12 是不是差很多? 所以今天我來介
Thumbnail
在程式中,了解資料型態是相當重要的。 為什麽? 因為許多error,常常都是因為資料型態不正確所導致的。 舉個例子,在python中: a = 1 + 2 print(a) 結果就是3 a = = "1"+"2" print(a) 結果就是12 是不是差很多? 所以今天我來介
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News