🌟 核心觀念一:資料清理 (Data Cleaning) ── 模型的地基
資料清理是所有特徵工程的第一步,沒有乾淨的資料,就沒有準確的模型。這部分的考點通常落在「如何根據情境選擇處理方式」。
- 缺失值處理 (Missing Values):
- 刪除法 (Deletion): 只有在缺失比例極低,且確定刪除不會造成資料偏差時才能使用。
- 填補法 (Imputation):
- 統計填補: 使用均值、中位數或眾數。簡單快速,但可能會降低資料變異性。
- 模型填補: 利用 K 最近鄰 (KNN) 或迴歸模型,根據特徵相似度來補全遺失值,精確度較高。
- 缺失指標編碼: 新增一個欄位標示「是否缺失」,這在樹狀模型中非常有用,能讓模型學習到「缺失本身可能代表的隱含意義」。
- 異常值偵測與處理 (Outlier Detection):
- 偵測方法: 統計上常考 Z 分數 (Z-score) 或四分位距 (IQR);機器學習方法則愛考 Isolation Forest (孤立森林) 或 LOF(本地離群因子)。
- 處理策略: 可以選擇刪除、截尾 (Cap,限制在上下邊界內),或是將異常值保留作為特徵 (例如在信用卡盜刷偵測中,異常值就是我們要找的目標!)。
- 資料一致性: 記得統一數據單位與格式(如日期時間的轉換),並排除重複樣本。
🌟 核心觀念二:特徵縮放與轉換 (Scaling & Transformation)
不同的特徵往往有不同的單位與量級 (例如:年齡是 20-80 歲,但年薪可能是幾十萬到幾百萬)。如果直接丟給基於梯度下降或距離計算的模型 (如 KNN、SVM、神經網路),模型會嚴重偏誤。
- 資料尺度調整 (Scaling):
- Min-Max Normalization (最小-最大正規化): 將數值線性縮放至 0~1 區間。缺點是對極端值非常敏感。
- Z-score Standardization (標準化): 將數值轉換為平均值為 0、標準差為 1 的常態分佈。是實務上最常用的方法。
- Robust Scaling (穩健標準化): 使用中位數與 IQR 進行縮放。考題常考!當資料有很多離群值時,選它就對了。
- 分佈轉換 (Distribution Transformation):
- 當資料呈現嚴重偏態 (例如右偏的收入分佈) 時,常使用對數轉換 (Log Transform) 來降低極端值影響。
- 進階考點可能會提到 Box-Cox 或 Yeo-Johnson 轉換,用來將資料自動近似常態化。
🌟 核心觀念三:類別型資料處理 (Categorical Encoding)
機器學習模型只看得懂數字,看不懂「台北」、「男/女」這種文字,所以我們必須進行編碼。
- Label Encoding (標籤編碼): 轉換為整數 (0, 1, 2...)。注意陷阱:只適用於有「順序關係 (Ordinal)」的類別 (如:教育程度、VIP 等級)。
- One-hot Encoding (獨熱編碼): 為每個類別新增一個 0/1 欄位。適用於無序類別。缺點:如果類別很多,會造成「維度災難 (Curse of Dimensionality)」與記憶體消耗。
- Target Encoding (目標/平均編碼): 用該類別在目標變數上的平均值來取代。非常適合處理高基數 (類別數量極多) 的變數,能保留關聯性且不造成維度爆炸。
🌟 核心觀念四:特徵選擇與降維 (Feature Selection & Dimensionality Reduction)
當特徵太多時,會拉長訓練時間並造成過度擬合 (Overfitting)。
- 特徵選擇 (挑選最棒的子集):
- Filter (過濾法): 利用統計檢定 (如 Pearson 相關係數、卡方檢定)。速度快,但不考慮模型特性。
- Wrapper (包裝法): 像遞迴特徵消除 (RFE),直接用模型表現來篩選。精準但計算成本極高。
- Embedded (嵌入法): 在訓練過程中自動完成選擇,如 Lasso 迴歸 (L1 正則化) 或是樹狀模型的特徵重要性。
- 降維技術 (將高維壓縮至低維):
- PCA (主成分分析): 線性降維霸主。透過線性變換找出能最大化資料變異的方向 (主成分)。
- LDA (線性判別分析): LDA 是有監督學習,目標是讓同類更集中、不同類更分離。
- t-SNE / UMAP: 非線性降維方法。考試常考觀念:它們超適合用來做高維資料的「視覺化探索」,但不適合直接用於預測建模。
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容由 AI 產製













