📚 iPAS AI 應用規劃師(中級)：快速重點整理 - 科目三 - L23301 數據準備與特徴工程

cici

發佈於AI

2026/05/09 更新2026/05/05 發佈閱讀 5 分鐘

🌟 核心觀念一：資料清理 (Data Cleaning) ── 模型的地基

資料清理是所有特徵工程的第一步，沒有乾淨的資料，就沒有準確的模型。這部分的考點通常落在「如何根據情境選擇處理方式」。

缺失值處理 (Missing Values)：
- 刪除法 (Deletion)： 只有在缺失比例極低，且確定刪除不會造成資料偏差時才能使用。
- 填補法 (Imputation)：
- - 統計填補： 使用均值、中位數或眾數。簡單快速，但可能會降低資料變異性。
  - 模型填補： 利用 K 最近鄰 (KNN) 或迴歸模型，根據特徵相似度來補全遺失值，精確度較高。
- 缺失指標編碼： 新增一個欄位標示「是否缺失」，這在樹狀模型中非常有用，能讓模型學習到「缺失本身可能代表的隱含意義」。
異常值偵測與處理 (Outlier Detection)：
- 偵測方法： 統計上常考 Z 分數 (Z-score) 或四分位距 (IQR)；機器學習方法則愛考 Isolation Forest (孤立森林) 或 LOF（本地離群因子）。
- 處理策略： 可以選擇刪除、截尾 (Cap，限制在上下邊界內)，或是將異常值保留作為特徵 (例如在信用卡盜刷偵測中，異常值就是我們要找的目標！)。
資料一致性： 記得統一數據單位與格式（如日期時間的轉換），並排除重複樣本。

🌟 核心觀念二：特徵縮放與轉換 (Scaling & Transformation)

不同的特徵往往有不同的單位與量級 (例如：年齡是 20-80 歲，但年薪可能是幾十萬到幾百萬)。如果直接丟給基於梯度下降或距離計算的模型 (如 KNN、SVM、神經網路)，模型會嚴重偏誤。

資料尺度調整 (Scaling)：
- Min-Max Normalization (最小-最大正規化)： 將數值線性縮放至 0～1 區間。缺點是對極端值非常敏感。
- Z-score Standardization (標準化)： 將數值轉換為平均值為 0、標準差為 1 的常態分佈。是實務上最常用的方法。
- Robust Scaling (穩健標準化)： 使用中位數與 IQR 進行縮放。考題常考！當資料有很多離群值時，選它就對了。
分佈轉換 (Distribution Transformation)：
- 當資料呈現嚴重偏態 (例如右偏的收入分佈) 時，常使用對數轉換 (Log Transform) 來降低極端值影響。
- 進階考點可能會提到 Box-Cox 或 Yeo-Johnson 轉換，用來將資料自動近似常態化。

🌟 核心觀念三：類別型資料處理 (Categorical Encoding)

機器學習模型只看得懂數字，看不懂「台北」、「男/女」這種文字，所以我們必須進行編碼。

Label Encoding (標籤編碼)： 轉換為整數 (0, 1, 2...)。注意陷阱：只適用於有「順序關係 (Ordinal)」的類別 (如：教育程度、VIP 等級)。
One-hot Encoding (獨熱編碼)： 為每個類別新增一個 0/1 欄位。適用於無序類別。缺點：如果類別很多，會造成「維度災難 (Curse of Dimensionality)」與記憶體消耗。
Target Encoding (目標/平均編碼)： 用該類別在目標變數上的平均值來取代。非常適合處理高基數 (類別數量極多) 的變數，能保留關聯性且不造成維度爆炸。

🌟 核心觀念四：特徵選擇與降維 (Feature Selection & Dimensionality Reduction)

當特徵太多時，會拉長訓練時間並造成過度擬合 (Overfitting)。

特徵選擇 (挑選最棒的子集)：
- Filter (過濾法)： 利用統計檢定 (如 Pearson 相關係數、卡方檢定)。速度快，但不考慮模型特性。
- Wrapper (包裝法)： 像遞迴特徵消除 (RFE)，直接用模型表現來篩選。精準但計算成本極高。
- Embedded (嵌入法)： 在訓練過程中自動完成選擇，如 Lasso 迴歸 (L1 正則化) 或是樹狀模型的特徵重要性。
降維技術 (將高維壓縮至低維)：
- PCA (主成分分析)： 線性降維霸主。透過線性變換找出能最大化資料變異的方向 (主成分)。
- LDA (線性判別分析)： LDA 是有監督學習，目標是讓同類更集中、不同類更分離。
- t-SNE / UMAP： 非線性降維方法。考試常考觀念：它們超適合用來做高維資料的「視覺化探索」，但不適合直接用於預測建模。

透過預備 iPAS AI 應用規劃師 (中級) 考試，加強 AI 知識。
※ 內容由 AI 產製

含 AI 應用內容

#考試

喬西的數位跨域日常AI

留言

喬西的數位跨域日常

0會員

26內容數

AI / 行銷 / 程式 / 設計 / 管理 / 閱讀

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

#釀電影#釀評論#藝術評論

2026/02/28

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

之容的沙龍

考試

耶~我們考完試了，一群學生一同發出同樣的聲響。不過自從升上新的年級之後，就沒那麼快樂、輕鬆了，每天都在趕課，就深怕自己跟不上"每位學生有個職責，就是要複習功課或者寫自修，而老師的職責，是要教好學生" 假如我們寫在多的自修、評量、測驗卷、複習卷，也沒辦法考出自再好的成績，因為出題不會只出這些在平常上課

2021/11/03