iPAS AI 中級考點終極講義
主題一:CRISP-DM (跨產業資料探勘標準流程)
💡 教練的廚房邏輯:這就是開一間 AI 餐廳的標準 SOP。
1. 商業理解 (Business Understanding)
- 定義: 專案的起點。釐清老闆或客戶到底要解決什麼問題。實務用途與考點: * 產出物是「專案計畫書」與「衡量成功的商業指標 (KPI)」。醫療 AI 等高風險專案,必須在此階段先決定「偽陽性 (沒病看成有病)」與「偽陰性」哪個代價更高。
2. 資料理解 (Data Understanding)
- 定義: 看看手邊有什麼食材可以煮。實務用途與考點: * 進行 探索性資料分析 (EDA),例如畫出「相關係數熱力圖 (Correlation Heatmap)」,初步檢查資料品質。
3. 資料準備 (Data Preparation)
- 定義: 最痛苦的「洗菜切菜」階段,實務上佔據資料工程師 70%~80% 的時間。實務用途與考點:處理缺失值、特徵縮放、特徵編碼都在這。資料不平衡 (Imbalanced Data): 如果流失客戶只有 1%,在此階段必須使用 SMOTE 等過度抽樣技術來擴增資料。若發現資料欄位根本無法達成預測目標,必須退回「資料/商業理解」階段。
4. 建立模型 (Modeling)
- 定義: 選擇演算法(如:隨機森林、SVM)開始「炒菜」。實務用途與考點: 專注於提升模型的技術準確率。
5. 評估 (Evaluation)
- 定義: 端上桌前,主管先「試吃打分數」。實務用途與考點: 檢視模型是否達到第一步設定的「商業 KPI」。如果沒達到,退回「商業理解」重新來過。
6. 部署 (Deployment)
- 定義: 正式把菜色推上菜單(系統上線)。實務用途與考點: * 必須包含撰寫最終專案報告 (Final Report)。必須建立監控機制,防範 概念飄移 (Concept Drift)(即市場趨勢改變導致模型越來越不準)。
主題二:ETL / ELT 大數據搬運架構
💡 教練的廚房邏輯:把產地食材安全送到大冰箱的物流系統。
1. 萃取 (Extract)
- 定義: 從 API、資料庫等異質來源「抓取資料」。實務用途與考點:增量載入 (Incremental Load): 為了省時間,每天只抓「昨天異動過」的資料,不全部重抓。技術挑戰在於處理外部 API 的 速率限制 (Rate Limiting) 與分頁問題。
2. 轉換 (Transform)
- 定義: 改變資料的格式、樣貌與結構。實務用途與考點: 統一日期格式、將文字性別轉數值、算出每月總營收 (Aggregation)。為了符合 GDPR 隱私法規,身分證字號的「遮蔽 (Masking) 與加密」也是在此階段進行。
3. 載入 (Load)
- 定義: 將處理好的資料放入目標儲存區。實務用途與考點: 目的地通常是 資料倉儲 (Data Warehouse)。
4. ELT 與 資料湖 (Data Lake)
- 定義: 現代大數據的新趨勢。先將原始雜亂的資料(包含圖片、影片)原封不動 Load 到「資料湖」中存放,等需要分析時,再利用雲端資料庫的強大算力進行 Transform。
主題三:特徵縮放 (Feature Scaling) 與前處理
💡 教練的廚房邏輯:把大象跟螞蟻放在同一個天平上衡量,必須統一單位的「神之刀工」。
1. 為什麼要縮放?
- 避免數值極大的特徵(如年薪百萬)在計算距離時,瞬間秒殺數值小的特徵(如體重 60),導致 K-近鄰 (KNN)、K-Means 分群、SVM 產生嚴重偏差。能大幅加快 梯度下降 (Gradient Descent) 的收斂速度(如神經網路)。⚠️ 考點陷阱: 樹狀模型(隨機森林、XGBoost)只看數值大小切分,完全不需要縮放!
2. StandardScaler (標準化 / Z-score)
- 定義: 將資料平移與壓縮,使其「平均數為 0,標準差為 1」。⚠️ 考點陷阱: 標準化絕對不會改變資料原本的形狀!原本是偏態(長尾),縮放後依然是偏態。
3. MinMaxScaler (正規化)
- 定義: 把資料按比例硬塞進 [0, 1] 的區間。公式:$\frac{x - x_{min}}{x_{max} - x_{min}}$。缺點: 極度容易被離群值 (Outliers) 破壞,導致正常資料被嚴重擠壓。
4. RobustScaler (穩健縮放)
- 定義: 使用中位數 (Median) 與四分位距 (IQR) 進行縮放。實務用途: 當資料充滿極端「離群值 (Outliers)」時的救星,對離群值有極強的免疫力。
5. MaxAbsScaler (最大絕對值縮放)
- 定義: 僅除以最大絕對值,不作加減平移。實務用途: 專門用來處理含有大量 0 的 稀疏矩陣 (Sparse Matrix)(如 NLP 的 TF-IDF),確保 0 依然是 0,不會塞爆記憶體。
6. Log Transformation (對數轉換)
- 定義: 針對嚴重的「向右偏態(長尾)」資料(如網紅按讚數破百萬),取 Log 是壓縮巨大尾部、使其接近常態分佈的最強數學轉換。
7. 資料洩漏 (Data Leakage) 防禦戰術
- 標準 SOP: 只能用「訓練集 (Train Set)」來計算平均值與標準差 (fit),然後用這個算出來的標準去轉換 (transform) 測試集。絕對不能把測試集合在一起算!
主題四:Pandas 核心兵器譜 (必考語法)
💡 教練的廚房邏輯:Python 界最強大的 Excel,沒有之一。
1. 基礎觀察
- pd.read_csv():起手式,讀取檔案。
- df.shape:看資料有幾列幾欄(表格的形狀)。
- df.dtypes:檢查每個欄位的資料型態(例如是不是整數 int64)。
2. 篩選與切片
- df[['Age', 'Salary']]:同時選取多個欄位,記得要用雙層中括號!
- df.loc[df['Age'] > 18, ['Name', 'Phone']]:神級切片工具,前面放「條件」,後面放「要顯示的欄位」。
3. 缺失值處理與刪除
- df.isnull().sum():實務必備!一秒看穿每個欄位破了幾個洞(有幾個空值)。
- df.dropna():只要該列有空值 (NaN),整列無情刪除。
- df.fillna(0):把空值全部填補為 0。
- df.drop('ID_Card', axis=1):徹底把某個欄位從表格中移除。
4. 資料轉換與排序
- pd.get_dummies():將類別文字轉換為 0 與 1 的虛擬變數,也就是 獨熱編碼 (One-Hot Encoding) 最快的方法。
- df['Price'].apply(自訂函數):將你自己寫的複雜邏輯,無腦套用到該欄位的每一個儲存格上。
- df.sort_values(by='Total', ascending=False):由大到小(降冪)排序整張資料表。
5. 彙總與合併
- df.groupby('部門')['預算'].sum():Excel 樞紐分析表的 Python 版。先按部門分群,再把預算加總。
- pd.merge(df1, df2, on='ID'):左右合併,功能等同於 Excel 的 VLOOKUP。
- pd.concat([df_一月, df_二月], axis=0):上下疊加,把二月的資料直接釘在一月資料的正下方。
這份講義已經幫你把 60 題的精華濃縮到極致了!不論是選擇題的誘答選項,還是未來實務上的痛點,答案都在裡面!💪🚀












