iPAS 中級 AI 考點衝刺重點：CRISP-DM、ETL、特徵縮放與 Pandas

chen chen

發佈於夜鷹計畫

2026/04/18 更新2026/04/18 發佈閱讀 9 分鐘

iPAS AI 中級考點終極講義

主題一：CRISP-DM (跨產業資料探勘標準流程)

💡 教練的廚房邏輯：這就是開一間 AI 餐廳的標準 SOP。

1. 商業理解 (Business Understanding)

定義：專案的起點。釐清老闆或客戶到底要解決什麼問題。實務用途與考點： * 產出物是「專案計畫書」與「衡量成功的商業指標 (KPI)」。醫療 AI 等高風險專案，必須在此階段先決定「偽陽性 (沒病看成有病)」與「偽陰性」哪個代價更高。

2. 資料理解 (Data Understanding)

定義：看看手邊有什麼食材可以煮。實務用途與考點： * 進行探索性資料分析 (EDA)，例如畫出「相關係數熱力圖 (Correlation Heatmap)」，初步檢查資料品質。

3. 資料準備 (Data Preparation)

定義：最痛苦的「洗菜切菜」階段，實務上佔據資料工程師 70%~80% 的時間。實務用途與考點：處理缺失值、特徵縮放、特徵編碼都在這。資料不平衡 (Imbalanced Data)：如果流失客戶只有 1%，在此階段必須使用 SMOTE 等過度抽樣技術來擴增資料。若發現資料欄位根本無法達成預測目標，必須退回「資料/商業理解」階段。

4. 建立模型 (Modeling)

定義：選擇演算法（如：隨機森林、SVM）開始「炒菜」。實務用途與考點：專注於提升模型的技術準確率。

5. 評估 (Evaluation)

定義：端上桌前，主管先「試吃打分數」。實務用途與考點：檢視模型是否達到第一步設定的「商業 KPI」。如果沒達到，退回「商業理解」重新來過。

6. 部署 (Deployment)

定義：正式把菜色推上菜單（系統上線）。實務用途與考點： * 必須包含撰寫最終專案報告 (Final Report)。必須建立監控機制，防範概念飄移 (Concept Drift)（即市場趨勢改變導致模型越來越不準）。

主題二：ETL / ELT 大數據搬運架構

💡 教練的廚房邏輯：把產地食材安全送到大冰箱的物流系統。

1. 萃取 (Extract)

定義：從 API、資料庫等異質來源「抓取資料」。實務用途與考點：增量載入 (Incremental Load)：為了省時間，每天只抓「昨天異動過」的資料，不全部重抓。技術挑戰在於處理外部 API 的速率限制 (Rate Limiting) 與分頁問題。

2. 轉換 (Transform)

定義：改變資料的格式、樣貌與結構。實務用途與考點：統一日期格式、將文字性別轉數值、算出每月總營收 (Aggregation)。為了符合 GDPR 隱私法規，身分證字號的「遮蔽 (Masking) 與加密」也是在此階段進行。

3. 載入 (Load)

定義：將處理好的資料放入目標儲存區。實務用途與考點：目的地通常是資料倉儲 (Data Warehouse)。

4. ELT 與資料湖 (Data Lake)

定義：現代大數據的新趨勢。先將原始雜亂的資料（包含圖片、影片）原封不動 Load 到「資料湖」中存放，等需要分析時，再利用雲端資料庫的強大算力進行 Transform。

主題三：特徵縮放 (Feature Scaling) 與前處理

💡 教練的廚房邏輯：把大象跟螞蟻放在同一個天平上衡量，必須統一單位的「神之刀工」。

1. 為什麼要縮放？

避免數值極大的特徵（如年薪百萬）在計算距離時，瞬間秒殺數值小的特徵（如體重 60），導致 K-近鄰 (KNN)、K-Means 分群、SVM 產生嚴重偏差。能大幅加快梯度下降 (Gradient Descent) 的收斂速度（如神經網路）。⚠️ 考點陷阱：樹狀模型（隨機森林、XGBoost）只看數值大小切分，完全不需要縮放！

2. StandardScaler (標準化 / Z-score)

定義：將資料平移與壓縮，使其「平均數為 0，標準差為 1」。⚠️ 考點陷阱：標準化絕對不會改變資料原本的形狀！原本是偏態（長尾），縮放後依然是偏態。

3. MinMaxScaler (正規化)

定義：把資料按比例硬塞進 [0, 1] 的區間。公式：$\frac{x - x_{min}}{x_{max} - x_{min}}$。缺點：極度容易被離群值 (Outliers) 破壞，導致正常資料被嚴重擠壓。

4. RobustScaler (穩健縮放)

定義：使用中位數 (Median) 與四分位距 (IQR) 進行縮放。實務用途：當資料充滿極端「離群值 (Outliers)」時的救星，對離群值有極強的免疫力。

5. MaxAbsScaler (最大絕對值縮放)

定義：僅除以最大絕對值，不作加減平移。實務用途：專門用來處理含有大量 0 的稀疏矩陣 (Sparse Matrix)（如 NLP 的 TF-IDF），確保 0 依然是 0，不會塞爆記憶體。

6. Log Transformation (對數轉換)

定義：針對嚴重的「向右偏態（長尾）」資料（如網紅按讚數破百萬），取 Log 是壓縮巨大尾部、使其接近常態分佈的最強數學轉換。

7. 資料洩漏 (Data Leakage) 防禦戰術

標準 SOP：只能用「訓練集 (Train Set)」來計算平均值與標準差 (fit)，然後用這個算出來的標準去轉換 (transform) 測試集。絕對不能把測試集合在一起算！

主題四：Pandas 核心兵器譜 (必考語法)

💡 教練的廚房邏輯：Python 界最強大的 Excel，沒有之一。

1. 基礎觀察

pd.read_csv()：起手式，讀取檔案。
df.shape：看資料有幾列幾欄（表格的形狀）。
df.dtypes：檢查每個欄位的資料型態（例如是不是整數 int64）。

2. 篩選與切片

df[['Age', 'Salary']]：同時選取多個欄位，記得要用雙層中括號！
df.loc[df['Age'] > 18, ['Name', 'Phone']]：神級切片工具，前面放「條件」，後面放「要顯示的欄位」。

3. 缺失值處理與刪除

df.isnull().sum()：實務必備！一秒看穿每個欄位破了幾個洞（有幾個空值）。
df.dropna()：只要該列有空值 (NaN)，整列無情刪除。
df.fillna(0)：把空值全部填補為 0。
df.drop('ID_Card', axis=1)：徹底把某個欄位從表格中移除。

4. 資料轉換與排序

pd.get_dummies()：將類別文字轉換為 0 與 1 的虛擬變數，也就是獨熱編碼 (One-Hot Encoding) 最快的方法。
df['Price'].apply(自訂函數)：將你自己寫的複雜邏輯，無腦套用到該欄位的每一個儲存格上。
df.sort_values(by='Total', ascending=False)：由大到小（降冪）排序整張資料表。

5. 彙總與合併

df.groupby('部門')['預算'].sum()：Excel 樞紐分析表的 Python 版。先按部門分群，再把預算加總。
pd.merge(df1, df2, on='ID')：左右合併，功能等同於 Excel 的 VLOOKUP。
pd.concat([df_一月, df_二月], axis=0)：上下疊加，把二月的資料直接釘在一月資料的正下方。

這份講義已經幫你把 60 題的精華濃縮到極致了！不論是選擇題的誘答選項，還是未來實務上的痛點，答案都在裡面！💪🚀

含 AI 應用內容

留言

chen chen的沙龍

0會員

4內容數

你好，我是 chen chen！一個正在挑戰「iPAS 中級 AI 應用規劃師」的非本科輪班族。我知道下班後讀書有多累，所以在這裡記錄了我的備考筆記、刷題重點，以及專為零碎時間打造的無痛學習法。如果你也是工作忙碌、想跨領域拿下 AI 證照的戰友，歡迎加入我的夜鷹飛行隊，我們一起把證照拿到手！💪

chen chen的沙龍的其他內容

2026/04/18

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_03

實務情境與進階陷阱

2026/04/18

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_03

實務情境與進階陷阱

2026/04/18

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_02

🏆深度觀念與實務細節

2026/04/18

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_02

🏆深度觀念與實務細節

2026/04/17

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_01

內容精準涵蓋科目一與科目二的必考重點，包含：CRISP-DM 專案黃金流程、ETL 大數據搬運、特徵縮放 (Feature Scaling) 原理，以及必備的 Pandas 基礎語法。每道題目皆附有「教練級的白話文解析」，幫助非本科、工作忙碌的戰友們利用零碎時間無痛刷題、快速抓漏，穩穩拿下基本分！

2026/04/17

iPAS 中級 AI 考點衝刺測驗：CRISP-DM、ETL、特徵縮放與 Pandas_01

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Haruhii-愉快且認真的生活者

小六生也能懂的iPAS AI應用規劃師考前重點摘要(8)-邏輯回歸/SVM

針對邏輯回歸和SVM兩種機器學習算法進行了簡明介紹，並提供了初學者友好的解釋和範例。

#iPAS#AI#應試

2025/11/05

Haruhii-愉快且認真的生活者

小六生也能懂的iPAS AI應用規劃師考前重點摘要(8)-邏輯回歸/SVM

針對邏輯回歸和SVM兩種機器學習算法進行了簡明介紹，並提供了初學者友好的解釋和範例。

#iPAS#AI#應試

2025/11/05

CCChen的AI學習分享

(CCChen) iPAS 115年(2026年)AI應用規劃師能力鑑定簡章(初級、中級)分析說明

嗨我是CCChen 今天12/24 下午iPAS官網公告 115年AI應用規劃師能力鑑定簡章(初級、中級) CCChen馬上提供最新的 114 vs 115年簡章分析說明, 幫助大家儘快了解考試訊息根據114年與115年簡章分析，五大關鍵差異如下： 1. 考試費用：115年大幅調降

#生成式AI#考試#機器學習

2025/12/24

CCChen的AI學習分享

(CCChen) iPAS 115年(2026年)AI應用規劃師能力鑑定簡章(初級、中級)分析說明

#生成式AI#考試#機器學習

2025/12/24

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

CCChen的AI學習分享

當 Google TurboQuant壓縮技術遇上 iPAS AI 中級三大考科的跨域整合考點全解析CCChen

用一項技術，看懂iPAS AI 中級考點與 AI 技術應用、數學基礎與系統架構的真正關鍵嗨我是CCChen 外媒報導，Google 研究團隊於日前正式發表了一項名為「TurboQuant」的全新免訓練（training-free）壓縮演算法。這項革命性的技術能夠將大型語言模型的鍵值快取（KV

#CCChen#google#AI應用規畫師

2026/03/26

CCChen的AI學習分享

當 Google TurboQuant壓縮技術遇上 iPAS AI 中級三大考科的跨域整合考點全解析CCChen

#CCChen#google#AI應用規畫師

2026/03/26

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28