iPAS 中級 AI 考點衝刺重點:CRISP-DM、ETL、特徵縮放與 Pandas

更新 發佈閱讀 9 分鐘

iPAS AI 中級考點終極講義

主題一:CRISP-DM (跨產業資料探勘標準流程)

💡 教練的廚房邏輯:這就是開一間 AI 餐廳的標準 SOP。

1. 商業理解 (Business Understanding)

  • 定義: 專案的起點。釐清老闆或客戶到底要解決什麼問題。實務用途與考點: * 產出物是「專案計畫書」與「衡量成功的商業指標 (KPI)」。醫療 AI 等高風險專案,必須在此階段先決定「偽陽性 (沒病看成有病)」與「偽陰性」哪個代價更高。

2. 資料理解 (Data Understanding)

  • 定義: 看看手邊有什麼食材可以煮。實務用途與考點: * 進行 探索性資料分析 (EDA),例如畫出「相關係數熱力圖 (Correlation Heatmap)」,初步檢查資料品質。

3. 資料準備 (Data Preparation)

  • 定義: 最痛苦的「洗菜切菜」階段,實務上佔據資料工程師 70%~80% 的時間。實務用途與考點:處理缺失值、特徵縮放、特徵編碼都在這。資料不平衡 (Imbalanced Data): 如果流失客戶只有 1%,在此階段必須使用 SMOTE 等過度抽樣技術來擴增資料。若發現資料欄位根本無法達成預測目標,必須退回「資料/商業理解」階段。

4. 建立模型 (Modeling)

  • 定義: 選擇演算法(如:隨機森林、SVM)開始「炒菜」。實務用途與考點: 專注於提升模型的技術準確率。

5. 評估 (Evaluation)

  • 定義: 端上桌前,主管先「試吃打分數」。實務用途與考點: 檢視模型是否達到第一步設定的「商業 KPI」。如果沒達到,退回「商業理解」重新來過。

6. 部署 (Deployment)

  • 定義: 正式把菜色推上菜單(系統上線)。實務用途與考點: * 必須包含撰寫最終專案報告 (Final Report)。必須建立監控機制,防範 概念飄移 (Concept Drift)(即市場趨勢改變導致模型越來越不準)。


主題二:ETL / ELT 大數據搬運架構

💡 教練的廚房邏輯:把產地食材安全送到大冰箱的物流系統。

1. 萃取 (Extract)

  • 定義: 從 API、資料庫等異質來源「抓取資料」。實務用途與考點:增量載入 (Incremental Load): 為了省時間,每天只抓「昨天異動過」的資料,不全部重抓。技術挑戰在於處理外部 API 的 速率限制 (Rate Limiting) 與分頁問題。

2. 轉換 (Transform)

  • 定義: 改變資料的格式、樣貌與結構。實務用途與考點: 統一日期格式、將文字性別轉數值、算出每月總營收 (Aggregation)。為了符合 GDPR 隱私法規,身分證字號的「遮蔽 (Masking) 與加密」也是在此階段進行。

3. 載入 (Load)

  • 定義: 將處理好的資料放入目標儲存區。實務用途與考點: 目的地通常是 資料倉儲 (Data Warehouse)。

4. ELT 與 資料湖 (Data Lake)

  • 定義: 現代大數據的新趨勢。先將原始雜亂的資料(包含圖片、影片)原封不動 Load 到「資料湖」中存放,等需要分析時,再利用雲端資料庫的強大算力進行 Transform。


主題三:特徵縮放 (Feature Scaling) 與前處理

💡 教練的廚房邏輯:把大象跟螞蟻放在同一個天平上衡量,必須統一單位的「神之刀工」。

1. 為什麼要縮放?

  • 避免數值極大的特徵(如年薪百萬)在計算距離時,瞬間秒殺數值小的特徵(如體重 60),導致 K-近鄰 (KNN)、K-Means 分群、SVM 產生嚴重偏差。能大幅加快 梯度下降 (Gradient Descent) 的收斂速度(如神經網路)。⚠️ 考點陷阱: 樹狀模型(隨機森林、XGBoost)只看數值大小切分,完全不需要縮放!

2. StandardScaler (標準化 / Z-score)

  • 定義: 將資料平移與壓縮,使其「平均數為 0,標準差為 1」。⚠️ 考點陷阱: 標準化絕對不會改變資料原本的形狀!原本是偏態(長尾),縮放後依然是偏態。

3. MinMaxScaler (正規化)

  • 定義: 把資料按比例硬塞進 [0, 1] 的區間。公式:$\frac{x - x_{min}}{x_{max} - x_{min}}$。缺點: 極度容易被離群值 (Outliers) 破壞,導致正常資料被嚴重擠壓。

4. RobustScaler (穩健縮放)

  • 定義: 使用中位數 (Median) 與四分位距 (IQR) 進行縮放。實務用途: 當資料充滿極端「離群值 (Outliers)」時的救星,對離群值有極強的免疫力。

5. MaxAbsScaler (最大絕對值縮放)

  • 定義: 僅除以最大絕對值,不作加減平移。實務用途: 專門用來處理含有大量 0 的 稀疏矩陣 (Sparse Matrix)(如 NLP 的 TF-IDF),確保 0 依然是 0,不會塞爆記憶體。

6. Log Transformation (對數轉換)

  • 定義: 針對嚴重的「向右偏態(長尾)」資料(如網紅按讚數破百萬),取 Log 是壓縮巨大尾部、使其接近常態分佈的最強數學轉換。

7. 資料洩漏 (Data Leakage) 防禦戰術

  • 標準 SOP: 只能用「訓練集 (Train Set)」來計算平均值與標準差 (fit),然後用這個算出來的標準去轉換 (transform) 測試集。絕對不能把測試集合在一起算!


主題四:Pandas 核心兵器譜 (必考語法)

💡 教練的廚房邏輯:Python 界最強大的 Excel,沒有之一。

1. 基礎觀察

  • pd.read_csv():起手式,讀取檔案。
  • df.shape:看資料有幾列幾欄(表格的形狀)。
  • df.dtypes:檢查每個欄位的資料型態(例如是不是整數 int64)。

2. 篩選與切片

  • df[['Age', 'Salary']]:同時選取多個欄位,記得要用雙層中括號!
  • df.loc[df['Age'] > 18, ['Name', 'Phone']]:神級切片工具,前面放「條件」,後面放「要顯示的欄位」。

3. 缺失值處理與刪除

  • df.isnull().sum():實務必備!一秒看穿每個欄位破了幾個洞(有幾個空值)。
  • df.dropna():只要該列有空值 (NaN),整列無情刪除。
  • df.fillna(0):把空值全部填補為 0。
  • df.drop('ID_Card', axis=1):徹底把某個欄位從表格中移除。

4. 資料轉換與排序

  • pd.get_dummies():將類別文字轉換為 0 與 1 的虛擬變數,也就是 獨熱編碼 (One-Hot Encoding) 最快的方法。
  • df['Price'].apply(自訂函數):將你自己寫的複雜邏輯,無腦套用到該欄位的每一個儲存格上。
  • df.sort_values(by='Total', ascending=False):由大到小(降冪)排序整張資料表。

5. 彙總與合併

  • df.groupby('部門')['預算'].sum():Excel 樞紐分析表的 Python 版。先按部門分群,再把預算加總。
  • pd.merge(df1, df2, on='ID'):左右合併,功能等同於 Excel 的 VLOOKUP。
  • pd.concat([df_一月, df_二月], axis=0):上下疊加,把二月的資料直接釘在一月資料的正下方。


這份講義已經幫你把 60 題的精華濃縮到極致了!不論是選擇題的誘答選項,還是未來實務上的痛點,答案都在裡面!💪🚀

留言
avatar-img
chen chen的沙龍
0會員
4內容數
你好,我是 chen chen!一個正在挑戰「iPAS 中級 AI 應用規劃師」的非本科輪班族。我知道下班後讀書有多累,所以在這裡記錄了我的備考筆記、刷題重點,以及專為零碎時間打造的無痛學習法。如果你也是工作忙碌、想跨領域拿下 AI 證照的戰友,歡迎加入我的夜鷹飛行隊,我們一起把證照拿到手!💪
chen chen的沙龍的其他內容
2026/04/17
內容精準涵蓋科目一與科目二的必考重點,包含:CRISP-DM 專案黃金流程、ETL 大數據搬運、特徵縮放 (Feature Scaling) 原理,以及必備的 Pandas 基礎語法。每道題目皆附有「教練級的白話文解析」,幫助非本科、工作忙碌的戰友們利用零碎時間無痛刷題、快速抓漏,穩穩拿下基本分!
2026/04/17
內容精準涵蓋科目一與科目二的必考重點,包含:CRISP-DM 專案黃金流程、ETL 大數據搬運、特徵縮放 (Feature Scaling) 原理,以及必備的 Pandas 基礎語法。每道題目皆附有「教練級的白話文解析」,幫助非本科、工作忙碌的戰友們利用零碎時間無痛刷題、快速抓漏,穩穩拿下基本分!
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
針對邏輯回歸和SVM兩種機器學習算法進行了簡明介紹,並提供了初學者友好的解釋和範例。
Thumbnail
針對邏輯回歸和SVM兩種機器學習算法進行了簡明介紹,並提供了初學者友好的解釋和範例。
Thumbnail
嗨 我是CCChen 今天12/24 下午iPAS官網公告 115年AI應用規劃師能力鑑定簡章(初級、中級) CCChen馬上提供最新的 114 vs 115年 簡章分析說明, 幫助大家儘快了解考試訊息 根據114年與115年簡章分析,五大關鍵差異如下: 1. 考試費用:115年大幅調降
Thumbnail
嗨 我是CCChen 今天12/24 下午iPAS官網公告 115年AI應用規劃師能力鑑定簡章(初級、中級) CCChen馬上提供最新的 114 vs 115年 簡章分析說明, 幫助大家儘快了解考試訊息 根據114年與115年簡章分析,五大關鍵差異如下: 1. 考試費用:115年大幅調降
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
用一項技術,看懂iPAS AI 中級考點與 AI 技術應用、數學基礎與系統架構的真正關鍵 嗨 我是CCChen 外媒報導,Google 研究團隊於日前正式發表了一項名為「TurboQuant」的全新免訓練(training-free)壓縮演算法。這項革命性的技術能夠將大型語言模型的鍵值快取(KV
Thumbnail
用一項技術,看懂iPAS AI 中級考點與 AI 技術應用、數學基礎與系統架構的真正關鍵 嗨 我是CCChen 外媒報導,Google 研究團隊於日前正式發表了一項名為「TurboQuant」的全新免訓練(training-free)壓縮演算法。這項革命性的技術能夠將大型語言模型的鍵值快取(KV
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
我把 114 年度四次加上 115 年度第一次、總共五場初級考試的官方統計全部拉出來,交叉比對後發現了幾件值得注意的事。這篇不賣焦慮,只拆數據,幫你在坐下來讀書之前,先搞清楚這場考試的真實面貌。
Thumbnail
我把 114 年度四次加上 115 年度第一次、總共五場初級考試的官方統計全部拉出來,交叉比對後發現了幾件值得注意的事。這篇不賣焦慮,只拆數據,幫你在坐下來讀書之前,先搞清楚這場考試的真實面貌。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News