【L23301】數據準備與特徵工程｜特徵選擇、編碼、資料不平衡處理、SMOTE 模擬考題

2026/04/02 更新2026/04/02 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某保險公司建立理賠詐欺偵測模型，資料集包含 87 個特徵，其中涵蓋保戶年齡、投保金額、理賠次數、地區代碼等。資料科學家發現部分特徵之間存在高度共線性，且有約 30 個特徵與詐欺標籤的相關性極低。若首要目標是在不損失關鍵預測能力的前提下降低模型複雜度，下列哪一組特徵選擇策略最合理？

(A) 使用過濾法（Filter Method）以相關係數或資訊增益篩除低相關特徵，再用變異數膨脹因子（VIF）識別並移除高共線性特徵，降低維度後再訓練模型

(B) 直接將全部 87 個特徵投入 XGBoost 訓練，依賴模型內建的特徵重要性自動忽略無關特徵，無需在訓練前進行任何人工特徵篩選

(D) 隨機移除一半特徵後訓練模型，若準確率未下降則確認被移除的特徵為無效特徵，再對剩餘特徵重複此流程直到性能下降

答案：A

深度導讀解析

正確答案：A

核心技術點：Filter Method 特徵篩選與 VIF 共線性診斷的組合應用

中級理論拆解：特徵選擇面對兩個問題：低相關特徵（對目標變數無預測力）和高共線性特徵（特徵間互相重複）。過濾法用統計指標（相關係數、資訊增益、卡方檢定）衡量每個特徵與目標變數的關聯強度，門檻以下直接篩除，計算成本低且與後續模型無關。VIF（Variance Inflation Factor）衡量某特徵能被其他特徵解釋的程度，VIF > 10 通常視為高共線性，應移除冗餘特徵。兩步驟組合能系統性清理無效與重複特徵。

選項坑洞掃描：B 說依賴 XGBoost 自動忽略無關特徵，高維特徵會增加訓練時間與過擬合風險，且 XGBoost 的特徵重要性不等同於特徵選擇，無關特徵仍會參與訓練。C 的 PCA 確實能降維，但主成分是原始特徵的線性組合，失去可解釋性，且 PCA 不保證移除的是真正無關特徵。D 的隨機移除是沒有依據的試誤，可能誤刪重要特徵，且流程沒有理論支撐。

破題反射字：低相關特徵 → Filter Method 篩除／高共線性 → VIF 診斷／ PCA 限制 → 失去可解釋性

第 2 題

某電商平台建立用戶分群模型，資料集包含「會員等級」（普通、銀卡、金卡、白金）、「偏好品類」（3C、服飾、美妝、食品、家電）兩個類別型特徵。資料工程師正在評估 One-Hot Encoding 與 Label Encoding 的適用性。下列何者最能正確說明兩種編碼方式的適用場景與選擇邏輯？

(A) 會員等級應使用 Label Encoding（普通=1、銀卡=2、金卡=3、白金=4），因其具有有意義的順序關係；偏好品類應使用 One-Hot Encoding，因類別間無大小之分，避免模型誤讀數值順序

(B) 兩個特徵都應使用 Label Encoding，因為 One-Hot Encoding 會大幅增加特徵維度，在高維資料上容易導致維度災難，Label Encoding 的數值順序問題可透過正則化修正

(D) 偏好品類應使用 Label Encoding（3C=1、服飾=2、美妝=3），因為類別數量多時 One-Hot Encoding 會產生過於稀疏的向量；會員等級應使用 One-Hot Encoding 因為只有四個類別

答案：A

深度導讀解析

正確答案：A

核心技術點：有序類別 vs. 無序類別的編碼策略選擇

中級理論拆解：類別型特徵編碼的核心判斷是「類別之間是否有有意義的順序」。會員等級普通 < 銀卡 < 金卡 < 白金，這個順序對模型有實質意義，Label Encoding 的數值 1、2、3、4 能正確傳遞此資訊。偏好品類的 3C、服飾、美妝之間沒有大小關係，若用 Label Encoding 賦予 1、2、3，模型會誤以為「服飾 > 3C」，引入錯誤的順序假設，One-Hot Encoding 將每個類別獨立表示才是正確做法。

選項坑洞掃描：B 說 One-Hot 的順序問題可用正則化修正，正則化是控制模型複雜度的工具，無法修正編碼引入的錯誤語義資訊。C 說所有類別型特徵都用 One-Hot，忽略了有序類別用 Label Encoding 更能傳遞真實資訊的優勢。D 把兩者的適用邏輯完全對調，偏好品類類別多更需要 One-Hot 而非 Label Encoding。

破題反射字：有序類別 → Label Encoding ／無序類別 → One-Hot Encoding ／錯誤順序假設 → Label Encoding 用於無序類別的風險

第 3 題

某醫療機構建立早期敗血症預警模型，資料集中包含體溫、血壓、心跳、白血球數等 24 個數值型特徵，各特徵的數值範圍差異極大（體溫約 35～42°C，白血球數約 2,000～30,000 個/μL）。模型選用 K-Nearest Neighbors（KNN）進行分類。下列何者最能正確說明特徵縮放在此情境中的必要性，以及 Min-Max 正規化與 Z-score 標準化的選擇邏輯？

(A) KNN 依賴距離計算，白血球數的量級遠大於體溫，未縮放時距離計算被白血球數主導；若資料分布接近常態且無明顯離群值，Z-score 較適合；若需將特徵壓縮至固定範圍，Min-Max 較適合

(B) KNN 對特徵量級不敏感，因為它只比較相對大小而非絕對距離，因此 24 個特徵無需縮放即可正確計算各樣本間的鄰近關係

(D) 特徵縮放只對線性模型（如線性迴歸、SVM）有影響，KNN 使用樹狀結構進行分類，距離計算的量級差異不會影響最終的分類結果

答案：A

深度導讀解析

正確答案：A

核心技術點：KNN 對特徵尺度的敏感性，以及 Min-Max 與 Z-score 的適用情境差異

中級理論拆解：KNN 用歐氏距離計算樣本相似度，距離公式對各維度的差值平方加總。白血球數差值動輒數千，體溫差值僅個位數，未縮放時距離幾乎完全由白血球數決定。Z-score 將特徵轉換為均值 0、標準差 1 的分布，適合資料接近常態分布的場景；Min-Max 將特徵壓縮至指定範圍（通常 0～1），適合需要固定輸出範圍或資料分布不規則的場景，但對離群值敏感。

選項坑洞掃描：B 說 KNN 對量級不敏感，這是根本性的誤解，KNN 完全依賴距離計算，量級差異直接決定哪個特徵主導結果。C 說 Z-score 只適用於負值情境，Z-score 的輸出確實可能為負，但這不限制其適用場景，負值對距離計算無影響。D 說 KNN 用樹狀結構，KNN 沒有樹狀結構，它是基於實例的懶惰學習，決策樹才用樹狀結構。

破題反射字：KNN + 量級差異 → 必須特徵縮放／ Z-score → 常態分布、無離群值／ Min-Max → 固定輸出範圍、對離群值敏感

第 4 題

某銀行信用卡詐欺偵測系統的訓練資料中，正常交易 98,500 筆、詐欺交易 1,500 筆，比例約 66:1。資料科學家計畫使用 SMOTE（Synthetic Minority Over-sampling Technique）處理類別不平衡。下列何者最能正確描述 SMOTE 的合成機制，以及它相較於單純複製少數類樣本的根本優勢？

(A) SMOTE 在少數類樣本的特徵空間中，沿既有樣本與其 K 個最近鄰之間的線段插值生成新樣本，提供多樣化的合成資料而非重複相同樣本，降低過擬合風險

(B) SMOTE 透過對多數類樣本進行隨機欠採樣，將正常交易從 98,500 筆縮減至與詐欺交易相近的數量，以平衡兩類樣本的訓練比例

(D) SMOTE 對少數類樣本直接進行複製擴增至與多數類數量相同，再對每個複製樣本加入隨機高斯雜訊以增加多樣性，避免模型對重複樣本過度擬合

答案：A

深度導讀解析

正確答案：A

核心技術點：SMOTE 的 K-NN 插值合成機制與過擬合風險控制

中級理論拆解：SMOTE 的步驟是：對每個少數類樣本，找出其 K 個最近鄰（通常 K=5），在該樣本與隨機選取的一個近鄰之間的特徵空間線段上插值，生成新的合成樣本。公式是：新樣本 = 原樣本 + 隨機數(0~1) × (近鄰樣本 - 原樣本)。這個機制確保合成樣本落在既有少數類樣本的分布空間內，且每個合成樣本都是唯一的，不是重複既有資料，能提供更豐富的決策邊界學習素材。

選項坑洞掃描：B 描述的是欠採樣（Under-sampling）而非 SMOTE，兩者方向相反，SMOTE 是增加少數類而非減少多數類。C 說 SMOTE 使用 GAN，GAN 是另一種生成合成資料的方法（如 CTGAN），與 SMOTE 的 K-NN 插值機制完全不同。D 說 SMOTE 是複製後加雜訊，這是隨機過採樣加噪聲的變體，SMOTE 的核心是在近鄰間插值而非在原樣本上加雜訊。

破題反射字：SMOTE → K-NN 插值合成／少數類近鄰插值 → 生成多樣化合成樣本／欠採樣 → 減少多數類（與 SMOTE 相反）

第 5 題

某製造業公司的感測器資料集中，「設備型號」欄位有 2,000 個不同型號（高基數類別特徵），「故障類型」欄位只有 5 種類別。資料工程師考慮對「設備型號」使用 One-Hot Encoding，但技術主管指出這會產生嚴重問題。下列何者最能正確描述高基數類別特徵使用 One-Hot Encoding 的核心問題，以及更合適的替代策略？

(A) One-Hot Encoding 對 2,000 個型號會產生 2,000 個新欄位，造成維度爆炸與稀疏矩陣問題；應改用目標編碼（Target Encoding）以故障率取代類別標籤，或使用嵌入層（Embedding）學習低維表示

(B) One-Hot Encoding 的問題在於無法處理訓練集未出現的新型號；應改用雜湊編碼（Hashing），將 2,000 個型號雜湊到固定數量的桶中，確保新型號也能被正確編碼

(D) One-Hot Encoding 對高基數特徵完全不適用，唯一解決方案是先對設備型號進行人工分組，將 2,000 個型號合併為 10～20 個類別後再進行編碼

答案：A

深度導讀解析

正確答案：A

核心技術點：高基數類別特徵的維度爆炸問題與目標編碼、嵌入層的替代方案

中級理論拆解：One-Hot Encoding 對 2,000 個類別產生 2,000 個二元欄位，大多數樣本在這 2,000 個欄位中只有一個 1、其餘全為 0，形成極度稀疏的矩陣，增加計算成本與記憶體負擔，也提高過擬合風險。目標編碼（Target Encoding）用每個類別對應的目標變數均值（本題即各型號的平均故障率）取代類別標籤，保留類別與目標的關聯資訊且不增加維度。嵌入層則透過訓練學習每個類別的低維稠密向量表示，是深度學習場景的常見做法。

選項坑洞掃描：B 說最大問題是無法處理新型號，這確實是 One-Hot 的問題之一，但維度爆炸才是高基數特徵的首要問題，且雜湊編碼會造成碰撞（不同型號映射到同一個桶）。C 說改用 Label Encoding 解決計算速度，Label Encoding 對無序類別引入錯誤的數值順序，2,000 個型號沒有 1 到 2000 的順序意義。D 說唯一解法是人工分組，人工分組需要領域知識且可能損失資訊，目標編碼和嵌入層都是不需要人工分組的系統化方案。

破題反射字：高基數類別 → One-Hot 維度爆炸／目標編碼 → 用目標均值取代類別標籤／嵌入層 → 深度學習場景的低維稠密表示

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

iPAS自學路｜AI應用規劃師備考筆記與考點解析模擬題庫 & 詳解

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

372會員

97內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

iPAS自學路｜AI應用規劃師備考筆記與考點解析的其他內容

2025/11/06

【L22402】大數據在鑑別式 AI 中的應用｜分類、預測、模型部署模擬考題

問題 1 (中級) ------------------------------ 題目: 一家大型零售集團希望建立一個統一的顧客360度視圖，以提升精準行銷與顧客體驗。其顧客數據分散於線上交易系統、社群媒體監測平台、實體POS系統及客服記錄等多個異構來源，且數據模態包含結構化、半結構化和非結構化

2025/11/06

【L22402】大數據在鑑別式 AI 中的應用｜分類、預測、模型部署模擬考題

2025/11/05

【L22401】大數據與機器學習｜特徵工程、資料管線、模型訓練流程模擬考題

問題 1 (中級) ------------------------------ 題目: 某電商公司正在擴展其全球業務，面臨來自不同國家、文化背景的用戶生成的評論數據（文本）。這些評論數據不僅量大、速度快，而且語言和表達方式極為多樣。為了訓練一個能夠精準理解用戶情感並生成定制化回覆的語言模型，該

2025/11/05

【L22401】大數據與機器學習｜特徵工程、資料管線、模型訓練流程模擬考題

2025/11/05

【L22303】數據可視化工具｜圖表選用原則、Heatmap、箱型圖模擬考題

問題 1 (中級) ------------------------------ 題目: 在數據可視化中，要實現「從數據到洞察」的核心目標，以下哪項設計決策最能有效弭平商業需求與技術實現之間的鴻溝？選項: A) 使用最新的3D圖表技術提升視覺衝擊力。 B) 精心選擇並優化視覺變數，確保關

2025/11/05

【L22303】數據可視化工具｜圖表選用原則、Heatmap、箱型圖模擬考題

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Vicky Mommy 玲玲

【經濟部 iPAS 獲證者專場活動】以「AI 應用規劃師」身分參加經濟部 iPAS 專場！現場直擊＋心得分享。

從來沒想過，自己有一天可以受邀參加這種正式場合的活動。今天，我來到了 IEAT 會議中心，以「AI 應用規劃師」的身分，參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人，全部都是經濟部認證的各行各業菁英唷！

#AI應用規劃師#iPAS#產業人才能力鑑定

2025/05/23

Vicky Mommy 玲玲

【經濟部 iPAS 獲證者專場活動】以「AI 應用規劃師」身分參加經濟部 iPAS 專場！現場直擊＋心得分享。

#AI應用規劃師#iPAS#產業人才能力鑑定

2025/05/23

CCChen的AI學習分享

iPAS AI應用規劃師中級考試資料整理(一)CCChen

嗨我是CCChen 已通過3/22 iPAS AI應用規劃師初級第一場測試預計參加5/17 iPAS AI應用規劃師中級第一場測試先將相關考試資料確認清楚

#分享#學習#iPASAI應用規劃師

2025/04/16

CCChen的AI學習分享

iPAS AI應用規劃師中級考試資料整理(一)CCChen

嗨我是CCChen 已通過3/22 iPAS AI應用規劃師初級第一場測試預計參加5/17 iPAS AI應用規劃師中級第一場測試先將相關考試資料確認清楚

#分享#學習#iPASAI應用規劃師

2025/04/16

姜晴如Clara_永續顧問的沙龍

雙軸轉型加強你的競爭力!114年度 iPAS AI應用規劃師能力鑑定報考資訊整理

iPAS全新推出AI應用規劃師能力鑑定，分為初級與中級，114年首次開考。本文整理完整資訊，包含報考對象、日程、考試內容與報名流程，幫助您高效準備。考試內容涵蓋AI基礎概論、生成式AI應用與規劃（初級）、AI技術應用與規劃、大數據分析、機器學習應用（中級），適合進入AI領域的學習者及專業人士報考。

#機器學習#考試#專業

2024/12/30

姜晴如Clara_永續顧問的沙龍

雙軸轉型加強你的競爭力!114年度 iPAS AI應用規劃師能力鑑定報考資訊整理

#機器學習#考試#專業

2024/12/30

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

CCChen的AI學習分享

114年度四次 iPAS 初級 AI應用規劃師考試成績統計 × 四場比較分析 CCChen

嗨我是CCChen 分享114年度四次 iPAS 初級 AI應用規劃師考試成績統計 × 四場比較分析例如： RAG、Token、Embedding、限制條件企業導入 AI 流程（與概論產生重疊） Prompt Engineering 概念更加複雜生成式的確不再只是 ChatGPT

#CCChen#學習#iPASAI應用規劃師

2025/11/14

CCChen的AI學習分享

114年度四次 iPAS 初級 AI應用規劃師考試成績統計 × 四場比較分析 CCChen

#CCChen#學習#iPASAI應用規劃師

2025/11/14

Bruce Chen的沙龍

iPAS AI應用規劃師能力鑑定備考心得

經濟部舉辦114年度AI應用規劃師初級能力鑑定，整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt，供大家參考。

2025/04/15

2025/04/15

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11