【L23301】數據準備與特徵工程|特徵選擇、編碼、資料不平衡處理、SMOTE 模擬考題

更新 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某保險公司建立理賠詐欺偵測模型,資料集包含 87 個特徵,其中涵蓋保戶年齡、投保金額、理賠次數、地區代碼等。資料科學家發現部分特徵之間存在高度共線性,且有約 30 個特徵與詐欺標籤的相關性極低。若首要目標是在不損失關鍵預測能力的前提下降低模型複雜度,下列哪一組特徵選擇策略最合理?

(A) 使用過濾法(Filter Method)以相關係數或資訊增益篩除低相關特徵,再用變異數膨脹因子(VIF)識別並移除高共線性特徵,降低維度後再訓練模型

(B) 直接將全部 87 個特徵投入 XGBoost 訓練,依賴模型內建的特徵重要性自動忽略無關特徵,無需在訓練前進行任何人工特徵篩選

(C) 對所有 87 個特徵進行主成分分析(PCA)降維,將原始特徵壓縮至 10 個主成分,確保維度大幅降低的同時保留最大變異量

(D) 隨機移除一半特徵後訓練模型,若準確率未下降則確認被移除的特徵為無效特徵,再對剩餘特徵重複此流程直到性能下降

答案:A

深度導讀解析

正確答案:A

核心技術點:Filter Method 特徵篩選與 VIF 共線性診斷的組合應用

中級理論拆解:特徵選擇面對兩個問題:低相關特徵(對目標變數無預測力)和高共線性特徵(特徵間互相重複)。過濾法用統計指標(相關係數、資訊增益、卡方檢定)衡量每個特徵與目標變數的關聯強度,門檻以下直接篩除,計算成本低且與後續模型無關。VIF(Variance Inflation Factor)衡量某特徵能被其他特徵解釋的程度,VIF > 10 通常視為高共線性,應移除冗餘特徵。兩步驟組合能系統性清理無效與重複特徵。

選項坑洞掃描:B 說依賴 XGBoost 自動忽略無關特徵,高維特徵會增加訓練時間與過擬合風險,且 XGBoost 的特徵重要性不等同於特徵選擇,無關特徵仍會參與訓練。C 的 PCA 確實能降維,但主成分是原始特徵的線性組合,失去可解釋性,且 PCA 不保證移除的是真正無關特徵。D 的隨機移除是沒有依據的試誤,可能誤刪重要特徵,且流程沒有理論支撐。

破題反射字:低相關特徵 → Filter Method 篩除 / 高共線性 → VIF 診斷 / PCA 限制 → 失去可解釋性


第 2 題

某電商平台建立用戶分群模型,資料集包含「會員等級」(普通、銀卡、金卡、白金)、「偏好品類」(3C、服飾、美妝、食品、家電)兩個類別型特徵。資料工程師正在評估 One-Hot Encoding 與 Label Encoding 的適用性。下列何者最能正確說明兩種編碼方式的適用場景與選擇邏輯?

(A) 會員等級應使用 Label Encoding(普通=1、銀卡=2、金卡=3、白金=4),因其具有有意義的順序關係;偏好品類應使用 One-Hot Encoding,因類別間無大小之分,避免模型誤讀數值順序

(B) 兩個特徵都應使用 Label Encoding,因為 One-Hot Encoding 會大幅增加特徵維度,在高維資料上容易導致維度災難,Label Encoding 的數值順序問題可透過正則化修正

(C) 兩個特徵都應使用 One-Hot Encoding,因為任何類別型特徵都不應賦予數值順序,即使會員等級有高低之分,也應以二元向量表示避免模型誤判

(D) 偏好品類應使用 Label Encoding(3C=1、服飾=2、美妝=3),因為類別數量多時 One-Hot Encoding 會產生過於稀疏的向量;會員等級應使用 One-Hot Encoding 因為只有四個類別

答案:A

深度導讀解析

正確答案:A

核心技術點:有序類別 vs. 無序類別的編碼策略選擇

中級理論拆解:類別型特徵編碼的核心判斷是「類別之間是否有有意義的順序」。會員等級普通 < 銀卡 < 金卡 < 白金,這個順序對模型有實質意義,Label Encoding 的數值 1、2、3、4 能正確傳遞此資訊。偏好品類的 3C、服飾、美妝之間沒有大小關係,若用 Label Encoding 賦予 1、2、3,模型會誤以為「服飾 > 3C」,引入錯誤的順序假設,One-Hot Encoding 將每個類別獨立表示才是正確做法。

選項坑洞掃描:B 說 One-Hot 的順序問題可用正則化修正,正則化是控制模型複雜度的工具,無法修正編碼引入的錯誤語義資訊。C 說所有類別型特徵都用 One-Hot,忽略了有序類別用 Label Encoding 更能傳遞真實資訊的優勢。D 把兩者的適用邏輯完全對調,偏好品類類別多更需要 One-Hot 而非 Label Encoding。

破題反射字:有序類別 → Label Encoding / 無序類別 → One-Hot Encoding / 錯誤順序假設 → Label Encoding 用於無序類別的風險


第 3 題

某醫療機構建立早期敗血症預警模型,資料集中包含體溫、血壓、心跳、白血球數等 24 個數值型特徵,各特徵的數值範圍差異極大(體溫約 35~42°C,白血球數約 2,000~30,000 個/μL)。模型選用 K-Nearest Neighbors(KNN)進行分類。下列何者最能正確說明特徵縮放在此情境中的必要性,以及 Min-Max 正規化與 Z-score 標準化的選擇邏輯?

(A) KNN 依賴距離計算,白血球數的量級遠大於體溫,未縮放時距離計算被白血球數主導;若資料分布接近常態且無明顯離群值,Z-score 較適合;若需將特徵壓縮至固定範圍,Min-Max 較適合

(B) KNN 對特徵量級不敏感,因為它只比較相對大小而非絕對距離,因此 24 個特徵無需縮放即可正確計算各樣本間的鄰近關係

(C) Min-Max 正規化適用所有情境,應將全部 24 個特徵壓縮至 0~1 之間;Z-score 只適用於特徵需要呈現負值的情境,在醫療正值特徵上不應使用

(D) 特徵縮放只對線性模型(如線性迴歸、SVM)有影響,KNN 使用樹狀結構進行分類,距離計算的量級差異不會影響最終的分類結果

答案:A

深度導讀解析

正確答案:A

核心技術點:KNN 對特徵尺度的敏感性,以及 Min-Max 與 Z-score 的適用情境差異

中級理論拆解:KNN 用歐氏距離計算樣本相似度,距離公式對各維度的差值平方加總。白血球數差值動輒數千,體溫差值僅個位數,未縮放時距離幾乎完全由白血球數決定。Z-score 將特徵轉換為均值 0、標準差 1 的分布,適合資料接近常態分布的場景;Min-Max 將特徵壓縮至指定範圍(通常 0~1),適合需要固定輸出範圍或資料分布不規則的場景,但對離群值敏感。

選項坑洞掃描:B 說 KNN 對量級不敏感,這是根本性的誤解,KNN 完全依賴距離計算,量級差異直接決定哪個特徵主導結果。C 說 Z-score 只適用於負值情境,Z-score 的輸出確實可能為負,但這不限制其適用場景,負值對距離計算無影響。D 說 KNN 用樹狀結構,KNN 沒有樹狀結構,它是基於實例的懶惰學習,決策樹才用樹狀結構。

破題反射字:KNN + 量級差異 → 必須特徵縮放 / Z-score → 常態分布、無離群值 / Min-Max → 固定輸出範圍、對離群值敏感


第 4 題

某銀行信用卡詐欺偵測系統的訓練資料中,正常交易 98,500 筆、詐欺交易 1,500 筆,比例約 66:1。資料科學家計畫使用 SMOTE(Synthetic Minority Over-sampling Technique)處理類別不平衡。下列何者最能正確描述 SMOTE 的合成機制,以及它相較於單純複製少數類樣本的根本優勢?

(A) SMOTE 在少數類樣本的特徵空間中,沿既有樣本與其 K 個最近鄰之間的線段插值生成新樣本,提供多樣化的合成資料而非重複相同樣本,降低過擬合風險

(B) SMOTE 透過對多數類樣本進行隨機欠採樣,將正常交易從 98,500 筆縮減至與詐欺交易相近的數量,以平衡兩類樣本的訓練比例

(C) SMOTE 使用生成對抗網路(GAN)在像素或特徵層面生成高度逼真的少數類合成樣本,確保合成資料的分布與真實詐欺交易完全一致

(D) SMOTE 對少數類樣本直接進行複製擴增至與多數類數量相同,再對每個複製樣本加入隨機高斯雜訊以增加多樣性,避免模型對重複樣本過度擬合

答案:A

深度導讀解析

正確答案:A

核心技術點:SMOTE 的 K-NN 插值合成機制與過擬合風險控制

中級理論拆解:SMOTE 的步驟是:對每個少數類樣本,找出其 K 個最近鄰(通常 K=5),在該樣本與隨機選取的一個近鄰之間的特徵空間線段上插值,生成新的合成樣本。公式是:新樣本 = 原樣本 + 隨機數(0~1) × (近鄰樣本 - 原樣本)。這個機制確保合成樣本落在既有少數類樣本的分布空間內,且每個合成樣本都是唯一的,不是重複既有資料,能提供更豐富的決策邊界學習素材。

選項坑洞掃描:B 描述的是欠採樣(Under-sampling)而非 SMOTE,兩者方向相反,SMOTE 是增加少數類而非減少多數類。C 說 SMOTE 使用 GAN,GAN 是另一種生成合成資料的方法(如 CTGAN),與 SMOTE 的 K-NN 插值機制完全不同。D 說 SMOTE 是複製後加雜訊,這是隨機過採樣加噪聲的變體,SMOTE 的核心是在近鄰間插值而非在原樣本上加雜訊。

破題反射字:SMOTE → K-NN 插值合成 / 少數類近鄰插值 → 生成多樣化合成樣本 / 欠採樣 → 減少多數類(與 SMOTE 相反)


第 5 題

某製造業公司的感測器資料集中,「設備型號」欄位有 2,000 個不同型號(高基數類別特徵),「故障類型」欄位只有 5 種類別。資料工程師考慮對「設備型號」使用 One-Hot Encoding,但技術主管指出這會產生嚴重問題。下列何者最能正確描述高基數類別特徵使用 One-Hot Encoding 的核心問題,以及更合適的替代策略?

(A) One-Hot Encoding 對 2,000 個型號會產生 2,000 個新欄位,造成維度爆炸與稀疏矩陣問題;應改用目標編碼(Target Encoding)以故障率取代類別標籤,或使用嵌入層(Embedding)學習低維表示

(B) One-Hot Encoding 的問題在於無法處理訓練集未出現的新型號;應改用雜湊編碼(Hashing),將 2,000 個型號雜湊到固定數量的桶中,確保新型號也能被正確編碼

(C) One-Hot Encoding 對高基數特徵的主要問題是計算速度慢;應改用 Label Encoding 將 2,000 個型號編碼為 1~2000 的整數,計算效率提升且不增加特徵維度

(D) One-Hot Encoding 對高基數特徵完全不適用,唯一解決方案是先對設備型號進行人工分組,將 2,000 個型號合併為 10~20 個類別後再進行編碼

答案:A

深度導讀解析

正確答案:A

核心技術點:高基數類別特徵的維度爆炸問題與目標編碼、嵌入層的替代方案

中級理論拆解:One-Hot Encoding 對 2,000 個類別產生 2,000 個二元欄位,大多數樣本在這 2,000 個欄位中只有一個 1、其餘全為 0,形成極度稀疏的矩陣,增加計算成本與記憶體負擔,也提高過擬合風險。目標編碼(Target Encoding)用每個類別對應的目標變數均值(本題即各型號的平均故障率)取代類別標籤,保留類別與目標的關聯資訊且不增加維度。嵌入層則透過訓練學習每個類別的低維稠密向量表示,是深度學習場景的常見做法。

選項坑洞掃描:B 說最大問題是無法處理新型號,這確實是 One-Hot 的問題之一,但維度爆炸才是高基數特徵的首要問題,且雜湊編碼會造成碰撞(不同型號映射到同一個桶)。C 說改用 Label Encoding 解決計算速度,Label Encoding 對無序類別引入錯誤的數值順序,2,000 個型號沒有 1 到 2000 的順序意義。D 說唯一解法是人工分組,人工分組需要領域知識且可能損失資訊,目標編碼和嵌入層都是不需要人工分組的系統化方案。

破題反射字:高基數類別 → One-Hot 維度爆炸 / 目標編碼 → 用目標均值取代類別標籤 / 嵌入層 → 深度學習場景的低維稠密表示


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
372會員
97內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/11/06
問題 1 (中級) ------------------------------ 題目: 一家大型零售集團希望建立一個統一的顧客360度視圖,以提升精準行銷與顧客體驗。其顧客數據分散於線上交易系統、社群媒體監測平台、實體POS系統及客服記錄等多個異構來源,且數據模態包含結構化、半結構化和非結構化
2025/11/06
問題 1 (中級) ------------------------------ 題目: 一家大型零售集團希望建立一個統一的顧客360度視圖,以提升精準行銷與顧客體驗。其顧客數據分散於線上交易系統、社群媒體監測平台、實體POS系統及客服記錄等多個異構來源,且數據模態包含結構化、半結構化和非結構化
2025/11/05
問題 1 (中級) ------------------------------ 題目: 某電商公司正在擴展其全球業務,面臨來自不同國家、文化背景的用戶生成的評論數據(文本)。這些評論數據不僅量大、速度快,而且語言和表達方式極為多樣。為了訓練一個能夠精準理解用戶情感並生成定制化回覆的語言模型,該
2025/11/05
問題 1 (中級) ------------------------------ 題目: 某電商公司正在擴展其全球業務,面臨來自不同國家、文化背景的用戶生成的評論數據(文本)。這些評論數據不僅量大、速度快,而且語言和表達方式極為多樣。為了訓練一個能夠精準理解用戶情感並生成定制化回覆的語言模型,該
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在數據可視化中,要實現「從數據到洞察」的核心目標,以下哪項設計決策最能有效弭平商業需求與技術實現之間的鴻溝? 選項: A) 使用最新的3D圖表技術提升視覺衝擊力。 B) 精心選擇並優化視覺變數,確保關
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在數據可視化中,要實現「從數據到洞察」的核心目標,以下哪項設計決策最能有效弭平商業需求與技術實現之間的鴻溝? 選項: A) 使用最新的3D圖表技術提升視覺衝擊力。 B) 精心選擇並優化視覺變數,確保關
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
嗨 我是CCChen 已通過3/22 iPAS AI應用規劃師 初級 第一場測試 預計參加5/17 iPAS AI應用規劃師 中級 第一場測試 先將相關考試資料確認清楚
Thumbnail
嗨 我是CCChen 已通過3/22 iPAS AI應用規劃師 初級 第一場測試 預計參加5/17 iPAS AI應用規劃師 中級 第一場測試 先將相關考試資料確認清楚
Thumbnail
iPAS全新推出AI應用規劃師能力鑑定,分為初級與中級,114年首次開考。本文整理完整資訊,包含報考對象、日程、考試內容與報名流程,幫助您高效準備。考試內容涵蓋AI基礎概論、生成式AI應用與規劃(初級)、AI技術應用與規劃、大數據分析、機器學習應用(中級),適合進入AI領域的學習者及專業人士報考。
Thumbnail
iPAS全新推出AI應用規劃師能力鑑定,分為初級與中級,114年首次開考。本文整理完整資訊,包含報考對象、日程、考試內容與報名流程,幫助您高效準備。考試內容涵蓋AI基礎概論、生成式AI應用與規劃(初級)、AI技術應用與規劃、大數據分析、機器學習應用(中級),適合進入AI領域的學習者及專業人士報考。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
嗨 我是CCChen 分享114年度四次 iPAS 初級 AI應用規劃師考試成績統計 × 四場比較分析 例如: RAG、Token、Embedding、限制條件 企業導入 AI 流程(與概論產生重疊) Prompt Engineering 概念更加複雜 生成式的確不再只是 ChatGPT
Thumbnail
嗨 我是CCChen 分享114年度四次 iPAS 初級 AI應用規劃師考試成績統計 × 四場比較分析 例如: RAG、Token、Embedding、限制條件 企業導入 AI 流程(與概論產生重疊) Prompt Engineering 概念更加複雜 生成式的確不再只是 ChatGPT
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
嗨 我是CCChen 今天12/24 下午iPAS官網公告 115年AI應用規劃師能力鑑定簡章(初級、中級) CCChen馬上提供最新的 114 vs 115年 簡章分析說明, 幫助大家儘快了解考試訊息 根據114年與115年簡章分析,五大關鍵差異如下: 1. 考試費用:115年大幅調降
Thumbnail
嗨 我是CCChen 今天12/24 下午iPAS官網公告 115年AI應用規劃師能力鑑定簡章(初級、中級) CCChen馬上提供最新的 114 vs 115年 簡章分析說明, 幫助大家儘快了解考試訊息 根據114年與115年簡章分析,五大關鍵差異如下: 1. 考試費用:115年大幅調降
Thumbnail
為什麼我決定報考 AI 應用規劃師? 很多人問我:「AI 應用規劃師是什麼?真的有必要考嗎?」 老實說,我一開始也超懷疑。直到有一次我直接去請教教授,他笑著說: 「這張證照的核心很簡單:它要培養的,就是能推動 AI 落地的人才!」 原來考這張證照,不需要你是程式高手,而是要能理解 AI 的架
Thumbnail
為什麼我決定報考 AI 應用規劃師? 很多人問我:「AI 應用規劃師是什麼?真的有必要考嗎?」 老實說,我一開始也超懷疑。直到有一次我直接去請教教授,他笑著說: 「這張證照的核心很簡單:它要培養的,就是能推動 AI 落地的人才!」 原來考這張證照,不需要你是程式高手,而是要能理解 AI 的架
Thumbnail
2026 年經濟部 iPAS「AI 應用規劃師」初級/中級考照,是培養 AI 規劃、導入與應用能力的關鍵證照,協助非工程背景也能掌握 AI 落地實務,提前布局未來核心競爭力。
Thumbnail
2026 年經濟部 iPAS「AI 應用規劃師」初級/中級考照,是培養 AI 規劃、導入與應用能力的關鍵證照,協助非工程背景也能掌握 AI 落地實務,提前布局未來核心競爭力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News