建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某保險公司建立理賠詐欺偵測模型,資料集包含 87 個特徵,其中涵蓋保戶年齡、投保金額、理賠次數、地區代碼等。資料科學家發現部分特徵之間存在高度共線性,且有約 30 個特徵與詐欺標籤的相關性極低。若首要目標是在不損失關鍵預測能力的前提下降低模型複雜度,下列哪一組特徵選擇策略最合理?
(A) 使用過濾法(Filter Method)以相關係數或資訊增益篩除低相關特徵,再用變異數膨脹因子(VIF)識別並移除高共線性特徵,降低維度後再訓練模型
(B) 直接將全部 87 個特徵投入 XGBoost 訓練,依賴模型內建的特徵重要性自動忽略無關特徵,無需在訓練前進行任何人工特徵篩選
(C) 對所有 87 個特徵進行主成分分析(PCA)降維,將原始特徵壓縮至 10 個主成分,確保維度大幅降低的同時保留最大變異量
(D) 隨機移除一半特徵後訓練模型,若準確率未下降則確認被移除的特徵為無效特徵,再對剩餘特徵重複此流程直到性能下降
答案:A
深度導讀解析
正確答案:A
核心技術點:Filter Method 特徵篩選與 VIF 共線性診斷的組合應用
中級理論拆解:特徵選擇面對兩個問題:低相關特徵(對目標變數無預測力)和高共線性特徵(特徵間互相重複)。過濾法用統計指標(相關係數、資訊增益、卡方檢定)衡量每個特徵與目標變數的關聯強度,門檻以下直接篩除,計算成本低且與後續模型無關。VIF(Variance Inflation Factor)衡量某特徵能被其他特徵解釋的程度,VIF > 10 通常視為高共線性,應移除冗餘特徵。兩步驟組合能系統性清理無效與重複特徵。
選項坑洞掃描:B 說依賴 XGBoost 自動忽略無關特徵,高維特徵會增加訓練時間與過擬合風險,且 XGBoost 的特徵重要性不等同於特徵選擇,無關特徵仍會參與訓練。C 的 PCA 確實能降維,但主成分是原始特徵的線性組合,失去可解釋性,且 PCA 不保證移除的是真正無關特徵。D 的隨機移除是沒有依據的試誤,可能誤刪重要特徵,且流程沒有理論支撐。
破題反射字:低相關特徵 → Filter Method 篩除 / 高共線性 → VIF 診斷 / PCA 限制 → 失去可解釋性
第 2 題
某電商平台建立用戶分群模型,資料集包含「會員等級」(普通、銀卡、金卡、白金)、「偏好品類」(3C、服飾、美妝、食品、家電)兩個類別型特徵。資料工程師正在評估 One-Hot Encoding 與 Label Encoding 的適用性。下列何者最能正確說明兩種編碼方式的適用場景與選擇邏輯?
(A) 會員等級應使用 Label Encoding(普通=1、銀卡=2、金卡=3、白金=4),因其具有有意義的順序關係;偏好品類應使用 One-Hot Encoding,因類別間無大小之分,避免模型誤讀數值順序
(B) 兩個特徵都應使用 Label Encoding,因為 One-Hot Encoding 會大幅增加特徵維度,在高維資料上容易導致維度災難,Label Encoding 的數值順序問題可透過正則化修正
(C) 兩個特徵都應使用 One-Hot Encoding,因為任何類別型特徵都不應賦予數值順序,即使會員等級有高低之分,也應以二元向量表示避免模型誤判
(D) 偏好品類應使用 Label Encoding(3C=1、服飾=2、美妝=3),因為類別數量多時 One-Hot Encoding 會產生過於稀疏的向量;會員等級應使用 One-Hot Encoding 因為只有四個類別
答案:A
深度導讀解析
正確答案:A
核心技術點:有序類別 vs. 無序類別的編碼策略選擇
中級理論拆解:類別型特徵編碼的核心判斷是「類別之間是否有有意義的順序」。會員等級普通 < 銀卡 < 金卡 < 白金,這個順序對模型有實質意義,Label Encoding 的數值 1、2、3、4 能正確傳遞此資訊。偏好品類的 3C、服飾、美妝之間沒有大小關係,若用 Label Encoding 賦予 1、2、3,模型會誤以為「服飾 > 3C」,引入錯誤的順序假設,One-Hot Encoding 將每個類別獨立表示才是正確做法。
選項坑洞掃描:B 說 One-Hot 的順序問題可用正則化修正,正則化是控制模型複雜度的工具,無法修正編碼引入的錯誤語義資訊。C 說所有類別型特徵都用 One-Hot,忽略了有序類別用 Label Encoding 更能傳遞真實資訊的優勢。D 把兩者的適用邏輯完全對調,偏好品類類別多更需要 One-Hot 而非 Label Encoding。
破題反射字:有序類別 → Label Encoding / 無序類別 → One-Hot Encoding / 錯誤順序假設 → Label Encoding 用於無序類別的風險
第 3 題
某醫療機構建立早期敗血症預警模型,資料集中包含體溫、血壓、心跳、白血球數等 24 個數值型特徵,各特徵的數值範圍差異極大(體溫約 35~42°C,白血球數約 2,000~30,000 個/μL)。模型選用 K-Nearest Neighbors(KNN)進行分類。下列何者最能正確說明特徵縮放在此情境中的必要性,以及 Min-Max 正規化與 Z-score 標準化的選擇邏輯?
(A) KNN 依賴距離計算,白血球數的量級遠大於體溫,未縮放時距離計算被白血球數主導;若資料分布接近常態且無明顯離群值,Z-score 較適合;若需將特徵壓縮至固定範圍,Min-Max 較適合
(B) KNN 對特徵量級不敏感,因為它只比較相對大小而非絕對距離,因此 24 個特徵無需縮放即可正確計算各樣本間的鄰近關係
(C) Min-Max 正規化適用所有情境,應將全部 24 個特徵壓縮至 0~1 之間;Z-score 只適用於特徵需要呈現負值的情境,在醫療正值特徵上不應使用
(D) 特徵縮放只對線性模型(如線性迴歸、SVM)有影響,KNN 使用樹狀結構進行分類,距離計算的量級差異不會影響最終的分類結果
答案:A
深度導讀解析
正確答案:A
核心技術點:KNN 對特徵尺度的敏感性,以及 Min-Max 與 Z-score 的適用情境差異
中級理論拆解:KNN 用歐氏距離計算樣本相似度,距離公式對各維度的差值平方加總。白血球數差值動輒數千,體溫差值僅個位數,未縮放時距離幾乎完全由白血球數決定。Z-score 將特徵轉換為均值 0、標準差 1 的分布,適合資料接近常態分布的場景;Min-Max 將特徵壓縮至指定範圍(通常 0~1),適合需要固定輸出範圍或資料分布不規則的場景,但對離群值敏感。
選項坑洞掃描:B 說 KNN 對量級不敏感,這是根本性的誤解,KNN 完全依賴距離計算,量級差異直接決定哪個特徵主導結果。C 說 Z-score 只適用於負值情境,Z-score 的輸出確實可能為負,但這不限制其適用場景,負值對距離計算無影響。D 說 KNN 用樹狀結構,KNN 沒有樹狀結構,它是基於實例的懶惰學習,決策樹才用樹狀結構。
破題反射字:KNN + 量級差異 → 必須特徵縮放 / Z-score → 常態分布、無離群值 / Min-Max → 固定輸出範圍、對離群值敏感
第 4 題
某銀行信用卡詐欺偵測系統的訓練資料中,正常交易 98,500 筆、詐欺交易 1,500 筆,比例約 66:1。資料科學家計畫使用 SMOTE(Synthetic Minority Over-sampling Technique)處理類別不平衡。下列何者最能正確描述 SMOTE 的合成機制,以及它相較於單純複製少數類樣本的根本優勢?
(A) SMOTE 在少數類樣本的特徵空間中,沿既有樣本與其 K 個最近鄰之間的線段插值生成新樣本,提供多樣化的合成資料而非重複相同樣本,降低過擬合風險
(B) SMOTE 透過對多數類樣本進行隨機欠採樣,將正常交易從 98,500 筆縮減至與詐欺交易相近的數量,以平衡兩類樣本的訓練比例
(C) SMOTE 使用生成對抗網路(GAN)在像素或特徵層面生成高度逼真的少數類合成樣本,確保合成資料的分布與真實詐欺交易完全一致
(D) SMOTE 對少數類樣本直接進行複製擴增至與多數類數量相同,再對每個複製樣本加入隨機高斯雜訊以增加多樣性,避免模型對重複樣本過度擬合
答案:A
深度導讀解析
正確答案:A
核心技術點:SMOTE 的 K-NN 插值合成機制與過擬合風險控制
中級理論拆解:SMOTE 的步驟是:對每個少數類樣本,找出其 K 個最近鄰(通常 K=5),在該樣本與隨機選取的一個近鄰之間的特徵空間線段上插值,生成新的合成樣本。公式是:新樣本 = 原樣本 + 隨機數(0~1) × (近鄰樣本 - 原樣本)。這個機制確保合成樣本落在既有少數類樣本的分布空間內,且每個合成樣本都是唯一的,不是重複既有資料,能提供更豐富的決策邊界學習素材。
選項坑洞掃描:B 描述的是欠採樣(Under-sampling)而非 SMOTE,兩者方向相反,SMOTE 是增加少數類而非減少多數類。C 說 SMOTE 使用 GAN,GAN 是另一種生成合成資料的方法(如 CTGAN),與 SMOTE 的 K-NN 插值機制完全不同。D 說 SMOTE 是複製後加雜訊,這是隨機過採樣加噪聲的變體,SMOTE 的核心是在近鄰間插值而非在原樣本上加雜訊。
破題反射字:SMOTE → K-NN 插值合成 / 少數類近鄰插值 → 生成多樣化合成樣本 / 欠採樣 → 減少多數類(與 SMOTE 相反)
第 5 題
某製造業公司的感測器資料集中,「設備型號」欄位有 2,000 個不同型號(高基數類別特徵),「故障類型」欄位只有 5 種類別。資料工程師考慮對「設備型號」使用 One-Hot Encoding,但技術主管指出這會產生嚴重問題。下列何者最能正確描述高基數類別特徵使用 One-Hot Encoding 的核心問題,以及更合適的替代策略?
(A) One-Hot Encoding 對 2,000 個型號會產生 2,000 個新欄位,造成維度爆炸與稀疏矩陣問題;應改用目標編碼(Target Encoding)以故障率取代類別標籤,或使用嵌入層(Embedding)學習低維表示
(B) One-Hot Encoding 的問題在於無法處理訓練集未出現的新型號;應改用雜湊編碼(Hashing),將 2,000 個型號雜湊到固定數量的桶中,確保新型號也能被正確編碼
(C) One-Hot Encoding 對高基數特徵的主要問題是計算速度慢;應改用 Label Encoding 將 2,000 個型號編碼為 1~2000 的整數,計算效率提升且不增加特徵維度
(D) One-Hot Encoding 對高基數特徵完全不適用,唯一解決方案是先對設備型號進行人工分組,將 2,000 個型號合併為 10~20 個類別後再進行編碼
答案:A
深度導讀解析
正確答案:A
核心技術點:高基數類別特徵的維度爆炸問題與目標編碼、嵌入層的替代方案
中級理論拆解:One-Hot Encoding 對 2,000 個類別產生 2,000 個二元欄位,大多數樣本在這 2,000 個欄位中只有一個 1、其餘全為 0,形成極度稀疏的矩陣,增加計算成本與記憶體負擔,也提高過擬合風險。目標編碼(Target Encoding)用每個類別對應的目標變數均值(本題即各型號的平均故障率)取代類別標籤,保留類別與目標的關聯資訊且不增加維度。嵌入層則透過訓練學習每個類別的低維稠密向量表示,是深度學習場景的常見做法。
選項坑洞掃描:B 說最大問題是無法處理新型號,這確實是 One-Hot 的問題之一,但維度爆炸才是高基數特徵的首要問題,且雜湊編碼會造成碰撞(不同型號映射到同一個桶)。C 說改用 Label Encoding 解決計算速度,Label Encoding 對無序類別引入錯誤的數值順序,2,000 個型號沒有 1 到 2000 的順序意義。D 說唯一解法是人工分組,人工分組需要領域知識且可能損失資訊,目標編碼和嵌入層都是不需要人工分組的系統化方案。
破題反射字:高基數類別 → One-Hot 維度爆炸 / 目標編碼 → 用目標均值取代類別標籤 / 嵌入層 → 深度學習場景的低維稠密表示
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記



















