【L21301】數據準備與模型選擇｜特徵工程、資料品質、模型選型策略模擬考題

2026/04/01 更新2025/10/23 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某零售集團建立銷售預測模型，資料集包含交易日期、門市代碼、商品類別、促銷旗標、天氣代碼等 45 個特徵，但資料工程師發現「促銷旗標」與「是否週年慶期間」這兩個欄位的相關係數高達 0.97，且「門市代碼」與「門市所在縣市」幾乎完全共線。AI 規劃師需要在特徵工程階段處理這個問題。下列何者最能正確描述高共線性特徵對模型的影響，以及最合理的處理策略？

(A) 高共線性特徵會讓線性模型的係數估計不穩定且難以解釋，應使用變異數膨脹因子（VIF）識別共線性程度，對 VIF 超過門檻的特徵擇一保留或合併為新特徵

(B) 高共線性特徵對所有模型都有相同程度的負面影響，應直接刪除相關係數超過 0.9 的所有特徵對中的兩個，確保特徵空間中沒有任何相關性

(D) 高共線性特徵應全部保留並送入 PCA 降維，PCA 能自動分解共線性結構並生成正交的主成分，是處理任何共線性問題的唯一正確方案

答案：A

深度導讀解析

正確答案：A

核心技術點：共線性（Multicollinearity）對線性模型的係數估計影響，以及 VIF 診斷工具的應用

中級理論拆解：當兩個特徵高度相關，線性迴歸在估計各自係數時會產生數值不穩定——微小的資料變動可能讓係數大幅波動，解釋性完全喪失，且係數的標準誤差膨脹，導致顯著性檢定失效。VIF（Variance Inflation Factor）量化某特徵能被其他特徵解釋的程度，VIF > 10 通常視為嚴重共線性。處理策略是在共線性對中擇一保留（選業務意義更清晰的那個），或將兩個特徵合併為一個新特徵（如「有促銷活動」統一代表週年慶或一般促銷）。

選項坑洞掃描：B 說刪除兩個特徵，共線性對中只需刪一個，刪兩個會損失本來有用的資訊。C 說共線性只影響速度不影響準確度，這是嚴重誤解，共線性對迴歸係數的解釋性和穩定性有直接破壞。D 說 PCA 是唯一解法，PCA 確實能生成正交主成分，但主成分失去原始特徵的業務意義，不適合需要可解釋性的場景。

破題反射字：高共線性 → 係數估計不穩定／ VIF > 10 → 嚴重共線性／擇一保留 → 共線性特徵的標準處理

第 2 題

某醫療機構建立糖尿病風險預測模型，資料集有 8 個特徵（血糖值、BMI、年齡、血壓等），訓練樣本 768 筆，正負樣本比例約 2:1。AI 規劃師需要在邏輯迴歸、決策樹、隨機森林、XGBoost 四種模型中選擇最適合的初始方案。考量因素包含：模型需向醫師說明預測依據、資料量有限、部署環境的運算資源受限。下列何者最能正確描述符合此多重條件的模型選型邏輯？

(A) 邏輯迴歸或決策樹是合理的起點，兩者本質上可解釋、訓練成本低，在 768 筆資料量下不易過擬合；XGBoost 和隨機森林雖通常準確率較高，但可解釋性較弱且運算需求更大，不符合本題的多重限制

(B) XGBoost 是唯一正確選擇，因為在任何分類任務中 XGBoost 的準確率都優於邏輯迴歸和決策樹，醫師只需看預測結果不需要理解模型內部邏輯

(D) 資料量只有 768 筆代表問題太簡單，任何模型都能達到相同的預測效果，選型對最終結果沒有實質影響，優先選擇團隊最熟悉的框架即可

答案：A

深度導讀解析

正確答案：A

核心技術點：模型選型的多維度決策框架——準確率、可解釋性、資料量、運算資源的綜合權衡

中級理論拆解：本題有三個明確限制：可解釋性（需向醫師說明依據）、資料量有限（768 筆）、運算資源受限。邏輯迴歸的係數直接反映每個特徵對風險的影響方向與強度，天然可解釋；決策樹的分支規則可視覺化為「若血糖 > 140 且 BMI > 30 則高風險」的直觀邏輯。兩者訓練速度快、記憶體需求低，在小資料集上不易過擬合。XGBoost 和隨機森林在大資料集上通常更準確，但需要 SHAP 等額外工具補充可解釋性，也不符合運算資源限制。

選項坑洞掃描：B 說 XGBoost 在任何情況都最準，這是過度簡化，在小資料集上 XGBoost 可能過擬合，且忽略了可解釋性是本題的硬性需求。C 說四模型集成，集成四個模型會大幅增加複雜度和運算需求，且可解釋性更差，和題目的限制條件背道而馳。D 說資料量少代表問題簡單，768 筆醫療資料的分類問題並不簡單，模型選型對結果影響顯著，這個說法站不住腳。

破題反射字：可解釋性需求 → 邏輯迴歸或決策樹／小資料集 → 避免複雜集成模型／模型選型三維度 → 準確率、可解釋性、資源成本

第 3 題

某電商平台建立商品推薦模型，特徵工程階段需要處理「上架時間」這個日期型欄位（格式：2023-08-15）。資料科學家直接將日期字串轉為 Unix 時間戳記（整數）後送入模型，但發現模型對「週末效應」（週末銷量明顯更高）和「季節性」完全無法捕捉。AI 規劃師建議重新設計此特徵的處理方式。下列何者最能正確說明問題根源，以及更有效的特徵萃取策略？

(A) Unix 時間戳記是單調遞增的整數，無法傳遞週期性時間資訊；應將日期拆解為星期幾、月份、是否週末、是否假日等週期性特徵，或對週期特徵進行正弦餘弦轉換以保留循環結構

(B) 問題出在日期格式，應將 2023-08-15 轉換為 20230815 的純數字格式，讓模型能識別年月日的數值大小關係，進而自動學習季節性和週末效應

(D) 應對整個日期欄位進行 One-Hot Encoding，將每個不同日期都編碼為獨立的二元特徵，讓模型自行學習每一天的特定銷售規律

答案：A

深度導讀解析

正確答案：A

核心技術點：日期型特徵的週期性工程化設計，以及正弦餘弦轉換保留循環結構的邏輯

中級理論拆解：Unix 時間戳記只能表達時間的線性順序，模型看到的是「第 N 秒」，無從得知這是星期幾或幾月份。有效的日期特徵萃取包含：拆解為年、月、日、星期幾（直接週期資訊）；建立是否週末、是否假日的布林特徵；對月份和星期幾做正弦餘弦轉換（sin(2π × 月份 / 12)、cos(2π × 月份 / 12)），讓 12 月和 1 月在特徵空間中距離相近而非相距最遠，正確表達時間的循環結構。

選項坑洞掃描：B 說轉為 20230815 純數字，這和 Unix 時間戳記有同樣的問題，模型無法從連續整數中提取週期性，815 和 816 沒有「週末」的含義。C 說捨棄日期改用移動平均，移動平均能捕捉趨勢但失去了具體的時間位置資訊（如特定節假日效應），且題目的問題是特徵設計不良而非特徵本身無用。D 說 One-Hot 每一天，若資料跨越三年就有超過 1,000 個二元特徵，且未來新的日期會出現未知類別，完全不可行。

破題反射字：Unix 時間戳記 → 無法表達週期性／日期拆解 → 星期幾、月份、是否假日／正弦餘弦轉換 → 保留循環結構

第 4 題

某保險公司建立理賠金額預測模型，目標變數為「理賠金額」（連續數值）。AI 規劃師在模型選型時需要在線性迴歸、決策樹迴歸、隨機森林迴歸、LSTM 四個方案中做選擇。資料集有 15,000 筆，特徵包含投保人年齡、車齡、肇事地點、天候條件等 28 個欄位，且分析顯示理賠金額與多個特徵之間存在明顯的非線性關係。下列何者最能正確描述選型的判斷邏輯？

(A) 存在明顯非線性關係代表線性迴歸不適用；LSTM 設計用於序列資料，保險理賠不是時序問題也不適用；隨機森林迴歸能處理非線性且在 15,000 筆資料上不易過擬合，是最合理的優先選擇

(B) 線性迴歸是所有迴歸任務的最佳起點，即使存在非線性關係也應先建立線性基準模型，確認線性模型的 R² 後再決定是否需要更複雜的模型

(D) 四個模型應全部訓練後以 Stacking 方式集成，集成學習在任何情境下都優於單一模型，15,000 筆資料完全足以支撐四個基礎模型加一個元模型的訓練

答案：A

深度導讀解析

正確答案：A

核心技術點：模型適用場景的判斷——資料結構、非線性程度、模型設計用途的三維對應

中級理論拆解：模型選型的核心是「任務性質與模型設計用途的匹配」。線性迴歸假設特徵與目標為線性關係，已知存在非線性時就是模型假設違反，預期效果差。LSTM 是為處理時間序列設計的遞迴架構，保險理賠預測是橫截面資料（每筆是一件獨立事件），不存在時間依賴性，用 LSTM 是工具誤用。決策樹迴歸能處理非線性但在 15,000 筆資料上容易過擬合；隨機森林通過集成多棵決策樹降低方差，對非線性表達能力強且在此資料量下泛化穩定，是最合理的起點。

選項坑洞掃描：B 說先建線性基準再升級，這個流程本身合理，但題目已知存在明顯非線性，先建一個預期會失敗的基準是在浪費資源而非有效的逐步驗證。C 說 LSTM 在任何預測任務都最強，LSTM 的優勢在序列資料，用在橫截面資料上沒有任何架構優勢，且訓練成本遠高於隨機森林。D 說全部 Stacking，四模型 Stacking 在此資料量下可行但複雜度過高，且把不適合此任務的 LSTM 和線性迴歸都納入集成，可能拉低整體效果。

破題反射字：非線性關係 → 排除線性迴歸／非時序資料 → 排除 LSTM ／隨機森林 → 非線性 + 抗過擬合的平衡選擇

第 5 題

某新創公司的 AI 規劃師正在為客戶的客服工單分類系統選型，工單文字平均 150 字，需要分類為 12 個服務類別。資料集有 8,000 筆已標註工單。規劃師在「微調預訓練 BERT 模型」與「從頭訓練 LSTM 文字分類模型」之間做評估。下列何者最能正確描述兩種方案在此情境下的核心差異與選型邏輯？

(A) 微調 BERT 能利用大規模預訓練的語言知識，在 8,000 筆標註資料下通常可達到更好的分類效果且訓練時間短；從頭訓練 LSTM 需要更多資料才能學到有效的語言表示，在此資料量下效果通常較弱

(B) 從頭訓練 LSTM 在所有 NLP 分類任務中效果都優於微調預訓練模型，因為 LSTM 能完全針對客服工單的語言特性進行學習，不受 BERT 預訓練語料偏差的干擾

(D) BERT 只適合英文 NLP 任務，若客服工單為中文則必須選擇 LSTM，中文 BERT 模型（如 BERT-wwm）的效果不如從頭訓練的中文 LSTM

答案：A

深度導讀解析

正確答案：A

核心技術點：遷移學習（微調預訓練模型）在小資料集 NLP 任務的優勢，以及與從頭訓練的核心差異

中級理論拆解：BERT 在數十億詞的語料上預訓練，已學到豐富的語言知識（句法、語義、上下文關係）。微調只需用 8,000 筆標註資料更新後段分類層，前段語言表示層已有強大的起點。從頭訓練 LSTM 需要從隨機初始化的權重學起，8,000 筆資料要同時學習語言表示和分類決策，通常遠遠不夠，最終習得的語言表示品質遠不如 BERT 的預訓練結果。現代 NLP 實務中，資料量在萬筆以下的分類任務幾乎都首選微調預訓練模型。

選項坑洞掃描：B 說 LSTM 從頭訓練總是更好，這與現代 NLP 的實證結果完全相反，自 BERT 問世後，微調預訓練模型在幾乎所有 NLP 基準測試上都超越從頭訓練的 LSTM，尤其在小資料集場景差距更大。C 說兩者效果相同，效果差距在此情境下非常顯著，這個說法缺乏依據。D 說 BERT 只適合英文，BERT-wwm、RoBERTa-wwm-ext 等中文預訓練模型效果優異，中文客服工單使用中文 BERT 是標準且有效的做法。

破題反射字：小資料集 NLP → 微調預訓練模型／ BERT 微調 → 利用預訓練語言知識／從頭訓練 LSTM → 需要更大資料量才有效

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

#iPAS

#AI應用規劃師

iPAS自學路｜AI應用規劃師備考筆記與考點解析模擬題庫 & 詳解

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

373會員

99內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

iPAS自學路｜AI應用規劃師備考筆記與考點解析的其他內容

2025/10/21

【L21202】AI 導入規劃｜專案管理、團隊建構、敏捷開發、雲端資源規劃模擬考題

可以先觀看影片再做題目，效果加倍https://youtu.be/R_2pR8tdnBU

2025/10/21

【L21202】AI 導入規劃｜專案管理、團隊建構、敏捷開發、雲端資源規劃模擬考題

可以先觀看影片再做題目，效果加倍https://youtu.be/R_2pR8tdnBU

2025/10/20

【L21202】AI 導入規劃｜資料治理成熟度、XAI、POC 評估、風險識別模擬考題

可以先觀看影片再做題目，效果加倍https://youtu.be/R_2pR8tdnBU

2025/10/20

【L21202】AI 導入規劃｜資料治理成熟度、XAI、POC 評估、風險識別模擬考題

可以先觀看影片再做題目，效果加倍https://youtu.be/R_2pR8tdnBU

2025/10/20

【L21201】AI 導入評估｜業務痛點鑑別、價值導向分析、ROI、TCO 模擬考題

可以先觀看影片再做題目，效果加倍

2025/10/20

【L21201】AI 導入評估｜業務痛點鑑別、價值導向分析、ROI、TCO 模擬考題

可以先觀看影片再做題目，效果加倍

看更多

你可能也想看

自由豐盛社群 Glowing Up

如何創建爆款電子郵件課程？透過 AI 指引你一步步完成

這篇文章分享如何透過免費電子郵件課程提供價值，建立信任，並引導訂閱者購買付費產品。透過豐富內容、獨特風格，以及AI的幫助，讓你的需求看起來更具吸引力。

#課程#品牌#產品

2024/04/30

自由豐盛社群 Glowing Up

如何創建爆款電子郵件課程？透過 AI 指引你一步步完成

2024/04/30

試著設計你自己的工程清單吧！

2024/06/09

試著設計你自己的工程清單吧！

2024/06/09

【中高階級】－Web Service(5)區域網路連線測試

當我們架好站、WebService測試完，接著就是測試區域網路連線啦～

#CSharp#WebService#IIS

2024/06/29

橙果杏的沙龍

【中高階級】－Web Service(5)區域網路連線測試

當我們架好站、WebService測試完，接著就是測試區域網路連線啦～

#CSharp#WebService#IIS

2024/06/29

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11