【L21301】數據準備與模型選擇|特徵工程、資料品質、模型選型策略 模擬考題

更新 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某零售集團建立銷售預測模型,資料集包含交易日期、門市代碼、商品類別、促銷旗標、天氣代碼等 45 個特徵,但資料工程師發現「促銷旗標」與「是否週年慶期間」這兩個欄位的相關係數高達 0.97,且「門市代碼」與「門市所在縣市」幾乎完全共線。AI 規劃師需要在特徵工程階段處理這個問題。下列何者最能正確描述高共線性特徵對模型的影響,以及最合理的處理策略?

(A) 高共線性特徵會讓線性模型的係數估計不穩定且難以解釋,應使用變異數膨脹因子(VIF)識別共線性程度,對 VIF 超過門檻的特徵擇一保留或合併為新特徵

(B) 高共線性特徵對所有模型都有相同程度的負面影響,應直接刪除相關係數超過 0.9 的所有特徵對中的兩個,確保特徵空間中沒有任何相關性

(C) 高共線性特徵只影響模型的訓練速度,不影響預測準確度,可以保留所有特徵讓模型自行學習哪些特徵更重要,不需要人工干預

(D) 高共線性特徵應全部保留並送入 PCA 降維,PCA 能自動分解共線性結構並生成正交的主成分,是處理任何共線性問題的唯一正確方案

答案:A

深度導讀解析

正確答案:A

核心技術點:共線性(Multicollinearity)對線性模型的係數估計影響,以及 VIF 診斷工具的應用

中級理論拆解:當兩個特徵高度相關,線性迴歸在估計各自係數時會產生數值不穩定——微小的資料變動可能讓係數大幅波動,解釋性完全喪失,且係數的標準誤差膨脹,導致顯著性檢定失效。VIF(Variance Inflation Factor)量化某特徵能被其他特徵解釋的程度,VIF > 10 通常視為嚴重共線性。處理策略是在共線性對中擇一保留(選業務意義更清晰的那個),或將兩個特徵合併為一個新特徵(如「有促銷活動」統一代表週年慶或一般促銷)。

選項坑洞掃描:B 說刪除兩個特徵,共線性對中只需刪一個,刪兩個會損失本來有用的資訊。C 說共線性只影響速度不影響準確度,這是嚴重誤解,共線性對迴歸係數的解釋性和穩定性有直接破壞。D 說 PCA 是唯一解法,PCA 確實能生成正交主成分,但主成分失去原始特徵的業務意義,不適合需要可解釋性的場景。

破題反射字:高共線性 → 係數估計不穩定 / VIF > 10 → 嚴重共線性 / 擇一保留 → 共線性特徵的標準處理


第 2 題

某醫療機構建立糖尿病風險預測模型,資料集有 8 個特徵(血糖值、BMI、年齡、血壓等),訓練樣本 768 筆,正負樣本比例約 2:1。AI 規劃師需要在邏輯迴歸、決策樹、隨機森林、XGBoost 四種模型中選擇最適合的初始方案。考量因素包含:模型需向醫師說明預測依據、資料量有限、部署環境的運算資源受限。下列何者最能正確描述符合此多重條件的模型選型邏輯?

(A) 邏輯迴歸或決策樹是合理的起點,兩者本質上可解釋、訓練成本低,在 768 筆資料量下不易過擬合;XGBoost 和隨機森林雖通常準確率較高,但可解釋性較弱且運算需求更大,不符合本題的多重限制

(B) XGBoost 是唯一正確選擇,因為在任何分類任務中 XGBoost 的準確率都優於邏輯迴歸和決策樹,醫師只需看預測結果不需要理解模型內部邏輯

(C) 應同時部署四種模型做集成,四個模型的投票結果比單一模型更可靠,且集成學習能自動處理可解釋性與準確率之間的取捨

(D) 資料量只有 768 筆代表問題太簡單,任何模型都能達到相同的預測效果,選型對最終結果沒有實質影響,優先選擇團隊最熟悉的框架即可

答案:A

深度導讀解析

正確答案:A

核心技術點:模型選型的多維度決策框架——準確率、可解釋性、資料量、運算資源的綜合權衡

中級理論拆解:本題有三個明確限制:可解釋性(需向醫師說明依據)、資料量有限(768 筆)、運算資源受限。邏輯迴歸的係數直接反映每個特徵對風險的影響方向與強度,天然可解釋;決策樹的分支規則可視覺化為「若血糖 > 140 且 BMI > 30 則高風險」的直觀邏輯。兩者訓練速度快、記憶體需求低,在小資料集上不易過擬合。XGBoost 和隨機森林在大資料集上通常更準確,但需要 SHAP 等額外工具補充可解釋性,也不符合運算資源限制。

選項坑洞掃描:B 說 XGBoost 在任何情況都最準,這是過度簡化,在小資料集上 XGBoost 可能過擬合,且忽略了可解釋性是本題的硬性需求。C 說四模型集成,集成四個模型會大幅增加複雜度和運算需求,且可解釋性更差,和題目的限制條件背道而馳。D 說資料量少代表問題簡單,768 筆醫療資料的分類問題並不簡單,模型選型對結果影響顯著,這個說法站不住腳。

破題反射字:可解釋性需求 → 邏輯迴歸或決策樹 / 小資料集 → 避免複雜集成模型 / 模型選型三維度 → 準確率、可解釋性、資源成本


第 3 題

某電商平台建立商品推薦模型,特徵工程階段需要處理「上架時間」這個日期型欄位(格式:2023-08-15)。資料科學家直接將日期字串轉為 Unix 時間戳記(整數)後送入模型,但發現模型對「週末效應」(週末銷量明顯更高)和「季節性」完全無法捕捉。AI 規劃師建議重新設計此特徵的處理方式。下列何者最能正確說明問題根源,以及更有效的特徵萃取策略?

(A) Unix 時間戳記是單調遞增的整數,無法傳遞週期性時間資訊;應將日期拆解為星期幾、月份、是否週末、是否假日等週期性特徵,或對週期特徵進行正弦餘弦轉換以保留循環結構

(B) 問題出在日期格式,應將 2023-08-15 轉換為 20230815 的純數字格式,讓模型能識別年月日的數值大小關係,進而自動學習季節性和週末效應

(C) 日期型欄位不應送入機器學習模型,應完全捨棄「上架時間」特徵,改用銷售數量的移動平均作為代理特徵,間接捕捉時間趨勢

(D) 應對整個日期欄位進行 One-Hot Encoding,將每個不同日期都編碼為獨立的二元特徵,讓模型自行學習每一天的特定銷售規律

答案:A

深度導讀解析

正確答案:A

核心技術點:日期型特徵的週期性工程化設計,以及正弦餘弦轉換保留循環結構的邏輯

中級理論拆解:Unix 時間戳記只能表達時間的線性順序,模型看到的是「第 N 秒」,無從得知這是星期幾或幾月份。有效的日期特徵萃取包含:拆解為年、月、日、星期幾(直接週期資訊);建立是否週末、是否假日的布林特徵;對月份和星期幾做正弦餘弦轉換(sin(2π × 月份 / 12)、cos(2π × 月份 / 12)),讓 12 月和 1 月在特徵空間中距離相近而非相距最遠,正確表達時間的循環結構。

選項坑洞掃描:B 說轉為 20230815 純數字,這和 Unix 時間戳記有同樣的問題,模型無法從連續整數中提取週期性,815 和 816 沒有「週末」的含義。C 說捨棄日期改用移動平均,移動平均能捕捉趨勢但失去了具體的時間位置資訊(如特定節假日效應),且題目的問題是特徵設計不良而非特徵本身無用。D 說 One-Hot 每一天,若資料跨越三年就有超過 1,000 個二元特徵,且未來新的日期會出現未知類別,完全不可行。

破題反射字:Unix 時間戳記 → 無法表達週期性 / 日期拆解 → 星期幾、月份、是否假日 / 正弦餘弦轉換 → 保留循環結構


第 4 題

某保險公司建立理賠金額預測模型,目標變數為「理賠金額」(連續數值)。AI 規劃師在模型選型時需要在線性迴歸、決策樹迴歸、隨機森林迴歸、LSTM 四個方案中做選擇。資料集有 15,000 筆,特徵包含投保人年齡、車齡、肇事地點、天候條件等 28 個欄位,且分析顯示理賠金額與多個特徵之間存在明顯的非線性關係。下列何者最能正確描述選型的判斷邏輯?

(A) 存在明顯非線性關係代表線性迴歸不適用;LSTM 設計用於序列資料,保險理賠不是時序問題也不適用;隨機森林迴歸能處理非線性且在 15,000 筆資料上不易過擬合,是最合理的優先選擇

(B) 線性迴歸是所有迴歸任務的最佳起點,即使存在非線性關係也應先建立線性基準模型,確認線性模型的 R² 後再決定是否需要更複雜的模型

(C) LSTM 是深度學習模型,在任何預測任務上都優於傳統機器學習方法,15,000 筆資料足以訓練 LSTM,應直接選擇最強的模型避免後續替換的成本

(D) 四個模型應全部訓練後以 Stacking 方式集成,集成學習在任何情境下都優於單一模型,15,000 筆資料完全足以支撐四個基礎模型加一個元模型的訓練

答案:A

深度導讀解析

正確答案:A

核心技術點:模型適用場景的判斷——資料結構、非線性程度、模型設計用途的三維對應

中級理論拆解:模型選型的核心是「任務性質與模型設計用途的匹配」。線性迴歸假設特徵與目標為線性關係,已知存在非線性時就是模型假設違反,預期效果差。LSTM 是為處理時間序列設計的遞迴架構,保險理賠預測是橫截面資料(每筆是一件獨立事件),不存在時間依賴性,用 LSTM 是工具誤用。決策樹迴歸能處理非線性但在 15,000 筆資料上容易過擬合;隨機森林通過集成多棵決策樹降低方差,對非線性表達能力強且在此資料量下泛化穩定,是最合理的起點。

選項坑洞掃描:B 說先建線性基準再升級,這個流程本身合理,但題目已知存在明顯非線性,先建一個預期會失敗的基準是在浪費資源而非有效的逐步驗證。C 說 LSTM 在任何預測任務都最強,LSTM 的優勢在序列資料,用在橫截面資料上沒有任何架構優勢,且訓練成本遠高於隨機森林。D 說全部 Stacking,四模型 Stacking 在此資料量下可行但複雜度過高,且把不適合此任務的 LSTM 和線性迴歸都納入集成,可能拉低整體效果。

破題反射字:非線性關係 → 排除線性迴歸 / 非時序資料 → 排除 LSTM / 隨機森林 → 非線性 + 抗過擬合的平衡選擇


第 5 題

某新創公司的 AI 規劃師正在為客戶的客服工單分類系統選型,工單文字平均 150 字,需要分類為 12 個服務類別。資料集有 8,000 筆已標註工單。規劃師在「微調預訓練 BERT 模型」與「從頭訓練 LSTM 文字分類模型」之間做評估。下列何者最能正確描述兩種方案在此情境下的核心差異與選型邏輯?

(A) 微調 BERT 能利用大規模預訓練的語言知識,在 8,000 筆標註資料下通常可達到更好的分類效果且訓練時間短;從頭訓練 LSTM 需要更多資料才能學到有效的語言表示,在此資料量下效果通常較弱

(B) 從頭訓練 LSTM 在所有 NLP 分類任務中效果都優於微調預訓練模型,因為 LSTM 能完全針對客服工單的語言特性進行學習,不受 BERT 預訓練語料偏差的干擾

(C) 兩種方案效果完全相同,差異只在工程複雜度,LSTM 程式碼更簡單、BERT 微調需要更多工程工作,應選擇團隊最熟悉的方案而非考量模型本身的能力差異

(D) BERT 只適合英文 NLP 任務,若客服工單為中文則必須選擇 LSTM,中文 BERT 模型(如 BERT-wwm)的效果不如從頭訓練的中文 LSTM

答案:A

深度導讀解析

正確答案:A

核心技術點:遷移學習(微調預訓練模型)在小資料集 NLP 任務的優勢,以及與從頭訓練的核心差異

中級理論拆解:BERT 在數十億詞的語料上預訓練,已學到豐富的語言知識(句法、語義、上下文關係)。微調只需用 8,000 筆標註資料更新後段分類層,前段語言表示層已有強大的起點。從頭訓練 LSTM 需要從隨機初始化的權重學起,8,000 筆資料要同時學習語言表示和分類決策,通常遠遠不夠,最終習得的語言表示品質遠不如 BERT 的預訓練結果。現代 NLP 實務中,資料量在萬筆以下的分類任務幾乎都首選微調預訓練模型。

選項坑洞掃描:B 說 LSTM 從頭訓練總是更好,這與現代 NLP 的實證結果完全相反,自 BERT 問世後,微調預訓練模型在幾乎所有 NLP 基準測試上都超越從頭訓練的 LSTM,尤其在小資料集場景差距更大。C 說兩者效果相同,效果差距在此情境下非常顯著,這個說法缺乏依據。D 說 BERT 只適合英文,BERT-wwm、RoBERTa-wwm-ext 等中文預訓練模型效果優異,中文客服工單使用中文 BERT 是標準且有效的做法。

破題反射字:小資料集 NLP → 微調預訓練模型 / BERT 微調 → 利用預訓練語言知識 / 從頭訓練 LSTM → 需要更大資料量才有效


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
373會員
99內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/10/21
可以先觀看影片再做題目,效果加倍https://youtu.be/R_2pR8tdnBU
2025/10/21
可以先觀看影片再做題目,效果加倍https://youtu.be/R_2pR8tdnBU
2025/10/20
可以先觀看影片再做題目,效果加倍https://youtu.be/R_2pR8tdnBU
2025/10/20
可以先觀看影片再做題目,效果加倍https://youtu.be/R_2pR8tdnBU
看更多
你可能也想看
Thumbnail
這篇文章分享如何透過免費電子郵件課程提供價值,建立信任,並引導訂閱者購買付費產品。透過豐富內容、獨特風格,以及AI的幫助,讓你的需求看起來更具吸引力。
Thumbnail
這篇文章分享如何透過免費電子郵件課程提供價值,建立信任,並引導訂閱者購買付費產品。透過豐富內容、獨特風格,以及AI的幫助,讓你的需求看起來更具吸引力。
Thumbnail
當我們架好站、WebService測試完,接著就是測試區域網路連線啦~
Thumbnail
當我們架好站、WebService測試完,接著就是測試區域網路連線啦~
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文介紹在準備商業報告時所面臨的常見挑戰,並提供解決方法,包括確認議程和範本、發展故事力、強化重點、最後填入素材和設計,以及其他額外的內容準備。透過這些建議,您將能更有效率地準備商業報告,達成溝通的目的。
Thumbnail
本文介紹在準備商業報告時所面臨的常見挑戰,並提供解決方法,包括確認議程和範本、發展故事力、強化重點、最後填入素材和設計,以及其他額外的內容準備。透過這些建議,您將能更有效率地準備商業報告,達成溝通的目的。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
以銷售解決方案為目標的網路軟體業務們
Thumbnail
以銷售解決方案為目標的網路軟體業務們
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
這篇文章介紹瞭如何寫出專業的電子郵件開頭句,分享了六種必備的實用模板,讓你可以根據不同情境或目的,填入關鍵詞套用,讓你的email看起來超專業!
Thumbnail
這篇文章介紹瞭如何寫出專業的電子郵件開頭句,分享了六種必備的實用模板,讓你可以根據不同情境或目的,填入關鍵詞套用,讓你的email看起來超專業!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News