建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某電商平台建立用戶購買預測模型,資料管線需要從訂單系統、用戶行為日誌、商品資料庫三個來源整合資料,並在每次模型訓練前自動執行清洗、特徵工程、訓練、評估四個步驟。工程師評估手動腳本與 Apache Airflow 編排工具。下列何者最能正確描述 Airflow 在此情境的核心價值?
(A) Airflow 透過 DAG(有向無環圖)定義任務依賴關係與執行順序,支援排程、失敗重試、執行狀態監控,確保資料管線能自動化且可靠地執行,避免手動執行的人為錯誤和遺漏
(B) Airflow 是一種資料庫,能儲存模型訓練過程中的所有中間結果,讓工程師在訓練失敗時直接從斷點繼續,不需要重新執行整個管線
(C) Airflow 主要功能是模型版本控管,記錄每次訓練使用的超參數和評估指標,與 MLflow 功能相同,選擇其中一個即可,不需要同時使用
(D) Airflow 透過分散式計算讓四個步驟完全並行執行,將資料管線的總執行時間從序列的 4 倍縮短至近乎 1 倍,是大數據場景的必備加速工具
答案:A
深度導讀解析
正確答案:A
核心技術點:Airflow 的 DAG 編排機制與資料管線自動化
中級理論拆解:Airflow 讓工程師以 Python 程式碼定義 DAG,設定每個任務的依賴關係(清洗完才能做特徵工程)、排程頻率、失敗重試策略。Web UI 提供即時監控,任何步驟失敗都能收到通知並自動重試,這是手動腳本無法提供的可靠性。
選項坑洞掃描:B 說 Airflow 是資料庫,Airflow 是工作流編排工具,中間結果儲存需要外部儲存系統。C 說與 MLflow 功能相同,MLflow 做實驗追蹤和模型版本控管,Airflow 做工作流編排,兩者互補。D 說讓四步驟完全並行,有依賴關係的步驟(清洗→特徵工程)無法並行,Airflow 的優勢是編排而非純粹加速。
破題反射字:DAG → 任務依賴關係定義 / 排程 + 重試 + 監控 → Airflow 核心功能 / 工作流編排 → Airflow 的定位
第 2 題
某金融機構建立詐欺偵測模型,訓練資料有 500 萬筆交易,特徵包含時間戳記、金額、商戶類別等 85 個欄位。資料科學家在特徵工程階段發現時間戳記欄位被直接當成整數送入模型,但時間的週期性資訊(星期幾、是否深夜)對詐欺行為有高度相關性。下列何者最能正確描述改善此特徵的設計策略?
(A) 直接刪除時間戳記欄位,因為金融詐欺與時間無關,時間特徵只會增加模型複雜度而不提升預測力
(B) 將時間戳記拆解為星期幾(1-7)、小時(0-23)、是否週末(布林值)、是否深夜(布林值),並對週期特徵做正弦餘弦轉換(sin/cos),讓午夜 0 點和 23 點在特徵空間中相鄰而非相距最遠
(C) 對時間戳記進行 Min-Max 正規化壓縮至 0-1 範圍,讓不同時間點在模型中具有可比較的量級,解決時間戳記整數值過大的問題
(D) 將時間戳記轉換為距離當前時間的秒數,數值越小代表越近期的交易,讓模型能學習時間衰減效應,同時保留完整的時間資訊
答案:B
深度導讀解析
正確答案:B
核心技術點:週期性時間特徵的正弦餘弦轉換設計邏輯
中級理論拆解:Unix 時間戳記是線性整數,無法表達週期性。拆解後星期幾(1-7)和小時(0-23)仍有「星期日 7 和星期一 1 應相鄰」的問題。正弦餘弦轉換(sin(2π×小時/24)、cos(2π×小時/24))讓 23 點和 0 點在二維空間距離相近,正確表達循環結構。
選項坑洞掃描:A 說刪除時間戳記,詐欺行為有明顯的時間模式(深夜、週末),刪除會損失重要信號。C 說 Min-Max 正規化,只改變量級,無法萃取星期、小時等週期資訊。D 說距離當前時間的秒數,這捕捉時間衰減效應是有意義的,但無法表達星期幾、深夜等週期模式。
破題反射字:時間週期性 → 正弦餘弦轉換 / 午夜不連續 → sin/cos 讓循環首尾相鄰 / 拆解時間特徵 → 星期、小時、深夜旗標
第 3 題
某醫療 AI 公司建立模型訓練管線,資料科學家發現在資料預處理(缺失值填補、特徵標準化)完成後才切分訓練集和測試集。資深工程師指出這個流程有嚴重的資料洩漏(Data Leakage)風險。下列何者最能正確描述此問題的根本原因及正確的流程設計?
(A) 問題在於測試集比例設定過高,超過 30% 的測試集會讓訓練集樣本不足,應調整切分比例為 8:2 再重新執行預處理
(B) 問題在於缺失值填補方法選擇錯誤,均值填補在醫療資料中不適合,應改用中位數填補後再切分資料集
(C) 問題在於預處理使用了整個資料集(包含測試集)的統計量(如均值、標準差)來填補和縮放,讓測試集的資訊間接洩漏給模型;正確流程是先切分資料集,再用訓練集的統計量分別轉換訓練集和測試集
(D) 問題在於資料預處理步驟太多,每增加一個預處理步驟就增加一次資料洩漏的風險,應盡量減少預處理步驟只保留最必要的那一個
答案:C
深度導讀解析
正確答案:C
核心技術點:預處理順序導致資料洩漏的機制與正確的 Pipeline 設計
中級理論拆解:用全資料集的均值填補缺失值,代表測試集的均值已被納入計算;用全資料集的標準差做縮放同理。測試集的統計資訊透過預處理參數滲透到訓練流程,讓測試集評估結果過於樂觀。正確做法:先 train/test split → 用訓練集 fit 預處理器 → 用相同預處理器 transform 訓練集和測試集(sklearn Pipeline 可自動實現)。
選項坑洞掃描:A 說是切分比例問題,比例設定和洩漏的根本原因無關。B 說是填補方法問題,均值或中位數都會有洩漏問題,問題在於使用了全資料集計算統計量。D 說預處理步驟越多洩漏越多,洩漏的根本是切分順序而非步驟數量。
破題反射字:全資料集計算統計量 → 資料洩漏 / 先切分再 fit 預處理 → 正確流程 / sklearn Pipeline → 自動防止洩漏
第 4 題
某製造業公司有 200 萬筆感測器資料,資料科學家使用 Apache Spark 進行大規模特徵工程。工程師發現在 Spark 的 DataFrame 操作中,某個特徵計算步驟被重複執行了三次(每次下游任務都從頭計算)。資深工程師建議使用 cache() 或 persist() 解決此問題。下列何者最能正確描述 Spark 的惰性計算(Lazy Evaluation)機制,以及 cache() 的作用?
(A) Spark 立即執行每一行程式碼並輸出結果(Eager Evaluation),cache() 的作用是將已執行的結果備份到磁碟,防止節點故障導致資料遺失
(B) Spark 的惰性計算讓轉換操作(如 filter、map)只記錄計算邏輯不立即執行,直到行動操作(如 count、collect)才觸發計算;若中間 DataFrame 被多個下游任務使用,未 cache 時每個下游任務都會從頭重新計算,cache() 將中間結果持久化在記憶體避免重複計算
(C) Spark 惰性計算只適用於 RDD,DataFrame API 採用 Eager Evaluation,cache() 在 DataFrame API 中無效,應改用 checkpoint() 儲存中間結果
(D) cache() 和 persist() 功能完全相同,差異只在 cache() 永久儲存資料、persist() 在任務結束後自動清除,兩者都能有效解決重複計算問題
答案:B
深度導讀解析
正確答案:B
核心技術點:Spark 惰性計算機制與 cache() 避免重複計算的邏輯
中級理論拆解:Spark 的轉換操作(Transformation)只建立執行計畫(Lineage),行動操作(Action)才觸發實際計算。若同一個 DataFrame 被三個下游任務各自觸發,Spark 會從頭執行三次完整的計算鏈。cache() 在第一次 Action 觸發後將結果存入記憶體,後續 Action 直接讀取快取,大幅減少重複計算。
選項坑洞掃描:A 說 Spark 是 Eager Evaluation,Spark 的核心設計就是 Lazy Evaluation,A 描述完全錯誤。C 說 DataFrame API 是 Eager,DataFrame 和 RDD 都採用 Lazy Evaluation,cache() 在兩者都有效。D 說 cache() 永久儲存,cache() 和 persist(MEMORY_ONLY) 等效,都會在記憶體壓力下被清除,不是永久儲存。
破題反射字:惰性計算 → Transformation 不立即執行 / Action → 觸發計算 / cache() → 持久化中間結果避免重複計算
第 5 題
某零售集團建立銷售預測模型,模型需要每週自動重新訓練(因為新一週的銷售資料加入後,舊模型的預測準確度會下降)。AI 規劃師評估兩種策略:完全重訓練(每週用所有歷史資料重新訓練)、增量學習(每週只用新資料更新模型)。下列何者最能正確描述兩種策略的核心取捨?
(A) 完全重訓練每週使用全量歷史資料,能確保模型學到最完整的規律,但計算成本隨資料量累積線性增長;增量學習只更新新資料,計算成本固定,但部分演算法(如 XGBoost)不原生支援增量更新,且可能遺忘早期重要規律(Catastrophic Forgetting)
(B) 增量學習在所有情境下都優於完全重訓練,因為它既省計算資源又能即時適應最新趨勢,完全重訓練是過時的做法應該完全被取代
(C) 完全重訓練和增量學習效果完全相同,差異只在計算成本,應一律選擇增量學習以節省資源,不需要考慮演算法支援度的問題
(D) 增量學習只適合深度學習模型,傳統機器學習(如決策樹、線性迴歸)只能使用完全重訓練,零售銷售預測若選用傳統模型則沒有選擇空間
答案:A
深度導讀解析
正確答案:A
核心技術點:完全重訓練 vs. 增量學習的計算成本與 Catastrophic Forgetting 的取捨
中級理論拆解:完全重訓練隨資料量增長計算成本持續上升,但模型能學到完整的歷史規律。增量學習計算成本固定,但 XGBoost 不原生支援、神經網路會發生 Catastrophic Forgetting(新資料覆蓋舊知識)。實務中常用滑動視窗(只保留最近 N 個月)平衡兩者。
選項坑洞掃描:B 說增量學習永遠優於完全重訓練,Catastrophic Forgetting 和演算法支援度問題讓增量學習有明確限制。C 說效果完全相同,Catastrophic Forgetting 代表兩者在學習完整歷史規律上有本質差異。D 說增量學習只適合深度學習,線性迴歸的隨機梯度下降(SGD)天然支援增量更新,限制不在模型類型。
破題反射字:完全重訓練 → 成本隨資料量增長 / Catastrophic Forgetting → 增量學習的風險 / 滑動視窗 → 兩者的實務折衷
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記



















