【L22401】大數據與機器學習|特徵工程、資料管線、模型訓練流程 模擬考題

更新 發佈閱讀 12 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某電商平台建立用戶購買預測模型,資料管線需要從訂單系統、用戶行為日誌、商品資料庫三個來源整合資料,並在每次模型訓練前自動執行清洗、特徵工程、訓練、評估四個步驟。工程師評估手動腳本與 Apache Airflow 編排工具。下列何者最能正確描述 Airflow 在此情境的核心價值?

(A) Airflow 透過 DAG(有向無環圖)定義任務依賴關係與執行順序,支援排程、失敗重試、執行狀態監控,確保資料管線能自動化且可靠地執行,避免手動執行的人為錯誤和遺漏

(B) Airflow 是一種資料庫,能儲存模型訓練過程中的所有中間結果,讓工程師在訓練失敗時直接從斷點繼續,不需要重新執行整個管線

(C) Airflow 主要功能是模型版本控管,記錄每次訓練使用的超參數和評估指標,與 MLflow 功能相同,選擇其中一個即可,不需要同時使用

(D) Airflow 透過分散式計算讓四個步驟完全並行執行,將資料管線的總執行時間從序列的 4 倍縮短至近乎 1 倍,是大數據場景的必備加速工具

答案:A

深度導讀解析

正確答案:A

核心技術點:Airflow 的 DAG 編排機制與資料管線自動化

中級理論拆解:Airflow 讓工程師以 Python 程式碼定義 DAG,設定每個任務的依賴關係(清洗完才能做特徵工程)、排程頻率、失敗重試策略。Web UI 提供即時監控,任何步驟失敗都能收到通知並自動重試,這是手動腳本無法提供的可靠性。

選項坑洞掃描:B 說 Airflow 是資料庫,Airflow 是工作流編排工具,中間結果儲存需要外部儲存系統。C 說與 MLflow 功能相同,MLflow 做實驗追蹤和模型版本控管,Airflow 做工作流編排,兩者互補。D 說讓四步驟完全並行,有依賴關係的步驟(清洗→特徵工程)無法並行,Airflow 的優勢是編排而非純粹加速。

破題反射字:DAG → 任務依賴關係定義 / 排程 + 重試 + 監控 → Airflow 核心功能 / 工作流編排 → Airflow 的定位


第 2 題

某金融機構建立詐欺偵測模型,訓練資料有 500 萬筆交易,特徵包含時間戳記、金額、商戶類別等 85 個欄位。資料科學家在特徵工程階段發現時間戳記欄位被直接當成整數送入模型,但時間的週期性資訊(星期幾、是否深夜)對詐欺行為有高度相關性。下列何者最能正確描述改善此特徵的設計策略?

(A) 直接刪除時間戳記欄位,因為金融詐欺與時間無關,時間特徵只會增加模型複雜度而不提升預測力

(B) 將時間戳記拆解為星期幾(1-7)、小時(0-23)、是否週末(布林值)、是否深夜(布林值),並對週期特徵做正弦餘弦轉換(sin/cos),讓午夜 0 點和 23 點在特徵空間中相鄰而非相距最遠

(C) 對時間戳記進行 Min-Max 正規化壓縮至 0-1 範圍,讓不同時間點在模型中具有可比較的量級,解決時間戳記整數值過大的問題

(D) 將時間戳記轉換為距離當前時間的秒數,數值越小代表越近期的交易,讓模型能學習時間衰減效應,同時保留完整的時間資訊

答案:B

深度導讀解析

正確答案:B

核心技術點:週期性時間特徵的正弦餘弦轉換設計邏輯

中級理論拆解:Unix 時間戳記是線性整數,無法表達週期性。拆解後星期幾(1-7)和小時(0-23)仍有「星期日 7 和星期一 1 應相鄰」的問題。正弦餘弦轉換(sin(2π×小時/24)、cos(2π×小時/24))讓 23 點和 0 點在二維空間距離相近,正確表達循環結構。

選項坑洞掃描:A 說刪除時間戳記,詐欺行為有明顯的時間模式(深夜、週末),刪除會損失重要信號。C 說 Min-Max 正規化,只改變量級,無法萃取星期、小時等週期資訊。D 說距離當前時間的秒數,這捕捉時間衰減效應是有意義的,但無法表達星期幾、深夜等週期模式。

破題反射字:時間週期性 → 正弦餘弦轉換 / 午夜不連續 → sin/cos 讓循環首尾相鄰 / 拆解時間特徵 → 星期、小時、深夜旗標


第 3 題

某醫療 AI 公司建立模型訓練管線,資料科學家發現在資料預處理(缺失值填補、特徵標準化)完成後才切分訓練集和測試集。資深工程師指出這個流程有嚴重的資料洩漏(Data Leakage)風險。下列何者最能正確描述此問題的根本原因及正確的流程設計?

(A) 問題在於測試集比例設定過高,超過 30% 的測試集會讓訓練集樣本不足,應調整切分比例為 8:2 再重新執行預處理

(B) 問題在於缺失值填補方法選擇錯誤,均值填補在醫療資料中不適合,應改用中位數填補後再切分資料集

(C) 問題在於預處理使用了整個資料集(包含測試集)的統計量(如均值、標準差)來填補和縮放,讓測試集的資訊間接洩漏給模型;正確流程是先切分資料集,再用訓練集的統計量分別轉換訓練集和測試集

(D) 問題在於資料預處理步驟太多,每增加一個預處理步驟就增加一次資料洩漏的風險,應盡量減少預處理步驟只保留最必要的那一個

答案:C

深度導讀解析

正確答案:C

核心技術點:預處理順序導致資料洩漏的機制與正確的 Pipeline 設計

中級理論拆解:用全資料集的均值填補缺失值,代表測試集的均值已被納入計算;用全資料集的標準差做縮放同理。測試集的統計資訊透過預處理參數滲透到訓練流程,讓測試集評估結果過於樂觀。正確做法:先 train/test split → 用訓練集 fit 預處理器 → 用相同預處理器 transform 訓練集和測試集(sklearn Pipeline 可自動實現)。

選項坑洞掃描:A 說是切分比例問題,比例設定和洩漏的根本原因無關。B 說是填補方法問題,均值或中位數都會有洩漏問題,問題在於使用了全資料集計算統計量。D 說預處理步驟越多洩漏越多,洩漏的根本是切分順序而非步驟數量。

破題反射字:全資料集計算統計量 → 資料洩漏 / 先切分再 fit 預處理 → 正確流程 / sklearn Pipeline → 自動防止洩漏


第 4 題

某製造業公司有 200 萬筆感測器資料,資料科學家使用 Apache Spark 進行大規模特徵工程。工程師發現在 Spark 的 DataFrame 操作中,某個特徵計算步驟被重複執行了三次(每次下游任務都從頭計算)。資深工程師建議使用 cache() 或 persist() 解決此問題。下列何者最能正確描述 Spark 的惰性計算(Lazy Evaluation)機制,以及 cache() 的作用?

(A) Spark 立即執行每一行程式碼並輸出結果(Eager Evaluation),cache() 的作用是將已執行的結果備份到磁碟,防止節點故障導致資料遺失

(B) Spark 的惰性計算讓轉換操作(如 filter、map)只記錄計算邏輯不立即執行,直到行動操作(如 count、collect)才觸發計算;若中間 DataFrame 被多個下游任務使用,未 cache 時每個下游任務都會從頭重新計算,cache() 將中間結果持久化在記憶體避免重複計算

(C) Spark 惰性計算只適用於 RDD,DataFrame API 採用 Eager Evaluation,cache() 在 DataFrame API 中無效,應改用 checkpoint() 儲存中間結果

(D) cache() 和 persist() 功能完全相同,差異只在 cache() 永久儲存資料、persist() 在任務結束後自動清除,兩者都能有效解決重複計算問題

答案:B

深度導讀解析

正確答案:B

核心技術點:Spark 惰性計算機制與 cache() 避免重複計算的邏輯

中級理論拆解:Spark 的轉換操作(Transformation)只建立執行計畫(Lineage),行動操作(Action)才觸發實際計算。若同一個 DataFrame 被三個下游任務各自觸發,Spark 會從頭執行三次完整的計算鏈。cache() 在第一次 Action 觸發後將結果存入記憶體,後續 Action 直接讀取快取,大幅減少重複計算。

選項坑洞掃描:A 說 Spark 是 Eager Evaluation,Spark 的核心設計就是 Lazy Evaluation,A 描述完全錯誤。C 說 DataFrame API 是 Eager,DataFrame 和 RDD 都採用 Lazy Evaluation,cache() 在兩者都有效。D 說 cache() 永久儲存,cache() 和 persist(MEMORY_ONLY) 等效,都會在記憶體壓力下被清除,不是永久儲存。

破題反射字:惰性計算 → Transformation 不立即執行 / Action → 觸發計算 / cache() → 持久化中間結果避免重複計算


第 5 題

某零售集團建立銷售預測模型,模型需要每週自動重新訓練(因為新一週的銷售資料加入後,舊模型的預測準確度會下降)。AI 規劃師評估兩種策略:完全重訓練(每週用所有歷史資料重新訓練)、增量學習(每週只用新資料更新模型)。下列何者最能正確描述兩種策略的核心取捨?

(A) 完全重訓練每週使用全量歷史資料,能確保模型學到最完整的規律,但計算成本隨資料量累積線性增長;增量學習只更新新資料,計算成本固定,但部分演算法(如 XGBoost)不原生支援增量更新,且可能遺忘早期重要規律(Catastrophic Forgetting)

(B) 增量學習在所有情境下都優於完全重訓練,因為它既省計算資源又能即時適應最新趨勢,完全重訓練是過時的做法應該完全被取代

(C) 完全重訓練和增量學習效果完全相同,差異只在計算成本,應一律選擇增量學習以節省資源,不需要考慮演算法支援度的問題

(D) 增量學習只適合深度學習模型,傳統機器學習(如決策樹、線性迴歸)只能使用完全重訓練,零售銷售預測若選用傳統模型則沒有選擇空間

答案:A

深度導讀解析

正確答案:A

核心技術點:完全重訓練 vs. 增量學習的計算成本與 Catastrophic Forgetting 的取捨

中級理論拆解:完全重訓練隨資料量增長計算成本持續上升,但模型能學到完整的歷史規律。增量學習計算成本固定,但 XGBoost 不原生支援、神經網路會發生 Catastrophic Forgetting(新資料覆蓋舊知識)。實務中常用滑動視窗(只保留最近 N 個月)平衡兩者。

選項坑洞掃描:B 說增量學習永遠優於完全重訓練,Catastrophic Forgetting 和演算法支援度問題讓增量學習有明確限制。C 說效果完全相同,Catastrophic Forgetting 代表兩者在學習完整歷史規律上有本質差異。D 說增量學習只適合深度學習,線性迴歸的隨機梯度下降(SGD)天然支援增量更新,限制不在模型類型。

破題反射字:完全重訓練 → 成本隨資料量增長 / Catastrophic Forgetting → 增量學習的風險 / 滑動視窗 → 兩者的實務折衷


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
373會員
98內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在數據可視化中,要實現「從數據到洞察」的核心目標,以下哪項設計決策最能有效弭平商業需求與技術實現之間的鴻溝? 選項: A) 使用最新的3D圖表技術提升視覺衝擊力。 B) 精心選擇並優化視覺變數,確保關
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在數據可視化中,要實現「從數據到洞察」的核心目標,以下哪項設計決策最能有效弭平商業需求與技術實現之間的鴻溝? 選項: A) 使用最新的3D圖表技術提升視覺衝擊力。 B) 精心選擇並優化視覺變數,確保關
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在處理大規模電商交易數據時,若需快速取得每日各產品類別的近似總銷售額,且對微小誤差有一定容忍度,以下哪種近似計算技術最合適? 選項: A) 精確的SQL GROUP BY查詢 B) 使用Count-M
2025/11/05
問題 1 (中級) ------------------------------ 題目: 在處理大規模電商交易數據時,若需快速取得每日各產品類別的近似總銷售額,且對微小誤差有一定容忍度,以下哪種近似計算技術最合適? 選項: A) 精確的SQL GROUP BY查詢 B) 使用Count-M
看更多
你可能也想看
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分享作者如何運用 AI 作為「專屬備考顧問」,學習 AI 基礎概論。透過四招「說清楚需求」、「抱怨不順」、「懷疑」,以及「重複」,並結合 ChatGPT 付費版「專案」功能或 Gemini 免費版「Gem」功能,有效整理學習資料、避免幹擾,並生成客製化學習路徑與考前「小抄」,大幅提升學習成效。
Thumbnail
本文分享作者如何運用 AI 作為「專屬備考顧問」,學習 AI 基礎概論。透過四招「說清楚需求」、「抱怨不順」、「懷疑」,以及「重複」,並結合 ChatGPT 付費版「專案」功能或 Gemini 免費版「Gem」功能,有效整理學習資料、避免幹擾,並生成客製化學習路徑與考前「小抄」,大幅提升學習成效。
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News