第 1 題
某廣告點擊預測模型訓練集 AUC 達 0.95、但驗證集 AUC 僅 0.72,且訓練集上預測機率分布極度集中於兩端而驗證集明顯發散。資料科學家要判斷模型狀態並對症下藥。下列何項診斷與處理最為正確?
(A) 模型狀態健康,訓練集指標高於驗證集屬正常,無需調整直接上線即可。
(B) 明顯過擬合,應加入 L1/L2 正則化、Dropout、Early Stopping 或降低模型複雜度以改善泛化。
(C) 明顯欠擬合,應加深網路、增加特徵交互項或延長訓練時間強化表達能力。
(D) 資料本身有問題,應立即丟棄全部訓練資料重新蒐集並重新標註。
深度導讀解析
正確答案:B
核心考點:過擬合診斷與處理
理論拆解:訓練遠優於驗證為典型過擬合訊號。對策為增加正則化(L1、L2)、Dropout、Early Stopping、降低模型複雜度或擴充資料量,四者擇一或組合使用。這就像是一位學生把歷屆試題題庫(訓練集)每一題都死背了下來,導致練習時拿滿分,但一進考場遇到沒看過的新題型(驗證集)就完全考砸,這代表模型只是在死記硬體而非理解規律。
選項坑洞掃描:A 訓練與驗證差 0.23 是顯著落差非正常。C 訓練集 AUC 0.95 顯示擬合能力足夠非欠擬合。D 丟資料為過度反應。
破題反射字:訓練遠優於驗證 → 過擬合 / 對策 → 正則化/Dropout/EarlyStopping
第 2 題
某銀行信用評分模型輸入特徵高達 300 個,團隊希望模型能自動篩掉無貢獻特徵(將其係數壓為 0),以提升可解釋性並減少後續資料蒐集成本。下列正則化策略何項最為合適?
(A) 採 L2 正則化(Ridge),其平方懲罰項會將無貢獻特徵係數精確壓為 0 達成特徵選擇。
(B) 兩者皆可達成自動特徵選擇,L1 與 L2 在統計上實質等價差別僅在計算效率。
(C) 採 L1 正則化(Lasso),其絕對值懲罰項會在最佳化時將不重要特徵係數精確推至 0,達成稀疏解與自動特徵選擇。
(D) 不使用任何正則化讓模型自由擬合,再依係數大小手動刪除前 50 個最小係數即可。
深度導讀解析
正確答案:C
核心考點:L1 正則化稀疏解
理論拆解:L1 懲罰 λΣ|w_i| 在最佳化時產生「尖角」解使部分係數精確為 0;L2 懲罰 λΣw_i² 讓係數平滑趨近 0 但不為 0。稀疏解與自動特徵選擇是 Lasso 的定義性特徵。這就像是一位嚴格的編輯在刪減草稿,他不僅會縮減贅字,還會狠心地將那些完全無助於傳達主題的段落精確刪除(係數歸零),只留下最關鍵的核心內容。
選項坑洞掃描:A L2 不產生稀疏解是常見混淆。B L1/L2 機制不同不等價。D 無正則化手動刪除缺乏客觀依據。
破題反射字:稀疏解 → L1 Lasso / 平滑收縮 → L2 Ridge
第 3 題
某團隊訓練影像分類 CNN,觀察 loss 曲線發現:訓練 loss 持續下降,驗證 loss 前 15 epoch 跟著下降但隨後開始緩緩上升。此時模型在驗證集的表現仍然是前 15 epoch 時最佳。下列何項對策最為合適?
(A) 採 Early Stopping,以驗證 loss 最低點作為停訓依據並保存當時的模型權重為最終版本。
(B) 繼續訓練直至訓練 loss 接近 0,訓練越徹底則泛化能力越強。
(C) 提高學習率至原先的 10 倍,加速脫離驗證 loss 反轉點的困境。
(D) 將模型規模縮小 80%,以降低容量避免繼續訓練。
深度導讀解析
正確答案:A
核心考點:Early Stopping 停訓策略
理論拆解:訓練 loss 持續降但驗證 loss 反轉為過擬合開始的訊號。Early Stopping 在驗證指標反轉處停止訓練並保存最佳權重,是最直接的過擬合防禦。這就像是在烤麵包,我們必須在麵包香氣最濃郁、色澤最完美的時刻關火出爐,如果因為執著於讓烤箱多烤幾分鐘(訓練 loss 降至 0)而導致麵包焦掉,反而會毀掉整體的口感。
選項坑洞掃描:B 訓練 loss 接近 0 常為過擬合終點。C 提高學習率與問題無關反而可能發散。D 縮小模型規模屬結構改動,過度反應。
破題反射字:驗證 loss 反轉 → Early Stopping / 保存最佳權重 → Checkpoint
第 4 題
某金融科技公司比較 Random Forest 與 XGBoost 於信用違約預測的表現,資料為 30 萬筆結構化特徵。下列何項最正確描述兩者的核心差異?
(A) Random Forest 與 XGBoost 演算法本質完全等價,僅套件名稱不同,可任選其一。
(B) XGBoost 必定優於 Random Forest,任何情境下都應選 XGBoost 而放棄 RF。
(C) Random Forest 必定優於 XGBoost,因其獨立樹投票機制可完全避免過擬合。
(D) RF 以 Bagging 平行訓練多棵獨立樹再投票或平均;XGBoost 以 Boosting 依序訓練每棵樹修正前樹殘差,通常表達力更強但對超參數與過擬合更敏感。
深度導讀解析
正確答案:D
核心考點:Bagging 與 Boosting 差異
理論拆解:RF 採 Bagging 獨立訓練降低變異,對超參數寬容但天花板較低;XGBoost 採 Boosting 順序修正降低偏差,表達力強但易過擬合,需仔細調 learning rate、max_depth、subsample、regularization。RF 就像是請一群專家各自獨立作答最後再平均結果(投票),而 XGBoost 則像是一個勤奮的學生,他會不斷檢討前一次模擬考寫錯的題目(殘差)並針對性地強化學習,直到所有細節都掌握為止。
選項坑洞掃描:A 兩者機制不同。B/C 絕對優劣判定違反 No Free Lunch。
破題反射字:Bagging → RF 獨立樹投票 / Boosting → XGB 殘差修正
第 5 題
某電商為每筆訂單做風險評分,使用 KNN 比對訓練集中 100 萬筆歷史訂單。上線後發現每筆查詢延遲達 500ms,超過 SLA 100ms 門檻。團隊希望在不大幅變更演算法的前提下改善延遲。下列何項對策最為合適?
(A) 將 k 從 5 提升至 50,以多數決穩定性換取單次查詢效能改善。
(B) 放棄 KNN 改訓練一個深度神經網路替代,以避免所有距離計算瓶頸。
(C) 導入 KD-Tree、Ball-Tree 或 ANN 索引(HNSW、IVF)降低查詢複雜度,將距離搜尋從 O(n·d) 降至近似對數級。
(D) 對訓練集所有特徵做 One-hot Encoding 展開以提升距離計算速度。
深度導讀解析
正確答案:C
核心考點:KNN 查詢索引加速
理論拆解:KNN 推論時間瓶頸為每筆查詢 O(n·d) 全量比對。KD-Tree、Ball-Tree 適合低維度,HNSW、IVF 等 ANN 索引則在高維有效,可將查詢降至對數級或近似常數。這就像是在圖書館找書,傳統做法是從書架的第一本開始一對一檢查(全量比對),而導入索引技術就像是使用電腦目錄系統,讓你能在幾秒鐘內鎖定特定區塊,瞬間找到最接近的幾本書。
選項坑洞掃描:A 提高 k 反而需更多比對。B 放棄 KNN 換模型屬過度反應。D One-hot 反增維度讓距離計算更慢。
破題反射字:KNN 加速 → ANN 索引 / 低維 → KD-Tree 高維 → HNSW
第 6 題
某工程師與新進同事講解 CNN 影像分類中 Max-Pooling 層的作用,下列何項最為正確?
(A) Max-Pooling 為 CNN 的激活函數,對每個神經元輸出做非線性轉換。
(B) Max-Pooling 執行下採樣(downsampling),以每區域最大值降低特徵圖解析度,提升平移不變性並減少計算量與過擬合風險。
(C) Max-Pooling 為資料擴增的一環,訓練時動態生成旋轉與翻轉版本以豐富樣本。
(D) Max-Pooling 會大幅增加模型可訓練參數量,是 CNN 過擬合的主要來源。
深度導讀解析
正確答案:B
核心考點:Max-Pooling 下採樣
理論拆解:Max-Pooling 取固定區塊的最大值代表該區域,縮小特徵圖尺寸、保留顯著特徵、對小幅平移穩健、降低後續計算量與參數。此四點為其定義性功能。這就像是我們在瞇著眼看一張解析度太高的照片,雖然我們丟棄了細微的噪點與像素細節,但反而能更清楚地捕捉到畫面中最重要的輪廓與特徵。
選項坑洞掃描:A 激活函數為 ReLU/Sigmoid/Tanh 等非 Max-Pooling 職責。C 資料擴增為前處理步驟。D Pooling 無可訓練參數。
破題反射字:Max-Pooling → 下採樣 / 無可訓練參數 → 固定區域取最大
第 7 題
某 NLP 團隊處理法律合約分類,文件長度常達數千字且關鍵線索可能出現在開頭或結尾。早期實作使用傳統 RNN 時發現訓練梯度消失、長距離依賴完全失去。下列何項架構改動最能直接解決此問題?
(A) 改用 LSTM,以輸入門、遺忘門、輸出門三個門控機制搭配細胞狀態 cell state,有選擇地保留長期資訊並緩解梯度消失。
(B) 改用完全不含非線性的線性 RNN,避免非線性函數造成的梯度消失。
(C) 將 RNN 深度從 2 層加至 20 層,以更多層數補償長距離依賴能力。
(D) 將所有文件截斷為前 50 字,丟棄後續字元以規避長序列問題。
深度導讀解析
正確答案:A
核心考點:LSTM 門控機制
理論拆解:LSTM 以 forget gate 決定丟棄哪些舊資訊、input gate 決定寫入多少新資訊、output gate 決定輸出範圍,搭配 cell state 維持加法更新通路,有效緩解傳統 RNN 梯度消失。這就像是一份具備智慧過濾功能的筆記本,它能有意識地擦除那些不再重要的舊八卦(遺忘門),並精確錄入當下的關鍵對話(輸入門),確保你在翻到最後一頁時依然記得故事最初的重點。
選項坑洞掃描:B 線性 RNN 失去表達力。C 加深層數反增梯度病態。D 截斷丟失任務所需的長距離線索。
破題反射字:長距離依賴 → LSTM 門控 / 梯度消失 → Cell State 加法通路
第 8 題
某團隊訓練 Transformer 處理超長文本(4096 token),發現訓練所需記憶體與時間急劇增加,且模型對遠距位置資訊掌握有限。工程師與主管討論 Transformer 的特性時,下列何項敘述最為完整正確?
(A) Transformer 自注意力計算複雜度為 O(n),與序列長度線性相關,長文本處理毫無瓶頸。
(B) Transformer 原生不需位置編碼,因自注意力本身即蘊含序列順序資訊。
(C) Transformer 只能處理固定長度序列,超過訓練時長度的輸入無法推論。
(D) 自注意力複雜度為 O(n²·d) 隨序列長度平方增長;由於無序特性需加入位置編碼(positional encoding)補充順序;FlashAttention、Sparse Attention、Longformer 等為常見擴展以處理長文本。
深度導讀解析
正確答案:D
核心考點:Transformer 自注意力特性
理論拆解:Q·K^T 運算為 n×n 矩陣乘法,複雜度 O(n²·d);無遞迴結構故需位置編碼;長文本優化包含稀疏注意力、分塊計算、線性近似等多種路徑。這就像是在一場多人社交晚宴中,你具備同時與在場所有人眼神交流的能力(自注意力),並能根據對話背景自動判斷誰說的話才是目前最重要的關鍵訊息,而不受座位遠近的限制。
選項坑洞掃描:A 線性複雜度為錯誤描述。B 無位置編碼會失去順序感。C 可透過延伸位置編碼等技術支援變長。
破題反射字:自注意力 → O(n²·d) / 長文本 → Sparse/Flash Attention
第 9 題
某新進深度學習工程師詢問資深同事:「Dropout 與 BatchNorm 在訓練與推論時為何行為不同?」下列回答何項最為正確?
(A) Dropout 在訓練與推論時皆隨機丟棄神經元,兩階段行為完全一致以維持一致性。
(B) Dropout 訓練時以機率 p 隨機丟棄神經元,推論時關閉丟棄並將權重以 (1-p) 比例縮放補償;BatchNorm 訓練時用 mini-batch 統計量,推論時則用訓練期間累積的移動平均統計量。
(C) BatchNorm 在訓練與推論時完全一致,兩階段皆使用當前 batch 的即時均值與變異數。
(D) Dropout 與 BatchNorm 在訓練與推論都採用相同機制,兩者僅名稱不同無實質差異。
深度導讀解析
正確答案:B
核心考點:Dropout 與 BatchNorm 訓練推論差異
理論拆解:Dropout 推論時關閉隨機性以確保輸出確定,權重 scaling 補償訓練時缺失的期望值。BatchNorm 推論時若用 mini-batch 統計會讓輸出隨 batch 變動,因此改用訓練期間累積的移動平均 μ、σ。這就像是運動員在模擬訓練時會穿上負重背心或在強風中練習(Dropout),但當正式上場比賽(推論)時則會卸下重擔,並根據長期訓練累積的平均體能狀態發揮出最穩定的表現。
選項坑洞掃描:A Dropout 推論時必須關閉。C BatchNorm 兩階段不同。D 兩者機制完全不同。
破題反射字:Dropout 推論 → 關閉加縮放 / BatchNorm 推論 → 移動平均統計
第 10 題
某零售分析團隊要預測未來 4 週商品銷量,以過去 52 週歷史資料訓練模型並做交叉驗證選參。資料科學家習慣用 K-Fold 隨機切分,同事指出時間序列不可隨機切。下列何項最正確說明時間序列交叉驗證的原則?
(A) 傳統 K-Fold 隨機切分即可用於時間序列,只要洗牌後分折就能保證公平比較。
(B) 應以 80/20 固定切分取代交叉驗證,時間序列僅需單次驗證不可做多折。
(C) 採 TimeSeriesSplit 或前滾式(forward chaining)驗證,每一折的訓練集只包含驗證集之前的資料,以維持時序因果關係避免 data leakage。
(D) 直接以測試集資料訓練模型,訓練集用於驗證,即可評估未來資料表現。
深度導讀解析
正確答案:C
核心考點:時間序列交叉驗證
理論拆解:隨機 K-Fold 會讓「未來資料」出現在訓練集造成時序 leakage。前滾式驗證每折訓練集只含歷史資料、驗證集為下一段未來資料,模擬真實預測情境。這就像是在預測下週的股市,你絕對不能偷偷翻開明天的報紙(未來資料)來練習昨天的操盤,而必須嚴格遵守時間先後順序,僅用歷史資訊來推演未知,才能避免產生預知未來的假象。
選項坑洞掃描:A 隨機洗牌破壞時序因果。B 單次切分樣本利用率低且不做多折交叉驗證。D 訓練測試角色顛倒為錯誤用法。
破題反射字:時序 CV → TimeSeriesSplit / 前滾式 → 訓練只含歷史


















