第 1 題
某醫院導入某疾病快篩,已知該疾病在就診族群中盛行率為 1%,檢驗敏感度(患病時陽性機率)為 95%、特異度(健康時陰性機率)為 95%。一名民眾篩檢結果為陽性,院方想向他說明「真的患病機率」約為多少。下列何項最接近正確答案?
(A) 約 95%,因為檢驗敏感度即為患病機率的最佳估計值。
(B) 約 99%,陽性結果在雙方皆 95% 精度下可信度幾近確定。
(C) 約 50%,陽性時患病與健康的機率大約各半。
(D) 約 16.1%,由貝氏定理 P(D|+) = P(+|D)P(D) / [P(+|D)P(D)+P(+|H)P(H)] = 0.95×0.01 / 0.059 計算而得。
深度導讀解析
正確答案:D
核心考點:貝氏定理計算
理論拆解:分子 P(+|D)·P(D) = 0.95×0.01 = 0.0095;分母加上健康偽陽 P(+|H)·P(H) = 0.05×0.99 = 0.0495,合計 0.059。0.0095 / 0.059 ≈ 0.161。低盛行率下偽陽性會壓低真陽性後驗機率。這就像是在一棟禁菸大樓裡裝了超靈敏火警器;因為大樓極少失火(低盛行率),所以當警報響起時,更大的機率只是有人在抽菸或煮飯(偽陽性),而不是真的發生火災。
選項坑洞掃描:A 混淆 P(+|D) 與 P(D|+)。B 直覺估計忽略基本率。C 猜測無計算依據。
破題反射字:後驗機率 → 貝氏定理 / 低盛行率 → 偽陽性主導
第 2 題
某企業郵件伺服器以 Naive Bayes 分類垃圾信,特徵為每封信中的關鍵字出現次數。資料科學家對新進同事說明此演算法核心假設時,下列何項敘述最為正確?
(A) 條件獨立假設 P(x1,x2|y) = P(x1|y)·P(x2|y) 在文本中常遭違反,但計算效率高且實務分類效果仍常令人滿意。
(B) Naive Bayes 對特徵無任何獨立假設,因此永遠優於需要獨立假設的模型如邏輯迴歸。
(C) Naive Bayes 僅能處理離散類別特徵,遇連續特徵時必須先離散化才能訓練。
(D) Naive Bayes 僅能處理二元分類,無法用於多類別文本分類如新聞主題判定。
深度導讀解析
正確答案:A
核心考點:Naive Bayes 條件獨立假設
理論拆解:NB 以特徵條件獨立假設簡化聯合機率為邊際機率連乘,大幅降低估計複雜度。實務中特徵常非獨立(如「免費」「中獎」共現),但分類邊界常仍準確。這就像是一位廚師假設鹽巴與胡椒在鍋子裡絕對不會互相影響;雖然這個假設在現實中是錯的,但最終煮出來的菜餚味道(分類結果)通常還是相當不錯。
選項坑洞掃描:B 獨立假設是 NB 核心。C Gaussian NB 可直接處理連續特徵。D NB 原生支援多類。
破題反射字:Naive Bayes → 條件獨立 / 假設不真 → 分類仍有效
第 3 題
某電商推薦系統面對 500 萬用戶 × 200 萬商品的龐大評分矩陣,原始矩陣極度稀疏且記憶體吃不消。資料科學家希望將此矩陣壓縮到低秩近似,以學習「用戶潛在偏好」與「商品潛在屬性」兩組向量供協同過濾使用。下列何項線性代數分解最合適?
(A) 先對矩陣每欄做特徵縮放後再套 PCA,以主成分作為低秩近似結果。
(B) 採 SVD 分解為 U·Σ·V^T,保留前 k 個奇異值做低秩近似,U 與 V 列可分別代表用戶與商品潛在向量。
(C) 採 QR 分解將矩陣寫為正交矩陣乘上上三角矩陣,以 R 為低秩近似結果。
(D) 採 Cholesky 分解將矩陣寫為 L·L^T,以 L 為潛在向量。
深度導讀解析
正確答案:B
核心考點:SVD 低秩協同過濾
理論拆解:SVD 對任意 m×n 矩陣皆可分解為 U·Σ·V^T。保留前 k 個奇異值的截斷 SVD 即最佳 k 秩近似(Eckart-Young 定理),U、V 的列向量直接對應用戶與商品潛在表示。這就像是將一部 4K 高畫質電影壓縮成小檔案;雖然丟掉了一些無關緊要的雜訊,但電影主角的神韻與劇情骨幹(潛在特徵)被完整保留了下來,讓我們能用極小的空間掌握整部片的精華。
選項坑洞掃描:A PCA 本質與 SVD 相關但需先中心化,非協同過濾主流做法。C QR 用於解線性系統,非低秩壓縮主用途。D Cholesky 要求對稱正定,評分矩陣不符。
破題反射字:協同過濾 → SVD / 低秩近似 → 截斷奇異值
第 4 題
某資料科學家對原始資料先中心化後計算協方差矩陣 Σ,再求 Σ 的特徵值與特徵向量用於 PCA 降維。下列對「特徵值與特徵向量幾何意義」的敘述何項最為正確?
(A) 特徵值越大代表該方向的資訊量越少,PCA 應選取特徵值最小的 k 個主成分以最大化降維效果。
(B) 不同特徵值對應的特徵向量彼此高度相關,因此 PCA 常需再經 whitening 才能使主成分互相獨立。
(C) 特徵值代表資料在對應特徵向量方向的變異量,取最大的 k 個特徵值對應的特徵向量即保留最多變異的低維子空間。
(D) 特徵值為負數代表該方向「資訊反向有效」,PCA 應在計算時取絕對值後再排序。
深度導讀解析
正確答案:C
核心考點:PCA 特徵值變異量
理論拆解:協方差矩陣對稱半正定,特徵值非負且代表在對應特徵向量方向的資料變異(variance)。取前 k 大即為保留最多變異的低維投影。這就像是用手電筒去照一顆旋轉中的鑽石;特徵向量是光照的方向,而特徵值則是那個方向反射出的亮度,亮度最高的地方就代表隱藏了最多的資訊量。
選項坑洞掃描:A 方向完全相反,應取最大而非最小。B 對稱矩陣的特徵向量天然正交。D 協方差矩陣半正定保證特徵值非負。
破題反射字:PCA 方向 → 特徵向量 / 變異量大小 → 特徵值
第 5 題
某資料科學家訓練一個 5 層全連接網路做房價迴歸,loss 曲線在前幾個 iteration 下降快速,但隨後開始大幅震盪、甚至出現 NaN。檢視配置發現學習率設為 1.0。下列何項對策最為合適?
(A) 降低學習率(例如先試 0.01 或 0.001),並可導入 Step Decay 或 Cosine Annealing 等學習率衰減策略穩定訓練後期。
(B) 加大 batch size 至 1024,以更穩定的梯度估計補償過大的學習率影響。
(C) 將網路加深為 10 層,讓模型有更多容量吸收大學習率帶來的震盪。
(D) 移除所有正則化項,讓模型在大學習率下能盡情探索參數空間。
深度導讀解析
正確答案:A
核心考點:學習率過大處理
理論拆解:學習率過大讓梯度更新幅度超過局部曲率適宜範圍,造成震盪或發散。標準處理是降低學習率並搭配衰減策略,讓前期探索大、後期精調小。這就像是在駕訓班練車;如果你的油門(學習率)踩得太重,車子就會不斷地劇烈前後頓挫甚至熄火(NaN),這時必須放慢腳步、輕踩油門,才能穩穩地停進紅心位。
選項坑洞掃描:B 擴大 batch 不改變學習率本身過大問題。C 加深網路反而讓訓練更不穩。D 移除正則化會加劇過擬合。
破題反射字:loss 震盪 → 降低學習率 / 訓練後期 → 學習率衰減
第 6 題
某深度學習團隊訓練大型模型遇到「損失函數地形崎嶇」的瓶頸,純 SGD 收斂緩慢且易卡在鞍點震盪。下列何項優化器選擇最為合適?
(A) 提高 SGD 學習率硬衝,讓更新幅度大到足以跳過任何鞍點。
(B) 將 batch size 縮小至 1 使用純隨機梯度,以每筆樣本的梯度噪聲跳脫困境。
(C) 改用 Momentum、RMSProp 或 Adam 等動量與自適應學習率優化器,累積歷史梯度方向平滑更新以穿越鞍點。
(D) 將損失函數改為 MSE 並移除所有正則化,以簡化優化地形至凸狀再訓練。
深度導讀解析
正確答案:C
核心考點:動量與自適應優化器
理論拆解:Momentum 累積歷史梯度讓更新具方向慣性;RMSProp/Adam 額外用梯度平方二階動量自適應調整每個參數的學習率,兩者皆能加速穿越鞍點與緩解震盪。這就像是一顆沉重的雪球從高山滾下;有了動量(Momentum),雪球就能靠著衝勁滑過那些平坦的小凹坑(鞍點),而不會像個步行者一樣卡在那裡動彈不得。
選項坑洞掃描:A 加大學習率徒增震盪。B batch=1 噪聲極大收斂不穩。D 換損失函數不改地形非凸本質。
破題反射字:鞍點脫困 → Momentum/Adam / 自適應學習率 → 二階動量
第 7 題
某資深工程師對初學者解釋「深度學習常見失敗原因」時,以下列四項敘述描述高維非凸優化地形的實際狀況,何項最為正確?
(A) 深度網路中遇到的局部最小點通常優於全域最小點,因此應主動選擇局部最小作為最終解。
(B) 深度網路的損失函數在參數空間中為凸函數,梯度下降一定收斂至全域最小值。
(C) 學習率只要調得夠大,就能保證跳脫任何局部最小並最終抵達全域最小。
(D) 高維非凸損失中,鞍點比真正的局部最小更常見;動量類優化器有助於穿越鞍點且多數局部最小與全域最小在實務上相差不大。
深度導讀解析
正確答案:D
核心考點:鞍點與局部最小
理論拆解:深度學習理論研究顯示,高維下「真正的局部最小」罕見、大多數平坦區域為鞍點。動量與自適應優化器能累積方向穿越,實驗上不同初始化收斂的解泛化誤差相近。這就像是在濃霧迷漫的山區健行;我們不需要執著於找到全世界最低的海溝,只要能走到一個夠深的谷底,那裡的視野與高度(泛化誤差)在實務上其實跟最低點相差無幾。
選項坑洞掃描:A 局部最小優於全域無理論根據。B 深度網路損失非凸。C 學習率過大會震盪發散,無法保證抵達全域最小。
破題反射字:非凸優化 → 鞍點多於局部最小 / 穿越鞍點 → 動量
第 8 題
某團隊將 ResNet-50 訓練的 batch size 從 32 擴大到 256 以加速每 epoch 時間,但隨後模型訓練不穩定且精度下降。下列何項對策最能符合 Large Batch Training 的學界標準實務?
(A) batch size 調整時學習率應保持完全不變,以確保訓練超參數的可重現性。
(B) 依 Linear Scaling Rule(學習率隨 batch 線性放大)或 Square Root Rule(開根號放大),並搭配 Warmup 在前幾 epoch 平滑升高學習率。
(C) 把學習率降低至原先的 1/8 倍,以更小的更新抵消 batch 擴大造成的梯度估計變動。
(D) 直接取消學習率參數,改用固定步長的純梯度方向更新以避免 batch 影響。
深度導讀解析
正確答案:B
核心考點:Large Batch Training 學習率縮放
理論拆解:batch 擴大使梯度估計更穩定但有效更新量減少,學習率需按比例放大補償。Warmup 從低學習率線性升至目標值可避免初期發散,是 ResNet、BERT 等大模型標準做法。這就像是從划小船換成開大龍舟;當船上的划手變多(Batch Size 擴大)時,每個人必須出更大的力氣(學習率線性放大)才能讓大龍舟維持跟小船一樣的前進速度。
選項坑洞掃描:A 保持不變會讓更新量相對縮小,收斂慢且精度差。C 方向錯誤,越大 batch 越需放大學習率。D 取消學習率無數學意義。
破題反射字:batch 擴大 → 學習率線性放大 / 初期穩定 → Warmup
第 9 題
某資料科學家執行 OLS 線性迴歸,訓練完畢發現 (X^T X) 不可逆,求解失敗。檢視設計矩陣 X 後發現兩個欄位「身高(公分)」與「身高(公尺)」同時存在,兩欄完全線性相依。下列何項敘述最正確?
(A) 兩欄完全線性相依使 X^T X 秩虧損(奇異矩陣),OLS 閉合解 (X^T X)^(-1) X^T y 無法計算;應移除共線欄位或改用 L2 正則化(Ridge)改寫為 (X^T X + λI)^(-1) 以恢復可逆。
(B) 兩欄完全線性相依不影響 OLS 求解,只是係數解釋上會有些微冗餘,對預測結果毫無負面影響。
(C) 共線性僅影響截距估計而不影響其他係數,實務上可直接忽略共線欄位帶來的任何問題。
(D) 線性迴歸遇此問題應立刻改用深度神經網路取代,因為 DNN 不受共線性影響且效能必然優於 OLS。
深度導讀解析
正確答案:A
核心考點:共線性與矩陣奇異
理論拆解:完全共線讓 X 非滿秩,X^T X 奇異無法求逆。Ridge 正則化以 +λI 項保證正定,等於閉合解加入先驗約束,亦是處理多重共線的標準方法。這就像是一台接收到兩個完全相同訊號的 GPS 導航;因為資訊重複導致電腦邏輯打結、算不出位置,這時我們需要加入一點點外部約束(Ridge 正則化),幫電腦打破僵局、恢復運算。
選項坑洞掃描:B 無法求解顯然影響。C 共線性同時影響所有係數的變異,非只影響截距。D 換演算法屬過度反應,未解根本資料問題。
破題反射字:共線性 → X^T X 奇異 / 恢復可逆 → Ridge 加 λI
第 10 題
某團隊用深層 RNN 處理長序列語言資料,訓練時 loss 忽高忽低、某些 iteration 參數急劇跳動、某些 iteration 又幾乎不變。資深工程師診斷為「梯度爆炸」與「梯度消失」並存。下列何項組合處理最為合適?
(A) 增加訓練 Epoch 數並反覆多跑幾次,讓梯度問題自行平均抵消。
(B) 擴大 batch size 至一萬筆,以大批次梯度平滑效應掩蓋梯度爆炸與消失問題。
(C) 採 Gradient Clipping 截斷梯度範數處理爆炸;改用 LSTM/GRU 以門控機制或加入殘差連接(Residual)緩解消失。
(D) 捨棄序列模型改用線性迴歸,以避免任何與梯度相關的訓練問題。
深度導讀解析
正確答案:C
核心考點:梯度爆炸與消失處理
理論拆解:梯度爆炸以 Clipping 截斷範數(常用上限 1.0 或 5.0);梯度消失以 LSTM/GRU 的門控或 ResNet 殘差連接保留梯度通路,兩者是 RNN 與深層網路的標準組合對策。這就像是一群人在玩長距離的傳聲筒遊戲;為了防止最後一個人聽到的是震耳欲聾的尖叫(梯度爆炸)或微弱到聽不見的耳語(梯度消失),我們需要幫某些人配備擴音器(殘差連接)或限制音量的截斷器(Clipping)。
選項坑洞掃描:A 增加 Epoch 不改變梯度病態。B 大 batch 不治本。D 放棄序列建模損失任務本質。
破題反射字:梯度爆炸 → Clipping / 梯度消失 → LSTM/殘差



















