第 1 題

某房仲公司以 OLS 線性迴歸預測中古屋成交價,自變數為坪數、屋齡、樓層,整體 R² 達 0.78。資料科學家繪製殘差對預測值散佈圖時,發現殘差變異程度隨預測值升高而擴大呈喇叭狀分布。統計顧問指出此異方差(Heteroscedasticity)若不處理,將影響係數的顯著性檢定。下列何項處理最為合適?
(A) 擴充訓練樣本至原來三倍規模後重新估計,以統計大數法則降低異方差影響。
(B) 改以 Huber-White 穩健標準誤(robust standard error)重新估計,係數無偏但標準誤修正異方差。
(C) 刪除殘差絕對值前 10% 的樣本後重新跑迴歸,以去除「異常」觀測值讓殘差回歸齊次。
(D) 於損失函數加入 L2 正則化懲罰,同步縮小係數並壓抑異方差。
深度導讀解析
正確答案:B
核心考點:異方差穩健標準誤
理論拆解:異方差不影響 OLS 係數無偏性,但讓標準誤失準使 t、F 檢定失效。Huber-White 穩健標準誤直接修正推論層級,是最標準處理。就像教練在看學員射箭。雖然瞄準位置(係數)平均起來是對的,但因為環境風大導致越遠的目標手就抖得越厲害(異方差),教練會重新核算信心範圍(標準誤),避免模型因為幾次偶然的精準而對自己的實力產生過度膨脹的錯覺。
選項坑洞掃描:A 樣本量不治異方差本身。C 刪除大殘差等於自選資料,扭曲分布。D L2 正則化處理過擬合與異方差無關。
破題反射字:殘差喇叭狀 → 異方差 / 推論修正 → Robust SE
第 2 題
某產險公司建立理賠金額預測模型,資料科學家分別訓練三個版本:簡單線性迴歸(4 特徵)、多項式迴歸(15 個交互項)、隨機森林(最大深度 20)。三者訓練集 R² 分別為 0.62、0.89、0.97。資料科學家想挑一個「兼顧擬合度與複雜度」的模型上線,下列何項指標最為合適?
(A) 直接挑 R² 最高的隨機森林版本,訓練誤差最小代表對資料掌握最完整。
(B) 以訓練集 RMSE 最低為唯一指標,RMSE 最低者即為預測精度最優的候選。
(C) 以 F 檢定的 p 值判斷模型是否顯著,p 值最低者即為最合適的模型。
(D) 採 AIC 或 BIC 比較,兩者皆在擬合度之外以參數數量作為複雜度懲罰項。
深度導讀解析
正確答案:D
核心考點:AIC/BIC 模型選擇
理論拆解:AIC = 2k - 2ln(L)、BIC = k·ln(n) - 2ln(L),兩者在對數似然之外加入參數數量 k 的懲罰,避免純追求擬合而過擬合。這就像兩位面試官在評鑑考生。面試官說:「你考得準(擬合度)固然很好,但如果你是靠幾百個複雜變數(參數)死背出來的,那我就要扣你分;我們追求的是能以最精簡、最有效率的架構解決問題,而不是靠過度複雜化來蹭分數。」
選項坑洞掃描:A 訓練 R² 最高常為過擬合。B RMSE 同樣只看擬合,無複雜度懲罰。C p 值檢驗個別係數顯著性,不是模型選擇指標。
破題反射字:擬合度 + 複雜度 → AIC/BIC / 只看擬合 → 過擬合陷阱
第 3 題
某電信業者分析行動用戶每日上網行為資料(下載量、上傳量、使用時段),希望找出異常用戶群(可能為帳號被盜或機器人)。資料中雜訊比例高、異常群數事先未知、且不同群密度差異明顯。資料科學家應選擇下列何種分群方法?
(A) 採 DBSCAN 密度基分群,無需預設群數,可自動識別離群點並對任意形狀群結構穩健。
(B) 採 K-means 並事先設 k=5,以平方距離最小化快速收斂產出五個分群結果。
(C) 採階層式分群畫出 dendrogram 後,由資料科學家依視覺判斷切割高度決定群數。
(D) 先對資料做 PCA 降維至二維後繪散佈圖,由分析師以肉眼圈出可能的用戶群組。
深度導讀解析
正確答案:A
核心考點:DBSCAN 密度分群
理論拆解:DBSCAN 以 ε 鄰域與 MinPts 定義核心點,自動辨識邊界與雜訊,無需預設群數且對任意形狀穩健。本情境三項條件(雜訊、群數未知、形狀不定)正對應其強項。這就像一場在森林中的搜救行動。搜救隊不需要事先預知有多少受難小組,他們只需尋找哪裡有人群聚集(密度),並能自動識別並忽視森林中隨機出現的垃圾雜訊(離群點),藉此勾勒出最真實的人群分佈形狀。
選項坑洞掃描:B K-means 需預設 k 且對雜訊極敏感。C 階層式分群可行但切割高度主觀。D 目視分群不客觀也不可擴展。
破題反射字:未知群數 + 雜訊 → DBSCAN / 預設群數 → K-means
第 4 題
某連鎖超市以三個月 POS 交易資料跑 Apriori 關聯規則分析,得到規則「{牛奶} → {麵包}」支持度 30%、信賴度 85%。CEO 提醒:麵包本身就是全店高頻商品,此規則可能只反映「麵包普遍熱銷」而非真正關聯。下列何項指標最能排除此類虛假關聯?
(A) 只看支持度,將支持度超過 25% 的規則列為動線配置候選即可。
(B) 只看信賴度,將信賴度超過 80% 的規則列為強關聯候選加以列管。
(C) 同時計算提升度 Lift(= 信賴度 / 後項邊際機率),Lift 大於 1 才代表真正正向關聯。
(D) 以兩商品的 Pearson 相關係數取代 Lift,省去支持度信賴度計算流程。
深度導讀解析
正確答案:C
核心考點:Lift 排除虛假關聯
理論拆解:Lift 比較「有 A 時 B 出現機率」與「B 整體出現機率」,Lift = 1 代表獨立、Lift > 1 才表示正向關聯;高頻後項會讓信賴度虛高但 Lift 趨近 1。這就像星探在評估兩位明星的合體效益。雖然大明星(熱銷商品)本來就隨處可見,但提升度會扣除明星原本的光環,真正檢驗兩人合體後是否產生了比各自單飛更高的流量;只有當提升度大於 1,這段關係才算是具備實質意義的強強聯手。
選項坑洞掃描:A 支持度只反映共同頻次,無法排除高頻干擾。B 信賴度受後項基本機率影響。D Pearson 適用連續變數,類別二元購物籃不適用。
破題反射字:排除高頻干擾 → Lift / 信賴度高但 Lift=1 → 虛假關聯
第 5 題
某銀行要在每秒上千筆交易流中即時偵測可疑盜刷,歷史資料顯示正常交易占 99.5%、確認盜刷僅 0.5%,且盜刷類型多樣(異常點散佈於高維特徵空間各處)。團隊不願為每一類新型盜刷重新標註訓練資料。下列何項演算法最合適?
(A) 採 Isolation Forest,以多棵隨機切分樹計算樣本平均隔離深度,深度淺者判為異常且無需標註。
(B) 採 K-means 設 k=2 分為「正常」「異常」兩群,取較小群為異常群即完成偵測部署。
(C) 採純 PCA 重建後以重建誤差排序,取誤差最大的 0.5% 樣本判為異常。
(D) 以邏輯迴歸訓練正常/異常二分類器,只要收集更多歷史盜刷標註即可覆蓋所有類型。
深度導讀解析
正確答案:A
核心考點:Isolation Forest 異常偵測
理論拆解:Isolation Forest 隨機選擇特徵與切分點構樹,異常樣本因與眾不同容易在早期被隔離(平均路徑短)。無需標註、對高維稀疏異常有效,是產業標準做法。這就像是在小鎮中找出陌生人。要確認一個老居民的身分需要詢問很多細節(路徑長),但要確認一個穿著奇怪、行為特殊的陌生人(異常值),通常只需要隨機問一兩個簡單問題就能發現他與眾不同,因為異常總是孤立且容易被區分出來的。
選項坑洞掃描:B K-means 在 0.5% vs 99.5% 極不平衡下異常無法形成群。C PCA 重建可行但對高維非線性異常效果弱。D 邏輯迴歸需大量標註,對新型盜刷泛化差。
破題反射字:無標註異常偵測 → Isolation Forest / 高維稀疏 → 隨機切分樹
第 6 題
某汽車零件廠品保部要一次比較六條產線上個月每日不良率的分布狀況,希望在同一張圖中同時呈現各產線的中位數、四分位範圍以及離群值,藉此找出品質最不穩定的產線。下列何種視覺化最為合適?
(A) 以六個圓餅圖並排呈現各產線不良率占全廠百分比,比較各產線的佔比差異。
(B) 以箱型圖(Box plot)並排呈現六條產線,同時顯示中位數、IQR 與離群值。
(C) 以折線圖呈現六條產線上個月每日不良率時間序列,比較各線斜率與波動。
(D) 以熱力圖(Heatmap)呈現各產線 × 各日不良率二維矩陣,以顏色深淺比較強弱。
深度導讀解析
正確答案:B
核心考點:箱型圖呈現分布
理論拆解:箱型圖同時揭露中位數、Q1/Q3、IQR 與超出 Q1-1.5×IQR、Q3+1.5×IQR 的離群值,最適合「多組資料分布比較」這類任務。這就像是一份全方位的身體健康檢查報告。它不只告訴你平均分數,還一次攤開了你的中間水準、正常波動區間,以及那些極端異常的健康警訊,讓管理者能一眼看穿哪一條生產線的「體質」最不穩定。
選項坑洞掃描:A 圓餅圖只呈現佔比而非分布。C 折線圖呈現時間變化但不直接呈現四分位數。D 熱力圖適合二維強度不適合分布比較。
破題反射字:多組分布比較 → 箱型圖 / 一眼看離群 → IQR 鬍鬚
第 7 題
某電商行銷部要在一張圖中同時呈現「24 小時」× 「10 大商品類別」的每小時銷售強度分布,共 240 個交集點,每個交集點為一個銷售量數值。其目的是一眼看出「哪個時段哪類商品最熱銷」以規劃廣告投放。下列何種視覺化最為合適?
(A) 以 240 根柱的長條圖呈現,每小時每類各一柱,便於精確比較絕對數值大小。
(B) 以散佈圖將時段(x 軸)與銷量(y 軸)對應,並以 10 種顏色區分商品類別。
(C) 以折線圖為每個商品類別畫一條 24 小時曲線,疊 10 條折線共同比較趨勢。
(D) 以熱力圖(Heatmap)呈現 24 × 10 二維矩陣,以顏色深淺表示每一格的銷售強度。
深度導讀解析
正確答案:D
核心考點:Heatmap 二維強度
理論拆解:Heatmap 以顏色編碼將二維矩陣每格強度視覺化,最適合「兩個類別維度交叉的強度分布」場景。24 × 10 = 240 格正是典型案例。這就像是一台銷售現場的熱顯像儀。它捨棄了密密麻麻的精確數字,直接用顏色的深淺與冷暖告訴你:現在哪一個時段、哪一個類別的錢包正在「發燙」,讓行銷人員能直覺地鎖定熱點進行資源投放。
選項坑洞掃描:A 240 根柱過度擁擠難以一眼判讀強度。B 散佈圖用於兩連續變數,非類別 × 類別。C 10 條折線會互相遮蔽難以比較。
破題反射字:兩類別交叉強度 → Heatmap / 顏色編碼 → 二維矩陣
第 8 題
某百貨公司要預測未來 3 個月服飾銷量,歷史資料顯示每年春秋換季有兩個明顯高峰、聖誕檔期有第三個高峰、春節時間因農曆浮動。團隊需要預測模型能同時處理趨勢與季節性,並容納季節週期參數。下列何項模型最為合適?
(A) 採單純線性迴歸以「月份編號」為自變數,斜率即趨勢、截距即水位,計算最簡潔。
(B) 採 K-means 將過去銷量分為四季群,以各群平均作為未來同月份的預測值。
(C) 採 SARIMA(p,d,q)(P,D,Q)s 模型,同時建模自迴歸、差分、移動平均與季節週期參數。
(D) 採二元邏輯迴歸區分「旺季」「淡季」,再對個別時段預測是否屬旺季以規劃備貨。
深度導讀解析
正確答案:C
核心考點:SARIMA 季節性時序
理論拆解:SARIMA 在 ARIMA 之上加入季節性參數 (P,D,Q)s,能同時處理趨勢、短期相依與季節週期,是季節性時序預測的標準方法。這就像是一位專業的氣象預報員。他不僅知道氣溫有長期暖化的趨勢,還考慮了每年夏天一定會熱、冬天一定會冷規律週期(季節性),並結合最近幾天的氣壓波動進行修正,藉此給出最精確的未來預測。
選項坑洞掃描:A 線性迴歸無法捕捉週期性波動。B K-means 不是時序預測方法。D 邏輯迴歸是分類不是量的預測。
破題反射字:季節性時序 → SARIMA / 季節參數 → (P,D,Q)s
第 9 題
某連鎖便利商店分析發現「冰淇淋銷量」與「該地區同期溺水事件數」歷史相關係數達 0.92。總部希望以此關聯建立「冰淇淋銷量 → 溺水事件」的預測模型,並宣告為因果發現。資料科學家在會議上應如何回應?
(A) 相關不等於因果,兩變數可能同時受共同混淆變數(如氣溫)影響,未控制混淆即宣告因果屬統計誤用。
(B) 相關係數超過 0.9 即可確認因果關係,直接以冰淇淋銷量作為溺水事件的預測因子並據以發聲。
(C) 加入更多控制變數做複迴歸即可自動排除所有混淆,係數顯著即可大膽宣告因果成立。
(D) 若 p 值顯著(p < 0.05)即代表因果關係成立,此關聯可作為預測模型的核心變數使用。
深度導讀解析
正確答案:A
核心考點:相關 vs 因果
理論拆解:高相關可能來自第三變數(混淆變數)同時驅動兩者,如氣溫同時推高冰淇淋銷量與戲水次數(進而溺水)。未控制混淆就宣告因果是統計最常見誤用。這就像看到路上行人撐傘時車禍機率變高,就誤以為撐傘會導致車禍。資料科學家必須指出,這其實是因為「下大雨」這個混淆變數同時造成了撐傘與視線不佳,若未釐清背後的機制就草率宣告因果,將會制定出荒謬的決策。
選項坑洞掃描:B 相關係數高低不涉因果判定。C 加控制變數需滿足識別條件,並非自動排除。D p 值檢驗相關顯著性不檢驗因果。
破題反射字:高相關 → 先找混淆變數 / 因果推論 → 不是 p 值
第 10 題
某醫院研究員想觀察「BMI」與「空腹血糖」兩個連續變數的關聯形狀(是否線性、是否有離群點、是否有群集),以決定後續是否適合套用線性迴歸模型。下列何種視覺化最適合此初探分析?
(A) 以 BMI 區間作 X 軸、空腹血糖平均作 Y 軸的長條圖,比較各區間平均血糖高低。
(B) 以 BMI 四分位分群繪製四個箱型圖,比較各分群空腹血糖的中位數與 IQR 差異。
(C) 以散佈圖(Scatter plot)呈現每位病患(BMI、空腹血糖)點位,直接觀察點群分布、線性與離群。
(D) 以圓餅圖呈現 BMI 等級佔比,另列圓餅圖呈現血糖等級佔比,分別檢視兩變數分布。
深度導讀解析
正確答案:C
核心考點:散佈圖兩連續變數
理論拆解:散佈圖直接呈現每筆觀測值在兩連續變數平面的對應位置,可一眼判斷線性、非線性、群集、離群值,是兩連續變數關聯初探的標準工具。這就像是兩位變數之間的「第一次約會面談」。透過這張圖,我們能一眼看出他們是情投意合的直線發展(線性)、關係複雜的曲線互動,還是周遭其實存在著會干擾發展的第三者(離群值),這決定了後續是否適合談更深層的合作。
選項坑洞掃描:A 長條圖丟失個別資料點。B 箱型圖揭露分布但無法看關聯形狀。D 圓餅圖只呈現佔比且無法看兩變數關聯。
破題反射字:兩連續變數關聯 → 散佈圖 / 線性/離群/群集 → 一眼讀圖


















