【L22302】常見大數據分析方法｜分群、關聯規則、異常偵測模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某零售集團對 50 萬筆交易資料執行 Apriori 演算法，希望找出「常被一起購買的商品組合」以優化貨架陳列。分析師設定支持度（Support）門檻 0.01、信賴度（Confidence）門檻 0.6。下列何者最能正確描述這兩個指標的含義，以及提升度（Lift）在此情境的額外價值？

(A) Support = 0.01 代表此商品組合在所有交易中出現的比例至少 1%；Confidence = 0.6 代表購買 A 後購買 B 的條件機率至少 60%；Lift > 1 代表兩商品的購買行為正相關，高 Lift 規則才有業務價值

(B) Support = 0.01 代表此商品組合的平均客單價超過 1% 的整體均值；Confidence = 0.6 代表此組合的毛利率達 60%；Lift 衡量商品的銷售增長率

(D) Support = 0.01 代表推薦系統的點擊率門檻；Confidence = 0.6 代表用戶對推薦結果的滿意度；Lift 衡量推薦系統相較於隨機推薦的效能提升比例

答案：A

深度導讀解析

正確答案：A

核心技術點：關聯規則三個核心指標的定義與 Lift 的業務意義

中級理論拆解：Support(A→B) = P(A∩B)，衡量規則的普遍性。Confidence(A→B) = P(B|A) = P(A∩B)/P(A)，衡量規則的可靠性。Lift = Confidence/P(B)，Lift > 1 表示購買 A 確實提高了購買 B 的機率，排除 B 本身高頻的影響。

選項坑洞掃描：B 說 Support 是客單價比例，三個指標都是機率概念而非金額。C 說是模型準確率指標，兩者是關聯規則的統計量，不是分類準確率。D 說是推薦系統的點擊率，完全混淆了關聯規則與推薦系統評估指標。

破題反射字：Support → 共現比例／ Confidence → 條件機率／ Lift > 1 → 正相關有業務價值

第 2 題

某製造業部署設備異常偵測系統，感測器資料無標籤（不知道哪些是真實故障）。工程師評估三種方法：統計法（Z-score）、密度基方法（DBSCAN）、機器學習法（Isolation Forest）。系統需處理高維感測器資料（120 個特徵）且異常模式複雜非線性。下列何者最能正確說明三種方法的適用差異，以及哪種最適合此情境？

(A) Z-score 最適合，將每個特徵標準化後設定閾值，超過 3 個標準差即為異常；高維資料只需對每個維度獨立計算，不受特徵數影響

(B) Isolation Forest 最適合，它隨機選擇特徵和切割點建立隔離樹，異常點因特徵值極端而容易被少數切割隔離；相較於統計法不假設分布形態，相較於 DBSCAN 在高維空間不受「維度詛咒」影響

(D) 三種方法效果相同，在無標籤資料的情況下無法客觀評估哪種方法更好，應選擇計算成本最低的 Z-score 以節省運算資源

答案：B

深度導讀解析

正確答案：B

核心技術點：Isolation Forest 在高維無標籤異常偵測的優勢

中級理論拆解：Z-score 假設常態分布且對每個特徵獨立計算，無法捕捉特徵間的交互異常。DBSCAN 在高維空間受維度詛咒影響嚴重（所有點距離趨近）。Isolation Forest 透過隨機切割隔離異常點，天然適合高維、無標籤、非線性異常場景。

選項坑洞掃描：A 說 Z-score 不受特徵數影響，Z-score 獨立看每個維度，無法偵測多維度交互產生的異常。C 說 DBSCAN 最適合，高維空間的距離計算讓 DBSCAN 的密度估計失效。D 說三種方法相同，三者的適用場景和效能差異顯著。

破題反射字：高維異常偵測 → Isolation Forest ／維度詛咒 → DBSCAN 的弱點／無標籤 → 非監督式方法

第 3 題

某電商平台對 200 萬用戶執行 K-Means 分群，用於個人化行銷策略設計。分析師發現 K 值設定困難，且結果中有一群用戶數量極少（只有 3 人）、另一群極大（包含 180 萬人）。資深資料科學家指出這代表 K-Means 在此資料集有根本性的限制。下列何者最能正確描述 K-Means 的核心假設限制，以及此情境的改善方向？

(A) K-Means 假設每個群集呈球形且大小相近，對非球形或大小懸殊的群集表現差；可用手肘法（Elbow Method）或輪廓分析（Silhouette Analysis）決定最適 K 值，或改用 DBSCAN 處理任意形狀的群集

(B) K-Means 的問題是初始質心隨機選擇導致結果不穩定，應固定隨機種子確保每次執行結果一致，群集大小懸殊是正常現象不需要改善

(D) K-Means 的群集大小懸殊代表資料品質不良，應先刪除離群值並對所有特徵進行 PCA 降維至 2 維後再執行，降維後 K-Means 的假設一定能被滿足

答案：A

深度導讀解析

正確答案：A

核心技術點：K-Means 的球形等大假設限制與 K 值選擇工具

中級理論拆解：K-Means 以歐氏距離到質心最近分配群集，隱含假設每群呈球形且大小相近。180 萬 vs. 3 人的極度不均衡分布說明資料本身可能不符合此假設。手肘法看 inertia 下降速率，輪廓分析衡量群內緊密度與群間分離度，DBSCAN 無需預設 K 且能處理任意形狀。

選項坑洞掃描：B 說固定隨機種子就能解決，K-Means++ 改善初始化，但不解決球形等大假設問題。C 說 K-Means 只適合 K=2，K-Means 支援任意 K 值。D 說降維後假設一定滿足，降維不能保證資料符合球形分布。

破題反射字：K-Means → 球形等大假設／手肘法 / 輪廓分析 → K 值選擇／ DBSCAN → 任意形狀群集

第 4 題

某銀行使用時間序列分析預測未來三個月的日均存款餘額。歷史資料顯示明顯的年度季節性（每年 Q4 存款增加）和長期上升趨勢。分析師評估 ARIMA 與 Prophet 兩種模型。下列何者最能正確描述兩者在此情境的適用差異？

(A) ARIMA 只能處理平穩時間序列，需先通過差分消除趨勢和季節性再建模；Prophet 由 Meta 開發，內建趨勢、季節性、假期效應的分解組件，對業務人員更直觀且能處理缺失值，適合此情境

(B) Prophet 只能處理週期為 7 天的週季節性，年度季節性需要改用 SARIMA（季節性 ARIMA）；ARIMA 能同時處理任意週期的趨勢和季節性

(D) ARIMA 比 Prophet 更適合此情境，因為 ARIMA 是學術界主流方法，有嚴謹的理論基礎；Prophet 是工業界工具，缺乏統計理論支撐，預測結果不可靠

答案：A

深度導讀解析

正確答案：A

核心技術點：ARIMA 的平穩性要求與 Prophet 的組件分解設計

中級理論拆解：ARIMA(p,d,q) 的 d 參數透過差分讓序列平穩，但季節性 ARIMA（SARIMA）才能直接處理季節性。Prophet 將時間序列分解為趨勢（logistic/linear）+ 季節性（Fourier 展開）+ 假期效應，對年度週期的支援直觀且不需要平穩性前處理。

選項坑洞掃描：B 說 Prophet 只支援週季節性，Prophet 支援年度、週、日多重季節性疊加。C 說兩者效果相同，兩者的建模假設和對季節性的處理方式有根本差異。D 說 Prophet 缺乏理論基礎，Prophet 基於貝葉斯統計框架，有完整的理論支撐。

破題反射字：平穩性要求 → ARIMA 前提／趨勢 + 季節性 + 假期 → Prophet 分解組件／差分 → ARIMA 消除趨勢的方式

第 5 題

某醫療研究機構對 10,000 名患者使用階層式分群（Hierarchical Clustering）分析疾病亞型，選用凝聚式（Agglomerative）方法，並需決定連結標準（Linkage）。研究員發現完整連結（Complete Linkage）和單一連結（Single Linkage）產生截然不同的結果。下列何者最能正確描述兩種連結標準的差異，以及哪種更適合醫療亞型分析？

(A) 完整連結計算兩群集中最遠點對的距離，傾向產生大小相近的緊密球形群集；單一連結計算最近點對距離，容易產生鏈狀不均衡群集；醫療亞型分析需要明確邊界的緊密群集，完整連結通常更合適

(B) 完整連結和單一連結的差異只在計算速度，完整連結因計算最遠點對而較慢；兩者對群集形狀和大小的影響完全相同，選擇時應以計算效率為主

(D) 完整連結適合類別型特徵，單一連結適合數值型特徵；醫療資料通常混合兩種特徵類型，應使用沃德連結（Ward Linkage）作為折衷方案

答案：A

深度導讀解析

正確答案：A

核心技術點：Complete vs. Single Linkage 的距離計算差異與群集形狀傾向

中級理論拆解：Complete Linkage 用兩群最遠點對距離合併，產生緊密球形群集，對離群值較不敏感。Single Linkage 用最近點對距離，容易讓鏈狀延伸的群集一路連接，產生長條形不均衡群集（鏈式效應）。醫療亞型需要邊界清晰的群集，Complete Linkage 更適合。

選項坑洞掃描：B 說差異只在計算速度，兩者對群集形狀和大小有根本不同的影響。C 說 Single Linkage 對離群值不敏感，Single Linkage 恰恰對離群值敏感——一個噪音點能把兩個遠群連接起來。D 說依特徵類型選擇，連結標準的選擇依據是期望的群集形狀，不是特徵類型。

破題反射字：Complete Linkage → 最遠點距離、緊密球形／ Single Linkage → 最近點距離、鏈式效應／醫療亞型 → Complete Linkage 更合適

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記