建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某零售集團對 50 萬筆交易資料執行 Apriori 演算法,希望找出「常被一起購買的商品組合」以優化貨架陳列。分析師設定支持度(Support)門檻 0.01、信賴度(Confidence)門檻 0.6。下列何者最能正確描述這兩個指標的含義,以及提升度(Lift)在此情境的額外價值?
(A) Support = 0.01 代表此商品組合在所有交易中出現的比例至少 1%;Confidence = 0.6 代表購買 A 後購買 B 的條件機率至少 60%;Lift > 1 代表兩商品的購買行為正相關,高 Lift 規則才有業務價值
(B) Support = 0.01 代表此商品組合的平均客單價超過 1% 的整體均值;Confidence = 0.6 代表此組合的毛利率達 60%;Lift 衡量商品的銷售增長率
(C) Support 和 Confidence 都是衡量模型準確率的指標,設定越高模型越準確;Lift 是 Apriori 演算法的學習率,控制每次迭代的更新幅度
(D) Support = 0.01 代表推薦系統的點擊率門檻;Confidence = 0.6 代表用戶對推薦結果的滿意度;Lift 衡量推薦系統相較於隨機推薦的效能提升比例
答案:A
深度導讀解析
正確答案:A
核心技術點:關聯規則三個核心指標的定義與 Lift 的業務意義
中級理論拆解:Support(A→B) = P(A∩B),衡量規則的普遍性。Confidence(A→B) = P(B|A) = P(A∩B)/P(A),衡量規則的可靠性。Lift = Confidence/P(B),Lift > 1 表示購買 A 確實提高了購買 B 的機率,排除 B 本身高頻的影響。
選項坑洞掃描:B 說 Support 是客單價比例,三個指標都是機率概念而非金額。C 說是模型準確率指標,兩者是關聯規則的統計量,不是分類準確率。D 說是推薦系統的點擊率,完全混淆了關聯規則與推薦系統評估指標。
破題反射字:Support → 共現比例 / Confidence → 條件機率 / Lift > 1 → 正相關有業務價值
第 2 題
某製造業部署設備異常偵測系統,感測器資料無標籤(不知道哪些是真實故障)。工程師評估三種方法:統計法(Z-score)、密度基方法(DBSCAN)、機器學習法(Isolation Forest)。系統需處理高維感測器資料(120 個特徵)且異常模式複雜非線性。下列何者最能正確說明三種方法的適用差異,以及哪種最適合此情境?
(A) Z-score 最適合,將每個特徵標準化後設定閾值,超過 3 個標準差即為異常;高維資料只需對每個維度獨立計算,不受特徵數影響
(B) Isolation Forest 最適合,它隨機選擇特徵和切割點建立隔離樹,異常點因特徵值極端而容易被少數切割隔離;相較於統計法不假設分布形態,相較於 DBSCAN 在高維空間不受「維度詛咒」影響
(C) DBSCAN 最適合,它依據密度識別異常點(低密度區域的點為異常),對任意形狀的異常模式都有良好偵測效果,且不需要預設異常點的數量
(D) 三種方法效果相同,在無標籤資料的情況下無法客觀評估哪種方法更好,應選擇計算成本最低的 Z-score 以節省運算資源
答案:B
深度導讀解析
正確答案:B
核心技術點:Isolation Forest 在高維無標籤異常偵測的優勢
中級理論拆解:Z-score 假設常態分布且對每個特徵獨立計算,無法捕捉特徵間的交互異常。DBSCAN 在高維空間受維度詛咒影響嚴重(所有點距離趨近)。Isolation Forest 透過隨機切割隔離異常點,天然適合高維、無標籤、非線性異常場景。
選項坑洞掃描:A 說 Z-score 不受特徵數影響,Z-score 獨立看每個維度,無法偵測多維度交互產生的異常。C 說 DBSCAN 最適合,高維空間的距離計算讓 DBSCAN 的密度估計失效。D 說三種方法相同,三者的適用場景和效能差異顯著。
破題反射字:高維異常偵測 → Isolation Forest / 維度詛咒 → DBSCAN 的弱點 / 無標籤 → 非監督式方法
第 3 題
某電商平台對 200 萬用戶執行 K-Means 分群,用於個人化行銷策略設計。分析師發現 K 值設定困難,且結果中有一群用戶數量極少(只有 3 人)、另一群極大(包含 180 萬人)。資深資料科學家指出這代表 K-Means 在此資料集有根本性的限制。下列何者最能正確描述 K-Means 的核心假設限制,以及此情境的改善方向?
(A) K-Means 假設每個群集呈球形且大小相近,對非球形或大小懸殊的群集表現差;可用手肘法(Elbow Method)或輪廓分析(Silhouette Analysis)決定最適 K 值,或改用 DBSCAN 處理任意形狀的群集
(B) K-Means 的問題是初始質心隨機選擇導致結果不穩定,應固定隨機種子確保每次執行結果一致,群集大小懸殊是正常現象不需要改善
(C) K-Means 只適合二元分群(K=2),若需要超過兩個群集應改用階層式分群(Hierarchical Clustering),它能自動決定最適群集數量
(D) K-Means 的群集大小懸殊代表資料品質不良,應先刪除離群值並對所有特徵進行 PCA 降維至 2 維後再執行,降維後 K-Means 的假設一定能被滿足
答案:A
深度導讀解析
正確答案:A
核心技術點:K-Means 的球形等大假設限制與 K 值選擇工具
中級理論拆解:K-Means 以歐氏距離到質心最近分配群集,隱含假設每群呈球形且大小相近。180 萬 vs. 3 人的極度不均衡分布說明資料本身可能不符合此假設。手肘法看 inertia 下降速率,輪廓分析衡量群內緊密度與群間分離度,DBSCAN 無需預設 K 且能處理任意形狀。
選項坑洞掃描:B 說固定隨機種子就能解決,K-Means++ 改善初始化,但不解決球形等大假設問題。C 說 K-Means 只適合 K=2,K-Means 支援任意 K 值。D 說降維後假設一定滿足,降維不能保證資料符合球形分布。
破題反射字:K-Means → 球形等大假設 / 手肘法 / 輪廓分析 → K 值選擇 / DBSCAN → 任意形狀群集
第 4 題
某銀行使用時間序列分析預測未來三個月的日均存款餘額。歷史資料顯示明顯的年度季節性(每年 Q4 存款增加)和長期上升趨勢。分析師評估 ARIMA 與 Prophet 兩種模型。下列何者最能正確描述兩者在此情境的適用差異?
(A) ARIMA 只能處理平穩時間序列,需先通過差分消除趨勢和季節性再建模;Prophet 由 Meta 開發,內建趨勢、季節性、假期效應的分解組件,對業務人員更直觀且能處理缺失值,適合此情境
(B) Prophet 只能處理週期為 7 天的週季節性,年度季節性需要改用 SARIMA(季節性 ARIMA);ARIMA 能同時處理任意週期的趨勢和季節性
(C) 兩種模型效果完全相同,差異只在程式碼複雜度,應選擇工程師最熟悉的那一種,時間序列的季節性對兩種模型都沒有影響
(D) ARIMA 比 Prophet 更適合此情境,因為 ARIMA 是學術界主流方法,有嚴謹的理論基礎;Prophet 是工業界工具,缺乏統計理論支撐,預測結果不可靠
答案:A
深度導讀解析
正確答案:A
核心技術點:ARIMA 的平穩性要求與 Prophet 的組件分解設計
中級理論拆解:ARIMA(p,d,q) 的 d 參數透過差分讓序列平穩,但季節性 ARIMA(SARIMA)才能直接處理季節性。Prophet 將時間序列分解為趨勢(logistic/linear)+ 季節性(Fourier 展開)+ 假期效應,對年度週期的支援直觀且不需要平穩性前處理。
選項坑洞掃描:B 說 Prophet 只支援週季節性,Prophet 支援年度、週、日多重季節性疊加。C 說兩者效果相同,兩者的建模假設和對季節性的處理方式有根本差異。D 說 Prophet 缺乏理論基礎,Prophet 基於貝葉斯統計框架,有完整的理論支撐。
破題反射字:平穩性要求 → ARIMA 前提 / 趨勢 + 季節性 + 假期 → Prophet 分解組件 / 差分 → ARIMA 消除趨勢的方式
第 5 題
某醫療研究機構對 10,000 名患者使用階層式分群(Hierarchical Clustering)分析疾病亞型,選用凝聚式(Agglomerative)方法,並需決定連結標準(Linkage)。研究員發現完整連結(Complete Linkage)和單一連結(Single Linkage)產生截然不同的結果。下列何者最能正確描述兩種連結標準的差異,以及哪種更適合醫療亞型分析?
(A) 完整連結計算兩群集中最遠點對的距離,傾向產生大小相近的緊密球形群集;單一連結計算最近點對距離,容易產生鏈狀不均衡群集;醫療亞型分析需要明確邊界的緊密群集,完整連結通常更合適
(B) 完整連結和單一連結的差異只在計算速度,完整連結因計算最遠點對而較慢;兩者對群集形狀和大小的影響完全相同,選擇時應以計算效率為主
(C) 單一連結在醫療亞型分析中永遠優於完整連結,因為單一連結對雜訊和離群值不敏感,能更穩健地識別真實的疾病亞型
(D) 完整連結適合類別型特徵,單一連結適合數值型特徵;醫療資料通常混合兩種特徵類型,應使用沃德連結(Ward Linkage)作為折衷方案
答案:A
深度導讀解析
正確答案:A
核心技術點:Complete vs. Single Linkage 的距離計算差異與群集形狀傾向
中級理論拆解:Complete Linkage 用兩群最遠點對距離合併,產生緊密球形群集,對離群值較不敏感。Single Linkage 用最近點對距離,容易讓鏈狀延伸的群集一路連接,產生長條形不均衡群集(鏈式效應)。醫療亞型需要邊界清晰的群集,Complete Linkage 更適合。
選項坑洞掃描:B 說差異只在計算速度,兩者對群集形狀和大小有根本不同的影響。C 說 Single Linkage 對離群值不敏感,Single Linkage 恰恰對離群值敏感——一個噪音點能把兩個遠群連接起來。D 說依特徵類型選擇,連結標準的選擇依據是期望的群集形狀,不是特徵類型。
破題反射字:Complete Linkage → 最遠點距離、緊密球形 / Single Linkage → 最近點距離、鏈式效應 / 醫療亞型 → Complete Linkage 更合適
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記