建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某電商平台開發新版推薦演算法,希望透過 A/B 測試驗證新演算法是否能顯著提升用戶點擊率。資料科學家設計假設檢定框架,將 50,000 名用戶隨機分配至對照組(舊演算法)與實驗組(新演算法),觀察期兩週。在設定虛無假設與對立假設時,下列何者最能正確描述兩者的標準設定邏輯,以及為何虛無假設必須代表「無差異」?
(A) 虛無假設應設為「新演算法點擊率顯著高於舊演算法」,對立假設為「兩者無顯著差異」;這樣設定讓統計檢定從預期結果出發,減少需要收集的樣本量
(B) 虛無假設應設為「新舊演算法點擊率無顯著差異」,對立假設為「新演算法點擊率顯著高於舊演算法」;虛無假設代表現狀不變的保守立場,統計推論的目的是收集足夠證據拒絕它
(C) 虛無假設與對立假設的設定方向不影響統計結論,只要顯著水準 α 設定一致,兩種設定方式在最終的 p-value 計算上會得到相同結果
(D) 虛無假設應設為「新舊演算法點擊率顯著不同」,對立假設為「兩者點擊率相同」;這樣的雙尾設定能同時檢定新演算法比舊演算法好或壞兩種可能性
答案:B
深度導讀解析
正確答案:B
核心技術點:假設檢定的虛無假設設定邏輯與統計推論的保守立場
中級理論拆解:假設檢定的邏輯是「反證法」——假設現狀沒有改變(H0:無差異),然後看收集到的資料是否提供足夠強的證據推翻這個假設。虛無假設代表「預設立場」,對立假設是我們想要證明的主張。若 p-value < α(通常 0.05),代表在 H0 為真的前提下觀察到這種資料的機率極低,拒絕 H0,接受 H1。這個框架讓決策有明確的錯誤率控制。
選項坑洞掃描:A 把兩者互換,若 H0 直接設為「有效果」,拒絕 H0 反而代表「沒效果」,邏輯完全倒置。C 說設定方向不影響結論,H0 和 H1 互換會根本改變 p-value 的計算方向,結論完全不同。D 說 H0 設為「顯著不同」,這把有差異設為預設假設,違背假設檢定的保守邏輯。
破題反射字:H0 = 無差異 → 統計保守立場 / p-value < α → 拒絕 H0 / 對立假設 → 需要證據支持的主張
第 2 題
某 AI 團隊訓練信用卡詐欺偵測模型,在模型選擇階段使用統計假設檢定比較新舊模型的 AUC 差異。統計結果顯示 p-value = 0.003,顯著水準設定為 α = 0.05。資深資料科學家要求初級工程師解釋這個 p-value 的正確含義,以及對應的決策。下列何者最能正確描述?
(A) p-value = 0.003 代表新模型的準確率是舊模型的 0.003 倍,數值極小說明新模型幾乎沒有改善效果,不應採用新模型
(B) p-value = 0.003 代表第一型錯誤(α 錯誤)的發生機率為 0.3%,遠低於設定的 5% 門檻,因此本次檢定完全不可能做出錯誤決策
(C) p-value = 0.003 代表在虛無假設(兩模型 AUC 無差異)為真的前提下,觀察到目前資料或更極端結果的機率只有 0.3%;因 p-value < α,有足夠證據拒絕虛無假設,支持兩模型存在顯著差異
(D) p-value = 0.003 代表新模型優於舊模型的機率為 99.7%,可以直接解讀為新模型有 99.7% 的把握比舊模型好,建議立即部署新模型
答案:C
深度導讀解析
正確答案:C
核心技術點:p-value 的正確定義與常見誤解
中級理論拆解:p-value 是在虛無假設為真的條件下,觀察到當前樣本結果或比它更極端結果的機率。p = 0.003 代表若新舊模型真的沒有差異,隨機抽樣得到這麼大 AUC 差距的機率只有 0.3%,非常罕見,因此拒絕 H0。p-value 不代表「模型有多好」、不代表「犯錯機率」、也不代表「H1 為真的機率」,這三個是考試和實務中最常見的誤解。
選項坑洞掃描:A 把 p-value 解讀為模型準確率比值,p-value 和模型準確率是完全不同的概念,沒有任何數學關係。B 說 p-value 等於第一型錯誤發生機率,α 是我們事先設定的第一型錯誤容忍上限,p-value 是計算得到的結果,兩者不相等。D 說 p-value 代表新模型更好的機率,這是最常見的誤解,p-value 是在 H0 為真前提下的條件機率,不是 H1 為真的後驗機率。
破題反射字:p-value → H0 為真時觀察到此資料的機率 / p < α → 拒絕 H0 / p-value ≠ 犯錯機率 → 最常見誤解
第 3 題
某零售集團行銷團隊設計了三種促銷方案(折扣券、買一送一、積點加倍),分別在三個月期間輪流對不同門市實施,最終收集到三組銷售額資料。行銷主管希望統計判斷三種方案的平均銷售額是否有顯著差異,以決定哪種方案最值得全面推廣。AI 規劃師建議使用 ANOVA,而非兩兩進行 t 檢定。下列何者最能正確說明選用 ANOVA 的理由?
(A) ANOVA 比 t 檢定的計算速度快,在大資料集上能顯著縮短統計分析時間,三組以上比較時 ANOVA 的運算效率遠優於多次 t 檢定
(B) ANOVA 是唯一能處理非常態分布資料的統計檢定方法,當銷售額資料不符合常態分布時只能使用 ANOVA,t 檢定和 z 檢定都要求資料必須嚴格服從常態分布
(C) 多次 t 檢定會累積型一錯誤率(家族錯誤率膨脹)——三組兩兩比較需三次 t 檢定,若各次 α = 0.05,整體犯錯機率高於 0.05;ANOVA 在單一檢定框架下同時比較三組均值,維持整體型一錯誤率不超過 α
(D) ANOVA 能直接告訴我們哪兩組之間有顯著差異,而 t 檢定只能判斷兩組是否不同,無法識別差異來源,因此三組以上比較時 ANOVA 是更完整的分析工具
答案:C
深度導讀解析
正確答案:C
核心技術點:多重比較問題(Multiple Comparison Problem)與 ANOVA 維持家族錯誤率的設計邏輯
中級理論拆解:若對三組資料兩兩進行 t 檢定(A vs. B、A vs. C、B vs. C),各次α = 0.05,整體至少犯一次型一錯誤的機率為 1 - (1-0.05)³ ≈ 0.143,遠高於 0.05,這就是家族錯誤率(Family-wise Error Rate, FWER)膨脹問題。ANOVA 在單一 F 統計量下同時檢定「所有組均值是否相等」,只做一次檢定,整體型一錯誤率維持在 α。若 ANOVA 拒絕 H0,再用 Tukey HSD 等事後檢定(Post-hoc Test)識別哪兩組有差異。
選項坑洞掃描:A 說 ANOVA 速度更快,計算速度不是選用 ANOVA 的主要理由,三次 t 檢定的計算量也不大。B 說 ANOVA 是唯一處理非常態資料的方法,Kruskal-Wallis 才是 ANOVA 的無母數替代方案,ANOVA 本身同樣假設資料服從常態分布。D 說 ANOVA 能直接識別哪兩組有差異,這是錯誤的,ANOVA 只判斷「是否有至少一組不同」,事後多重比較才能識別具體差異對。
破題反射字:多重比較 → 型一錯誤率累積 / ANOVA → 單一 F 檢定維持 FWER / Post-hoc 檢定 → ANOVA 顯著後才做
第 4 題
某醫療 AI 公司開發早期敗血症預警模型,在臨床驗證階段使用假設檢定評估模型效能。若虛無假設 H0 為「新模型與傳統評分工具偵測效能無顯著差異」,下列情境各對應何種錯誤類型,以及在醫療場景中哪種錯誤的代價更高?
(A) 新模型實際上有效但統計未達顯著(未拒絕 H0)→ 型一錯誤;新模型實際無效但統計達顯著(錯誤拒絕 H0)→ 型二錯誤;在醫療場景中型一錯誤代價更高因為會部署無效模型
(B) 新模型實際無效但統計達顯著(錯誤拒絕 H0)→ 型一錯誤,代價是部署無效模型可能誤導臨床決策;新模型實際有效但統計未達顯著(未拒絕 H0)→ 型二錯誤,代價是錯失有效工具;兩種錯誤的相對代價需依臨床情境判斷
(C) 型一錯誤與型二錯誤在醫療場景中代價完全相同,統計學上兩種錯誤沒有優先考量之分,應同等降低兩者發生的機率至接近零
(D) 假設檢定只存在型一錯誤,型二錯誤是統計學的理論概念在實務中不會真正發生,醫療 AI 只需控制顯著水準 α 就能完整管理所有統計風險
答案:B
深度導讀解析
正確答案:B
核心技術點:型一錯誤(α)與型二錯誤(β)的定義差異,以及兩者在高風險場景的相對代價判斷
中級理論拆解:型一錯誤(False Positive)是 H0 為真時錯誤拒絕它,即實際無效的模型被判定有效;型二錯誤(False Negative)是 H0 為假時未能拒絕它,即實際有效的模型被判定無效。在敗血症預警的醫療場景,型一錯誤導致部署無效模型可能讓臨床醫師過度依賴錯誤預測;型二錯誤導致錯失有效工具讓患者繼續暴露在風險中。兩種錯誤都有嚴重代價,實際決策需結合樣本量、統計檢力(Power = 1 - β)與臨床重要性共同考量。
選項坑洞掃描:A 把兩種錯誤類型完全對調,型一錯誤是錯誤拒絕真實的 H0(不是未拒絕),型二錯誤是未能拒絕錯誤的 H0(不是錯誤拒絕),定義完全相反。C 說兩種錯誤代價完全相同,在多數實務場景中兩者代價並不對等,醫療場景尤其需要具體分析哪種錯誤後果更嚴重。D 說型二錯誤在實務中不存在,型二錯誤在樣本量不足或效果量小時非常常見,是統計分析的真實風險。
破題反射字:型一錯誤 → 錯誤拒絕真實 H0 / 型二錯誤 → 未能拒絕錯誤 H0 / 統計檢力 Power = 1 - β → 型二錯誤的補數
第 5 題
某製造業公司的品管工程師收集了生產線上 1,200 個產品的重量資料,想驗證這批產品的重量是否符合常態分布,以便後續使用依賴常態假設的統計製程管控(SPC)工具。樣本量為 1,200 筆,工程師評估 Shapiro-Wilk 與 Kolmogorov-Smirnov(K-S)兩種常態性檢定。下列何者最能正確描述兩種方法在此情境下的適用性差異?
(A) Shapiro-Wilk 檢定在樣本量超過 50 筆後就完全失效,只適合極小樣本(n < 30)的常態性檢定;1,200 筆資料應優先使用 K-S 檢定,K-S 不受樣本量大小限制
(B) 兩種方法在任何樣本量下效果完全相同,差異只在計算公式的複雜度,應選擇工程師熟悉的那一種,統計結論不會有任何差異
(C) Shapiro-Wilk 在中小樣本(通常 n < 5,000)時檢定力優於 K-S,是這個情境的合理選擇;但 1,200 筆已是相對大樣本,高檢定力可能讓微小但無實務意義的偏差也達到顯著,應結合 Q-Q 圖目視判斷常態性
(D) K-S 檢定的 p-value 永遠大於 Shapiro-Wilk,因此在需要較嚴格顯著水準的品管場景中應優先使用 K-S,確保只有高確信度的常態性才會被接受
答案:C
深度導讀解析
正確答案:C
核心技術點:Shapiro-Wilk vs. K-S 的檢定力比較,以及大樣本下統計顯著性與實務意義的差距
中級理論拆解:Shapiro-Wilk 在中小樣本(n < 5,000)的常態性檢定中通常具有更高的檢定力(Power),能更敏銳地偵測到非常態性,因此比 K-S 更常被推薦用於此範圍。然而本題有個微妙之處:1,200 筆已是相當大的樣本,高檢定力讓 Shapiro-Wilk 對非常微小的偏離常態也會輸出顯著的 p-value,但這種偏差在實務的 SPC 應用中可能完全無礙。因此大樣本下統計顯著性不等於實務顯著性,建議搭配 Q-Q 圖(Quantile-Quantile Plot)目視判斷,兩者結合才是完整的常態性評估。
選項坑洞掃描:A 說 Shapiro-Wilk 在 n > 50 後失效,Shapiro-Wilk 在 n < 5,000 的範圍內都有良好的檢定力,並非 n > 50 就失效。B 說兩種方法完全相同,兩者的統計量計算方式不同,在特定樣本量下的檢定力也有差異,結論可能不同。D 說 K-S 的 p-value 永遠大於 Shapiro-Wilk,這個說法沒有理論依據,兩者的 p-value 沒有固定大小關係。
破題反射字:Shapiro-Wilk → 中小樣本常態性檢定 / 大樣本顯著 ≠ 實務顯著 → 統計與實務意義的差距 / Q-Q 圖 → 目視輔助判斷常態性
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記

















