【L22103】假設檢定與統計推論｜p-value、型一型二錯誤、A/B 測試、ANOVA 模擬考題

2026/04/01 更新2025/10/26 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某電商平台開發新版推薦演算法，希望透過 A/B 測試驗證新演算法是否能顯著提升用戶點擊率。資料科學家設計假設檢定框架，將 50,000 名用戶隨機分配至對照組（舊演算法）與實驗組（新演算法），觀察期兩週。在設定虛無假設與對立假設時，下列何者最能正確描述兩者的標準設定邏輯，以及為何虛無假設必須代表「無差異」？

(A) 虛無假設應設為「新演算法點擊率顯著高於舊演算法」，對立假設為「兩者無顯著差異」；這樣設定讓統計檢定從預期結果出發，減少需要收集的樣本量

(B) 虛無假設應設為「新舊演算法點擊率無顯著差異」，對立假設為「新演算法點擊率顯著高於舊演算法」；虛無假設代表現狀不變的保守立場，統計推論的目的是收集足夠證據拒絕它

(D) 虛無假設應設為「新舊演算法點擊率顯著不同」，對立假設為「兩者點擊率相同」；這樣的雙尾設定能同時檢定新演算法比舊演算法好或壞兩種可能性

答案：B

深度導讀解析

正確答案：B

核心技術點：假設檢定的虛無假設設定邏輯與統計推論的保守立場

中級理論拆解：假設檢定的邏輯是「反證法」——假設現狀沒有改變（H0：無差異），然後看收集到的資料是否提供足夠強的證據推翻這個假設。虛無假設代表「預設立場」，對立假設是我們想要證明的主張。若 p-value < α（通常 0.05），代表在 H0 為真的前提下觀察到這種資料的機率極低，拒絕 H0，接受 H1。這個框架讓決策有明確的錯誤率控制。

選項坑洞掃描：A 把兩者互換，若 H0 直接設為「有效果」，拒絕 H0 反而代表「沒效果」，邏輯完全倒置。C 說設定方向不影響結論，H0 和 H1 互換會根本改變 p-value 的計算方向，結論完全不同。D 說 H0 設為「顯著不同」，這把有差異設為預設假設，違背假設檢定的保守邏輯。

破題反射字：H0 = 無差異 → 統計保守立場／ p-value < α → 拒絕 H0 ／對立假設 → 需要證據支持的主張

第 2 題

某 AI 團隊訓練信用卡詐欺偵測模型，在模型選擇階段使用統計假設檢定比較新舊模型的 AUC 差異。統計結果顯示 p-value = 0.003，顯著水準設定為 α = 0.05。資深資料科學家要求初級工程師解釋這個 p-value 的正確含義，以及對應的決策。下列何者最能正確描述？

(A) p-value = 0.003 代表新模型的準確率是舊模型的 0.003 倍，數值極小說明新模型幾乎沒有改善效果，不應採用新模型

(B) p-value = 0.003 代表第一型錯誤（α 錯誤）的發生機率為 0.3%，遠低於設定的 5% 門檻，因此本次檢定完全不可能做出錯誤決策

(D) p-value = 0.003 代表新模型優於舊模型的機率為 99.7%，可以直接解讀為新模型有 99.7% 的把握比舊模型好，建議立即部署新模型

答案：C

深度導讀解析

正確答案：C

核心技術點：p-value 的正確定義與常見誤解

中級理論拆解：p-value 是在虛無假設為真的條件下，觀察到當前樣本結果或比它更極端結果的機率。p = 0.003 代表若新舊模型真的沒有差異，隨機抽樣得到這麼大 AUC 差距的機率只有 0.3%，非常罕見，因此拒絕 H0。p-value 不代表「模型有多好」、不代表「犯錯機率」、也不代表「H1 為真的機率」，這三個是考試和實務中最常見的誤解。

選項坑洞掃描：A 把 p-value 解讀為模型準確率比值，p-value 和模型準確率是完全不同的概念，沒有任何數學關係。B 說 p-value 等於第一型錯誤發生機率，α 是我們事先設定的第一型錯誤容忍上限，p-value 是計算得到的結果，兩者不相等。D 說 p-value 代表新模型更好的機率，這是最常見的誤解，p-value 是在 H0 為真前提下的條件機率，不是 H1 為真的後驗機率。

破題反射字：p-value → H0 為真時觀察到此資料的機率／ p < α → 拒絕 H0 ／ p-value ≠ 犯錯機率 → 最常見誤解

第 3 題

某零售集團行銷團隊設計了三種促銷方案（折扣券、買一送一、積點加倍），分別在三個月期間輪流對不同門市實施，最終收集到三組銷售額資料。行銷主管希望統計判斷三種方案的平均銷售額是否有顯著差異，以決定哪種方案最值得全面推廣。AI 規劃師建議使用 ANOVA，而非兩兩進行 t 檢定。下列何者最能正確說明選用 ANOVA 的理由？

(A) ANOVA 比 t 檢定的計算速度快，在大資料集上能顯著縮短統計分析時間，三組以上比較時 ANOVA 的運算效率遠優於多次 t 檢定

(B) ANOVA 是唯一能處理非常態分布資料的統計檢定方法，當銷售額資料不符合常態分布時只能使用 ANOVA，t 檢定和 z 檢定都要求資料必須嚴格服從常態分布

(D) ANOVA 能直接告訴我們哪兩組之間有顯著差異，而 t 檢定只能判斷兩組是否不同，無法識別差異來源，因此三組以上比較時 ANOVA 是更完整的分析工具

答案：C

深度導讀解析

正確答案：C

核心技術點：多重比較問題（Multiple Comparison Problem）與 ANOVA 維持家族錯誤率的設計邏輯

中級理論拆解：若對三組資料兩兩進行 t 檢定（A vs. B、A vs. C、B vs. C），各次α = 0.05，整體至少犯一次型一錯誤的機率為 1 - (1-0.05)³ ≈ 0.143，遠高於 0.05，這就是家族錯誤率（Family-wise Error Rate, FWER）膨脹問題。ANOVA 在單一 F 統計量下同時檢定「所有組均值是否相等」，只做一次檢定，整體型一錯誤率維持在 α。若 ANOVA 拒絕 H0，再用 Tukey HSD 等事後檢定（Post-hoc Test）識別哪兩組有差異。

選項坑洞掃描：A 說 ANOVA 速度更快，計算速度不是選用 ANOVA 的主要理由，三次 t 檢定的計算量也不大。B 說 ANOVA 是唯一處理非常態資料的方法，Kruskal-Wallis 才是 ANOVA 的無母數替代方案，ANOVA 本身同樣假設資料服從常態分布。D 說 ANOVA 能直接識別哪兩組有差異，這是錯誤的，ANOVA 只判斷「是否有至少一組不同」，事後多重比較才能識別具體差異對。

破題反射字：多重比較 → 型一錯誤率累積／ ANOVA → 單一 F 檢定維持 FWER ／ Post-hoc 檢定 → ANOVA 顯著後才做

第 4 題

某醫療 AI 公司開發早期敗血症預警模型，在臨床驗證階段使用假設檢定評估模型效能。若虛無假設 H0 為「新模型與傳統評分工具偵測效能無顯著差異」，下列情境各對應何種錯誤類型，以及在醫療場景中哪種錯誤的代價更高？

(A) 新模型實際上有效但統計未達顯著（未拒絕 H0）→ 型一錯誤；新模型實際無效但統計達顯著（錯誤拒絕 H0）→ 型二錯誤；在醫療場景中型一錯誤代價更高因為會部署無效模型

(B) 新模型實際無效但統計達顯著（錯誤拒絕 H0）→ 型一錯誤，代價是部署無效模型可能誤導臨床決策；新模型實際有效但統計未達顯著（未拒絕 H0）→ 型二錯誤，代價是錯失有效工具；兩種錯誤的相對代價需依臨床情境判斷

(D) 假設檢定只存在型一錯誤，型二錯誤是統計學的理論概念在實務中不會真正發生，醫療 AI 只需控制顯著水準 α 就能完整管理所有統計風險

答案：B

深度導讀解析

正確答案：B

核心技術點：型一錯誤（α）與型二錯誤（β）的定義差異，以及兩者在高風險場景的相對代價判斷

中級理論拆解：型一錯誤（False Positive）是 H0 為真時錯誤拒絕它，即實際無效的模型被判定有效；型二錯誤（False Negative）是 H0 為假時未能拒絕它，即實際有效的模型被判定無效。在敗血症預警的醫療場景，型一錯誤導致部署無效模型可能讓臨床醫師過度依賴錯誤預測；型二錯誤導致錯失有效工具讓患者繼續暴露在風險中。兩種錯誤都有嚴重代價，實際決策需結合樣本量、統計檢力（Power = 1 - β）與臨床重要性共同考量。

選項坑洞掃描：A 把兩種錯誤類型完全對調，型一錯誤是錯誤拒絕真實的 H0（不是未拒絕），型二錯誤是未能拒絕錯誤的 H0（不是錯誤拒絕），定義完全相反。C 說兩種錯誤代價完全相同，在多數實務場景中兩者代價並不對等，醫療場景尤其需要具體分析哪種錯誤後果更嚴重。D 說型二錯誤在實務中不存在，型二錯誤在樣本量不足或效果量小時非常常見，是統計分析的真實風險。

破題反射字：型一錯誤 → 錯誤拒絕真實 H0 ／型二錯誤 → 未能拒絕錯誤 H0 ／統計檢力 Power = 1 - β → 型二錯誤的補數

第 5 題

某製造業公司的品管工程師收集了生產線上 1,200 個產品的重量資料，想驗證這批產品的重量是否符合常態分布，以便後續使用依賴常態假設的統計製程管控（SPC）工具。樣本量為 1,200 筆，工程師評估 Shapiro-Wilk 與 Kolmogorov-Smirnov（K-S）兩種常態性檢定。下列何者最能正確描述兩種方法在此情境下的適用性差異？

(A) Shapiro-Wilk 檢定在樣本量超過 50 筆後就完全失效，只適合極小樣本（n < 30）的常態性檢定；1,200 筆資料應優先使用 K-S 檢定，K-S 不受樣本量大小限制

(B) 兩種方法在任何樣本量下效果完全相同，差異只在計算公式的複雜度，應選擇工程師熟悉的那一種，統計結論不會有任何差異

(D) K-S 檢定的 p-value 永遠大於 Shapiro-Wilk，因此在需要較嚴格顯著水準的品管場景中應優先使用 K-S，確保只有高確信度的常態性才會被接受

答案：C

深度導讀解析

正確答案：C

核心技術點：Shapiro-Wilk vs. K-S 的檢定力比較，以及大樣本下統計顯著性與實務意義的差距

中級理論拆解：Shapiro-Wilk 在中小樣本（n < 5,000）的常態性檢定中通常具有更高的檢定力（Power），能更敏銳地偵測到非常態性，因此比 K-S 更常被推薦用於此範圍。然而本題有個微妙之處：1,200 筆已是相當大的樣本，高檢定力讓 Shapiro-Wilk 對非常微小的偏離常態也會輸出顯著的 p-value，但這種偏差在實務的 SPC 應用中可能完全無礙。因此大樣本下統計顯著性不等於實務顯著性，建議搭配 Q-Q 圖（Quantile-Quantile Plot）目視判斷，兩者結合才是完整的常態性評估。

選項坑洞掃描：A 說 Shapiro-Wilk 在 n > 50 後失效，Shapiro-Wilk 在 n < 5,000 的範圍內都有良好的檢定力，並非 n > 50 就失效。B 說兩種方法完全相同，兩者的統計量計算方式不同，在特定樣本量下的檢定力也有差異，結論可能不同。D 說 K-S 的 p-value 永遠大於 Shapiro-Wilk，這個說法沒有理論依據，兩者的 p-value 沒有固定大小關係。

破題反射字：Shapiro-Wilk → 中小樣本常態性檢定／大樣本顯著 ≠ 實務顯著 → 統計與實務意義的差距／ Q-Q 圖 → 目視輔助判斷常態性

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

iPAS自學路｜AI應用規劃師備考筆記與考點解析模擬題庫 & 詳解

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

373會員

98內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

iPAS自學路｜AI應用規劃師備考筆記與考點解析的其他內容

2025/10/25

[機率與資料分布1] 模擬考題

問題 1 (中級) ------------------------------ 題目: 一家AI新創公司正在開發一個模型，旨在預測客戶在收到促銷郵件後是否會點擊連結。若要對單一客戶的點擊行為進行建模，下列哪一種機率分佈最為適合？選項: A) 泊松分佈 B) 二項分佈 C) 伯努利分佈

2025/10/25

[機率與資料分布1] 模擬考題

2025/10/24

【L21301】數據準備與模型選擇｜資料分割、基準模型、模型評估策略、部署前驗證模擬考題

問題 1 (中級) ------------------------------ 題目: 在預測房屋價格的AI專案中，若特別關注模型對於高價位房屋的預測誤差，且希望對較大的誤差給予更高的懲罰，下列哪一個迴歸評估指標會是最佳選擇？選項: A) MAE (Mean Absolute Error

2025/10/24

【L21301】數據準備與模型選擇｜資料分割、基準模型、模型評估策略、部署前驗證模擬考題

2025/10/23

【L21301】數據準備與模型選擇｜特徵工程、資料品質、模型選型策略模擬考題

建議先看過教學課程影片，效果加倍 https://vocus.cc/article/68f5d58efd89780001a0dca7

2025/10/23

【L21301】數據準備與模型選擇｜特徵工程、資料品質、模型選型策略模擬考題

建議先看過教學課程影片，效果加倍 https://vocus.cc/article/68f5d58efd89780001a0dca7

看更多

你可能也想看

小黑與程式的邂逅

[Docker]介紹

Docker是由GO語言實現，是一個在GitHub上開發原始碼的專案。它的目標是實現羽量級的作業系統虛擬化。讓使用者操作Docker，就像是操作一個羽量級的虛擬機器。優勢快速發表和部署高效的部署和擴充資源使用率高管理簡單核心 Image映像檔 Docker

2024/05/11

2024/05/11

Docker 之 Dockerfile、Docker Image、Docker Container 概念解說

前言上次我們初步體驗 Docker 快速佈署能力，今天我們要來講解 Dockerfile、Docker Image 與 Docker Container 這些常見的名詞，我們來了解在我們佈署的時候做哪些事情 Docker 佈署流程首先看到如下圖上半部，在我們一個完整的佈署流程，我們會先將我

#Docker#Dockerfile#DockerImage

2024/01/18

Tim Bai的沙龍

Docker 之 Dockerfile、Docker Image、Docker Container 概念解說

#Docker#Dockerfile#DockerImage

2024/01/18

阿Han的沙龍

【🔒 Message Queue - Kafka】不斷的試誤…, 用Docker來嘗試安裝Kafka

為什麼要用Docker安裝？ Docker是一個容器化平台, 就類似於我們早期虛擬機的VMWare、Virtual Box…等, 虛擬機平台一般, 只是面向的是伺服端, 供企業快速、簡單、輕量的佈署開發完成的程式軟體, 並將相關的環境依賴皆封裝成一包所謂的映像檔(image), 透過這樣的方式減少

#Kafka#MessageQueue#MQ

2024/05/30

阿Han的沙龍

【🔒 Message Queue - Kafka】不斷的試誤…, 用Docker來嘗試安裝Kafka

#Kafka#MessageQueue#MQ

2024/05/30

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11