【L22103】假設檢定與統計推論|p-value、型一型二錯誤、A/B 測試、ANOVA 模擬考題

更新 發佈閱讀 14 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某電商平台開發新版推薦演算法,希望透過 A/B 測試驗證新演算法是否能顯著提升用戶點擊率。資料科學家設計假設檢定框架,將 50,000 名用戶隨機分配至對照組(舊演算法)與實驗組(新演算法),觀察期兩週。在設定虛無假設與對立假設時,下列何者最能正確描述兩者的標準設定邏輯,以及為何虛無假設必須代表「無差異」?

(A) 虛無假設應設為「新演算法點擊率顯著高於舊演算法」,對立假設為「兩者無顯著差異」;這樣設定讓統計檢定從預期結果出發,減少需要收集的樣本量

(B) 虛無假設應設為「新舊演算法點擊率無顯著差異」,對立假設為「新演算法點擊率顯著高於舊演算法」;虛無假設代表現狀不變的保守立場,統計推論的目的是收集足夠證據拒絕它

(C) 虛無假設與對立假設的設定方向不影響統計結論,只要顯著水準 α 設定一致,兩種設定方式在最終的 p-value 計算上會得到相同結果

(D) 虛無假設應設為「新舊演算法點擊率顯著不同」,對立假設為「兩者點擊率相同」;這樣的雙尾設定能同時檢定新演算法比舊演算法好或壞兩種可能性

答案:B

深度導讀解析

正確答案:B

核心技術點:假設檢定的虛無假設設定邏輯與統計推論的保守立場

中級理論拆解:假設檢定的邏輯是「反證法」——假設現狀沒有改變(H0:無差異),然後看收集到的資料是否提供足夠強的證據推翻這個假設。虛無假設代表「預設立場」,對立假設是我們想要證明的主張。若 p-value < α(通常 0.05),代表在 H0 為真的前提下觀察到這種資料的機率極低,拒絕 H0,接受 H1。這個框架讓決策有明確的錯誤率控制。

選項坑洞掃描:A 把兩者互換,若 H0 直接設為「有效果」,拒絕 H0 反而代表「沒效果」,邏輯完全倒置。C 說設定方向不影響結論,H0 和 H1 互換會根本改變 p-value 的計算方向,結論完全不同。D 說 H0 設為「顯著不同」,這把有差異設為預設假設,違背假設檢定的保守邏輯。

破題反射字:H0 = 無差異 → 統計保守立場 / p-value < α → 拒絕 H0 / 對立假設 → 需要證據支持的主張


第 2 題

某 AI 團隊訓練信用卡詐欺偵測模型,在模型選擇階段使用統計假設檢定比較新舊模型的 AUC 差異。統計結果顯示 p-value = 0.003,顯著水準設定為 α = 0.05。資深資料科學家要求初級工程師解釋這個 p-value 的正確含義,以及對應的決策。下列何者最能正確描述?

(A) p-value = 0.003 代表新模型的準確率是舊模型的 0.003 倍,數值極小說明新模型幾乎沒有改善效果,不應採用新模型

(B) p-value = 0.003 代表第一型錯誤(α 錯誤)的發生機率為 0.3%,遠低於設定的 5% 門檻,因此本次檢定完全不可能做出錯誤決策

(C) p-value = 0.003 代表在虛無假設(兩模型 AUC 無差異)為真的前提下,觀察到目前資料或更極端結果的機率只有 0.3%;因 p-value < α,有足夠證據拒絕虛無假設,支持兩模型存在顯著差異

(D) p-value = 0.003 代表新模型優於舊模型的機率為 99.7%,可以直接解讀為新模型有 99.7% 的把握比舊模型好,建議立即部署新模型

答案:C

深度導讀解析

正確答案:C

核心技術點:p-value 的正確定義與常見誤解

中級理論拆解:p-value 是在虛無假設為真的條件下,觀察到當前樣本結果或比它更極端結果的機率。p = 0.003 代表若新舊模型真的沒有差異,隨機抽樣得到這麼大 AUC 差距的機率只有 0.3%,非常罕見,因此拒絕 H0。p-value 不代表「模型有多好」、不代表「犯錯機率」、也不代表「H1 為真的機率」,這三個是考試和實務中最常見的誤解。

選項坑洞掃描:A 把 p-value 解讀為模型準確率比值,p-value 和模型準確率是完全不同的概念,沒有任何數學關係。B 說 p-value 等於第一型錯誤發生機率,α 是我們事先設定的第一型錯誤容忍上限,p-value 是計算得到的結果,兩者不相等。D 說 p-value 代表新模型更好的機率,這是最常見的誤解,p-value 是在 H0 為真前提下的條件機率,不是 H1 為真的後驗機率。

破題反射字:p-value → H0 為真時觀察到此資料的機率 / p < α → 拒絕 H0 / p-value ≠ 犯錯機率 → 最常見誤解


第 3 題

某零售集團行銷團隊設計了三種促銷方案(折扣券、買一送一、積點加倍),分別在三個月期間輪流對不同門市實施,最終收集到三組銷售額資料。行銷主管希望統計判斷三種方案的平均銷售額是否有顯著差異,以決定哪種方案最值得全面推廣。AI 規劃師建議使用 ANOVA,而非兩兩進行 t 檢定。下列何者最能正確說明選用 ANOVA 的理由?

(A) ANOVA 比 t 檢定的計算速度快,在大資料集上能顯著縮短統計分析時間,三組以上比較時 ANOVA 的運算效率遠優於多次 t 檢定

(B) ANOVA 是唯一能處理非常態分布資料的統計檢定方法,當銷售額資料不符合常態分布時只能使用 ANOVA,t 檢定和 z 檢定都要求資料必須嚴格服從常態分布

(C) 多次 t 檢定會累積型一錯誤率(家族錯誤率膨脹)——三組兩兩比較需三次 t 檢定,若各次 α = 0.05,整體犯錯機率高於 0.05;ANOVA 在單一檢定框架下同時比較三組均值,維持整體型一錯誤率不超過 α

(D) ANOVA 能直接告訴我們哪兩組之間有顯著差異,而 t 檢定只能判斷兩組是否不同,無法識別差異來源,因此三組以上比較時 ANOVA 是更完整的分析工具

答案:C

深度導讀解析

正確答案:C

核心技術點:多重比較問題(Multiple Comparison Problem)與 ANOVA 維持家族錯誤率的設計邏輯

中級理論拆解:若對三組資料兩兩進行 t 檢定(A vs. B、A vs. C、B vs. C),各次α = 0.05,整體至少犯一次型一錯誤的機率為 1 - (1-0.05)³ ≈ 0.143,遠高於 0.05,這就是家族錯誤率(Family-wise Error Rate, FWER)膨脹問題。ANOVA 在單一 F 統計量下同時檢定「所有組均值是否相等」,只做一次檢定,整體型一錯誤率維持在 α。若 ANOVA 拒絕 H0,再用 Tukey HSD 等事後檢定(Post-hoc Test)識別哪兩組有差異。

選項坑洞掃描:A 說 ANOVA 速度更快,計算速度不是選用 ANOVA 的主要理由,三次 t 檢定的計算量也不大。B 說 ANOVA 是唯一處理非常態資料的方法,Kruskal-Wallis 才是 ANOVA 的無母數替代方案,ANOVA 本身同樣假設資料服從常態分布。D 說 ANOVA 能直接識別哪兩組有差異,這是錯誤的,ANOVA 只判斷「是否有至少一組不同」,事後多重比較才能識別具體差異對。

破題反射字:多重比較 → 型一錯誤率累積 / ANOVA → 單一 F 檢定維持 FWER / Post-hoc 檢定 → ANOVA 顯著後才做


第 4 題

某醫療 AI 公司開發早期敗血症預警模型,在臨床驗證階段使用假設檢定評估模型效能。若虛無假設 H0 為「新模型與傳統評分工具偵測效能無顯著差異」,下列情境各對應何種錯誤類型,以及在醫療場景中哪種錯誤的代價更高?

(A) 新模型實際上有效但統計未達顯著(未拒絕 H0)→ 型一錯誤;新模型實際無效但統計達顯著(錯誤拒絕 H0)→ 型二錯誤;在醫療場景中型一錯誤代價更高因為會部署無效模型

(B) 新模型實際無效但統計達顯著(錯誤拒絕 H0)→ 型一錯誤,代價是部署無效模型可能誤導臨床決策;新模型實際有效但統計未達顯著(未拒絕 H0)→ 型二錯誤,代價是錯失有效工具;兩種錯誤的相對代價需依臨床情境判斷

(C) 型一錯誤與型二錯誤在醫療場景中代價完全相同,統計學上兩種錯誤沒有優先考量之分,應同等降低兩者發生的機率至接近零

(D) 假設檢定只存在型一錯誤,型二錯誤是統計學的理論概念在實務中不會真正發生,醫療 AI 只需控制顯著水準 α 就能完整管理所有統計風險

答案:B

深度導讀解析

正確答案:B

核心技術點:型一錯誤(α)與型二錯誤(β)的定義差異,以及兩者在高風險場景的相對代價判斷

中級理論拆解:型一錯誤(False Positive)是 H0 為真時錯誤拒絕它,即實際無效的模型被判定有效;型二錯誤(False Negative)是 H0 為假時未能拒絕它,即實際有效的模型被判定無效。在敗血症預警的醫療場景,型一錯誤導致部署無效模型可能讓臨床醫師過度依賴錯誤預測;型二錯誤導致錯失有效工具讓患者繼續暴露在風險中。兩種錯誤都有嚴重代價,實際決策需結合樣本量、統計檢力(Power = 1 - β)與臨床重要性共同考量。

選項坑洞掃描:A 把兩種錯誤類型完全對調,型一錯誤是錯誤拒絕真實的 H0(不是未拒絕),型二錯誤是未能拒絕錯誤的 H0(不是錯誤拒絕),定義完全相反。C 說兩種錯誤代價完全相同,在多數實務場景中兩者代價並不對等,醫療場景尤其需要具體分析哪種錯誤後果更嚴重。D 說型二錯誤在實務中不存在,型二錯誤在樣本量不足或效果量小時非常常見,是統計分析的真實風險。

破題反射字:型一錯誤 → 錯誤拒絕真實 H0 / 型二錯誤 → 未能拒絕錯誤 H0 / 統計檢力 Power = 1 - β → 型二錯誤的補數


第 5 題

某製造業公司的品管工程師收集了生產線上 1,200 個產品的重量資料,想驗證這批產品的重量是否符合常態分布,以便後續使用依賴常態假設的統計製程管控(SPC)工具。樣本量為 1,200 筆,工程師評估 Shapiro-Wilk 與 Kolmogorov-Smirnov(K-S)兩種常態性檢定。下列何者最能正確描述兩種方法在此情境下的適用性差異?

(A) Shapiro-Wilk 檢定在樣本量超過 50 筆後就完全失效,只適合極小樣本(n < 30)的常態性檢定;1,200 筆資料應優先使用 K-S 檢定,K-S 不受樣本量大小限制

(B) 兩種方法在任何樣本量下效果完全相同,差異只在計算公式的複雜度,應選擇工程師熟悉的那一種,統計結論不會有任何差異

(C) Shapiro-Wilk 在中小樣本(通常 n < 5,000)時檢定力優於 K-S,是這個情境的合理選擇;但 1,200 筆已是相對大樣本,高檢定力可能讓微小但無實務意義的偏差也達到顯著,應結合 Q-Q 圖目視判斷常態性

(D) K-S 檢定的 p-value 永遠大於 Shapiro-Wilk,因此在需要較嚴格顯著水準的品管場景中應優先使用 K-S,確保只有高確信度的常態性才會被接受

答案:C

深度導讀解析

正確答案:C

核心技術點:Shapiro-Wilk vs. K-S 的檢定力比較,以及大樣本下統計顯著性與實務意義的差距

中級理論拆解:Shapiro-Wilk 在中小樣本(n < 5,000)的常態性檢定中通常具有更高的檢定力(Power),能更敏銳地偵測到非常態性,因此比 K-S 更常被推薦用於此範圍。然而本題有個微妙之處:1,200 筆已是相當大的樣本,高檢定力讓 Shapiro-Wilk 對非常微小的偏離常態也會輸出顯著的 p-value,但這種偏差在實務的 SPC 應用中可能完全無礙。因此大樣本下統計顯著性不等於實務顯著性,建議搭配 Q-Q 圖(Quantile-Quantile Plot)目視判斷,兩者結合才是完整的常態性評估。

選項坑洞掃描:A 說 Shapiro-Wilk 在 n > 50 後失效,Shapiro-Wilk 在 n < 5,000 的範圍內都有良好的檢定力,並非 n > 50 就失效。B 說兩種方法完全相同,兩者的統計量計算方式不同,在特定樣本量下的檢定力也有差異,結論可能不同。D 說 K-S 的 p-value 永遠大於 Shapiro-Wilk,這個說法沒有理論依據,兩者的 p-value 沒有固定大小關係。

破題反射字:Shapiro-Wilk → 中小樣本常態性檢定 / 大樣本顯著 ≠ 實務顯著 → 統計與實務意義的差距 / Q-Q 圖 → 目視輔助判斷常態性


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
373會員
98內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/10/25
問題 1 (中級) ------------------------------ 題目: 一家AI新創公司正在開發一個模型,旨在預測客戶在收到促銷郵件後是否會點擊連結。若要對單一客戶的點擊行為進行建模,下列哪一種機率分佈最為適合? 選項: A) 泊松分佈 B) 二項分佈 C) 伯努利分佈
2025/10/25
問題 1 (中級) ------------------------------ 題目: 一家AI新創公司正在開發一個模型,旨在預測客戶在收到促銷郵件後是否會點擊連結。若要對單一客戶的點擊行為進行建模,下列哪一種機率分佈最為適合? 選項: A) 泊松分佈 B) 二項分佈 C) 伯努利分佈
2025/10/24
問題 1 (中級) ------------------------------ 題目: 在預測房屋價格的AI專案中,若特別關注模型對於高價位房屋的預測誤差,且希望對較大的誤差給予更高的懲罰,下列哪一個迴歸評估指標會是最佳選擇? 選項: A) MAE (Mean Absolute Error
2025/10/24
問題 1 (中級) ------------------------------ 題目: 在預測房屋價格的AI專案中,若特別關注模型對於高價位房屋的預測誤差,且希望對較大的誤差給予更高的懲罰,下列哪一個迴歸評估指標會是最佳選擇? 選項: A) MAE (Mean Absolute Error
2025/10/23
建議先看過教學課程影片,效果加倍 https://vocus.cc/article/68f5d58efd89780001a0dca7
2025/10/23
建議先看過教學課程影片,效果加倍 https://vocus.cc/article/68f5d58efd89780001a0dca7
看更多
你可能也想看
Thumbnail
Docker是由GO語言實現,是一個在GitHub上開發原始碼的專案。它的目標是實現羽量級的作業系統虛擬化。讓使用者操作Docker,就像是操作一個羽量級的虛擬機器。 優勢 快速發表和部署 高效的部署和擴充 資源使用率高 管理簡單 核心 Image映像檔 Docker
Thumbnail
Docker是由GO語言實現,是一個在GitHub上開發原始碼的專案。它的目標是實現羽量級的作業系統虛擬化。讓使用者操作Docker,就像是操作一個羽量級的虛擬機器。 優勢 快速發表和部署 高效的部署和擴充 資源使用率高 管理簡單 核心 Image映像檔 Docker
Thumbnail
前言 上次我們初步體驗 Docker 快速佈署能力,今天我們要來講解 Dockerfile、Docker Image 與 Docker Container 這些常見的名詞,我們來了解在我們佈署的時候做哪些事情 Docker 佈署流程 首先看到如下圖上半部,在我們一個完整的佈署流程,我們會先將我
Thumbnail
前言 上次我們初步體驗 Docker 快速佈署能力,今天我們要來講解 Dockerfile、Docker Image 與 Docker Container 這些常見的名詞,我們來了解在我們佈署的時候做哪些事情 Docker 佈署流程 首先看到如下圖上半部,在我們一個完整的佈署流程,我們會先將我
Thumbnail
為什麼要用Docker安裝? Docker是一個容器化平台, 就類似於我們早期虛擬機的VMWare、Virtual Box…等, 虛擬機平台一般, 只是面向的是伺服端, 供企業快速、簡單、輕量的佈署開發完成的程式軟體, 並將相關的環境依賴皆封裝成一包所謂的映像檔(image), 透過這樣的方式減少
Thumbnail
為什麼要用Docker安裝? Docker是一個容器化平台, 就類似於我們早期虛擬機的VMWare、Virtual Box…等, 虛擬機平台一般, 只是面向的是伺服端, 供企業快速、簡單、輕量的佈署開發完成的程式軟體, 並將相關的環境依賴皆封裝成一包所謂的映像檔(image), 透過這樣的方式減少
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
在實際生產中,容器化技術開始走向「容器編排技術」,如:Kubernetes。因為Docker無法獨立支撐大規模容器化部署。 Kubernetes起源於Borg系統,所以在大規模的叢集管理,優於其他容器編排技術。它提供拉取映像檔、拉取執行容器、路由閘道、水平擴充、監控和備份等,除外還可以自動化處理容
Thumbnail
在實際生產中,容器化技術開始走向「容器編排技術」,如:Kubernetes。因為Docker無法獨立支撐大規模容器化部署。 Kubernetes起源於Borg系統,所以在大規模的叢集管理,優於其他容器編排技術。它提供拉取映像檔、拉取執行容器、路由閘道、水平擴充、監控和備份等,除外還可以自動化處理容
Thumbnail
前言 上次我們對 Docker 架構進行了講解,今天我們來講解 Docker 的好處,他到底可以幫助我們什麼事情 ? 為什麼 Docker 如此受人喜歡 ? 現在就來講述 Docker 有什麼好處 跨平台 Docker 可以確保在不同的作業系統是可運作的,可減少機器運作的問題 版本控制 打
Thumbnail
前言 上次我們對 Docker 架構進行了講解,今天我們來講解 Docker 的好處,他到底可以幫助我們什麼事情 ? 為什麼 Docker 如此受人喜歡 ? 現在就來講述 Docker 有什麼好處 跨平台 Docker 可以確保在不同的作業系統是可運作的,可減少機器運作的問題 版本控制 打
Thumbnail
本文介紹了 Docker 的基礎概念,以及在軟體工程環境中的運用。藉由 Docker 的容器化技術和映像檔技術,能夠實現開發和生產環境的一致性,並且支持負載平衡和無縫更新。此外,也提到了 Kubernetes 和 Docker Swarm 這兩個重要工具的用途和適用對象。
Thumbnail
本文介紹了 Docker 的基礎概念,以及在軟體工程環境中的運用。藉由 Docker 的容器化技術和映像檔技術,能夠實現開發和生產環境的一致性,並且支持負載平衡和無縫更新。此外,也提到了 Kubernetes 和 Docker Swarm 這兩個重要工具的用途和適用對象。
Thumbnail
引言 在當今的技術世界中,Kubernetes 已成為容器化應用的領導平台。作為一個高效的容器編排系統,它不僅管理著容器的部署和擴展,還提供了必要的自動化支持,以保證應用的高可用性和性能。在這個框架中,自動擴展功能起著至關重要的作用,特別是在面對不斷變化的負載和需求時。
Thumbnail
引言 在當今的技術世界中,Kubernetes 已成為容器化應用的領導平台。作為一個高效的容器編排系統,它不僅管理著容器的部署和擴展,還提供了必要的自動化支持,以保證應用的高可用性和性能。在這個框架中,自動擴展功能起著至關重要的作用,特別是在面對不斷變化的負載和需求時。
Thumbnail
前言 上次我們講到 Docker 的功用與好處,今天我們要在講解,如何安裝 Docker 這個容器,讓我們在之後的教學應用更好的實作與練習,現在讓我們開始吧 Docker Engine 與 Docker Desktop 首先在講解怎麼安裝 Docker 時,我們先講解 Docker Engin
Thumbnail
前言 上次我們講到 Docker 的功用與好處,今天我們要在講解,如何安裝 Docker 這個容器,讓我們在之後的教學應用更好的實作與練習,現在讓我們開始吧 Docker Engine 與 Docker Desktop 首先在講解怎麼安裝 Docker 時,我們先講解 Docker Engin
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News