科普05 他有作弊嗎？統計檢定：一套統計學的「翻臉標準」

小水

發佈於雜文隨筆

2026/03/24 更新2026/03/24 發佈閱讀 9 分鐘

今天你的好朋友家豪跟你打賭*，擲一個硬幣，若為正面，你給他100塊；反之，他給你100塊。

遊戲開始，家豪擲出了一次正面，你賠了100。

請問：你覺得家豪有作弊嗎？

遊戲繼續，他又擲出了一次正面，你又賠了100。

請問：你覺得家豪有作弊嗎？

遊戲繼續，他再次擲出了一次正面，他已經連續擲出三次正面了，你賠了300。

請問：你覺得家豪有作弊嗎？

遊戲又繼續進行，他擲出了連續十次正面，你賠了1000塊。

請問：你覺得家豪有作弊嗎？

我問了學生以上問題，得到的回答是，在得到一次正面和兩次正面時，所有人都覺得「家豪沒作弊，只是我衰。」，但到了連續擲出三次正面時，有人開始動搖了，有作弊和沒作弊的想法大約一半一半；連續擲出十次正面後，所有人都認為家豪作弊了。

為什麼？在這個例子中是何種因素造成「我衰」到「他作弊」的轉變呢？

答案就是機率。這也是統計檢定（Statistical test）的核心概念。

剛開始家豪提出擲硬幣賭注時，基於你們之間的友情，你預設這是一枚公正的硬幣，當你開始擲硬幣的時候，一些小機率的事件發生了。例如連續擲出了三次正面，該事件發生機率為(1/2)^3=12.5%，你開始猶豫，「這機率有點小，該不會他在作弊吧？」但念在你們往日舊情的份上，你沒有提出異議，「12.5%的機率是小了些，但也不是不可能，萬一我誤會了他呢？」直到擲出十次正面時，機率為(1/2)^10~0.1%，終於你很有信心地說：「媽的作弊仔！」

如果你能完全搞懂以上的邏輯，恭喜你！你已經完成了一次統計檢定。

統計檢定的第一步：設定虛無假設（null hypothesis）。

第二步：開始測量機率（p值），p值越小，代表因巧合而發生此事的可能性越低。

第三步：若事件機率低於顯著水準（α值）後，拒絕虛無假設。

在上述硬幣的例子裡，你的虛無假設就是「公平的硬幣」。

當你測量（擲十次硬幣）後發現p值只有約千分之一，這是個非常低的機率，所以拒絕相信這是公平的硬幣，換言之，你覺得家豪在搞；如果你測量的結果是三次正面，p值為12.5%，這個機率是否夠低呢？這取決於你和家豪的感情，如果交情普通，你會認為這機率夠低到能拒絕虛無假設（也就是你的α值設的很高），不用留情面；若不想撕破臉，你可能還會再等一手，直到下一次的結果又是正面。一般來說第三步驟裡的顯著水準的業界標準是5%，當然每個人心中都有一把尺，你想跟家豪吵架，設在25%也並無不可。

舉個其他例子吧！

某藥廠開發出一款感冒藥，號稱能縮短感冒痊癒的時間，為了證明這藥有效，科學家必須進行一場嚴謹的統計檢定。

第一步：設定虛無假設。

假設此藥完全無效，會痊癒都是病人靠自己的免疫力痊癒的。這假設聽起來很消極，但我們必須這麼假設－－除非證據強大到讓我們無法忽視，否則我們不輕易相信它。

第二步：收集數據並計算p值。

科學家找來兩組感冒程度相似的志願者：實驗組服用感冒藥、對照組服用安慰劑。實驗結束後，發現實驗組平均比對照組早2天痊癒。這時候，統計學家會問一個核心問題：「如果這藥沒效，純靠運氣，會出現早2天痊癒的機率是多少？」這個計算出來的機率，就是p值。

第三步：根據顯著水準做出決斷

設定顯著水準為5%。這是一把衡量「巧合」的尺。

如果p = 20%，代表有20%的機會會出現這種康復差距。這機率太高了，我們不能排除是病人運氣好或剛好這幾個人體質強。結論：不拒絕虛無假設。這藥「沒有顯著療效」。
如果p = 1%，代表假定新藥無效下，純靠運氣達成這個結果的機率只有1%，這機率低到讓人難以相信是巧合。結論：拒絕虛無假設。很有信心地說：「這藥真的有料！」

補充一下這第二步驟計算p值其實是學統計最痛苦的時候，概念是假設一個理想機率分佈，再計算出現在這種結果或比這更極端的機率面積，相當於在量化你的數據到底有多「邊緣」。我在此跳過了無數讓人想燒掉課本的複雜公式（如t檢定、卡方檢定等），想深入了解的朋友，如果敲碗夠多我之後可以再寫一篇（又挖坑）。

OK到這裡大家應該都有點概念了，接著我們回到與家豪的賭桌上，看看什麼是「出錯的風險」。

現在的你已經完全懂統計檢定在幹嘛了，在上桌前，你已經設定好規則：連續出現 5 次正面（機率約 3%），你就認定家豪作弊，當場翻臉。

第一種情況是，家豪那天運氣爆棚，他拿的是普通的硬幣，但偏偏老天爺開玩笑，讓他真的連擲出 5 次正面。你於是大聲怒斥：「媽的作弊仔！」然後絕交。沒錯，雖然這機率很低，低到讓你不願相信那是個公平的硬幣，但機率終究不為零，它就是發生了！結果就是虛無假設（硬幣公平）是真的，但你卻拒絕了它。這就是Type I Error（偽陽性），抓到了作弊（陽性反應），但那是假的。你失去了一個朋友，還背負了疑神疑鬼的臭名，冤枉了好人。

另一種情況是家豪確實作弊了，他用的是特製的灌鉛硬幣。但他運氣不太好，或是他為了不被發現，故意控制力道，結果只擲出了3正2反。因為3正面的機率還不夠低，沒達到你翻臉的門檻，你摸摸鼻子說：「唉，今天手氣真差。」然後繼續給他錢。在此情境中，虛無假設（硬幣公平）是假的，但你卻沒有拒絕它。這就是Type II Error（偽陰性），作弊是真的，但你的檢定沒抓出來（陰性反應），你的錢包正在失血。

魚與熊掌不可兼得，我們無法同時降低Type I Error和Type II Error，只能選擇你要承擔哪種風險。如果你怕被騙，想降低Type II Error，你把標準定得很寬，只要「連續 2 次正面」就翻臉，結果就是你絕對不會被騙，但你可能這輩子交不到朋友，因為隨便連擲兩次正面就會被你當成老千趕走；如果你重情重義（想降低Type I Error），把標準定得很嚴，要「連續 20 次正面」才翻臉，結果就是你絕對不會冤枉好人，但一遇到作弊仔你就會賠到傾家蕩產。

再回到藥品的例子來看看這兩型錯誤。

1. Type I Error

虛無假設為真（藥根本沒效），但參加實驗的病人剛好那幾天人爽身體勇、身體恢復力特別強。看到數據的你拒絕了虛無假設（認為藥有效），宣布一款沒用的藥被批准上市，浪費大眾金錢，甚至可能因為副作用傷害健康。這就是為什麼我們把顯著水準（α值）定得很嚴，就是為了避免這種風險。

2. Type II Error

虛無假設其實是假的（藥真的有效），但因為實驗人數太少（樣本數不足），或者病人個別差異太大，導致算出來的p值是10%（大於5%門檻）。你遺憾地宣布：「證據不足，這藥沒效。」於是一款拯救眾生的靈丹妙藥被埋沒在實驗室裡，病人錯失了治療機會。

如果你想絕對避免Type I Error，你會把門檻設得超級嚴（例如 p < 0.0001%）。但代價就是，許多其實很有效的藥也會因為達不到這個變態標準而被判定為沒效，從而大幅增加Type II Error；相反地，如果你為了救人，想盡量減少Type II Error而放寬門檻，你就會不小心讓很多沒用的藥溜進市場（增加Type I Error）。

在醫學上，我們最怕Type I Error（藥沒效卻說有效），因為這會害死人；在煙霧偵測器上，我們最怕Type II Error（有火災卻沒響），因為這會燒掉房子。

以上，當然這都是以統計學的角度來說，其實用物理方法檢查硬幣會更簡單，但你都看到這裡了，一定是個熱愛統計學的怪咖好孩子，雖然統計檢定不能給我們100%的真理，但至少在你朋友不想讓你檢查他的硬幣或骰子時，給了你一套客觀的翻臉標準，下次當機率低到拒絕虛無假設的時候，以統計檢定之名行保護賭資之實*，勇敢地反桌（píng-toh）吧！

*俗諺雖云：小賭怡情，大賭翔平，豪賭郭台銘。但作者不鼓勵任何賭博行為。

留言

小水的沙龍

3會員

64內容數

科學工作者、業餘時間嘗試寫作。小說涵蓋的題材包括愛情、家庭、懸疑、科幻等，盡可能嘗試不同主題的作品

小水的沙龍的其他內容

2026/03/23