今天你的好朋友家豪跟你打賭*,擲一個硬幣,若為正面,你給他100塊;反之,他給你100塊。
遊戲開始,家豪擲出了一次正面,你賠了100。請問:你覺得家豪有作弊嗎?
遊戲繼續,他又擲出了一次正面,你又賠了100。
請問:你覺得家豪有作弊嗎?
遊戲繼續,他再次擲出了一次正面,他已經連續擲出三次正面了,你賠了300。
請問:你覺得家豪有作弊嗎?
遊戲又繼續進行,他擲出了連續十次正面,你賠了1000塊。
請問:你覺得家豪有作弊嗎?
我問了學生以上問題,得到的回答是,在得到一次正面和兩次正面時,所有人都覺得「家豪沒作弊,只是我衰。」,但到了連續擲出三次正面時,有人開始動搖了,有作弊和沒作弊的想法大約一半一半;連續擲出十次正面後,所有人都認為家豪作弊了。
為什麼?在這個例子中是何種因素造成「我衰」到「他作弊」的轉變呢?
答案就是機率。這也是統計檢定(Statistical test)的核心概念。
剛開始家豪提出擲硬幣賭注時,基於你們之間的友情,你預設這是一枚公正的硬幣,當你開始擲硬幣的時候,一些小機率的事件發生了。例如連續擲出了三次正面,該事件發生機率為(1/2)^3=12.5%,你開始猶豫,「這機率有點小,該不會他在作弊吧?」但念在你們往日舊情的份上,你沒有提出異議,「12.5%的機率是小了些,但也不是不可能,萬一我誤會了他呢?」直到擲出十次正面時,機率為(1/2)^10~0.1%,終於你很有信心地說:「媽的作弊仔!」
如果你能完全搞懂以上的邏輯,恭喜你!你已經完成了一次統計檢定。
統計檢定的第一步:設定虛無假設(null hypothesis)。
第二步:開始測量機率(p值),p值越小,代表因巧合而發生此事的可能性越低。
第三步:若事件機率低於顯著水準(α值)後,拒絕虛無假設。
在上述硬幣的例子裡,你的虛無假設就是「公平的硬幣」。
當你測量(擲十次硬幣)後發現p值只有約千分之一,這是個非常低的機率,所以拒絕相信這是公平的硬幣,換言之,你覺得家豪在搞;如果你測量的結果是三次正面,p值為12.5%,這個機率是否夠低呢?這取決於你和家豪的感情,如果交情普通,你會認為這機率夠低到能拒絕虛無假設(也就是你的α值設的很高),不用留情面;若不想撕破臉,你可能還會再等一手,直到下一次的結果又是正面。一般來說第三步驟裡的顯著水準的業界標準是5%,當然每個人心中都有一把尺,你想跟家豪吵架,設在25%也並無不可。
舉個其他例子吧!
某藥廠開發出一款感冒藥,號稱能縮短感冒痊癒的時間,為了證明這藥有效,科學家必須進行一場嚴謹的統計檢定。
第一步:設定虛無假設。
假設此藥完全無效,會痊癒都是病人靠自己的免疫力痊癒的。這假設聽起來很消極,但我們必須這麼假設--除非證據強大到讓我們無法忽視,否則我們不輕易相信它。
第二步:收集數據並計算p值。
科學家找來兩組感冒程度相似的志願者:實驗組服用感冒藥、對照組服用安慰劑。實驗結束後,發現實驗組平均比對照組早2天痊癒。這時候,統計學家會問一個核心問題:「如果這藥沒效,純靠運氣,會出現早2天痊癒的機率是多少?」這個計算出來的機率,就是p值。
第三步:根據顯著水準做出決斷
設定顯著水準為5%。這是一把衡量「巧合」的尺。
- 如果p = 20%,代表有20%的機會會出現這種康復差距。這機率太高了,我們不能排除是病人運氣好或剛好這幾個人體質強。結論:不拒絕虛無假設。這藥「沒有顯著療效」。
- 如果p = 1%,代表假定新藥無效下,純靠運氣達成這個結果的機率只有1%,這機率低到讓人難以相信是巧合。結論:拒絕虛無假設。很有信心地說:「這藥真的有料!」
補充一下這第二步驟計算p值其實是學統計最痛苦的時候,概念是假設一個理想機率分佈,再計算出現在這種結果或比這更極端的機率面積,相當於在量化你的數據到底有多「邊緣」。我在此跳過了無數讓人想燒掉課本的複雜公式(如t檢定、卡方檢定等),想深入了解的朋友,如果敲碗夠多我之後可以再寫一篇(又挖坑)。
OK到這裡大家應該都有點概念了,接著我們回到與家豪的賭桌上,看看什麼是「出錯的風險」。
現在的你已經完全懂統計檢定在幹嘛了,在上桌前,你已經設定好規則:連續出現 5 次正面(機率約 3%),你就認定家豪作弊,當場翻臉。
第一種情況是,家豪那天運氣爆棚,他拿的是普通的硬幣,但偏偏老天爺開玩笑,讓他真的連擲出 5 次正面。你於是大聲怒斥:「媽的作弊仔!」然後絕交。沒錯,雖然這機率很低,低到讓你不願相信那是個公平的硬幣,但機率終究不為零,它就是發生了!結果就是虛無假設(硬幣公平)是真的,但你卻拒絕了它。這就是Type I Error(偽陽性),抓到了作弊(陽性反應),但那是假的。你失去了一個朋友,還背負了疑神疑鬼的臭名,冤枉了好人。
另一種情況是家豪確實作弊了,他用的是特製的灌鉛硬幣。但他運氣不太好,或是他為了不被發現,故意控制力道,結果只擲出了3正2反。因為3正面的機率還不夠低,沒達到你翻臉的門檻,你摸摸鼻子說:「唉,今天手氣真差。」然後繼續給他錢。在此情境中,虛無假設(硬幣公平)是假的,但你卻沒有拒絕它。這就是Type II Error(偽陰性),作弊是真的,但你的檢定沒抓出來(陰性反應),你的錢包正在失血。
魚與熊掌不可兼得,我們無法同時降低Type I Error和Type II Error,只能選擇你要承擔哪種風險。如果你怕被騙,想降低Type II Error,你把標準定得很寬,只要「連續 2 次正面」就翻臉,結果就是你絕對不會被騙,但你可能這輩子交不到朋友,因為隨便連擲兩次正面就會被你當成老千趕走;如果你重情重義(想降低Type I Error),把標準定得很嚴,要「連續 20 次正面」才翻臉,結果就是你絕對不會冤枉好人,但一遇到作弊仔你就會賠到傾家蕩產。
再回到藥品的例子來看看這兩型錯誤。
1. Type I Error
虛無假設為真(藥根本沒效),但參加實驗的病人剛好那幾天人爽身體勇、身體恢復力特別強。看到數據的你拒絕了虛無假設(認為藥有效),宣布一款沒用的藥被批准上市,浪費大眾金錢,甚至可能因為副作用傷害健康。這就是為什麼我們把顯著水準(α值) 定得很嚴,就是為了避免這種風險。
2. Type II Error
虛無假設其實是假的(藥真的有效),但因為實驗人數太少(樣本數不足),或者病人個別差異太大,導致算出來的p值是10%(大於5%門檻)。你遺憾地宣布:「證據不足,這藥沒效。」於是一款拯救眾生的靈丹妙藥被埋沒在實驗室裡,病人錯失了治療機會。
如果你想絕對避免Type I Error,你會把門檻設得超級嚴(例如 p < 0.0001%)。但代價就是,許多其實很有效的藥也會因為達不到這個變態標準而被判定為沒效,從而大幅增加Type II Error;相反地,如果你為了救人,想盡量減少Type II Error而放寬門檻,你就會不小心讓很多沒用的藥溜進市場(增加Type I Error)。
在醫學上,我們最怕Type I Error(藥沒效卻說有效),因為這會害死人;在煙霧偵測器上,我們最怕Type II Error(有火災卻沒響),因為這會燒掉房子。
以上,當然這都是以統計學的角度來說,其實用物理方法檢查硬幣會更簡單,但你都看到這裡了,一定是個熱愛統計學的怪咖好孩子,雖然統計檢定不能給我們100%的真理,但至少在你朋友不想讓你檢查他的硬幣或骰子時,給了你一套客觀的翻臉標準,下次當機率低到拒絕虛無假設的時候,以統計檢定之名行保護賭資之實*,勇敢地反桌(píng-toh)吧!
*俗諺雖云:小賭怡情,大賭翔平,豪賭郭台銘。但作者不鼓勵任何賭博行為。

























