科普05 他有作弊嗎?統計檢定:一套統計學的「翻臉標準」

更新 發佈閱讀 9 分鐘

今天你的好朋友家豪跟你打賭*,擲一個硬幣,若為正面,你給他100塊;反之,他給你100塊。

遊戲開始,家豪擲出了一次正面,你賠了100。

請問:你覺得家豪有作弊嗎?

遊戲繼續,他又擲出了一次正面,你又賠了100。

請問:你覺得家豪有作弊嗎?

遊戲繼續,他再次擲出了一次正面,他已經連續擲出三次正面了,你賠了300。

請問:你覺得家豪有作弊嗎?

遊戲又繼續進行,他擲出了連續十次正面,你賠了1000塊。

請問:你覺得家豪有作弊嗎?

 

我問了學生以上問題,得到的回答是,在得到一次正面和兩次正面時,所有人都覺得「家豪沒作弊,只是我衰。」,但到了連續擲出三次正面時,有人開始動搖了,有作弊和沒作弊的想法大約一半一半;連續擲出十次正面後,所有人都認為家豪作弊了。

為什麼?在這個例子中是何種因素造成「我衰」到「他作弊」的轉變呢?

答案就是機率。這也是統計檢定(Statistical test)的核心概念。

 

剛開始家豪提出擲硬幣賭注時,基於你們之間的友情,你預設這是一枚公正的硬幣,當你開始擲硬幣的時候,一些小機率的事件發生了。例如連續擲出了三次正面,該事件發生機率為(1/2)^3=12.5%,你開始猶豫,「這機率有點小,該不會他在作弊吧?」但念在你們往日舊情的份上,你沒有提出異議,「12.5%的機率是小了些,但也不是不可能,萬一我誤會了他呢?」直到擲出十次正面時,機率為(1/2)^10~0.1%,終於你很有信心地說:「媽的作弊仔!」

 

如果你能完全搞懂以上的邏輯,恭喜你!你已經完成了一次統計檢定。

統計檢定的第一步:設定虛無假設(null hypothesis)

第二步:開始測量機率(p值),p值越小,代表因巧合而發生此事的可能性越低。

第三步:若事件機率低於顯著水準(α值)後,拒絕虛無假設

 

在上述硬幣的例子裡,你的虛無假設就是「公平的硬幣」。

當你測量(擲十次硬幣)後發現p值只有約千分之一,這是個非常低的機率,所以拒絕相信這是公平的硬幣,換言之,你覺得家豪在搞;如果你測量的結果是三次正面,p值為12.5%,這個機率是否夠低呢?這取決於你和家豪的感情,如果交情普通,你會認為這機率夠低到能拒絕虛無假設(也就是你的α值設的很高),不用留情面;若不想撕破臉,你可能還會再等一手,直到下一次的結果又是正面。一般來說第三步驟裡的顯著水準的業界標準是5%,當然每個人心中都有一把尺,你想跟家豪吵架,設在25%也並無不可。

 

舉個其他例子吧!

某藥廠開發出一款感冒藥,號稱能縮短感冒痊癒的時間,為了證明這藥有效,科學家必須進行一場嚴謹的統計檢定。

第一步:設定虛無假設。

假設此藥完全無效,會痊癒都是病人靠自己的免疫力痊癒的。這假設聽起來很消極,但我們必須這麼假設--除非證據強大到讓我們無法忽視,否則我們不輕易相信它。

第二步:收集數據並計算p值。

科學家找來兩組感冒程度相似的志願者:實驗組服用感冒藥、對照組服用安慰劑。實驗結束後,發現實驗組平均比對照組早2天痊癒。這時候,統計學家會問一個核心問題:「如果這藥沒效,純靠運氣,會出現早2天痊癒的機率是多少?」這個計算出來的機率,就是p值。

第三步:根據顯著水準做出決斷

設定顯著水準為5%。這是一把衡量「巧合」的尺。

  • 如果p = 20%,代表有20%的機會會出現這種康復差距。這機率太高了,我們不能排除是病人運氣好或剛好這幾個人體質強。結論:不拒絕虛無假設。這藥「沒有顯著療效」。
  • 如果p = 1%,代表假定新藥無效下,純靠運氣達成這個結果的機率只有1%,這機率低到讓人難以相信是巧合。結論:拒絕虛無假設。很有信心地說:「這藥真的有料!」


補充一下這第二步驟計算p值其實是學統計最痛苦的時候,概念是假設一個理想機率分佈,再計算出現在這種結果或比這更極端的機率面積,相當於在量化你的數據到底有多「邊緣」。我在此跳過了無數讓人想燒掉課本的複雜公式(如t檢定卡方檢定等),想深入了解的朋友,如果敲碗夠多我之後可以再寫一篇(又挖坑)。


OK到這裡大家應該都有點概念了,接著我們回到與家豪的賭桌上,看看什麼是「出錯的風險」。

現在的你已經完全懂統計檢定在幹嘛了,在上桌前,你已經設定好規則:連續出現 5 次正面(機率約 3%),你就認定家豪作弊,當場翻臉。

第一種情況是,家豪那天運氣爆棚,他拿的是普通的硬幣,但偏偏老天爺開玩笑,讓他真的連擲出 5 次正面。你於是大聲怒斥:「媽的作弊仔!」然後絕交。沒錯,雖然這機率很低,低到讓你不願相信那是個公平的硬幣,但機率終究不為零,它就是發生了!結果就是虛無假設(硬幣公平)是真的,但你卻拒絕了它。這就是Type I Error(偽陽性),抓到了作弊(陽性反應),但那是假的。你失去了一個朋友,還背負了疑神疑鬼的臭名,冤枉了好人。

另一種情況是家豪確實作弊了,他用的是特製的灌鉛硬幣。但他運氣不太好,或是他為了不被發現,故意控制力道,結果只擲出了3正2反。因為3正面的機率還不夠低,沒達到你翻臉的門檻,你摸摸鼻子說:「唉,今天手氣真差。」然後繼續給他錢。在此情境中,虛無假設(硬幣公平)是假的,但你卻沒有拒絕它。這就是Type II Error(偽陰性),作弊是真的,但你的檢定沒抓出來(陰性反應),你的錢包正在失血。

 

魚與熊掌不可兼得,我們無法同時降低Type I Error和Type II Error,只能選擇你要承擔哪種風險。如果你怕被騙,想降低Type II Error,你把標準定得很寬,只要「連續 2 次正面」就翻臉,結果就是你絕對不會被騙,但你可能這輩子交不到朋友,因為隨便連擲兩次正面就會被你當成老千趕走;如果你重情重義(想降低Type I Error),把標準定得很嚴,要「連續 20 次正面」才翻臉,結果就是你絕對不會冤枉好人,但一遇到作弊仔你就會賠到傾家蕩產。

 

再回到藥品的例子來看看這兩型錯誤。

1.  Type I Error

虛無假設為真(藥根本沒效),但參加實驗的病人剛好那幾天人爽身體勇、身體恢復力特別強。看到數據的你拒絕了虛無假設(認為藥有效),宣布一款沒用的藥被批准上市,浪費大眾金錢,甚至可能因為副作用傷害健康。這就是為什麼我們把顯著水準(α值) 定得很嚴,就是為了避免這種風險。

2.  Type II Error

虛無假設其實是假的(藥真的有效),但因為實驗人數太少(樣本數不足),或者病人個別差異太大,導致算出來的p值是10%(大於5%門檻)。你遺憾地宣布:「證據不足,這藥沒效。」於是一款拯救眾生的靈丹妙藥被埋沒在實驗室裡,病人錯失了治療機會。

如果你想絕對避免Type I Error,你會把門檻設得超級嚴(例如 p < 0.0001%)。但代價就是,許多其實很有效的藥也會因為達不到這個變態標準而被判定為沒效,從而大幅增加Type II Error;相反地,如果你為了救人,想盡量減少Type II Error而放寬門檻,你就會不小心讓很多沒用的藥溜進市場(增加Type I Error)。

在醫學上,我們最怕Type I Error(藥沒效卻說有效),因為這會害死人;在煙霧偵測器上,我們最怕Type II Error(有火災卻沒響),因為這會燒掉房子。

 

以上,當然這都是以統計學的角度來說,其實用物理方法檢查硬幣會更簡單,但你都看到這裡了,一定是個熱愛統計學的怪咖好孩子,雖然統計檢定不能給我們100%的真理,但至少在你朋友不想讓你檢查他的硬幣或骰子時,給了你一套客觀的翻臉標準,下次當機率低到拒絕虛無假設的時候,以統計檢定之名行保護賭資之實*,勇敢地反桌(píng-toh)吧!


*俗諺雖云:小賭怡情,大賭翔平,豪賭郭台銘。但作者不鼓勵任何賭博行為。

留言
avatar-img
小水的沙龍
3會員
64內容數
科學工作者、業餘時間嘗試寫作。小說涵蓋的題材包括愛情、家庭、懸疑、科幻等,盡可能嘗試不同主題的作品
你可能也想看
Thumbnail
太吵的環境容易讓人分心,那如果待在極度安靜的地方,是否會覺得心情平靜到很無聊呢?答案是不會,太安靜的地方反而會讓人覺得很「吵」呵。 美國的奧菲爾德實驗室是金氏世界記錄認證「世上最安靜的地方」,這裡的靜音室不僅會隔絕外面的聲音,還會吸收房間內的聲音,因此比無人的圖書館還安靜一百多倍!
Thumbnail
太吵的環境容易讓人分心,那如果待在極度安靜的地方,是否會覺得心情平靜到很無聊呢?答案是不會,太安靜的地方反而會讓人覺得很「吵」呵。 美國的奧菲爾德實驗室是金氏世界記錄認證「世上最安靜的地方」,這裡的靜音室不僅會隔絕外面的聲音,還會吸收房間內的聲音,因此比無人的圖書館還安靜一百多倍!
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
從前從前科學說,嬰兒擁有編碼記憶的能力,儲存在海馬迴中,但是人類通常不記得3歲前發生的事情。。。2025年3月耶魯大學一項新型功能性磁共振成像(fMRI)研究表明。。。
Thumbnail
從前從前科學說,嬰兒擁有編碼記憶的能力,儲存在海馬迴中,但是人類通常不記得3歲前發生的事情。。。2025年3月耶魯大學一項新型功能性磁共振成像(fMRI)研究表明。。。
Thumbnail
不久之前,當我在一次體檢中抽完血後,我那位親切的家庭醫生認真審視了檢驗結果,接著建議我在用餐時搭配一杯紅酒,作為降低壞膽固醇的預防措施。他眨了眨眼對我說道:「我知道你不抽菸,也很少喝酒,但喝少量的紅酒比滴酒不沾更好,甚至可能讓你更加長壽。」 許多人可能會欣然接受這樣美好的醫療建議。畢竟,如果某樣東
Thumbnail
不久之前,當我在一次體檢中抽完血後,我那位親切的家庭醫生認真審視了檢驗結果,接著建議我在用餐時搭配一杯紅酒,作為降低壞膽固醇的預防措施。他眨了眨眼對我說道:「我知道你不抽菸,也很少喝酒,但喝少量的紅酒比滴酒不沾更好,甚至可能讓你更加長壽。」 許多人可能會欣然接受這樣美好的醫療建議。畢竟,如果某樣東
Thumbnail
我們憂慮新冠科學進展老是趕不上病毒變種的速度,彷彿置身於一種無形且不斷變異的威脅下。。。《自然》新聞更以標題: 「肺部”沉睡”的癌細胞可能會被新冠病毒和流感喚醒」說明呼吸道病毒感染不僅喚醒了休眠數十年的腫瘤細胞。。。正是在這種集體脆弱的脈絡下,史丹佛醫學院開展的「虛擬實驗室」。。。
Thumbnail
我們憂慮新冠科學進展老是趕不上病毒變種的速度,彷彿置身於一種無形且不斷變異的威脅下。。。《自然》新聞更以標題: 「肺部”沉睡”的癌細胞可能會被新冠病毒和流感喚醒」說明呼吸道病毒感染不僅喚醒了休眠數十年的腫瘤細胞。。。正是在這種集體脆弱的脈絡下,史丹佛醫學院開展的「虛擬實驗室」。。。
Thumbnail
上次我們跟著紅衣鼻屎超人找到偷保險櫃的嫌犯,運用科學知識成功破解犯人的手法,再次讓社區和平! 然而,這次羅有識將遇上更多的危機!知名的直播主「芝麻少女」來到社區試吃老字號「恐龍炸雞」,但味道卻完全不對?原來這一切都是「它」搞得鬼?   
Thumbnail
上次我們跟著紅衣鼻屎超人找到偷保險櫃的嫌犯,運用科學知識成功破解犯人的手法,再次讓社區和平! 然而,這次羅有識將遇上更多的危機!知名的直播主「芝麻少女」來到社區試吃老字號「恐龍炸雞」,但味道卻完全不對?原來這一切都是「它」搞得鬼?   
Thumbnail
雄女校長關於女生數學能力的言論引起爭議,本文探討相關爭議,並從科學角度檢視其論述是否合理。文章綜合分析國內外研究數據,包括大型的綜合分析研究以及PISA調查,指出在數學能力上,男女生並無顯著差異。並從社會建構論與自我實現預言的角度,探討社會刻板印象如何影響女性對數學的自我認知及表現。
Thumbnail
雄女校長關於女生數學能力的言論引起爭議,本文探討相關爭議,並從科學角度檢視其論述是否合理。文章綜合分析國內外研究數據,包括大型的綜合分析研究以及PISA調查,指出在數學能力上,男女生並無顯著差異。並從社會建構論與自我實現預言的角度,探討社會刻板印象如何影響女性對數學的自我認知及表現。
Thumbnail
本篇文章以日常生活中的快篩經驗為引子,深入淺出地介紹貝氏定理在機器學習效能分析中的重要性。透過一個挑戰直覺的思考實驗,揭示「基率謬誤」的統計陷阱,並解釋為何在罕見疾病檢測中,高準確率的陽性報告不一定代表高確診率。輔以貝氏定理的計算公式,幫助讀者更精確地理解和判讀數據。
Thumbnail
本篇文章以日常生活中的快篩經驗為引子,深入淺出地介紹貝氏定理在機器學習效能分析中的重要性。透過一個挑戰直覺的思考實驗,揭示「基率謬誤」的統計陷阱,並解釋為何在罕見疾病檢測中,高準確率的陽性報告不一定代表高確診率。輔以貝氏定理的計算公式,幫助讀者更精確地理解和判讀數據。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
身邊有很常把同理掛嘴邊的人嗎? 或是很常聽到這個詞? 快來領取最簡單明瞭的同理心手冊吧 ! !
Thumbnail
身邊有很常把同理掛嘴邊的人嗎? 或是很常聽到這個詞? 快來領取最簡單明瞭的同理心手冊吧 ! !
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News