筆記：過去50年最重要的統計思想是什麼？

2025/10/09 更新2025/10/09 發佈閱讀 9 分鐘

統計學家Andrew Gelman跟他的合作者Aki Vehtari先前寫了一篇文章叫過去50年最重要的統計思想是什麼？（What are the most important statistical ideas of the past 50 years?》。

本來Andrew Gelman投稿時是待討論的稿件，希望跟編輯群再多聊些，結果陰錯陽差，編輯給他們直接刊出去了（big name lol..)。最近他部落格聊到這篇文章，我就把文章找出來看一下。

在這篇論文中，作者 Andrew Gelman 和 Aki Vehtari 回顧了幾個研究領域，認為他們從根本上塑造了統計學和資料科學（甚至是今日的AI)。

儘管這些思想早有起源，受過去半世紀計算能力進步的推動，它們已經成熟並成為該領域的核心。

這些成果了包括了：

1.Counterfactual causal inference (反事實因果推斷)：

此框架超越了「相關不等於因果」的傳統觀念。

從Rubin等人以來，提供了一個結構化的方法，透過以潛在結果（potential outcomes---平行世界裡的你在幹麼），來嚴謹地定義因果問題，從而思考並估計來自實驗數據和觀測數據的因果效應。

Andrew Gelman沒提到的是，經濟學家將這概念拿來，用在「自然實驗」上，因而走了非常遠，包含了最近的諾貝爾獎得主Daron Acemoglu 跟James Robinson等人用「工具變數法」來談制度的長期效果，或我老闆Melissa Dell利用制度邊界來做斷點迴歸，都是承接自這一浪潮。

有趣的是，我另一個老闆Ed Glaeser是最早反對Daron Acemoglu 跟James Robinson的研究的人，是為後話。

2. Bootstrapping and simulation-based inference (自助法與模擬為本的推論)：

從Bradley Efron於1979年在《Annals of Statistics》上發表Bootstrapping後，要計算標準差但硬剛不出來？就Bootstrapping。直接boot不出來？要不要試試更狂野一點的wild bootstrapping?

不過作者們認為這觀念之所以重要，不是因為可以標準差變得好算，而是指在觀念上，人類可是用密集的計算來取代數學分析。自助法是其中的一個關鍵例子，該方法透過重複對數據集進行重抽樣來近似抽樣分佈。此領域還包括其他模擬方法，使得分析複雜模型成為可能。

不過Andrew沒有提到，如果是這觀念的轉移的話，或許更多是馮紐曼在發明蒙地卡羅法的時候？

之前讀到一本書提到，因為要直接得到核反應的的closed-form太困難，於是乾粹用蒙地卡羅來算，馮紐曼因而留下那句有名的“I am thinking about something much more important than bombs; I am thinking about computers.”

3. Overparameterized models and regularization (過多參數化模型與正規化)：

這算是機器學習的起源之一，這概念是悠關於「讓我們用大量的參數來fit巨量資料吧。但這麼多的參數，哪些重要？我們會不會又過度fitting一部份的資料？

這裡延伸出來的方法，比方說，Lasso regression，就是要透過懲罰項來避免overfitting。

作為一種高度彈性模型的實踐，極端狀況下，有時模型的參數比數據還多，於是我們可以透過正規化技術來控制模型以防止過度擬合。這種方法催生了許多強大的預測模型，如類神經網絡、lasso 等等。

正規化在我哈佛的lab也扮演了重要的角色。

許多深度學習模型的訓練，可以在一樣的資料跟運算，以及幾乎一樣的演算法之下，提升十倍以上的精確程度---可能只是因為我們對loss function做了某些小小的正規化。算進階通靈。

4. Bayesian multilevel models (貝氏多層次模型)：

這類也稱為階層式模型（hierarchical models），這些模型用於結構化數據，例如panel data或統合分析（meta-analyses）的數據，應將「經驗（實證）貝氏」(empirical Bayes) 的想法形式化，透過整合資訊和部分共享（partially pooling）估計值，從而得到更穩定和合理的推斷結果。

文章沒提到太多應用，我這邊講一下：經濟學上常見的應用，就是做Meta-Analysis，比方說你要統整20篇不同RCT的結果，每個RCT都有500個受試者，你有RCT之間的差異（m=20)，給定一個RCT，你也有受試者間的差異（n=500)，這種資料就可以做階層式模型，因為你有不同RCT間的統計差異，也有RCT內部受試者的統計差異。

5. Generic computation algorithms (一般泛用的計算演算法)：

作者認為，功能強大且在各種脈絡下都通用的演算法（如 Gibbs sampler、Hamiltonian Monte Carlo 和變分推斷）的發展，是現代統計學的關鍵推動力。這些演算法使從業人員能夠擬合各種複雜的模型，而無需為每個模型開發客製化的計算方法。

6. Adaptive decision analysis (適應性決策分析)：

這裡的觀念就是邊收新樣本，調整實驗設計（Adaptive），然後一邊做出決定（比方說，平台商決定該不該調漲價格。）

這裡的觀念是是此領域將統計模型與決策過程連結起來--我這一輪應該多搜集幾個資料、多做幾個實驗？

這概念在商業上被普遍應用到了科技公司（像 A/B 測試），也影響了強化學習和貝氏最適化等方法。

7. Robust inference (穩健推斷)：

Robust大概是最不robust的術語了，經濟學家跟統計學家對於什麼是Robust的理解可能完全不同。

Andrew這邊所指的Robust inference，是指那些「開發和使用那些對其假設的違反不過度敏感的統計方法。」

其重點是創建即使在面對離群值或模型假設錯誤等問題時，依然能良好運作的模型或統計程序。

Andrew等人有提到經濟學上最大的應用，就是White's Robust Standard errors （等於STATA的reg y x, robust)。

8 Exploratory data analysis (EDA, 探索性資料分析)：

這觀念由 John Tukey 在1960提倡，也間接催生了S軟體（R軟體的前身）的誕生。在那之前，很多圖形都是手刻的。（事實上，我最近才知道一些哈佛數學系的老教授可能還是傾向手刻................他們版本更新最多到了用Power Point製圖。)

EDA 強調使用圖形化方法來探索數據、發現模式並產生假說。這種方法推動了統計領域朝向一個更開放、更注重新發現的方向發展，圖形化或資料視覺化，已成為理解數據與複雜模型之間關係不可或缺的一部分。

以上這八個觀念：反事實因果推斷、自助法與模擬為本的推論、過參數化模型與正規化、貝氏多層次模型、一般泛用的計算演算法、適應性決策分析、穩健推斷、探索性資料分析（特別是資料視覺化），是Andrew Gelman跟他的合作者Aki Vehtari認為過去半世紀最重要的統計觀念。

我自己是覺得統計研究雖然少，但fat tail的觀念很重要，因為fat tail 可以用來解釋財富不均（皮凱提的二十一世紀資本論）、生產力的分布、甚至是金融危機的黑天鵝事件，至少fat tail不會比Adaptive decision analysis不重要就是了。

留言

哈佛學記：鄭紹鈺的寫作空間

6.7K會員

208內容數

鄭紹鈺，臺大外文系，臺大經研所，哈佛大學經濟系博士班。這裡是我的寫作空間。

哈佛學記：鄭紹鈺的寫作空間的其他內容

2025/10/09

跟諾貝爾獎得主做學問：談Claudia Goldin

2023年諾貝爾經濟獎的得主是Claudia Goldin。關於她的研究有許多報導了，我就不多說了。想談談我跟她相處的經驗。我在哈佛一件相當幸運的事情，就是莫名其妙的跟Claudia Goldin結了緣，這緣份當然跟我老闆跑不掉，因為我老闆Melissa Dell跟Claudia都是哈佛經濟史學

2025/10/09

跟諾貝爾獎得主做學問：談Claudia Goldin

2025/10/08

廣告的行為經濟學意義何在？可口可樂最大的敵人不是百事可樂，而是遺忘。

「每個品牌最大的敵人，是遺忘。」哈佛經濟系最資深的教授Andrei Shleifer在Seminar如此開場道。 Shleifer是名滿天下（爭議也多）的大學者，經濟學頂尖期刊QJE歷任最久的主編之一，此君犀利無比，在國際發展經濟學實務、政治經濟學、行為財務等諸都多領域影響甚巨，Google Sc

2025/10/08

廣告的行為經濟學意義何在？可口可樂最大的敵人不是百事可樂，而是遺忘。

2025/08/31

哈佛求學記：博一總體經濟理論上的上半學期：動態規劃與資產/資本累積

本文分享作者在哈佛大學學習總體經濟學的經歷，特別是上半學期David Laibson教授關於動態規劃與最佳化的課程。課程內容涵蓋儲蓄、資產、資本三態，並深入探討資產定價、股權溢酬之謎、實質期權理論等前沿課題，並與古典經濟學家和奧地利學派理論的比較。

2025/08/31

哈佛求學記：博一總體經濟理論上的上半學期：動態規劃與資產/資本累積

看更多

你可能也想看

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

Oceanbaymax

橡皮擦計畫：心理學家Daniel Kahneman與Amos Tversky的故事

─改變人類對決策/判斷理解的劃時代研究謹以此篇文章致敬當代心理學巨擘 Daniel Kahneman與他的傑出貢獻。

#閱讀心得#橡皮擦計畫#心理學

2024/03/29

Oceanbaymax

橡皮擦計畫：心理學家Daniel Kahneman與Amos Tversky的故事

─改變人類對決策/判斷理解的劃時代研究謹以此篇文章致敬當代心理學巨擘 Daniel Kahneman與他的傑出貢獻。

#閱讀心得#橡皮擦計畫#心理學

2024/03/29

老蔡書評的沙龍

家在世界的屋宇下：諾貝爾獎經濟學大師阿馬蒂亞．沈恩回憶錄

經濟學是一門人和社會互動的學問，許多經濟學上的預測，都因為人性而失了準。身為一個挺上流階級出身的經濟學家，關心的卻是福祉經濟學，這本回憶錄說明了人確實是經驗的動物，而在經驗中，開出人性的花朵。跟著讀書會，分二次把這本其實有點厚度的書讀完，大致算是通順好讀的。從他的成長背景開始說起，非常流暢的說明

#老蔡書評#經濟學#歷史

2024/07/25

老蔡書評的沙龍

家在世界的屋宇下：諾貝爾獎經濟學大師阿馬蒂亞．沈恩回憶錄

#老蔡書評#經濟學#歷史

2024/07/25

吳猴子的阿卡西紀錄的沙龍

【阿卡西紀錄大哉問】什麼是阿卡西紀錄？阿卡西紀錄危險嗎？

阿卡西紀錄是這幾年來忽然爆紅的討論，很多YT網紅都有討論過這個話題，但其實阿卡西紀錄已經在國外使用多年，我本人也是斷斷續續的從阿卡西紀錄中找尋自我存在的價值，有意無意間的可以感受高我的訊息，但我要說的是，我沒有刻意，而是我一開始就用開放的心態去接收各種訊息，從平常開始訓練自己不先入為主，我想這是

#體驗#智慧#祖先

2024/05/13

吳猴子的阿卡西紀錄的沙龍

【阿卡西紀錄大哉問】什麼是阿卡西紀錄？阿卡西紀錄危險嗎？

#體驗#智慧#祖先

2024/05/13

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28