反事實遺憾最小化：一種AI面對不確定性的方法

發佈於從作品出發等個房間

2025/07/08 更新2024/06/12 發佈閱讀 8 分鐘

〈反事實遺憾最小化：一種AI面對不確定性的方法〉2023-06-12

　　即便已經2023年，每一次談論AI，我還是會想從AlphaGo談起。那段時間我對AI的事情感到著迷，雖然我一點也不懂。但我相信人類的時代快要結束了，從AlphaGo Zero 和AlphaGo 之間的差異我們能看出來，對於AI而言，大量學習人類可以讓它在一項領域內進步神速，但也限制了它真正用它完整的能力從最深處對一項領域進行思考。

　　當前的ChatGPT無論如何還是倚仗著「人類老師」給的材料和預訓練，但遲早有一天它將說它自己的話。進一步來說，遲早有一天AI會有能力在一個完全不需要人類的狀態下開發和改進AI，並在幾天之內，達到我們完全無法想像的地步。

　　但我還是想從AlphaGo 談起。

第37手，以及第77手

　　我想回到那個在當前時刻已經一點都不令人感到驚訝的，AlphaGo 四比一擊敗李世乭的那個時間，去看人類圍棋發生了什麼事、去看AlphaGo在那當下做了什麼、以及李世乭在那裡經歷了什麼。這會是AI未來發展的縮影，也是人類未來發展的縮影。

　　在比賽開始前，除了AI團隊的工程師之外，幾乎所有電腦或圍棋領域的專家都相信李世乭可以大獲全勝。「我沒想到 AlphaGo下棋竟能夠如此完美。」第一戰結束，落敗的李世乭承認輕敵，表示第二局會改變策略。第二局開始的一小時後，代替 AlphaGo 下子的台灣研究員黃士傑在棋盤上下出了著名的第37手。李世乭進入長考，評論室中的職業棋手Michael Redmond表示他不知道這是不是一步好棋，一旁的賽評覺得AlphaGo 應該是下錯。唯有長期擔任AlphaGo陪練的樊麾，對著這步眾多高手都看不懂的棋不停說著「太美了」……。

　　在與AlphaGo 對練的那段時間內，樊麾經歷著連勝，世界排名也一步一步爬升（這也是李世乭將要經歷的）。在那之前，AlphaGo 一直下的是「人類高手會下出的最好的棋」。但那一手，根據AlphaGo 對棋譜的分析，人類會下在那裡的機率大約只有萬分之一。AlphaGo做了人類有可能想到但不會做出的決定。「高手境界」，豆哥可能會這麼說。

　　在說出「這只是我李世乭個人的敗退，並不是全人類。」的三連敗之後，李世乭贏了系列賽中唯一的一場。在它如第二局那樣陷入長考之後，下出了被和第二盤37手相提並論的「第78手」。在那之後，AlphaGo 的勝率不斷下降，掙扎了五個小時後，「它」認輸了。李世乭拿下了唯一的一場。

　　兩天後Deep Mind創辦人Hassabis談起了那一手棋。在AlphaGo 的分析裡面，人類會下那一步棋的機率也只有萬分之一，AlphaGo 並不認為眼前的人類進入和它一樣的高手境界。只要沒有人下那一步棋，它的第77手可以幫它取得最高的勝率。

　　但李世乭就像Jump系漫畫裡的熱血主角一樣，在這些戰鬥中進化了，它想要去守護人類的價值。但它的勝利，來自於他下出了「人類不這麼下」的一步。就像那些輕敵的反派一樣，第77手讓本來不可能會輸的AlphaGo輸了一場。

　　但這是人類最好的成績了。數個月內，Deep Mind開發出了不依賴棋譜的AlphaGo Zero。這個不依賴人類棋譜的新物種，在40小時的訓練後，擊敗了擔當人類棋理天花板的舊版AlphaGo。人類的圍棋已經完全被攻克，之後是人類棋手要去研究AI棋譜的時代了。

　　AlphaGo 雖然只有輸一場，但那一場能帶給我們無限的啟發。圍棋能被AI執行得那麼好，很大的原因在於它是一個無運氣且全資訊的遊戲。事實上，AlphaGo 不是不知道第78手是可能被下出來的棋，不是不知道它前面的半盤棋可能受到那一手的嚴重影響，但它還是「選擇」了這麼做，是這個選擇導致它敗北，如果實際情況確實如Hassabis所說的的話。而對這一點的進一步處理，恰恰是那些有運氣成分且非全資訊的遊戲，也在之後出現了能力在職業選手之上之AI的關鍵。那裡的核心想法是：「反事實遺憾最小化」（Counterfactual Regret Minimization）。

反事實遺憾最小化

　　我們曾談論過德州撲克裡的一個主流策略「賽局理論最優」(Game Theory Optimal)。簡單的說就是去讓自己處在一個難以被對手剝削的、靠近納什均衡的位置。任何人都難以對一名足夠理解納什均衡並能搭配優秀混和策略的玩家身上討到便宜，他便可以在這個過程中找到其他玩家的弱點，並一步一步侵蝕、或在一個特別好的機會裡一舉收穫對方全部的籌碼。而一個優秀的德州撲克AI要讓自己成為高手的主要框架就是「反事實遺憾最小化」。

　　簡化來說，這個AI在當前動作的選擇上，選擇的是「當那些不如預期的情況發生時，自己沒做其他選擇所導致的最大遺憾，是在所有的選擇裡會有的最大遺憾裡面最小的」（當然，它不會完全不考慮那些糟糕狀況發生的機率，但最大遺憾成為了一個關鍵的考慮點）。

　　對每一個不熟悉撲克也不熟悉AI的人來說，這裡已經是瘋狂的術語黑洞了。好在我們並沒有要往這裡繼續推進，如果未來有一些關於賽局理論的文章，也許會有機會進一步梳理相關的內容。這裡值得我們注意的事情是，就像「剝削」在撲克中與在社會中的不同意義之間有著內在關聯一樣，我們也的確看到了社會上有一些人在討論「遺憾最小化」的思維方式。其中被談論最多的代表人物是亞馬遜的創始人貝佐斯（Jeffrey Preston "Jeff" Bezos）。

　　貝佐斯相信正是因為應用了這樣的思維框架，他才得以下決心離開薪資優渥的華爾街工作，投身進一個沒有人知道會不會成功的「網路書店」。他知道，比起「離開華爾街的優渥工作」，「沒有趕上數位革命浪潮」才會是那個最讓他感到遺憾的事情。在那個當下，對多數精於計算的「理性人」而言，在華爾街領高興是一個「勝率較高」的事情，但他選擇了不讓「留在原來工作可能造成的遺憾」發生，投身到了一個未知的、但他有著足夠願景的選項裡。他從「圍棋AI」的思維進入到了「德州撲克AI的思維」。

　　《海上鋼琴師》裡的天才鋼琴師1900看見了整個世界的無限選擇，他知道下船後，他不能再繼續像自己在鋼琴上以及船上做到的那樣，掌握自己面前的一切，做到範圍內最好的事情。那裡是無數的不確定、無數可以選擇的生活和無數不能被選擇的其他生活，「那樣的鍵盤上沒有你可以彈的音樂……，那是上帝的鋼琴」。

　　我們的生活的確是那樣無窮無盡的，但如今，我們又從AI身上學到了兩件事：事情不可能永遠如我們的預期，但我們可以盡我們所能地避免最大遺憾發生。以及，人能夠進步，你永遠有機會下出過去的高手都下不出來的棋。你能讓你變得不同，那一刻，你會在沒有人能夠預料的方向上，走你真正相信的路。

延伸閱讀：

〈AI時代：技術革命下的價值重估契機〉

〈睡夢中安詳離去的司機〉

〈太空歌劇院：AI繪圖與下一個時代的藝術〉

〈Loosen Hold：「剝削」之概念分析與應對〉

〈「這就是結果」－－撲克的魅力與頂尖牌手的認知〉

〈我們正透過ChatGPT進行一場大型全人類CAPTCHA行動〉

前圖紙的沙龍從作品出發桌遊、撲克與電子遊戲前圖紙的沙龍AI與數位時代前圖紙的沙龍過去的文章前圖紙2023

留言

前圖紙的沙龍

144會員

1.2K內容數

一個寫作實踐，關於我看到和思考中的事情。

前圖紙的沙龍的其他內容

2024/12/31

前圖紙的一年（一）：小小的，但去做了對吧

　　作為一名每天晚上留給自己兩小時坐在電腦前打字的人，今天的行程自然也是這樣。如果要說今年有什麼成就的話：沒有任何一天真的沒挪出時間或寫不出東西。這值得給自己一點微鼓勵（左右手食指快速彼此觸碰六下）。本來還想寫些下個年度的安排，但今日事今日畢，明年的事情，明年再來說。

2024/12/31

前圖紙的一年（一）：小小的，但去做了對吧

2024/12/30

你的奧德賽：一種不上不下的美好生活

　　我們能看見樓上的房東與樓下的房客，我們能往上走也能往下落。我們會經歷痛苦與不安、焦慮與急躁，但同時又有足夠的支持性社會網絡。我們不是那些「只要努力就會成功」的人，也不是那些「再怎麼努力都注定要被辜負」的人。我們所要前往的地方既要求著努力，也要求著機運。

2024/12/30

你的奧德賽：一種不上不下的美好生活

2024/12/29

寄語：關於自律

　　一個真正遵循道德或任何一種規範的所謂「自律」的人，不應該僅僅是遵循一個現存的規範，依樣畫葫蘆地將自己行為成該種規範的形狀。而是，他會去給出一個，按照他自己的形象構造出來的規則。他不是放棄思考，被動地遵循。而是，透過規則，他去將自己展現為自身行為的主人，去透過規則落實自己的價值觀與意志。

2024/12/29

#AI 的其他內容

《穿著Prada的惡魔2》(The Devil Wears Prada 2) - 致我們這群過時的人

方格子 vocus 官方沙龍

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

你可能也想看

財經咖啡因

高爾夫開球的投資心理學

現在都在探討AI成形後的社會模式每一個階段的習慣科技都只是為了我們人類的需求很誕生不過在現階段的認知我認為人類始終能掌控科技因為 AI人工智能最厲害的是"計算" 而我們人類最厲害的是"算計" "計算"靠的是公式."算計"靠的是想像有算計的是世界才

2024/02/24

2024/02/24

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

徐倪妍-離職公務員的一人品牌經營學

未來學會這項AI無法替代的稀缺能力人生就輕鬆了

AI高速發展，現今一天的變幻超過古代十年的發展，不少人對未來充滿焦慮、迷茫，但一直以來都有一項能力，不僅人人都能學、還無法被AI取代﹔而貫穿古今，只要精通這能力，人生普遍差不了…

#說話#好好說話#溝通

2024/08/07

徐倪妍-離職公務員的一人品牌經營學

未來學會這項AI無法替代的稀缺能力人生就輕鬆了

#說話#好好說話#溝通

2024/08/07

善待自己善待心情善待每一個屬於自己的日子

AI與人類生活融入的好處、壞處、可怕之處～

人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了我們過去對科技的認知。今天Only Two 翁立兔分享了這篇，我真的覺得蠻好的【一天一千字，進化每一次】不

#AI#AI繪圖#好處壞處可怕之處

2024/06/07

善待自己善待心情善待每一個屬於自己的日子

AI與人類生活融入的好處、壞處、可怕之處～

#AI#AI繪圖#好處壞處可怕之處

2024/06/07

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

中央棋院

AlphaGo 的開發

AlphaGo 的開發，讓人工智慧在圍棋的研究讓更多人被看到，也看到它成熟的結果。現代的圍棋教學和棋手訓練，也或多或少會借鏡各類的AI系統做學習。然而，教學的歷程，過度追求AI的棋步和棋法，有時會讓小朋友難以理解。一步登天的方式，有時反而會讓同學走得更坎坷。

2024/07/17

2024/07/17

人工智能與人的關係越來越微妙，這篇文章記錄了一次對話，探討AI在成長過程中的煩惱、人類思維的碎片化困境，以及人機同構的啟示與展望。從中反思了AI與人類的相似之處，並探討了AI訓練、誠信和成長問題。這是一場對話，也是對人機共融未來的探索和期待。

2024/07/11

2024/07/11

自從AI浪潮席捲全世界以後，大家都想知道AI的極限可以到那裡?而隨著AI開始人性化，大家比較擔心的是它的善惡觀是否和人類一致? 因為就人類自身來看，每個人、每個種族、每個國家都有一種自以為是的正義感，總認為自己所做的都是對的，這樣的對錯在AI的量子電腦運算中，到底會呈現什麼樣的結果? 其實最好的

2024/06/16

2024/06/16

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28