重啟撲克機器人之路 -7 :放棄大型語言模型

更新 發佈閱讀 2 分鐘
vocus|新世代的創作平台

過一番分析後,我決定放棄使用大型語言模型(如Claude、GPT)作為核心決策引擎。這個決定主要基於: 1. 這些模型所訓練的撲克概念可能已經過時(這是我瞎猜的),大約還停留在幾年前的思維方式,對現代撲克理論(如均衡策略、無差異策略等)的理解似乎不夠深入。2. 即使是表現較好的高階模型,在實際應用中面臨著時間和資源的巨大限制。

轉而開始思考一個混合式的解決方案:使用較小的語言模型,通過fine-tuning注入poker知識和pre-solved solutions。這個方向讓我感到興奮,因為它可能既能保持決策的靈活性,又能控制運算成本。我計劃將這些年投資在poker學習上的內容作為訓練資料,雖然fine-tuning對我來說還是個較為模糊的概念,但這個挑戰讓我充滿期待。

在實現細節上,我打算採用分層策略:preflop階段使用80%的預設策略,剩下20%的特殊情況才調用模型;到了postflop,在flop階段保持60-70%的基本策略,然後在turn和river這些更複雜的streets增加模型的參與度。如果能將平均決策時間控制在5-6秒內,應該就能滿足實戰需求。

回想起數年前開發PIO solver bot時的經歷,當時因為運算時間的限制而不得不大幅簡化決策樹,既使後期使用了pre-solved的策略,最終在實戰中表現不佳,直到今天我依舊搞不清楚究竟是什麼原因,bankroll在搞清楚前就燒光了。後來轉向開發硬編碼的撲克機器人,單純使用player pool數據剝削,在微注額級別取得了一定成效,但也一段時間後就被玩家識破,畢竟策略過於固定。這次的新嘗試,我希望能通過混合語言模型的方式,架起理論最優解與實戰環境之間的橋樑。雖然前方還有許多技術細節需要研究,特別是關於如何進行模型fine-tuning,但我對這個新方向充滿期待。

留言
avatar-img
傑劉的沙龍
3會員
18內容數
傑劉的沙龍的其他內容
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
看更多
你可能也想看
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我想 這就是圍棋最純粹的樣子吧
Thumbnail
我想 這就是圍棋最純粹的樣子吧
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News