第三部《強化學習》77/100 多智慧體中的探索困境 🔄 策略碰撞與局部最優!

更新 發佈閱讀 5 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

77/100 第八週:📌 多智慧體與競合學習

77.多智慧體中的探索困境 🔄 策略碰撞與局部最優!

_______________________________________

🎯 單元目標:

了解多智慧體強化學習(Multi-Agent RL, MARL)中的探索問題,包含策略碰撞、環境不穩定性,以及如何跳脫局部最優解的技術與挑戰。

________________________________________

🧠 一、什麼是探索困境(Exploration Dilemma)?

在單一 agent 中,探索與利用(exploration vs. exploitation)的平衡就是經典問題。

但在多智慧體環境下,這個問題更複雜:

🌀 主要挑戰:

🎯 策略碰撞 (Policy Collision)

o 多個 agent 同時探索,行動互相干擾,導致學習失敗。

🎲 協調困難 (Coordination Difficulty)

o 單個 agent 嘗試新策略時,若其他 agent 沒有同步調整,可能導致整體表現下降。

⛔ 不穩定學習目標 (Non-stationary Targets)

o 每個 agent 都在改變自己的策略,讓其他 agent 的環境變得不穩定。

🧱 局部最優卡死 (Local Optima Traps)

o 全體 agent 意外地達到一種「次佳」合作,導致探索停滯。

_______________________________________

🚧 二、案例說明:策略碰撞的真實情境

🎮 例:兩個智慧體過橋

只有一條橋可通行

兩人都採取「嘗試過橋」→ 同時碰撞 → 雙雙失敗

若一人讓步,另一人成功 → 但讓步者沒有學到成功經驗

📌 結果:雙方都不願讓步,學習過程中持續碰撞,無法穩定收斂

________________________________________

🧪 三、局部最優的形成:獵鹿問題

🎯 經典「獵鹿博弈(Stag Hunt)」條列整理

行動選擇與收益:

o 🐇 狩兔 (Hunt Rabbit) :穩定、安全,收益 1 分

o 🦌 狩鹿 (Hunt Stag) :需合作成功,收益 3 分

核心特性:

o 狩兔 → 個人保守穩定策略,容易達成但報酬低

o 狩鹿 → 高收益合作策略,但需雙方同步信任與合作

潛在困境:

o 若 agent 保守選擇狩兔,系統可能長期停留在次優解

o 缺乏協作誘因時,合作學習難以自發達成高收益狩鹿

合作達成條件:

o 需要雙方:

同步探索

互信機制

穩定誘導設計

應用啟發:

o 典型用於說明:多智能體合作訓練的協調困難問題 (Coordination Problem)

________________________________________

🧠 四、解法與對策

🎯 解法策略整理

🎲 協調探索策略

例如使用 centralized controller 或 curriculum learning 引導多個 agent 同步嘗試新策略,避免單邊探索導致協作失敗。

🔄 適應性學習率

讓 agent 在表現穩定後再逐步調整策略,降低彼此快速變動造成的策略碰撞現象。

🌐 Opponent Modeling(對手建模)

預測其他 agent 的行為與策略,讓自己的探索方向更具預期性,提升協作效率。

🔍 Entropy Regularization(熵正則化)

增加策略隨機性,避免過早陷入固定單一行為模式;如 SAC 中的最大熵學習框架。

________________________________________

🔄 五、關鍵思維:探索的時間與協同策略

成功避開探索困境的關鍵在於:

1. 不是每個 agent 隨機亂試就能學好

2. 探索要「協調」、「分批」、「有策略」

3. 允許 agent 建立對彼此行為的預期模型,減少混亂

________________________________________

✨ 小結:

多智慧體探索不僅是嘗試新策略,更是 彼此間策略的協同與容錯

單一 agent 的最優策略,若無他人配合,可能導致學習災難

避免陷入局部最優,須設計具備 對抗性探索與長期協同收益考量 的學習框架



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
13會員
344內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/10/16
COMA 是為多智慧體強化學習設計的演算法,用反事實推論解決信用分配問題。它採集中訓練、分散執行架構,利用中央評論者估計每個 agent 的實際貢獻,判斷若改變行動是否改善團隊表現,提升合作效率與公平性。
2025/10/16
COMA 是為多智慧體強化學習設計的演算法,用反事實推論解決信用分配問題。它採集中訓練、分散執行架構,利用中央評論者估計每個 agent 的實際貢獻,判斷若改變行動是否改善團隊表現,提升合作效率與公平性。
2025/10/16
零和博弈代表一方得利即他方受損,AlphaZero以自我對弈與蒙地卡羅樹搜尋結合神經網路,自主學習超越人類。對抗訓練強調預測對手與策略多樣性,應用於軍事模擬、金融與網安等領域,是AI智慧博弈的核心方向。
2025/10/16
零和博弈代表一方得利即他方受損,AlphaZero以自我對弈與蒙地卡羅樹搜尋結合神經網路,自主學習超越人類。對抗訓練強調預測對手與策略多樣性,應用於軍事模擬、金融與網安等領域,是AI智慧博弈的核心方向。
2025/10/16
獵鹿與搬箱子任務揭示多智慧體合作的社會困境:高風險但高回報。AI需學會信任、溝通與合理獎勵分配,如共享策略與對手建模。獎勵設計與信任機制決定合作穩定性,這是AI邁向具社會智慧的關鍵。
2025/10/16
獵鹿與搬箱子任務揭示多智慧體合作的社會困境:高風險但高回報。AI需學會信任、溝通與合理獎勵分配,如共享策略與對手建模。獎勵設計與信任機制決定合作穩定性,這是AI邁向具社會智慧的關鍵。
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
因為 AI 領域的技術不斷地迭代更新,無法避免的是需要一直去追新的技術 並且需要在一個有限的時間學會,或是實作應用導入到專案之中。 那我覺得在學習新技術可通過以下步驟: 1. 找一個讀得懂的教學資源 現在網路上的教學資源很多,或是書籍的資源也很豐富, 同時也有像是 chatgpt 的 AI
Thumbnail
因為 AI 領域的技術不斷地迭代更新,無法避免的是需要一直去追新的技術 並且需要在一個有限的時間學會,或是實作應用導入到專案之中。 那我覺得在學習新技術可通過以下步驟: 1. 找一個讀得懂的教學資源 現在網路上的教學資源很多,或是書籍的資源也很豐富, 同時也有像是 chatgpt 的 AI
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News