AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
77/100 第八週:📌 多智慧體與競合學習
77.多智慧體中的探索困境 🔄 策略碰撞與局部最優!
_______________________________________
🎯 單元目標:
了解多智慧體強化學習(Multi-Agent RL, MARL)中的探索問題,包含策略碰撞、環境不穩定性,以及如何跳脫局部最優解的技術與挑戰。
________________________________________
🧠 一、什麼是探索困境(Exploration Dilemma)?
在單一 agent 中,探索與利用(exploration vs. exploitation)的平衡就是經典問題。
但在多智慧體環境下,這個問題更複雜:
🌀 主要挑戰:
• 🎯 策略碰撞 (Policy Collision)
o 多個 agent 同時探索,行動互相干擾,導致學習失敗。
• 🎲 協調困難 (Coordination Difficulty)
o 單個 agent 嘗試新策略時,若其他 agent 沒有同步調整,可能導致整體表現下降。
• ⛔ 不穩定學習目標 (Non-stationary Targets)
o 每個 agent 都在改變自己的策略,讓其他 agent 的環境變得不穩定。
• 🧱 局部最優卡死 (Local Optima Traps)
o 全體 agent 意外地達到一種「次佳」合作,導致探索停滯。
_______________________________________
🚧 二、案例說明:策略碰撞的真實情境
🎮 例:兩個智慧體過橋
• 只有一條橋可通行
• 兩人都採取「嘗試過橋」→ 同時碰撞 → 雙雙失敗
• 若一人讓步,另一人成功 → 但讓步者沒有學到成功經驗
📌 結果:雙方都不願讓步,學習過程中持續碰撞,無法穩定收斂
________________________________________
🧪 三、局部最優的形成:獵鹿問題
🎯 經典「獵鹿博弈(Stag Hunt)」條列整理
• 行動選擇與收益:
o 🐇 狩兔 (Hunt Rabbit) :穩定、安全,收益 1 分
o 🦌 狩鹿 (Hunt Stag) :需合作成功,收益 3 分
• 核心特性:
o 狩兔 → 個人保守穩定策略,容易達成但報酬低
o 狩鹿 → 高收益合作策略,但需雙方同步信任與合作
• 潛在困境:
o 若 agent 保守選擇狩兔,系統可能長期停留在次優解
o 缺乏協作誘因時,合作學習難以自發達成高收益狩鹿
• 合作達成條件:
o 需要雙方:
同步探索
互信機制
穩定誘導設計
• 應用啟發:
o 典型用於說明:多智能體合作訓練的協調困難問題 (Coordination Problem)
________________________________________
🧠 四、解法與對策
🎯 解法策略整理
🎲 協調探索策略
例如使用 centralized controller 或 curriculum learning 引導多個 agent 同步嘗試新策略,避免單邊探索導致協作失敗。
🔄 適應性學習率
讓 agent 在表現穩定後再逐步調整策略,降低彼此快速變動造成的策略碰撞現象。
🌐 Opponent Modeling(對手建模)
預測其他 agent 的行為與策略,讓自己的探索方向更具預期性,提升協作效率。
🔍 Entropy Regularization(熵正則化)
增加策略隨機性,避免過早陷入固定單一行為模式;如 SAC 中的最大熵學習框架。
________________________________________
🔄 五、關鍵思維:探索的時間與協同策略
成功避開探索困境的關鍵在於:
1. 不是每個 agent 隨機亂試就能學好
2. 探索要「協調」、「分批」、「有策略」
3. 允許 agent 建立對彼此行為的預期模型,減少混亂
________________________________________
✨ 小結:
• 多智慧體探索不僅是嘗試新策略,更是 彼此間策略的協同與容錯
• 單一 agent 的最優策略,若無他人配合,可能導致學習災難
• 避免陷入局部最優,須設計具備 對抗性探索與長期協同收益考量 的學習框架