增強式學習將機器學習融入模擬環境中，讓具備類神經網路的智慧體(agent)透過與環境的互動來學習。在與環境互動的過程中，智慧體會因其決策結果的好壞而得到獎勵或懲罰；結果好的決策會得到獎勵，而結果不好的決策則會得到懲罰。透過這種棒子與胡蘿蔔恩威並施的方式，智慧體就會學到最佳的策略。

閱讀書評

學習

以行動支持創作者！付費即可解鎖