第十七篇 强化学习(1)-马尔可夫决策过程

马尔可夫决策过程

马尔可夫性质:当前状态可以完全表征过程。

对于任意有限的马尔可夫决策过程,都存在一个最优策略,不差于其他所有可能的策略。

贝尔曼方程

第十七篇 强化学习(1)-马尔可夫决策过程

http://yoursite.com/2021/09/02/RL/

Author

s-serenity

Posted on

2021-09-02

Updated on

2021-09-25

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.