第十七篇 强化学习(1)-马尔可夫决策过程
马尔可夫决策过程
马尔可夫性质:当前状态可以完全表征过程。
对于任意有限的马尔可夫决策过程,都存在一个最优策略,不差于其他所有可能的策略。
贝尔曼方程
第十七篇 强化学习(1)-马尔可夫决策过程
You need to set
install_url
to use ShareThis. Please set it in _config.yml
.