第十七篇 强化学习(1)-马尔可夫决策过程

马尔可夫决策过程

马尔可夫性质:当前状态可以完全表征过程。

对于任意有限的马尔可夫决策过程,都存在一个最优策略,不差于其他所有可能的策略。

贝尔曼方程