- 深度强化学习理论与实践
- 龙强 章胜编著
- 115字
- 2024-12-27 22:25:08
2.2 值函数和贝尔曼方程
1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为
![](https://epubservercos.yuewen.com/5CB485/31398603504091106/epubprivate/OEBPS/Images/Figure-P35_23818.jpg?sign=1738924771-nTjgdBiJQtSYqxIZNeaXWpWynZBIXMpx-0-bbb099aaf8e86f7d587292c5a4e7b632)
以下首先基于马尔可夫链定义3个重要的概念。
1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为
以下首先基于马尔可夫链定义3个重要的概念。