2.2 值函数和贝尔曼方程_深度强化学习理论与实践-QQ阅读女生幻言网

2.2　值函数和贝尔曼方程

1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程，并在此基础上定义了有限马尔可夫链，本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为

以下首先基于马尔可夫链定义3个重要的概念。