状态价值（State values）

定义

状态价值是强化学习中的核心概念，用于衡量Agent从某个状态出发、遵循特定策略后所能获得的期望回报。

数学表达为：

v_{π} (s) = E [G_{t} ∣ S_{t} = s]

其中：

$v_{π} (s)$ ：状态 $s$ 的状态价值函数（state-value function）或者简称为状态价值（state value）；
$π$ ：智能体遵循的策略；
$G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots$ ：从当前时间步 $t$ 开始的折扣回报；
$γ \in (0, 1)$ ：折扣因子，用于平衡即时奖励和未来奖励。

状态价值的特点

**依赖于状态 ** $s$ ：状态价值是条件期望，条件是智能体从状态 $s$ 开始。
**依赖于策略 ** $π$ ：不同策略会生成不同的轨迹，从而影响状态价值。
与时间步无关：状态价值是一个固定值，与当前时间步 $t$ 无关。
代表一个状态的价值。如果一个状态的价值更高，那么策略就更好，因为可以获得更大的累积奖励。
💡 **Return和State value的区别：return是一个轨迹带来的折扣奖励和，而state value 是在一个policy下所有的轨迹奖励和的期望也就是所有轨迹对应的return的期望**

贝尔曼方程（Bellman Equation）

定义与核心思想

贝尔曼方程是一组线性方程，描述了所有状态价值之间的相互关系。通过求解贝尔曼方程，可以计算出所有状态的价值，从而实现策略评估（Policy Evaluation）

贝尔曼方程的基础形式为：

v_{π} (s) = E [R_{t + 1} + γ v_{π} (S_{t + 1}) ∣ S_{t} = s]

其中：

$R_{t + 1}$ ：从状态 $s$ 出发时获得的即时奖励；
$S_{t + 1}$ ：下一时间步的状态；
$γ v_{π} (S_{t + 1})$ ：对未来回报的折扣期望。

推导过程

通过分解回报 $G_{t}$ 的形式：

G_{t} = R_{t + 1} + γ G_{t + 1}

带入 1式可以得到：

v_{π} (s) = E [G_{t} ∣ S_{t} = s] = E [R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s]

进一步分解为：

v_{π} (s) = E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s]

可以看出上式存在两个部分，将在下面具体展开：

First term: 即时奖励期望

首先，计算第一项 $E [R_{t + 1} ∣ S_{t} = s]$ ：

E [R_{t + 1} ∣ S_{t} = s] = a \in A (s) \sum π (a ∣ s) E [R_{t + 1} ∣ S_{t} = s, A_{t} = a] = a \in A (s) \sum π (a ∣ s) r \in R \sum p (r ∣ s, a) r .

其中， $R$ 依赖于 $(s, a)$ 。

🧾 给定事件 $R_{t + 1} = r, S_{t} = s, A_{t} = a$ ，证明相当简单。

Second term：未来（折扣）回报期望

首先，我们计算未来奖励的均值,

E [G_{t + 1} ∣ S_{t} = s] = s^{'} \sum E [G_{t + 1} ∣ S_{t} = s, S_{t + 1} = s^{'}] p (s^{'} ∣ s) = s^{'} \sum E [G_{t + 1} ∣ S_{t + 1} = s^{'}] p (s^{'} ∣ s) = s^{'} \sum v_{π} (s^{'}) p (s^{'} ∣ s) = s^{'} \sum v_{π} (s^{'}) a \sum p (s^{'} ∣ s, a) π (a ∣ s)

然后我们将其与折扣因子 $γ$ 相乘。为了简单起见，我们说第二个项 $γ E [G_{t + 1} ∣ S_{t}]$ 是“未来奖励的平均值”，它是折扣的。

🧾 上面推导过程中，第一行也来自全期望值定理；

合并到一起

将上面两个项合在一起就得到了贝尔曼方程的完整形式：

v_{π} (s) = E [R_{t + 1} ∣ S_{t} = s] + γ E [G_{t + 1} ∣ S_{t} = s], = mean of immediate rewards a \sum π (a ∣ s) r \sum p (r ∣ s, a) r + (discounted) mean of future rewards γ s^{'} \sum π (a ∣ s) a \sum p (s^{'} ∣ s, a) v_{π} (s^{'}), = a \sum π (a ∣ s) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})], \forall s \in S .

贝尔曼方程是一组线性方程，描述了所有状态值之间的关系。
上述逐元素形式对每个状态 ** $s \in S$ 都有效。这意味着有 $∣ S ∣$ 个这样的方程！**
$p (r ∣ s, a)$ 和 ** $p (s^{'} ∣ s, a)$ 代表系统模型**

Examples

还是以Grid-World为例。

确定性策略

首先，考虑状态 $s_{1}$ 。在该策略下，采取行动的概率为

π (a = a_{3} ∣ s_{1}) = 1 and π (a \neq = a_{3} ∣ s_{1}) = 0.

状态转移概率为

p (s^{'} = s_{3} ∣ s_{1}, a_{3}) = 1 and p (s^{'} \neq = s_{3} ∣ s_{1}, a_{3}) = 0.

奖励概率是:

p (r = 0 ∣ s_{1}, a_{3}) = 1 and p (r \neq = 0 ∣ s_{1}, a_{3}) = 0.

将这些值代入之前提到的贝尔曼方程式2 中，得到:

v_{π} (s_{1}) = 0 + γ v_{π} (s_{3})

同理，可以得到

v_{π} (s_{2}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{3}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{4}) = 1 + γ v_{π} (s_{4}) .

我们可以从这些方程中求解状态值。由于方程简单，我们可以手动求解。更复杂的方程可以通过后面提出的算法求解。在这里，状态值可以求解为

v_{π} (s_{4}) = \frac{1}{1 - γ}, v_{π} (s_{3}) = \frac{1}{1 - γ}, v_{π} (s_{2}) = \frac{1}{1 - γ}, v_{π} (s_{1}) = \frac{γ}{1 - γ} .

如果设置 $γ = 0.9$ ，则

v_{π} (s_{4}) = \frac{1}{1 - 0.9} = 10, v_{π} (s_{3}) = \frac{1}{1 - 0.9} = 10, v_{π} (s_{2}) = \frac{1}{1 - 0.9} = 10, v_{π} (s_{1}) = \frac{0.9}{1 - 0.9} = 9.

随机策略

在状态 $s_{1}$ ，向右和向下的概率均为 0.5。从数学上讲，我们有 $π (a = a_{2} ∣ s_{1}) = 0.5$ 和 $π (a = a_{3} ∣ s_{1}) = 0.5$ 。状态转移概率是确定的，因为 $p (s^{'} = s_{3} ∣ s_{1}, a_{3}) = 1$ 和 $p (s^{'} = s_{2} ∣ s_{1}, a_{2}) = 1$ 。奖励概率也是确定的，因为 $p (r = 0 ∣ s_{1}, a_{3}) = 1$ 和 $p (r = - 1 ∣ s_{1}, a_{2}) = 1$ 。将这些值代入式2 得到

v_{π} (s_{1}) = 0.5 [0 + γ v_{π} (s_{3})] + 0.5 [- 1 + γ v_{π} (s_{2})]

同样，可以得到

v_{π} (s_{2}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{3}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{4}) = 1 + γ v_{π} (s_{4}) .

同样可以手动求解出上面方程组，得到

v_{π} (s_{4}) v_{π} (s_{3}) v_{π} (s_{2}) v_{π} (s_{1}) = \frac{1}{1 - γ}, = \frac{1}{1 - γ}, = \frac{1}{1 - γ}, = 0.5 [0 + γ v_{π} (s_{3})] + 0.5 [- 1 + γ v_{π} (s_{2})], = - 0.5 + \frac{γ}{1 - γ} .

设置 $γ = 0.9$ ，则

v_{π} (s_{4}) = 10, v_{π} (s_{3}) = 10, v_{π} (s_{2}) = 10, v_{π} (s_{1}) = - 0.5 + 9 = 8.5.

这表明第一个例子的策略更好，因为它具有更大的状态值。这个数学结论与直觉是一致的，即第一个策略更好，因为当Agent从 $s_{1}$ 移动时，它可以避免进入禁区。结论是，以上两个示例表明状态值可用于评估策略。

贝尔曼方程的计算方法

式2 中的贝尔曼方程是一种 element-wise的形式，这意味着有像这样的 $∣ S ∣$ 个方程！如果我们把所有方程放在一起，我们得到一组线性方程，可以简洁地写成矩阵-向量的形式。

矩阵-向量形式

首先，我们对式2 进行重写，

v_{π} (s) = r_{π} (s) + γ s^{'} \sum p_{π} (s^{'} ∣ s) v_{π} (s^{'})

其中，

r_{π} (s) ≜ a \sum π (a ∣ s) r \sum p (r ∣ s, a) r, p_{π} (s^{'} ∣ s) ≜ a \sum π (a ∣ s) p (s^{'} ∣ s, a)

假设状态可以按 $s_{i} (i = 1, \dots, n)$ 索引。对于状态 $s_{i}$ ，对应的贝尔曼方程是

v_{π} (s_{i}) = r_{π} (s_{i}) + γ s_{j} \sum p_{π} (s_{j} ∣ s_{i}) v_{π} (s_{j})

将所有这些状态方程合并并重写为矩阵-向量形式

v_{π} = r_{π} + γ P_{π} v_{π}

其中：

$v_{π} \in R^{n}$ ：状态价值向量；
$r_{π} \in R^{n}$ ：即时奖励向量；
$P_{π} \in R^{n \times n}$ ：状态转移概率矩阵。
通过矩阵形式，可以更直观地理解状态间的依赖关系，并为求解提供便利。

矩阵-向量形式的解

闭式解法

利用矩阵求逆，直接求解：

v_{π} = (I - γ P_{π})^{- 1} r_{π}

特点：

#

!