Dive into Reinforcement Learning with least time
强化学习核心概念:把握独特之处
强化学习是策略导向的学习优化手段,通过设置特定的奖励函数以及策略实现智能体(Agent)与环境(Environment)的最优交互。因此,我们的介绍不可避免地要从强化学习最核心的概念出发:状态(State)、动作(Action)、策略(Policy)、奖励(Reward)、价值(Value)。
出发:定义一个智能体
定义(智能体)
智能体(Agent)被定义为具有如下属性的个体:
- 状态空间$S={s_i|i\in [n]}$
- 动作空间$\mathcal A(S)$,其中从状态到动作的映射定义为$f:S\to \mathcal{A}$
- 策略分布$\Pi$,其中概率为$\pi(s_i|s_{i-1},a_i)$
- 价值函数$f:R\to \mathbb R$,其中$R={r_i|r\in [n]}$
- 更新策略$O(R)$,其中$R$是每次尝试总的奖励
定义(环境)
若一个分布具有如下性质,则可以称之为环境:
奖励分布$P$,随机变量r的数值表示奖励或者惩罚的大小,$r\sim P$,其中概率为$p(r=k|s_{i-1},a_i)$
定义(折扣率)
定义折扣率(Discount Rate)$\gamma\in [0,1]$,折扣价值$R=\sum \gamma^i r_i$
定义(贝尔曼公式-确定型)
$$ v = r + \gamma P v$$
定义(随机化的价值)
$$v_\pi (s) = \mathbb{E}(G_t|S_t = s)$$
其中$G_t = \sum_{i=t}^n \gamma^i R_i$
贝尔曼公式(一般型)
$$v_\pi(s) = \sum_{a} \pi(a|s)\big[\sum_{r} p(r|s,a)r + \gamma\sum_{s’}v_\pi(s’)p(s’|s,a)\big]$$
动作价值定义
$$q_\pi(s,a) = \mathbb{E} (G_t|S_t = s, A_t = a)$$
最优化贝尔曼方程
定义(最优策略)
若$\forall \pi(s), v_{\pi^}(s)\geq v_{\pi}(s)$,则$\pi^$是状态$s$下的最优策略
贝尔曼最优公式
$$v(s) = \max_{\pi} \sum_{a} \pi(a|s)q(s,a),\forall s\in S$$
最优解性质
$$v(s) = \max_{a\in\mathcal{A}(s)} q(s,a)$$