1. 线性时不变系统模型
考虑一个线性时不变系统,其状态方程和控制输入可以表示为:
其中, 是状态向量, 是控制向量, 和 分别是状态矩阵和输入矩阵。
2. 线性二次调节器(LQR)目标
LQR 问题的目标是找到一个控制输入 来最小化以下性能指标(成本函数):
其中, 是对称正定的状态权重矩阵, 是对称正定的控制权重矩阵。
注意:此时的积分是从
的积分,上下界并不含有
t
3. 哈密顿-雅可比-贝尔曼方程
定义值函数 表示从时刻 开始,到无穷远时刻的最小成本。即:
对于线性系统,上面的代价函数 可以改写为如下形式:
其中, 是一个对称正定矩阵 (这是线性系统的非常重要的性质)。
说明:在本质上 与 并不相等,无穷时间的积分
是不可求导的,但是任意无限大的上界都是可以求导的,即 且 为无限大的时候都可以,所以书本
上为了更加严谨,一般写成价值函数为终端时刻的价值函数,即:
其中, 为终端时刻。
1.通过动态规划求解HJB方程
根据动态规划原理,值函数满足以下条件:
考虑 很小的情况下,近似可以写成:
移项并除以 ,当 时,得到: