平均目标Markov决策规划算法——逐次逼近和分块逐次逼近 |
| |
引用本文: | 李董辉.平均目标Markov决策规划算法——逐次逼近和分块逐次逼近[J].数学理论与应用,1987(2). |
| |
作者姓名: | 李董辉 |
| |
作者单位: | 湖南大学 |
| |
摘 要: | 本文对于 F 有限离散平均目标 Markov 决策规划,引进一个与折扣目标相近的算子 T_f~λ(λ为参变量),由此得出平均模型的新逐次逼近法,并证明了这个算法的几何收敛速度。在此基础上对有限状态空间进行分块,逐次利用此算子,得出分块逐次逼近算法,并指出了其几何收敛速度。最后,利用T_f~λ中参变量λ的相对自由性,对λ进行讨论,选取其特殊情形,加速逼近速度。
|
本文献已被 CNKI 等数据库收录! |
|