Reward revision and the average reward markov decision process期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Reward revision and the average reward markov decision process

Authors:	C C White III W T Scherer

Affiliation:	(1) Department of Systems Engineering, University of Virginia, Thornton Hall, 22901 Charlottesville, VA, USA

Abstract:	Summary We integrate two numerical procedures for solving the average reward Markov decision process (MDP), standard successive approximations and modified policy iteration with reward revision. Reward revision is the process of revising the reward structure of a second, more computationally desirable MDP so as to produce, in the limit, an optimality equation having a fixed point identical to that associated with the original MDP. A numerical study indicates that for MDP's having a non-sparse transition structure with a small number of relatively large entries per row, the addition of reward revision can have significant computational benefits. Zusammenfassung Zur Lösung Markovscher Entscheidungsprozesse (MDP) mit Durchschnitts-Kriterium werden zwei numerische Verfahren, nämlich sukzessive Approximation und modifizierte Politik-Iteration, mit einer Transformation, der sogenannten 'Reward-Revision, kombiniert. Bei dieser Transformation werden die Übergangswahrscheinlichkeiten so abgeändert (ausgedünnt), daß das neue Modell sich numerisch günstiger verhält. Dazu müssen die einstufigen Erträge so revidiert werden, daß die Optimalitäts-Gleichung des neuen Modells im Limes mit der des ursprünglichen übereinstimmt. Numerische Untersuchungen zeigen, daß für MDP mit stark besetzten Übergangsmatrizen, bei denen nur an wenigen Stellen je Zeile große Werte stehen, die Anwendung von 'Reward Revision zu wesentlichen Einsparungen an Rechenaufwand führen kann. Research supported by NSF Grant ECS-8319355

Keywords:
本文献已被 SpringerLink 等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏