| 平均报酬模型的多步强化学习算法 |
| 胡光华 吴沧浦 |
| 关键词:R学习 强化学习算法 平均报酬模型 机器学习 |
| 主要内容:讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与R学习算法,将折扣问题中的一些方法推广到了平均准则问题中,提出了两类算法:R(λ)学习。现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例。仿真结果表明,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高。 |
| 《控制理论与应用》 2000,17(5).-660-664 |
| 全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp |