产业集群信息网

产业集群决策

1 生物技术资源文献
2 电子信息资源文献
3 环境科学文献资源
4 海洋科学技术文献
5 新材料数据库文献
6 光机电技术资源文献

平均报酬模型的多步强化学习算法

胡光华吴沧浦

关键词：R学习强化学习算法平均报酬模型机器学习

主要内容：讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学习当λ＝０时的一个特例。仿真结果表明，λ取中间值的Ｒ（λ）和ＴＴＤ（λ）学习比现有的方法在可靠性与收敛速度上均有提高。

《控制理论与应用》 2000,17(5).-660-664

全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp