产业集群信息网

产业集群决策

1 生物技术资源文献
2 电子信息资源文献
3 环境科学文献资源
4 海洋科学技术文献
5 新材料数据库文献
6 光机电技术资源文献

最小状态变元平均奖赏的强化学习方法

刘全[1,2] 傅启明[1] 龚声蓉[1] 伏玉琛[1] 崔志明[1]

关键词：强化学习平均奖赏俄罗斯方块最小状态

主要内容：针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的＂维数灾＂问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的＂维数灾＂问题。

《通信学报》 2011,32(1).-66-71

全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp