| 最小状态变元平均奖赏的强化学习方法 |
| 刘全[1,2] 傅启明[1] 龚声蓉[1] 伏玉琛[1] 崔志明[1] |
| 关键词:强化学习 平均奖赏 俄罗斯方块 最小状态 |
| 主要内容:针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。 |
| 《通信学报》 2011,32(1).-66-71 |
| 全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp |