学位论文 > 优秀研究生学位论文题录展示

解决强化学习中维数灾问题的方法研究

作　者: 闫其粹
导　师: 刘全
学　校: 苏州大学
专　业: 计算机应用技术
关键词: 强化学习分层强化学习神经网络俄罗斯方块 “维数灾”
分类号: TP181
类　型: 硕士论文
年　份: 2010年
下　载: 106次
引　用: 1次
阅　读: 论文下载

内容摘要

针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数估计等不同的角度来给出解决方法,提出了基于启发式奖赏函数的分层强化学习算法和基于神经网络的强化学习算法。同时,在所提理论的基础上,分别开发了俄罗斯方块、Mountain car和Grid World等实验平台,将上述算法应用到实验中,通过实验分析,进一步验证所提算法在解决“维数灾”问题方面的正确性和有效性。本文的主要研究成果概括为以下五个方面:(1)提出了一种基于启发式奖赏函数的分层强化学习算法,并从理论上证明了该算法的收敛性。该算法通过在子任务中加入启发式奖赏信息,使Agent的探索速度大大提高。该算法不仅可以部分解决“维数灾”问题,而且可以加快任务的收敛速度。(2)开发了俄罗斯方块游戏的实验平台,并将基于启发式奖赏函数的分层强化学习算法应用于该平台。实验结果验证了该算法不仅能够大幅度的减少环境状态空间,能在一定程度上缓解“维数灾”问题,而且还具有很好的收敛速度。(3)针对“维数灾”问题,提出了将神经网络应用于强化学习中的一种新算法QL-BP算法。该算法利用神经网络强大的函数逼近能力,使学习系统不需要遍历每个状态或状态-动作对就可以给出正确的值函数,空间复杂度显著降低。(4)针对QL-BP算法在实验初期因为样本误差较大而出现的震荡、收敛速度慢以及在学习后期会出现过拟合现象等问题,提出了一种改进的QL-BP算法。实验表明改进的QL-BP算法收敛速度更快,学习后期的过拟合现象也基本消除。(5)开发了Mountain car和Grid World实验平台,在这两个实验平台上应用QL-BP算法以及改进的QL-BP算法。通过实验,验证了这两种算法在空间复杂度方面明显优于Q(λ)算法,一定程度上解决了“维数灾”问题。

解决强化学习中维数灾问题的方法研究

内容摘要

全文目录

相似论文