学位论文 > 优秀研究生学位论文题录展示

解决强化学习中维数灾问题的方法研究

作 者: 闫其粹
导 师: 刘全
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 强化学习 分层强化学习 神经网络 俄罗斯方块 “维数灾”
分类号: TP181
类 型: 硕士论文
年 份: 2010年
下 载: 106次
引 用: 1次
阅 读: 论文下载
 

内容摘要


针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数估计等不同的角度来给出解决方法,提出了基于启发式奖赏函数的分层强化学习算法和基于神经网络的强化学习算法。同时,在所提理论的基础上,分别开发了俄罗斯方块、Mountain car和Grid World等实验平台,将上述算法应用到实验中,通过实验分析,进一步验证所提算法在解决“维数灾”问题方面的正确性和有效性。本文的主要研究成果概括为以下五个方面:(1)提出了一种基于启发式奖赏函数的分层强化学习算法,并从理论上证明了该算法的收敛性。该算法通过在子任务中加入启发式奖赏信息,使Agent的探索速度大大提高。该算法不仅可以部分解决“维数灾”问题,而且可以加快任务的收敛速度。(2)开发了俄罗斯方块游戏的实验平台,并将基于启发式奖赏函数的分层强化学习算法应用于该平台。实验结果验证了该算法不仅能够大幅度的减少环境状态空间,能在一定程度上缓解“维数灾”问题,而且还具有很好的收敛速度。(3)针对“维数灾”问题,提出了将神经网络应用于强化学习中的一种新算法QL-BP算法。该算法利用神经网络强大的函数逼近能力,使学习系统不需要遍历每个状态或状态-动作对就可以给出正确的值函数,空间复杂度显著降低。(4)针对QL-BP算法在实验初期因为样本误差较大而出现的震荡、收敛速度慢以及在学习后期会出现过拟合现象等问题,提出了一种改进的QL-BP算法。实验表明改进的QL-BP算法收敛速度更快,学习后期的过拟合现象也基本消除。(5)开发了Mountain car和Grid World实验平台,在这两个实验平台上应用QL-BP算法以及改进的QL-BP算法。通过实验,验证了这两种算法在空间复杂度方面明显优于Q(λ)算法,一定程度上解决了“维数灾”问题。

全文目录


相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  4. 红外超光谱图像的虚拟探测器研究,TP391.41
  5. 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
  6. 某武器检测装置的控制系统设计,TP183
  7. 市级旅游用地规划环境影响评价研究,X820.3
  8. 大学生综合素质测评研究,G645.5
  9. 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
  10. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  11. 基于神经网络的传输线故障识别方法研究,TP183
  12. 企业安全效益评价及发展对策研究,F272;F224.5
  13. 煤矿风险信息集成与智能预警研究,X936
  14. 基于强化学习的改进遗传算法研究,TP18
  15. 基于数据融合技术舞台故障诊断方法的研究,TP18
  16. 基于强化学习的蚁群聚类研究及应用,TP18
  17. 铁法晓明矿瓦斯灾害预测,TD712
  18. 基于MATLAB的课程教学质量评价模型的设计与仿真,TP319
  19. 基于神经网络模型预测Ad Hoc网络流量的负载均衡路由协议,TN929.5
  20. 基于多智能算法及图像融合技术的图像检索方法研究,TP391.41
  21. 数字型仪表自动识读系统研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com