学位论文 > 优秀研究生学位论文题录展示
并行强化学习研究
作 者: 杨旭东
导 师: 刘全
学 校: 苏州大学
专 业: 计算机软件与理论
关键词: 并行强化学习 状态空间分解 资格迹 并行采样 学习经验复用
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 49次
引 用: 0次
阅 读: 论文下载
内容摘要
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都有所欠缺,在学习任务的状态空间很大或状态空间连续时,开销非常巨大,甚至不能直接应用。同时,在实际应用中,收敛速度慢是强化学习的另一个主要不足。针对强化学习方法在大状态空间或连续状态空间的学习问题中存在的“维数灾”及收敛速度慢等普遍存在且严重的问题,本文从并行化强化学习过程的角度出发,提出了3种并行强化学习方法,主要研究内容概括如下:(1)提出了一种基于状态空间分解和智能调度的并行强化学习方法。这种方法首先将规模较大的学习问题分解成小的子问题,再对每个子问题进行并行学习。在学习过程中,通过一种自适应的智能调度算法选择收益较大的子问题优先学习。在算法收敛之后,通过合并各个子问题的结果得到整个学习问题的期望结果。本文还从理论上证明了基于状态空间分解和多Agent并行学习的Q学习算法的收敛性。(2)为了在具有延时回报特点的在线学习任务中提高时间信度的分配效率和使用资格迹的强化学习算法的收敛速度,提出了一种并行强化学习框架和一些可行的优化方法。该学习框架充分利用了资格迹算法内在的并行性,使用多个计算节点分摊值函数表和资格迹表的更新工作。(3)针对E3算法的理论收敛时间界限太大,在实际的大状态空间学习问题中学习效率较低的问题,提出了一种基于多Agent并行采样和学习经验复用的改进E3算法。所提算法对原始算法的改进体现在两个方面:在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。
|
全文目录
中文摘要 4-5 Abstract 5-9 第一章 引言 9-16 1.1 研究背景及意义 9-12 1.2 国内外研究现状 12-14 1.3 主要工作 14-15 1.4 论文组织结构 15-16 第二章 强化学习理论及算法 16-27 2.1 强化学习简介 16-17 2.2 强化学习的基本原理 17 2.3 强化学习系统的关键要素 17-20 2.4 强化学习问题的建模 20-21 2.5 强化学习算法 21-25 2.5.1 强化学习算法的分类 21-22 2.5.2 强化学习算法效率的度量指标 22-23 2.5.3 几种常用的强化学习算法 23-25 2.6 并行强化学习 25-26 2.7 本章小结 26-27 第三章 基于状态空间分解和智能调度的并行强化学习 27-49 3.1 IS-SRL和IS-SPRL方法 27-37 3.1.1 子问题的学习过程 27-30 3.1.2 IS-SPRL方法的消息传递和调度 30-32 3.1.3 学习步骤 32-33 3.1.4 加权优先级调度算法 33-37 3.2 收敛性分析 37-41 3.2.1 模型和假设 38-39 3.2.2 基于IS-SRL和IS-SPRL方法的Q学习算法的收敛性 39-41 3.3 实验 41-47 3.3.1 实验3.1:不同调度算法的比较 42-43 3.3.2 实验3.2:算法在不同参数下的性能比较 43-44 3.3.3 实验3.3:不同算法的收敛速度的比较 44-46 3.3.4 结果分析 46-47 3.4 本章小结 47-49 第四章 基于资格迹的并行时间信度分配强化学习算法 49-59 4.1 资格迹与强化学习 50-52 4.2 并行时间信度分配 52-54 4.3 性能优化与系统容错 54-55 4.3.1 状态迁移预测 54-55 4.3.2 故障预防和恢复 55 4.4 实验 55-58 4.5 本章小结 58-59 第五章 基于并行采样和学习经验复用的E.算法 59-71 5.1 E~3算法 60-62 5.2 学习经验复用 62-63 5.3 并行E~3算法 63-66 5.4 系统容错 66 5.5 实验 66-70 5.6 本章小结 70-71 第六章 总结与展望 71-73 6.1 工作总结 71-72 6.2 工作展望 72-73 参考文献 73-78 攻读硕士期间发表(录用)的论文和参与的科研项目 78-80 致谢 80
|
相似论文
- 基于Q学习和神经网络的双足机器人控制,TP242
- 炼铁生产流程的分散协调优化方法研究,TF58
- 双通道100MHz数字存储示波器的研制,TM935.3
- 1GSa/s数据采集卡研制,TP274.2
- 数字示波器中高速实时数据处理技术的研究,TM935.37
- TI-ADC系统通道失配校准技术研究,TN792
- 激光雷达信号的高速高精度数据采集系统,TN958.98
- 高速波形分析仪硬件系统设计,TM935.2
- 中频数字接收机的设计,TN851
- 高速TIADC并行采样系统综合校正技术研究,TN792
- CMOS高速串行数据接收器的研究和设计,TN919
- 超高速并行采样模拟/数字转换的研究,TN792
- 低阶多智能体系统分析与控制协议设计,TP18
- 光电混合模数转换的多通道特性研究,TN792
- TIADC系统中时间误差校正及波形插值算法的硬件设计与实现,TN911.7
- 多样性密度学习算法的研究与应用,TP181
- 基于知识编译技术的描述逻辑推理问题研究,TP181
- 蛋白质关系抽取中平面特征和结构化信息的研究,TP181
- 流形学习的方差最小化准则,TP181
- 排序学习损失函数的研究,TP181
- 半监督学习方法研究,TP181
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|