学位论文 > 优秀研究生学位论文题录展示

并行强化学习研究

作　者: 杨旭东
导　师: 刘全
学　校: 苏州大学
专　业: 计算机软件与理论
关键词: 并行强化学习状态空间分解资格迹并行采样学习经验复用
分类号: TP181
类　型: 硕士论文
年　份: 2012年
下　载: 49次
引　用: 0次
阅　读: 论文下载

内容摘要

强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都有所欠缺,在学习任务的状态空间很大或状态空间连续时,开销非常巨大,甚至不能直接应用。同时,在实际应用中,收敛速度慢是强化学习的另一个主要不足。针对强化学习方法在大状态空间或连续状态空间的学习问题中存在的“维数灾”及收敛速度慢等普遍存在且严重的问题,本文从并行化强化学习过程的角度出发,提出了3种并行强化学习方法,主要研究内容概括如下：(1)提出了一种基于状态空间分解和智能调度的并行强化学习方法。这种方法首先将规模较大的学习问题分解成小的子问题,再对每个子问题进行并行学习。在学习过程中,通过一种自适应的智能调度算法选择收益较大的子问题优先学习。在算法收敛之后,通过合并各个子问题的结果得到整个学习问题的期望结果。本文还从理论上证明了基于状态空间分解和多Agent并行学习的Q学习算法的收敛性。(2)为了在具有延时回报特点的在线学习任务中提高时间信度的分配效率和使用资格迹的强化学习算法的收敛速度,提出了一种并行强化学习框架和一些可行的优化方法。该学习框架充分利用了资格迹算法内在的并行性,使用多个计算节点分摊值函数表和资格迹表的更新工作。(3)针对E3算法的理论收敛时间界限太大,在实际的大状态空间学习问题中学习效率较低的问题,提出了一种基于多Agent并行采样和学习经验复用的改进E3算法。所提算法对原始算法的改进体现在两个方面：在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程；在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。

全文目录

中文摘要  4-5
Abstract  5-9
第一章引言  9-16
  1.1 研究背景及意义  9-12
  1.2 国内外研究现状  12-14
  1.3 主要工作  14-15
  1.4 论文组织结构  15-16
第二章强化学习理论及算法  16-27
  2.1 强化学习简介  16-17
  2.2 强化学习的基本原理  17
  2.3 强化学习系统的关键要素  17-20
  2.4 强化学习问题的建模  20-21
  2.5 强化学习算法  21-25
    2.5.1 强化学习算法的分类  21-22
    2.5.2 强化学习算法效率的度量指标  22-23
    2.5.3 几种常用的强化学习算法  23-25
  2.6 并行强化学习  25-26
  2.7 本章小结  26-27
第三章基于状态空间分解和智能调度的并行强化学习  27-49
  3.1 IS-SRL和IS-SPRL方法  27-37
    3.1.1 子问题的学习过程  27-30
    3.1.2 IS-SPRL方法的消息传递和调度  30-32
    3.1.3 学习步骤  32-33
    3.1.4 加权优先级调度算法  33-37
  3.2 收敛性分析  37-41
    3.2.1 模型和假设  38-39
    3.2.2 基于IS-SRL和IS-SPRL方法的Q学习算法的收敛性  39-41
  3.3 实验  41-47
    3.3.1 实验3.1：不同调度算法的比较  42-43
    3.3.2 实验3.2：算法在不同参数下的性能比较  43-44
    3.3.3 实验3.3：不同算法的收敛速度的比较  44-46
    3.3.4 结果分析  46-47
  3.4 本章小结  47-49
第四章基于资格迹的并行时间信度分配强化学习算法  49-59
  4.1 资格迹与强化学习  50-52
  4.2 并行时间信度分配  52-54
  4.3 性能优化与系统容错  54-55
    4.3.1 状态迁移预测  54-55
    4.3.2 故障预防和恢复  55
  4.4 实验  55-58
  4.5 本章小结  58-59
第五章基于并行采样和学习经验复用的E.算法  59-71
  5.1 E~3算法  60-62
  5.2 学习经验复用  62-63
  5.3 并行E~3算法  63-66
  5.4 系统容错  66
  5.5 实验  66-70
  5.6 本章小结  70-71
第六章总结与展望  71-73
  6.1 工作总结  71-72
  6.2 工作展望  72-73
参考文献  73-78
攻读硕士期间发表(录用)的论文和参与的科研项目  78-80
致谢  80

并行强化学习研究

内容摘要

全文目录

相似论文