学位论文 > 优秀研究生学位论文题录展示

基于值函数逼近与状态空间分解的增强学习方法研究

作　者: 左磊
导　师: 徐昕
学　校: 国防科学技术大学
专　业: 控制科学与工程
关键词: 增强学习值函数逼近表示策略迭代空间分解自主避障
分类号: TP242
类　型: 硕士论文
年　份: 2011年
下　载: 17次
引　用: 0次
阅　读: 论文下载

内容摘要

增强学习能有效解决不确定序贯决策优化问题,近年来已发展成为机器学习领域的一个研究热点。如何克服高维连续空间带来的“维数灾难”,实现增强学习算法在连续空间中的泛化,是增强学习进一步发展并向工程应用领域推广的关键,是本文的主要研究内容之一。另一方面,随着应用范围的扩大,移动机器人将面临更加复杂多变的未知环境,这对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的自适应能力,是实现移动机器人在未知环境中成功应用的关键问题。本文对基于值函数逼近与状态空间分解的增强学习方法进行了深入研究,并将其应用于移动机器人在未知环境中的自主避障控制。取得的研究成果包括:1.提出了一种基于k-均值聚类的表示策略迭代学习方法。本文首先研究了基于图拉普拉斯算子的表示策略迭代(RPI)算法,然后利用聚类分析改进了构图点的选择方法,提出了基于k-均值聚类的RPI算法,仿真结果表明该方法能有效提高RPI算法的泛化性能。2.研究并实现了倒立摆系统的实时学习控制。本文在线性值函数逼近方法研究的基础上,将表示策略迭代(RPI)算法及其改进后的算法用于无模型的倒立摆实时学习控制,取得了较好的控制效果,对增强学习的实际工程应用进行了有意义的探索。3.提出了一种基于空间分解的结构化表示策略迭代(HRPI)方法。首先研究了结构化增强学习算法,然后将RPI算法与状态空间分解方法相结合,提出了一种基于状态空间分解的结构化增强学习方法HRPI。该方法根据近似值函数将状态空间分解为不同的子空间,然后在各子空间中分别进行策略学习。仿真结果表明该方法在求解时间最优问题时具有良好的泛化性能。4.提出了一种基于改进RPI的移动机器人自主避障控制方法。本文首先介绍了未知环境中移动机器人自主避障问题的MDP建模方法,然后,将滚动窗口路径规划和RPI算法相结合,提出了一种基于RPI的移动机器人自主避障控制方法,并通过仿真与实验测试了该方法的泛化性能与避障效果。实验结果表明基于RPI的反应式避障导航控制方法能有效实现移动机器人在未知环境中的自主避障。

全文目录

摘要  9-10
Abstract  10-12
第一章绪论  12-23
  1.1 增强学习概述  12-13
  1.2 值函数逼近的研究现状与发展趋势  13-16
    1.2.1 值函数逼近概述  13-14
    1.2.2 基于值函数逼近的增强学习研究现状  14-16
    1.2.3 基于值函数逼近的增强学习发展趋势  16
  1.3 结构化增强学习概述与研究现状  16-19
    1.3.1 结构化增强学习概述  16-17
    1.3.2 结构化增强学习研究现状  17-19
    1.3.3 结构化增强学习发展趋势  19
  1.4 增强学习在移动机器人导航控制中的应用  19-22
    1.4.1 移动机器人的导航控制  19-20
    1.4.2 增强学习在移动机器人控制中的应用  20-22
  1.5 本文主要内容与成果  22-23
第二章基于图拉普拉斯算子的近似策略迭代方法研究  23-49
  2.1 Markov 决策过程和线性值函数逼近  23-28
    2.1.1 Markov 决策过程（MDP）  24-25
    2.1.2 线性值函数逼近  25-26
    2.1.3 LSPI 算法  26-28
  2.2 基于图拉普拉斯算子的值函数逼近  28-32
    2.2.1 MDP 与图拉普拉斯算子  28-30
    2.2.2 RPI 算法中基函数的构建  30-31
    2.2.3 RPI 算法框架  31-32
  2.3 基于聚类的RPI 增强学习方法  32-36
    2.3.1 聚类分析  33-34
    2.3.2 基于k-均值聚类的RPI 算法  34-36
  2.4 仿真结果与分析  36-43
    2.4.1 仿真问题描述  36-38
    2.4.2 仿真结果与分析  38-43
  2.5 倒立摆学习控制实验  43-48
    2.5.1 倒立摆实时控制系统  43-44
    2.5.2 实验结果  44-48
  2.6 本章小结  48-49
第三章基于状态空间分解的结构化增强学习方法研究  49-63
  3.1 结构化增强学习概述  49-54
    3.1.1 SMDP 与结构化增强学习  49-51
    3.1.2 结构化增强学习典型算法  51-54
  3.2 基于RPI 的结构化增强学习算法  54-59
    3.2.1 基于值函数的二叉树状态空间分解  54-56
    3.2.2 基于RPI 的结构化增强学习算法描述  56-59
  3.3 仿真结果与分析  59-62
    3.3.1 仿真设计  59
    3.3.2 仿真结果  59-62
  3.4 本章小结  62-63
第四章基于增强学习的移动机器人自主避障控制  63-73
  4.1 移动机器人自主避障控制  63-66
    4.1.1 移动机器人自主避障导航控制  63-65
    4.1.2 移动机器人的自主避障问题建模  65-66
  4.2 基于RPI 算法的自主避障方法  66-67
    4.2.1 滚动窗口路径规划方法  66
    4.2.2 基于改进RPI 算法的反应式导航控制方法  66-67
  4.3 基于改进RPI 算法的自主避障实验  67-71
    4.3.1 基于移动机器人自主避障实验  67-70
    4.3.2 自主避障实验结果与分析  70-71
  4.4 本章小结  71-73
第五章结论与展望  73-75
致谢  75-76
参考文献  76-83
作者在学期间取得的学术成果  83-84
附录A 缩写词全称对照  84

基于值函数逼近与状态空间分解的增强学习方法研究

内容摘要

全文目录

相似论文