学位论文 > 优秀研究生学位论文题录展示
基于值函数逼近与状态空间分解的增强学习方法研究
作 者: 左磊
导 师: 徐昕
学 校: 国防科学技术大学
专 业: 控制科学与工程
关键词: 增强学习 值函数逼近 表示策略迭代 空间分解 自主避障
分类号: TP242
类 型: 硕士论文
年 份: 2011年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
增强学习能有效解决不确定序贯决策优化问题,近年来已发展成为机器学习领域的一个研究热点。如何克服高维连续空间带来的“维数灾难”,实现增强学习算法在连续空间中的泛化,是增强学习进一步发展并向工程应用领域推广的关键,是本文的主要研究内容之一。另一方面,随着应用范围的扩大,移动机器人将面临更加复杂多变的未知环境,这对移动机器人的智能导航控制技术提出了更高的要求。如何提高移动机器人的自主导航能力和对环境的自适应能力,是实现移动机器人在未知环境中成功应用的关键问题。本文对基于值函数逼近与状态空间分解的增强学习方法进行了深入研究,并将其应用于移动机器人在未知环境中的自主避障控制。取得的研究成果包括:1.提出了一种基于k-均值聚类的表示策略迭代学习方法。本文首先研究了基于图拉普拉斯算子的表示策略迭代(RPI)算法,然后利用聚类分析改进了构图点的选择方法,提出了基于k-均值聚类的RPI算法,仿真结果表明该方法能有效提高RPI算法的泛化性能。2.研究并实现了倒立摆系统的实时学习控制。本文在线性值函数逼近方法研究的基础上,将表示策略迭代(RPI)算法及其改进后的算法用于无模型的倒立摆实时学习控制,取得了较好的控制效果,对增强学习的实际工程应用进行了有意义的探索。3.提出了一种基于空间分解的结构化表示策略迭代(HRPI)方法。首先研究了结构化增强学习算法,然后将RPI算法与状态空间分解方法相结合,提出了一种基于状态空间分解的结构化增强学习方法HRPI。该方法根据近似值函数将状态空间分解为不同的子空间,然后在各子空间中分别进行策略学习。仿真结果表明该方法在求解时间最优问题时具有良好的泛化性能。4.提出了一种基于改进RPI的移动机器人自主避障控制方法。本文首先介绍了未知环境中移动机器人自主避障问题的MDP建模方法,然后,将滚动窗口路径规划和RPI算法相结合,提出了一种基于RPI的移动机器人自主避障控制方法,并通过仿真与实验测试了该方法的泛化性能与避障效果。实验结果表明基于RPI的反应式避障导航控制方法能有效实现移动机器人在未知环境中的自主避障。
|
全文目录
摘要 9-10 Abstract 10-12 第一章 绪论 12-23 1.1 增强学习概述 12-13 1.2 值函数逼近的研究现状与发展趋势 13-16 1.2.1 值函数逼近概述 13-14 1.2.2 基于值函数逼近的增强学习研究现状 14-16 1.2.3 基于值函数逼近的增强学习发展趋势 16 1.3 结构化增强学习概述与研究现状 16-19 1.3.1 结构化增强学习概述 16-17 1.3.2 结构化增强学习研究现状 17-19 1.3.3 结构化增强学习发展趋势 19 1.4 增强学习在移动机器人导航控制中的应用 19-22 1.4.1 移动机器人的导航控制 19-20 1.4.2 增强学习在移动机器人控制中的应用 20-22 1.5 本文主要内容与成果 22-23 第二章 基于图拉普拉斯算子的近似策略迭代方法研究 23-49 2.1 Markov 决策过程和线性值函数逼近 23-28 2.1.1 Markov 决策过程(MDP) 24-25 2.1.2 线性值函数逼近 25-26 2.1.3 LSPI 算法 26-28 2.2 基于图拉普拉斯算子的值函数逼近 28-32 2.2.1 MDP 与图拉普拉斯算子 28-30 2.2.2 RPI 算法中基函数的构建 30-31 2.2.3 RPI 算法框架 31-32 2.3 基于聚类的RPI 增强学习方法 32-36 2.3.1 聚类分析 33-34 2.3.2 基于k-均值聚类的RPI 算法 34-36 2.4 仿真结果与分析 36-43 2.4.1 仿真问题描述 36-38 2.4.2 仿真结果与分析 38-43 2.5 倒立摆学习控制实验 43-48 2.5.1 倒立摆实时控制系统 43-44 2.5.2 实验结果 44-48 2.6 本章小结 48-49 第三章 基于状态空间分解的结构化增强学习方法研究 49-63 3.1 结构化增强学习概述 49-54 3.1.1 SMDP 与结构化增强学习 49-51 3.1.2 结构化增强学习典型算法 51-54 3.2 基于RPI 的结构化增强学习算法 54-59 3.2.1 基于值函数的二叉树状态空间分解 54-56 3.2.2 基于RPI 的结构化增强学习算法描述 56-59 3.3 仿真结果与分析 59-62 3.3.1 仿真设计 59 3.3.2 仿真结果 59-62 3.4 本章小结 62-63 第四章 基于增强学习的移动机器人自主避障控制 63-73 4.1 移动机器人自主避障控制 63-66 4.1.1 移动机器人自主避障导航控制 63-65 4.1.2 移动机器人的自主避障问题建模 65-66 4.2 基于RPI 算法的自主避障方法 66-67 4.2.1 滚动窗口路径规划方法 66 4.2.2 基于改进RPI 算法的反应式导航控制方法 66-67 4.3 基于改进RPI 算法的自主避障实验 67-71 4.3.1 基于移动机器人自主避障实验 67-70 4.3.2 自主避障实验结果与分析 70-71 4.4 本章小结 71-73 第五章 结论与展望 73-75 致谢 75-76 参考文献 76-83 作者在学期间取得的学术成果 83-84 附录A 缩写词全称对照 84
|
相似论文
- 基于多Agent理论的卫星协同定轨技术研究,V474
- 移动机器视觉定位导航和自主避障系统的研究,TP242
- 基于增强学习的多sink无线传感网路由机制研究,TP212.9
- 面向室内环境的WSN跟踪关键技术研究,TN929.5
- 基于子空间的MIMO-OFDM信道估计算法设计与实现,TN919.3
- 淀粉样β蛋白神经毒作用的α7烟碱型胆碱能受体机制:在体动物电生理和行为学研究,R749.16
- 煤矿救援机器人自主避障模糊控制系统研究,TP242
- 炼铁生产流程的分散协调优化方法研究,TF58
- m-多序列簇的空间分解,TN918.1
- 自主移动机器人导航与控制中的增强学习方法研究,TP242.6
- 基于增强学习的无线传感器网络自组织方法研究,TP212.9
- 家用伙伴机器人控制系统的研制,TP242.6
- 多分类脑—机接口特征提取与模式分类方法的研究,TP334.7
- 基于人工神经网络的决策算法研究,TP183
- 基于核的连续空间增强学习方法及应用研究,TP181
- 基于增强学习的网络自适应实时视频传输系统的研究与实现,TN919.8
- 未知环境下基于行为的智能探测车避障控制研究,TP242
- 若干Fourier乘子定理,O174.2
- 视觉注意和行为认知模型及其应用,TP391.41
- 快速的包分类算法的研究,TP393.01
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人
© 2012 www.xueweilunwen.com
|