学位论文 > 优秀研究生学位论文题录展示
基于人工势场的激励学习问题研究
作 者: 刘泽文
导 师: 陈焕文
学 校: 长沙理工大学
专 业: 计算机应用技术
关键词: 激励学习 人工势场 路径规划 移动机器人导航 虚拟水流法
分类号: TP18
类 型: 硕士论文
年 份: 2008年
下 载: 91次
引 用: 4次
阅 读: 论文下载
内容摘要
激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满意地解决这些问题。本文利用人工势场和激励学习的优点针对机器人在较大状态空间和部分可观测环境下的导航问题进行了研究。本文首先对激励学习研究现状,课题研究的背景和现实意义进行了综述性介绍,并分析了当前激励学习中两种比较成熟的方法,瞬时差分法和Q学习方法。其次,研究了人工势场中斥力势函数和引力势函数的选取,人工势场法的优缺点。然后重点研究了如何将激励学习模型转换成人工势场模型,即利用激励学习和人工势场的优点应用虚拟水流法如何构建一个具有记忆学习功能的激励势场模型。最后,用三个著名的网格世界问题对激励势场模型进行了测试,同时在较大状态空间中用Q学习和HQ学习等方法做了对比实验。实验结果表明:对较大状态空间和部分可观测环境新方法都能简洁有效地给出理想的解;与Q学习和HQ学习等方法相比激励势场模型更稳定有效。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 引言 10-21 1.1 本文研究的背景 10 1.2 激励学习理论与应用综述 10-20 1.2.1 激励学习研究的背景 11-13 1.2.2 激励学习算法的研究进展 13-15 1.2.3 激励学习的泛化方法研究概况 15-17 1.2.4 激励学习的理论与应用研究进展 17-19 1.2.5 存在的问题和本文的研究重点 19-20 1.3 本文内容组织结构 20-21 第二章 激励学习 21-31 2.1 激励学习的理论基础及基本概念 21-25 2.1.1 马尔可夫决策过程 21-22 2.1.2 激励学习的几个基本概念 22-24 2.1.3 激励学习的模型 24-25 2.1.4 激励学习的目标函数或优化标准 25 2.2 激励学习的基本算法 25-31 2.2.1 瞬时差分方法 26-27 2.2.2 Q 学习算法 27-29 2.2.3 Q 学习存在的问题 29-31 第三章 人工势场 31-36 3.1 人工势场 31-32 3.2 势函数的选取 32-34 3.2.1 斥力势函数的选取 32-33 3.2.2 引力势函数的选取 33-34 3.2.3 全局势场的生成 34 3.3 应用人工势场法的优缺点 34-36 3.3.1 人工势场法的优点 35 3.3.2 人工势场法的缺点 35-36 第四章 激励势场模型 36-41 4.1 激励势场模型 36-37 4.1.1 引力源与斥力源集合的定义 36 4.1.2 引力势场的描述 36-37 4.1.3 斥力势场的描述 37 4.1.4 全局激励势场的生成 37 4.2 虚拟水流法 37-39 4.3 激励势场的算法 39-41 第五章 实验仿真与结果分析 41-55 5.1 完全可观测四房间网格环境 41-45 5.1.1 问题描述 41-42 5.1.2 模型描述 42 5.1.3 应用激励势场模型进行实验的结果 42-43 5.1.4 与Q 学习进行比较的实验结果 43-45 5.2 部分可观测四房间网格世界环境 45-49 5.2.1 问题描述 45 5.2.2 模型描述 45-46 5.2.3 应用激励势场模型进行实验的结果 46-49 5.3 钥匙与门迷宫问题 49-55 5.3.1 问题描述 49-50 5.3.2 模型描述 50-51 5.3.3 应用激励势场模型进行实验的结果 51-54 5.3.4 与其它多种学习方法进行比较的实验结果 54-55 结论与展望 55-56 结论 55 研究展望 55-56 参考文献 56-61 致谢 61-62 附录(在学习期间完成的学术论文和参加的科研项目) 62
|
相似论文
- 动态环境下移动对象导航系统相关技术的研究,TP301.6
- 基于改进蚁群算法的机器人路径规划研究,TP242
- 移动WSN基于虚拟簇头数据收集策略的研究,TP212.9
- 移动机器人全覆盖路径规划算法的研究,TP242
- 复杂动态环境下的小型足球机器人路径规划研究,TP242
- 面向GPS导航拖拉机的最优全局覆盖路径规划研究,TN967.1
- RoboCup中型组足球机器人的设计和开发,TP242
- 移动机器人路径规划研究及仿真实现,TP242
- 双层车库车辆调度辅助决策支持系统,TP242
- 无线传感器网络节点三维定位算法研究,TN929.5
- 基于数字高程模型栅格地图的移动机器人路径规划研究,TP242
- 车库管理系统线路生成与重复利用方法研究,TP315
- 城市交通智能控制策略与仿真系统研究,U495
- 车辆导航系统路径规划技术的研究,TP301.6
- 轮式仿人机器人导航与路径规划研究,TP242
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 城市公交最优化换乘系统研究与实现,U12
- 机器人系统路径规划的研究,TP242
- 超市多任务机器人实用化路径规划方法研究,TP242
- 面向智能清扫机器人的路径规划技术研究,TP242
- 无人机区域侦察航路规划研究,V279.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|