学位论文 > 优秀研究生学位论文题录展示

多智能体的协作与规划研究及其在RoboCup中的应用

作 者: 毛俊杰
导 师: 刘国栋
学 校: 江南大学
专 业: 控制理论与控制工程
关键词: 多智能体系统 机器人足球世界杯 协作与规划 强化学习 智能控制
分类号: TP242.6
类 型: 硕士论文
年 份: 2008年
下 载: 157次
引 用: 1次
阅 读: 论文下载
 

内容摘要


近年来,有关Multi-agent系统(MAS)与分布式人工智能(DAI)的研究,已经成为人工智能领域的重要研究方向之一。而RoboCup则是以MAS和分布式人工智能为主要研究背景,其使命就是促进分布式人工智能与智能机器人技术的研究与教育。该研究方向要求在一个实时动态变化的和不可预测的环境中,拥有自主能力的Agent,作为团队的一部分,能自动地进行有效的动作,完成整个队伍的目标。本文以RoboCup仿真比赛为检验平台,以多智能体系统为研究对象,主要进行了以下工作:首先,选择智能体间协作作为目标任务,在对己有的协作策略进行研究的基础上,分别从静态和动态出发,研究了基于静态阵形和动态阵形的阵形变化策略,有效的增强了球队的整体实力;并且还采用了基于合作意愿矩阵的规划协作策略,很好的改善了球队整体协作进攻能力。其次,由于Q学习不能适用于连续状态空间和动作空间的学习,随着状态空间的增大,Q值在内存中的存储以及查询变得困难,会导致维数灾难,且传统的强化学习不具有泛化能力,这些缺点限制了它在复杂多变的环境中的应用。为了解决这些存在的问题,采用模糊Q学习算法以及基于信度分配模糊CMAC(CA-FCMAC)的Q学习算法,并将算法用于RoboCup仿真比赛中,通过实验证明改进后算法有效的优化了Agent个体技术。最后,在MAS中,由于外部环境提供信息较少,强化学习的学习效率通常较低。采用具有先验知识的算法来优化学习状态,提高学习效率。并结合心理学中的内在激励思想,提出基于先验知识的内在激励强化学习,并将此算法运用到MAS局部配合技术的训练中,实验表明,这种算法能够提高球队的局部协作能力。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-12
  1.1 研究背景  8
  1.2 RoboCup 研究现状  8-9
  1.3 研究目的与意义  9-10
  1.4 MAS 主要研究内容  10
  1.5 本文结构组成  10-12
第二章 RoboCup 仿真比赛系统  12-20
  2.1 RoboCup 仿真环境介绍  12-13
  2.2 SoccerServer 仿真环境模型  13-18
    2.2.1 比赛场地和球员  14-16
    2.2.2 球员的动作  16-17
    2.2.3 球员的感知  17-18
  2.3 RoboCup 仿真环境的特点  18-19
  2.4 小结  19-20
第三章 MAS 协作与规划  20-36
  3.1 MAS 体系结构  20-21
    3.1.1 集中式结构  20-21
    3.1.2 分布式结构  21
    3.1.3 混合式结构  21
  3.2 分层结构模型  21-24
    3.2.1 通迅层  23
    3.2.2 基本动作层  23
    3.2.3 可选动作评价层  23-24
    3.2.4 决策层  24
    3.2.5 世界模型  24
  3.3 阵形规划研究  24-31
    3.3.1 角色的概念  24-26
    3.3.2 静态阵形  26-28
    3.3.3 动态阵形  28-31
  3.4 基于合作意愿矩阵的规划协作策略  31-35
    3.4.1 基于合作意愿矩阵的规划协作策略  31-34
    3.4.2 规划协作策略的应用  34-35
  3.5 小结  35-36
第四章 强化学习理论及应用  36-51
  4.1 强化学习模型  36-37
  4.2 模糊Q 学习  37-44
    4.2.1 Q 学习算法  37-39
    4.2.2 模糊Q学习算法  39
    4.2.3 模糊Q学习在RoboCup中的应用  39-44
  4.3 基于CA-FCMAC 的Q 学习算法  44-50
    4.3.1 传统的CMAC  44-45
    4.3.2 CA-FCMAC  45-47
    4.3.3 CA-FCMAC Q 学习  47-49
    4.3.4 CA-FCMAC Q 学习的应用  49-50
  4.4 小结  50-51
第五章 基于先验知识的内在激励强化学习  51-60
  5.1 基于先验知识的强化学习  51-52
  5.2 内在激励强化学习  52-54
    5.2.1 内在激励强化学习简述  52-53
    5.2.2 内在激励强化学习算法  53-54
  5.3 基于先验知识的内部激励强化学习算法  54-55
  5.4 算法在RoboCup 协作中的应用  55-59
    5.4.1 二对一问题  55-57
    5.4.2 三对二问题  57-59
  5.5 小结  59-60
第六章 结论与展望  60-62
  6.1 本文总结  60
  6.2 展望  60-62
致谢  62-63
参考文献  63-66
附录:作者在攻读硕士学位期间发表的论文  66

相似论文

  1. 物料悬浮速度智能测试系统的设计研究,S220.2
  2. 孵化设备智能控制系统的设计,TP273.5
  3. 电动执行机构的智能控制研究,TP273.5
  4. 基于嵌入式系统的水厂加氯智能控制系统,TU991.2
  5. 智能型太阳能路灯控制器的应用研究,TM923.5
  6. 大功率LED驱动及智能控制系统设计,TP273.5
  7. 纯碱生产煅烧过程优化控制策略研究,TP273
  8. 基于数据驱动的烧结处理过程建模和控制,TP273
  9. 基于多Agent的河北冀通路桥公路施工智能决策支持系统研究,TP311.52
  10. 基于MIFARE技术的实验室智能管理系统的设计与实现,TP311.52
  11. 机器人系统路径规划的研究,TP242
  12. 软件体系结构自适应模型及其智能化研究,TP311.52
  13. 离散多智能体系统的协调控制和一致性研究,TP273
  14. 基于模型的动态分层强化学习算法研究,TP181
  15. 基于WSN的现代大棚智能控制系统,TP212.9;TP273
  16. 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
  17. 基于物联网的小区管理系统的设计与实现,TP391.44;TP315
  18. 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
  19. 自动防水闸门系统的研究与设计,TD745.25
  20. 草甘膦生产过程计算机控制,TQ457.2
  21. 配电网静止同步补偿器控制策略的研究与实现,TM761

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人 > 智能机器人
© 2012 www.xueweilunwen.com