学位论文 > 优秀研究生学位论文题录展示
多智能体的协作与规划研究及其在RoboCup中的应用
作 者: 毛俊杰
导 师: 刘国栋
学 校: 江南大学
专 业: 控制理论与控制工程
关键词: 多智能体系统 机器人足球世界杯 协作与规划 强化学习 智能控制
分类号: TP242.6
类 型: 硕士论文
年 份: 2008年
下 载: 157次
引 用: 1次
阅 读: 论文下载
内容摘要
近年来,有关Multi-agent系统(MAS)与分布式人工智能(DAI)的研究,已经成为人工智能领域的重要研究方向之一。而RoboCup则是以MAS和分布式人工智能为主要研究背景,其使命就是促进分布式人工智能与智能机器人技术的研究与教育。该研究方向要求在一个实时动态变化的和不可预测的环境中,拥有自主能力的Agent,作为团队的一部分,能自动地进行有效的动作,完成整个队伍的目标。本文以RoboCup仿真比赛为检验平台,以多智能体系统为研究对象,主要进行了以下工作:首先,选择智能体间协作作为目标任务,在对己有的协作策略进行研究的基础上,分别从静态和动态出发,研究了基于静态阵形和动态阵形的阵形变化策略,有效的增强了球队的整体实力;并且还采用了基于合作意愿矩阵的规划协作策略,很好的改善了球队整体协作进攻能力。其次,由于Q学习不能适用于连续状态空间和动作空间的学习,随着状态空间的增大,Q值在内存中的存储以及查询变得困难,会导致维数灾难,且传统的强化学习不具有泛化能力,这些缺点限制了它在复杂多变的环境中的应用。为了解决这些存在的问题,采用模糊Q学习算法以及基于信度分配模糊CMAC(CA-FCMAC)的Q学习算法,并将算法用于RoboCup仿真比赛中,通过实验证明改进后算法有效的优化了Agent个体技术。最后,在MAS中,由于外部环境提供信息较少,强化学习的学习效率通常较低。采用具有先验知识的算法来优化学习状态,提高学习效率。并结合心理学中的内在激励思想,提出基于先验知识的内在激励强化学习,并将此算法运用到MAS局部配合技术的训练中,实验表明,这种算法能够提高球队的局部协作能力。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-12 1.1 研究背景 8 1.2 RoboCup 研究现状 8-9 1.3 研究目的与意义 9-10 1.4 MAS 主要研究内容 10 1.5 本文结构组成 10-12 第二章 RoboCup 仿真比赛系统 12-20 2.1 RoboCup 仿真环境介绍 12-13 2.2 SoccerServer 仿真环境模型 13-18 2.2.1 比赛场地和球员 14-16 2.2.2 球员的动作 16-17 2.2.3 球员的感知 17-18 2.3 RoboCup 仿真环境的特点 18-19 2.4 小结 19-20 第三章 MAS 协作与规划 20-36 3.1 MAS 体系结构 20-21 3.1.1 集中式结构 20-21 3.1.2 分布式结构 21 3.1.3 混合式结构 21 3.2 分层结构模型 21-24 3.2.1 通迅层 23 3.2.2 基本动作层 23 3.2.3 可选动作评价层 23-24 3.2.4 决策层 24 3.2.5 世界模型 24 3.3 阵形规划研究 24-31 3.3.1 角色的概念 24-26 3.3.2 静态阵形 26-28 3.3.3 动态阵形 28-31 3.4 基于合作意愿矩阵的规划协作策略 31-35 3.4.1 基于合作意愿矩阵的规划协作策略 31-34 3.4.2 规划协作策略的应用 34-35 3.5 小结 35-36 第四章 强化学习理论及应用 36-51 4.1 强化学习模型 36-37 4.2 模糊Q 学习 37-44 4.2.1 Q 学习算法 37-39 4.2.2 模糊Q学习算法 39 4.2.3 模糊Q学习在RoboCup中的应用 39-44 4.3 基于CA-FCMAC 的Q 学习算法 44-50 4.3.1 传统的CMAC 44-45 4.3.2 CA-FCMAC 45-47 4.3.3 CA-FCMAC Q 学习 47-49 4.3.4 CA-FCMAC Q 学习的应用 49-50 4.4 小结 50-51 第五章 基于先验知识的内在激励强化学习 51-60 5.1 基于先验知识的强化学习 51-52 5.2 内在激励强化学习 52-54 5.2.1 内在激励强化学习简述 52-53 5.2.2 内在激励强化学习算法 53-54 5.3 基于先验知识的内部激励强化学习算法 54-55 5.4 算法在RoboCup 协作中的应用 55-59 5.4.1 二对一问题 55-57 5.4.2 三对二问题 57-59 5.5 小结 59-60 第六章 结论与展望 60-62 6.1 本文总结 60 6.2 展望 60-62 致谢 62-63 参考文献 63-66 附录:作者在攻读硕士学位期间发表的论文 66
|
相似论文
- 物料悬浮速度智能测试系统的设计研究,S220.2
- 孵化设备智能控制系统的设计,TP273.5
- 电动执行机构的智能控制研究,TP273.5
- 基于嵌入式系统的水厂加氯智能控制系统,TU991.2
- 智能型太阳能路灯控制器的应用研究,TM923.5
- 大功率LED驱动及智能控制系统设计,TP273.5
- 纯碱生产煅烧过程优化控制策略研究,TP273
- 基于数据驱动的烧结处理过程建模和控制,TP273
- 基于多Agent的河北冀通路桥公路施工智能决策支持系统研究,TP311.52
- 基于MIFARE技术的实验室智能管理系统的设计与实现,TP311.52
- 机器人系统路径规划的研究,TP242
- 软件体系结构自适应模型及其智能化研究,TP311.52
- 离散多智能体系统的协调控制和一致性研究,TP273
- 基于模型的动态分层强化学习算法研究,TP181
- 基于WSN的现代大棚智能控制系统,TP212.9;TP273
- 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
- 基于物联网的小区管理系统的设计与实现,TP391.44;TP315
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 自动防水闸门系统的研究与设计,TD745.25
- 草甘膦生产过程计算机控制,TQ457.2
- 配电网静止同步补偿器控制策略的研究与实现,TM761
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人 > 智能机器人
© 2012 www.xueweilunwen.com
|