学位论文 > 优秀研究生学位论文题录展示
基于多智能体间协作模型及其学习方法研究
作 者: 王全武
导 师: 胡晓辉
学 校: 兰州交通大学
专 业: 计算机应用技术
关键词: 预测加速技术 多智能体系统 强化学习 黑板模型 追捕问题
分类号: TP18
类 型: 硕士论文
年 份: 2011年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
在多Agent系统中,由于环境是动态变化的,其它Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种无需要环境模型的机器学习方法,现已成为多Agent系统的研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。本文的主要研究工作包括以下几个方面:(1)论文首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。(2)将预测加速抉择机制、黑板模型、融和算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法及其模型。其中,黑板是一块共享的存储区域,可以实现信息共享;融和算法用来对信息进行融和;强化学习技术利用融和结果进行动作选择。(3)追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-15 1.1 研究的必要性和背景 8-9 1.2 强化学习概述 9-11 1.3 追捕问题描述 11-14 1.3.1 追捕问题的发展背景 11-12 1.3.2 追捕问题概述 12-13 1.3.3 分析追捕问题存在的问题 13-14 1.4 论文研究内容及结构安排 14-15 1.4.1 研究内容 14 1.4.2 结构安排 14-15 2 多AGENT系统 15-19 2.1 AGENT介绍 15-16 2.1.1 Agent的定义 15 2.1.2 Agent的基本特性 15-16 2.2 多Agent系统概述 16-17 2.2.1 多Agent系统的定义及特性 16 2.2.2 多Agent学习的研究内容 16-17 2.2.3 多Agent协作机制 17 2.3 本章小结 17-19 3 多AGENT强化学习理论 19-32 3.1 强化学习 19-28 3.1.1 强化学习的基本原理和定义 19-21 3.1.2 马尔可夫决策过程 21-22 3.1.3 强化学习的基本要素 22-24 3.1.4 经典的强化学习算法 24-28 3.1.5 有待进一步研究的问题 28 3.2 多AGENT强化学习 28-31 3.2.1 MARL方法及其发展 28-29 3.2.2 合作MARL 29 3.2.3 基于对策或平衡解的MARL 29-30 3.2.4 最佳响应MARL 30-31 3.2.5 MARL有待进一步解决的问题 31 3.3 本章小结 31-32 4 改进的多AGENT协作学习方法 32-40 4.1 多AGENT的信息共享机制 32-33 4.1.1 信息共享机制 32-33 4.1.2 实例分析 33 4.2 黑板模型 33-34 4.3 对手状态预测 34-36 4.3.1 PA-BDI-AGENT预测技术 34-35 4.3.2 对手状态预测函数 35-36 4.4 改进的多AGENT协作学习算法 36-39 4.4.1 算法框架 36 4.4.2 算法描述 36-37 4.4.3 算法说明 37-39 4.5 本章小结 39-40 5 捕追问题研究 40-46 5.1 任务描述 40 5.2 追捕流程图 40-41 5.3 算法设计 41-44 5.3.1 分解目标及确定子目标 41-42 5.3.2 状态聚类 42-43 5.3.3 设定奖赏值 43 5.3.4 更新Q值 43-44 5.4 实验结果及其分析 44-45 5.5 本章小结 45-46 结论 46-47 致谢 47-48 参考文献 48-50 攻读学位期间的研究成果 50
|
相似论文
- 基于多Agent的河北冀通路桥公路施工智能决策支持系统研究,TP311.52
- 机器人系统路径规划的研究,TP242
- 软件体系结构自适应模型及其智能化研究,TP311.52
- 离散多智能体系统的协调控制和一致性研究,TP273
- 基于模型的动态分层强化学习算法研究,TP181
- 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 配电网静止同步补偿器控制策略的研究与实现,TM761
- 小型无人直升机悬停控制算法研究,V275.1
- 多仿生机器鱼协调控制研究,TP242
- 基于强化学习的自主式移动机器人导航控制,TP242
- 基于一致性协议的多智能体系统分布式编队控制的研究,TP273
- 海洋船舶类复杂产品供应链协作机制研究,F426.4
- 复杂多主体战略管控系统建模及应用研究,F224
- 基于MAS的空间数据集成方法研究与实践,P208
- 基于多Agent的电梯群控系统的研究与设计,TU857
- 多智能体理论及其在电梯群控中的应用研究,TP273.5
- 基于强化学习的自适应技术研究,TP311.52
- 基于自适应方法的复杂网络同步及多智能体一致性研究,O157.5
- 基于多智能体流域跨界环境风险协同决策模型与程序设计,X507
- 基于多智能体的炼钢厂车间天车调度仿真方法研究,TF341.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|