学位论文 > 优秀研究生学位论文题录展示
基于协同进化与强化学习的多代理协作学习研究
作 者: 范颖
导 师: 赵庆祯
学 校: 山东师范大学
专 业: 管理科学与工程
关键词: 协同进化 进化稳定遗传算法 策略重用方法 随机博弈 强化学习
分类号: TP18
类 型: 硕士论文
年 份: 2007年
下 载: 245次
引 用: 0次
阅 读: 论文下载
内容摘要
在多Agent系统中,由于环境是动态变化的,其他Agent行为是未知的,要建立领域完备的先验模型几乎不可能,而且许多领域知识也是在Agent和其他Agent交互的过程中逐步获得的,所以复杂环境下的Agent应当能够根据以前的经验校正其行为,即具有学习或自适应能力。学习技术在多Agent系统中的应用显得尤为重要。与此同时,单个Agent常常由于其有限的资源和能力,不能完成复杂的任务,所以多个Agent之间的协作也非常必要。增加学习机制是实现不同Agent之间协作的有效解决方法之一,一方面,为多Agent系统增加学习机制可以有效地实现Agent间的协作;另一方面,为Agent系统增加协作机制也能改善多Agent的学习性能。本文首先回顾Agent及多Agent系统产生、研究基础以及多Agent系统学习方法,分别从多Agent协作、强化学习、多Agent强化学习三个方面讲述多Agent协作学习的基础知识。本文将协同进化与进化稳定遗传算法相结合,并应用于多Agent系统的行动选择问题。在由两个或更多群体组成的系统中,每个群体分别代表一个Agent,系统中每个物种在其群体内进行进化,并通过反复使用进化稳定遗传算法以适应环境,最终使系统的适应度值达到最高。系统使用分散博弈,即多Agent系统的n个Agent分别决定要执行哪k个任务,文中研究n = k的情况,即完全分散博弈。只有当系统中n个Agent所选择的行动各不相同时,系统的适应度函数值才会达到最高,因此在这种博弈中各Agent会最大化地分散选择行动。实验仿真结果表明,此算法适用于多Agent系统的行动选择问题,与基于传统遗传算法的多Agent系统相比,系统可以在较少的代数内快速达到最高的适应度,且最高适应度也有明显提高。强化学习是多Agent系统学习常用的方法之一。在强化学习中策略的搜索与利用之间的平衡决定了Agent是搜索未执行过的行为集还是继续利用已经在学习过程中得到的知识。现有的行动选择策略只是利用了当前学习过程中得到的策略知识,很少利用以前学习过程中得到的策略。为了有效地利用已完成任务的策略集,提高Agent间协作完成任务的能力,我们在随机博弈与强化学习框架下,提出新的行动选择策略—策略重用方法,保存已经学习过的任务所用的策略集,将多Agent系统以前完成任务的策略集用于新任务的完成,有效地提高了新任务完成的效率以及系统的收益值。本文从多Agent协作学习方法出发,从协同进化稳定遗传算法结合多Agent系统和强化学习中的搜索策略方法这两方面有效提高了多Agent系统中Agent的协作学习能力,并给出了相应的实验结果。
|
全文目录
摘要 5-6 ABSTRACT 6-8 第一章 引言 8-14 1.1 研究背景和意义 8-9 1.2 AGENT 与多AGENT系统 9-14 第二章 预备知识 14-30 2.1 多AGENT协作 14-17 2.2 强化学习 17-23 2.3 多AGENT强化学习方法 23-30 第三章 协同进化多AGENT 系统 30-36 3.1 协同进化遗传算法与进化稳定策略相结合 31-32 3.2 协同进化多AGENT系统 32-34 3.3 协同进化多AGENT系统适应度仿真实验 34-35 3.4 结论 35-36 第四章 基于随机博弈与强化学习的多AGENT 协作学习 36-44 4.1 现有搜索策略方法 37-38 4.2 策略重用方法及定义 38 4.3 实验环境 38-42 4.4 结果分析 42-44 第五章 结束语 44-46 5.1 总结 44 5.2 进一步工作 44-46 参考文献 46-50 攻读硕士学位期间发表的论文 50-51 致谢 51
|
相似论文
- 媒介在乡村日常生活中的角色,D422.7
- 机器人系统路径规划的研究,TP242
- 软件体系结构自适应模型及其智能化研究,TP311.52
- 基于改进蚁群算法的多机协同突防航迹规划方法研究,V249.1
- 并行与双系统协同差异进化算法及其应用,TP18
- 基于模型的动态分层强化学习算法研究,TP181
- 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 配电网静止同步补偿器控制策略的研究与实现,TM761
- 小型无人直升机悬停控制算法研究,V275.1
- 智能优化算法及在通信中的应用研究,TN92
- 多仿生机器鱼协调控制研究,TP242
- 基于强化学习的自主式移动机器人导航控制,TP242
- 供应链联盟协同进化的路径研究,F274
- 物流生态系统的协同进化研究,F259.2
- 基于多Agent的电梯群控系统的研究与设计,TU857
- 分类中基于粗糙集理论的决策树算法研究,TP18
- 基于强化学习的自适应技术研究,TP311.52
- 基于协同进化粒子群的聚合反应优化研究,TP18
- 基于家族相似性材料类别学习的反馈机制研究,B842.3
- 引入加速协同算子的多目标协同进化算法及其在倒立摆控制中的应用,TP13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|