学位论文 > 优秀研究生学位论文题录展示

基于协同进化与强化学习的多代理协作学习研究

作　者: 范颖
导　师: 赵庆祯
学　校: 山东师范大学
专　业: 管理科学与工程
关键词: 协同进化进化稳定遗传算法策略重用方法随机博弈强化学习
分类号: TP18
类　型: 硕士论文
年　份: 2007年
下　载: 245次
引　用: 0次
阅　读: 论文下载

内容摘要

在多Agent系统中,由于环境是动态变化的,其他Agent行为是未知的,要建立领域完备的先验模型几乎不可能,而且许多领域知识也是在Agent和其他Agent交互的过程中逐步获得的,所以复杂环境下的Agent应当能够根据以前的经验校正其行为,即具有学习或自适应能力。学习技术在多Agent系统中的应用显得尤为重要。与此同时,单个Agent常常由于其有限的资源和能力,不能完成复杂的任务,所以多个Agent之间的协作也非常必要。增加学习机制是实现不同Agent之间协作的有效解决方法之一,一方面,为多Agent系统增加学习机制可以有效地实现Agent间的协作;另一方面,为Agent系统增加协作机制也能改善多Agent的学习性能。本文首先回顾Agent及多Agent系统产生、研究基础以及多Agent系统学习方法,分别从多Agent协作、强化学习、多Agent强化学习三个方面讲述多Agent协作学习的基础知识。本文将协同进化与进化稳定遗传算法相结合,并应用于多Agent系统的行动选择问题。在由两个或更多群体组成的系统中,每个群体分别代表一个Agent,系统中每个物种在其群体内进行进化,并通过反复使用进化稳定遗传算法以适应环境,最终使系统的适应度值达到最高。系统使用分散博弈,即多Agent系统的n个Agent分别决定要执行哪k个任务,文中研究n = k的情况,即完全分散博弈。只有当系统中n个Agent所选择的行动各不相同时,系统的适应度函数值才会达到最高,因此在这种博弈中各Agent会最大化地分散选择行动。实验仿真结果表明,此算法适用于多Agent系统的行动选择问题,与基于传统遗传算法的多Agent系统相比,系统可以在较少的代数内快速达到最高的适应度,且最高适应度也有明显提高。强化学习是多Agent系统学习常用的方法之一。在强化学习中策略的搜索与利用之间的平衡决定了Agent是搜索未执行过的行为集还是继续利用已经在学习过程中得到的知识。现有的行动选择策略只是利用了当前学习过程中得到的策略知识,很少利用以前学习过程中得到的策略。为了有效地利用已完成任务的策略集,提高Agent间协作完成任务的能力,我们在随机博弈与强化学习框架下,提出新的行动选择策略—策略重用方法,保存已经学习过的任务所用的策略集,将多Agent系统以前完成任务的策略集用于新任务的完成,有效地提高了新任务完成的效率以及系统的收益值。本文从多Agent协作学习方法出发,从协同进化稳定遗传算法结合多Agent系统和强化学习中的搜索策略方法这两方面有效提高了多Agent系统中Agent的协作学习能力,并给出了相应的实验结果。

全文目录

摘要  5-6
ABSTRACT  6-8
第一章引言  8-14
  1.1 研究背景和意义  8-9
  1.2 AGENT 与多AGENT系统  9-14
第二章预备知识  14-30
  2.1 多AGENT协作  14-17
  2.2 强化学习  17-23
  2.3 多AGENT强化学习方法  23-30
第三章协同进化多AGENT 系统  30-36
  3.1 协同进化遗传算法与进化稳定策略相结合  31-32
  3.2 协同进化多AGENT系统  32-34
  3.3 协同进化多AGENT系统适应度仿真实验  34-35
  3.4 结论  35-36
第四章基于随机博弈与强化学习的多AGENT 协作学习  36-44
  4.1 现有搜索策略方法  37-38
  4.2 策略重用方法及定义  38
  4.3 实验环境  38-42
  4.4 结果分析  42-44
第五章结束语  44-46
  5.1 总结  44
  5.2 进一步工作  44-46
参考文献  46-50
攻读硕士学位期间发表的论文  50-51
致谢  51

基于协同进化与强化学习的多代理协作学习研究

内容摘要

全文目录

相似论文