学位论文 > 优秀研究生学位论文题录展示

六子棋中基于BP-TD学习的局面估值方法研究

作　者: 李新星
导　师: 马宗民
学　校: 东北大学
专　业: 计算机软件与理论
关键词: 六子棋评估函数 TD学习 BP神经元网络两阶段着法选择策略
分类号: TP18
类　型: 硕士论文
年　份: 2009年
下　载: 11次
引　用: 0次
阅　读: 论文下载

内容摘要

空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索所能够抵达的最大深度,这使得局面的估值就变得特别重要。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性往往直接决定了选择后继着法的策略的优劣。本文将TD算法与BP神经元网络相结合,首次将其应用于六子棋的局面估值中。该方法利用BP神经元网络做为局面的估值函数,通过TD算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调参容易受人类经验影响的缺陷,同时,BP神经元网络自适应性好,容错能力强,能够自动发现输入实例中与学习目标函数中最相关的特征,适合用于对六子棋复杂局面的估值。考虑到六子棋的特点,为了使TD学习更有效,本文还提出了一种两阶段的着法选择策略。第一阶段的策略是按BP网络置信度和备选着法的估值为其分配权重,然后按概率选择后继着法,具有较大权值的着法被赋予较高的概率；第二阶段的策略是最佳着法的极大极小选择策略。这两种策略的联合使用,使TDConn6在TD学习中兼有探索性和利用性特点。采用以上的方法和策略,本文实现了六子棋程序TDConn6, TDConn6从“零知识”开始学习,经过30000盘的自学习训练后,分别与博弈程序NEUConn6与NEU6Star各对弈1000次,所取得的胜率分别为64.7%和80.5%,从而验证了本文提出的方法和策略是有效的和实用的。

全文目录

摘要  5-6
Abstract  6-11
第1章绪论  11-17
  1.1 研究背景  11-12
  1.2 六子棋的研究现状  12-13
  1.3 研究意义  13-14
    1.3.1 课题的提出  13-14
    1.3.2 技术路线  14
    1.3.3 研究意义  14
  1.4 论文的组织结构  14-17
第2章六子棋和TD学习  17-35
  2.1 六子棋  17-22
    2.1.1 六子棋简介  17-19
    2.1.2 博弈程序NEU6Star  19-22
  2.2 TD(λ)算法  22-27
    2.2.1 增强学习简介  22-25
    2.2.2 评价函数P(s,a)  25-26
    2.2.3 TD(λ)算法  26-27
  2.3 估值函数  27-33
    2.3.1 传统的估值函数  27-28
    2.3.2 基于BP神经元网络的估值函数  28-33
  2.4 本章小结  33-35
第3章 TDConn6中估值算法与策略的研究  35-55
  3.1 TDCONN6的框架结构  35-37
  3.2 TDCONN6的BP-TD(λ)学习算法  37-39
  3.3 TDCONN6的BP神经元网络  39-47
    3.3.1 局面特征的抽取  39-44
    3.3.2 BP神经元网络的设计  44-47
  3.4 TDCONN6的两阶段着法选择策略  47-54
    3.4.1 随机的着法选择策略  47-48
    3.4.2 最优的着法选择策略  48-49
    3.4.3 两阶段的着法选择策略  49-54
  3.5 本章小结  54-55
第4章系统实现与试验结果分析  55-71
  4.1 开发环境和工具  55
  4.2 系统实现  55-61
    4.2.1 TDConn6总体功能的实现  55-56
    4.2.2 TD学习模块的实现  56-57
    4.2.3 着法选择模块的实现  57-58
    4.2.4 自学习训练平台TDvs的实现  58-61
  4.3 试验结果分析  61-69
    4.3.1 BP神经元网络的可靠性验证  61-63
    4.3.2 参数λ和α对TDConn6的影响  63-67
    4.3.3 两阶段着法选择策略的性能分析  67-68
    4.3.4 TDConn6的测试集  68-69
    4.3.5 TDConn6与NEUConn6、NEU6Star的性能比较  69
  4.4 小结  69-71
第5章总结与展望  71-73
  5.1 总结  71
  5.2 展望  71-73
参考文献  73-77
致谢  77-79
攻读硕士学位期间的科研工作及获奖情况  79

六子棋中基于BP-TD学习的局面估值方法研究

内容摘要

全文目录

相似论文