学位论文 > 优秀研究生学位论文题录展示
六子棋中基于BP-TD学习的局面估值方法研究
作 者: 李新星
导 师: 马宗民
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 六子棋 评估函数 TD学习 BP神经元网络 两阶段着法选择策略
分类号: TP18
类 型: 硕士论文
年 份: 2009年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
空间搜索能力与局面估值的准确性是决定棋类游戏水平高低的最重要的两个方面。六子棋游戏规则简单,但状态空间复杂度高,平均分枝因子大。该特点限制了六子棋程序中博弈树搜索所能够抵达的最大深度,这使得局面的估值就变得特别重要。估值是各种博弈问题中最难以处理的一个问题,局面估值的准确性往往直接决定了选择后继着法的策略的优劣。本文将TD算法与BP神经元网络相结合,首次将其应用于六子棋的局面估值中。该方法利用BP神经元网络做为局面的估值函数,通过TD算法直接从原始经验中学习,自动调整估值函数的参数,将BP神经元网络的有监督学习转换为无监督学习,避免了神经网络在有监督学习下调参容易受人类经验影响的缺陷,同时,BP神经元网络自适应性好,容错能力强,能够自动发现输入实例中与学习目标函数中最相关的特征,适合用于对六子棋复杂局面的估值。考虑到六子棋的特点,为了使TD学习更有效,本文还提出了一种两阶段的着法选择策略。第一阶段的策略是按BP网络置信度和备选着法的估值为其分配权重,然后按概率选择后继着法,具有较大权值的着法被赋予较高的概率;第二阶段的策略是最佳着法的极大极小选择策略。这两种策略的联合使用,使TDConn6在TD学习中兼有探索性和利用性特点。采用以上的方法和策略,本文实现了六子棋程序TDConn6, TDConn6从“零知识”开始学习,经过30000盘的自学习训练后,分别与博弈程序NEUConn6与NEU6Star各对弈1000次,所取得的胜率分别为64.7%和80.5%,从而验证了本文提出的方法和策略是有效的和实用的。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-17 1.1 研究背景 11-12 1.2 六子棋的研究现状 12-13 1.3 研究意义 13-14 1.3.1 课题的提出 13-14 1.3.2 技术路线 14 1.3.3 研究意义 14 1.4 论文的组织结构 14-17 第2章 六子棋和TD学习 17-35 2.1 六子棋 17-22 2.1.1 六子棋简介 17-19 2.1.2 博弈程序NEU6Star 19-22 2.2 TD(λ)算法 22-27 2.2.1 增强学习简介 22-25 2.2.2 评价函数P(s,a) 25-26 2.2.3 TD(λ)算法 26-27 2.3 估值函数 27-33 2.3.1 传统的估值函数 27-28 2.3.2 基于BP神经元网络的估值函数 28-33 2.4 本章小结 33-35 第3章 TDConn6中估值算法与策略的研究 35-55 3.1 TDCONN6的框架结构 35-37 3.2 TDCONN6的BP-TD(λ)学习算法 37-39 3.3 TDCONN6的BP神经元网络 39-47 3.3.1 局面特征的抽取 39-44 3.3.2 BP神经元网络的设计 44-47 3.4 TDCONN6的两阶段着法选择策略 47-54 3.4.1 随机的着法选择策略 47-48 3.4.2 最优的着法选择策略 48-49 3.4.3 两阶段的着法选择策略 49-54 3.5 本章小结 54-55 第4章 系统实现与试验结果分析 55-71 4.1 开发环境和工具 55 4.2 系统实现 55-61 4.2.1 TDConn6总体功能的实现 55-56 4.2.2 TD学习模块的实现 56-57 4.2.3 着法选择模块的实现 57-58 4.2.4 自学习训练平台TDvs的实现 58-61 4.3 试验结果分析 61-69 4.3.1 BP神经元网络的可靠性验证 61-63 4.3.2 参数λ和α对TDConn6的影响 63-67 4.3.3 两阶段着法选择策略的性能分析 67-68 4.3.4 TDConn6的测试集 68-69 4.3.5 TDConn6与NEUConn6、NEU6Star的性能比较 69 4.4 小结 69-71 第5章 总结与展望 71-73 5.1 总结 71 5.2 展望 71-73 参考文献 73-77 致谢 77-79 攻读硕士学位期间的科研工作及获奖情况 79
|
相似论文
- 中国象棋博弈树搜索算法研究与实现,TP391.3
- 基于增强学习的计算机博弈策略的研究与实现,TP18
- 中国象棋计算机博弈评估函数与开局库研究,TP18
- 六子棋机器博弈研究与开发,TP18
- 六子棋计算机博弈系统的研究与实现,TP18
- 基于智能算法的六子棋博弈行为选择的应用研究,TP18
- 多重比较研究及其在高校教学评估中的应用,G647.3
- MMOG中基于强化学习的多NPC协作的研究,TP18
- 复杂动态环境下移动机器人的全局路径规划算法研究,TP242
- 中国象棋计算机博弈中搜索算法的研究与改进,O225
- 基于PSO的中国象棋评估函数的研究,TP18
- 六子棋计算机博弈关键技术研究,TP18
- 中国象棋计算机博弈数据结构与评估函数的研究和实现,TP18
- 中国象棋机器博弈数据结构设计与搜索算法研究,TP391.3
- 基于半结构化数据信息检索的研究,TP391.3
- 基于不完全微分PID算法的神经网络控制,TP273
- 六子棋计算机博弈及其系统的研究与实现,TP311.52
- PKI信任模型及证书路径构造的研究,TP393.08
- 基于连珠模式的六子棋机器博弈关键技术研究,TP18
- 基于双向搜索的ILP算法构建汉语语义自动切分系统,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|