学位论文 > 优秀研究生学位论文题录展示

基于强化学习的电子销售市场动态定价研究

作　者: 王金田
导　师: 唐昊
学　校: 合肥工业大学
专　业: 计算机应用技术
关键词: 动态定价强化学习性能势半马尔可夫决策过程(SMDP) WoLF-PHC算法
分类号: F713.36
类　型: 硕士论文
年　份: 2009年
下　载: 105次
引　用: 0次
阅　读: 论文下载

内容摘要

随着Internet技术的迅猛发展,电子商务得到了广泛应用,电子销售市场中的动态定价问题研究具有十分重要的现实意义。论文主要使用强化学习技术来分别解决单个销售商和多个销售商垄断电子销售市场的动态定价问题。论文首先根据单个销售商垄断电子销售市场的模型特点,将其建模成半马尔可夫决策过程(Semi-Markov Decision Process,SMDP),并结合性能势理论,建立了适用于平均和折扣两种性能准则的Q学习算法和模拟退火Q学习算法,以解决单个销售商的动态定价问题。与简单的动态定价方法DF(Derivative Following)相比,这两种算法的学习效果更好,其中模拟退火Q学习算法能够有效解决Q学习中的探索和利用之间的平衡问题。论文还讨论了不同的系统参数对销售商收益的影响。论文还针对两个销售商垄断电子销售市场的模型,研究了彼此之间没有信息交互和只有部分信息交互两种情况下的动态定价问题。第一种情况下,每个销售商单独学习,决策时刻各自独立,因而是异步决策问题;第二种情况下,销售商之间只能观察到对方的状态信息,而不知道对方的行动和报酬,因而可建模成马尔可夫博弈。针对这两种情况,论文在性能势理论框架下分别引入了WoLF-PHC算法,该算法根据对手使用的行动不同,而采用不同的学习率,从而能够更好地适应环境的变化。实验结果表明,WoLF-PHC算法和模拟退火Q学习算法都能有效解决无信息交互和只有部分信息交互时的动态定价问题,而且与模拟退火Q学习算法相比,WoLF-PHC算法学习效果更好。

基于强化学习的电子销售市场动态定价研究

内容摘要

全文目录

相似论文