学位论文 > 优秀研究生学位论文题录展示
基于强化学习的电子销售市场动态定价研究
作 者: 王金田
导 师: 唐昊
学 校: 合肥工业大学
专 业: 计算机应用技术
关键词: 动态定价 强化学习 性能势 半马尔可夫决策过程(SMDP) WoLF-PHC算法
分类号: F713.36
类 型: 硕士论文
年 份: 2009年
下 载: 105次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet技术的迅猛发展,电子商务得到了广泛应用,电子销售市场中的动态定价问题研究具有十分重要的现实意义。论文主要使用强化学习技术来分别解决单个销售商和多个销售商垄断电子销售市场的动态定价问题。论文首先根据单个销售商垄断电子销售市场的模型特点,将其建模成半马尔可夫决策过程(Semi-Markov Decision Process,SMDP),并结合性能势理论,建立了适用于平均和折扣两种性能准则的Q学习算法和模拟退火Q学习算法,以解决单个销售商的动态定价问题。与简单的动态定价方法DF(Derivative Following)相比,这两种算法的学习效果更好,其中模拟退火Q学习算法能够有效解决Q学习中的探索和利用之间的平衡问题。论文还讨论了不同的系统参数对销售商收益的影响。论文还针对两个销售商垄断电子销售市场的模型,研究了彼此之间没有信息交互和只有部分信息交互两种情况下的动态定价问题。第一种情况下,每个销售商单独学习,决策时刻各自独立,因而是异步决策问题;第二种情况下,销售商之间只能观察到对方的状态信息,而不知道对方的行动和报酬,因而可建模成马尔可夫博弈。针对这两种情况,论文在性能势理论框架下分别引入了WoLF-PHC算法,该算法根据对手使用的行动不同,而采用不同的学习率,从而能够更好地适应环境的变化。实验结果表明,WoLF-PHC算法和模拟退火Q学习算法都能有效解决无信息交互和只有部分信息交互时的动态定价问题,而且与模拟退火Q学习算法相比,WoLF-PHC算法学习效果更好。
|
全文目录
相似论文
- 机器人系统路径规划的研究,TP242
- 软件体系结构自适应模型及其智能化研究,TP311.52
- 公共租赁房租金定价机制研究,F293.3
- 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 配电网静止同步补偿器控制策略的研究与实现,TM761
- 中国民营航空公司收益管理定价问题研究,F562.5
- 小型无人直升机悬停控制算法研究,V275.1
- 多仿生机器鱼协调控制研究,TP242
- 基于强化学习的自主式移动机器人导航控制,TP242
- 基于提前订货折扣模式的易逝品双寡头市场定价策略研究,F274
- 收益管理在我国风景名胜区门票定价中的应用,F224
- 基于多Agent的电梯群控系统的研究与设计,TU857
- 基于强化学习的自适应技术研究,TP311.52
- 基于电子商务过程的易逝性产品收益描述与动态定价研究,F713.36
- 电子商务环境下企业动态定价研究,F272
- 网络零售条件下的易逝品动态定价研究,F274
- 基于家族相似性材料类别学习的反馈机制研究,B842.3
- 基于人工情感的机器人行为决策研究,TP242.6
- 基于强化学习的服务机器人导航研究,TP242.6
- 基于多智能体间协作模型及其学习方法研究,TP18
中图分类: > 经济 > 贸易经济 > 国内贸易经济 > 商品流通与市场 > 商品销售 > 电子贸易、网上贸易
© 2012 www.xueweilunwen.com
|