学位论文 > 优秀研究生学位论文题录展示

动态不确定环境下的智能体序贯决策方法及应用研究

作　者: 仵博
导　师: 吴敏; 陈鑫
学　校: 中南大学
专　业: 计算机科学与技术
关键词: 部分可观察马尔可夫决策过程信念状态空间基于点的在线值迭代贝叶斯增强学习无线传感器网络
分类号: TP181
类　型: 博士论文
年　份: 2013年
下　载: 4次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来,动态不确定环境下的智能体在线规划和学习引起了科学界的极大关注,已就智能体在决策时必须考虑各种不确定性作为设计健壮系统的必备条件而达成共识。部分可观察马尔可夫决策过程(Partially Observable Markov Decision Processes,简称POMDPs)为智能体在动态不确定环境下的序贯决策提供了一个理想的模型,该模型可以对传感器噪音、丢失信息和部分观察信息等不确定性信息提供鲁棒性建模,进而最优化序贯策略。然而,基于POMDPs的智能体在线规划与学习常陷入信念状态空间“维数灾”和“历史灾”问题,造成现有算法仅适用于小规模问题,难于应用到大规模实际工程中。本文针对上述问题,重点研究信念状态空间压缩方法、在线规划和在线学习方法,并将本文方法应用到无线传感器网络能量高效领域。主要研究成果和创新点如下：(1)提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法针对求解可分解POMDPs规划问题时遭遇的“维数灾”问题,提出一种基于非负矩阵分解更新规则的可分解POMDPs信念状态空间降维算法。首先,根据POMDPs的结构特性,对状态、观察和动作进行可分解表示,利用动态贝叶斯网络的独立关系对信念状态空间进行压缩,从而降低信念状态空间的稀疏性。然后,采用信念状态空间值直接降维方法进行降维,利用非负矩阵分解更新规则来更新信念状态空间,从而不但避免Krylov迭代,加快降维速度,而且保留了值函数分段线性凸特性,使得降维前后值函数不发生改变。仿真结果表明,该算法具有较低误差率和较高收敛性。(2)提出一种基于点的POMDPs在线值迭代算法针对POMDPs序贯决策遭遇的“历史灾”问题,提出一种基于点的POMDPs在线值迭代算法。该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,从而加速问题求解；采用分支界限裁剪方法对信念状态与或树进行在线裁剪；提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算。仿真结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求。(3)提出一种基于模型的可分解贝叶斯增强学习算法针对POMDPs在线学习面临的学习参数巨大、算法收敛速度慢等问题,提出一种基于模型的可分解贝叶斯增强学习算法。首先,将学习参数进行可分解表示,降低学习参数的个数；然后,根据智能体先验知识和观察数据利用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系；最后,采用基于点的增量裁剪方法实现算法的快速收敛。仿真结果表明,该算法能够满足实时系统性能的要求。(4)提出一种基于POMDPs的无线传感器网络能量高效策略无线传感器网络能量高效策略是目前无线传感器网络面临的难题。针对无线传感器网络节能问题,应用本文提出的方法,首先,提出一种基于广义逆非负矩阵分解的无线传感器网络能量高效通信算法,采用非负矩阵分解方法对奇异值分解后的特征空间进行降维。然后,提出一种基于信念重用的无线传感器网络能量高效跟踪算法,针对现有跟踪算法误差较大问题,采用最大报酬值启发式方法获得跟踪性能的近似最优值。针对传感器能量消耗过大问题,采用信念重用方法,不仅可以减少传感器通信能量,而且还能够进一步降低POMDPs值函数误差,提高跟踪性能。图41幅,表11个,参考文献172篇。

全文目录

摘要  4-6
Abstract  6-16
1 绪论  16-29
  1.1 研究背景  16-18
  1.2 国内外研究现状  18-26
    1.2.1 基于状态空间的降维方法  18-19
    1.2.2 基于点的在线规划方法  19-21
    1.2.3 增强学习方法  21-24
    1.2.4 存在的问题  24-26
  1.3 研究目的和意义  26-27
  1.4 本文的主要内容和结构安排  27-29
2 POMDPS信念状态空间降维算法  29-51
  2.1 马尔可夫决策过程  29-33
    2.1.1 马尔可夫决策过程  30-31
    2.1.2 值函数和值迭代  31-33
  2.2 部分可观察马尔可夫决策过程  33-36
  2.3 可分解信念状态空间压缩算法  36-41
    2.3.1 动态贝叶斯网络及其独立关系  37-38
    2.3.2 可分解信念状态空间压缩算法  38-41
  2.4 VDC-NMF降维算法  41-45
    2.4.1 VDC压缩方法  41-42
    2.4.2 NMF更新规则  42-44
    2.4.3 VDC-NMF降维算法  44-45
    2.4.4 算法误差分析  45
  2.5 仿真分析  45-50
    2.5.1 HALLWAY2问题的对比仿真  46-47
    2.5.2 经典问题的对比仿真  47-48
    2.5.3 机器人救援仿真  48-50
  2.6 本章小结  50-51
3 基于点的在线值迭代算法  51-75
  3.1 精确值迭代算法  52-56
    3.1.1 策略树构造  53-54
    3.1.2 α-向量  54-55
    3.1.3 精确求解算法  55-56
    3.1.4 算法复杂度  56
  3.2 基于点的离线算法  56-58
  3.3 基于点的在线算法  58-64
    3.3.1 算法思想  58-60
    3.3.2 基于点的在线值迭代算法  60-62
    3.3.3 误差及收敛性分析  62-64
  3.4 仿真分析  64-68
    3.4.1 ROCKSAMPLE问题  64-65
    3.4.2 与或树遍历深度  65-66
    3.4.3 实时性能分析  66-68
    3.4.4 机器人救援仿真  68
  3.5 基于后验信念聚类的在线规划算法  68-74
    3.5.1 连续状态POMDPs模型  69-70
    3.5.2 算法思想  70-71
    3.5.3 后验信念聚类算法  71-73
    3.5.4 算法复杂度分析  73
    3.5.5 仿真分析  73-74
  3.6 本章小结  74-75
4 基于模型的可分解贝叶斯增强学习  75-93
  4.1 动态贝叶斯网络结构学习模型  76-79
    4.1.1 贝叶斯网络学习  77-78
    4.1.2 可分解学习模型  78-79
  4.2 基于模型的贝叶斯增强学习  79-83
    4.2.1 信念状态更新  80-81
    4.2.2 值函数参数化  81-83
  4.3 基于点的增量裁剪算法  83-87
    4.3.1 策略树的构造和求解  83-84
    4.3.2 基于边界点对策略树进行无损裁剪  84-85
    4.3.3 基于中间点进行策略树的有损裁剪  85-86
    4.3.4 PBIP算法及其复杂度分析  86-87
  4.4 仿真分析  87-92
    4.4.1 经典问题的对比仿真  88-89
    4.4.2 策略树裁剪对比仿真  89-90
    4.4.3 CHAIN问题对比仿真  90-92
  4.5 本章小结  92-93
5 基于POMDPS的无线传感器网络能量高效策略  93-108
  5.1 基于广义逆非负矩阵分解的WSNs节能通信  93-100
    5.1.1 WSNs中的非负矩阵分解模型  94-95
    5.1.2 广义逆矩阵构建  95-96
    5.1.3 特征空间变换  96
    5.1.4 广义逆非负矩阵分解的通信数据压缩算法  96-97
    5.1.5 仿真分析  97-100
  5.2 基于信念重用的无线传感器网络能量高效跟踪  100-106
    5.2.1 基于POMDPs的WSNs模型构建  101-103
    5.2.2 跟踪性能最大化算法  103
    5.2.3 基于信念重用的能量高效在线跟踪算法  103-105
    5.2.4 仿真分析  105-106
  5.3 本章小结  106-108
6 结论与展望  108-111
  6.1 结论  108-109
  6.2 展望  109-111
参考文献  111-125
攻读学位期间主要的研究成果目录  125-127
致谢  127

动态不确定环境下的智能体序贯决策方法及应用研究

内容摘要

全文目录

相似论文