学位论文 > 优秀研究生学位论文题录展示

基于概率生成模型的文本主题建模及其应用

作 者: 丁轶群
导 师: 李善平
学 校: 浙江大学
专 业: 计算机科学与技术
关键词: 文本挖掘 主题建模 贝叶斯模型 贝叶斯模型的近似概率推理方法
分类号: TP391.1
类 型: 博士论文
年 份: 2010年
下 载: 465次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在以信息化、数字化和网络化为特征的21世纪里,海量的文本数据正在从各个方面以各种形式深层次地影响着我们的生活。如果说Google、Baidu等搜索引擎通过帮助我们从海量文本中准确地查找相关的文本而带来了人们利用文本信息的第一次革命,文本挖掘则通过从海量文本中挖掘出新的知识帮助人迅速理解海量文本带来了人们利用文本信息的第二次革命。文本聚类是文本挖掘两大重要研究问题之一。文本聚类根据文本的内容的相似性将文本集合归为若干个“类”。文本聚类将理解海量的文本的过程从“以单个文本为单位逐篇理解文本集合内各文本”的过程简化为“以文本类为单位逐个理解文本集合内各个主题”的过程。一个文本类代表了一个统一的主题内容,可以帮助人们快速理解海量文本集合的内容,也可以被其他文本处理方法进一步挖掘和利用。然而传统的文本聚类方法主要关注如何将文本集合归类,而对文本类本身的研究却只有初步的尝试。主题建模利用贝叶斯概率模型为“主题”、“主题间关系”等抽象概念建立明确的模型,并利用近似概率推理方法从文本数据中挖掘出这些抽象概念,弥补了文本聚类研究领域内对文本类本身研究的不足。主题建模方法以其出色的对高维数据的降维能力,对真实世界中复杂系统的建模能力以及灵活易扩展的模型设计方法,成为文本挖掘领域近年来的一个热门研究方向,并在图像处理、金融、软件工程等众多领域得到了广泛的应用。本文正是基于以上的背景,对主题建模研究中若干关键问题进行了研究,并尝试了主题建模方法在其他研究领域的应用。主要工作内容和创新点体现在以下几个方面:主题模型设计的研究。树状层次化主题关系[3]和有向无环图主题关系[4]的引入增强了主题模型对复杂文本生成过程的建模能力。然而本文的研究工作表明,这类复杂的主题模型内部随机变量之间存在的相关性使得某些常用的近似概率推理算法(Gibbs抽样算法)收敛速度慢,容易陷入局部最大点,导致算法无法挖掘出文本数据中蕴含的语义。针对这个问题,我们提出了一个新的随机过程:嵌套的层次化Dirichlet过程(nested hierarchical Dirichlet process),并基于该随机过程提出两个层次化主题模型。我们的理论分析和实验表明,在这两个主题模型中的引入“亚主题”和“层次映射”的概念,有效解决了随机变量间的相关性带来的模型推理的困难。近似概率推理方法的研究。由于主题模型的复杂性,主题模型的精确推理超过了现有的计算能力。马尔可夫链蒙特卡罗(Markov chain Monte Carlo)方法是一种广泛使用的主题模型的近似推理方法。利用MCMC方法进行的主题模型的推理过程就是运行Markov链直至其收敛到主题模型定义的各隐含随机变量的联合概率分布的过程。MCMC方法的收敛速度决定了主题建模处理海量文本的能力。然而由于一些主题模型中大量随机变量之间复杂的关系,一些MCMC方法收敛速度很慢。本文提出的ASM抽样算法是MCMC方法的一种。ASM抽样算法能够在运行的过程中充分利用Markov链当前状态内所有的信息动态调整转移矩阵,提高收敛速度。实验表明,相比现有的类似算法,ASM抽样算法能够在更短的时间内收敛到更好的结果。主题模型在移动建模中应用的研究。主题建模不仅是文本处理领域近年来热门的研究方向,也在其他研究领域得到广泛的应用。移动建模是移动计算中一个重要的研究问题。移动建模为无线网络用户的移动方式建模,解决用户的移动性带来的如资源部署、路由协议设计等各种难题。在移动建模研究领域存在一种特殊的数据,即通过各种移动设备,如手机、车载GPS、无线通信网络等记录下的移动用户在环境中留下的一连串的轨迹记录(trace log)。这些轨迹记录和文本数据一样具有高维度、数据量大、内部蕴含复杂的模式的特点。传统的移动建模方法大都采用以Markov模型、隐Markov模型为代表的时序模型。我们指出在一些场景下非时序模型比时序模型更加适合用来挖掘用户移动行为背后的目的。我们首次提出了层次化的移动模式的概念,并首次将主题建模引入到移动建模研究领域中。实验表明我们提出的基于嵌套的Dirichlet过程混合过程的移动模型能比隐Markov模型获得更高的推广能力,利用主题建模方法挖掘出的移动模式也更容易为模型使用者理解。

全文目录


致谢  4-5
摘要  5-7
Abstract  7-15
1 绪论  15-37
  1.1 海量文本的挑战和文本挖掘  15-21
  1.2 文本挖掘面临的挑战  21-23
  1.3 文本挖掘的主要研究问题  23-25
  1.4 文本聚类的新发展:主题建模  25-29
  1.5 主题模型相对于传统文本聚类方法的优势  29-30
  1.6 主题建模的重要性和面临的问题  30-34
  1.7 主要工作与本文结构  34-37
2 主题建模的研究现状  37-71
  2.1 主题建模的研究现状-时间维度  37-49
  2.2 主题建模的研究现状-内容维度  49-71
3 层次化主题模型的研究  71-100
  3.1 研究背景  71-74
  3.2 相关研究  74-78
  3.3 hLDA模型推理中的局部最大点问题  78-85
  3.4 层次化Dirichlet过程  85-87
  3.5 基于嵌套的层次化Dirichlet过程的层次化主题模型  87-89
  3.6 nHDP模型的近似推理  89-92
  3.7 实验和讨论  92-99
  3.8 本章小结  99-100
4 主题建模中高效近似概率推理算法的研究  100-127
  4.1 研究背景  101-104
  4.2 相关研究  104-108
  4.3 自适应Metropolis-Hastings MCMC算法  108-114
  4.4 自适应分裂合并抽样算法  114-121
  4.5 实验和讨论  121-126
  4.6 本章小结  126-127
5 主题建模在移动建模领域中应用的研究  127-140
  5.1 研究背景  127-129
  5.2 相关研究  129-131
  5.3 基于嵌套的Dirichlet过程的移动模型  131-134
  5.4 nDP移动模型的推理方法  134-136
  5.5 实验及讨论  136-139
  5.6 本章小节  139-140
6 总结与展望  140-143
  6.1 主要工作内容和创新点  140-141
  6.2 进一步研究工作  141-143
参考文献  143-165
作者简介  165-166
攻读博士学位期间主要研究成果  166

相似论文

  1. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  2. 结合用户及地理信息的图像主题建模,TP391.41
  3. 美国影评人视野中的中国电影,J905
  4. 面向高速铁路的轨道异物检测研究,U216.3
  5. 基于树结构DCC_多元GARCH模型的中国股市波动相关性研究,F832.51
  6. 基于Web分类技术的农业信息获取系统的研究与实现,TP393.09
  7. 面向文本的主题挖掘技术与实现,TP391.1
  8. 基于WEB文本挖掘的企业竞争情报收集系统,TP311.52
  9. 基于领域的信息分类和搜索技术的研究,TP391.3
  10. 问答社区中的问题与答案推荐机制研究与实现,TP391.1
  11. 汉语言网络统计特性与半监督文档聚类算法研究,TP391.1
  12. 快速文本分类研究,TP391.1
  13. Web数据挖掘中XML应用及关联算法改进,TP311.13
  14. 关于互联网文本数据挖掘的一些关键技术研究,TP311.13
  15. 基于最大似然的贝叶斯模型平均组合预测及其在煤炭需求预测中的应用,F426.21
  16. 多感觉交互作用的神经网络模型研究,R318.0
  17. 武警部队舆情监测系统设计和实现,TP393.09
  18. 面向专业领域的文本特征提取技术研究,TP391.1
  19. 基于潜语义与遗传算法的中文文本特征获取方法研究,TP391.1
  20. 竞争对手网站商业情报挖掘,TP311.13
  21. 基于SVM的多类文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com