学位论文 > 优秀研究生学位论文题录展示

基于LDA模型的观点聚类研究

作　者: 张梦笑
导　师: 王素格
学　校: 山西大学
专　业: 计算数学
关键词: LDA模型特征选择文本表示观点聚类
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 316次
引　用: 0次
阅　读: 论文下载

内容摘要

在信息检索中,文本聚类的目的是发现语义上较为相近的文本,精确的聚类结果能够使用户快速地理解文本的内容,从而做出有利的判断。文本聚类在市场销售、城市规划、地震研究等方面起着不可或缺的重要作用。而随着网络的普及和网络购物的日益盛行,人们越来越多的通过网络实现主观需求并表达自己的观点。因此对观点聚类的研究也变得很有必要。本文分别从主题和观点两个角度进行了聚类研究。对于主题聚类,提出了基于潜在狄利克雷分配(LDA)模型的特征选择方法；对于观点聚类,采用LDA建模得到的文本与隐含类别之间的关系矩阵进行文本表示,并对所提出的观点聚类方法进行了领域依赖性检验。主要内容如下：(1)基于LDA特征选择方法的主题聚类。通过LDA建模,发现特征和主题之间的隐含关系,在此基础上,对主题聚类的特征进行了选择,采用K-means算法对文本进行了主题聚类。为了验证该方法的有效性,与词语贡献度的特征选择方法+K-means算法以及基于LDA模型的文本与隐含类别之间的概率分布矩阵直接得到聚类结果进行了比较实验,实验结果显示,当选择2%的特征时,相对于词语贡献度(Term Contribution, TC)方法的纯度和F值分别提高了15%和16%,相对于LDA直接得到文本与类别关系的实验结果的纯度和F值分别提高了14%和13%。(2)基于文本与隐含类别间的概率分布的文本表示的观点聚类。使用LDA建模,获得文本与隐含类别之间的概率分布矩阵,以此将文本来表示成概率分布的向量空间模型。为了验证方法的有效性,与布尔模型的文本表示法和TF-IDF的表示进行对比分析。利用K-means聚类算法,在第一届中文倾向性分析评测会议(COAE2008)数据上的进行了实验,结果表明,在最好的情况下,本文所提出的方法比布尔表示法的聚类结果提高了6%的纯度和7%的F值,比TF-IDF表示的聚类结果高6%的纯度和9%的F值。说明了本文所使用的方法在文本的表示更合理。(3)观点聚类的领域依赖性检验。观点聚类是观点挖掘任务之一。由于观点挖掘通常具有很强的领域依赖性,因此,本文对于所提出的观点聚类方法进行了领域依赖性检验。将COAE2008的数据集分领域后进行实验,实验结果表明,在领域较混合的数据集上的实验结果与领域单一的数据集上的实验结果相比,平均高出5.7%的纯度和4.9%的F值。因此本文提出的观点聚类方法更适应于领域较混合的数据。

全文目录

中文摘要  8-10
ABSTRACT  10-12
第一章绪论  12-18
  1.1 研究背景、目的及意义  12
  1.2 国内外研究现状  12-15
  1.3 本文主要研究内容  15
  1.4 论文的组织结构  15-18
第二章评论文本的LDA建模  18-22
  2.1 LDA建模  18-20
    2.1.1 数据预处理  19
    2.1.2 建模过程  19-20
  2.2 实现工具介绍  20-21
  2.3 本章小结  21-22
第三章基于LDA特征选择的主题聚类  22-30
  3.1 利用LDA模型进行特征选择  22
  3.2 TC特征选择法  22-23
  3.3 聚类过程  23-24
  3.4 LDA模型直接聚类  24-25
  3.5 实验及结果分析  25-28
    3.5.1 实验语料  25
    3.5.2 评价指标  25-26
    3.5.3 实验结果与分析  26-28
  3.6 本章小结  28-30
第四章基于LDA特征选择的观点聚类研究  30-38
  4.1 问题分析  30-31
  4.2 基于LDA模型的文本表示方法  31-32
    4.2.1 理论分析  31
    4.2.2 实例分析  31-32
  4.3 实验及结果分析  32-34
    4.3.1 实验语料  32-33
    4.3.2 实验结果与分析  33-34
  4.4 领域依赖性检验  34-36
    4.4.1 理论分析  34-35
    4.4.2 实验及结果分析  35-36
  4.5 本章小结  36-38
第五章结论与展望  38-40
  5.1 结论  38
  5.2 展望  38-40
参考文献  40-44
研究成果  44-46
致谢  46-48
个人简介  48-52

基于LDA模型的观点聚类研究

内容摘要

全文目录

相似论文