学位论文 > 优秀研究生学位论文题录展示
基于LDA模型的观点聚类研究
作 者: 张梦笑
导 师: 王素格
学 校: 山西大学
专 业: 计算数学
关键词: LDA模型 特征选择 文本表示 观点聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 316次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息检索中,文本聚类的目的是发现语义上较为相近的文本,精确的聚类结果能够使用户快速地理解文本的内容,从而做出有利的判断。文本聚类在市场销售、城市规划、地震研究等方面起着不可或缺的重要作用。而随着网络的普及和网络购物的日益盛行,人们越来越多的通过网络实现主观需求并表达自己的观点。因此对观点聚类的研究也变得很有必要。本文分别从主题和观点两个角度进行了聚类研究。对于主题聚类,提出了基于潜在狄利克雷分配(LDA)模型的特征选择方法;对于观点聚类,采用LDA建模得到的文本与隐含类别之间的关系矩阵进行文本表示,并对所提出的观点聚类方法进行了领域依赖性检验。主要内容如下:(1)基于LDA特征选择方法的主题聚类。通过LDA建模,发现特征和主题之间的隐含关系,在此基础上,对主题聚类的特征进行了选择,采用K-means算法对文本进行了主题聚类。为了验证该方法的有效性,与词语贡献度的特征选择方法+K-means算法以及基于LDA模型的文本与隐含类别之间的概率分布矩阵直接得到聚类结果进行了比较实验,实验结果显示,当选择2%的特征时,相对于词语贡献度(Term Contribution, TC)方法的纯度和F值分别提高了15%和16%,相对于LDA直接得到文本与类别关系的实验结果的纯度和F值分别提高了14%和13%。(2)基于文本与隐含类别间的概率分布的文本表示的观点聚类。使用LDA建模,获得文本与隐含类别之间的概率分布矩阵,以此将文本来表示成概率分布的向量空间模型。为了验证方法的有效性,与布尔模型的文本表示法和TF-IDF的表示进行对比分析。利用K-means聚类算法,在第一届中文倾向性分析评测会议(COAE2008)数据上的进行了实验,结果表明,在最好的情况下,本文所提出的方法比布尔表示法的聚类结果提高了6%的纯度和7%的F值,比TF-IDF表示的聚类结果高6%的纯度和9%的F值。说明了本文所使用的方法在文本的表示更合理。(3)观点聚类的领域依赖性检验。观点聚类是观点挖掘任务之一。由于观点挖掘通常具有很强的领域依赖性,因此,本文对于所提出的观点聚类方法进行了领域依赖性检验。将COAE2008的数据集分领域后进行实验,实验结果表明,在领域较混合的数据集上的实验结果与领域单一的数据集上的实验结果相比,平均高出5.7%的纯度和4.9%的F值。因此本文提出的观点聚类方法更适应于领域较混合的数据。
|
全文目录
中文摘要 8-10 ABSTRACT 10-12 第一章 绪论 12-18 1.1 研究背景、目的及意义 12 1.2 国内外研究现状 12-15 1.3 本文主要研究内容 15 1.4 论文的组织结构 15-18 第二章 评论文本的LDA建模 18-22 2.1 LDA建模 18-20 2.1.1 数据预处理 19 2.1.2 建模过程 19-20 2.2 实现工具介绍 20-21 2.3 本章小结 21-22 第三章 基于LDA特征选择的主题聚类 22-30 3.1 利用LDA模型进行特征选择 22 3.2 TC特征选择法 22-23 3.3 聚类过程 23-24 3.4 LDA模型直接聚类 24-25 3.5 实验及结果分析 25-28 3.5.1 实验语料 25 3.5.2 评价指标 25-26 3.5.3 实验结果与分析 26-28 3.6 本章小结 28-30 第四章 基于LDA特征选择的观点聚类研究 30-38 4.1 问题分析 30-31 4.2 基于LDA模型的文本表示方法 31-32 4.2.1 理论分析 31 4.2.2 实例分析 31-32 4.3 实验及结果分析 32-34 4.3.1 实验语料 32-33 4.3.2 实验结果与分析 33-34 4.4 领域依赖性检验 34-36 4.4.1 理论分析 34-35 4.4.2 实验及结果分析 35-36 4.5 本章小结 36-38 第五章 结论与展望 38-40 5.1 结论 38 5.2 展望 38-40 参考文献 40-44 研究成果 44-46 致谢 46-48 个人简介 48-52
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 基于数据分布特征的文本分类研究,TP391.1
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
- 基于社会标签系统的推荐技术研究,TP391.3
- 上位作用特征基因的选择与分类方法研究,Q78
- 中文自动文摘关键技术的研究与实现,TP391.1
- 学位论文预审分配管理系统研究,G311
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 领域间适应性情感分类方法研究,TP391.1
- 胸部CT图像的肺结节CAD系统,TP391.41
- 结合本体HowNet的中文文本分类研究,TP391.1
- 基于英文博客空间文本的情感分析研究,TP391.1
- 关节式物体检测识别及应用,TP391.41
- 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
- 基于决策树的网络流量分类研究,TP393.06
- 基于向量空间模型的网页过滤研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|