学位论文 > 优秀研究生学位论文题录展示
面向实体的观点挖掘关键技术研究
作 者: 张明
导 师: 何婷婷
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 观点挖掘 主题模型 关联规则 互信息 情感词典
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网应用的不断普及,越来越多的用户将自己对某个产品或事件的评价信息发布到互联网上。这些信息具有非常重要的价值,它们既可以为政府制定决策服务也可以为广大商家和消费者提供指导信息。但这同时导致了互联网上的数据以一个指数级的速度在增长,如果仅仅通过人工的方法来获得有价值的产品评论信息将是一个既费时又费力的工作,因此如何通过计算机的方法自动获得有用的信息变得非常重要。目前观点挖掘主要从三个粒度进行分析:文本级,句子级和特征级。文本级观点挖掘是假设每一个文本只针对一个事物进行描述;句子级观点挖掘包含两个内容,一是识别主观句与客观句,二是句子的倾向性分析,同样也假设句子只包含一个观点;特征级观点挖掘的任务则包含三个方面的内容:1)识别和抽取文本中的实体特征,2)确定特征上观点的倾向性,3)提供基于特征的多角度观点总结。本文基于文本级与特征级之间,以实体为基本单位,旨在研究面向新浪博客中实体的观点挖掘。论文主要的研究工作及创新之处包含以下几个方面:第一、提出了一个实体一主题模型(Entity Topic Model, ETM),根据分布结果抽取实体及其对应的实体评价词群。ETM模型在传统LDA主题模型的基础上增加了实体信息,将实体表示为主题上的概率分布,主题为词语空间上的概率分布。其基本思想是根据作者撰写博客所评论的实体选择实体标签,再利用标签来指导文本中词语的生成过程。ETM模型会将与实体语义相关的评价词分配到同一个主题下以达到聚类的效果并能挖掘出实体、主题以及词语之间的潜在语义关系。第二、提出了一种利用互信息的方法来二次抽取实体相关评价词群的方法,互信息可以理解为评价两个变量之间相关性的一个指标,实体与其对应的实体特征评价词往往在同一个文本中同时出现,可以通过本方法将与实体不相关但是与实体评价词群中其它词语相关的词语剔除掉。第三、提出了一种基于词语释义的方法构建上下文无关的情感词典,同时利用关联规则抽取语料中固定搭配的词语组合,并判断词语组合的情感倾向性以构建上下文相关的情感词典。最后将实体评价词群以及情感词典进行综合分析以得到直观的面向实体的倾向性分析。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-13 1.1 研究背景与意义 10-11 1.2 本文主要研究内容 11 1.3 论文的组织结构 11-13 第二章 相关背景知识 13-22 2.1 国内外研究综述 13-17 2.1.1 观点挖掘概述 13 2.1.2 实体特征抽取研究现状 13-14 2.1.3 文本倾向性分析概述 14-15 2.1.4 词语倾向性分析 15-16 2.1.5 句子倾向性识别 16-17 2.1.6 篇章倾向性分析 17 2.2 主题模型 17-21 2.2.1 LDA模型 18-19 2.2.2 参数估计 19-20 2.2.3 基于LDA的主题模型变形 20-21 2.3 小结 21-22 第三章 基于主题模型的面向实体的特征词抽取 22-35 3.1 引言 22-23 3.2 基于实体主题模型的特征层次关系识别 23-25 3.2.1 实体主题模型描述 23-24 3.2.2 基于吉布斯抽样的参数估计 24-25 3.3 实体评价词群抽取及其表示 25-27 3.4 实体特征二次抽取 27 3.5 实验结果及分析 27-33 3.5.1 实验数据 27-28 3.5.2 实体主题模型评估 28-30 3.5.3 实体主题模型抽取示例 30-32 3.5.4 利用互信息二次抽取结果示例 32-33 3.5.5 实验结果对比 33 3.6 本章小结 33-35 第四章 实体情感倾向性分析及统计 35-44 4.1 引言 35 4.2 上下文无关的情感词典 35-37 4.3 上下文相关的情感词典 37-39 4.3.1 关联规则 38-39 4.3.2 基于关联规则的词语组合挖掘 39 4.3.3 搭配词组倾向性识别 39 4.4 实体倾向性分析 39-40 4.5 实验及分析 40-43 4.5.1 实验数据 40-41 4.5.2 情感词典构建 41 4.5.3 实体倾向性分析 41-43 4.6 本章小结 43-44 第五章 总结与展望 44-47 5.1 主要成果及创新点 44-45 5.2 展望 45-47 参考文献 47-51 攻读硕士学位期间参加的科研项目与公开发表的学术论文 51-52 致谢 52
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于数据挖掘的税务稽查选案研究,F812.42
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- XXZ海森堡链的热态量子协错,O413.1
- 面向观点挖掘的汽车本体知识库建立研究,TP391.1
- 关联规则挖掘算法及其在职校教学评价系统中的应用研究,TP311.13
- 基于多特征和人工免疫优化算法的医学图像配准方法研究,TP391.41
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于关联规则算法的高职院校教学评价系统的设计与实现,TP311.52
- 非刚性医学图像准算法研究和实现,TP391.41
- 税务数据仓库系统的设计与应用,TP311.13
- 多图像源信息融合与增强技术研究,TP391.41
- 基于最小联合互信息亏损的最优特征选择算法研究,TP311.13
- 特征选择算法及其在网络流量识别中的应用研究,TP393.06
- 基于概率主题模型的中文话题检测与追踪研究,TP391.1
- 空间相机多通道图像拼接技术研究,TP391.41
- 基于注意力选择机制的图像分割与场景理解,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|