学位论文 > 优秀研究生学位论文题录展示
面向互联网中文舆情信息的情感倾向分析
作 者: 朱洪
导 师: 贺明科
学 校: 国防科学技术大学
专 业: 管理科学与工程
关键词: 情感倾向分析 特征选择 舆情分析 垃圾评论 评论分析 非负矩阵分解
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 90次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的迅猛发展以及互联网应用的不断普及,Internet上的信息与日俱增,互联网已经成为越来越多的人们获取信息的重要来源,同时也成为人们表达自己观点的平台。网络舆情是大多数互联网用户关于社会中各种现象和问题所表达的信念、态度、意见和情绪等表现的总和,互联网被人们使用的越来越频繁,随之也产生了大量带有情感色彩的评论文本。对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以及时地通过理解互联网用户的行为来理解社会个体的行为,从而分析出时下的热点舆情,为政府和企业等社会管理者在决策时提供了重要的依据。本文首先介绍了舆情以及互联网舆情的相关概念,以及对其进行情感分析的研究背景和应用前景;然后以网络爬虫抓取的评论网页为研究对象,对其概念、特点依次进行了介绍;接着按照评论的情感倾向分析流程,分别从互联网舆情评论的获取及预处理和评论的情感倾向分析两方面进行了深入研究。在互联网舆情评论的获取及预处理过程中,本文提出了一种基于聚类的垃圾评论检测方法;对于互联网舆情评论的情感倾向分析,提出了一种基于非负矩阵分解的文本特征选择方法。互联网上关于舆情信息的评论量之大,同时这些评论中不可避免地存在一些与情感倾向分析这个任务不相关的垃圾评论,对分析其情感倾向产生了干扰,影响了情感倾向分析的准确性。针对这一问题,本文设计了一种无监督的检测方法——基于聚类的垃圾评论检测方法,检测并过滤垃圾评论后为情感倾向分析提供了可靠有用的评论数据。最后,以互联网上公开的中英文评论数据集作为实验数据,对文中提出的垃圾评论检测方法进行了实验验证,验证了该方法的有效性。大量的评论文本在用向量空间模型表示时,产生的过大特征空间会导致此后的情感倾向分析过程耗费更多的时间和空间资源,因此进行文本特征选择十分必要。本文在文本预处理的基础上,根据评论文本数据的特点并对比其它几种特征选择方法,提出了一种文本特征选择方法——基于非负矩阵分解的文本特征选择方法,并利用现有的文本分类器对几种文本特征选择方法进行了对比,实验结果表明该文本特征选择方法在对舆情评论情感倾向分析时具有较高的的准确性。
|
全文目录
摘要 9-10 ABSTRACT 10-12 第一章 绪论 12-24 1.1 研究背景 12-14 1.2 国内外研究现状 14-20 1.2.1 情感倾向分析方法研究方面 14-18 1.2.2 情感词典构建方面 18-19 1.2.3 情感倾向分析的语料 19-20 1.2.4 情感倾向分析系统 20 1.3 相关工作中存在的主要问题 20-21 1.4 本文的工作和论文结构 21-24 1.4.1 本文的主要工作 21-22 1.4.2 本文的组织结构 22-24 第二章 情感倾向分析的技术基础 24-41 2.1 概述 24-26 2.2 文本预处理 26-27 2.2.1 信息提取 26 2.2.2 中文分词 26 2.2.3 信息过滤 26-27 2.3 文本表示模型 27-28 2.3.1 布尔模型 27 2.3.2 向量空间模型 27-28 2.3.3 概率模型 28 2.4 文本特征选择 28-32 2.4.1 文本特征选择 28-31 2.4.2 文本特征权重计算 31-32 2.5 文本分类器 32-36 2.5.1 基于朴素贝叶斯分类器 32-33 2.5.2 基于支持向量机的分类器 33-34 2.5.3 基于KNN 分类器 34-35 2.5.4 基于最大熵的分类器 35-36 2.6 分类评价标准 36-39 2.6.1 准确率、召回率和F 值 37-38 2.6.2 微平均和宏平均 38-39 2.6.3 BEP(Break-Even Point) 39 2.7 本章小结 39-41 第三章 基于聚类的垃圾评论检测 41-52 3.1 信息获取 41-43 3.1.1 网络爬虫 41-42 3.1.2 网页信息提取 42-43 3.2 文本预处理 43-45 3.2.1 中文分词 43-44 3.2.2 停用词过滤 44-45 3.3 信息过滤 45-48 3.3.1 评论数据表示 45-47 3.3.2 聚类算法 47 3.3.3 垃圾评论检测 47-48 3.4 实验及结果分析 48-51 3.4.1 实验数据 48 3.4.2 实验环境 48 3.4.3 性能评估 48-49 3.4.4 实验结果分析 49-51 3.5 本章小结 51-52 第四章 基于特征分类的情感倾向分析 52-73 4.1 相关工作 52-57 4.1.1 特征选择 52-54 4.1.2 非负矩阵分解 54-57 4.2 基于非负矩阵分解的特征选择 57-63 4.2.1 目标函数 58-60 4.2.2 迭代规则 60-63 4.2.3 特征选择 63 4.3 基于特征分类的情感倾向分析 63-67 4.3.1 建立概念语义空间 64-65 4.3.2 在语义空间的投影 65 4.3.3 情感倾向分析 65-67 4.3.4 关于基的个数r 的讨论 67 4.4 实验结果及分析 67-72 4.4.1 实验数据集 67-68 4.4.2 实验结果 68-71 4.4.3 实验分析 71-72 4.5 本章小结 72-73 第五章 结论 73-75 5.1 主要工作与创新点 73-74 5.2 进一步的研究工作 74-75 致谢 75-77 参考文献 77-84 作者在学期间取得的学术成果 84-85 附录 A 引理证明 85-88 附录 B 实验结果 88-89
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 联合聚类算法研究及应用,TP311.13
- 面向图像表达的非负局部坐标分解算法,TP391.41
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 基于博客的作者声誉度分析,TP393.092
- 中国民族音乐特征提取与分类技术的研究,J607
- 随机森林特征选择,TP311.13
- 智能视频监控系统中人体异常行为检测与识别研究,TP391.41
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 基于非负矩阵分解的高光谱遥感图像混合像元分解研究,TP751.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|