学位论文 > 优秀研究生学位论文题录展示
情感组块与机器学习相结合的文本倾向性分析
作 者: 袁超越
导 师: 卢志茂
学 校: 哈尔滨工程大学
专 业: 信号与信息处理
关键词: 文本情感分类 特征降维 情感组块 SVM
分类号: TP181
类 型: 硕士论文
年 份: 2011年
下 载: 53次
引 用: 0次
阅 读: 论文下载
内容摘要
随着虚拟社区这一新网络团体形式的出现,各种论坛应运而生,这些论坛上充斥着人们对生活及周边事物的评价和看法。在这些意见和和评论中,包含着说话人的主观意见,表达了评论人的情感倾向。识别出其中带有的情感倾向性,可以帮助我们更好的理解评论人的态度和立场,为面向商家的产品反馈,面向政府管理的信息过滤、民意分析等提供信息技术的支持。因此,文本的情感倾向性分析成为解决这一问题的关键技术,具有广泛的应用前景。采用机器自动处理的手段对网络评论进行情感分析判别,是当前互联网智能信息处理的一个研究热点,具有较大的实用价值。但由于网络评论文本具有的特殊性,原有的文本情感分类方法不能获得较为理想的效果。其主要原因在于:(1)网络评论文本形式不规范,包含大量网络用语,不能被正确分词;(2)评论中包含对客观事实的陈述,这些信息与情感分类无关,会对最终的分类结果造成影响;(3)单纯地提取评论中的主观句,会丢失掉不以主观形式出现但存在褒贬倾向性的信息。因此,如何有效地提取网络评论文本中的情感信息,是提高情感分类效果的关键。针对以上存在的问题,本文提出了一种将情感组块与机器学习相结合的方法,对网络评论文本的情感倾向性分析问题进行了深入的研究,并将SVM算法应用到情感倾向性分析系统中,在不同规模的军事评论样本集下进行了实验。主要的研究工作有:(1)针对网络评论中存在大量的形式不规范的网络用语,导致原分词软件无法识别的问题,建立了网络用语词典,对评论文档中出现的如拼音、缩写等不规范词语进行有效还原,从而保证了分词的准确性,也使得一些包含作者情感的信息不被丢失,进而提高分类的正确率;(2)根据语料特征,建立了领域情感词典,实现对原评论中的非情感信息进行有效过滤,降低了无关信息对分类效果的影响;(3)提出情感组块的概念,将那些具有褒贬倾向性的表达形式定义并标记为情感组块,作为情感特征提取,从而保证了情感信息能得到有效保留;(4)将情感组块与支持向量机相结合,在不同规模的语料上先后进行多组实验,并将实验结果与用KNN分类器进行分类的结果相比较。实验证明,在较大规模的训练样本集下,SVM分类器的分类效果优于KNN分类器。这表明了使用本方法可以有效提高军事评论情感分类的正确率。(5)设计并实现了一个针对于军事评论领域的网络文本情感倾向性分析系统模型。使用这个系统模型可以判断军事评论是正面的还是反面的,查看分类结果,并对分类结果进行性能评估。该系统通过了测试,具有一定的正确率和可行性。
|
全文目录
摘要 5-7 ABSTRACT 7-11 第1章 绪论 11-17 1.1 研究背景及意义 11-12 1.2 国内外的研究现状 12-15 1.3 本文的研究工作 15 1.4 本文的组织结构 15-17 第2章 基于机器学习的文本主题分类 17-32 2.1 机器学习概述 17 2.2 文本分类简介 17-18 2.3 文本主题分类厅法 18-29 2.3.1 文本的预处理 19-20 2.3.2 文本表示 20-23 2.3.3 特征降维 23-26 2.3.4 分类模型 26-28 2.3.5 性能评估指标 28-29 2.4 实验及结果分析 29-31 2.5 本章小结 31-32 第3章 基于机器学习的文本情感分类 32-45 3.1 文本情感分类简介 32 3.2 文本情感分类方法 32-42 3.2.1 网络文本的预处理 33-35 3.2.2 向量空间模型 35 3.2.3 SVM分类器 35-42 3.2.4 文本的情感分类过程 42 3.3 实验及结果分析 42-44 3.4 本章小结 44-45 第4章 情感组块与机器学习相结合的情感分类 45-55 4.1 主观性文本的抽取 45-48 4.1.1 主观句的抽取 45-46 4.1.2 领域情感词典的建立 46-48 4.2 情感组块简介 48-51 4.2.1 中文文本组块 48-50 4.2.2 中文情感组块 50-51 4.3 实验及结果分析 51-54 4.4 本章小结 54-55 第5章 网络评论文本倾向性分析系统的设计与实现 55-63 5.1 系统结构模型及总体设计 55-56 5.2 系统模块和功能 56-60 5.2.1 预处理模块 57-58 5.2.2 特征提取模块 58 5.2.3 分类器模块 58-59 5.2.4 性能评估模块 59 5.2.5 系统界面 59-60 5.3 测试及结果分析 60-62 5.4 本章小结 62-63 结论 63-65 参考文献 65-70 攻读硕士学位期间发表的论文和取得的科研成果 70-71 致谢 71
|
相似论文
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
- 心电特征提取及分类方法研究,TN911.7
- 多特征融合的视觉跟踪算法研究,TP391.41
- 基于多普勒气象雷达的风切变预测研究,P415.2
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于与或图的车牌检测与识别,TP391.41
- 基于脑波的情感图像检索的研究,TP391.41
- 电动汽车驱动控制系统的研究,U469.72
- 基于环境参数的过渡环境下人体热感觉预测,TU831
- 音乐风格分析研究,J605
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏表达的人脸识别算法研究,TP391.41
- 基于STM32异步电机SVM-DTC系统的设计,TM921.2
- 20kV线路接地保护研究,TM862
- 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|