学位论文 > 优秀研究生学位论文题录展示
基于特征强化的中文产品评价挖掘研究
作 者: 史丽君
导 师: 胡学钢
学 校: 合肥工业大学
专 业: 计算机软件与理论
关键词: 产品评论挖掘 观点挖掘 情感分类 主观评价关系识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 92次
引 用: 1次
阅 读: 论文下载
内容摘要
随着电子商务的蓬勃发展和网络购物用户的增加,作为消费者反馈信息的在线产品评论也呈现快速增长之势。实现产品评论的自动挖掘对商家和潜在的消费者有着重要意义。由于产品评论挖掘中的任务大多可被转化为分类问题,因此利用现有的监督学习方法解决产品评论挖掘中的问题逐渐成为一种趋势。然而,由于评论文本篇幅较短、描述信号弱的特点,使得现有监督学习方法在评论挖掘中的应用受到很大的限制。为了解决这个问题,本文以中文产品评论为主要研究对象,采用特征强化的方法,从评论整体的情感分类和细粒度的观点挖掘两个层面进行分析研究。论文的主要工作如下:(1)在评论整体的情感分类方面,针对评论文本特征信息弱的特点,提出一种基于关联特征的情感分类方法。该方法首先利用关联规则挖掘算法挖掘关联共现特征集,然后利用获取的关联共现特征增强评论文本的特征信息。最后结合IG特征选择法和SVM分类算法完成情感分类。实验证明,与基于传统布尔权重的评论情感分类方法相比较,基于关联特征的产品评论情感分类方法的宏平均F1值和微平均F1值都得到了很大的提高。(2)在细粒度的观点挖掘方面,针对词对信息弱而导致传统的分类器F1值不高的问题,本文提出一种基于多特征多分类器的方法识别主观评价关系。一方面,为了强化词对的上下文特征,该方法除了抽取特征观点词对的上下文词特征与位置特征,还引入了词对上下文的句式特征共同构建词对的特征空间;另一方面,为了减弱词对特征信息弱对分类器精度的影响,该方法使用加权投票机制构建集成分类器来识别词对之间的主观评价关系。实验结果表明,句式特征的引入可以大大提高分类器的召回率;基于加权投票机制的集成分类器模型在均衡子分类器准确率和召回率的同时,也提高了识别器的F1值。(3)基于上述两种方法,本文构建了一个中文产品评论挖掘原型系统,实现对评论网页或评论文本的挖掘与结果展示。
|
全文目录
摘要 5-6 Abstract 6-7 致谢 7-10 插图清单 10-11 表格清单 11-12 第一章 绪论 12-15 1.1 研究背景及意义 12-13 1.2 本文的工作 13 1.3 本文的结构 13-15 第二章 产品评论挖掘的研究现状 15-26 2.1 产品评论挖掘通用框架 15-16 2.2 主客观分析 16-17 2.2.1 基于情感知识的方法 16-17 2.2.2 基于特征分类的方法 17 2.3 情感分类 17-20 2.3.1 基于情感知识的方法 18 2.3.2 基于特征分类的方法 18-19 2.3.3 基于顺序回归的方法 19-20 2.4 细粒度观点挖掘 20-23 2.4.1 产品特征提取 21 2.4.2 观点词抽取及极性分析 21-23 2.4.3 主观评价关系识别 23 2.5 产品评论挖掘应用系统 23-24 2.6 本章小结 24-26 第三章 基于关联特征的产品评论情感分类方法 26-37 3.1 引言 26-27 3.2 基于关联特征的产品评论情感分类方法 27-31 3.2.1 基本框架 28-29 3.2.2 关联特征获取 29-30 3.2.3 基于关联特征的文本表示方法 30-31 3.3 实验结果及分析 31-36 3.3.1 实验语料及评估指标 31-32 3.3.2 实验结果及分析 32-36 3.4 本章小结 36-37 第四章 基于多特征多分类器的主观性关系识别方法 37-48 4.1 引言 37-38 4.2 基于多特征多分类器的主观评价关系识别方法 38-44 4.2.1 候选特征-观点词对提取 39-40 4.2.2 词对特征提取 40-43 4.2.3 多分类器的构建 43-44 4.3 实验结果及分析 44-47 4.3.1 句式特征在词对特征提取中的作用 45-46 4.3.2 集成分类器与单分类器的实验对比 46-47 4.4 本章小结 47-48 第五章 中文产品评论挖掘原型系统 48-52 5.1 系统框架 48-49 5.2 系统展示 49-51 5.2.1 评论网页处理 49-50 5.2.2 单条评论处理 50-51 5.3 本章小结 51-52 第六章 总结与展望 52-54 6.1 论文工作的主要成果 52-53 6.2 后续研究工作的展望 53-54 参考文献 54-58 攻读硕士学位期间参加研究的课题和发表的论文 58-59
|
相似论文
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 网络舆情话题情感倾向性分析技术研究,TP393.09
- 基于朴素贝叶斯的中文文本情感倾向分类研究,TP391.1
- 旅行目的地中文评论的情感分析研究,TP391.1
- 面向金融问答的论坛观点挖掘,TP391.3
- 基于情感字典与机器学习相结合的文本情感分类,TP391.1
- 《呼啸山庄》的情感分析,I561
- 面向网络舆情的中文评论文本情感倾向分析研究,TP391.1
- 基于语义分析的产品评论挖掘技术研究,TP391.1
- 中文新闻情感分类系统的研究与实现,TP393.09
- 情感组块与机器学习相结合的文本倾向性分析,TP181
- 基于Web的比较观点挖掘方法研究,TP391.1
- 基于依存关系的旅游景点评论文本倾向分析,TP391.1
- 不同来源在线评论对消费者行为影响研究,F274;F224
- 基于树核函数的句子级别情感分类研究,TP391.1
- 自动化音乐情感分类问题的研究,TP18
- 基于语义搭配的评论倾向性分析,TP391.1
- 中文词语情感倾向研究,TP391.1
- 基于最大熵方法的评论信息抽取研究,TP393.09
- 互联网舆情发现与观点挖掘技术研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|