学位论文 > 优秀研究生学位论文题录展示
中文网络产品评论的特征抽取及观点分类研究
作 者: 彭柳艳
导 师: 夏火松
学 校: 武汉纺织大学
专 业: 管理科学与工程
关键词: 情感分析 特征抽取 观点分类 频繁模式抽取 语义PMI 观点摘要 设计科学
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 70次
引 用: 1次
阅 读: 论文下载
内容摘要
互联网技术的发展使信息的传播和共享越来越便捷,人们现在既可以在商业网站上发布产品评价,也可以在论坛、博客、社交网络等媒体上对几乎任何事物发表自己的意见或者看法。在信息分享方便和快捷的同时,网络上提供的大量用户评论信息也导致了人们获取有用信息比较困难。所以,采用现有的技术对这些评论信息进行挖掘研究,获取有价值的信息有着重大的意义。论文针对这类问题进行了研究,主要完成了以下工作:对现有的网络产品评论挖掘的相关理论和技术进行了深入细致的研究,从研究分类到技术支持,从研究框架到相关算法,并进行了对比分析;在现有研究的基础上,分别采用传统文本分类方法和加入观点词汇库的方法进行了观点分类的研究,采用机器学习的方法进行实验并对结果进行了评估;从语义的角度出发,采用频繁模式抽取和PMI信息检索算法相结合的方法来提取产品特征,并进行了实证性的研究,给出了自己的结论和建议;构建了集成产品特征抽取技术的观点分类系统的分析和设计框架,将挖掘结果以可视化的形式展现给用户,帮助用户进行决策分析和判断。论文严格按照设计科学的研究方法,对于论文提出的方法都进行了实验验证,并对结果进行了分析。相对于其它中文产品评论挖掘的研究而言,论文主要有以下三个创新点:(1)提出了通过构建观点词汇库的方法来进行观点分类,以达到优化传统文本分类方法在观点性文本分类中的应用。论文以酒店评论为例,运用机器学习的方法,通过构建观点词汇库,构建了小型领域观点词库,对传统的文本分类结果进行了优化;(2)从观点挖掘的粒度出发,提出了产品特征级别的观点分类问题,通过关联分析技术挖掘频繁特征,结合语义的方法对挖掘结果进行修正;(3)将产品的特征抽取与观点分类结合,提出了集成的系统分析与设计框架,针对抽取出的产品特征进行观点分类,提高分类的准确度,并以可视化的结果展现给用户。
|
全文目录
摘要 4-5 ABSTRACT 5-8 1 绪论 8-17 1.1 研究背景及意义 8-10 1.2 国内外研究现状 10-13 1.2.1 国外研究现状 10-12 1.2.2 国内研究现状 12-13 1.3 论文的研究方法 13-15 1.4 论文的主要工作及创新点 15-16 1.4.1 论文的主要工作 15-16 1.4.2 论文的创新点 16 1.5 论文的组织结构 16-17 2 网络产品评论挖掘研究综述 17-25 2.1 网络产品评论挖掘研究框架 17-18 2.2 产品特征抽取 18-19 2.3 主客观判别和情感倾向标注 19-21 2.4 观点极性判别 21-22 2.5 观点抽取和摘要 22-25 3 网络产品评论观点分类的整体性分析 25-37 3.1 观点分类数据处理流程 25-30 3.1.1 评论语料收集及文本预处理 26-28 3.1.2 文本表示模型的构建 28-29 3.1.3 文本特征抽取技术 29 3.1.4 分类方法的选择 29-30 3.1.5 分类性能的评估 30 3.2 观点分类的整体性分析 30-31 3.3 观点词汇库的构建 31-34 3.3.1 观点词汇库结构 32-33 3.3.2 酒店领域小型观点词汇库 33-34 3.4 实验设计及结果评估 34-36 3.4.1 实验设计 34-35 3.4.2 结果评估 35-36 3.5 本章小结 36-37 4 产品特征抽取算法改进与验证 37-50 4.1 观点分类的粒度研究 37-39 4.1.1 篇章级别的观点分类 37-38 4.1.2 句子级别的观点分类 38 4.1.3 特征级别的观点分类 38-39 4.2 产品特征抽取算法改进 39-43 4.2.1 问题描述 39-40 4.2.2 Apriori 算法 40-41 4.2.3 产品属性频繁模式抽取 41-42 4.2.4 PMI 语义关联度 42-43 4.3 实验设计及结果评估 43-48 4.3.1 实验设计 43-44 4.3.2 结果评估 44-48 4.4 本章小结 48-50 5 集成产品特征抽取技术的观点分类系统 50-57 5.1 系统架构分析与设计 50-52 5.1.1 任务描述 50-51 5.1.2 系统架构 51-52 5.2 系统功能分析 52-56 5.2.1 评论语料库管理 52-53 5.2.2 产品属性库管理 53-54 5.2.3 观点词汇库管理 54-55 5.2.4 产品属性观点展示 55-56 5.3 本章小结 56-57 6 总结与展望 57-59 6.1 论文研究工作总结 57 6.2 后续研究工作展望 57-59 致谢 59-60 参考文献 60-67 附录 67-76
|
相似论文
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 心电特征提取及分类方法研究,TN911.7
- 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
- 基于关联规则和图排序的句子情感倾向性研究,TP391.1
- 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
- 基于英文博客空间文本的情感分析研究,TP391.1
- 中文文本分类技术研究,TP391.1
- 嵌入式Linux逆向解析技术研究,TP316.81
- 基于图像识别的商标检索系统设计与实现,TP391.41
- 基于区域的图像检索相关技术研究,TP391.41
- WEB文本自动分类的设计与实现,TP391.1
- 基于HowNet的中文语义倾向性分析技术研究,TP391.1
- 主观性文本的情感极性分析研究,TP391.1
- 城市道路景观设计研究,S731.2
- 互联网公关传播效果评估研究,G206
- 面向中文Web评论的情感分析技术研究,TP391.1
- 基于情感分析的新闻浏览平台关键技术研究,TP391.1
- 面向产品领域的细粒度情感分析技术,TP391.1
- 基于本体的话题情感分析研究,TP391.1
- 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
- 基于边界距离的文本聚类方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|