学位论文 > 优秀研究生学位论文题录展示

基于网络评论的文本倾向性分类技术的研究与实现

作 者: 单大甫
导 师: 周斌
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 网络舆情 倾向性分类 网络爬虫 CAAR算法
分类号: TP311.52
类 型: 硕士论文
年 份: 2010年
下 载: 166次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术在全球范围内的飞速发展,互联网逐渐发展成为反映社会舆情的主要载体之一。当前,网络舆情形成迅速,对社会影响巨大,对网络舆情进行分析和预警已经显得越发重要,文本倾向性分类就是其中的一个研究热点。文本倾向性分类就是对用户关于某个事物或者事件的看法、评论或者观点的文本挖掘,从而判断该看法或评论是属于对该事物的积极或消极意见。文本倾向性分类在信息过滤、信息安全、舆情监控等方面都有重要的应用价值。本文在研究文本倾向性分类技术发展现状的基础上,着重探讨了利用语料间相互关系来改进网络评论的文本倾向性分类的效果。首先,针对评论网页的特点,设计专用网络爬虫采集评论网页,然后根据网络评论文本的特点,构造专用解析器抽取评论文本及评论间的关系,为后续倾向性分类做好准备;其次,基于网络评论文本间的关系和相关性分析及可靠性(CAAR,Correlation Analysis and Reliability)算法构建完整的网络评论文本倾向性分类器;最后通过实验验证以上成果对评论的倾向性分类效果。本文旨在通过以上研究提升网络舆情分析中网络评论的文本倾向性分类性能。本文主要研究内容包括如下四个方面:(1)对现有的文本倾向性分类相关技术和网络评论文本的特点进行研究,分析传统文本倾向性分类方法在此类数据上的可用性以及不足之处,寻找相应解决办法。(2)传统数据采集存在信息采集不全的问题,针对网络评论网页的特点,设计专用网络爬虫Deep-Crawler,有效采集评论网页;由于当前的解析器不能够有效解析评论文本,针对评论文本的特点,设计专用解析器Deep-Parser,有效解析评论文本及评论间关系,为后续评论文本倾向性分类做好准备。(3)分析目前文本倾向性分类方法在处理网络评论文本时的不足,提出利用评论间的关系改进文本倾向性分类的效果。首先提出评论的相关度和可靠度的概念;基于改进SBV极性传递算法,构造基于语义模式库的文本倾向性分类方法;结合评论的相关度及可靠度,提出了CAAR算法,并通过实验验证了CAAR算法的有效性,提高了网络评论文本倾向性分类的效果。(4)利用上述研究成果,本文基于YHPODS,设计并实现了面向网络舆情的基于网络评论的文本倾向性分类系统,为整个网络舆情分析系统的后续开发作积累和准备。文中详细说明了主要模块的具体实现。

全文目录


摘要  8-9
ABSTRACT  9-11
第一章 绪论  11-18
  1.1 研究背景  11-12
  1.2 研究现状及分析  12-16
    1.2.1 文本倾向性分类研究现状  12-13
    1.2.2 存在的问题  13-16
  1.3 研究目的和研究内容  16-17
    1.3.1 研究目的  16
    1.3.2 研究内容  16-17
  1.4 本文的组织结构  17-18
第二章 相关研究  18-35
  2.1 文本倾向性分析方法研究  18-26
    2.1.1 基于统计的文本倾向性分析方法  18-21
    2.1.2 基于词和短语模式的文本倾向性分析方法  21-23
    2.1.3 基于语义模式库的文本倾向性分析方法  23-26
  2.2 语料数据预处理研究  26-34
    2.2.1 网络爬虫  26-28
    2.2.2 网页解析  28-34
  2.3 本章小结  34-35
第三章 语料数据预处理  35-46
  3.1 评论网页的采集  35-40
    3.1.1 评论网页的特点  35-37
    3.1.2 Deep Web 网络爬虫  37-38
    3.1.3 Deep-Crawler  38-39
    3.1.4 实验分析  39-40
  3.2 评论文本的解析  40-45
    3.2.1 文本解析  41
    3.2.2 评论文本的特点  41-43
    3.2.3 Deep-Parser  43-45
    3.2.4 实验分析  45
  3.3 本章小结  45-46
第四章 基于CAAR 算法的网络评论文本倾向性分析技术  46-55
  4.1 算法背景  46-47
  4.2 CAAR 算法  47-52
    4.2.1 相关定义  47-48
    4.2.2 改进的SBV 极性传递算法  48-49
    4.2.3 CAAR 算法  49-52
  4.3 实验分析  52-54
  4.4 本章小结  54-55
第五章 基于YHPODS 的文本倾向性分类系统设计  55-65
  5.1 YHPODS 简介  55-56
  5.2 UIMA 架构简介  56-59
    5.2.1 UIMA 基本概念  57-58
    5.2.2 UIMA 相关工具集  58-59
  5.3 基于YHPODS 的网络评论文本倾向性分类系统  59-64
    5.3.1 网络评论文本倾向性分类系统整体设计  59-60
    5.3.2 数据采集模块  60-61
    5.3.3 数据解析模块  61-63
    5.3.4 倾向性分类模块  63-64
  5.4 本章小结  64-65
第六章 结束语  65-67
致谢  67-68
参考文献  68-73
作者在学期间取得的学术成果  73-74
作者在学期间参加的科研工作  74

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 中国区域性网上社区的舆情研究,G206
  3. 网络舆情的形成机制研究,G206
  4. 基于网络舆情的企业危机管理研究,G206
  5. 社会焦点事件网络舆情演变研究,G206
  6. 网络舆情热点事件中的网民行为研究,G206
  7. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  8. 群体性事件的网络舆情及其治理,G206
  9. 网络舆情主体特征及其成因分析,G206
  10. 网络舆情分析关键技术研究与实现,TP393.09
  11. 网络舆情的伦理研究,G206
  12. 语言文字网络舆情基础资源建设研究,H08
  13. 汉字简繁之争的网络舆情研究,H124
  14. 我国网络舆情的政府管理研究,G206
  15. 网络舆情与政府电子治理研究,D630
  16. 虚拟世界的意见集合,G206
  17. 网络口碑传播对企业形象影响的研究,G206
  18. 负面网络舆情及其治理研究,G206
  19. 高校网络舆情的现状与引导,G206
  20. 网络舆情数据获取与话题分析技术研究,TP393.09
  21. 网络舆情话题情感倾向性分析技术研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com