学位论文 > 优秀研究生学位论文题录展示

中文微博数据净化与情感倾向分析技术的研究与实现

作 者: 王琳
导 师: 王大玲
学 校: 东北大学
专 业: 计算机技术
关键词: 微博客 数据净化 情感词典 情感倾向 舆情分析 观点挖掘
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 16次
引 用: 0次
阅 读: 论文下载
 

内容摘要


微博客(即微博,Microblog)作为一种新的传播载体,已经迅速进入了人们的生活,其中包含了大量针对人物、事件、产品等有价值的评论信息,表达了人们的各种情感倾向,因而在网络舆情发起和传播中起着重要作用。本文针对中文微博的特点,研究数据净化及情感倾向分析技术和相关问题。首先,针对微博的噪音和近似重复问题,研究微博数据的净化方法。近来噪音微博和近似重复微博迅猛蔓延到微博空间的各个角落,这类微博的存在严重影响到了信息检索的准确性,大大降低了分析的可信性。基于此,本文根据统计数据,分析了噪音微博和近似重复微博的特点,提出一种面向微博文本的噪音检测与近似重复内容过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过构建向量空间模型的分段过滤和基于缓冲池的内容索引过滤的双重过滤,检测和剔除掉近似重复的微博。实验表明该方法能有效地对微博数据进行净化,高效准确地过滤掉近似重复微博和噪音微博,提高了微博数据处理的质量和效率。其次,针对微博的直抒性特点,研究微博的情感倾向分析方法。“直抒性”即微博用户习惯利用表情符号、感叹词和程度副词等来“直抒己见”。目前对于中文微博的情感分析,虽然面向短文本的、基于情感词典等其他各种情感分析方法可以应用于此,但这些方法中较少针对微博内容表达特点,主要表现在缺乏微博相关领域情感词典、修饰词词典以及对应的相关处理等。因此,本文分析了现有情感词典和知识库内容对于微博情感分析的不足,利用微博表情符号自动构建一个面向微博的、新的带权值的情感词典,同时构建了包含各种修饰词的辅助词典,进而提出了基于这种新情感词典、并结合其他修饰词典的中文微博情感倾向分析算法。实验结果表明,本文构建的带权值的新型情感词典包含了大部分微博常见情感词,并且可以获得微博的精确情感倾向程度。同时实验证明了基于该词典的微博情感倾向分析方法具有良好的准确率、召回率和F值。最后,基于前述研究成果,设计并实现了一个原型系统。该系统集数据下载、结构解析、数据净化、情感分析、结果输出于一体,提供给了用户高质量的微博数据,直观地表现了情感分析的结果。用户通过下载和分析微博内容的情感倾向,能够了解社情民意,为进一步的网络舆情分析提供支持。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-17
  1.1 研究背景与意义  11-12
  1.2 微博客研究现状  12-13
  1.3 本文研究目的与研究内容  13-15
    1.3.1 研究目的  13
    1.3.2 研究内容  13-15
    1.3.3 课题来源  15
  1.4 本文的组织结构  15-17
第2章 相关理论与技术  17-23
  2.1 情感倾向性分析  17-18
  2.2 情感词典构建  18-19
  2.3 数据净化  19-22
    2.3.1 向量空间模型  20-21
    2.3.2 相似度计算  21-22
  2.4 本章小结  22-23
第3章 微博噪音检测与近似重复内容过滤  23-35
  3.1 问题的提出  23
  3.2 中文微博噪音与近似重复文本的特点  23-26
    3.2.1 噪音微博文本特点  23-25
    3.2.2 近似重复微博文本的特点  25-26
  3.3 噪音微博和近似重复微博的过滤算法  26-31
    3.3.1 噪音微博和近似重复微博过滤框架  26
    3.3.2 基于特征判别的噪音微博检测与过滤  26-27
    3.3.3 特殊类型微博文本的预处理  27-28
    3.3.4 基于内容计算的近似重复微博双重检测与过滤  28-31
  3.4 实验与结果分析  31-34
    3.4.1 实验数据与评价标准  31
    3.4.2 数据集大小对噪音微博过滤效果的影响  31-32
    3.4.3 噪音微博阈值β对判别性能的影响  32-33
    3.4.4 阈值γ双重过滤对近似重复微博判断算法性能影响  33-34
    3.4.5 近似重复微博双重过滤的时间性能  34
  3.5 本章小结  34-35
第4章 基于微博表情符号的新情感词典构建  35-47
  4.1 问题的提出  35
  4.2 微博表情符号统计分析  35-38
    4.2.1 表情符号统计  35-37
    4.2.2 表情符号分类  37-38
  4.3 词典构建理论基础  38-39
  4.4 基础情感词典构建  39-41
  4.5 情感词典的优化  41-42
  4.6 实验与结果分析  42-46
    4.6.1 实验数据来源  42-43
    4.6.2 实验评价方式  43
    4.6.3 实验结果与分析  43-46
  4.7 本章小结  46-47
第5章 基于扩展情感词典的微博情感倾向分析  47-55
  5.1 问题的提出  47
  5.2 情感词典的扩展  47-49
  5.3 微博情感倾向分析算法设计  49-52
    5.3.1 微博句子统计分析  49-51
    5.3.2 中文微博情感分析算法  51-52
  5.4 实验与结果分析  52-54
    5.4.1 实验方案设计与评价标准  52
    5.4.2 实验结果与分析  52-54
  5.5 本章小结  54-55
第6章 微博数据净化与情感倾向分析原型系统设计与实现  55-61
  6.1 系统框架  55
  6.2 系统功能模块  55-56
  6.3 系统结果展示  56-59
    6.3.1 数据下载的实现  56-57
    6.3.2 数据净化的实现  57-58
    6.3.3 情感分析的实现  58-59
  6.4 系统评价  59-60
  6.5 本章小结  60-61
第7章 总结及未来工作  61-63
  7.1 总结  61-62
  7.2 未来工作  62-63
参考文献  63-65
致谢  65-67
攻硕期间参与项目、发表论文及获奖情况  67

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 论微博客中的网络公众聚集现象,G206
  3. 基于舆情分析研判的突发事件预警平台的设计与实现,TP311.52
  4. 基于微博客的社区挖掘研究,TP393.092
  5. 微博客的虚拟社群及其“人际化”传播分析,G206
  6. 微博客的传播特征及社会影响分析,G206
  7. 中国微博客的发展困境和策略研究,G206
  8. 基于微内容的新闻开发研究,G206
  9. 微博客营销信息的在线评论与转发对消费者态度的影响,F274;F224
  10. 基于博客的作者声誉度分析,TP393.092
  11. 微博客话题追踪及实时检索的相关研究,TP393.092
  12. 基于领域本体和CRFS的商品评论倾向性分析,G353.1
  13. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  14. 软件外包企业知识管理体系的设计与实现,TP311.52
  15. 初探Web2.0技术下类推特平台在大学课外英语学习中的应用,H319
  16. 微博客的传播学解读,G206
  17. 我国体育微博客现状和发展趋势研究,G206
  18. 后现代主义视角下的微博客文化探析,G206
  19. 微博客现象的传播学探究,G206
  20. 微博客新闻传播功能研究,G206
  21. 微博客的信息自组织研究,G206

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com