学位论文 > 优秀研究生学位论文题录展示

基于博客搜索的博文情感倾向性分析技术的研究

作 者: 付永陈
导 师: 王大玲
学 校: 东北大学
专 业: 计算机应用技术
关键词: 博客搜索 观点挖掘 情感分析 句法分析 文本挖掘
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 39次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随互联网的普及及其在全球范围内的飞速发展,网上博客信息呈爆炸式增长,博客在网民中的使用率高达57.7%,网民对博客的认知和普及程度日臻升高。博客使作者能方便地发表自己的观点,读者能快捷地对博文进行浏览和评论,以博客的形式来共享思想与资源变得越来越流行,其已成为一个重要的情感抒发与交流的平台,也使得它日渐成为舆情产生和传播的主要场所。然而,在信息过度膨胀的时代,网民更关注言简意赅、情感倾向相关的名人焦点信息。为了能快速的按需从博客领域获得支持或反对等博文情感信息,迫切需要一种合适的情感检索工具,来对海量的博客资源进行组织和搜索。这时,最好的选择就是博文情感倾向性搜索。本文通过对中文博文中隐含的情感因素加以分析研究,结合自然语言处理技术,提出了情感词典和依存分析相结合的博文情感倾向性分析SPOA算法。在博文预处理阶段构建了基础情感词典和褒贬多义词词典,进行博文中情感词的识别;以关系对组为最小情感分析单位,并结合提出的情感异位关系对转换VCCA算法,使得计算上下文相关的修饰程度,更加准确和合理。而后的实验表明,在中文博文情感分析上,基于依存句法的SPOA方法优于窗口修饰算法,语法距离的引入和依存关系对的修饰,使博文情感倾向分析的性能明显提升。博文全文分析与网摘分析,效果无明显差别,但针对博文结构的重点情感句处理,整体性能占优,表明博文结构特点对情感分析有明显影响。最后,应用本情感分析算法,将博文按照用户倾向性需求排序返回,初步实现了一个博文情感搜索原型系统。

全文目录


中文摘要  5-6
Abstract  6-11
第1章 绪论  11-15
  1.1 问题提出  11-13
    1.1.1 博客媒体  11-12
    1.1.2 博客搜索引擎发展现状  12
    1.1.3 存在的问题  12-13
  1.2 本文研究内容  13
  1.3 课题来源  13
  1.4 本文的组织结构  13-15
第2章 相关理论与技术  15-23
  2.1 搜索引擎系统  15-16
    2.1.1 搜索引擎工作原理  15-16
    2.1.2 搜索引擎类别  16
  2.2 观点挖掘及情感倾向性分析  16-17
  2.3 HTML与XML  17-18
    2.3.1 HTML语言  17
    2.3.2 XML语言  17-18
  2.4 中文自然语言处理技术  18-21
    2.4.1 中文分词和词类标注  19
    2.4.2 句法分析  19-20
    2.4.3 中文副词  20-21
  2.5 本章小结  21-23
第3章 基于情感倾向的博客搜索原型系统架构  23-27
  3.1 原型系统架构  23-24
  3.2 原型系统功能  24-25
  3.3 本章小节  25-27
第4章 博文搜索结果获取及预处理  27-41
  4.1 博文搜索结果获取  27-28
    4.1.1 爬取博客搜索结果  27-28
    4.1.2 Html解析  28
  4.2 博文搜索结果预处理  28-38
    4.2.1 博文文本分句  29
    4.2.2 分词和词性标注  29-30
    4.2.3 基于HowNet的情感词典构建  30-33
    4.2.4 程度副词词典构建  33
    4.2.5 否定副词构建  33-35
    4.2.6 情感词抽取及博文文本模型建立  35-38
  4.3 实验结果  38-39
  4.4 本章小结  39-41
第5章 基于依存句法分析的博文情感倾向性分析  41-67
  5.1 依存句法分析  41-44
    5.1.1 中文依存句法分析  41-43
    5.1.2 基于图的依存句法分析  43-44
  5.2 基于依存句法的情感倾向性分析  44-57
    5.2.1 SPOA方法简介  44-45
    5.2.2 基于情感词的依存关系对和语法距离  45-48
    5.2.3 依存关系对组的抽取  48-49
    5.2.4 情感关系对VOB和CMP向ADV的转化  49-52
    5.2.5 博文文本模型扩展  52-53
    5.2.6 博文情感计算  53-57
  5.3 实验结果  57-66
    5.3.1 实验数据准备  57-59
    5.3.2 评价的标准  59-60
    5.3.3 实验设计和结果  60-66
  5.4 本章小结  66-67
第6章 基于情感倾向性的博文搜索结果排序  67-71
  6.1 结果排序需求分析  67
  6.2 结果排序方法  67-69
  6.3 系统界面设计  69
  6.4 实验结果  69-70
  6.5 本章小结  70-71
第7章 结束语  71-73
  7.1 本文工作总结  71
  7.2 进一步的工作  71-73
参考文献  73-77
致谢  77-79
攻硕期间参加的项目  79

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  4. 联合聚类算法研究及应用,TP311.13
  5. 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
  6. 语义网自动构建中句法分析的研究,TP391.1
  7. 基于关联规则和图排序的句子情感倾向性研究,TP391.1
  8. 基于空间句法分析的城市地价与合理用地结构关系研究,F224;TU984.113
  9. 美国影评人视野中的中国电影,J905
  10. 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
  11. 基于英文博客空间文本的情感分析研究,TP391.1
  12. 数据挖掘在针灸文献经穴研究中的应用,TP311.13
  13. 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
  14. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  15. 基于SOM聚类的WEB文本挖掘及其结果的可视化研究,TP311.13
  16. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  17. 面向金融问答的论坛观点挖掘,TP391.3
  18. 基于情感字典与机器学习相结合的文本情感分类,TP391.1
  19. 基于本体的个性化信息系统的应用研究,F49
  20. 金融领域的博客信息采集与排序算法研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com