学位论文 > 优秀研究生学位论文题录展示

面向短文本的网络舆情分析

作 者: 时睿
导 师: 封化民
学 校: 西安电子科技大学
专 业: 密码学
关键词: 微博短文本 语义相似度 增量聚类 舆情分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 235次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网技术的不断发展,微型博客等新形态交互方式为信息的发布和共享提供了新的平台,但同时充斥着大量的虚假、色情、反动信息,严重影响了人们对网络的正常使用和信息获取。如何对微博中的不良信息进行监控,成为亟待解决的问题。本文针对微博短文本进行舆情分析,提出了一种基于名词的微博短文本语义相似度计算方法。首先,提取微博中的所有名词;其次,利用《知网(Hownet)》义原的树状结构计算微博短文本间名词的距离;最后,通过提取相似度最高的名词对来计算微博相似度。在微博相似度计算基础上,对微博进行聚类分析,通过改进基于免疫的动态聚类算法,使聚类结果中抗体集合能够准确描述所属类的内容,同时适应不断增长的微博数据。在舆情分析阶段,通过对聚类的抗体集合整理得到话题信息,通过增量聚类算法及时发现新话题。在中等规模微博数据集测试中,本文提出的微博相似度算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。在大规模的微博聚类实验中,本文提出的改进算法能够较为有效地聚类,并支持微博新话题的发现和热点话题的预警。对聚类结果的分析亦能够帮助话题的分析和理解。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-11
  1.1 课题研究背景与意义  7-8
  1.2 相关工作与研究现状  8-10
    1.2.1 针对网络短文本的特征提取技术  8-9
    1.2.2 针对网络短文本的聚类技术  9-10
  1.3 本文研究内容与组织结构  10-11
第二章 面向短文本的网络舆情分析基础  11-23
  2.1 网络短文本概述  11-12
    2.1.1 网络短文本  11
    2.1.2 微博短文本  11-12
  2.2 《知网(Hownet)》简介  12-18
    2.2.1 《知网》的结构  13-15
    2.2.2 《知网》的知识描述语言  15-18
  2.3 聚类与分类策略  18-21
    2.3.1 聚类方法  18-20
    2.3.2 分类方法  20-21
  2.4 本章小结  21-23
第三章 面向短文本的网络舆情分析模型  23-31
  3.1 面向短文本的网络舆情分析模型框架  23-24
  3.2 数据集预处理  24-27
    3.2.1 语言技术平台LTP  24-25
    3.2.2 LTP在本文中的应用  25-26
    3.2.3 微博短文本特征相似度计算  26-27
  3.3 网络短文本舆情分析  27-30
    3.3.1 免疫规则与动态聚类算法  27-28
    3.3.2 基于免疫的动态聚类算法描述  28-30
    3.3.3 聚类结果分析  30
  3.4 本章小结  30-31
第四章 面向短文本的网络舆情分析算法设计  31-41
  4.1 基于名词语义的微博短文本相似度计算方法  31-35
    4.1.1 基于《知网》的词汇相似度计算  31-34
    4.1.2 微博短文本相似度算法  34-35
  4.2 基于免疫的增量动态聚类算法  35-38
    4.2.1 基于免疫的常规动态聚类算法  35-36
    4.2.2 基于免疫的增量聚类算法  36-37
    4.2.3 聚类系统优化  37-38
  4.3 舆情分析方法  38-39
  4.4 本章小结  39-41
第五章 实验结果与分析  41-49
  5.1 微博短文本相似度计算实验  41-45
    5.1.1 实验数据来源  41
    5.1.2 实验结果分析  41-45
  5.2 微博数据集聚类实验  45-47
    5.2.1 实验数据来源  45-46
    5.2.2 实验结果分析  46-47
  5.3 本章小结  47-49
第六章 总结与展望  49-51
致谢  51-53
参考文献  53-57
个人研究成果  57

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  3. 基于舆情分析研判的突发事件预警平台的设计与实现,TP311.52
  4. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  5. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  6. 基于相对密度的聚类算法研究,TP311.13
  7. 网络舆情分析关键技术研究与实现,TP393.09
  8. 基于概念集合的网页内容过滤方法的研究,TP393.092
  9. 数字遥感图像解译分类方法研究,TP751
  10. 增量文本聚类在舆情监控中的研究与实现,TP391.1
  11. 基于监测信号加权特征的批量钻削工步质量增量聚类研究,TG52
  12. 三维模型分割及检索的方法研究,TP391.41
  13. 基于web文献的数据挖掘研究应用,TP311.13
  14. 道路网络空间中移动对象轨迹聚类算法的研究,TP311.13
  15. 基于语义相似度的地理信息检索技术研究,TP391.3
  16. 基于本体的动画素材语义检索引擎设计与排序研究,TP391.3
  17. 基于关键词的Web文档自动分类算法研究,TP391.1
  18. 基于语义标记树的XML文档聚类研究,TP391.1
  19. 蛋白质关系网络复合物发现与可视化研究,TP391.41
  20. 基于本体的智能电网知识检索系统,TM76
  21. 基于链接重要性的动态链接预测算法研究,TP393.03

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com