学位论文 > 优秀研究生学位论文题录展示
面向短文本的网络舆情分析
作 者: 时睿
导 师: 封化民
学 校: 西安电子科技大学
专 业: 密码学
关键词: 微博短文本 语义相似度 增量聚类 舆情分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 235次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网技术的不断发展,微型博客等新形态交互方式为信息的发布和共享提供了新的平台,但同时充斥着大量的虚假、色情、反动信息,严重影响了人们对网络的正常使用和信息获取。如何对微博中的不良信息进行监控,成为亟待解决的问题。本文针对微博短文本进行舆情分析,提出了一种基于名词的微博短文本语义相似度计算方法。首先,提取微博中的所有名词;其次,利用《知网(Hownet)》义原的树状结构计算微博短文本间名词的距离;最后,通过提取相似度最高的名词对来计算微博相似度。在微博相似度计算基础上,对微博进行聚类分析,通过改进基于免疫的动态聚类算法,使聚类结果中抗体集合能够准确描述所属类的内容,同时适应不断增长的微博数据。在舆情分析阶段,通过对聚类的抗体集合整理得到话题信息,通过增量聚类算法及时发现新话题。在中等规模微博数据集测试中,本文提出的微博相似度算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。在大规模的微博聚类实验中,本文提出的改进算法能够较为有效地聚类,并支持微博新话题的发现和热点话题的预警。对聚类结果的分析亦能够帮助话题的分析和理解。
|
全文目录
摘要 3-4 ABSTRACT 4-7 第一章 绪论 7-11 1.1 课题研究背景与意义 7-8 1.2 相关工作与研究现状 8-10 1.2.1 针对网络短文本的特征提取技术 8-9 1.2.2 针对网络短文本的聚类技术 9-10 1.3 本文研究内容与组织结构 10-11 第二章 面向短文本的网络舆情分析基础 11-23 2.1 网络短文本概述 11-12 2.1.1 网络短文本 11 2.1.2 微博短文本 11-12 2.2 《知网(Hownet)》简介 12-18 2.2.1 《知网》的结构 13-15 2.2.2 《知网》的知识描述语言 15-18 2.3 聚类与分类策略 18-21 2.3.1 聚类方法 18-20 2.3.2 分类方法 20-21 2.4 本章小结 21-23 第三章 面向短文本的网络舆情分析模型 23-31 3.1 面向短文本的网络舆情分析模型框架 23-24 3.2 数据集预处理 24-27 3.2.1 语言技术平台LTP 24-25 3.2.2 LTP在本文中的应用 25-26 3.2.3 微博短文本特征相似度计算 26-27 3.3 网络短文本舆情分析 27-30 3.3.1 免疫规则与动态聚类算法 27-28 3.3.2 基于免疫的动态聚类算法描述 28-30 3.3.3 聚类结果分析 30 3.4 本章小结 30-31 第四章 面向短文本的网络舆情分析算法设计 31-41 4.1 基于名词语义的微博短文本相似度计算方法 31-35 4.1.1 基于《知网》的词汇相似度计算 31-34 4.1.2 微博短文本相似度算法 34-35 4.2 基于免疫的增量动态聚类算法 35-38 4.2.1 基于免疫的常规动态聚类算法 35-36 4.2.2 基于免疫的增量聚类算法 36-37 4.2.3 聚类系统优化 37-38 4.3 舆情分析方法 38-39 4.4 本章小结 39-41 第五章 实验结果与分析 41-49 5.1 微博短文本相似度计算实验 41-45 5.1.1 实验数据来源 41 5.1.2 实验结果分析 41-45 5.2 微博数据集聚类实验 45-47 5.2.1 实验数据来源 45-46 5.2.2 实验结果分析 46-47 5.3 本章小结 47-49 第六章 总结与展望 49-51 致谢 51-53 参考文献 53-57 个人研究成果 57
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于舆情分析研判的突发事件预警平台的设计与实现,TP311.52
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
- 基于相对密度的聚类算法研究,TP311.13
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 数字遥感图像解译分类方法研究,TP751
- 增量文本聚类在舆情监控中的研究与实现,TP391.1
- 基于监测信号加权特征的批量钻削工步质量增量聚类研究,TG52
- 三维模型分割及检索的方法研究,TP391.41
- 基于web文献的数据挖掘研究应用,TP311.13
- 道路网络空间中移动对象轨迹聚类算法的研究,TP311.13
- 基于语义相似度的地理信息检索技术研究,TP391.3
- 基于本体的动画素材语义检索引擎设计与排序研究,TP391.3
- 基于关键词的Web文档自动分类算法研究,TP391.1
- 基于语义标记树的XML文档聚类研究,TP391.1
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
- 基于本体的智能电网知识检索系统,TM76
- 基于链接重要性的动态链接预测算法研究,TP393.03
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|