学位论文 > 优秀研究生学位论文题录展示

基于语义的网络舆情热点话题发现研究

作 者: 田田
导 师: 张贤坤
学 校: 天津科技大学
专 业: 计算机应用技术
关键词: 网络舆情 热点话题发现 文本聚类 语义 知网
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方面也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时发现网民共同关心的热点问题,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。本文主要研究如何在海量信息中找出被大众关注的热点话题。现有的网络舆情热点话题发现方法大多是运用传统的文本聚类技术,但传统技术没有考虑文本信息间的语义联系,往往得到不准确的话题分类结果,也就影响了话题的热点分析效果。本文针对在文本聚类过程中容易缺失语义信息的缺点,对传统方法进行改进,具体工作主要有:一是信息采集和预处理技术,研究如何从松散的非结构化信息中采集并抽取语料。利用网络爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储;二是话题发现技术,通过文本聚类算法,将采集并处理的文本聚为表示不同话题的文档集,形成各个话题簇,运用统计学方法建立话题发现模型,进行热点分析:三是改进传统的话题发现技术,构建了一个基于语义分析的热点话题发现模型框架,利用语义Web及本体技术中的相关知识改进文本聚类中的各个子模块,主要是对文本表示模型和文本相似度计算两个子模块做了改进;四是通过实验数据,从查准率和查全率等方面对传统方法和改进方法的结果进行比对;五是通过对信息采集和网页预处理的辅助模块的了解、传统话题聚类方法的研究、以及语义相关知识的重点分析,设计了网络舆情热点话题发现系统,实现了舆情的采集及分析功能。本文重点通过语义分析的方法改善了文本聚类的性能,从而提高了话题分类以及热点话题分析的准确性,并通过实验验证了方案的可行性。

全文目录


摘要  4-5
ABSTRACT  5-8
1 绪论  8-11
  1.1 论文研究背景与意义  8-9
  1.2 论文研究内容  9
  1.3 论文组织结构  9-11
2 相关研究  11-20
  2.1 网络舆情分析与监测系统  11-12
  2.2 网络舆情热点话题发现相关技术  12-16
    2.2.1 网页信息采集技术  12-14
    2.2.2 网页净化技术  14
    2.2.3 中文分词技术  14-15
    2.2.4 文本信息挖掘技术  15-16
  2.3 语义Web及本体技术  16-19
    2.3.1 语义Web技术  16-18
    2.3.2 本体(Ontology)技术  18-19
  2.4 本章小结  19-20
3 信息采集与网页预处理研究  20-31
  3.1 信息采集模块  20-23
    3.1.1 网络爬虫总体结构及工作流程  20-22
    3.1.2 网络爬虫网页下载模块  22-23
    3.1.3 网络爬虫网页分析模块  23
    3.1.4 网络爬虫URL去重模块  23
  3.2 网页预处理模块  23-30
    3.2.1 网页净化模块  24-27
    3.2.2 中文分词模块  27-30
  3.3 本章小结  30-31
4 基于语义的网络舆情热点话题发现模型构建  31-53
  4.1 热点话题发现的语义模型框架  31-36
    4.1.1 总体架构  31-33
    4.1.2 知网(Hownet)系统  33-36
  4.2 文本表示模型  36-41
    4.2.1 特征抽取  37-39
    4.2.2 权值计算  39-40
    4.2.3 文本表示  40-41
  4.3 文本相似度计算  41-44
    4.3.1 概念相似度计算  42-44
    4.3.2 文本相似度计算  44
  4.4 一种基于语义分析的文本聚类算法  44-47
  4.5 热点分析  47-49
    4.5.1 话题关注度  47-48
    4.5.2 热点判别  48-49
  4.6 实验结果的比较与分析  49-52
    4.6.1 数据准备  49-50
    4.6.2 实验结果及比较  50-52
  4.7 本章小结  52-53
5 网络舆情热点话题发现系统设计与实现  53-58
  5.1 总体设计和框架结构  53-56
  5.2 开发环境与开发工具  56
  5.3 系统功能实现  56-57
  5.4 本章小结  57-58
6 结论与展望  58-60
  6.1 工作总结  58-59
  6.2 工作展望  59-60
7 参考文献  60-67
8 攻读硕士学位期间论文发表情况  67-68
9 致谢  68

相似论文

  1. 《左传》名词陈述化研究,H146
  2. 基于多示例学习的用户关注概念区域发现,TP391.41
  3. 隐式用户兴趣挖掘的研究与实现,TP311.13
  4. 面向业务过程的服务动态组合方法研究,TP393.09
  5. 中国区域性网上社区的舆情研究,G206
  6. 基于本体的语义检索研究,TP391.3
  7. 乔治·米勒的认知意义论,B842.1
  8. 演化聚类算法及其应用研究,TP311.13
  9. 网络舆情的形成机制研究,G206
  10. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  11. WordNet和《中国分类主题词表》的映射研究,G254
  12. 鲁迅小说中动词的修辞阐释,H15
  13. 英语新词语在语义、语境中的研究,H313
  14. 网络界面图形符号语义的理想传达,J504
  15. 认知网络中上下文建模与簇头选举算法研究,TN92
  16. 网络舆情对司法过程的影响,D926
  17. 基于图形对象的一致性维护问题的研究,TP391.41
  18. 矿区开采沉陷时空分析研究与应用,TD327
  19. 网络新闻发言人制度构建,G219.2
  20. 日语谚语的结构与语义,H36
  21. 心智游移频率特征研究:问卷开发,B841

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com