学位论文 > 优秀研究生学位论文题录展示
基于语义的网络舆情热点话题发现研究
作 者: 田田
导 师: 张贤坤
学 校: 天津科技大学
专 业: 计算机应用技术
关键词: 网络舆情 热点话题发现 文本聚类 语义 知网
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方面也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时发现网民共同关心的热点问题,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。本文主要研究如何在海量信息中找出被大众关注的热点话题。现有的网络舆情热点话题发现方法大多是运用传统的文本聚类技术,但传统技术没有考虑文本信息间的语义联系,往往得到不准确的话题分类结果,也就影响了话题的热点分析效果。本文针对在文本聚类过程中容易缺失语义信息的缺点,对传统方法进行改进,具体工作主要有:一是信息采集和预处理技术,研究如何从松散的非结构化信息中采集并抽取语料。利用网络爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储;二是话题发现技术,通过文本聚类算法,将采集并处理的文本聚为表示不同话题的文档集,形成各个话题簇,运用统计学方法建立话题发现模型,进行热点分析:三是改进传统的话题发现技术,构建了一个基于语义分析的热点话题发现模型框架,利用语义Web及本体技术中的相关知识改进文本聚类中的各个子模块,主要是对文本表示模型和文本相似度计算两个子模块做了改进;四是通过实验数据,从查准率和查全率等方面对传统方法和改进方法的结果进行比对;五是通过对信息采集和网页预处理的辅助模块的了解、传统话题聚类方法的研究、以及语义相关知识的重点分析,设计了网络舆情热点话题发现系统,实现了舆情的采集及分析功能。本文重点通过语义分析的方法改善了文本聚类的性能,从而提高了话题分类以及热点话题分析的准确性,并通过实验验证了方案的可行性。
|
全文目录
摘要 4-5 ABSTRACT 5-8 1 绪论 8-11 1.1 论文研究背景与意义 8-9 1.2 论文研究内容 9 1.3 论文组织结构 9-11 2 相关研究 11-20 2.1 网络舆情分析与监测系统 11-12 2.2 网络舆情热点话题发现相关技术 12-16 2.2.1 网页信息采集技术 12-14 2.2.2 网页净化技术 14 2.2.3 中文分词技术 14-15 2.2.4 文本信息挖掘技术 15-16 2.3 语义Web及本体技术 16-19 2.3.1 语义Web技术 16-18 2.3.2 本体(Ontology)技术 18-19 2.4 本章小结 19-20 3 信息采集与网页预处理研究 20-31 3.1 信息采集模块 20-23 3.1.1 网络爬虫总体结构及工作流程 20-22 3.1.2 网络爬虫网页下载模块 22-23 3.1.3 网络爬虫网页分析模块 23 3.1.4 网络爬虫URL去重模块 23 3.2 网页预处理模块 23-30 3.2.1 网页净化模块 24-27 3.2.2 中文分词模块 27-30 3.3 本章小结 30-31 4 基于语义的网络舆情热点话题发现模型构建 31-53 4.1 热点话题发现的语义模型框架 31-36 4.1.1 总体架构 31-33 4.1.2 知网(Hownet)系统 33-36 4.2 文本表示模型 36-41 4.2.1 特征抽取 37-39 4.2.2 权值计算 39-40 4.2.3 文本表示 40-41 4.3 文本相似度计算 41-44 4.3.1 概念相似度计算 42-44 4.3.2 文本相似度计算 44 4.4 一种基于语义分析的文本聚类算法 44-47 4.5 热点分析 47-49 4.5.1 话题关注度 47-48 4.5.2 热点判别 48-49 4.6 实验结果的比较与分析 49-52 4.6.1 数据准备 49-50 4.6.2 实验结果及比较 50-52 4.7 本章小结 52-53 5 网络舆情热点话题发现系统设计与实现 53-58 5.1 总体设计和框架结构 53-56 5.2 开发环境与开发工具 56 5.3 系统功能实现 56-57 5.4 本章小结 57-58 6 结论与展望 58-60 6.1 工作总结 58-59 6.2 工作展望 59-60 7 参考文献 60-67 8 攻读硕士学位期间论文发表情况 67-68 9 致谢 68
|
相似论文
- 《左传》名词陈述化研究,H146
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 面向业务过程的服务动态组合方法研究,TP393.09
- 中国区域性网上社区的舆情研究,G206
- 基于本体的语义检索研究,TP391.3
- 乔治·米勒的认知意义论,B842.1
- 演化聚类算法及其应用研究,TP311.13
- 网络舆情的形成机制研究,G206
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 鲁迅小说中动词的修辞阐释,H15
- 英语新词语在语义、语境中的研究,H313
- 网络界面图形符号语义的理想传达,J504
- 认知网络中上下文建模与簇头选举算法研究,TN92
- 网络舆情对司法过程的影响,D926
- 基于图形对象的一致性维护问题的研究,TP391.41
- 矿区开采沉陷时空分析研究与应用,TD327
- 网络新闻发言人制度构建,G219.2
- 日语谚语的结构与语义,H36
- 心智游移频率特征研究:问卷开发,B841
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|