学位论文 > 优秀研究生学位论文题录展示
校园BBS舆情数据收集与提取系统的设计与实现
作 者: 陈丽萍
导 师: 黄佳庆
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 网络舆情 电子布告栏系统(BBS) 网络爬虫 数据收集 模板化提取
分类号: TP393.094
类 型: 硕士论文
年 份: 2009年
下 载: 148次
引 用: 5次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,网络文化安全问题日益突出,同时网络舆情监控也变得日益重要。对于高校而言,复杂的网络环境不仅有很大的正面意义,对学校的思想教育工作也是极大的挑战,所以为了能够防微杜渐,高校需要及时掌握校园网络舆情的发展规律。BBS作为校园网内最活跃的公共平台,对于校园网BBS舆情信息的监测自然成为研究的重点,而这一课题首先需要解决的问题就是收集BBS页面数据,并提取出相关信息作为进一步舆情分析的数据基础。基于上述情况,本文首先对Web页面收集技术即网络爬虫进行了研究,并将其原理与BBS特性充分结合,提出了一个定向于校园BBS的舆情数据收集与提取系统。该系统采用正则表达式进行统一资源定位符(URL)过滤,此方法能够快速滤除不符合要求的URL。另一方面,系统将Bloom Filter算法应用到URL去重中,大大节省了已访问URL的存储空间。对于所获得的页面,系统根据它们对应URL的特征进行分类存储,然后进行模板化提取以增强系统的灵活性,其中模板采用可扩展标记语言(XML)的格式,提取规则通过标签序列和索引来实现。本文将BBS数据归为三大类,并采用不同方式收集,文章主要介绍了采用增量方式来获取更新数据的部分。最后,本文通过参数测试确定当循环间隔约为4h时,系统重复率或漏检率最低处于最佳状态。在此循环间隔下,本文还进行了系统功能测试,测试结果表明该系统能够满足需求,达到了预定目标。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-11 1.1 课题背景与意义 8 1.2 国内外研究现状 8-9 1.3 研究内容 9-10 1.4 论文组织结构 10-11 2 网络爬虫 11-16 2.1 网络爬虫基本概念 11-12 2.2 网络爬虫的爬行策略 12-14 2.3 网络爬虫研究热点 14-15 2.4 本章小结 15-16 3 数据收集与提取系统的设计 16-27 3.1 系统需求分析 16-17 3.2 系统总体设计 17-19 3.3 系统功能模块设计 19-26 3.4 本章小结 26-27 4 数据收集与提取系统的实现 27-39 4.1 数据收集层的实现 27-33 4.2 数据提取层的实现 33-37 4.3 数据库存储实现 37-38 4.4 本章小结 38-39 5 数据收集与提取系统的测试 39-44 5.1 系统测试环境 39 5.2 系统性能测试 39-41 5.3 系统功能测试 41-43 5.4 本章小结 43-44 6 总结与展望 44-46 6.1 论文总结 44 6.2 研究展望 44-46 致谢 46-47 参考文献 47-49
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 中国区域性网上社区的舆情研究,G206
- 移动WSN基于虚拟簇头数据收集策略的研究,TP212.9
- 网络舆情的形成机制研究,G206
- 基于网络舆情的企业危机管理研究,G206
- 社会焦点事件网络舆情演变研究,G206
- 网络舆情热点事件中的网民行为研究,G206
- 计算机证据材料污染问题及相关对策,D915.13
- 基于HLA的数据管理系统的设计,TP315
- 新疆维、哈、汉族人群外周动脉疾病与代谢综合征的相关性研究,R589
- 群体性事件的网络舆情及其治理,G206
- 政府网络新闻发布理论与实践探析,G219.2
- 网络舆情主体特征及其成因分析,G206
- 无线传感器网络数据收集中移动设备调度算法研究,TP212.9
- 网络舆情的伦理研究,G206
- 语言文字网络舆情基础资源建设研究,H08
- 汉字简繁之争的网络舆情研究,H124
- 我国网络舆情的政府管理研究,G206
- 网络舆情与政府电子治理研究,D630
- 虚拟世界的意见集合,G206
- 网络口碑传播对企业形象影响的研究,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com
|