学位论文 > 优秀研究生学位论文题录展示
基于新闻和论坛的信息采集系统的设计与实现
作 者: 孔丽园
导 师: 刘培玉; 刘登峰
学 校: 山东师范大学
专 业: 计算机技术
关键词: 信息采集系统 网络爬虫 数据抓取
分类号: TP274.2
类 型: 硕士论文
年 份: 2014年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,现代社会正处于一个信息爆炸的时代。人们在任何时间、任何地点都可以通过网络发布任何消息,毋庸置疑,网络已经深入到我们生活的方方面面,在很大程度上影响并改变着人们的生活方式。面对如此纷繁复杂的互联网信息,如何有效地处理和利用这些浩瀚如烟的数据,成为人们不得不面对的一个巨大挑战。因此,对网络上信息的采集、分析、发布以及相关的信息处理正日益成为国内外学者和机构研究的热点。通过阅读大量的国内外相关文献,本文分析了目前信息采集系统的研究现状以及发展趋势,阐述了本课题的研究意义和实用价值。本文通过大量的文献资料研究了信息采集系统的相关技术,包括网络爬虫技术、代理服务器技术、种子URL的提取和正规化处理、正则表达式以及中文切词等技术。本系统使用C#语言开发了一个基于新闻和论坛的综合信息采集系统,该信息采集系统实现的采集网站有新浪新闻、腾讯新闻、搜狐新闻、网易新闻、天涯论坛和猫扑论坛。与针对某一个特定网站的单一的信息采集系统相比,本系统可以实现对多个网站进行同时采集,而不影响采集的速度和准确性。本系统还实现了根据用户需要随时增删采集频道的功能,增加了系统的使用灵活性。在本系统的设计过程中,使用的是MySQL数据库,用于系统设置以及种子URL和信息采集结果的存储和提取。本系统所使用的数据库名为MSD0,该数据库涉及到的主要的数据表有三个:final表、news表和AdminInfo表。本系统的设计主要包括五个模块:系统登录界面、数据抓取模块、数据库访问模块、数据处理模块和增删URL模块。在介绍该信息采集系统的设计的过程中,本文详细阐述了信息采集模块、数据处理模块和增删URL模块的设计和实现。信息采集模块是本系统的核心部分,能够响应用户的操作,根据用户对采集来源和采集深度的选择,针对不同网站进行信息采集,并同时显示信息采集的结果。数据处理模块可以实现对采集到的信息进行抽取和切词的处理,以便进行后续的分析,另一方面,在用户需要的情况下,本模块还可以实现对切词后的结果进行词性标注的功能。增删URL模块实现的功能是添加采集源。本文还以新浪新闻、腾讯新闻、网易新闻和搜狐新闻的抓取为例,对本系统的使用进行了详细的演示,并以这四大新闻网站作为测试网站,以“中小学教材”作为采集主题,对本系统进行了性能测试和分析。通过测试,本文分析了该系统的采集速度和采准率,发现系统对于一般的静态WEB页面具有较好的抓取效果,而且速度也相对较快。
|
全文目录
目录 4-6 摘要 6-7 ABSTRACT 7-9 第一章 绪论 9-13 1.1 课题的研究背景 9 1.2 信息采集的研究现状 9-11 1.2.1 信息采集概述 9-10 1.2.2 Web 信息采集技术的分类 10-11 1.2.3 国内外研究现状 11 1.3 系统设计的目的和意义 11-12 1.4 论文的组织结构 12-13 第二章 信息采集关键技术研究 13-21 2.1 信息采集的基本原理 13 2.2 爬虫技术 13-15 2.2.1 通用网络爬虫 13-14 2.2.2 聚焦网络爬虫 14-15 2.2.3 深度爬虫 15 2.3 代理服务器技术 15-16 2.4 网页去重技术 16-17 2.5 正则表达式 17 2.6 种子 URL 的提取和正规化处理 17-18 2.7 中文切词技术 18-19 2.8 本章小结 19-21 第三章 需求分析 21-25 3.1 Web 信息采集面临的主要困难 21 3.2 系统目标和解决的问题 21-22 3.3 系统需求概述 22 3.4 系统需求分析 22-24 3.4.1 新闻的特点 22-23 3.4.2 论坛的特点 23-24 3.5 本章小结 24-25 第四章 基于新闻和论坛的信息采集系统的设计 25-33 4.1 系统设计目标 25 4.2 系统概要设计 25-28 4.2.1 系统整体结构 25-27 4.2.2 具体流程设计 27-28 4.3 系统详细设计 28-31 4.3.1 系统登录模块 28 4.3.2 信息采集模块 28-29 4.3.3 数据处理模块 29-30 4.3.4 增删 URL 模块 30 4.3.5 关键数据库结构设计 30-31 4.4 环境要求 31-32 4.5 本章小结 32-33 第五章 基于新闻和论坛的信息采集系统的实现 33-45 5.1 系统主要模块的实现 33-39 5.1.1 信息采集模块的实现 33-38 5.1.2 数据处理模块的实现 38-39 5.1.3 增删 URL 模块的实现 39 5.2 基于新闻和论坛的信息采集系统的演示过程 39-43 5.3 本章小结 43-45 第六章 系统测试与分析 45-47 6.1 测试环境 45 6.2 测试集的选择 45 6.3 采集速度 45 6.4 采准率 45-46 6.5 本章小结 46-47 第七章 总结与展望 47-48 参考文献 48-50 致谢 50
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 实时垂直搜索引擎的爬虫技术研究,TP391.3
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- 基于人工生命的蜂群行为的仿真与研究,TP391.3
- 用电信息采集系统在智能电网发展中的建设应用,TM76
- 网络舆情信息采集系统的设计与实现,TP393.09
- 基于学习的恶意网页智能检测系统,TP393.08
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于网络评论的文本倾向性分类技术的研究与实现,TP311.52
- 基于网络爬虫的跨站脚本漏洞动态检测技术研究,TP393.08
- 基于网络信息提取和网络空间服务的二手房产价格指数编制研究,P208
- 产品评论情感倾向性识别关键技术研究,TP391.3
- 网络化制造资源智能获取技术研究,TP393.09
- 校园BBS舆情分析系统的设计与实现,TP393.094
- 校园BBS舆情数据收集与提取系统的设计与实现,TP393.094
- 珠海斗门供电局配网地理信息采集系统开发应用的研究,P208
- 搜索引擎中的Pagerank排序算法研究分析,O223
- Web应用安全漏洞扫描工具的设计与实现,TP393.08
- 台海领域的人立方关系搜索引擎的研究与实现,TP391.3
- 基于GPU并行计算的重复文本检测系统,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统 > 数据收集和处理系统
© 2012 www.xueweilunwen.com
|