学位论文 > 优秀研究生学位论文题录展示

基于新闻和论坛的信息采集系统的设计与实现

作 者: 孔丽园
导 师: 刘培玉; 刘登峰
学 校: 山东师范大学
专 业: 计算机技术
关键词: 信息采集系统 网络爬虫 数据抓取
分类号: TP274.2
类 型: 硕士论文
年 份: 2014年
下 载: 10次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,现代社会正处于一个信息爆炸的时代。人们在任何时间、任何地点都可以通过网络发布任何消息,毋庸置疑,网络已经深入到我们生活的方方面面,在很大程度上影响并改变着人们的生活方式。面对如此纷繁复杂的互联网信息,如何有效地处理和利用这些浩瀚如烟的数据,成为人们不得不面对的一个巨大挑战。因此,对网络上信息的采集、分析、发布以及相关的信息处理正日益成为国内外学者和机构研究的热点。通过阅读大量的国内外相关文献,本文分析了目前信息采集系统的研究现状以及发展趋势,阐述了本课题的研究意义和实用价值。本文通过大量的文献资料研究了信息采集系统的相关技术,包括网络爬虫技术、代理服务器技术、种子URL的提取和正规化处理、正则表达式以及中文切词等技术。本系统使用C#语言开发了一个基于新闻和论坛的综合信息采集系统,该信息采集系统实现的采集网站有新浪新闻、腾讯新闻、搜狐新闻、网易新闻、天涯论坛和猫扑论坛。与针对某一个特定网站的单一的信息采集系统相比,本系统可以实现对多个网站进行同时采集,而不影响采集的速度和准确性。本系统还实现了根据用户需要随时增删采集频道的功能,增加了系统的使用灵活性。在本系统的设计过程中,使用的是MySQL数据库,用于系统设置以及种子URL和信息采集结果的存储和提取。本系统所使用的数据库名为MSD0,该数据库涉及到的主要的数据表有三个:final表、news表和AdminInfo表。本系统的设计主要包括五个模块:系统登录界面、数据抓取模块、数据库访问模块、数据处理模块和增删URL模块。在介绍该信息采集系统的设计的过程中,本文详细阐述了信息采集模块、数据处理模块和增删URL模块的设计和实现。信息采集模块是本系统的核心部分,能够响应用户的操作,根据用户对采集来源和采集深度的选择,针对不同网站进行信息采集,并同时显示信息采集的结果。数据处理模块可以实现对采集到的信息进行抽取和切词的处理,以便进行后续的分析,另一方面,在用户需要的情况下,本模块还可以实现对切词后的结果进行词性标注的功能。增删URL模块实现的功能是添加采集源。本文还以新浪新闻、腾讯新闻、网易新闻和搜狐新闻的抓取为例,对本系统的使用进行了详细的演示,并以这四大新闻网站作为测试网站,以“中小学教材”作为采集主题,对本系统进行了性能测试和分析。通过测试,本文分析了该系统的采集速度和采准率,发现系统对于一般的静态WEB页面具有较好的抓取效果,而且速度也相对较快。

全文目录


目录  4-6
摘要  6-7
ABSTRACT  7-9
第一章 绪论  9-13
  1.1 课题的研究背景  9
  1.2 信息采集的研究现状  9-11
    1.2.1 信息采集概述  9-10
    1.2.2 Web 信息采集技术的分类  10-11
    1.2.3 国内外研究现状  11
  1.3 系统设计的目的和意义  11-12
  1.4 论文的组织结构  12-13
第二章 信息采集关键技术研究  13-21
  2.1 信息采集的基本原理  13
  2.2 爬虫技术  13-15
    2.2.1 通用网络爬虫  13-14
    2.2.2 聚焦网络爬虫  14-15
    2.2.3 深度爬虫  15
  2.3 代理服务器技术  15-16
  2.4 网页去重技术  16-17
  2.5 正则表达式  17
  2.6 种子 URL 的提取和正规化处理  17-18
  2.7 中文切词技术  18-19
  2.8 本章小结  19-21
第三章 需求分析  21-25
  3.1 Web 信息采集面临的主要困难  21
  3.2 系统目标和解决的问题  21-22
  3.3 系统需求概述  22
  3.4 系统需求分析  22-24
    3.4.1 新闻的特点  22-23
    3.4.2 论坛的特点  23-24
  3.5 本章小结  24-25
第四章 基于新闻和论坛的信息采集系统的设计  25-33
  4.1 系统设计目标  25
  4.2 系统概要设计  25-28
    4.2.1 系统整体结构  25-27
    4.2.2 具体流程设计  27-28
  4.3 系统详细设计  28-31
    4.3.1 系统登录模块  28
    4.3.2 信息采集模块  28-29
    4.3.3 数据处理模块  29-30
    4.3.4 增删 URL 模块  30
    4.3.5 关键数据库结构设计  30-31
  4.4 环境要求  31-32
  4.5 本章小结  32-33
第五章 基于新闻和论坛的信息采集系统的实现  33-45
  5.1 系统主要模块的实现  33-39
    5.1.1 信息采集模块的实现  33-38
    5.1.2 数据处理模块的实现  38-39
    5.1.3 增删 URL 模块的实现  39
  5.2 基于新闻和论坛的信息采集系统的演示过程  39-43
  5.3 本章小结  43-45
第六章 系统测试与分析  45-47
  6.1 测试环境  45
  6.2 测试集的选择  45
  6.3 采集速度  45
  6.4 采准率  45-46
  6.5 本章小结  46-47
第七章 总结与展望  47-48
参考文献  48-50
致谢  50

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 实时垂直搜索引擎的爬虫技术研究,TP391.3
  3. 基于Deep Web的图书信息集成与查询系统,TP311.52
  4. 基于人工生命的蜂群行为的仿真与研究,TP391.3
  5. 用电信息采集系统在智能电网发展中的建设应用,TM76
  6. 网络舆情信息采集系统的设计与实现,TP393.09
  7. 基于学习的恶意网页智能检测系统,TP393.08
  8. 网络舆情数据获取与话题分析技术研究,TP393.09
  9. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  10. 基于网络评论的文本倾向性分类技术的研究与实现,TP311.52
  11. 基于网络爬虫的跨站脚本漏洞动态检测技术研究,TP393.08
  12. 基于网络信息提取和网络空间服务的二手房产价格指数编制研究,P208
  13. 产品评论情感倾向性识别关键技术研究,TP391.3
  14. 网络化制造资源智能获取技术研究,TP393.09
  15. 校园BBS舆情分析系统的设计与实现,TP393.094
  16. 校园BBS舆情数据收集与提取系统的设计与实现,TP393.094
  17. 珠海斗门供电局配网地理信息采集系统开发应用的研究,P208
  18. 搜索引擎中的Pagerank排序算法研究分析,O223
  19. Web应用安全漏洞扫描工具的设计与实现,TP393.08
  20. 台海领域的人立方关系搜索引擎的研究与实现,TP391.3
  21. 基于GPU并行计算的重复文本检测系统,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统 > 数据收集和处理系统
© 2012 www.xueweilunwen.com