学位论文 > 优秀研究生学位论文题录展示

面向教育新闻的主题爬虫设计与实现

作 者: 卢振
导 师: 刘威
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 主题爬虫 信息抽取 主题相关度 超链接抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 98次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络在世界范围内的飞速发展,互联网作为最具潜力与活力的新兴媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,成为反映社会新闻热点的重要载体。为了及时了解网络新闻热点,尤其是与教育主题相关的新闻热点和发展动向,相关机构引入了教育领域专用新闻热点分析系统。本文设计与实现的网络主题爬虫系统是新闻热点分析系统中的数据源,负责教育领域内新闻信息的采集。传统的网络爬虫为搜索引擎服务,但无法满足指定主题的应用需要,主题爬虫则是有选择性地爬取主题相关的网页。本文深入研究了主题爬虫的特点、工作流程和体系架构,提出了一种面向教育新闻的爬虫系统总体架构设计,并在此基础上设计了爬虫系统的各个模块。本文借助爬虫领域的相关技术和工具,结合新闻热点分析系统的需求,从原理或工作流程上详细论述了爬虫系统中核心模块的具体实现。论文所做的工作主要包括:首先,针对重点关注主要站点的问题,本文设计了一种基于权重模型的爬取策略。其次,为了提高超链接抽取效率,本文采取了基于XPath的超链接精确抽取策略。最后,针对爬虫重复爬取的问题,本文设计了基于Berkeley DB的避免重复爬取策略。本文通过对爬虫系统运行结果的分析,表明爬虫系统能够稳定地运行,持续为新闻热点分析系统提供数据。爬虫系统满足设计需求,取得了令人满意的效果,论文中基于XPath的超链接抽取策略和基于Berkeley DB的避免重复爬取策略对于主题爬虫的实现具有实际的借鉴意义。

全文目录


摘要  4-5
Abstract  5-7
1 绪论  7-11
  1.1 课题背景  7-8
  1.2 主题爬虫研究现状  8-9
  1.3 本文组织结构  9-11
2 网络爬虫及相关技术  11-21
  2.1 主题爬虫技术研究  11-12
  2.2 典型爬虫架构分析  12-14
  2.3 爬虫相关技术及工具  14-20
  2.4 本章小结  20-21
3 爬虫系统的需求分析与设计  21-36
  3.1 需求分析  21-26
  3.2 总体设计  26-28
  3.3 分模块设计  28-32
  3.4 数据结构设计  32-35
  3.5 本章小结  35-36
4 爬虫系统的实现  36-51
  4.1 各模块的实现  36-46
  4.2 系统测试与结果分析  46-49
  4.3 本章小结  49-51
5 总结与展望  51-53
  5.1 论文总结  51
  5.2 研究展望  51-53
致谢  53-54
参考文献  54-56

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 基于SVM分类算法的主题爬虫研究,TP391.3
  4. 面向汽车行业的主题爬虫研究与实现,TP391.3
  5. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  6. 构件垂直搜索引擎的关键技术研究,TP391.3
  7. 学术主页信息抽取系统的研究,TP393.092
  8. 基于自然语言打印机人机交互方法研究与实现,TP11
  9. 主题搜索引擎中的爬取技术研究,TP391.3
  10. 基于搜索引擎的自动问答系统,TP391.3
  11. 基于互联网的个性化健康信息定制系统构建,TP311.52
  12. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  13. 企业关系挖掘技术研究,TP391.1
  14. 基于Web的股评观点倾向性分析研究,TP391.1
  15. 垂直搜索中信息属性抽取和分类模型研究与实现,TP391.3
  16. 基于本体及概念模式的Deep Web查询结果处理技术,TP393.09
  17. 分领域深网信息集成系统的设计与实现,TP311.52
  18. 基于Web信息自动抽取的英语题库生成算法研究,TP393.09
  19. 面向Web的图书信息抽取方法与实现,TP311.52
  20. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com