学位论文 > 优秀研究生学位论文题录展示

可爬取Ajax数据的搜索引擎爬虫研究与设计

作 者: 王岩
导 师: 尹大力
学 校: 长春理工大学
专 业: 计算机应用技术
关键词: Ajax 搜索引擎 AjaxRank 网络爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 57次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来web2.0技术得到了广泛应用,新技术在改善人们浏览网页习惯的同时也给其它相关技术带来了巨大挑战,搜索引擎就是其中之一。面对网页中蕴含的大量动态数据,传统搜索引擎已经无法实现抓取功能,Ajax应用的各种状态和事件可以被用户看到,但无法被搜索引擎抓取。针对搜索引擎所面临的挑战,本文给出了相应的解决方案:分析并建立Ajax应用的状态模型,在此基础之上设计并实现了Ajax爬虫的核心算法,通过建立热点缓存模型实现了算法的优化,根据Ajax动态页面的特点提出了网页权重评定算法AjaxRank,最后通过实例测试验证了Ajax搜索引擎的检索结果质量,并对搜索引擎的各项性能指标进行了综合评估。本文的重要意义在于,对Ajax动态数据的应用原理进行了深入细致的分析,在此基础之上,设计并实现了可抓取Ajax动态数据的搜索引擎,为动态数据抓取的进一步研究提供了一定意义的理论基础。

全文目录


摘要  4-5
ABSTRACT  5-6
目录  6-7
第一章 绪论  7-12
  1.1 研究背景  7-9
  1.2 研究目的与意义  9-10
  1.3 课题研究的主要内容  10
  1.4 论文的组织结构  10-12
第二章 搜索引擎原理及相关技术研究  12-20
  2.1 搜索引擎基本原理及分类  12-14
  2.2 WEB2.0技术简介  14-15
  2.3 AJAX基本原理  15-19
  2.4 AJAX的影响  19-20
第三章 AJAX数据抓取算法  20-30
  3.1 AJAX建模  20-22
  3.2 AJAX抓取算法  22-26
  3.3 AJAX抓取算法优化  26-30
第四章 支持AJAX的搜索引擎总体设计  30-41
  4.1 传统搜索引擎抓取模块改进  30-32
  4.2 AJAX搜索引擎的索引模块  32-38
  4.3 AJAX搜索引擎检索模块  38-39
  4.4 系统设计  39-41
第五章 试验及结果分析  41-50
  5.1 抓取的事件和状态数量统计  41-43
  5.2 AJAX爬虫的效率统计  43-45
  5.3 两种AJAX抓取算法的对比  45-46
  5.4 索引性能评估  46-48
  5.5 检索性能评估  48-50
第六章 总结与展望  50-51
  6.1 研究总结  50
  6.2 对今后工作的展望  50-51
致谢  51-52
参考文献  52-53

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
  3. 网络搜索引擎的相关技术研究,G354
  4. 基于嵌入式Web服务器的监控系统研究,TP393.05
  5. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  6. 基于语义网络的智能搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  9. 数字化查账系统研究,TP311.52
  10. 社区WebGIS原型系统设计与实现,P208
  11. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  12. 基于SNS的网络协作学习平台设计与实现,TP311.52
  13. 高校学生工作管理系统的分析与设计,TP311.52
  14. Web管理信息系统性能优化研究,TP311.52
  15. 宜春学院学生就业管理系统的设计与实现,TP311.52
  16. 分布式搜索引擎索引安全及缓存策略研究,TP333
  17. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  18. 基于AJAX的民生平台的开发设计,TP311.52
  19. 基于嵌入式Web服务器应用技术的研究,TP393.05
  20. 教育培训行业互联网营销问题的研究,F49
  21. 搜索引擎侵权行为研究,D923

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com