学位论文 > 优秀研究生学位论文题录展示

智能信息检索系统的设计与实现

作 者: 王晓辉
导 师: 朱翠涛
学 校: 中南民族大学
专 业: 电子与通信工程
关键词: 搜索引擎 爬虫队列 散列算法 遗传算法 主题相关度
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


搜索引擎是一种不可缺少的信息捕获工具,为互联网用户提供搜索服务,极大提高了用户从互联网中获取信息的速度。但是,在“大数据”时代带来的信息量和信息资源多元化的冲击下,搜索引擎在捕获信息的速度和主题相关度等方面遇到了新的挑战。因此,下一代搜索引擎是目前研究的一个热点。针对搜索引擎后台网络爬虫从互联网中抓取到信息资源时,队列对URL字符串处理能力的不足,本文设计并实现一种快速处理存取数据的散列算法,它能够在真实值和键值之间建立一一对应的关系,快速把进入到爬虫队列中的字符串数据转化为一种线性表结构,能够改善队列处理字符串的能力,提高爬虫的性能。并搭建了搜索引擎的网络环境,选择Heritrix爬虫作为网络爬虫框架,对在爬虫中加入散列算法进行测试。实验结果证明,在加入散列算法之后的网络爬虫,搜索效率提高,抓取速度得到明显的提升。针对搜索引擎反馈信息主题相关度低下的问题,从网络爬虫入手,提高网络爬虫捕获到页面的主题相关度。考虑向爬虫中加入具备相关度判别的遗传算法,将特定主题类型的内容抓取下来,与主题无关的内容忽略,便可以提高查找的准确率。策略的基本思想是结合遗传算法和基于内容的空间向量模型,以遗传算法的全局查优特点保证爬行的整体性,以网页之间的相互关系来确定网页的重要程度,以空间向量模型来确定与主题的相关度。对网络爬虫进行改造后,采用固定关键字对其测试,与改善之前进行比较,抓取到的总页面数和与主题相关的页面数都有提升,而且主题页面所占比例提高了约30%,提高了系统查找信息的准确率。

全文目录


目录  5-6
摘要  6-7
ABSTRACT  7-8
第1章 绪论  8-14
  1.1 研究背景  8-9
  1.2 研究现状  9-13
  1.3 论文主要工作  13-14
第2章 系统平台搭建  14-25
  2.1 平台环境搭建  14-15
  2.2 整体框架  15-16
  2.3 网页抓取模块  16-19
  2.4 原始网页的预处理  19-20
  2.5 建立索引模型  20-22
  2.6 查询服务  22-25
第3章 基于散列算法的网络爬虫实现  25-38
  3.1 问题描述  25-26
  3.2 Heritrix 机理分析  26-30
    3.2.1 体系架构  26-27
    3.2.2 Heritrix 爬虫的 URL 队列  27-30
  3.3 散列算法在爬虫中应用  30-33
    3.3.1 字符串散列函数  30-32
    3.3.2 散列函数的应用  32-33
  3.4 测试分析  33-38
    3.4.1 测试环境  33-34
    3.4.2 实验结果与分析  34-38
第4章 基于遗传算法的主题爬虫实现  38-52
  4.1 问题描述  38-39
  4.2 基于遗传算法的主题爬虫设计  39-42
    4.2.1 算法原理  39-40
    4.2.2 主题爬虫的设计  40-42
  4.3 向量空间模型  42-45
    4.3.1 网页主题确立  42-43
    4.3.2 模型元素  43
    4.3.3 特征权重计算  43-44
    4.3.4 文本相似度计算  44-45
  4.4 Heritrix 主题爬虫实现  45-47
  4.5 测试分析  47-52
    4.5.1 测试环境  47-48
    4.5.2 实验结果与分析  48-52
第5章 总结与展望  52-54
参考文献  54-57
致谢  57

相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
  4. 部队人员网上训练与考核系统的开发,TP311.52
  5. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  6. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  7. 基于遗传算法的中短波磁天线的设计及实现,TN820
  8. 基于遗传算法的柑橘图像分割,TP391.41
  9. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  10. 基于遗传—牛顿算法的公交优化调度,TP18
  11. 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
  12. 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
  13. 基于遗传算法和粗糙集的聚类算法研究,TP18
  14. 网络搜索引擎的相关技术研究,G354
  15. 基于遗传算法的淠史杭灌区渠系配水优化编组模型的研究,S274
  16. 遗传算法在物流仓储优化中的应用研究,F259.2
  17. 基于遗传算法的矿山资源优化调度模型的研究,O224
  18. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  19. 机械臂轨迹规划研究,TP242
  20. 基于遗传算法的前馈神经网络优化研究,TP183
  21. 基于油耗的城市交通信号分层递阶控制的优化研究,U491.51

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com