学位论文 > 优秀研究生学位论文题录展示
智能信息检索系统的设计与实现
作 者: 王晓辉
导 师: 朱翠涛
学 校: 中南民族大学
专 业: 电子与通信工程
关键词: 搜索引擎 爬虫队列 散列算法 遗传算法 主题相关度
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
搜索引擎是一种不可缺少的信息捕获工具,为互联网用户提供搜索服务,极大提高了用户从互联网中获取信息的速度。但是,在“大数据”时代带来的信息量和信息资源多元化的冲击下,搜索引擎在捕获信息的速度和主题相关度等方面遇到了新的挑战。因此,下一代搜索引擎是目前研究的一个热点。针对搜索引擎后台网络爬虫从互联网中抓取到信息资源时,队列对URL字符串处理能力的不足,本文设计并实现一种快速处理存取数据的散列算法,它能够在真实值和键值之间建立一一对应的关系,快速把进入到爬虫队列中的字符串数据转化为一种线性表结构,能够改善队列处理字符串的能力,提高爬虫的性能。并搭建了搜索引擎的网络环境,选择Heritrix爬虫作为网络爬虫框架,对在爬虫中加入散列算法进行测试。实验结果证明,在加入散列算法之后的网络爬虫,搜索效率提高,抓取速度得到明显的提升。针对搜索引擎反馈信息主题相关度低下的问题,从网络爬虫入手,提高网络爬虫捕获到页面的主题相关度。考虑向爬虫中加入具备相关度判别的遗传算法,将特定主题类型的内容抓取下来,与主题无关的内容忽略,便可以提高查找的准确率。策略的基本思想是结合遗传算法和基于内容的空间向量模型,以遗传算法的全局查优特点保证爬行的整体性,以网页之间的相互关系来确定网页的重要程度,以空间向量模型来确定与主题的相关度。对网络爬虫进行改造后,采用固定关键字对其测试,与改善之前进行比较,抓取到的总页面数和与主题相关的页面数都有提升,而且主题页面所占比例提高了约30%,提高了系统查找信息的准确率。
|
全文目录
目录 5-6 摘要 6-7 ABSTRACT 7-8 第1章 绪论 8-14 1.1 研究背景 8-9 1.2 研究现状 9-13 1.3 论文主要工作 13-14 第2章 系统平台搭建 14-25 2.1 平台环境搭建 14-15 2.2 整体框架 15-16 2.3 网页抓取模块 16-19 2.4 原始网页的预处理 19-20 2.5 建立索引模型 20-22 2.6 查询服务 22-25 第3章 基于散列算法的网络爬虫实现 25-38 3.1 问题描述 25-26 3.2 Heritrix 机理分析 26-30 3.2.1 体系架构 26-27 3.2.2 Heritrix 爬虫的 URL 队列 27-30 3.3 散列算法在爬虫中应用 30-33 3.3.1 字符串散列函数 30-32 3.3.2 散列函数的应用 32-33 3.4 测试分析 33-38 3.4.1 测试环境 33-34 3.4.2 实验结果与分析 34-38 第4章 基于遗传算法的主题爬虫实现 38-52 4.1 问题描述 38-39 4.2 基于遗传算法的主题爬虫设计 39-42 4.2.1 算法原理 39-40 4.2.2 主题爬虫的设计 40-42 4.3 向量空间模型 42-45 4.3.1 网页主题确立 42-43 4.3.2 模型元素 43 4.3.3 特征权重计算 43-44 4.3.4 文本相似度计算 44-45 4.4 Heritrix 主题爬虫实现 45-47 4.5 测试分析 47-52 4.5.1 测试环境 47-48 4.5.2 实验结果与分析 48-52 第5章 总结与展望 52-54 参考文献 54-57 致谢 57
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 网络搜索引擎的相关技术研究,G354
- 基于遗传算法的淠史杭灌区渠系配水优化编组模型的研究,S274
- 遗传算法在物流仓储优化中的应用研究,F259.2
- 基于遗传算法的矿山资源优化调度模型的研究,O224
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 机械臂轨迹规划研究,TP242
- 基于遗传算法的前馈神经网络优化研究,TP183
- 基于油耗的城市交通信号分层递阶控制的优化研究,U491.51
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|