学位论文 > 优秀研究生学位论文题录展示
搜索引擎中大型网站的网页更新策略研究
作 者: 易显
导 师: 欧阳柳波;刘金朝
学 校: 湖南大学
专 业: 软件工程
关键词: 大型网站 搜索引擎 网页更新 用户体验
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 80次
引 用: 0次
阅 读: 论文下载
内容摘要
在互联网飞速发展的今天,网络逐渐成为人们获取信息的一个不可或缺的途径,因此基于Internet信息检索的搜索引擎应运而生并蓬勃发展起来。但是随着网页数量的爆炸式增长,网页内容时常变化,导致搜索引擎无法及时跟踪网页本身的内容变化情况。加上搜索引擎又受存储容量、服务器能力等硬件资源的限制,目前的搜索引擎普遍存在索引库更新不及时,查询结果质量不高等问题。如何在这些客观条件的制约下,设计一种高性能高效率的网页更新策略,使得搜索引擎抓取更高质量的网页,提高网页库的新鲜度,已成为搜索引擎迫切需要解决的问题。大型网站是Web的信息核心,也是搜索引擎的主要信息来源,对大型网站网页处理的好坏直接影响搜索引擎的整体性能。因此本文试图通过对大型网站网页的高效更新来提高搜索引擎索引库的更新度。本文在对搜索引擎网页更新策略进行相关研究的基础上,深入地分析比较了现有的三大类网页更新策略,确定了对大型网站的网页进行分类更新的必要性。本文针对大型网站的网页特征,综合考虑网页时新性、重要性及对Web服务器的友好性等因素,设计了一种面向用户体验的分类网页更新策略。此方法以大型网站网页的变化历史为基础来评估其改变频率,将网页分成速变、多变及少变三类,然后基于用户行为分析确定不同类别网页的更新速度和更新时间段,从而实现网页更新。最后利用Lucene工具包设计并实现了一个分类网页更新系统,对新浪和搜狐这两个知名大型站点若干网页进行实验采样分析。实验结果表明这种策略很大程度上提高了搜索引擎中大型网站网页更新的效率,缓解了Web服务器的压力,并可保证用户对于检索结果的及时性和正确性。
|
全文目录
摘要 5-6 Abstract 6-9 插图索引 9-10 附表索引 10-11 第1章 绪论 11-16 1.1 课题研究背景 11-13 1.2 国内外研究现状 13-14 1.3 本文的研究内容 14-15 1.4 本文组织结构 15-16 第2章 搜索引擎网页更新策略 16-32 2.1 搜索引擎概述 16-22 2.1.1 搜索引擎发展历史及趋势 16-18 2.1.2 搜索引擎工作原理 18-19 2.1.3 搜索引擎组织结构 19-21 2.1.4 搜索引擎评价指标 21-22 2.2 网页更新策略相关研究 22-30 2.2.1 网页库时新性和年龄 22-24 2.2.2 网页变化 24-27 2.2.3 网页的重要性 27-28 2.2.4 对Web 服务器的压力 28-29 2.2.5 网页更新频率 29 2.2.6 网页更新时间点 29-30 2.3 网页更新策略比较 30-31 2.4 本章小结 31-32 第3章 大型网站网页更新策略 32-41 3.1 大型网站的特点 32-33 3.2 大型网站分类更新策略 33-36 3.2.1 子网站的划分 33-35 3.2.2 获取子网站网页变化频率 35-36 3.2.3 子网站的分类 36 3.3 分类更新策略 36-38 3.3.1 用户行为分析 37 3.3.2 面向用户体验的分类更新策略 37-38 3.4 网页更新的工作流程分析 38-40 3.4.1 抓取网页信息 38-39 3.4.2 分析网页内容 39 3.4.3 建立索引及存储 39-40 3.5 本章小结 40-41 第4章 分类网页更新系统结构分析和设计 41-49 4.1 Lucene 概述 41-44 4.1.1 Lucene 简介 41-43 4.1.2 本文用到的Lucene 技术 43-44 4.2 系统总体设计 44-46 4.2.1 系统处理过程 45 4.2.2 系统设计图 45-46 4.3 系统详细设计 46-48 4.3.1 抓取调度模块 46-47 4.3.2 网页抓取模块 47 4.3.3 文本分析模块 47-48 4.3.4 索引模块 48 4.4 本章小结 48-49 第5章 分类网页更新系统的实现 49-61 5.1 开发环境 49 5.2 网页抓取模块的实现 49-51 5.3 文本分析模块的实现 51-55 5.3.1 文档解析的实现 51-53 5.3.2 中文分词的实现 53-55 5.4 建立索引库 55-56 5.5 相关数据表 56-57 5.6 测试和性能分析 57-60 5.7 本章小结 60-61 结论 61-63 参考文献 63-67 致谢 67-68 附录A 攻读学位期间主要成果 68
|
相似论文
- 基于用户体验的灯具设计策略研究,TS956
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 一个试卷生成系统的设计与实现,TP311.52
- 基于智能客户端的超市收银软件系统设计,TP311.52
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|