学位论文 > 优秀研究生学位论文题录展示
搜索引擎中网页排序算法的研究与实现
作 者: 汪永伟
导 师: 张文燚
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 排序算法 词频位置加权算法 搜索引擎 向量模型
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 183次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,互联网上的文档(网页)的增长速度也非常之快。根据有关资料显示,互联网上的资源在每一年的时间内就会增加一倍之多。搜索引擎就是在这样的大背景下应运而生的,它有助于用户在大量的信息资源库里获取信息。因此搜索引擎成为了人们搜集信息资源的一个重要手段。用户在依靠搜索引擎能够提供丰富的信息资源的同时,也对搜索引擎提供的服务质量有了更高的要求。返回结果直接影响到一个搜索引擎的效率和受欢迎程度。返回结果的核心技术之一就是网页排序技术。搜索引擎技术在最近几年发展很快,最具代表性的就是Google公司,它的迅猛发展也激起了其他同行们的研究热情,然而利用搜索引擎返回的查询结果的数量有时也相当之大,用户不可能把所有摘要都浏览一遍。一些数据统计表明,返回结果列表的前三页是用户最常浏览的,当然,浏览第一页的次数是最高的,因此一个搜索引擎的优劣与返回结果的合理与否有着密切的关系。所以人们对网页排序算法的研究在逐渐的深入。本文首先介绍了搜索引擎的工作原理以及发展过程。主要研究了各大知名搜索引擎的排序算法,分析其影响排序结果的因素。比较各排序算法的优缺点和适合使用该算法的情况。PageRank算法和Hits算法以及词频位置加权算法是研究的重点。针对向量模型现有的不足做了改进,主要是利用文档主题词和查询词之间的向量夹角余弦值,改进后的模型,虽然增加了一些运算量,但能够更精确的计算文档与查询词之间的相似度。本文针对词频位置加权算法的缺点,分析了其产生这种缺点的原因。以该算法的思想为核心,结合逆文本频率指数以及改进后的向量模型,设计出文档权值计算公式。该公式计算过程与查询词有效的结合在一起。经过系统实现和测评,证明该算法易实现,而且排序结果更准确、效率更高。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-16 1.1 课题研究背景 11-12 1.2 国内外发展现状 12-14 1.3 本文主要工作 14 1.4 论文研究内容及结构 14-16 第2章 搜索引擎介绍 16-25 2.1 搜索引擎简介 16-17 2.2 搜索引擎发展过程 17-18 2.3 搜索引擎类别 18-20 2.4 搜索引擎基本构成 20-22 2.5 搜索引擎效率指标 22 2.6 搜索引擎技术研究方向 22-24 2.7 本章小结 24-25 第3章 经典排序算法研究 25-39 3.1 排序方法 25-38 3.1.1 Pagerank 算法 26-28 3.1.2 HITS 算法 28-29 3.1.3 两种链接分析算法的比较 29-31 3.1.4 HILLTOP 算法 31-32 3.1.5 SALSA 算法 32 3.1.6 Alexa 的网站排名算法 32-34 3.1.7 Direct Hit 算法 34-35 3.1.8 Lucene 文档排序算法 35-36 3.1.9 词频位置加权排序计算方法 36-38 3.2 本章小结 38-39 第4章 利用词频位置加权算法实现网页排序 39-58 4.1 中文分词技术 39-40 4.2 信息检索 40-45 4.2.1 概率模型 41-42 4.2.2 布尔模型 42-43 4.2.3 向量模型 43-44 4.2.4 查准率和查全率 44-45 4.3 逆文本频率指数的应用 45-47 4.4 向量模型的改进与应用 47-51 4.5 系统设计与实现 51-57 4.5.1 爬取网页 52-53 4.5.2 文档处理 53 4.5.3 建立文档索引 53-55 4.5.4 文档权值计算 55-56 4.5.5 查询处理 56-57 4.5.6 返回列表 57 4.6 本章小结 57-58 第5章 结果与分析 58-63 5.1 系统实现环境 58 5.2 改进算法测评 58-59 5.3 改进后向量模型测评 59 5.4 OTIC 属性曲线 59-60 5.5 查询处理 60-62 5.6 本章小结 62-63 结论 63-64 参考文献 64-67 攻读硕士学位期间发表的论文和取得的科研成果 67-68 致谢 68
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 抄袭C源代码可视化智能检测方法与实现,TP274
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 基于链接结构分析的Web页面排序算法,TP393.092
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|