学位论文 > 优秀研究生学位论文题录展示
基于PageRank算法的中文垂直搜索引擎的研究与应用
作 者: 杨晨
导 师: 延波; 孙勇
学 校: 电子科技大学
专 业: 软件工程
关键词: 垂直搜索 PageRank 排序算法 网页去重 用户反馈
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息时代的到来,互联网上的信息越来越多,人们获取信息越来越困难,搜索引擎成为人们寻找信息的工具。网民使用通用搜索引擎搜索时,往往返回数以百万计的结果,用户想要找到自己需要的信息非常困难,针对某一领域的垂直搜索引擎能够解决这个问题。首先,本文对垂直搜索引擎的架构以及关键技术进行研究,然后针对垂直搜索引擎的数据预处理技术和排序算法进行了详细研究。数据处理技术主要有两种技术构成,它们分别是网页预处理技术和相似网页去除技术。文章首先对网页预处理模型进行介绍,然后分析这种预处理模型中出现的问题,然后对出现的问题提出改进方案,改进方案是在模型中加入位置影响因子和对搜索词进行同义词扩展。接着,介绍了目前存在的经典的网页去重算法,然后针对这些算法的缺点,本文提出了一种适合中文农业垂直搜索引擎的基于单MD5和双MD5结合的分段数字签名去重算法。本文还对搜索引擎用户对搜索结果排序不满意的问题进行了研究,文章首先对目前存在的经典的排序算法进行了研究并分析它们的优缺点。然后针对这些算法的问题,本文提出了一个基于PageRank算法的综合排序算法,这种算法首先对PageRank算法进行改进,加入数据库影响因子和时间反馈因子,然后在算法中加入Lucene得分排序因子,用户反馈因子和网站等级排序因子,这种算法能够满足农业垂直搜索引擎的需求。文章的最后,针对论文的工作实现了中文农业垂直搜索引擎,通过实验前面算法的在召回率,准确性和响应时间能够满足中文主题搜索引擎的需求。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-16 1.1 课题背景与研究意义 10 1.2 搜索引擎的发展现状 10-11 1.2.1 通用搜索引擎的发展现状 10-11 1.2.2 垂直搜索引擎概述 11 1.3 搜索引擎基本原理 11-12 1.3.1 网络蜘蛛 12 1.3.2 索引模块 12 1.3.3 搜索模块 12 1.4 搜索引擎的现有模型 12-13 1.5 搜索引擎的评价原则与发展方向 13-14 1.5.1 评价原则 13-14 1.5.2 搜索引擎的发展方向 14 1.6 本章小结及论文的组织 14-16 1.6.1 本章小结 14 1.6.2 论文的组织结构 14-16 第二章 垂直搜索引擎的基本原理 16-27 2.1 信息采集技术 17-19 2.1.1 网络蜘蛛 18 2.1.2 网络蜘蛛的实现原理 18-19 2.2 资源分析预处理技术 19-20 2.2.1 PDF 文档分析 19 2.2.2 Html 文档分析 19-20 2.3 分词预处理技术 20-23 2.3.1 文档内容分析过程 20-21 2.3.2 文档内容分析过程 21-23 2.4 索引与检索技术 23-26 2.4.1 索引的基本结构 23-24 2.4.2 索引器的实现 24-25 2.4.3 检索器的实现 25-26 2.5 本章小结 26-27 第三章 网页预处理及消重算法的研究 27-42 3.1 网页预处理方法研究 27-32 3.1.1 网页的表示模型 27-29 3.1.2 网页内容的提取 29-30 3.1.3 中文分词及去除停用词 30 3.1.4 改进模型 30-32 3.3 网页去重算法研究与改进 32-41 3.3.1 基于网址的网页消重算法 32-33 3.3.2 基于聚类的网页去重算法 33 3.3.3 基于模板消噪的去重算法 33-34 3.3.4 基于关键词匹配和向量空间结合的网页消重算法 34-36 3.3.5 基于分段签名的数字消重算法 36-38 3.3.6 改进的基于 MD5 数字分段签名的数据消重算法 38-41 3.4 本章小结 41-42 第四章 排序算法的研究 42-53 4.1 LUCENE 排序算法 42-44 4.1.1 Lucene 内部自带排序算法描述 42-43 4.1.2 Lucene 基础排序算法分析 43-44 4.2 谷歌核心算法 PAGERANK 排序算法分析 44-46 4.2.1 谷歌核心算法 PageRank 算法的描述 44-46 4.2.2 PageRank 算法分析 46 4.3 PAGERANK 改进算法分析 46-48 4.3.1 基于时间反馈的 PageRank 排序算法 46-47 4.3.2 基于主题相似度模型的 TS-PageRank 算法 47-48 4.3.3 MP-PageRank 改进算法 48 4.4 基于 PAGERANK 算法的综合排序算法 48-52 4.4.1 PageRank 算法的修正 48-51 4.4.2 基于 PageRank 排序算法的综合算法 51-52 4.5 本章小结 52-53 第五章 垂直搜索引擎的设计与实现 53-66 5.1 系统总体设计 53-54 5.2 垂直搜索引擎网络爬虫模块的设计与实现 54-56 5.3 数据处理模块的设计与实现 56-60 5.3.1 网页解析模块 56-57 5.3.2 中文分词模块 57-59 5.3.3 网页去重模块 59-60 5.4 索引模块的设计与实现 60-61 5.5 搜索模块的设计与实现 61-64 5.6 系统测试 64-65 5.7 本章小结 65-66 第六章 结论 66-68 6.1 本文的主要工作及创新点 66 6.2 存在的不足 66-67 6.3 工作展望 67-68 致谢 68-69 参考文献 69-71
|
相似论文
- 网络论坛舆情监控系统的研究及设计,G206
- 基于微博社交网络的舆情分析模型及实现,TP311.52
- 移动互联网环境下无线垂直搜索引擎的研究与实现,TP391.3
- 基于互联网的人脸图像搜索,TP391.41
- 基于Lucene的电影票垂直搜索系统的设计与实现,TP391.3
- 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 学术网络重名排岐算法研究,TP301.6
- 主题搜索引擎关键技术研究,TP391.3
- 公众论坛信息实时检索的研究与实现,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于链接结构分析的Web页面排序算法,TP393.092
- Web结构挖掘研究,TP393.09
- 基于规则引擎的个性化网页爬虫研究,TP391.3
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 搜索引擎主题相关性研究,TP391.3
- 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 搜索引擎中网页净化与消重技术研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|