学位论文 > 优秀研究生学位论文题录展示

基于用户习惯的网页排序算法研究

作 者: 杨楠
导 师: 马海波
学 校: 大连交通大学
专 业: 计算机应用技术
关键词: 搜索引擎 网页排名 PageRank 主题敏感 用户习惯
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在当今信息化的时代,互联网已经成为了人们获得信息的重要途径,搜索引擎的普及运用,使得搜索引擎成为了在互联网上进行全文检索的重要工具。根据对用户使用习惯的调查发现,用户通常只会点击搜索引擎返回最前面的几个网页地址,因此对搜索得到的网页进行排序以及排序结果是否能够满足用户的需求变得至关重要。著名的网页排序算法PageRank算法帮助Google成为了世界上最大的商业搜索引擎公司。PageRank算法利用链接型模型对每一个网页的权重值进行迭代计算,很大程度上提高了对网页权重程度计算上的精确度。在学术领域,与PageRank算法同样著名的HITS算法同样在网页排名算法领域占有一席之地。另外,基于词频位置加权排序算法也是一种十分优秀的网页排序算法,是在学术研究中经常会被用到的算法。虽然上述这些著名的网页排序算法对搜索引擎的发展做出了很大的贡献,但它们分别有各自的不足之处。本文提出了基于用户习惯主题敏感的PageRank算法(BUHP算法)。该算法可有效地解决PageRank算法存在的主题漂移问题,并且可依据不同用户的不同习惯和个性,返回符合该用户习惯的搜索结果,可提高对搜索引擎的满意程度和搜索质量。BUHP算法系统性地提出了用户个性信息的提取方法、数据化方法,并给出了计算公式。本文利用开源项目Lucene和Nutch搭建了一个搜索引擎实验平台,并利用实验平台抓取的网页样本,将BUHP算法应用于网页样本的计算,将计算的结果与传统的PageRank算法计算出的结果进行对比,通过算法原理和实验样本网页排序结果的分析,看出BUHP算法对PageRank算法在满足用户需求上有提高。

全文目录


摘要  5-6
Abstract  6-9
第一章 绪论  9-14
  1.1 课题研究背景和意义  9-10
  1.2 国内外研究现状  10-12
  1.3 论文的研究意义和主要内容  12-14
第二章 经典网页排序算法分析  14-23
  2.1 PageRank算法  14-17
    2.1.1 PageRank算法的基本原理  14-16
    2.1.2 PageRank算法的优点及缺陷  16-17
  2.2 超链接分析主题搜索算法(HITS)  17-21
    2.2.1 算法原理  17-19
    2.2.2 算法计算公式  19
    2.2.3 算法的优点及缺陷  19-21
  2.3 对超链接分析主题搜索算法的改进工作  21-22
    2.3.1 自动资源整合算法(ARC算法)  21
    2.3.2 改进的HITS算法  21-22
  本章小结  22-23
第三章 基于用户习惯算法(BUHP算法)的提出  23-32
  3.1 BUHP算法提出的背景  23-24
  3.2 开放目录项目(ODP)主题划分研究  24-25
  3.3 词频位置的加权网页排序方法(TF-IDF)方法介绍  25-26
    3.3.1 词频位置的加权网页排序方法(TF-IDF)方法原理  25-26
    3.3.2 词频位置的加权网页排序方法(TF-IDF)方法的操作步骤  26
  3.4 文本相似度算法研究  26-27
  3.5 BUHP算法原理  27
  3.6 BUHP算法用户习惯信息的提取  27-29
  3.7 BUHP算法用户信息的数据化  29
  3.8 BUHP算法公式  29-30
  本章小结  30-32
第四章 实验验证BUHP算法  32-50
  4.1 实验平台介绍  32-39
    4.1.1 开源项目介绍  32
    4.1.2 Lucene介绍  32-36
    4.1.3 Nutch介绍  36-39
  4.2 实验平台的搭建  39-41
  4.3 实验数据验证BUHP算法  41-47
    4.3.1 样本网页数据处理  41-44
    4.3.2 用户习惯信息处理  44-46
    4.3.3 BUHP算法计算结果  46-47
  4.4 实验结果分析及实验结论  47-49
  本章小结  49-50
结论  50-52
参考文献  52-55
攻读硕士学位期间发表的学术论文  55-56
致谢  56

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  3. 基于Web的未登录词翻译技术研究,TP391.2
  4. 基于社会网络分析的藏文web链接结构研究,TP393.09
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 基于BP网络的元搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 基于因特网的动态规范词表的系统构建研究,G354
  9. Deep Web接口集成及查询结果排序方法研究,TP274
  10. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  11. 企业搜索引擎营销研究,TP391.3
  12. 主题搜索引擎关键技术研究,TP391.3
  13. 基于搜索引擎网页排序算法研究,TP391.3
  14. 基于链接结构分析的Web页面排序算法,TP393.092
  15. Web结构挖掘研究,TP393.09
  16. 搜索引擎主题相关性研究,TP391.3
  17. 基于点击数据分析的个性化搜索引擎研究,TP391.3
  18. 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
  19. 基于查询扩展的垂直搜索研究,TP391.3
  20. 一种新的Web结构挖掘算法的研究,TP311.13
  21. 基于链接分析的PageRank排序算法的改进研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com