学位论文 > 优秀研究生学位论文题录展示

Web结构挖掘中Hits算法研究与改进

作 者: 杨锦钰
导 师: 高世臣
学 校: 中国地质大学(北京)
专 业: 应用数学
关键词: HITS算法 链接分析 相关度 流行度
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 190次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网页的高速和无序增长,使整个互联网的信息资源缺乏有效的组织和结构。传统的搜索引擎为用户检索Web信息提供了强有力的工具,但是随着互联网的高速发展,它们越来越难以满足用户的检索需要。本文首先分析了互联网对信息检索技术提出的挑战,分析了传统搜索引擎的优缺点,并介绍了传统搜索引擎采用的基于Web结构挖掘的几种基本技术。基于Web结构分析的方法从Web的组织结构和链接关系中推导知识。本论文系统的介绍了基于结构分析的Web信息检索技术的发展,重点介绍了HITS算法及对它的分析和改进。HITS算法是基于查询主题的重要的链接分析方法之一,但它对链接不加区分,容易产生主题漂移现象。本论文在分析HITS算法的基础上,提出了基于主题相关度和网页流行度的改进HITS算法,利用相关度和流行度来区分链接的重要性。通过与HITS算法的对比实验,结果表明:改进的HITS算法比原始的HITS算法、ARC算法、SALSA算法能找到更多的相关网页,相关度比例提高30%-50%,从而极大地减少了主题漂移现象,提高了查询效率和质量。

全文目录


摘要  5-6
ABSTRACT  6-9
第一章 前言  9-13
  1.1 研究背景  9-10
  1.2 Web 数据挖掘过程及分类  10-11
  1.3 本文的主要工作  11-13
第二章 Web 数据挖掘简介  13-24
  2.1 Web 数据挖掘的起源和定义  13-14
    2.1.1 Web 数据挖掘的起源  13-14
    2.1.2 Web 数据挖掘的定义  14
  2.2 Web 挖掘分类  14-18
    2.2.1 Web 内容挖掘  14-15
    2.2.2 Web 使用挖掘  15-17
    2.2.3 Web 结构挖掘  17-18
  2.3 Web 挖掘特点与难点  18-23
    2.3.1 Web 挖掘特点  18-20
    2.3.2 Web 挖掘难点  20-23
  2.4 Web 挖掘的发展方向  23-24
第三章 Web 结构挖掘算法分析  24-37
  3.1 结构挖掘的理论基础  24-26
  3.2 传统的结构挖掘算法分析  26-34
    3.2.1 Page Rank 算法  26-29
    3.2.2 HITS 算法  29-33
    3.2.3 ARC 算法  33-34
    3.2.4 SALSA 算法  34
  3.3 Page Rank 与 HITS 算法比较  34-37
    3.3.1 HITS 算法优点  34-35
    3.3.2 HITS 算法缺点  35-37
第四章 改进HITS 算法  37-41
  4.1 网页与查询主题相关度  37
  4.2 网页流行度  37-39
  4.3 改进HITS 算法描述  39-41
第五章 改进HITS 算法测试结论  41-46
  5.1 评价方法  41-43
  5.2 实验说明  43-44
  5.3 评价  44-46
第六章 总结和展望  46-49
  6.1 总结  46-47
  6.2 展望  47-49
参考文献  49-51
致谢  51

相似论文

  1. 面向教育新闻的主题爬虫设计与实现,TP391.3
  2. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  3. 北魏鲜卑族服饰研究,J523.5
  4. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  5. 基于链接结构分析的Web页面排序算法,TP393.092
  6. P2P环境下基于信任的访问控制研究,TP393.08
  7. 基于贝叶斯理论的网络流量分类研究,TP393.06
  8. Deep Web数据库的选择研究,TP311.13
  9. 全景式搜索引擎关键技术研究与实现,TP391.3
  10. 基于网络计量的211高校图书馆网站链接及流量分析研究,G250.7
  11. 金融领域的博客信息采集与排序算法研究,TP393.092
  12. 个性化搜索中用户语义意图自动识别技术研究,TP391.1
  13. 万维网的小世界效应探讨,O157.5
  14. 基于潜在语义分析的单文本自动摘要方法研究,TP391.1
  15. 大学英语学习风格与教学偏好之关系对学习成绩的影响,H319
  16. 稳定的Boosting类神经网络新算法研究,TP183
  17. 基于网页结构的Web信息提取系统的设计与实现,TP393.09
  18. 基于搜索算法的Web安全,TP393.08
  19. 基于网页分块的Web社区识别,TP393.092
  20. 基于领域本体的Web语义信息检索研究,TP391.3
  21. 基于本体的语义相关度算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com