学位论文 > 优秀研究生学位论文题录展示
Web结构挖掘中Hits算法研究与改进
作 者: 杨锦钰
导 师: 高世臣
学 校: 中国地质大学(北京)
专 业: 应用数学
关键词: HITS算法 链接分析 相关度 流行度
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 190次
引 用: 0次
阅 读: 论文下载
内容摘要
网页的高速和无序增长,使整个互联网的信息资源缺乏有效的组织和结构。传统的搜索引擎为用户检索Web信息提供了强有力的工具,但是随着互联网的高速发展,它们越来越难以满足用户的检索需要。本文首先分析了互联网对信息检索技术提出的挑战,分析了传统搜索引擎的优缺点,并介绍了传统搜索引擎采用的基于Web结构挖掘的几种基本技术。基于Web结构分析的方法从Web的组织结构和链接关系中推导知识。本论文系统的介绍了基于结构分析的Web信息检索技术的发展,重点介绍了HITS算法及对它的分析和改进。HITS算法是基于查询主题的重要的链接分析方法之一,但它对链接不加区分,容易产生主题漂移现象。本论文在分析HITS算法的基础上,提出了基于主题相关度和网页流行度的改进HITS算法,利用相关度和流行度来区分链接的重要性。通过与HITS算法的对比实验,结果表明:改进的HITS算法比原始的HITS算法、ARC算法、SALSA算法能找到更多的相关网页,相关度比例提高30%-50%,从而极大地减少了主题漂移现象,提高了查询效率和质量。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第一章 前言 9-13 1.1 研究背景 9-10 1.2 Web 数据挖掘过程及分类 10-11 1.3 本文的主要工作 11-13 第二章 Web 数据挖掘简介 13-24 2.1 Web 数据挖掘的起源和定义 13-14 2.1.1 Web 数据挖掘的起源 13-14 2.1.2 Web 数据挖掘的定义 14 2.2 Web 挖掘分类 14-18 2.2.1 Web 内容挖掘 14-15 2.2.2 Web 使用挖掘 15-17 2.2.3 Web 结构挖掘 17-18 2.3 Web 挖掘特点与难点 18-23 2.3.1 Web 挖掘特点 18-20 2.3.2 Web 挖掘难点 20-23 2.4 Web 挖掘的发展方向 23-24 第三章 Web 结构挖掘算法分析 24-37 3.1 结构挖掘的理论基础 24-26 3.2 传统的结构挖掘算法分析 26-34 3.2.1 Page Rank 算法 26-29 3.2.2 HITS 算法 29-33 3.2.3 ARC 算法 33-34 3.2.4 SALSA 算法 34 3.3 Page Rank 与 HITS 算法比较 34-37 3.3.1 HITS 算法优点 34-35 3.3.2 HITS 算法缺点 35-37 第四章 改进HITS 算法 37-41 4.1 网页与查询主题相关度 37 4.2 网页流行度 37-39 4.3 改进HITS 算法描述 39-41 第五章 改进HITS 算法测试结论 41-46 5.1 评价方法 41-43 5.2 实验说明 43-44 5.3 评价 44-46 第六章 总结和展望 46-49 6.1 总结 46-47 6.2 展望 47-49 参考文献 49-51 致谢 51
|
相似论文
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 北魏鲜卑族服饰研究,J523.5
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于链接结构分析的Web页面排序算法,TP393.092
- P2P环境下基于信任的访问控制研究,TP393.08
- 基于贝叶斯理论的网络流量分类研究,TP393.06
- Deep Web数据库的选择研究,TP311.13
- 全景式搜索引擎关键技术研究与实现,TP391.3
- 基于网络计量的211高校图书馆网站链接及流量分析研究,G250.7
- 金融领域的博客信息采集与排序算法研究,TP393.092
- 个性化搜索中用户语义意图自动识别技术研究,TP391.1
- 万维网的小世界效应探讨,O157.5
- 基于潜在语义分析的单文本自动摘要方法研究,TP391.1
- 大学英语学习风格与教学偏好之关系对学习成绩的影响,H319
- 稳定的Boosting类神经网络新算法研究,TP183
- 基于网页结构的Web信息提取系统的设计与实现,TP393.09
- 基于搜索算法的Web安全,TP393.08
- 基于网页分块的Web社区识别,TP393.092
- 基于领域本体的Web语义信息检索研究,TP391.3
- 基于本体的语义相关度算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|