学位论文 > 优秀研究生学位论文题录展示

基于链接相似性分析的WEB结构挖掘方法研究

作 者: 张勇实
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: WEB挖掘 相似性分析 链接预测 SPAM页面识别 结构挖掘 聚类技术
分类号: TP393.092
类 型: 博士论文
年 份: 2012年
下 载: 68次
引 用: 0次
阅 读: 论文下载
 

内容摘要


WEB服务和应用近年来得到了飞速发展,其信息量呈几何级数增长,每天都有数以百万计的网页加入到WEB中。它已经成为了一个涉及教育、政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。WEB网页它们之间相互链接,盘根错节,组织成了一个类似于人类社会的网络,结合链接相似性分析方法,将对WEB资源挖掘进行研究,帮助人们高效的获取所需信息,寻找所需领域的权威信息。本文针对WEB结构挖掘中的四个问题进行研究:WEB页面链接预测算法、垃圾页面(SPAM)识别算法、WEB结构挖掘算法以及WEB页面聚类算法。首先,提出了基于相似性的多路径游走链接预测算法。1)提出新的衰减因子,通过使用新的衰减因子定义出新的相似度公式;2)改进Rubin算法,与新的相似度公式相结合进行相似度计算,得出节点的相似度;3)对节点相似度排序,从而进行预测可能性判断,得出预测结果。4)最后通过实验对算法进行了验证。其次,提出了页面互相链接相似度的概念,然后给出了一个Spam页面链接结构的假设,并且提出了一种基于页面互链接相似度聚类的Spam页面识别算法,该算法考虑了网页之间会出现的彼此互相连接的关系,因此更加合理;并通过实验分析,验证了所提假设,并实验验证了算法的有效性。再次,针对PageRank算法其存在的“主题漂移”和偏重旧网页现象,提出了一种基于相似度和时间反馈因子的改进PageRank算法。第一步,利用向量空间模型VSM来计算链接文本和其指向网页之间的相似度;第二步,根据网页产生时间,设计一个时间反馈因子,削弱旧网页的网页等级值,提高新网页的网页等级值;第三步,将相似度值和时间反馈因子融入到PageRank算法计算网页等级值中,根据算法流程计算改进后网页的PageRank值。最后通过实验对算法的性能进行了分析。第四,研究国内外已有的基于局部信息的启发式聚类方法研究现状,然后进行总结分析;并详细研究基于局部信息的标签传播方法,分析该算法在迭代过程中,采用随机策略为某个节点选择所属的簇结构时所存在的问题;随后提出了一种针对随机策略选择簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法;最后,为了帮助高效的发现互联网的分组信息资源,通过实验对该算法的有效性和性能进行了验证,并将其在实际的网页聚类中进行了应用。本文最后得出结论,并对未来工作进行了展望。

全文目录


摘要  5-7
ABSTRACT  7-9
目录  9-12
第1章 绪论  12-33
  1.1 研究背景和意义  12
  1.2 研究现状  12-30
    1.2.1 链接预测技术  13-17
    1.2.2 搜索引擎作弊检测技术  17-21
    1.2.3 WEB 数据挖掘技术  21-23
    1.2.4 WEB 聚类方法  23-30
  1.3 本文的研究内容  30-31
  1.4 本文的组织结构  31-33
第2章 基于相似性的多路径游走链接预测算法  33-53
  2.1 基于相似性的链接预测研究现状  33-37
    2.1.1 基于局部信息的相似性指数  34-35
    2.1.2 基于路径的相似性指数  35-36
    2.1.3 基于随机游走的相似性指数  36-37
  2.2 Web 网络模型及结构特征  37-40
    2.2.1 Web 网络模型  37-38
    2.2.2 主要结构特征  38-40
  2.3 基于相似性的多路径游走链接预测算法  40-43
    2.3.1 相似度计算方法  40-42
    2.3.2 MW 算法过程描述及实现  42-43
    2.3.3 MW 算法分析  43
  2.4 实验分析  43-51
    2.4.1 实验数据集  44-45
    2.4.2 实验内容及方案  45
    2.4.3 实验结果及分析  45-51
  2.5 本章小结  51-53
第3章 基于页面互链接相似度聚类的 Spam 页面识别算法  53-69
  3.1 链接作弊检测技术研究现状  53-57
  3.2 基于链接结构的 Spam 页面过滤算法及其优缺点分析  57-59
    3.2.1 基于链接结构的 Spam 页面过滤算法描述  58
    3.2.2 算法优缺点分析  58-59
  3.3 基于页面互链接相似度聚类的 Spam 页面识别算法  59-63
    3.3.1 LSCB-SR 算法思想  59-60
    3.3.2 基于页面互相链接的相似度  60-62
    3.3.3 LSCB-SR 算法描述  62-63
  3.4 实验分析  63-68
    3.4.1 实验设置  63-64
    3.4.2 实例分析  64-68
  3.5 本章小结  68-69
第4章 基于链接文本相似度的 PageRank 算法研究  69-82
  4.1 PageRank 算法及其扩展算法  69-73
    4.1.1 PageRank 算法  69-71
    4.1.2 TH-PageRank 算法  71
    4.1.3 MP-PageRank 算法  71-72
    4.1.4 HillTop 算法  72-73
  4.2 基于链接文本相似度的改进 PageRank 算法  73-76
    4.2.1 链接文本  73-74
    4.2.2 相似度计算  74
    4.2.3 时间反馈  74-75
    4.2.4 算法描述  75
    4.2.5 PageRank 值计算  75-76
  4.3 实验与分析  76-80
    4.3.1 实验数据来源  76-77
    4.3.2 数据处理  77
    4.3.3 结果分析  77-80
  4.4 本章小结  80-82
第5章 基于节点属性标签传播算法的网页聚类技术研究  82-105
  5.1 标签传播算法研究现状  83-84
  5.2 LPA 算法及改进的 LPA-SNA 算法  84-90
    5.2.1 LPA 算法基本思想  84
    5.2.2 LPA 算法过程描述  84-86
    5.2.3 问题描述  86-87
    5.2.4 节点属性相似度  87-89
    5.2.5 LPA-SNA 算法过程描述  89-90
  5.3 LPA-SNA 算法实现及分析  90-94
    5.3.1 LPA-SNA 算法实现  90-92
    5.3.2 LPA-SNA 算法分析  92-94
  5.4 簇结构的定量化描述——模块度函数 Q  94-95
  5.5 实验分析  95-104
    5.5.1 对比分析  95-102
    5.5.2 实例分析  102-104
  5.6 本章小结  104-105
结论  105-107
参考文献  107-116
攻读博士学位期间发表的论文和取得的科研成果  116-117
致谢  117

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 平顶山烤烟综合质量评价及与美国烤烟的对比分析,S572
  4. 面向实时监控应用的事件流相似性分析技术的研究,TP311.13
  5. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  6. 公开信息搜集方法研究与实现,TP311.13
  7. 基于链接重要性的动态链接预测算法研究,TP393.03
  8. 面向Web社会网络的分析工具,TP393.09
  9. 聚类技术在网络入侵检测中的研究与应用,TP393.08
  10. Web结构挖掘研究,TP393.09
  11. 一种基于氨基酸物理化学性质上的DNA序列图形表示及相似性分析,Q75
  12. 基于事务信息的链接预测方法研究,TP393.092
  13. 聚类分析技术在中国移动客户消费模式中的应用研究,TP311.13
  14. 一种新的Web结构挖掘算法的研究,TP311.13
  15. 主题搜索与Web挖掘的研究及系统实现,TP391.3
  16. 基于云平台在线Web挖掘中计算资源动态平衡的研究与实现,TP311.13
  17. 基于矩阵的多特征链接预测方法研究,TP311.13
  18. 基于用户行为的面向领域搜索引擎研究,TP391.3
  19. 基于云计算的Web结构挖掘算法研究,TP311.13
  20. 概念格剪枝方法研究及其在Web挖掘中的应用,TP311.13
  21. 基于CURE聚类的汉语自主学习资源的分组算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com