学位论文 > 优秀研究生学位论文题录展示

基于链接相似性分析的WEB结构挖掘方法研究

作　者: 张勇实
导　师: 张健沛
学　校: 哈尔滨工程大学
专　业: 计算机应用技术
关键词: WEB挖掘相似性分析链接预测 SPAM页面识别结构挖掘聚类技术
分类号: TP393.092
类　型: 博士论文
年　份: 2012年
下　载: 68次
引　用: 0次
阅　读: 论文下载

内容摘要

WEB服务和应用近年来得到了飞速发展，其信息量呈几何级数增长，每天都有数以百万计的网页加入到WEB中。它已经成为了一个涉及教育、政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。WEB网页它们之间相互链接，盘根错节，组织成了一个类似于人类社会的网络，结合链接相似性分析方法，将对WEB资源挖掘进行研究，帮助人们高效的获取所需信息，寻找所需领域的权威信息。本文针对WEB结构挖掘中的四个问题进行研究：WEB页面链接预测算法、垃圾页面（SPAM）识别算法、WEB结构挖掘算法以及WEB页面聚类算法。首先，提出了基于相似性的多路径游走链接预测算法。1）提出新的衰减因子，通过使用新的衰减因子定义出新的相似度公式；2）改进Rubin算法，与新的相似度公式相结合进行相似度计算，得出节点的相似度；3）对节点相似度排序，从而进行预测可能性判断，得出预测结果。4）最后通过实验对算法进行了验证。其次，提出了页面互相链接相似度的概念，然后给出了一个Spam页面链接结构的假设，并且提出了一种基于页面互链接相似度聚类的Spam页面识别算法，该算法考虑了网页之间会出现的彼此互相连接的关系，因此更加合理；并通过实验分析，验证了所提假设，并实验验证了算法的有效性。再次，针对PageRank算法其存在的“主题漂移”和偏重旧网页现象，提出了一种基于相似度和时间反馈因子的改进PageRank算法。第一步，利用向量空间模型VSM来计算链接文本和其指向网页之间的相似度；第二步，根据网页产生时间，设计一个时间反馈因子，削弱旧网页的网页等级值，提高新网页的网页等级值；第三步，将相似度值和时间反馈因子融入到PageRank算法计算网页等级值中，根据算法流程计算改进后网页的PageRank值。最后通过实验对算法的性能进行了分析。第四，研究国内外已有的基于局部信息的启发式聚类方法研究现状，然后进行总结分析；并详细研究基于局部信息的标签传播方法，分析该算法在迭代过程中，采用随机策略为某个节点选择所属的簇结构时所存在的问题；随后提出了一种针对随机策略选择簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法；最后，为了帮助高效的发现互联网的分组信息资源，通过实验对该算法的有效性和性能进行了验证，并将其在实际的网页聚类中进行了应用。本文最后得出结论，并对未来工作进行了展望。

全文目录

摘要  5-7
ABSTRACT  7-9
目录  9-12
第1章绪论  12-33
  1.1 研究背景和意义  12
  1.2 研究现状  12-30
    1.2.1 链接预测技术  13-17
    1.2.2 搜索引擎作弊检测技术  17-21
    1.2.3 WEB 数据挖掘技术  21-23
    1.2.4 WEB 聚类方法  23-30
  1.3 本文的研究内容  30-31
  1.4 本文的组织结构  31-33
第2章基于相似性的多路径游走链接预测算法  33-53
  2.1 基于相似性的链接预测研究现状  33-37
    2.1.1 基于局部信息的相似性指数  34-35
    2.1.2 基于路径的相似性指数  35-36
    2.1.3 基于随机游走的相似性指数  36-37
  2.2 Web 网络模型及结构特征  37-40
    2.2.1 Web 网络模型  37-38
    2.2.2 主要结构特征  38-40
  2.3 基于相似性的多路径游走链接预测算法  40-43
    2.3.1 相似度计算方法  40-42
    2.3.2 MW 算法过程描述及实现  42-43
    2.3.3 MW 算法分析  43
  2.4 实验分析  43-51
    2.4.1 实验数据集  44-45
    2.4.2 实验内容及方案  45
    2.4.3 实验结果及分析  45-51
  2.5 本章小结  51-53
第3章基于页面互链接相似度聚类的 Spam 页面识别算法  53-69
  3.1 链接作弊检测技术研究现状  53-57
  3.2 基于链接结构的 Spam 页面过滤算法及其优缺点分析  57-59
    3.2.1 基于链接结构的 Spam 页面过滤算法描述  58
    3.2.2 算法优缺点分析  58-59
  3.3 基于页面互链接相似度聚类的 Spam 页面识别算法  59-63
    3.3.1 LSCB-SR 算法思想  59-60
    3.3.2 基于页面互相链接的相似度  60-62
    3.3.3 LSCB-SR 算法描述  62-63
  3.4 实验分析  63-68
    3.4.1 实验设置  63-64
    3.4.2 实例分析  64-68
  3.5 本章小结  68-69
第4章基于链接文本相似度的 PageRank 算法研究  69-82
  4.1 PageRank 算法及其扩展算法  69-73
    4.1.1 PageRank 算法  69-71
    4.1.2 TH-PageRank 算法  71
    4.1.3 MP-PageRank 算法  71-72
    4.1.4 HillTop 算法  72-73
  4.2 基于链接文本相似度的改进 PageRank 算法  73-76
    4.2.1 链接文本  73-74
    4.2.2 相似度计算  74
    4.2.3 时间反馈  74-75
    4.2.4 算法描述  75
    4.2.5 PageRank 值计算  75-76
  4.3 实验与分析  76-80
    4.3.1 实验数据来源  76-77
    4.3.2 数据处理  77
    4.3.3 结果分析  77-80
  4.4 本章小结  80-82
第5章基于节点属性标签传播算法的网页聚类技术研究  82-105
  5.1 标签传播算法研究现状  83-84
  5.2 LPA 算法及改进的 LPA-SNA 算法  84-90
    5.2.1 LPA 算法基本思想  84
    5.2.2 LPA 算法过程描述  84-86
    5.2.3 问题描述  86-87
    5.2.4 节点属性相似度  87-89
    5.2.5 LPA-SNA 算法过程描述  89-90
  5.3 LPA-SNA 算法实现及分析  90-94
    5.3.1 LPA-SNA 算法实现  90-92
    5.3.2 LPA-SNA 算法分析  92-94
  5.4 簇结构的定量化描述——模块度函数 Q  94-95
  5.5 实验分析  95-104
    5.5.1 对比分析  95-102
    5.5.2 实例分析  102-104
  5.6 本章小结  104-105
结论  105-107
参考文献  107-116
攻读博士学位期间发表的论文和取得的科研成果  116-117
致谢  117

基于链接相似性分析的WEB结构挖掘方法研究

内容摘要

全文目录

相似论文