学位论文 > 优秀研究生学位论文题录展示
基于链接相似性分析的WEB结构挖掘方法研究
作 者: 张勇实
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: WEB挖掘 相似性分析 链接预测 SPAM页面识别 结构挖掘 聚类技术
分类号: TP393.092
类 型: 博士论文
年 份: 2012年
下 载: 68次
引 用: 0次
阅 读: 论文下载
内容摘要
WEB服务和应用近年来得到了飞速发展,其信息量呈几何级数增长,每天都有数以百万计的网页加入到WEB中。它已经成为了一个涉及教育、政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。WEB网页它们之间相互链接,盘根错节,组织成了一个类似于人类社会的网络,结合链接相似性分析方法,将对WEB资源挖掘进行研究,帮助人们高效的获取所需信息,寻找所需领域的权威信息。本文针对WEB结构挖掘中的四个问题进行研究:WEB页面链接预测算法、垃圾页面(SPAM)识别算法、WEB结构挖掘算法以及WEB页面聚类算法。首先,提出了基于相似性的多路径游走链接预测算法。1)提出新的衰减因子,通过使用新的衰减因子定义出新的相似度公式;2)改进Rubin算法,与新的相似度公式相结合进行相似度计算,得出节点的相似度;3)对节点相似度排序,从而进行预测可能性判断,得出预测结果。4)最后通过实验对算法进行了验证。其次,提出了页面互相链接相似度的概念,然后给出了一个Spam页面链接结构的假设,并且提出了一种基于页面互链接相似度聚类的Spam页面识别算法,该算法考虑了网页之间会出现的彼此互相连接的关系,因此更加合理;并通过实验分析,验证了所提假设,并实验验证了算法的有效性。再次,针对PageRank算法其存在的“主题漂移”和偏重旧网页现象,提出了一种基于相似度和时间反馈因子的改进PageRank算法。第一步,利用向量空间模型VSM来计算链接文本和其指向网页之间的相似度;第二步,根据网页产生时间,设计一个时间反馈因子,削弱旧网页的网页等级值,提高新网页的网页等级值;第三步,将相似度值和时间反馈因子融入到PageRank算法计算网页等级值中,根据算法流程计算改进后网页的PageRank值。最后通过实验对算法的性能进行了分析。第四,研究国内外已有的基于局部信息的启发式聚类方法研究现状,然后进行总结分析;并详细研究基于局部信息的标签传播方法,分析该算法在迭代过程中,采用随机策略为某个节点选择所属的簇结构时所存在的问题;随后提出了一种针对随机策略选择簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法;最后,为了帮助高效的发现互联网的分组信息资源,通过实验对该算法的有效性和性能进行了验证,并将其在实际的网页聚类中进行了应用。本文最后得出结论,并对未来工作进行了展望。
|
全文目录
摘要 5-7 ABSTRACT 7-9 目录 9-12 第1章 绪论 12-33 1.1 研究背景和意义 12 1.2 研究现状 12-30 1.2.1 链接预测技术 13-17 1.2.2 搜索引擎作弊检测技术 17-21 1.2.3 WEB 数据挖掘技术 21-23 1.2.4 WEB 聚类方法 23-30 1.3 本文的研究内容 30-31 1.4 本文的组织结构 31-33 第2章 基于相似性的多路径游走链接预测算法 33-53 2.1 基于相似性的链接预测研究现状 33-37 2.1.1 基于局部信息的相似性指数 34-35 2.1.2 基于路径的相似性指数 35-36 2.1.3 基于随机游走的相似性指数 36-37 2.2 Web 网络模型及结构特征 37-40 2.2.1 Web 网络模型 37-38 2.2.2 主要结构特征 38-40 2.3 基于相似性的多路径游走链接预测算法 40-43 2.3.1 相似度计算方法 40-42 2.3.2 MW 算法过程描述及实现 42-43 2.3.3 MW 算法分析 43 2.4 实验分析 43-51 2.4.1 实验数据集 44-45 2.4.2 实验内容及方案 45 2.4.3 实验结果及分析 45-51 2.5 本章小结 51-53 第3章 基于页面互链接相似度聚类的 Spam 页面识别算法 53-69 3.1 链接作弊检测技术研究现状 53-57 3.2 基于链接结构的 Spam 页面过滤算法及其优缺点分析 57-59 3.2.1 基于链接结构的 Spam 页面过滤算法描述 58 3.2.2 算法优缺点分析 58-59 3.3 基于页面互链接相似度聚类的 Spam 页面识别算法 59-63 3.3.1 LSCB-SR 算法思想 59-60 3.3.2 基于页面互相链接的相似度 60-62 3.3.3 LSCB-SR 算法描述 62-63 3.4 实验分析 63-68 3.4.1 实验设置 63-64 3.4.2 实例分析 64-68 3.5 本章小结 68-69 第4章 基于链接文本相似度的 PageRank 算法研究 69-82 4.1 PageRank 算法及其扩展算法 69-73 4.1.1 PageRank 算法 69-71 4.1.2 TH-PageRank 算法 71 4.1.3 MP-PageRank 算法 71-72 4.1.4 HillTop 算法 72-73 4.2 基于链接文本相似度的改进 PageRank 算法 73-76 4.2.1 链接文本 73-74 4.2.2 相似度计算 74 4.2.3 时间反馈 74-75 4.2.4 算法描述 75 4.2.5 PageRank 值计算 75-76 4.3 实验与分析 76-80 4.3.1 实验数据来源 76-77 4.3.2 数据处理 77 4.3.3 结果分析 77-80 4.4 本章小结 80-82 第5章 基于节点属性标签传播算法的网页聚类技术研究 82-105 5.1 标签传播算法研究现状 83-84 5.2 LPA 算法及改进的 LPA-SNA 算法 84-90 5.2.1 LPA 算法基本思想 84 5.2.2 LPA 算法过程描述 84-86 5.2.3 问题描述 86-87 5.2.4 节点属性相似度 87-89 5.2.5 LPA-SNA 算法过程描述 89-90 5.3 LPA-SNA 算法实现及分析 90-94 5.3.1 LPA-SNA 算法实现 90-92 5.3.2 LPA-SNA 算法分析 92-94 5.4 簇结构的定量化描述——模块度函数 Q 94-95 5.5 实验分析 95-104 5.5.1 对比分析 95-102 5.5.2 实例分析 102-104 5.6 本章小结 104-105 结论 105-107 参考文献 107-116 攻读博士学位期间发表的论文和取得的科研成果 116-117 致谢 117
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 平顶山烤烟综合质量评价及与美国烤烟的对比分析,S572
- 面向实时监控应用的事件流相似性分析技术的研究,TP311.13
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 公开信息搜集方法研究与实现,TP311.13
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 面向Web社会网络的分析工具,TP393.09
- 聚类技术在网络入侵检测中的研究与应用,TP393.08
- Web结构挖掘研究,TP393.09
- 一种基于氨基酸物理化学性质上的DNA序列图形表示及相似性分析,Q75
- 基于事务信息的链接预测方法研究,TP393.092
- 聚类分析技术在中国移动客户消费模式中的应用研究,TP311.13
- 一种新的Web结构挖掘算法的研究,TP311.13
- 主题搜索与Web挖掘的研究及系统实现,TP391.3
- 基于云平台在线Web挖掘中计算资源动态平衡的研究与实现,TP311.13
- 基于矩阵的多特征链接预测方法研究,TP311.13
- 基于用户行为的面向领域搜索引擎研究,TP391.3
- 基于云计算的Web结构挖掘算法研究,TP311.13
- 概念格剪枝方法研究及其在Web挖掘中的应用,TP311.13
- 基于CURE聚类的汉语自主学习资源的分组算法研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|