学位论文 > 优秀研究生学位论文题录展示
基于DOM树的网页相似度研究与应用
作 者: 张瑞雪
导 师: 宋明秋
学 校: 大连理工大学
专 业: 管理科学与工程
关键词: 解析DOM树 最优子树自由匹配 结构相似性 网页信息提取
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 168次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Web信息资源的爆炸式增长,如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配,并不能对复杂的结构化网页信息进行准确地比较和取舍。通过挖掘Web网页中的结构特性,也就是DOM树结构,来衡量目标信息和样本信息之间的相似度,并确认所需信息,已成为一种准确迅速提取信息的有效方法。基于DOM树结构的网页相似度度量理论主要有基于节点统计特征,基于链路匹配,基于最少编辑距离,基于简单树匹配等多种度量方法。然而这些方法都或多或少的存在一些问题,节点统计不够系统,链路匹配比较分散,最少编辑距离缺乏层次性,简单树匹配对顺序要求严格,不适合DOM信息的匹配,而且速度慢。针对以上问题,本文提出了新的解析DOM算法,基于DOM树的网页相似性度量算法以及基于DOM相似性的网页信息提取算法。具体研究工作如下:(1)基于数据预提取的DOM树解析算法解析DOM树是计算网页相似性的基础,也是提取网页信息的前提。本文主要提出了基于部分数据预提取的顺序DOM树解析算法以及逆序DOM树解析算法,可以有效地提取大部分网页的DOM树结构。(2)基于DOM树的网页结构相似度度量方法网页的结构相似度,不仅可以衡量两个网页之间的相似性,而且能量化同一个网页内部不同位置信息之间的相似性,进而根据这种相似性提取目标信息。与传统方法不同,本文提出了两种相似度度量算法:基于子树最优自由匹配的递归算法和基于链路简单树匹配的递归算法。(3)基于DOM树相似度理论的网页正文提取网页正文信息在DOM树中具有一定的结构相似性。这种相似性为我们提取正文信息提供了一条思路。通过正文信息在网页中的某些特征确定部分正文,并通过结构相似性寻找其他正文,进而提取所有正文信息。本文以前面的两种相似度度量方法为基础对网页正文信息进行提取。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-15 1.1 选题背景与研究意义 9-10 1.2 研究现状 10-13 1.2.1 基于编辑距离的网页相似度度量方法 11-12 1.2.2 基于链路统计特征的网页相似度度量方法 12 1.2.3 基于结点统计特征的网页相似度度量方法 12-13 1.3 论文研究的内容、意义与技术路线 13-15 2 网页DOM树解析 15-29 2.1 网页DOM树相关概念 15-18 2.1.1 HTML 15-16 2.1.2 XML 16-17 2.1.3 DOM树 17-18 2.2 网页DOM树解析遇到的问题 18-19 2.3 HTML信息预处理 19-22 2.3.1 补全标记 19-20 2.3.2 提取标记属性 20 2.3.3 提取脚本和注释信息 20 2.3.4 标记配对 20-22 2.3.5 添加标记对 22 2.4 正序解析算法 22-25 2.4.1 预提取数据 22-23 2.4.2 标记配对 23-24 2.4.3 构造树 24-25 2.5 逆序解析算法 25-27 2.5.1 标记的识别 25-26 2.5.2 待配对结束标记栈 26 2.5.3 配对与构造树节点 26-27 2.6 实验 27-28 2.7 本章小结 28-29 3 基于DOM树的网页结构相似度 29-43 3.1 基于子树最优自由匹配的结构相似度度量模型 29-35 3.1.1 相似度的定义 29-30 3.1.2 子树最优自由匹配规则 30 3.1.3 计算步骤 30-32 3.1.4 相似度计算结果比较 32-33 3.1.5 完全相似情况下的计算时间比较 33-34 3.1.6 模型扩展—网页的语义相似性 34-35 3.2 基于链路压缩树的网页相似度度量模型 35-42 3.2.1 链路之间的相似度度量 35-36 3.2.2 网页DOM树之间的相似度度量 36 3.2.3 链路压缩树 36-38 3.2.4 链路压缩树的相似度度量 38-39 3.2.5 链路压缩树的构造 39-40 3.2.6 相似度计算结果统计 40-41 3.2.7 完全相似情况下的计算时间比较 41-42 3.3 本章小结 42-43 4 基于DOM树结构相似性的正文信息提取 43-48 4.1 相关研究 43-44 4.2 基于DOM树结构相似性的正文信息提取 44-45 4.2.1 正文信息在网页中的分布特征 44 4.2.2 树结构的相似性度量 44 4.2.3 正文信息提取 44-45 4.3 实验与分析 45-47 4.4 本章小结 47-48 结论 48-49 参考文献 49-52 攻读硕士学位期间发表学术论文情况 52-53 致谢 53-54
|
相似论文
- 复杂网络的链路预测,O157.5
- 基于结构相似性的视频质量评价方法及其在视频通信中的应用,TP391.41
- 单个居民地多尺度表达的空间相似性研究,P208
- 基于Web内容挖掘的医药类广告监控系统的实现,TP393.09
- 结构相似与图式关联,B08
- 多页面特殊网页文字提取与合并技术研究,TP393.092
- 基于特征点局部结构相似性的指纹快速匹配方法的研究,TP391.41
- 小波变换在图像抑噪中的应用研究,TP391.41
- 基于类模型的Web舆情趋势预测,TP393.09
- 基于HVS特性的图像质量客观评价,TP391.41
- 基于改进HITS算法及位置信息的关键网页信息抽取方法,TP301.6
- 黄淮海地区平原林业产业结构研究,F326.2
- 基于小波变换图像质量评价新算法,TP391.41
- 大射电望远镜舱索结构的相似性分析,TH751
- 新型疏水电荷诱导色谱配基的筛选与介质制备,O657.7
- 强粘性湍流主运动和涨落运动结构相似性及其数值模拟,O241.82
- Beta-barrel类和TIM-barrel类蛋白序列对称性研究,Q51
- 基于XML的树型结构编码及结构相似性匹配方法,TP311.10
- 基于Rtree的空间结构检索和空间数据挖掘,TP311.13
- 基于垂直搜索引擎技术的房源信息分析系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|