学位论文 > 优秀研究生学位论文题录展示

基于DOM树的网页相似度研究与应用

作　者: 张瑞雪
导　师: 宋明秋
学　校: 大连理工大学
专　业: 管理科学与工程
关键词: 解析DOM树最优子树自由匹配结构相似性网页信息提取
分类号: TP393.092
类　型: 硕士论文
年　份: 2011年
下　载: 168次
引　用: 0次
阅　读: 论文下载

内容摘要

随着Web信息资源的爆炸式增长,如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配,并不能对复杂的结构化网页信息进行准确地比较和取舍。通过挖掘Web网页中的结构特性,也就是DOM树结构,来衡量目标信息和样本信息之间的相似度,并确认所需信息,已成为一种准确迅速提取信息的有效方法。基于DOM树结构的网页相似度度量理论主要有基于节点统计特征,基于链路匹配,基于最少编辑距离,基于简单树匹配等多种度量方法。然而这些方法都或多或少的存在一些问题,节点统计不够系统,链路匹配比较分散,最少编辑距离缺乏层次性,简单树匹配对顺序要求严格,不适合DOM信息的匹配,而且速度慢。针对以上问题,本文提出了新的解析DOM算法,基于DOM树的网页相似性度量算法以及基于DOM相似性的网页信息提取算法。具体研究工作如下：(1)基于数据预提取的DOM树解析算法解析DOM树是计算网页相似性的基础,也是提取网页信息的前提。本文主要提出了基于部分数据预提取的顺序DOM树解析算法以及逆序DOM树解析算法,可以有效地提取大部分网页的DOM树结构。(2)基于DOM树的网页结构相似度度量方法网页的结构相似度,不仅可以衡量两个网页之间的相似性,而且能量化同一个网页内部不同位置信息之间的相似性,进而根据这种相似性提取目标信息。与传统方法不同,本文提出了两种相似度度量算法：基于子树最优自由匹配的递归算法和基于链路简单树匹配的递归算法。(3)基于DOM树相似度理论的网页正文提取网页正文信息在DOM树中具有一定的结构相似性。这种相似性为我们提取正文信息提供了一条思路。通过正文信息在网页中的某些特征确定部分正文,并通过结构相似性寻找其他正文,进而提取所有正文信息。本文以前面的两种相似度度量方法为基础对网页正文信息进行提取。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 选题背景与研究意义  9-10
  1.2 研究现状  10-13
    1.2.1 基于编辑距离的网页相似度度量方法  11-12
    1.2.2 基于链路统计特征的网页相似度度量方法  12
    1.2.3 基于结点统计特征的网页相似度度量方法  12-13
  1.3 论文研究的内容、意义与技术路线  13-15
2 网页DOM树解析  15-29
  2.1 网页DOM树相关概念  15-18
    2.1.1 HTML  15-16
    2.1.2 XML  16-17
    2.1.3 DOM树  17-18
  2.2 网页DOM树解析遇到的问题  18-19
  2.3 HTML信息预处理  19-22
    2.3.1 补全标记  19-20
    2.3.2 提取标记属性  20
    2.3.3 提取脚本和注释信息  20
    2.3.4 标记配对  20-22
    2.3.5 添加标记对  22
  2.4 正序解析算法  22-25
    2.4.1 预提取数据  22-23
    2.4.2 标记配对  23-24
    2.4.3 构造树  24-25
  2.5 逆序解析算法  25-27
    2.5.1 标记的识别  25-26
    2.5.2 待配对结束标记栈  26
    2.5.3 配对与构造树节点  26-27
  2.6 实验  27-28
  2.7 本章小结  28-29
3 基于DOM树的网页结构相似度  29-43
  3.1 基于子树最优自由匹配的结构相似度度量模型  29-35
    3.1.1 相似度的定义  29-30
    3.1.2 子树最优自由匹配规则  30
    3.1.3 计算步骤  30-32
    3.1.4 相似度计算结果比较  32-33
    3.1.5 完全相似情况下的计算时间比较  33-34
    3.1.6 模型扩展—网页的语义相似性  34-35
  3.2 基于链路压缩树的网页相似度度量模型  35-42
    3.2.1 链路之间的相似度度量  35-36
    3.2.2 网页DOM树之间的相似度度量  36
    3.2.3 链路压缩树  36-38
    3.2.4 链路压缩树的相似度度量  38-39
    3.2.5 链路压缩树的构造  39-40
    3.2.6 相似度计算结果统计  40-41
    3.2.7 完全相似情况下的计算时间比较  41-42
  3.3 本章小结  42-43
4 基于DOM树结构相似性的正文信息提取  43-48
  4.1 相关研究  43-44
  4.2 基于DOM树结构相似性的正文信息提取  44-45
    4.2.1 正文信息在网页中的分布特征  44
    4.2.2 树结构的相似性度量  44
    4.2.3 正文信息提取  44-45
  4.3 实验与分析  45-47
  4.4 本章小结  47-48
结论  48-49
参考文献  49-52
攻读硕士学位期间发表学术论文情况  52-53
致谢  53-54

基于DOM树的网页相似度研究与应用

内容摘要

全文目录

相似论文