学位论文 > 优秀研究生学位论文题录展示

基于树结构的Web信息抽取技术研究

作 者: 廉成洋
导 师: 毛宇光
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: Web信息抽取 数据导向型页面 二叉树 数据记录定位 STMCTN算法 层次聚类 数据属性对齐
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 85次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的发展,Web已经成为一个庞大而复杂的知识库,研究如何从Web中抽取信息变得越来越重要。Web中有一类重要的页面是数据导向型页面,这种页面动态生成、便于更新,研究如何从这种页面中抽取信息是Web信息抽取技术研究的重点。在学习信息抽取相关理论和前人研究成果的基础上,本文针对数据导向型页面提出了一种基于树结构的Web信息抽取方法,围绕此方法做了以下工作:第一,提出了一种基于二叉树的HTML到XML的转换方法。从HTML到XML的转换是Web信息抽取的预处理模块,对Web信息抽取的效果起着决定性的作用。本文提出的基于二叉树的HTML到XML的转换方法可以有效地处理HTML中三种典型的错误。第二,提出了一种新的Web信息抽取中数据记录的定位方法。本文提出的数据记录定位方法分三步进行,首先通过计算节点的扇出度定位主要内容区,然后在主要内容区内定位数据区域,最后在数据区域内定位数据记录。分析发现STM算法在进行树的匹配时不够准确,本文对其进行了改进,提出了一种加权的树匹配算法STMCTN,并相应地改进了树的相似度计算等算法。第三,提出了一种新的Web信息抽取中数据属性的对齐方法。在定位到数据记录以后,需要对同一类的多个数据记录进行比对,将其数据属性进行对齐,进而输出数据记录,为此本文提出了一种基于聚类和树的比对的数据属性对齐方法,本方法避免了对齐结果冗余过多的现象。针对本文提出的三种方法,分别通过实验对方法的性能进行了分析。

全文目录


摘要  4-5
ABSTRACT  5-8
图表清单  8-10
注释表  10-11
第一章 绪论  11-17
  1.1 研究背景和意义  11-12
  1.2 国内外研究现状  12-13
  1.3 研究对象和研究模型  13-15
  1.4 本文的研究内容及组织  15-17
第二章 Web 信息抽取技术  17-23
  2.1 Web 信息抽取技术的概念  17
  2.2 信息抽取与信息检索  17-18
  2.3 现有Web 信息抽取技术的分类  18-21
    2.3.1 根据自动化程度分类  18
    2.3.2 根据抽取原理分类  18-21
  2.4 Web 信息抽取存在的问题  21
  2.5 Web 信息抽取系统的评价指标  21-22
  2.6 小结  22-23
第三章 基于二叉树的HTML 到XML 的转换方法  23-34
  3.1 引言  23-24
  3.2 HTML、XML 和XHTML  24-25
  3.3 XML 和HTML 的二叉树表示  25-27
  3.4 基于二叉树的HTML 到 XML 的转换算法  27-31
    3.4.1 算法流程  27
    3.4.2 将HTML 划分为段列表  27-28
    3.4.3 HTML 二叉树的构造  28-30
    3.4.4 XML 文件的输出  30-31
    3.4.5 算法实例  31
    3.4.6 算法修正  31
  3.5 实验及分析  31-33
  3.6 小结  33-34
第四章 Web 信息抽取中的数据记录定位  34-60
  4.1 引言  34-35
  4.2 主要内容区的定位  35-37
  4.3 数据区域的定位  37-54
    4.3.1 树的编辑距离  38-39
    4.3.2 树的最大匹配  39-46
    4.3.3 树的相似度计算  46-49
    4.3.4 一般节点的比较  49-51
    4.3.5 数据区域的定位  51-54
  4.4 数据记录的定位  54-56
  4.5 实验及分析  56-59
  4.6 小结  59-60
第五章 Web 信息抽取中的数据属性对齐和抽取  60-70
  5.1 引言  60-61
  5.2 数据记录的聚类  61-62
  5.3 数据属性的对齐  62-64
    5.3.1 处理流程  62-63
    5.3.2 插入主树的条件  63-64
  5.4 基于聚类的数据记录对齐算法  64-67
  5.5 实验及分析  67-69
  5.6 小结  69-70
第六章 总结与展望  70-72
  6.1 总结  70
  6.2 展望  70-72
参考文献  72-76
致谢  76-77
在学期间的研究成果及发表的学术论文  77

相似论文

  1. 对于系统发育谱法聚类算法的改进,TP311.13
  2. 网页属性抽取的方法研究,TP391.1
  3. 面向消费者感性需求的手持GPS设计探讨,TN967.1
  4. 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
  5. 企业资产证券化融资研究,F832.51
  6. 基于实物期权理论的中国卷烟销售终端体系投资决策研究,F274;F426.8
  7. 基于两层次聚类的车辆配载调度方法,U492.22
  8. 多光谱图像混合像元分类技术研究,TP751
  9. 网络舆情数据获取与话题分析技术研究,TP393.09
  10. 基于滑窗小波二叉树的网络异常检测与分析,TP393.08
  11. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  12. 互联网新闻热点挖掘系统的研究与实现,TP393.09
  13. 基于ECC的高效可分电子现金协议研究,TP393.09
  14. 基于Web的股评观点倾向性分析研究,TP391.1
  15. 面向领域的半结构化Web信息抽取技术,TP391.1
  16. 战术信息传输系统的研究,TN919.2
  17. 基于实物期权的房地产延迟开发决策研究,F293.3;F832.5
  18. 基于实物期权理论的电信运营企业顾客资产测量研究,F626;F224
  19. 基于数据处理中心的企业竞争情报系统研究,F272
  20. 二代数与结合代数,O153
  21. 模糊聚类中若干问题的研究,O235

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com