学位论文 > 优秀研究生学位论文题录展示

一种基于动态学习框架的全自动网页结构化数据抽取方法

作 者: 吴云鹏
导 师: 廖乐健
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 信息抽取 结构化数据 属性发现 学习系统
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在当前的万维网的网页中包含着数量惊人的网页。其中有一类网页,其目的是向用户呈现一个实体,其中包括该实体的属性和属性值,这些属性和属性值就是结构化数据。显然,一个网页中所包含的结构化数据正是这个网页的最核心的内容。但是网页是面向用户的,为了便于人们的理解和吸引用户的注意,在不同的网站中这些结构化数据会以不同的显示形式呈现在网页上。虽然不同的显示形式阻碍了计算机自动地抽取这些属性和属性值,但是通过对来自多个网站中的网页之间的比较和筛选,仍然有大量的知识可以学习得到,以用于网页中结构化数据的抽取。本文提出了一种动态学习的框架,该框架无需人工标注的样本网页,并且能够自动有效地抽取不同领域(vertical,如“book”、“camera”、“job”等)的网页中的结构化信息。现存的方法大多都是静态的,需要人工标注大量的样本网页,并且往往不能适应于未标注属性的抽取。与之不同的是,本文中所提出的方法可以动态地,自动地,并尽可能完全的抽取一个网页中的结构化数据。为了达到这个目标,本文中首先建立了一个可信属性学习系统,该系统利用了网页中这些结构化数据的结构特性、网站内特性以及网站间特性来从网页中学习一个可信属性集;然后,本文提出了一个结构化数据发现和抽取过程,该过程用来抽取一个网页中所有可能属于特定领域的属性和属性值。在实验中,本文使用了4个领域,共17850个网页做为实验数据,最终证明了本文所提出方法的有效性。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-26
  1.1 研究的目的和意义  9-10
  1.2 国内外研究现状及发展趋势  10-24
    1.2.1 人工编辑包装器方法  10-12
    1.2.2 包装器学习方法(模板依赖)  12-14
    1.2.3 包装器学习方法(模板独立)  14-17
    1.2.4 包装器学习方法(无监督学习)  17-21
    1.2.5 最近有关结构化数据抽取的方法  21-23
    1.2.6 动态学习方法  23-24
  1.3 本论文创新点与结构  24-26
第2章 动态学习框架概述  26-30
  2.1 方法原理  26-27
  2.2 框架概述  27-30
第3章 可信属性集学习  30-37
  3.1 提取潜在属性单元  30-33
  3.2 获取候选属性集  33-34
  3.3 产生可信属性集  34-37
第4章 属性单元的发现和抽取  37-41
  4.1 探测属性单元发现域  37-39
  4.2 发现和抽取属性单元  39-41
第5章 实验评估  41-47
  5.1 实验设置  41-42
  5.2 方法的效果评估  42-47
    5.2.1 动态学习效果评估  42-46
    5.2.2 属性单元抽取效果评估  46-47
结论  47-49
参考文献  49-51
致谢  51

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  5. 从用户满意度评估新时代交互英语学习系统有效性研究,H319
  6. 面向非结构化数据查询优化的存储系统,TP333
  7. 构件垂直搜索引擎的关键技术研究,TP391.3
  8. 面向教育新闻的主题爬虫设计与实现,TP391.3
  9. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  10. 学术主页信息抽取系统的研究,TP393.092
  11. 主题搜索引擎关键技术研究,TP391.3
  12. 基于自然语言打印机人机交互方法研究与实现,TP11
  13. 模板独立的网页信息抽取研究,TP393.092
  14. 面向互联网的多元信息获取技术研究,TP393.09
  15. 网络舆情数据获取与话题分析技术研究,TP393.09
  16. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  17. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  18. 基于概念树的Web信息抽取技术研究,TP391.1
  19. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  20. NIT运程教育平台研究与开发,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com