学位论文 > 优秀研究生学位论文题录展示
一种基于动态学习框架的全自动网页结构化数据抽取方法
作 者: 吴云鹏
导 师: 廖乐健
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 信息抽取 结构化数据 属性发现 学习系统
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
在当前的万维网的网页中包含着数量惊人的网页。其中有一类网页,其目的是向用户呈现一个实体,其中包括该实体的属性和属性值,这些属性和属性值就是结构化数据。显然,一个网页中所包含的结构化数据正是这个网页的最核心的内容。但是网页是面向用户的,为了便于人们的理解和吸引用户的注意,在不同的网站中这些结构化数据会以不同的显示形式呈现在网页上。虽然不同的显示形式阻碍了计算机自动地抽取这些属性和属性值,但是通过对来自多个网站中的网页之间的比较和筛选,仍然有大量的知识可以学习得到,以用于网页中结构化数据的抽取。本文提出了一种动态学习的框架,该框架无需人工标注的样本网页,并且能够自动有效地抽取不同领域(vertical,如“book”、“camera”、“job”等)的网页中的结构化信息。现存的方法大多都是静态的,需要人工标注大量的样本网页,并且往往不能适应于未标注属性的抽取。与之不同的是,本文中所提出的方法可以动态地,自动地,并尽可能完全的抽取一个网页中的结构化数据。为了达到这个目标,本文中首先建立了一个可信属性学习系统,该系统利用了网页中这些结构化数据的结构特性、网站内特性以及网站间特性来从网页中学习一个可信属性集;然后,本文提出了一个结构化数据发现和抽取过程,该过程用来抽取一个网页中所有可能属于特定领域的属性和属性值。在实验中,本文使用了4个领域,共17850个网页做为实验数据,最终证明了本文所提出方法的有效性。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-26 1.1 研究的目的和意义 9-10 1.2 国内外研究现状及发展趋势 10-24 1.2.1 人工编辑包装器方法 10-12 1.2.2 包装器学习方法(模板依赖) 12-14 1.2.3 包装器学习方法(模板独立) 14-17 1.2.4 包装器学习方法(无监督学习) 17-21 1.2.5 最近有关结构化数据抽取的方法 21-23 1.2.6 动态学习方法 23-24 1.3 本论文创新点与结构 24-26 第2章 动态学习框架概述 26-30 2.1 方法原理 26-27 2.2 框架概述 27-30 第3章 可信属性集学习 30-37 3.1 提取潜在属性单元 30-33 3.2 获取候选属性集 33-34 3.3 产生可信属性集 34-37 第4章 属性单元的发现和抽取 37-41 4.1 探测属性单元发现域 37-39 4.2 发现和抽取属性单元 39-41 第5章 实验评估 41-47 5.1 实验设置 41-42 5.2 方法的效果评估 42-47 5.2.1 动态学习效果评估 42-46 5.2.2 属性单元抽取效果评估 46-47 结论 47-49 参考文献 49-51 致谢 51
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 从用户满意度评估新时代交互英语学习系统有效性研究,H319
- 面向非结构化数据查询优化的存储系统,TP333
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- NIT运程教育平台研究与开发,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|