学位论文 > 优秀研究生学位论文题录展示
Web信息抽取技术的研究与应用
作 者: 钱浩
导 师: 马瑞民;张昆
学 校: 东北石油大学
专 业: 计算机应用技术
关键词: 信息抽取 时间频率加权 正则表达式 抽取规则
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 66次
引 用: 0次
阅 读: 论文下载
内容摘要
在全球成为“信息村”的今天,人们对于信息的需求越来越多的同时,怎样才能快速、准确地获得需要的信息就成为了研究的重点,作为重要信息源之一的因特网,同样面临着如何从海量页面中抽取出用户需要的信息的问题。而且据统计因特网上约80%的内容存在于看不见的因特网中(Hidden Web),即那些网上数据库系统。现有的搜索引擎不能抓取到这些网页的数据,所以需要一种工具从这样的网页中搜集数据,并将抽取出来的数据结构化、规范化的信息处理,Web信息抽取技术因此产生并发展起来。本文通过对现有的Web信息抽取方法的学习研究,提出了两种半自动化的方法,分别是:基于规则的Web信息抽取和基于时间频率加权DOM的Web信息抽取。其中第一种方法主要利用正则表达式对字符串的查找、替换等功能实现对常见新闻站点的HTML文档格式进行匹配,并通过DOM树生成算法生成DOM树,经过用户标记得到抽取规则,这种方法在时间上有良好的效率。第二种方法是在现有DOM信息抽取方法上,将待抽取页面文档转化为DOM树型结构,然后对DOM树进行时间、频率加权得到TFW-DOM树,其中时间相关属性的值是通过抽取时间计算公式计算得到,频率属性的值则由主调用模块反馈而来。该方法将抽取时间考虑到抽取过程中,满足多级管理层对时间实时性要求不一的情况,也很适用于程序开发人员在数据调用方面。
|
全文目录
摘要 4-5 ABSTRACT 5-6 创新点摘要 6-9 前言 9-10 第一章 绪论 10-21 1.1 信息抽取技术概述 10-14 1.1.1 信息抽取发展历史及研究现状 10-11 1.1.2 信息抽取系统的两大设计方法 11-12 1.1.3 信息抽取文本的分类 12-13 1.1.4 信息抽取技术的评价指标 13-14 1.2 信息抽取方法分类 14-16 1.2.1 按照自动化程度分类 14 1.2.2 按照抽取技术路线的分类 14-16 1.3 WEB信息抽取技术研究 16-18 1.4 信息抽取的发展趋势 18-19 1.5 本文的研究内容 19-21 第二章 抽取规则描述 21-29 2.1 抽取规则 21-24 2.1.1 抽取规则定义 21-22 2.1.2 典型抽取工具的规则描述 22-24 2.2 正则表达式的概述 24-28 2.2.1 正则表达式的定义 24-26 2.2.2 正则表达式的测试 26 2.2.3 页面清理 26-28 2.3 小结 28-29 第三章 基于规则的WEB信息抽取 29-38 3.1 WEB信息抽取相关技术 29-30 3.2 基于规则的WEB信息抽取 30-36 3.2.1 系统流程 30-32 3.2.2 DOM树生成算法 32-34 3.2.3 抽取规则生成及抽取执行 34-35 3.2.4 数据处理模块 35-36 3.3 实验结果 36 3.4 小结 36-38 第四章 基于时间频率加权DOM的WEB信息抽取 38-49 4.1 相关定义及技术 38-42 4.1.1 基本定义 38-39 4.1.2 HTML解析器 39-42 4.2 基于TFW-DOM的WEB信息抽取概述 42-48 4.2.1 DOM树的遍历算法 43-44 4.2.2 页面清理模块 44-46 4.2.3 DOM树加权 46-47 4.2.4 计算抽取时间算法 47-48 4.3 实验结果 48 4.4 小结 48-49 结论 49-50 参考文献 50-54 发表文章目录 54-55 致谢 55-56 详细摘要 56-66
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 基于CPU+GPU异构平台的字符串匹配算法研究与实现,TP301.6
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 面向存储的正则表达式匹配算法研究,TP393.08
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 基于特征匹配的深度报文检测性能优化研究,TP393.08
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|