学位论文 > 优秀研究生学位论文题录展示

Web信息抽取技术的研究与应用

作 者: 钱浩
导 师: 马瑞民;张昆
学 校: 东北石油大学
专 业: 计算机应用技术
关键词: 信息抽取 时间频率加权 正则表达式 抽取规则
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 66次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在全球成为“信息村”的今天,人们对于信息的需求越来越多的同时,怎样才能快速、准确地获得需要的信息就成为了研究的重点,作为重要信息源之一的因特网,同样面临着如何从海量页面中抽取出用户需要的信息的问题。而且据统计因特网上约80%的内容存在于看不见的因特网中(Hidden Web),即那些网上数据库系统。现有的搜索引擎不能抓取到这些网页的数据,所以需要一种工具从这样的网页中搜集数据,并将抽取出来的数据结构化、规范化的信息处理,Web信息抽取技术因此产生并发展起来。本文通过对现有的Web信息抽取方法的学习研究,提出了两种半自动化的方法,分别是:基于规则的Web信息抽取和基于时间频率加权DOM的Web信息抽取。其中第一种方法主要利用正则表达式对字符串的查找、替换等功能实现对常见新闻站点的HTML文档格式进行匹配,并通过DOM树生成算法生成DOM树,经过用户标记得到抽取规则,这种方法在时间上有良好的效率。第二种方法是在现有DOM信息抽取方法上,将待抽取页面文档转化为DOM树型结构,然后对DOM树进行时间、频率加权得到TFW-DOM树,其中时间相关属性的值是通过抽取时间计算公式计算得到,频率属性的值则由主调用模块反馈而来。该方法将抽取时间考虑到抽取过程中,满足多级管理层对时间实时性要求不一的情况,也很适用于程序开发人员在数据调用方面。

全文目录


摘要  4-5
ABSTRACT  5-6
创新点摘要  6-9
前言  9-10
第一章 绪论  10-21
  1.1 信息抽取技术概述  10-14
    1.1.1 信息抽取发展历史及研究现状  10-11
    1.1.2 信息抽取系统的两大设计方法  11-12
    1.1.3 信息抽取文本的分类  12-13
    1.1.4 信息抽取技术的评价指标  13-14
  1.2 信息抽取方法分类  14-16
    1.2.1 按照自动化程度分类  14
    1.2.2 按照抽取技术路线的分类  14-16
  1.3 WEB信息抽取技术研究  16-18
  1.4 信息抽取的发展趋势  18-19
  1.5 本文的研究内容  19-21
第二章 抽取规则描述  21-29
  2.1 抽取规则  21-24
    2.1.1 抽取规则定义  21-22
    2.1.2 典型抽取工具的规则描述  22-24
  2.2 正则表达式的概述  24-28
    2.2.1 正则表达式的定义  24-26
    2.2.2 正则表达式的测试  26
    2.2.3 页面清理  26-28
  2.3 小结  28-29
第三章 基于规则的WEB信息抽取  29-38
  3.1 WEB信息抽取相关技术  29-30
  3.2 基于规则的WEB信息抽取  30-36
    3.2.1 系统流程  30-32
    3.2.2 DOM树生成算法  32-34
    3.2.3 抽取规则生成及抽取执行  34-35
    3.2.4 数据处理模块  35-36
  3.3 实验结果  36
  3.4 小结  36-38
第四章 基于时间频率加权DOM的WEB信息抽取  38-49
  4.1 相关定义及技术  38-42
    4.1.1 基本定义  38-39
    4.1.2 HTML解析器  39-42
  4.2 基于TFW-DOM的WEB信息抽取概述  42-48
    4.2.1 DOM树的遍历算法  43-44
    4.2.2 页面清理模块  44-46
    4.2.3 DOM树加权  46-47
    4.2.4 计算抽取时间算法  47-48
  4.3 实验结果  48
  4.4 小结  48-49
结论  49-50
参考文献  50-54
发表文章目录  54-55
致谢  55-56
详细摘要  56-66

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  5. 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
  6. 构件垂直搜索引擎的关键技术研究,TP391.3
  7. 面向教育新闻的主题爬虫设计与实现,TP391.3
  8. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  9. 学术主页信息抽取系统的研究,TP393.092
  10. 主题搜索引擎关键技术研究,TP391.3
  11. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  12. 基于自然语言打印机人机交互方法研究与实现,TP11
  13. 模板独立的网页信息抽取研究,TP393.092
  14. 面向互联网的多元信息获取技术研究,TP393.09
  15. 基于CPU+GPU异构平台的字符串匹配算法研究与实现,TP301.6
  16. 网络舆情数据获取与话题分析技术研究,TP393.09
  17. 面向存储的正则表达式匹配算法研究,TP393.08
  18. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  19. 基于特征匹配的深度报文检测性能优化研究,TP393.08
  20. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  21. 基于概念树的Web信息抽取技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com