学位论文 > 优秀研究生学位论文题录展示

Web信息抽取技术的研究与应用

作　者: 钱浩
导　师: 马瑞民；张昆
学　校: 东北石油大学
专　业: 计算机应用技术
关键词: 信息抽取时间频率加权正则表达式抽取规则
分类号: TP393.09
类　型: 硕士论文
年　份: 2011年
下　载: 66次
引　用: 0次
阅　读: 论文下载

内容摘要

在全球成为“信息村”的今天,人们对于信息的需求越来越多的同时,怎样才能快速、准确地获得需要的信息就成为了研究的重点,作为重要信息源之一的因特网,同样面临着如何从海量页面中抽取出用户需要的信息的问题。而且据统计因特网上约80%的内容存在于看不见的因特网中(Hidden Web),即那些网上数据库系统。现有的搜索引擎不能抓取到这些网页的数据,所以需要一种工具从这样的网页中搜集数据,并将抽取出来的数据结构化、规范化的信息处理,Web信息抽取技术因此产生并发展起来。本文通过对现有的Web信息抽取方法的学习研究,提出了两种半自动化的方法,分别是：基于规则的Web信息抽取和基于时间频率加权DOM的Web信息抽取。其中第一种方法主要利用正则表达式对字符串的查找、替换等功能实现对常见新闻站点的HTML文档格式进行匹配,并通过DOM树生成算法生成DOM树,经过用户标记得到抽取规则,这种方法在时间上有良好的效率。第二种方法是在现有DOM信息抽取方法上,将待抽取页面文档转化为DOM树型结构,然后对DOM树进行时间、频率加权得到TFW-DOM树,其中时间相关属性的值是通过抽取时间计算公式计算得到,频率属性的值则由主调用模块反馈而来。该方法将抽取时间考虑到抽取过程中,满足多级管理层对时间实时性要求不一的情况,也很适用于程序开发人员在数据调用方面。

全文目录

摘要  4-5
ABSTRACT  5-6
创新点摘要  6-9
前言  9-10
第一章绪论  10-21
  1.1 信息抽取技术概述  10-14
    1.1.1 信息抽取发展历史及研究现状  10-11
    1.1.2 信息抽取系统的两大设计方法  11-12
    1.1.3 信息抽取文本的分类  12-13
    1.1.4 信息抽取技术的评价指标  13-14
  1.2 信息抽取方法分类  14-16
    1.2.1 按照自动化程度分类  14
    1.2.2 按照抽取技术路线的分类  14-16
  1.3 WEB信息抽取技术研究  16-18
  1.4 信息抽取的发展趋势  18-19
  1.5 本文的研究内容  19-21
第二章抽取规则描述  21-29
  2.1 抽取规则  21-24
    2.1.1 抽取规则定义  21-22
    2.1.2 典型抽取工具的规则描述  22-24
  2.2 正则表达式的概述  24-28
    2.2.1 正则表达式的定义  24-26
    2.2.2 正则表达式的测试  26
    2.2.3 页面清理  26-28
  2.3 小结  28-29
第三章基于规则的WEB信息抽取  29-38
  3.1 WEB信息抽取相关技术  29-30
  3.2 基于规则的WEB信息抽取  30-36
    3.2.1 系统流程  30-32
    3.2.2 DOM树生成算法  32-34
    3.2.3 抽取规则生成及抽取执行  34-35
    3.2.4 数据处理模块  35-36
  3.3 实验结果  36
  3.4 小结  36-38
第四章基于时间频率加权DOM的WEB信息抽取  38-49
  4.1 相关定义及技术  38-42
    4.1.1 基本定义  38-39
    4.1.2 HTML解析器  39-42
  4.2 基于TFW-DOM的WEB信息抽取概述  42-48
    4.2.1 DOM树的遍历算法  43-44
    4.2.2 页面清理模块  44-46
    4.2.3 DOM树加权  46-47
    4.2.4 计算抽取时间算法  47-48
  4.3 实验结果  48
  4.4 小结  48-49
结论  49-50
参考文献  50-54
发表文章目录  54-55
致谢  55-56
详细摘要  56-66

Web信息抽取技术的研究与应用

内容摘要

全文目录

相似论文