学位论文 > 优秀研究生学位论文题录展示

基于Web的双语资源信息抽取研究

作　者: 庞珊娜
导　师: 何丕廉
学　校: 天津大学
专　业: 计算机应用技术
关键词: 自然语言处理因特网双语语料信息抽取
分类号: TP391.1
类　型: 硕士论文
年　份: 2008年
下　载: 74次
引　用: 0次
阅　读: 论文下载

内容摘要

在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。

全文目录

摘要  3-4
Abstract  4-7
第一章绪论  7-12
  1.1 语料库的定义与应用  7-8
    1.1.1 语料库的定义和分类  7-8
    1.1.2 双语平行语料库  8
  1.2 信息抽取研究的背景  8-11
    1.2.1 信息抽取的历史与现状  8-11
    1.2.2 信息抽取与信息检索的区别  11
  1.3 本文讨论的主要问题  11-12
第二章因特网语料下载分析及噪音过滤  12-22
  2.1 语料下载程序  12-16
    2.1.1 语料下载程序的设计思想  13
    2.1.2 语料下载程序的关键步骤  13-16
  2.2 网页分析程序  16-18
    2.2.1 HTML 网页解析  16-17
    2.2.2 网页对象识别方法  17-18
  2.3 基于分块的网页正文信息抽取算法  18-20
    2.3.1 网页噪声分析  18-19
    2.3.2 分块算法描述  19-20
  2.4 本章小结  20-22
第三章双语资源的导入、整理和加工  22-32
  3.1 语料样本的著作权  22
  3.2 语料数据导入  22-23
  3.3 对齐与分词处理  23-27
    3.3.1 句子对齐  24-25
    3.3.2 句子分词  25-27
  3.4 实例分析  27-31
    3.4.1 双语网页对齐  27-29
    3.4.2 中文分词功能的实现  29-31
  3.5 本章小结  31-32
第四章信息抽取系统的实现与评价  32-41
  4.1 信息抽取系统的功能模块  32
  4.2 信息抽取关键技术的实现  32-37
    4.2.1 命名实体识别模块  32-34
    4.2.2 句法分析模块  34
    4.2.3 篇章分析与推理模块  34-35
    4.2.4 知识获取模块  35-36
    4.2.5 分装器设计与实现  36-37
  4.3 评价信息抽取系统  37-38
    4.3.1 应用 MUC 评价体系  37-38
    4.3.2 应用 ACE 评价体系  38
  4.4 信息抽取算法的研究  38-40
  4.5 本章小结  40-41
第五章 WEB信息抽取的应用  41-47
  5.1 抽取双语词汇与术语定义  41-43
    5.1.1 识别可能的词对  41-42
    5.1.2 抽取术语：识别多词等价形式  42-43
  5.2 抽取翻译模板  43-46
    5.2.1 翻译模板的定义  43-44
    5.2.2 模板生成  44
    5.2.3 过滤  44-45
    5.2.4 评分和选取  45-46
  5.3 本章小结  46-47
第六章总结与展望  47-48
参考文献  48-51
致谢  51

基于Web的双语资源信息抽取研究

内容摘要

全文目录

相似论文