学位论文 > 优秀研究生学位论文题录展示

基于Web的双语资源信息抽取研究

作 者: 庞珊娜
导 师: 何丕廉
学 校: 天津大学
专 业: 计算机应用技术
关键词: 自然语言处理 因特网 双语语料 信息抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-12
  1.1 语料库的定义与应用  7-8
    1.1.1 语料库的定义和分类  7-8
    1.1.2 双语平行语料库  8
  1.2 信息抽取研究的背景  8-11
    1.2.1 信息抽取的历史与现状  8-11
    1.2.2 信息抽取与信息检索的区别  11
  1.3 本文讨论的主要问题  11-12
第二章 因特网语料下载分析及噪音过滤  12-22
  2.1 语料下载程序  12-16
    2.1.1 语料下载程序的设计思想  13
    2.1.2 语料下载程序的关键步骤  13-16
  2.2 网页分析程序  16-18
    2.2.1 HTML 网页解析  16-17
    2.2.2 网页对象识别方法  17-18
  2.3 基于分块的网页正文信息抽取算法  18-20
    2.3.1 网页噪声分析  18-19
    2.3.2 分块算法描述  19-20
  2.4 本章小结  20-22
第三章 双语资源的导入、整理和加工  22-32
  3.1 语料样本的著作权  22
  3.2 语料数据导入  22-23
  3.3 对齐与分词处理  23-27
    3.3.1 句子对齐  24-25
    3.3.2 句子分词  25-27
  3.4 实例分析  27-31
    3.4.1 双语网页对齐  27-29
    3.4.2 中文分词功能的实现  29-31
  3.5 本章小结  31-32
第四章 信息抽取系统的实现与评价  32-41
  4.1 信息抽取系统的功能模块  32
  4.2 信息抽取关键技术的实现  32-37
    4.2.1 命名实体识别模块  32-34
    4.2.2 句法分析模块  34
    4.2.3 篇章分析与推理模块  34-35
    4.2.4 知识获取模块  35-36
    4.2.5 分装器设计与实现  36-37
  4.3 评价信息抽取系统  37-38
    4.3.1 应用 MUC 评价体系  37-38
    4.3.2 应用 ACE 评价体系  38
  4.4 信息抽取算法的研究  38-40
  4.5 本章小结  40-41
第五章 WEB信息抽取的应用  41-47
  5.1 抽取双语词汇与术语定义  41-43
    5.1.1 识别可能的词对  41-42
    5.1.2 抽取术语:识别多词等价形式  42-43
  5.2 抽取翻译模板  43-46
    5.2.1 翻译模板的定义  43-44
    5.2.2 模板生成  44
    5.2.3 过滤  44-45
    5.2.4 评分和选取  45-46
  5.3 本章小结  46-47
第六章 总结与展望  47-48
参考文献  48-51
致谢  51

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 采用IGMP报文的因特网IP级拓扑测量方法研究,TP393.02
  4. 构件垂直搜索引擎的关键技术研究,TP391.3
  5. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  6. 学术主页信息抽取系统的研究,TP393.092
  7. 主题搜索引擎关键技术研究,TP391.3
  8. 中国鸟类检索查询系统的构建,Q958
  9. 建构主义与网络环境下的高中英语阅读教学,G633.41
  10. IPSec协议在软基站平台下的应用与实现,TP393.08
  11. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  12. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  13. 面向领域的半结构化Web信息抽取技术,TP391.1
  14. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  15. 网络社会问题:解析与控制,C913
  16. Blog系统的设计与实现,TP393.092
  17. 用例图到顺序图转换的研究,TP311.52
  18. 基于数据库的自然语言查询技术研究与实现,TP391.1
  19. 关键短语抽取及相关技术研究,TP391.1
  20. EPON系统在绵阳广电网络的应用,TN948.3
  21. 空间站因特网接入网关协议转换的设计与实现,TN915.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com