学位论文 > 优秀研究生学位论文题录展示
基于Web的双语资源信息抽取研究
作 者: 庞珊娜
导 师: 何丕廉
学 校: 天津大学
专 业: 计算机应用技术
关键词: 自然语言处理 因特网 双语语料 信息抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 74次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-12 1.1 语料库的定义与应用 7-8 1.1.1 语料库的定义和分类 7-8 1.1.2 双语平行语料库 8 1.2 信息抽取研究的背景 8-11 1.2.1 信息抽取的历史与现状 8-11 1.2.2 信息抽取与信息检索的区别 11 1.3 本文讨论的主要问题 11-12 第二章 因特网语料下载分析及噪音过滤 12-22 2.1 语料下载程序 12-16 2.1.1 语料下载程序的设计思想 13 2.1.2 语料下载程序的关键步骤 13-16 2.2 网页分析程序 16-18 2.2.1 HTML 网页解析 16-17 2.2.2 网页对象识别方法 17-18 2.3 基于分块的网页正文信息抽取算法 18-20 2.3.1 网页噪声分析 18-19 2.3.2 分块算法描述 19-20 2.4 本章小结 20-22 第三章 双语资源的导入、整理和加工 22-32 3.1 语料样本的著作权 22 3.2 语料数据导入 22-23 3.3 对齐与分词处理 23-27 3.3.1 句子对齐 24-25 3.3.2 句子分词 25-27 3.4 实例分析 27-31 3.4.1 双语网页对齐 27-29 3.4.2 中文分词功能的实现 29-31 3.5 本章小结 31-32 第四章 信息抽取系统的实现与评价 32-41 4.1 信息抽取系统的功能模块 32 4.2 信息抽取关键技术的实现 32-37 4.2.1 命名实体识别模块 32-34 4.2.2 句法分析模块 34 4.2.3 篇章分析与推理模块 34-35 4.2.4 知识获取模块 35-36 4.2.5 分装器设计与实现 36-37 4.3 评价信息抽取系统 37-38 4.3.1 应用 MUC 评价体系 37-38 4.3.2 应用 ACE 评价体系 38 4.4 信息抽取算法的研究 38-40 4.5 本章小结 40-41 第五章 WEB信息抽取的应用 41-47 5.1 抽取双语词汇与术语定义 41-43 5.1.1 识别可能的词对 41-42 5.1.2 抽取术语:识别多词等价形式 42-43 5.2 抽取翻译模板 43-46 5.2.1 翻译模板的定义 43-44 5.2.2 模板生成 44 5.2.3 过滤 44-45 5.2.4 评分和选取 45-46 5.3 本章小结 46-47 第六章 总结与展望 47-48 参考文献 48-51 致谢 51
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 采用IGMP报文的因特网IP级拓扑测量方法研究,TP393.02
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 中国鸟类检索查询系统的构建,Q958
- 建构主义与网络环境下的高中英语阅读教学,G633.41
- IPSec协议在软基站平台下的应用与实现,TP393.08
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 网络社会问题:解析与控制,C913
- Blog系统的设计与实现,TP393.092
- 用例图到顺序图转换的研究,TP311.52
- 基于数据库的自然语言查询技术研究与实现,TP391.1
- 关键短语抽取及相关技术研究,TP391.1
- EPON系统在绵阳广电网络的应用,TN948.3
- 空间站因特网接入网关协议转换的设计与实现,TN915.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|