学位论文 > 优秀研究生学位论文题录展示
多词表达抽取及其应用
作 者: 段建勇
导 师: 陆汝占
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 多词表达 多序列比对 词义消歧 概念图 机器学习
分类号: TP391.1
类 型: 博士论文
年 份: 2007年
下 载: 917次
引 用: 4次
阅 读: 论文下载
内容摘要
多词表达是自然语言处理中的难点,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。经典的自然语言处理系统通常假设每个词汇为一个语义单元,这并没有包括多词表达在里而,多词表达跨越词汇边界,因而有其特殊的解读方法。识别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是进一步研究的瓶颈。近年来多词表达被单独提出来作为一个专门的主题来研究。本文的工作分为多词表达的抽取与应用两方面。首先针对单语与双语的特点提出了一套适合处理松散结构类型多词表达的抽取方法,该方法是受生物信息学中基因比对算法的启发,提出的抽取模型结合了自然语言自身特性以及机器学习方法。在多词表达的应用上,把多词表达作为词义消歧的一种知识资源,利用资源与算法的瓦相作用来提高词义消歧效果;另一个应用是术语抽取作为概念图自动标引的重要基础工作,把术语识别和关系自动构建运用到概念图自动标引任务。本文的创新性工作有以下几点:一、为了有效抽取单语多词表达,在生物信息学的启发下提出了一种基于多序列比对的识别算法。利用文本序列与生物基因序列的相似性改进了多序列比对算法,使得其适合文本处理,同时算法中结合错误驱动规则,对于不连续结构的多词表达的抽取比传统的方法有很大的性能改善,改善之一是保障不同类型多词表达的召回率,其二,它运用动态规划的方法阻止候选多词表达纵合爆炸,采用的技术主要是在模式抽取上用全局策略代替局部子模式抽取,降低了子模式的冗余件。在实验中也证实,它对松散结构有较好的性能。二、提出一种多策略的方法来抽取双语多词表达。在单语抽取结果的基础上,统计和规则的方法以及双语对照运用到抽取系统中以提高效果。抽取过程有两个阶段,在第一阶段大量的单语候选多词表达从语料库中被抽取出来,多序列比对的方法对结构松散的多词表达效果较佳。第二阶段中,错误驱动规则以及模板从语料库中抽出,为了获得质量较高的训练实例,训练实例的选取采用人工辅以主动学习的方法,这些训练出来的规则用来过滤候选多词表达。双语对照方法也被本系统采纳,还有部分双语句法对照模式从双语短语词典中获取。另外还设计了一系列的实验选取合适的参数用以提高系统的性能。实验结果显示混合的方法比单一的方法取得较好的性能。三、把多词表达作为词义消歧的一种知识资源,提出一种新的词义消歧方法,叫做多引擎协同自举(MCB)。这种方法不但结合了不同类型的语料库包括双语语料库,而且还结合了不同类型的上下文词汇特征(包括多词表达)。初始特征以及迭代过程中特征的来源都是多渠道的,因而称为多引擎方法。MCB方法运用双语自举作为它的核心算法来完成特征的增量获取,并且在学习器中运用期望最大化算法(EM)来训练参数。双语间的特征翻译采用语义相关估计矩阵来提高特征在双语间翻译的质量。比起有指导的特征选取方法,这些通过无指导的机器学习方法学习得来的特征同样能够保证初始特征的高精确率。实验证明MCB方法是有效果的。另外一些因素包括特征空间和起始种子的数目也是实验关注的因素。四、把重要的一类多词表达抽取技术—术语抽取—运用到了图书摘要的概念图标引任务中,提出一种基于概念图的半自动标引方法。概念图标引是一种深度语义标引,它把离散的关键字通过语义关系连接成一个完整的语义整体。先手工标引一定量的概念图,总结出其中的标引规律,然后在手工标引的经验之上,探索概念图自动化标引,特定领域中的术语抽取与概念间关系构建是自动化标引的基础工作,实验取得了一定的进展。由于概念图的自动化标引是一项综合了自然语言处理多项核心技术的工作,后续的研究工作还很艰巨。
|
全文目录
摘要 5-7 ABSTRACT 7-13 第一章 绪论 13-26 1.1 多词表达介绍 13-18 1.1.1 多词表达的特性 13-14 1.1.2 多词表达的分类 14-16 1.1.2.1 习语 14 1.1.2.2 词汇化的短语 14 1.1.2.3 句法松散的表达 14-15 1.1.2.4 半固定表达 15-16 1.1.2.5 固定表达 16 1.1.3 汉语中的多词表达 16-17 1.1.4 多词表达的研究热点 17-18 1.2 多词表达的抽取技术 18-22 1.2.1 主要抽取模型 18-22 1.2.1.1 位置相关的N元模型 19 1.2.1.2 非参数模型 19-20 1.2.1.3 语言模型 20 1.2.1.4 搭配同现相关性模型 20-21 1.2.1.5 序列类型相关模型 21-22 1.2.2 主要模型间比较 22 1.3 多词表达的应用 22-24 1.3.1 多词表达在词义消歧中的应用 23 1.3.2 多词表达在概念图自动标引中的应用 23-24 1.4 本文的组织结构 24-26 第二章 单语多词表达抽取 26-45 2.1 引言 26 2.2 多序列比对算法基础 26-31 2.2.1 研究背景 27 2.2.2 空位罚分函数 27-28 2.2.3 动态规划算法 28-29 2.2.4 序列两两比对算法 29-30 2.2.5 多序列比对算法 30-31 2.2.5.1 SP模型 31 2.2.5.2 星型比对 31 2.2.5.3 树型比对 31 2.3 基于多序列比对的多词表达抽取算法 31-39 2.3.1 模型的优势 31-32 2.3.2 多序列比对算法 32-36 2.3.2.1 预处理 32 2.3.2.2 双序列比对算法 32-36 2.3.2.3 星型比对 36 2.3.3 性能分析 36-37 2.3.3.1 基本假设 36-37 2.3.3.2 窗口长度的局限性 37 2.3.3.3 模式分析的细节 37 2.3.4 错误驱动学习过滤 37-39 2.3.4.1 模板定义 38-39 2.3.4.2 规则学习 39 2.4 实验 39-43 2.4.1 资源 39-40 2.4.2 实验结果和讨论 40-43 2.4.2.1 比较实验 40-41 2.4.2.2 不同长度多词表达的抽取结果比较 41 2.4.2.3 不同频率的抽取结果 41-42 2.4.2.4 开放测试 42-43 2.4.2.5 参数估计 43 2.5 本章小结 43-45 第三章 双语多词表达抽取 45-61 3.1 引言 45 3.2 相关工作 45-47 3.2.1 汉语多词表达 45-46 3.2.2 多序列比对 46-47 3.2.3 基于转换的错误驱动规则 47 3.3 多策略混合的方法 47-55 3.3.1 初始化 48-49 3.3.2 改进的多序列比对算法 49-50 3.3.3 错误驱动规则学习 50-53 3.3.3.1 单规则模板学习 50-51 3.3.3.2 规则的组合 51 3.3.3.3 规则训练 51-53 3.3.3.4 运用主动学习策略的样例选择 53 3.3.4 双语多词表达参照 53-55 3.4 实验结果 55-59 3.4.1 资源 55 3.4.2 方法 55-59 3.4.2.1 多序列比对不同阈值结果 56-57 3.4.2.2 双语对照结果 57 3.4.2.3 主动学习的结果 57-59 3.5 本章小结 59-61 第四章 多词表达在词义消歧中的应用 61-81 4.1 引言 61 4.2 相关工作 61-65 4.2.1 支持词义消歧任务的资源 61-64 4.2.1.1 多词表达作为一种词义消歧资源 64 4.2.2 词义消歧中资源与算法的整合 64-65 4.2.2.1 词义消歧的常用算法 64-65 4.2.2.2 词义消歧的算法与资源的结合 65 4.3 多引擎协同自举算法 65-73 4.3.1 基本思想 66-67 4.3.2 多引擎协同自举算法 67-71 4.3.2.1 种子生成模块 68-69 4.3.2.2 期望最大算法学习模块 69 4.3.2.3 特征交换模块 69-71 4.3.2.4 新特征学习模块 71 4.3.3 实例分析 71-73 4.4 实验结果 73-80 4.4.1 资源描述 73-74 4.4.2 实验结果 74-77 4.4.2.1 在SENSEVAL-2任务上的实验结果 74-76 4.4.2.2 采用Yarowsky用例测试结果 76-77 4.4.3 性能评价 77-80 4.4.3.1 实例数量与F-measure的关系 77-78 4.4.3.2 精确率和迭代次数的关系 78 4.4.3.3 错误率与特征数量的关系 78-80 4.5 本章小结 80-81 4.5.1 运用不同类型语料库平台 80 4.5.2 多种引擎协同机制 80 4.5.3 无指导学习 80-81 第五章 多词表达在概念图自动标引中的应用 81-105 5.1 引言 81-82 5.2 相关语义表示方法 82-86 5.2.1 语义成分分析(Componential Analysis) 82-83 5.2.2 语义框架(Semantic Frame) 83-84 5.2.3 语义网络(Semantic Network) 84 5.2.4 逻辑形式(Logical Form) 84-85 5.2.5 概念图(Conceptual Graphics) 85 5.2.6 各种方法优缺点分析 85-86 5.3 概念图理论 86-88 5.3.1 概念图在文本中的表示 87-88 5.4 概念图的手工标引探索 88-92 5.4.1 用户需求日志的概念图标引 88-90 5.4.2 概念图的常用关系 90 5.4.3 标注工具介绍 90-91 5.4.4 标引实例 91-92 5.4.4.1 实例分析 91-92 5.5 概念图标引的半自动方法初探 92-101 5.5.1 外部特征的数据项解析 92-94 5.5.2 自动术语识别 94-98 5.5.2.1 术语部件库构造 95 5.5.2.2 图书摘要中的术语类型 95-96 5.5.2.3 基于记忆学习方法的术语识别 96 5.5.2.4 术语边界预测模块 96-97 5.5.2.5 边界配对以及术语过滤模块 97-98 5.5.3 概念关系构建 98-100 5.5.3.1 知识库支撑下的概念关系构建 98-100 5.5.4 概念图标引的半自动生成算法 100-101 5.6 实验与系统原型 101-103 5.6.1 资源介绍 101 5.6.2 单项任务实验结果 101-102 5.6.2.1 术语抽取结果 101-102 5.6.2.2 概念间关系构建结果 102 5.6.3 概念图半自动标引的系统原型 102-103 5.7 本章小结 103-105 5.7.1 总结 103-104 5.7.2 下一步的工作 104-105 第六章 结论 105-107 6.1 总结 105 6.2 展望 105-107 参考文献 107-117 致谢 117-118 博士期间的研究成果及发表的论文 118-120 上海交通大学学位论文答辩决议书 120
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 高中生物学课堂教学中概念图的应用研究,G633.91
- 基于数据分布特征的文本分类研究,TP391.1
- 概念图教学在高中生物教学中的有效性研究,G633.91
- 高中生物教学中运用概念图策略的初步研究,G633.91
- 概念图在高中生物教学中的应用研究,G633.91
- 概念图在高中生物教学中的应用研究,G633.91
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|