学位论文 > 优秀研究生学位论文题录展示
中文问答系统中多策略答案抽取技术的研究
作 者: 白宇
导 师: 蔡东风;杨者青
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 问答系统 答案抽取 信息检索 自然语言处理
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 46次
引 用: 1次
阅 读: 论文下载
内容摘要
信息检索是自然语言处理技术的一个重要的应用领域,自动问答作为一种高级检索形式正逐步成为该领域研究的热点之一。本文主要讨论了中文问答系统中答案抽取的实现策略。本文首先进行了实现答案抽取策略的核心技术的研究和预备工作,包括测试问题集的构建、答案类型的判别、答案选择与评价、语义相似度计算等。实验表明,本文选用的语义资源《知网》能够有效地辅助答案类型判别和答案抽取中语义相似度计算等任务。并且,采用本文提出的答案类型判别方法,得到了令人满意的实验效果。针对事实类型问句,本文提出基于改进VSM、语义计算和句子模式特征等策略,并在融合以上方法的基础上,提出了多策略的答案抽取方法。该方法将句子中的命名实体与非命名实体区别对待,强调命名实体对句子意义限定的重要性。采用语义相似度代替关键词匹配。同时,提出使用滑动窗口,突出句子中的有效部分,从而降低由于断句不合理而造成的对句子得分的影响。在一个有205个提问的汉语问答系统测试集上,进行了多种答案抽取方法的比较实验。实验结果显示,本文提出的多策略答案抽取方法在人物、实体、组织机构、地点、数字及时间等事实类型问题的答案抽取方面均得到了较好的实验结果。对于复杂类型问题,采用基于知识的候选答案抽取策略,利用语义计算和改进编辑距离相结合的方法,将提问问句与问句候选集中的问句进行相似度计算并排序,作为间接获取问题答案的有效方法。实验结果表明,为解决复杂类问题提出的基于知识的候选答案抽取策略是有效的。
|
全文目录
摘要 6-7 Abstract 7-12 第1章 绪论 12-16 1.1 研究背景 12-13 1.2 国内外研究现状 13-14 1.3 答案抽取的研究意义 14 1.4 本文主要工作和组织结构 14-16 第2章 问答系统中答案抽取方法概述 16-24 2.1 答案抽取相关模型 16-19 2.1.1 答案模式 16 2.1.2 严格匹配模型 16-17 2.1.3 向量空间模型 17-19 2.2 答案抽取基本方法 19-23 2.2.1 基于规则的方法 19-20 2.2.2 基于统计的方法 20-21 2.2.3 基于句子相似模型的方法 21-23 2.3 评测标准 23 2.4 小结 23-24 第3章 答案抽取核心技术的研究 24-37 3.1 答案抽取过程 24-25 3.2 中文分词 25-27 3.3 命名实体识别 27 3.4 词语的语义相似度计算 27-32 3.4.1 语义资源的选择 27-29 3.4.2 相似度计算方法 29-30 3.4.3 词义消歧方法 30-32 3.5 测试问题集的建设 32-35 3.5.1 中文问答系统的问题分类体系 32-34 3.5.2 KECQA 问题集介绍 34-35 3.6 小结 35-37 第4章 多策略答案抽取技术的研究 37-58 4.1 答案类型的判别策略 37-41 4.1.1 答案类型判别步骤 38-40 4.1.2 实验 40-41 4.2 候选答案的获取策略 41-44 4.2.1 基于通用搜索引擎的候选答案获取 41-43 4.2.2 基于用户知识的候选答案获取 43-44 4.3 事实类答案抽取策略 44-52 4.3.1 基于改进VSM 的答案抽取 44-45 4.3.2 基于语义的答案抽取 45-46 4.3.3 基于句子模式特征的答案抽取 46-49 4.3.4 多策略融合的答案抽取 49-50 4.3.5 实验 50-52 4.4 复杂类答案抽取策略 52-54 4.4.1 基于知识的答案抽取 52-53 4.4.2 实验 53-54 4.5 答案选择策略 54-57 4.5.1 答案合并 54-55 4.5.2 基于投票策略的答案选择 55-56 4.5.3 基于Web 冗余的答案选择 56 4.5.4 实验 56-57 4.6 小结 57-58 第5章 问答系统的实现与改进 58-64 5.1 问答系统设计与实现 58-61 5.1.1 问句处理 58-59 5.1.2 信息检索 59-60 5.1.3 答案抽取和选择 60-61 5.1.4 系统评价 61 5.2 问答系统模型的改进 61-64 结论 64-66 附录Ⅰ KECQA 测试问题集(部分) 66-68 附录Ⅱ KECQA 中文问答系统运行界面 68-70 参考文献 70-74 致谢 74-76 攻读硕士期间发表(含录用)的学术论文 76
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 词义消歧语料库自动获取方法研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 针对教育视频的虚拟学习社区设计与实现,G434
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 基于语义Web的信息检索技术研究,TP391.3
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 筛选规则智能化生成的研究与设计,TP393.08
- J2EE集成开发框架及其应用,TP311.52
- 领域知识对领域问答系统答案抽取影响研究,TP391.3
- 问答对自动获取的研究,TP391.1
- 旅游本体知识库的构建及推理应用研究,TP391.1
- 面向网络知识服务的医疗信息分类方法,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|