学位论文 > 优秀研究生学位论文题录展示
领域知识对领域问答系统答案抽取影响研究
作 者: 韩露
导 师: 余正涛
学 校: 昆明理工大学
专 业: 测试计量技术与仪器
关键词: 受限域 问答系统 文本段落 分类检索 答案抽取 云南旅游
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
问答系统QA (Question Answering System)能为人们提供自然语言提问的方式,直接返回答案,而不是大量网页。相对于传统搜索引擎来说,问答系统能够更好地表达用户的需求,适应用户的习惯,回答信息也更准确,快捷,高效。它能克服传统搜索引擎存在的缺陷,是当前研究的热点问题。但由于自然语言固有的复杂性和技术等原因,目前开放域通用问答系统的正确率还远不能达到实用的要求。受限域问答系统服务于指定领域,且依托特定领域知识,服务领域的限定和知识库结构的相对有序,在一定程度上降低了对自然语言处理的难度,降低了受限域问答系统的研究难度,从而使受限域问答系统的尽快实用化成为可能。本文针对受限域问答系统中关键技术做了一些探讨,即如何借助现有领域知识从海量网络资源中获取信息并过滤掉和领域无关的信息;如何通过分析用户问题需求,并借助现有领域知识从获取到的领域信息中抽取问题准确的答案。主要取得了以下几个方面的成果:(1)提出了领域文本分类模型的构建方法。该方法采用支持向量机学习算法,结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算领域概念间的相关性,从而为分类特征赋予一定权重,进而构建领域文本分类模型。利用领域文本分类模型过滤非领域文本,为问答系统提供大量的领域信息,提高了文本检索的准确性。(2)提出了领域段落切分方法和领域段落检索算法。该方法借助段落检索的思想,结合领域问题特性和领域问题答案,提出了符合领域问题的段落切分方法,并借助领域知识改进了基于密度的段落检索算法,提取问题最相关段落作为答案抽取候选段落,进一步缩小了答案抽取范围。(3)提出了基于领域特性的答案抽取策略和算法。对受限域问答系统中的简单事实型问题、定义型问题采用了关键词分布密度的算法和问句与答案相似度计算相结合的方法;对受限域问答系统中的列举性问题采用了基于隐马尔科夫算法和条件随机场的命名实体识别技术,提高了问题答案抽取的召回率和准确率。(4)以云南旅游领域作为受限领域,进行了云南旅游的文本检索和分类实验、段落检索及答案抽取实验,设计并实现了云南旅游问答系统。
|
全文目录
摘要 3-5 ABSTRACT 5-10 第一章 绪论 10-15 1.1 研究背景及意义 10-12 1.2 问答系统研究现状 12-13 1.2.1 国外研究现状 12 1.2.2 国内研究现状 12-13 1.3 存在问题 13-14 1.4 本文研究内容 14 1.5 论文结构 14-15 第二章 领域文本获取及分类 15-26 2.1 引言 15 2.2 相关研究 15 2.3 文本获取 15-18 2.3.1 Nutch系统的介绍与修改 16-17 2.3.2 百度(BAIDU)搜索引擎简介与调用 17-18 2.4 领域文本分类 18-24 2.4.1 领域文本分类特征选取及特征权重计算 18-20 2.4.2 领域文本分类模型实现 20-21 2.4.3 领域文本分类实验与结果分析 21-24 2.5 本章小结 24-26 第三章 领域段落检索 26-33 3.1 引言 26 3.2 相关研究 26-27 3.3 问句分析 27-29 3.3.1 问句分词及词性标注 27-28 3.3.2 问句分类及问题答案类型确定 28 3.3.3 关键词获取及查询扩展 28-29 3.4 领域段落检索 29-30 3.4.1 领域段落切分 29 3.4.2 领域段落权重计算 29-30 3.5 候选段落提取 30 3.6 云南旅游段落检索实验验证 30-31 3.7 本章小结 31-33 第四章 领域答案抽取 33-41 4.1 引言 33 4.2 相关研究 33-35 4.2.1 简单事实型的答案抽取 33-34 4.2.2 列举型的答案抽取 34 4.2.3 定义性问题的答案抽取 34-35 4.3 领域答案抽取策略和算法 35-38 4.3.1 以句子或段落作为答案 35-37 4.3.2 以数词或列表形式作为答案 37-38 4.4 云南旅游答案抽取实验验证 38-40 4.5 本章小结 40-41 第五章 云南旅游问答系统实现及评价 41-49 5.1 引言 41 5.2 领域知识库构建 41-42 5.3 领域文本分类 42 5.4 领域段落检索 42-43 5.5 领域答案抽取 43 5.6 系统的整体框架 43-44 5.7 云南旅游受限域中文问答系统评价 44-46 5.8 部分实验结果 46-48 5.8.1 以句子或段落作为答案的部分实验结果 46-48 5.8.2 以数词或列表形式作为答案的部分实验结果 48 5.9 本章小结 48-49 第六章 结束语 49-51 6.1 论文总结 49-50 6.2 下一步工作 50-51 致谢 51-52 参考文献 52-57 附录A 攻读硕士学位期间发表论文 57-58 附录B 攻读硕士期间参与项目 58-59 附录C 攻读硕士期间申请专利及软件著作权 59-60 附录D 云南旅游领域问题分类体系 60-61 附录E 云南旅游领域问题部分测试结果 61-67
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 针对教育视频的虚拟学习社区设计与实现,G434
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 从目的论角度看云南旅游宣传资料的翻译,H315.9
- 基于知网的受限域问答系统原型的设计与实现,TP391.1
- 基于增量改进贝叶斯领域问句分类研究,TP391.3
- 问答对自动获取的研究,TP391.1
- 旅游本体知识库的构建及推理应用研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于贝叶斯分类方法的中文问句分类研究,TP391.1
- 基于意义理解的问答系统设计与实现,TP311.52
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 事实型中文问答系统中片段检索方法的研究,TP391.1
- 受限域问答系统文本检索研究,TP391.1
- 限定领域内问答系统的设计与实现,TP391.3
- 云南旅游地域系统空间结构优化调整研究,F592.7
- 基于支持向量机的中文问题分类研究,TP18
- 中文问答系统中多策略答案抽取技术的研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|