学位论文 > 优秀研究生学位论文题录展示
基于本体的受限领域问答系统研究
作 者: 卢宇亮
导 师: 廖乐健
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 信息检索 问答系统 本体论 受限领域 隐马尔可夫模型 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 114次
引 用: 1次
阅 读: 论文下载
内容摘要
自互联网问世以来,越来越多的用户依赖于互联网获取信息。随着互联网技术的普及,存在于互联网上的信息日常膨胀,人们对搜索引擎技术的依赖也日趋增加。通用搜索引擎技术的发展,已经给人类的生活带来了日新月异的变化,人们可以简单的输入几个词,获取相关信息。然而,通常的搜索引擎技术仍然存在几个方面的不足。一、相关性信息反馈过多且不准确,用户需要花费太多的时间获取所需要的结果;二、只能依靠关键字间的匹配关系,无法准确表达用户的检索需求,因此对自然语言式提问的方式有着十分迫切的需求;三、通用的搜索引擎技术对问题的检索,仍然基于简单的关键字匹配上,尚没有涉及语义的检索。问答系统的优势在于用户能够通过自然语言的方式进行提问,系统返回的不再是网页的列表,而是直接的答案。传统的问答系统以聊天机器人、基于知识库的问答系统和基于web的问答系统三种形式为主。聊天机器人以模式匹配为主要求解策略,不足以针对大规模知识库进行深入的研究;基于web的问答系统以web作为知识获取的信息源,涉及到web抓取的内容,不足以专注于研究语义理解在问答系统中的应用。因此本文基于面向知识库的受限领域问答系统,结合领域FAQ库和本体知识库的问答策略,针对问答系统的主要技术,如词法分析、句法分析、语义推理等进行深入的研究。本文的主要研究工作如下:(一)基于层叠隐马模型的词法分析,在中科院ICTCLAS分词系统的基础上,实现了基于N-最短路径的粗分策略和基于隐马模型的未登录词识别、词性标注模块。并在此基础上,完成以名词、动词、形容词和副词为关键词成分的提取策略,为基于FAQ库的问答策略做好准备。(二)基于LTP的依存文法分析,在哈工大自然语言处理平台的基础上,实现了基于GParser的依存文法分析模块,提取句子的核心结构,并在此基础上,基于模式匹配的方式,完成问句从自然语言到SPARQL查询表达式的生成,为基于本体知识库的问答策略做好准备。(三)基于关键词扩展的FAQ库问答策略,本文在前人研究的基础上,结合传统词形相似度、句长相似度以及基于哈工大同义词林和《知网》语义相似度的方法,提出了一种针对句子关键词成分的相似度计算策略;构建以旅游领域为背景的FAQ库,完成了面向FAQ库的问答模块。(四)面向本体知识库的问答策略,本文在前人研究的基础上,构建了以旅游领域为背景的本体知识库,实现了基于SPARQL的本体查询模块。总结本文的贡献如下:(一)在现有技术的基础上,提出了一种融合策略,结合FAQ库和本体知识库问答技术的优势,实现了以此为框架的受限领域问答系统。(二)在句子相似度计算中,提出了一种组合词形相似度、句长相似度以及基于同义词词林和《知网》的语义相似度相结合的句子相似度计算方法,旨在改善问句相似度计算的准确性。(三)提出了一种从自然语言经过问句依存结构分析,向SPARQL本体查询表达式转化的策略。
|
全文目录
摘要 4-6 Abstract 6-10 第一章 绪论 10-21 1.1 问答系统研究综述 10-15 1.1.1 信息检索概述 10-11 1.1.2 传统搜索引擎的不足 11-12 1.1.3 问答系统研究背景与现状 12-15 1.2 基于本体的受限领域问答系统 15-19 1.2.1 本体概述 15 1.2.2 受限领域问题系统的提出 15-17 1.2.3 系统概述及任务 17-19 1.3 本文的主要工作 19-21 第二章 问句分析策略 21-37 2.1 词法分析综述 21-23 2.2 层叠隐马模型及词性标注 23-30 2.2.1 层叠隐马模型概述 23-24 2.2.2 基于 N-最短路径的粗分策略 24-27 2.2.3 基于隐马模型的未登录词识别 27-29 2.2.4 基于隐马模型的词性标注 29-30 2.3 基于 LTP 的依存文法分析 30-33 2.3.1 句法分析综述 30-32 2.3.2 LTP 系统概述 32-33 2.3.3 使用 GParser 进行问句依存文法分析 33 2.4 关键词提取和 SPARQL 查询规则表达式生成 33-37 2.4.1 关键词提取 34 2.4.2 SPARQL 查询表达式生成 34-37 第三章 面向 FAQ 库的问答策略 37-45 3.1 FAQ 库问答模块概述 37-38 3.2 基于关键词扩展的句子相似度计算 38-43 3.2.1 语法相似度 38-39 3.2.2 语义相似度 39-43 3.3 基于改进相似度计算的FAQ 问答策略 43-44 3.4 本章总结 44-45 第四章 面向本体知识库的问答策略 45-53 4.1 本体知识库问答模块概述 45 4.2 旅游本体知识库构建 45-51 4.2.1 本体知识表示与推理概述 46-48 4.2.2 旅游领域本体构建 48-51 4.3 基于本体的推理 51-52 4.4 本章总结 52-53 第五章 系统总结 53-57 第六章 研究展望 57-58 参考文献 58-61 致谢 61
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 普适计算下智能空间的哲学探究,N02
- 针对教育视频的虚拟学习社区设计与实现,G434
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 基于本体的智能电网知识检索系统,TM76
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于点击的用户聚类的研究,TP311.13
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|