学位论文 > 优秀研究生学位论文题录展示

基于本体的受限领域问答系统研究

作 者: 卢宇亮
导 师: 廖乐健
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 信息检索 问答系统 本体论 受限领域 隐马尔可夫模型 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 114次
引 用: 1次
阅 读: 论文下载
 

内容摘要


自互联网问世以来,越来越多的用户依赖于互联网获取信息。随着互联网技术的普及,存在于互联网上的信息日常膨胀,人们对搜索引擎技术的依赖也日趋增加。通用搜索引擎技术的发展,已经给人类的生活带来了日新月异的变化,人们可以简单的输入几个词,获取相关信息。然而,通常的搜索引擎技术仍然存在几个方面的不足。一、相关性信息反馈过多且不准确,用户需要花费太多的时间获取所需要的结果;二、只能依靠关键字间的匹配关系,无法准确表达用户的检索需求,因此对自然语言式提问的方式有着十分迫切的需求;三、通用的搜索引擎技术对问题的检索,仍然基于简单的关键字匹配上,尚没有涉及语义的检索。问答系统的优势在于用户能够通过自然语言的方式进行提问,系统返回的不再是网页的列表,而是直接的答案。传统的问答系统以聊天机器人、基于知识库的问答系统和基于web的问答系统三种形式为主。聊天机器人以模式匹配为主要求解策略,不足以针对大规模知识库进行深入的研究;基于web的问答系统以web作为知识获取的信息源,涉及到web抓取的内容,不足以专注于研究语义理解在问答系统中的应用。因此本文基于面向知识库的受限领域问答系统,结合领域FAQ库和本体知识库的问答策略,针对问答系统的主要技术,如词法分析、句法分析、语义推理等进行深入的研究。本文的主要研究工作如下:(一)基于层叠隐马模型的词法分析,在中科院ICTCLAS分词系统的基础上,实现了基于N-最短路径的粗分策略和基于隐马模型的未登录词识别、词性标注模块。并在此基础上,完成以名词、动词、形容词和副词为关键词成分的提取策略,为基于FAQ库的问答策略做好准备。(二)基于LTP的依存文法分析,在哈工大自然语言处理平台的基础上,实现了基于GParser的依存文法分析模块,提取句子的核心结构,并在此基础上,基于模式匹配的方式,完成问句从自然语言到SPARQL查询表达式的生成,为基于本体知识库的问答策略做好准备。(三)基于关键词扩展的FAQ库问答策略,本文在前人研究的基础上,结合传统词形相似度、句长相似度以及基于哈工大同义词林和《知网》语义相似度的方法,提出了一种针对句子关键词成分的相似度计算策略;构建以旅游领域为背景的FAQ库,完成了面向FAQ库的问答模块。(四)面向本体知识库的问答策略,本文在前人研究的基础上,构建了以旅游领域为背景的本体知识库,实现了基于SPARQL的本体查询模块。总结本文的贡献如下:(一)在现有技术的基础上,提出了一种融合策略,结合FAQ库和本体知识库问答技术的优势,实现了以此为框架的受限领域问答系统。(二)在句子相似度计算中,提出了一种组合词形相似度、句长相似度以及基于同义词词林和《知网》的语义相似度相结合的句子相似度计算方法,旨在改善问句相似度计算的准确性。(三)提出了一种从自然语言经过问句依存结构分析,向SPARQL本体查询表达式转化的策略。

全文目录


摘要  4-6
Abstract  6-10
第一章 绪论  10-21
  1.1 问答系统研究综述  10-15
    1.1.1 信息检索概述  10-11
    1.1.2 传统搜索引擎的不足  11-12
    1.1.3 问答系统研究背景与现状  12-15
  1.2 基于本体的受限领域问答系统  15-19
    1.2.1 本体概述  15
    1.2.2 受限领域问题系统的提出  15-17
    1.2.3 系统概述及任务  17-19
  1.3 本文的主要工作  19-21
第二章 问句分析策略  21-37
  2.1 词法分析综述  21-23
  2.2 层叠隐马模型及词性标注  23-30
    2.2.1 层叠隐马模型概述  23-24
    2.2.2 基于 N-最短路径的粗分策略  24-27
    2.2.3 基于隐马模型的未登录词识别  27-29
    2.2.4 基于隐马模型的词性标注  29-30
  2.3 基于 LTP 的依存文法分析  30-33
    2.3.1 句法分析综述  30-32
    2.3.2 LTP 系统概述  32-33
    2.3.3 使用 GParser 进行问句依存文法分析  33
  2.4 关键词提取和 SPARQL 查询规则表达式生成  33-37
    2.4.1 关键词提取  34
    2.4.2 SPARQL 查询表达式生成  34-37
第三章 面向 FAQ 库的问答策略  37-45
  3.1 FAQ 库问答模块概述  37-38
  3.2 基于关键词扩展的句子相似度计算  38-43
    3.2.1 语法相似度  38-39
    3.2.2 语义相似度  39-43
  3.3 基于改进相似度计算的FAQ 问答策略  43-44
  3.4 本章总结  44-45
第四章 面向本体知识库的问答策略  45-53
  4.1 本体知识库问答模块概述  45
  4.2 旅游本体知识库构建  45-51
    4.2.1 本体知识表示与推理概述  46-48
    4.2.2 旅游领域本体构建  48-51
  4.3 基于本体的推理  51-52
  4.4 本章总结  52-53
第五章 系统总结  53-57
第六章 研究展望  57-58
参考文献  58-61
致谢  61

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 哲学思想在指导中学数学教学中的作用,G633.6
  4. 基于本体的语义检索研究,TP391.3
  5. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  6. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  7. 拉图尔的行动者网络理论研究,N02
  8. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  9. 基于本体的食品投诉文档文本聚类研究,TP391.1
  10. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  11. 普适计算下智能空间的哲学探究,N02
  12. 针对教育视频的虚拟学习社区设计与实现,G434
  13. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  14. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  15. 基于链接重要性的动态链接预测算法研究,TP393.03
  16. 基于本体的智能电网知识检索系统,TM76
  17. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  18. 排序学习损失函数的研究,TP181
  19. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  20. 基于点击的用户聚类的研究,TP311.13
  21. 蛋白质关系网络复合物发现与可视化研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com