学位论文 > 优秀研究生学位论文题录展示

受限域中文问答系统问句分析研究

作 者: 章程
导 师: 余正涛
学 校: 昆明理工大学
专 业: 模式识别与智能系统
关键词: 受限域 中文问答系统 领域知识库 问句分析 问句表征 问句分类 问句相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 222次
引 用: 0次
阅 读: 论文下载
 

内容摘要


问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问句分析是问答系统的一个非常重要的组成部分,它的准确性直接影响到最终答案抽取的准确性。本文主要利用自然语言处理技术,对受限域领域知识库的构建,问句表征,问句分类,问句相似度计算等问答系统关键技术进行探讨与研究,并在此基础上实现了一个云南旅游FAQ库的问答系统。具体说来,本文主要取得了以下几个较有特色的成果:(1)针对“知网”常识库缺乏对领域概念的描述问题,提出了一种领域知识的表示、领域本体的提取与构建方法。该方法借助本体论的思想,采用“知网”的概念描述语言对领域术语概念进行精确描述,从而建立领域知识库,并实现领域知识库与常识库的融合。(2)提出了一种问句信息的形式化表示(问句表征)方法。该方法利用词法、语义分析实现领域问句关键字的提取与扩展,利用问句句法依存分析提取问句的句法依存树,通过问句类型与问点及答案类型映射规则来获取问句的问点及答案类型。(3)提出了一种基于规则和统计学习相结合的领域问句分类的方法。该方法首先利用语言规则与领域知识的特点提取问句类别规则;然后通过提取句法结构关系和领域特征,并采用改进贝叶斯分类学习算法,构造问句分类模型;最终结合规则的方法和统计学习的方法,实现领域问句分类,实验结果表明,该方法具有较好的效果。(4)针对当前问句相似度计算方法的不足,结合领域内汉语问句的特点,提出了一种领域问句相似度的计算方法。该方法以领域知识库及常识库为基础,计算词语之间语义相似度,提取问句句法依存对,并计算问句中依存对之间的相似度,从而实现了融合词法、句法、语义及领域知识的领域问句的相似度计算。实验结果表明,该方法具有较好的效果。(5)利用上述研究成果,并以云南旅游领域为例,收集整理领域特征,实现云南旅游FAQ库的问答原型系统。

全文目录


摘要  3-5
ABSTRACT  5-9
第1章 引言  9-14
  1.1 研究背景及意义  9-10
  1.2 国内外研究现状  10-12
  1.3 本文主要研究内容  12
  1.4 论文的组织  12-14
第2章 基于本体的领域知识库构建  14-19
  2.1 引言  14
  2.2 本体论  14-15
  2.3 知网  15-16
  2.4 基于本体的领域知识库的构建  16-18
    2.4.1 领域术语的收集  16
    2.4.2 领域本体分析  16-17
    2.4.3 领域本体提取  17
    2.4.4 领域知识库的构建  17-18
  2.5 本章小结  18-19
第3章 领域问句表征  19-27
  3.1 引言  19
  3.2 问句表征模型  19-20
  3.3 领域问句关键词提取与扩展  20-23
    3.3.1 领域问句关键词提取  20-21
    3.3.2 领域问句关键词扩展  21-23
  3.4 领域问句句法依存树的提取  23-25
    3.4.1 依存句法的定义  24
    3.4.2 句法依存树的提取  24-25
  3.5 问题焦点和答案类型的提取  25-26
  3.6 本章小结  26-27
第4章 领域问句分类  27-41
  4.1 引言  27-28
  4.2 基于规则的领域问句分类方法  28-31
    4.2.1 类别划分  28
    4.2.2 类别规则提取  28-31
  4.3 基于统计学习的领域问句分类方法  31-38
    4.3.1 简单贝叶斯分类方法  32-33
    4.3.2 改进贝叶斯的分类方法  33-35
    4.3.3 基于句法依存分析的领域问句分类方法  35-38
  4.4 领域问句分类器的实现  38-40
    4.4.1 基于规则和统计相结合的领域问句分类方法  38-39
    4.4.2 实验结果及分析  39-40
  4.5 本章小结  40-41
第5章 领域问句相似度计算  41-51
  5.1 引言  41
  5.2 相似度的定义与研究方法分类  41-42
  5.3 现有的计算方法及存在的问题  42-45
    5.3.1 基于向量空间模型的TF-IDF方法  42-43
    5.3.2 语义词典方法  43-44
    5.3.3 句法依存树方法  44-45
  5.4 领域问句相似度计算方法  45-50
    5.4.1 词与词之间的语义相似度计算  45-47
    5.4.2 领域问句间相似度计算  47-50
  5.5 本章小结  50-51
第6章 云南旅游FAQ库问答系统原型的设计与实现  51-56
  6.1 引言  51
  6.2 系统设计与实现  51-54
    6.2.1 FAQ的收集与组织  52
    6.2.2 候选问题集的选择  52-53
    6.2.3 相似问题检索与答案提取  53-54
    6.2.4 FAQ库的更新  54
  6.3 实验结果及评价  54-55
  6.4 本章小结  55-56
第7章 结束语  56-58
  7.1 当前研究工作总结  56-57
  7.2 下一步研究设想  57-58
致谢  58-59
参考文献  59-64
攻读学位期间发表论文及参与项目  64-66
附录A 领域知识描述规则  66-69

相似论文

  1. 基于知网的受限域问答系统原型的设计与实现,TP391.1
  2. 领域知识对领域问答系统答案抽取影响研究,TP391.3
  3. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  4. 问答对自动获取的研究,TP391.1
  5. 基于搜索引擎的自动问答系统,TP391.3
  6. 基于半监督学习的中文问句分类研究,TP391.1
  7. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  8. 中文问答系统中问题分析关键技术的研究,TP391.1
  9. 事实型中文问答系统中片段检索方法的研究,TP391.1
  10. 主谓关系识别与主题相关性计算技术研究,TP391.1
  11. 基于异构信息的交互式问答系统,TP391.3
  12. 基于本体的教学领域知识库研究,TP391.1
  13. 受限域问答系统文本检索研究,TP391.1
  14. 问句依存句法及语义分析研究,TP391.1
  15. 基于语义Web的金融信息服务模式探讨,H313
  16. 基于本体的ERP实施知识库构建与管理研究,TP182
  17. 基于汉语框架网的旅游问答系统中询问类型及其处理策略研究,TP391.1
  18. 面向金融领域的中文问句语义块分析方法,TP391.1
  19. 问答系统中文问句分析关键问题研究,TP391.1
  20. 基于MAS的远程教育系统领域知识库的研究,TP399-C1
  21. 基于汉语框架网的中文问句分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com