学位论文 > 优秀研究生学位论文题录展示

中文问答系统的问句分类研究

作 者: 牛彦清
导 师: 陈俊杰
学 校: 太原理工大学
专 业: 计算机应用技术
关键词: 问题分类 支持向量机 知网 依存关系
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 122次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术和因特网的飞速发展,人们期望可以高效地从海量信息中获得准确的目标信息,和基于关键词的传统搜索引擎相比,问答系统可以更好的满足人们的检索需求。问答系统作为信息检索的高级形式,它允许采用中文自然语言作为查询条件,而且直接以答案的形式将结果返回给用户,大大提高了用户的检索满意度和时间成本。问答系统一般包含三部分:问题分析、信息检索和答案抽取。问题分析是整个问答系统的基础,而在此部分中问题分类模块又是根基。对问题进行分类,可以有效的缩减候选答案的空间和查找准确答案的时间,而且一个问题所具有的类型信息直接决定了答案的抽取策略,问题分类结果的好坏直接影响着整个问答系统的性能和质量,因此,研究问题分类对于提高问答系统的性能具有重要意义。在对问题分类的相关理论进行全面和深入地学习的基础上,本文面向开放域,针对中文事实型问题,主要研究中文问题分类,研究内容包括以下方面:1.基于机器学习的问题分类在进行学习之前,必须要把问题表示成计算机可以识别的结构化数据形式,本文选用的模型是向量空间模型,为了更好地表示问题的语义类别,通过对中文问题的分析,本文提出了一种融合多种语义的问题分类特征提取的新方法,该方法提取问题疑问词、问题的核心关键词在《知网》中的主要义原、命名实体、单/复数作为问题的分类特征来表示问题,其中每一类特征都有相应的提取方法。2.由于中文自然语言的复杂性和多样性,在提取问题的核心关键词在《知网》中的主要义原的过程中,确定某个词汇的正确义项便尤为重要。本文提出了一种基于义原的词义消歧方法,该方法通过依存关系找到歧义词的上下文,从上下文义项和歧义词义项之间的义原关系中获取指导词义消歧的知识,完成词义消歧。将其引入到问题分类过程中可以比较好地确定某个词汇的正确义项,在一定程度上解决了歧义词对分类效果的不良影响。3.设计了多个实验验证本文提出的问题分类特征提取方法的有效性和引入基于义原的词义消歧方法的必要性,最终得出SVM算法比较适用于本文的分类特征,在大类和小类上的分类精度分别达到92.82%和84.45%,优于其他同类分类方法,并使用SVM算法设计并实现了一个中文问题分类系统。

全文目录


摘要  3-5
ABSTRACT  5-10
第一章 绪论  10-18
  1.1 研究的背景和意义  10-11
  1.2 问答系统综述  11-14
    1.2.1 问答系统体系结构  11-12
    1.2.2 问答系统研究现状  12-14
  1.3 问题分类  14-16
    1.3.1 问题分类体系  14-15
    1.3.2 问题分类方法  15-16
  1.4 本文的主要研究内容  16-17
  1.5 本文的组织结构  17-18
第二章 问题分类的相关理论  18-30
  2.1 知网  18-21
    2.1.1 知网简介  18-20
    2.1.2 知识描述语言  20-21
  2.2 依存句法分析  21-22
  2.3 问题分类算法  22-28
    2.3.1 支持向量机  22-26
    2.3.2 KNN算法  26-27
    2.3.3 最大熵算法  27-28
  2.4 本章小结  28-30
第三章 融合多种语义的问题分类特征提取  30-42
  3.1 问题的表示  30-31
  3.2 问题预处理和关键词提取  31-32
  3.3 问题疑问词的提取  32-34
  3.4 问题的核心关键词在《知网》中的主要义原的提取  34-39
    3.4.1 问题的核心关键词的选取  34-36
    3.4.2 核心关键词在《知网》中的主要义原的提取  36-39
  3.5 命名实体的提取  39-40
  3.6 单/复数的提取  40-41
  3.7 本章小结  41-42
第四章 词义消歧在问题分类中的应用  42-50
  4.1 词义消歧简介  42
  4.2 词义消歧的方法  42-46
    4.2.1 基于规则的方法  43
    4.2.2 基于词典的方法  43-44
    4.2.3 基于语料库的方法  44-46
  4.3 基于义原的词义消歧方法  46-49
  4.4 本章总结  49-50
第五章 中文问题分类系统的实现与实验  50-58
  5.1 中文问题分类系统的实现  50-53
    5.1.1 系统总体结构  50-51
    5.1.2 系统界面  51-53
  5.2 中文问题分类系统的实验  53-57
    5.2.1 实验数据  53
    5.2.2 问题分类体系  53-54
    5.2.3 评价标准  54
    5.2.4 实验结果和实验分析  54-57
  5.3 本章小节  57-58
第六章 总结与展望  58-60
参考文献  60-64
致谢  64-66
攻读学位期间发表的学术论文  66

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于词义及语义分析的问答技术研究,TP391.1
  7. 基于三维重建的焊点质量分类方法研究,TP391.41
  8. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 基于支持向量机的故障诊断方法研究,TP18
  13. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  14. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  15. 基于车载3D加速传感器的路况监测研究,TP274
  16. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  17. WordNet和《中国分类主题词表》的映射研究,G254
  18. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  19. 基于机器学习的入侵检测系统研究,TP393.08
  20. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  21. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com