学位论文 > 优秀研究生学位论文题录展示

面向问答系统的问题分类与答案抽取研究

作 者: 张傲
导 师: 胡明涵
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 问答系统 问题分类 特征选取 答案抽取 实体识别
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 10次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着人工智能、信息检索以及自然语言处理等技术地发展,问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言,中文领域并没有流行的问答系统评测,相关的数据集也十分匮乏,导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索,主要研究工作为面向中文问答系统的问题分析与答案抽取。在问题分析部分,本文首先提出了一种基于词组合及问题类别的停用词选取方法,在选取停用词时先从由n个词组合成的短语中提取,并且在提取过程中考虑问题类别情况,通过不断减小n的值来完成迭代。在本文的数据集上,这一方法取得了较好的效果。接着,针对本文的问题,基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况,从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类,使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45%。为了进一步提高问题分类的性能,本文以TFC-ICF方法为基准,提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取,并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用,上述三种方法在问题分类上的最高准确率分别可以达到86.01%、85.14%和82.13%。在答案抽取部分,本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子,进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体,最后,本文提出了一种基于句子相似度和实体信息的答案抽取方法,在NTCIR5的CLQA问答测试集上取得了较好的实验结果。本文对问题分类和答案抽取做了重点研究,并得到了一些成果,但其中也存在一定的问题,比如,问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-17
  1.1 研究背景  11-12
  1.2 相关工作  12-16
    1.2.1 问题分析  13-14
    1.2.2 答案检索  14-15
    1.2.3 答案抽取  15-16
  1.3 本文组织结构  16-17
第2章 问答系统基础技术  17-29
  2.1 问题预处理  17-18
    2.1.1 分词及去除停用词  17
    2.1.2 词性标注  17-18
    2.1.3 句法分析  18
  2.2 问题分类技术  18-22
    2.2.1 类别体系  18-19
    2.2.2 常用的问题分类方法  19-22
  2.3 答案检索  22-25
    2.3.1 基于搜索引擎的答案检索  23
    2.3.2 检索结果页面分析  23-24
    2.3.3 网页正文提取技术  24-25
  2.4 相关段落检索  25
  2.5 实体识别  25-27
    2.5.1 条件随机场模型  26-27
  2.6 句子相似度计算  27
  2.7 本章小结  27-29
第3章 问题的特征选取与分类  29-53
  3.1 问题数据集的构建与类别体系  29-32
  3.2 构建停用词表  32-36
    3.2.1 算法介绍  33-35
    3.2.2 停用词表抽取结果对比  35-36
  3.3 基于词的特征选取  36-40
    3.3.1 基于类别信息的特征词选取  37-38
    3.3.2 TFC-ICF方法的改进  38
    3.3.3 对比实验  38-40
  3.4 人工选取问句特征词  40-42
  3.5 关键词扩展  42-49
    3.5.1 同义词扩展  43-44
    3.5.2 上位词扩展  44-45
    3.5.3 关键词扩展实验  45-49
  3.6 基于语法信息的特征选取  49-50
    3.6.1 基于依存句法的特征选取  49-50
    3.6.2 基于句法特征的实验  50
  3.7 本章小结  50-53
第4章 事实型问题的答案抽取  53-65
  4.1 句子相似度计算  53-55
    4.1.1 基于向量空间模型的方法  53-55
  4.2 实体识别  55-58
    4.2.1 基于规则的实体识别  56-57
    4.2.2 基于统计模型的实体识别  57-58
    4.2.3 实体识别的实验  58
  4.3 传统的答案抽取  58-63
    4.3.1 事实型答案抽取方法  59-60
    4.3.2 答案抽取实验  60-63
  4.4 基于问答社区的答案抽取  63
  4.5 本章小结  63-65
第5章 总结与展望  65-67
  5.1 工作总结  65-66
  5.2 未来工作  66-67
参考文献  67-71
致谢  71-73
硕士期间参与的项目及发表的论文  73

相似论文

  1. 基于词义及语义分析的问答技术研究,TP391.1
  2. 面向农民的问答系统设计与实现,G353.1
  3. 汉语嵌套命名实体识别方法研究,TP391.1
  4. 文献计量学和文本挖掘在生命科学中的应用,TP391.1
  5. 面向军事知识的自动问答系统的设计与实现,TP311.52
  6. 面向销售服务的自动问答系统的设计与实现,TP311.52
  7. 基于隐马尔科夫模型的操作员功能状态分类,TP273
  8. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  9. 基于本体的医学命名实体识别技术研究,TP391.1
  10. 基于CRF的命名实体和关系的联合抽取,TP391.4
  11. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  12. 中文命名实体识别与歧义消解研究,TP391.1
  13. 基于内容挖掘的中文垃圾邮件过滤技术研究,TP393.098
  14. 基于实体和信息网络知识提取的邮件管理系统的设计和实现,TP393.098
  15. 基于内容的Web新闻文本自动分类问题研究,TP391.1
  16. 中文命名实体识别及若干相关问题的研究,TP391.41
  17. 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
  18. 基于词和基本短语模式的特征提取方法,TP391.1
  19. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
  20. 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
  21. 基于图模型的中文小样本文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com