学位论文 > 优秀研究生学位论文题录展示

基于搜索引擎的自动问答系统

作　者: 刘智慧
导　师: 鱼滨；盖玉莲
学　校: 西安电子科技大学
专　业: 计算机技术
关键词: 自动问答搜索引擎信息抽取问句分析
分类号: TP391.3
类　型: 硕士论文
年　份: 2010年
下　载: 125次
引　用: 0次
阅　读: 论文下载

内容摘要

自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识库系统,从而存在领域受限、更新滞后等缺点。互联网及搜索引擎的出现为自动问答系统重新构建知识库提供了新的机会。本文在对传统搜索引擎及自动问答系统的发展现状分析的基础上,设计并实现了一个高性能的基于搜索引擎的中文自动问答系统。该系统依托中文分词和名实体识别等自然语言技术,对自动问答系统中的两项关键技术---问句类型分析和答案挖掘算法进行了详细讨论。在此基础上,针对不同的问句类型,结合其特点和实际应用,分别提出了符合各自问句类型的答案挖掘算法。同时,本文实现了一个通用的支持人物,时间,地点这三类问题的应用系统,具有实际应用价值和可扩展性。本文提出的答案挖掘算法对中文信息处理及通用自动问答系统的相关研究具有一定的借鉴意义。实验结果证明,本文提出的问句类型分析和答案挖掘的算法有效的提高了MRR评价值,其中人物类型的问题的MRR值达到了0.75,三种问句类型的平均MRR也达到了0.6,基本上能够满足实际应用需求。自动问答系统是一个非常具有挑战性的课题,本文着重解决了三种基本问句类型的问题。以后将努力研究通用类型问题的解决,问句复述,相关性分析,系统实时性能的提高,以及答案精确度的进一步提高。

全文目录

摘要  3-4
Abstract  4-7
第一章绪论  7-15
  1.1 选题背景和研究意义  7-8
  1.2 国内外研究现状  8-12
    1.2.1 问答系统概述  8-9
    1.2.2 面向开放领域的自动问答系统概述  9-12
  1.3 本文工作及论文安排  12-15
    1.3.1 本文工作  12-13
    1.3.2 论文结构  13-15
第二章相关技术与理论  15-25
  2.1 问题分类中的数学模型  15-17
  2.2 HIT_LTP词法分析系统  17-18
  2.3 搜索引擎的选择  18-19
  2.4 网页抓取  19-23
    2.4.1 域名解析(DNS Resolver)  19-20
    2.4.2 HTTP协议  20-22
    2.4.3 Socket介绍  22-23
  2.5 小结  23-25
第三章系统分析与设计  25-35
  3.1 系统分析  25-28
    3.1.1 传统搜索引擎体系结构  25
    3.1.2 AutoQA的功能需求  25-26
    3.1.3 AutoQA面临的挑战  26-27
    3.1.4 系统性能需求  27-28
  3.2 Auto QA的总体架构  28-29
    3.2.1 系统结构设计  28-29
  3.3 问句处理  29-31
    3.3.1 概述  29
    3.3.2 问句分类  29
    3.3.3 问句关键词提取与权值计算  29-30
    3.3.4 问句扩展  30-31
  3.4 搜索引擎返回结果处理  31-33
    3.4.1 语料提取策略  31-32
    3.4.2 提取相关句  32-33
  3.5 答案挖掘与排序  33
  3.6 本章小结  33-35
第四章系统实现  35-49
  4.1 系统实现的总体框架  35-36
  4.2 HIT_LTP链接库  36-37
  4.3 问句处理模块  37-41
    4.3.1 问句关键词提取(QueryKeyword)  38
    4.3.2 问句类型(QueryType)  38-39
    4.3.3 问句扩展(QueryExtend)  39-41
  4.4 全局数据模块  41
  4.5 搜索引擎处理模块  41-44
    4.5.1 摘要抓取(CrawlAbstract)  41-43
    4.5.2 摘要净化(AbstractExtracter)  43-44
  4.6 答案挖掘模块  44-47
    4.6.1 答案挖掘(AnswerExtracter)  44-46
    4.6.2 答案合并(AnswerCombine)  46
    4.6.3 答案排序(AnswerSort)  46-47
  4.7 本章小结  47-49
第五章系统的测试  49-57
  5.1 评价标准与测试语料  49-50
    5.1.1 评价标准  49
    5.1.2 测试语料  49-50
  5.2 测试结果与分析  50-53
  5.3 自动问答系统性能演示  53-55
  5.4 本章小结  55-57
第六章结束语  57-59
致谢  59-61
参考文献  61-62

基于搜索引擎的自动问答系统

内容摘要

全文目录

相似论文