学位论文 > 优秀研究生学位论文题录展示
基于搜索引擎的自动问答系统
作 者: 刘智慧
导 师: 鱼滨;盖玉莲
学 校: 西安电子科技大学
专 业: 计算机技术
关键词: 自动问答 搜索引擎 信息抽取 问句分析
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 125次
引 用: 0次
阅 读: 论文下载
内容摘要
自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识库系统,从而存在领域受限、更新滞后等缺点。互联网及搜索引擎的出现为自动问答系统重新构建知识库提供了新的机会。本文在对传统搜索引擎及自动问答系统的发展现状分析的基础上,设计并实现了一个高性能的基于搜索引擎的中文自动问答系统。该系统依托中文分词和名实体识别等自然语言技术,对自动问答系统中的两项关键技术---问句类型分析和答案挖掘算法进行了详细讨论。在此基础上,针对不同的问句类型,结合其特点和实际应用,分别提出了符合各自问句类型的答案挖掘算法。同时,本文实现了一个通用的支持人物,时间,地点这三类问题的应用系统,具有实际应用价值和可扩展性。本文提出的答案挖掘算法对中文信息处理及通用自动问答系统的相关研究具有一定的借鉴意义。实验结果证明,本文提出的问句类型分析和答案挖掘的算法有效的提高了MRR评价值,其中人物类型的问题的MRR值达到了0.75,三种问句类型的平均MRR也达到了0.6,基本上能够满足实际应用需求。自动问答系统是一个非常具有挑战性的课题,本文着重解决了三种基本问句类型的问题。以后将努力研究通用类型问题的解决,问句复述,相关性分析,系统实时性能的提高,以及答案精确度的进一步提高。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-15 1.1 选题背景和研究意义 7-8 1.2 国内外研究现状 8-12 1.2.1 问答系统概述 8-9 1.2.2 面向开放领域的自动问答系统概述 9-12 1.3 本文工作及论文安排 12-15 1.3.1 本文工作 12-13 1.3.2 论文结构 13-15 第二章 相关技术与理论 15-25 2.1 问题分类中的数学模型 15-17 2.2 HIT_LTP词法分析系统 17-18 2.3 搜索引擎的选择 18-19 2.4 网页抓取 19-23 2.4.1 域名解析(DNS Resolver) 19-20 2.4.2 HTTP协议 20-22 2.4.3 Socket介绍 22-23 2.5 小结 23-25 第三章 系统分析与设计 25-35 3.1 系统分析 25-28 3.1.1 传统搜索引擎体系结构 25 3.1.2 AutoQA的功能需求 25-26 3.1.3 AutoQA面临的挑战 26-27 3.1.4 系统性能需求 27-28 3.2 Auto QA的总体架构 28-29 3.2.1 系统结构设计 28-29 3.3 问句处理 29-31 3.3.1 概述 29 3.3.2 问句分类 29 3.3.3 问句关键词提取与权值计算 29-30 3.3.4 问句扩展 30-31 3.4 搜索引擎返回结果处理 31-33 3.4.1 语料提取策略 31-32 3.4.2 提取相关句 32-33 3.5 答案挖掘与排序 33 3.6 本章小结 33-35 第四章 系统实现 35-49 4.1 系统实现的总体框架 35-36 4.2 HIT_LTP链接库 36-37 4.3 问句处理模块 37-41 4.3.1 问句关键词提取(QueryKeyword) 38 4.3.2 问句类型(QueryType) 38-39 4.3.3 问句扩展(QueryExtend) 39-41 4.4 全局数据模块 41 4.5 搜索引擎处理模块 41-44 4.5.1 摘要抓取(CrawlAbstract) 41-43 4.5.2 摘要净化(AbstractExtracter) 43-44 4.6 答案挖掘模块 44-47 4.6.1 答案挖掘(AnswerExtracter) 44-46 4.6.2 答案合并(AnswerCombine) 46 4.6.3 答案排序(AnswerSort) 46-47 4.7 本章小结 47-49 第五章 系统的测试 49-57 5.1 评价标准与测试语料 49-50 5.1.1 评价标准 49 5.1.2 测试语料 49-50 5.2 测试结果与分析 50-53 5.3 自动问答系统性能演示 53-55 5.4 本章小结 55-57 第六章 结束语 57-59 致谢 59-61 参考文献 61-62
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|