学位论文 > 优秀研究生学位论文题录展示
面向软件测试领域的自动问答系统
作 者: 冯晶晶
导 师: 刘沛骞
学 校: 河南理工大学
专 业: 计算机应用技术
关键词: 自动问答 中文分词 问题理解 信息检索 模式匹配
分类号: TP311.53
类 型: 硕士论文
年 份: 2010年
下 载: 53次
引 用: 0次
阅 读: 论文下载
内容摘要
在数字信息时代,人们对信息的需求表现得前所未有的强烈,尤其是在互联网浪潮席卷全球之后,这种需求达到了极至。庞大互联网的出现,给我们提供了无穷的学习资源。伴随搜索引擎技术的发展与普及,只要我们输入关键词,就能轻而易举地查到我们想要的东西。但是网上信息不断地增长既给我们带来了方便,也带来发麻烦。搜索引擎返回给我们的只是大量相关的网页而不是准确的答案。如何在这些浩瀚的网页中准确地找到我们想要的东西是对搜索引擎的一个巨大挑战。为了克服搜索引擎的缺点,国内外许多学者致力于探索新的搜索技术,就这样自动问答系统应运而生了。本文设计了一个面向软件测试领域的中文自动问答系统,并利用论坛上“问题-答案”的形式扩充数据库。主要包括中文分词模块、问题理解模块、信息检索模块三个部分。中文分词是中文自动问答系统的关键技术,分词效果的好坏直接影响到对用户所提问题理解的程度,在该模块本文采用“双向最大匹配+回退多字”的方法提出了一种改进的歧义字段发现算法,使它能够处理多字长的交集型歧义字段。问题理解模块是要明白用户的提问目的,本系统通过两种方式对用户提出的问题进行处理。第一步,对用户提问的问题先与数据库中的问题进行模式匹配,以期尽快找到答案,本文在分析BM模式匹配算法的基础上,提出了一种改进的BM模式匹配算法,利用连续的一串不是模式字符串中的字符无需比较的特点,改变字符比对顺序,减少比对次数,从而提高匹配算法的效率。第二步,对于第一步匹配失败的问题,采用自己开发的搜索引擎在软件测试论坛上搜索相关的问题,找到相应的答案。信息检索模块的任务就是用前面提取出来的关键字到软件测试论坛上查找相关的问题,返回最相关的答案。
|
全文目录
致谢 4-5 摘要 5-6 Abstract 6-10 1 绪论 10-16 1.1 问题的提出及意义 10-11 1.2 国内外研究现状分析 11-13 1.2.1 国外研究现状 11-12 1.2.2 国内研究现状 12-13 1.3 自动问答系统评测会议 13-14 1.4 本文主要工作 14 1.5 本文的组织和安排 14 1.6 本章小结 14-16 2 自动问答系统的常用技术分析 16-20 2.1 中文分词技术 16-17 2.2 分词中的难题 17-18 2.3 搜索引擎技术 18-19 2.3.1 搜索引擎与信息检索 18 2.3.2 搜索引擎的原理 18-19 2.4 本章小结 19-20 3 自动问答系统的总体设计 20-38 3.1 自动问答系统的基本原理 20-21 3.2 中文分词 21-27 3.2.1 Lucene 技术简介 21-22 3.2.2 Lucene 中文分词器 22-23 3.2.3 对歧义字段发现的改进 23-27 3.3 问题理解 27-31 3.3.1 问题类型的确定 27-30 3.3.2 关键词提取 30-31 3.3.3 关键词扩展 31 3.4 信息检索 31-35 3.4.1 网页搜索技术 32 3.4.2 网页分析技术 32-33 3.4.3 网页索引技术 33-34 3.4.4 网页检索技术 34-35 3.5 答案抽取 35-36 3.6 本章小结 36-38 4 自动问答系统的实现 38-50 4.1 系统运行环境准备 38 4.2 数据库的设计与实现 38-39 4.3 各模块算法的实现 39-48 4.3.1 中文分词模块 39-41 4.3.2 问题理解模块 41-44 4.3.3 信息检索模块 44-48 4.4 本章小结 48-50 5 总结与展望 50-52 5.1 工作总结 50 5.2 工作展望 50-51 5.3 本章小节 51-52 参考文献 52-55 附录 55-59 作者简历 59-60 学位论文数据集 60
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 主观题自动评分技术研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- Windows系统内核Rootkit的检测技术研究,TP309
- 僵尸控制行为识别及检测方法研究,TP393.08
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- Ares协议分析与流量检测机制研究,TP393.06
- 基于Web日志的入侵检测系统设计与实现,TP393.08
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 企业邮件监管系统的设计与实现,TP393.098
- 排序学习损失函数的研究,TP181
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件维护
© 2012 www.xueweilunwen.com
|