学位论文 > 优秀研究生学位论文题录展示
一种基于DB&IR的融合查询机制的研究与实现
作 者: 宋宇峰
导 师: 徐焕良
学 校: 南京农业大学
专 业: 计算机应用技术
关键词: 模式图 候选网络 Top-k 数据库检索 有限元组集 查询优化 关键词 相关性排序
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的快速发展和企业信息化程度的提高,越来越多的信息被存储在数据库中并供用户查询。但是传统的数据库系统是面向程序员和高级用户的,用户需要熟悉复杂的查询语句并且了解数据库的模式才能查询信息,这对一般用户而言比较困难。同时,由于数据库查询缺少对相关性排序的支持,用户难以有效地从成千上万的查询结果中发现所需要的信息。而信息检索中的相关技术能够解决目前数据库查询中存在的这些不足,因此如何将数据库技术与信息检索技术融合起来,为这些面向用户的数据库提供高效且易于使用的检索功能,成为一个普遍的需求。而数据库的关键词检索系统正是这种需求下的一个产物。本文首先介绍两类主要的数据库关键词检索算法:数据图算法和模式图算法,然后对这两类算法进行比较。由于模式图算法不需要维持数据库中所有元组构成的关系图,具有较小的系统开销。同时,当数据库的内容发生变化时,模式图检索算法能够更加快速地适应这些变化,并在检索结果中加以体现。因此,基于模式图的检索算法是目前数据库关键词检索研究的热点之一。但是,现有的模式图算法仍然存在着检索效率低下,查询准确率不高等问题。为了解决这些问题,本文对现有算法进行改进,改进后的算法包括以下四个部分:数据库预处理、精简查询模式构造、候选网络生成和候选网络执行。其中,数据库预处理是指根据数据库包含的关键词,生成预设查询模式以及对应的元候选网络,同时根据不同的更新条件,对元候选网络进行更新。精简查询模式构造是对用户输入的关键词进行组合,去除重复出现的元组,构造精简查询模式,通过这种方法有效地降低了元组集的规模。候选网络生成时,首先匹配用户的查询模式与预设查询模式,如果匹配成功,则选取预设模式对应的候选网络,如果匹配失败,则根据查询模式与数据库模式图动态生成候选网络。候选网络执行时,本文选取余弦向量公式来计算元组连接树与查询的相似度,并据此设计一个优化的元组连接树生成算法,同时还对SQL语句的生成与执行进行优化,进一步提高系统检索的效率。在前文改进算法研究的基础上,本文设计并实现一个基于改进算法的系统,与使用现有检索算法的系统进行比较。实验使用两个规模的数据集,通过对比使用不同优化算法的系统检索耗时来分析改进算法对系统检索效率的影响,并引入信息检索中的平均准确率与召回率来评价系统的检索性能。实验表明,使用改进算法的系统具有更高的检索性能和检索效率。
|
全文目录
摘要 9-11 ABSTRACT 11-13 第1章 绪论 13-21 1.1 研究背景与问题提出 13-15 1.2 国内外研究现状 15-17 1.3 论文内容及组织结构 17-21 1.3.1 研究内容 17-19 1.3.2 组织结构 19-21 第2章 关系数据库的关键词检索算法 21-41 2.1 基于数据图的检索算法 21-29 2.1.1 预处理模块 23-24 2.1.2 数据图检索模块 24-28 2.1.3 Top-k结果生成和展示模块 28-29 2.2 基于模式图的检索算法 29-39 2.2.1 候选网络生成模块 31-33 2.2.2 候选网络执行模块 33-39 2.3 两种检索算法的比较 39-40 2.4 本章小结 40-41 第3章 基于模式图的检索算法研究与改进 41-65 3.1 数据库预处理 43-48 3.1.1 元候选网络生成算法 44-47 3.1.2 元候选网络更新 47-48 3.2 精简查询模式构造 48-49 3.3 候选网络生成 49-53 3.3.1 查询模式匹配 50-51 3.3.2 候选网络生成算法 51-53 3.4 候选网络执行 53-64 3.4.1 相似度计算公式 53-60 3.4.2 元组连接树生成算法 60-61 3.4.3 SQL语句生成优化 61-62 3.4.4 数据库查询优化 62-64 3.5 本章小结 64-65 第4章 系统设计与实验分析 65-81 4.1 系统设计 65-72 4.1.1 预处理模块 66-67 4.1.2 候选网络生成模块 67-70 4.1.3 候选网络执行模块 70-72 4.2 实验分析 72-80 4.2.1 实验环境 72-74 4.2.2 数据库预处理对效率的影响 74-75 4.2.3 候选网络生成优化对效率的影响 75-76 4.2.4 候选网络执行优化对效率的影响 76-78 4.2.5 平均准确率与召回率 78-80 4.3 本章小结 80-81 第5章 总结与展望 81-83 5.1 总结 81-82 5.2 进一步的工作 82-83 参考文献 83-89 致谢 89
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 多核环境下内存数据库查询优化的研究,TP311.13
- 达梦嵌入式数据库的执行计划缓存研究,TP311.13
- 关键词广告商标侵权问题研究,D922.294
- 面向非结构化数据查询优化的存储系统,TP333
- 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
- RFID复杂事件实时查询处理及其优化策略,TP391.44
- 外包数据库模式下中文文档密文检索研究,TP391.3
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于社交网络好友关系的图查询算法研究与应用,TP391.3
- K-匿名数据的查询方法研究,TP309
- 隧道挖装机挖掘装置的参数化设计研究,U455.3
- 沥青路面近荷载区Top-Down裂缝形成机理及扩展规律分析,U416.217
- 论法官判后答疑,D926.2
- 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
- 多格式海量数据统一存取的效率优化,TP311.13
- 基于语义距离的Web页面关键词获取研究,TP391.1
- 海量数据存储与全文检索,TP333
- 中国鸟类检索查询系统的构建,Q958
- 面向DAG数据依赖型应用系统研究与实现,TP311.1
- 肾精气阴阳理论及临床应用研究,R256.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|