学位论文 > 优秀研究生学位论文题录展示
数字有机体数据库中信息检索研究与实现
作 者: 朱静
导 师: 刘心松
学 校: 电子科技大学
专 业: 计算机系统结构
关键词: 数字有机体 关系数据库 关键字检索 检索策略
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 36次
引 用: 1次
阅 读: 论文下载
内容摘要
传统上,数据库技术和信息检索技术两者独立发展。数据库技术处理结构化数据,采用结构化查询语言,查询结果是精确的完全的并且被同等对待。信息检索技术处理非结构化数据,采用非结构化查询语言,查询结果不精确不完全,根据相关性进行返回。把信息搜索技术应用到数据库关键词的搜索中提高了数据库系统的易用性,用户无需知道数据的存储结构和SQL语法规则,可以使用简单的关键词自由的检索数据库,挖掘其中的信息和知识,信息资源的利用效率得到很大提高。因此,8010教研室在数字有机体数据库系统基础上,以数据库信息的灵活检索为根本出发点,开发了数据库信息检索系统。信息检索系统可分为预处理阶段和查询阶段。查询阶段首先对用户检索请求进行语法分析,然后通过检索策略获得检索结果。在用户未指定检索关键字所在属性的情况下,检索策略的设计是研究的一个重点,检索结果必须满足完整性和非冗余性。本课题充分分析现有数据库关键字检索系统和MySQL数据库。在数字有机体数据库系统的基础上,设计和实现了基于数字有机体数据库信息检索系统的检索策略。此部分主要分为四个阶段:索引查询、生成数据图、获得结果树和SQL语句的生成、执行。索引查询和生成数据图在同一模块中实现,数据图由关键字所在位置和数据库结构生成,体现了数据库中包含检索关键字的关系以及关系之间的联系。通过采用双层结构,充分利用数据库结构属性和查询类型特点对索引信息进行精炼,减少数据图中无用数据的产生。遍历数据图,可获得所有满足用户请求的子图(结果树)。在结果树生成算法中,在保证结果树完整性的同时,对遍历起始节点的有效选择减少了在遍历时产生的冗余子树。结果树包含检索请求的所有关键字,指明了关系中的选择操作和关系之间的连接条件,通过构造相应的SQL查询语句,最终获得满足检索结果。系统通过模块化和层次化设计使各模块算法具有良好的扩张性,并且采用ODBC接口与数据库服务器进行交互,确保了整个信息检索模块的独立性。最后对系统进行功能和性能测试,指出不同参数对数据库关键字检索的影响。
|
全文目录
摘要 4-5 ABSTRACT 5-11 第一章 引言 11-15 1.1 研究背景 11-13 1.1.1 关系数据库关键字检索 11-12 1.1.2 数字有机体数据库 12-13 1.2 研究意义和目标 13 1.3 本文工作 13-14 1.4 论文组织 14-15 第二章 关系数据库关键字搜索概述 15-26 2.1 文本搜索与数据库搜索 15 2.2 关系数据库关键字检索 15-18 2.3 相关数据库关键字搜索系统分析 18-22 2.3.1 DBXplorer 19 2.3.2 BANKS 19-20 2.3.3 DISCOVER/IR-Style 20 2.3.4 ObjectRank 20-21 2.3.5 小结 21-22 2.4 功能概述 22-24 2.4.1 结果排序 22-23 2.4.2 执行效率 23 2.4.3 结果返回 23-24 2.4.4 与传统文本/网页搜索区别 24 2.5 数据库关键字检索小结 24-26 第三章 DOSSQL 关键字搜索子系统总体设计 26-33 3.1 基本概念 26-27 3.2 系统平台 27-28 3.3 设计目标 28-30 3.4 搜索执行模块 30-32 3.4.1 查询阶段 30-31 3.4.2 预处理阶段 31-32 3.5 本章小结 32-33 第四章 IREngine 实现 33-44 4.1 IR Engine 介绍 33-34 4.1.1 相关定义 33 4.1.2 模块功能 33-34 4.2 模块实现基础 34 4.3 索引查询 34-36 4.3.1 (R|-)~(k_i) 信息的处理 35 4.3.2 R~K 的计算 35-36 4.4 数据图设计 36-38 4.4.1 数据图简述 36 4.4.2 数据图结构 36-38 4.5 算法描述 38-40 4.5.1 R~K 计算算法 38-39 4.5.2 数据图生成算法 39-40 4.6 IR Engine 数据结构 40-43 4.6.1 使用的外部类说明 40-41 4.6.2 IREngine 类结构 41-43 4.7 本章小结 43-44 第五章 ResultTree Generator 实现 44-56 5.1 引言 44-46 5.1.1 结果树特征 44-45 5.1.2 结果树算法概述 45-46 5.2 结果树问题描述 46-48 5.2.1 重复遍历 46 5.2.2 环形结构 46-47 5.2.3 结果树最大规模T_(max) 47-48 5.2.4 结果树特征 48 5.3 数据图预处理 48-49 5.4 结果树生成算法 49-53 5.4.1 起始顶点选择 49-50 5.4.2 算法数据结构 50-51 5.4.3 算法描述 51-52 5.4.4 算法分析 52-53 5.5 数据结构 53-55 5.6 本章小结 55-56 第六章 Execution Engine 实现 56-65 6.1 查询语句构造 56-60 6.1.1 MATCH 语句构造 58-59 6.1.2 LIKE 语句构造 59 6.1.3 连接语句构造 59-60 6.1.4 语句构造中的优化 60 6.2 SQL 语句执行 60-61 6.3 结果排序 61-63 6.3.1 排序算法基本思想 61-62 6.3.2 系统采用的排序算法 62-63 6.4 数据结构 63-64 6.5 本章小结 64-65 第七章 测试 65-69 7.1 测试环境 65 7.2 关键字个数对性能的影响 65-66 7.3 结果树最大规模T_(max) 对性能的影响 66-67 7.4 返回结果个数top-k 对性能的影响 67 7.5 各模块资源消耗对比 67-68 7.6 本章小结 68-69 第八章 结论 69-70 参考文献 70-73 致谢 73-74 攻硕期间取得的研究成果 74-75
|
相似论文
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 概率XML数据上关键字检索算法的研究与实现,TP391.3
- 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
- TPC-E测试系统的设计与实现,TP311.52
- 基于关系数据库的本体半自动构建方法,TP311.13
- 基于关系数据库的OWL本体的提取与存储研究,TP391.1
- 基于Caché数据库的临床检验信息系统设计与实现,TP311.13
- 基于本体的知识管理系统的设计与实现,TP311.52
- 基于XML技术异构数据转换模型的研究与实现,TP311.52
- 基于关系数据库的工作流引擎管理系统的设计与开发,TP311.52
- 基于物联网的信息共享平台设计,TN929.5
- 基于XML的非结构化数据管理研究及应用,TP311.13
- 基于OpenGL的三维巷道漫游系统的设计与实现,TP391.41
- 环形加热炉仿真系统应用平台的设计与实现,TP391.9
- 一种变压器故障诊断专家系统,TM407
- 数字有机体辅助节点的实现,TP393.02
- 关联规则挖掘算法在高校专业建设中的应用—Apriori算法用于国防职院课程改革研究,TP311.13
- 基于关系数据库的本体构建方法研究,TP311.13
- XML文档在关系数据库中存储与查询的实现,TP311.13
- 基于关系数据库的XML电子病历系统研究,TP311.52
- 基于XML的半结构化数据存储技术研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|