学位论文 > 优秀研究生学位论文题录展示
数据库中基于多索引段的全文索引研究
作 者: 漆团
导 师: 王元珍
学 校: 华中科技大学
专 业: 计算机软件与理论
关键词: 数据库信息检索整合 全文索引 倒排索引 事务特性
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
随着电子图书馆,企业办公自动化,互联网的发展,数据库管理系统DBMS中已积累大量的非结构化数据。采用在DBMS的外部建立索引的方法很难保证DBMS中的数据与索引的一致性,不适合对性能或者灵活性要求较高的应用。将全文索引与DBMS有机的结合起来是数据库——信息检索整合(DB-IR Integration, DB-IR)领域目前讨论的一种主流方法。为了能够快速地检索海量的非结构化数据,需要用到信息检索(Information Retrieval, IR)领域的全文索引技术。尽管有多种数据结构可以用于实现全文索引,但是目前的主流是使用倒排索引。已有的讨论有机结合方式的论文,使用的是基于单倒排索引段的索引,存在性能低下的问题。针对这一不足,提出在DBMS中使用基于多倒排索引段的全文索引,来提高建立索引和查询索引的性能。根据数据库自身环境的特性改进索引段结构。将数据源表的关键字和关键字的大小序号,直接存储在倒排索引单词的倒排表中,并使用位图存储删除信息。索引段结构的改进可以进一步提高全文索引上的查询和删除操作的性能。通过实验验证,相对于已有的DBMS中的全文索引,DBMS中的基于多倒排索引段的全文索引,在建立和查询索引方面具有性能上的优势。并讨论如何使用B+-Tree这一DBMS中常用的数据结构来实现基于多倒排索引段的全文索引。最后,设计出一套并发控制和日志恢复机制,来解决如何保证索引相关事务ACID特性的问题。
|
全文目录
相似论文
- 全文检索及相关技术研究,TP391.3
- 基于局部特征的图像拷贝检测研究,TP391.41
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 海量数据存储与全文检索,TP333
- 基于倒排索引的压缩算法性能研究,TP391.3
- 基于Lucene的网页抓取与检索系统,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于内容的快速音频检索,TP391.3
- 基于Android的桌面搜索引擎的研究与实现,TP391.3
- 一种基于语义标注的个性化搜索技术的研究与实现,TP391.3
- 动态全文索引系统关键技术研究,TP391.3
- 基于百科的中文知识搜索系统的设计与实现,TP391.3
- 基于关键字的模糊查询技术的研究,TP311.13
- 基于双路索引的XML查询优化研究,TP311.13
- 一种基于与或图的语义Web服务自动组合方法的研究,TP393.09
- 面向领域的业务服务建模及其实例化方法的研究,TP311.52
- 分布式中文全文检索技术的研究与实现,TP391.3
- 一种可扩展的面向中文主题搜索引擎的研究与设计,TP391.3
- 基于MPI的分布式搜索引擎系统研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|