学位论文 > 优秀研究生学位论文题录展示
面向数据空间的异构数据索引方法研究
作 者: 王红卫
导 师: 王念滨
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 数据空间 索引 混合索引 扩展倒排索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
当前,个人和组织的信息呈现急剧增长趋势且非结构化数据所占比重在不断的增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战。然而,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。因此,研究数据空间中异构数据索引方法具有重要意义。数据管理研究社区对索引方法已经存在很多的研究。过去,对索引方法的研究通常是基于单一数据格式和查询方式,例如,搜索引擎中的无结构化数据格式和关键词查询和关系数据库上的关系表和SQL查询。然而,数据空间中的数据具有多数据源、异构等特点,它可能包含结构化、半结构化和无结构化等多种数据格式,另外,由于数据空间的Pay-as-you-go特性使得需要提供从关键字查询到结构化查询等多样化搜索查询服务,例如,起初由于抽取信息较弱和数据源之间没有建立语义关联,可以只提供基本的关键字搜索服务,随着时间的推移用户和系统将会逐渐的建立更多的模式、语义关联信息,系统也将能够支持更加丰富的查询方式。因此,与传统的索引方法不同,数据空间中的索引方法需要能够索引多种格式数据,同时支持关键字查询和结构化查询等多种查询方式。通过对现有数据模型和查询分析,本文使用iMeMex数据模型作为数据空间的数据模型且给出了关键字查询、谓词查询和路径查询三种查询方式的定义,在此基础上提出了一种新的索引方法来提高对数据空间中异构数据的搜索查询效率,本文称之为EIBH混合索引方法。新的索引方法由扩展的倒排列表和两个辅助索引构成,通过扩展倒排列表表的关键字列和链表节点信息索引资源视图来支持三种查询和提高查询处理效率;利用两个辅助索引来解决索引连接效率低下问题。实验结果表明:该索引方法能够有效、可行的解决数据空间中异构数据索引和查询效率问题。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 第1章 绪论 10-21 1.1 课题的来源、目的及意义 10-13 1.1.1 课题的背景 10-12 1.1.2 课题的意义 12-13 1.2 国内外研究现状 13-19 1.2.1 数据空间的研究现状 13-17 1.2.2 异构数据索引方法研究现状 17-19 1.3 主要研究内容和预期研究成果 19 1.4 本文的组织结构 19-21 第2章 数据空间中异构数据索引方法相关研究 21-32 2.1 数据模型及其查询接口 21-27 2.1.1 iMeMex 数据模型及其查询语言 21-24 2.1.2 Triple 领域模型及其查询方式 24-25 2.1.3 CoreSpace 垂直数据模型及其查询方式 25-27 2.2 相关索引方法研究 27-31 2.2.1 倒排列表技术 27-29 2.2.2 Hybrid-ATIL 索引技术 29-30 2.2.3 基于 iDM 的 NAIVE 索引方法 30-31 2.3 本章小结 31-32 第3章 扩展倒排列表方法索引数据空间 32-45 3.1 研究概述 32-33 3.2 数据空间查询问题定义 33-35 3.2.1 查询语言 33-34 3.2.2 简单查询处理方式存在的问题 34-35 3.3 扩展倒排链表索引资源视图 35-44 3.3.1 索引资源视图内部信息 35-41 3.3.2 索引资源视图间的关联信息 41-44 3.4 本章小结 44-45 第4章 基于高效连接的辅助索引构建 45-54 4.1 研究概述 45 4.2 问题的提出 45-47 4.3 辅助索引构建方法 47-53 4.3.1 为索引链表建立 B-树索引 47-48 4.3.2 为索引链表建立二级索引 48-50 4.3.3 使用辅助索引进行查询处理 50-53 4.4 本章小结 53-54 第5章 实验及结果分析 54-63 5.1 概述 54 5.2 索引方法实现 54-58 5.2.1 设计目标 54 5.2.2 应用平台及开发环境 54-55 5.2.3 资源视图抽取和存储 55-56 5.2.4 扩展倒排列表子模块实现 56-58 5.2.5 辅助索引结构实现 58 5.3 实验数据集 58-60 5.3.1 资源视图集 58-60 5.3.2 查询配置 60 5.4 实验结果及分析 60-62 5.5 本章小结 62-63 结论 63-64 参考文献 64-70 致谢 70
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- Bicluster数据分析软件设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 在线多媒体语料库索引系统对大学英语口语影响的研究,H319
- 多路空间距离连接查询技术的研究与应用,TP391.3
- 数据空间系统中的图像索引技术的研究与实现,TP391.3
- 数据空间内面向语义的资源组织与管理模型研究,TP391.1
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 数据空间中基于主题词汇的概率聚类算法的研究与实现,TP311.13
- 复杂配电系统可靠性研究,TM732
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
- 面向空间矢量数据的P2P索引网络路由机制的研究,TP393.02
- 闪存碎片影响分析与闪存数据库索引技术研究,TP311.13
- 抗合谋攻击的量化数字指纹技术研究,TP309
- 基于内容的大规模数字图像检索技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|