学位论文 > 优秀研究生学位论文题录展示
面向归档数据的存储管理技术研究
作 者: 孙永林
导 师: 刘仲
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 归档存储 文档聚类 分块存储 信息检索 数据布局 数据完整性 扩展性
分类号: TP333
类 型: 硕士论文
年 份: 2009年
下 载: 38次
引 用: 0次
阅 读: 论文下载
内容摘要
信息数字化趋势加快,数字信息量迅猛增长,存储具有长期保存、不可更改、极少访问、规模巨大、动态增长等特点的归档数据困难重重,却具有重大的社会价值。归档存储作为新兴研究热点,具有广阔的应用前景,其中空间利用率、检索效率、数据完整性、扩展性和灾难恢复是关键问题。本文在深入分析归档数据特点的基础上,针对归档存储涉及的几个关键问题进行了深入研究,提出了一种高效的大规模归档存储框架结构LAS和若干新颖有效的数据存储和管理算法。主要的工作如下:提出一种基于文档聚类、分块存储、两级索引、二维CRS编码和自动检错技术的大规模归档存储框架结构LAS;提出一种基于动态区间映射的文档聚类算法,依据特征集动态映射,实现内容相似文档聚集存储,具有聚类效果稳定、空间利用率高、检索灵活高效、扩展性好等特点;采用一种基于分块两级索引的数据布局算法,通过构建两级索引,提供内容寻址存储、基于内容和关键词的检索,具有索引空间开销呈次线性增长、检索性能好、扩展灵活等优点;提出一种基于二维CRS编码的数据完整性保证方法,通过双驱动自动检错和两级CRS容错编码实现数据检错和恢复,能有效保证归档存储系统的数据完整性并控制功耗;利用上述研究成果,实现了一个LAS归档存储原型系统LASPS,满足了测试分析相关算法性能的需要,并为LAS归档存储系统的实现提供了关键技术支持。
|
全文目录
摘要 11-12 ABSTRACT 12-13 第一章 绪论 13-25 1.1 研究背景 13-16 1.1.1 信息数字化 13-14 1.1.2 法规遵从 14 1.1.3 信息的价值 14-15 1.1.4 归档存储 15-16 1.2 相关的研究工作 16-22 1.2.1 信息聚类 16-19 1.2.2 信息检索 19 1.2.3 数据布局 19-21 1.2.4 数据完整性 21-22 1.3 本文的研究工作 22-23 1.3.1 研究目标 22 1.3.2 研究内容 22 1.3.3 主要创新 22-23 1.4 论文结构 23-25 第二章 归档存储系统框架结构 25-36 2.1 存储框架结构的演进 25-26 2.2 典型存储框架结构分析 26-29 2.2.1 SAN 和NAS 26-27 2.2.2 OSD 27-28 2.2.3 CAS 28-29 2.3 LAS 存储框架结构 29-34 2.3.1 系统组成 29-31 2.3.2 数据流程 31-33 2.3.3 关键技术 33-34 2.3.4 系统灵活性 34 2.4 小结 34-36 第三章 基于动态区间映射的文档聚类算法 36-51 3.1 动态区间映射 36-38 3.1.1 Monte Carlo 方法 36-37 3.1.2 动态区间映射思想 37 3.1.3 基于动态区间映射的聚类思想 37-38 3.2 基于动态区间映射的文档聚类算法 38-42 3.2.1 符号约定与基本定义 38-40 3.2.2 算法思想 40 3.2.3 算法描述 40-42 3.3 算法分析 42-46 3.3.1 聚类效果分析 42-45 3.3.2 检索性能分析 45 3.3.3 扩展性分析 45-46 3.4 实验测试与分析 46-50 3.4.1 聚类效果实验 46-47 3.4.2 检索性能实验 47-48 3.4.3 系统扩展实验 48-49 3.4.4 结果分析 49-50 3.5 小结 50-51 第四章 基于分块两级索引的数据布局算法 51-65 4.1 关键技术 51-53 4.1.1 基于内容检索 51-52 4.1.2 索引 52-53 4.1.3 数据布局 53 4.2 基于分块两级索引的数据布局算法 53-56 4.2.1 符号约定 53 4.2.2 算法思想 53-54 4.2.3 算法描述 54-56 4.3 算法分析 56-59 4.3.1 复杂度 57 4.3.2 空间效率分析 57-58 4.3.3 时间效率分析 58-59 4.3.4 功能分析 59 4.4 实验测试与分析 59-64 4.4.1 索引空间开销实验 59-61 4.4.2 索引更新效率实验 61-62 4.4.3 基于内容检索实验 62-63 4.4.4 基于关键词检索实验 63 4.4.5 结果分析 63-64 4.5 小结 64-65 第五章 基于二维CRS 编码的数据完整性保证方法 65-77 5.1 容错编码 65-67 5.1.1 容错能力 65 5.1.2 空间性能 65-66 5.1.3 时间性能 66 5.1.4 数据部署 66-67 5.2 自动检错技术 67-68 5.2.1 检错算法 67 5.2.2 检错策略 67 5.2.3 存储设备 67-68 5.3 基于二维CRS 编码的数据完整性保证方法 68-72 5.3.1 基本思想 68 5.3.2 算法描述 68-71 5.3.3 存取性能分析 71-72 5.4 可靠性分析 72-76 5.4.1 RS-Group 数据可靠性分析 72-74 5.4.2 OSD 数据可靠性分析 74-76 5.4.3 LAS 系统数据可靠性分析 76 5.5 小结 76-77 第六章 原型系统设计与实现 77-86 6.1 总体结构 77 6.2 模块设计 77-81 6.2.1 存储模块 77-78 6.2.2 检索模块 78-80 6.2.3 系统模块 80-81 6.3 实验设计 81-85 6.3.1 DC-DIM 相关实验 82-83 6.3.2 DP-C2LI 相关实验 83-85 6.4 小结 85-86 第七章 结束语 86-89 7.1 工作总结 86-87 7.2 研究展望 87-89 致谢 89-90 参考文献 90-96 攻读硕士期间发表的主要学术论文 96
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
- 构建分布式系统的关键技术研究与实现,TP338.8
- 基于OVM的SoC功能验证系统的设计与实现,TN47
- 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
- 分布式内存数据库存储研究,TP311.13
- 互联网文件存储服务系统研究,TP393.09
- 分布式存储网络中的数据完整性校验与修复,TP333
- 民航气象资料历史归档管理系统的设计与实现,TP311.52
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 车载CAN/FlexRay网关设计技术研究,TP273
- 电子商务中专业领域货源信息检索系统的设计与实现,TP391.3
- 基于iSCSI协议的网络存储技术及数据布局研究,TP333
- 基于语义网的本体相似度算法研究,TP391.1
- Kullback-Leibler距离检索框架下文摘在检索中的应用,TP391.3
- 金融证券交易系统的分析和设计,TP311.52
- 基于Cluster-FCA-Merge算法的本体构造,TP391.1
- 基于术语簇和关联规则的文档聚类方法,TP311.13
- 彩铃平台中访问控制管理系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|