学位论文 > 优秀研究生学位论文题录展示

内容感知存储系统中信息生命周期管理关键技术研究

作 者: 聂雪军
导 师: 周敬利
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 信息生命周期管理 内容感知存储系统 内容元数据 信息整合 内容分类 分级存储 重复数据删除 信息归档
分类号: TP333
类 型: 博士论文
年 份: 2010年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着存储系统智能化需求的不断提高,越来越多的应用层功能开始融入存储系统,例如自主管理,数据安全以及信息检索等。传统的存储系统以块级或对象级数据处理为主,缺乏文件级信息,无法将信息生命周期管理(Information Lifecycle Management,ILM)功能融入存储系统。遵循XAM(eXtensible Access Method)规范的内容感知存储(Content Aware Storage)系统,由于使用内容元数据(Content Metadata)对数据的文件级信息进行传载,因此为ILM融入存储系统提供了基础。研究ILM融入内容感知存储系统过程中涉及的关键技术,围绕着内容元数据构建信息整合内容分类分级存储、数据备份以及信息归档等ILM数据处理阶段。研究工作主要包括:提出并实现了一种基于内容元数据的信息整合方法。针对ILM数据处理需求制定了内容元数据规范,包括内容元数据的定义、提取、表示以及传输。以内容元数据为基础,从外在形式和内部语义两方面实现了非结构化信息数据的整合。设计并实现了支持内容元数据规范的存储系统原型,性能测试表明信息整合提高了数据预处理的速度,同时对存储系统的平均I/O性能影响极小。提出并实现了一种面向内容元数据的信息分类算法。针对内容元数据的分类特征数量少但语义质量高的特性,构造了一种基于特征词集合的内容元数据相似度计算模型。该模型根据训练样本中的特征词集合构造相似度矩阵,并通过对矩阵进行平滑运算计算特征词之间的隐式相关性,以此为基础计算内容元数据的特征矢量。基于特征矢量,采用K-Means算法构造数据分类器。性能测试表明,该算法比传统的数据分类算法有着更高的精确度和互信息,并极大地降低了分类计算的时间。提出并实现了一种内容元数据驱动的分级存储模型,包括基于应用需求的分级存储与基于成本需求的分级存储。前者满足信息在备份、归档、安全以及访问控制等应用上的需求,后者侧重于降低单位信息的存储成本同时确保存储系统的I/O性能。提出了一种基于速率控制的自适应数据迁移算法,将数据迁移I/O对存储系统正常I/O的影响降至最低。性能测试表明,内容元数据驱动的分级存储模型能有效满足的信息数据的存储需求,同时不影响存储系统的整体性能。提出并实现了一种基于内容特征的重复数据删除算法。针对当前数据备份中重复数据删除算法未考虑不同文件类型的内容在比特值分布上的差异,采用候选边界直方图来表示文件类型的内容特征,并在此基础上对传统重复数据删除算法的关键参数进行优化。算法以降低不同文件类型之间的数据缩减率为代价,换取相同类型文件之间数据缩减率的提高。设计了一种支持变长数据块高效存储的文件系统TDFS。性能测试表明,该算法在特定数据集上对数据缩减率(Reduction Ratio)有较大提高。提出并实现了一种基于内容元数据的信息归档模型。通过引入支持OAIS(Open Archival Information System)归档规范的内容元数据标签,实现信息的逻辑保存。提出一种基于磁盘的软件WORM(Write Once Read Many)模型,通过修改磁盘功能划分以及对iSCSI命令的响应行为,实现信息的物理保存。通过对归档文件加密并在保存逾期后销毁密钥,实现了信息的安全销毁,同时提出了一种基于时间窗口的密钥管理机制降低密钥管理复杂度。性能测试表明,基于内容元数据的信息归档模型能有效满足归档信息的功能需求与性能需求。实验表明,内容感知存储系统能有效解决传统存储系统中缺乏文件级语义的问题,通过以内容元数据为核心来构建ILM模型中的关键数据处理阶段,不仅能简化ILM融入存储系统的复杂性,同时还能极大提高数据访问性能,满足存储系统的智能化需求。

全文目录


摘要  4-6
Abstract  6-10
1 绪论  10-28
  1.1 研究背景  10-16
  1.2 相关技术研究现状  16-22
  1.3 研究内容与创新  22-27
  1.4 本章小结  27-28
2 基于内容元数据的信息整  28-47
  2.1 内容元数据规范  28-35
  2.2 基于内容元数据实现信息整合  35-37
  2.3 支持内容元数据规范的存储系统体系结构  37-40
  2.4 性能测试  40-46
  2.5 本章小结  46-47
3 面向内容元数据的信息分类  47-64
  3.1 传统分类算法分析  47-48
  3.2 内容元数据相似度计算模型  48-56
  3.3 数据分类器  56-57
  3.4 性能测试  57-63
  3.5 本章小结  63-64
4 内容元数据驱动的分级存储  64-85
  4.1 基于应用需求的分级存储  64-68
  4.2 基于成本需求的分级存储  68-73
  4.3 自适应迁移模型  73-76
  4.4 性能测试  76-84
  4.5 本章小结  84-85
5 基于内容特征的重复数据删除  85-103
  5.1 传统重复数据删除技术分析  85-87
  5.2 内容感知分块模式  87-93
  5.3 变长数据块的存储  93-96
  5.4 性能测试  96-102
  5.5 本章小结  102-103
6 基于内容元数据的信息长期保存与安全销毁  103-117
  6.1 支持OAIS 的信息逻辑保存  103-108
  6.2 支持WORM 的信息物理保存  108-111
  6.3 基于密钥的数据安全销毁  111-113
  6.4 性能测试  113-115
  6.5 本章小结  115-117
7 总结与展望  117-121
  7.1 全文总结  117-119
  7.2 研究展望  119-120
  7.3 本章小结  120-121
致谢  121-122
参考文献  122-134
附录1 攻读博士学位期间发表的学术论文  134-135
附录2 攻读博士学位期间申请的专利  135-136
附录3 攻读博士学位期间参与的科研项目  136-137
附录4 论文图索引  137-140
附录5 论文表索引  140

相似论文

  1. 继电保护故障信息系统主站高级应用的研究,TM77
  2. 内容感知存储系统中信息信息生命周期管理关键技术研究,TP333
  3. 广域网数据压缩算法的研究与实现,TP391.41
  4. 重复数据删除技术的研究与实现,TP333
  5. 在线备份系统中存储服务器的研究与实现,TP333
  6. 在线重复数据删除技术的研究与实现,TP333
  7. 虚拟桌面环境下数据去冗余系统的设计与实现,TP333
  8. 云备份中的双指纹校验与多线程传输技术研究,TP309.3
  9. 支持重复数据删除的网络备份系统中存储服务器的设计与实现,TP309.3
  10. 基于重复数据删除技术的数据容灾系统的研究,TP309.3
  11. 一种轻量级快速网络备份系统的设计与实现,TP309.3
  12. 马尔可夫逻辑网在Web中的应用,O211.62
  13. 一种基于重复数据删除的备份系统设计与实现,TP309.3
  14. 海量数据备份的消冗机制研究与实现,TP309.3
  15. 网络备份中重复数据删除技术研究,TP309.3
  16. 基于逻辑卷的分级存储系统设计与实现,TP333
  17. 数据分级存储结构与算法研究,TP333
  18. 基于信息生命周期管理的数据迁移技术研究,TP333
  19. 信息生命周期管理系统中信息分级管理技术的研究与实现,TP311.52
  20. SAN网络环境下基于LVS集群的流媒体服务器的研究,TP393.05

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com