学位论文 > 优秀研究生学位论文题录展示

面向归档数据的存储管理技术研究

作 者: 孙永林
导 师: 刘仲
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 归档存储 文档聚类 分块存储 信息检索 数据布局 数据完整性 扩展性
分类号: TP333
类 型: 硕士论文
年 份: 2009年
下 载: 38次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息数字化趋势加快,数字信息量迅猛增长,存储具有长期保存、不可更改、极少访问、规模巨大、动态增长等特点的归档数据困难重重,却具有重大的社会价值。归档存储作为新兴研究热点,具有广阔的应用前景,其中空间利用率、检索效率、数据完整性扩展性和灾难恢复是关键问题。本文在深入分析归档数据特点的基础上,针对归档存储涉及的几个关键问题进行了深入研究,提出了一种高效的大规模归档存储框架结构LAS和若干新颖有效的数据存储和管理算法。主要的工作如下:提出一种基于文档聚类分块存储、两级索引、二维CRS编码和自动检错技术的大规模归档存储框架结构LAS;提出一种基于动态区间映射的文档聚类算法,依据特征集动态映射,实现内容相似文档聚集存储,具有聚类效果稳定、空间利用率高、检索灵活高效、扩展性好等特点;采用一种基于分块两级索引的数据布局算法,通过构建两级索引,提供内容寻址存储、基于内容和关键词的检索,具有索引空间开销呈次线性增长、检索性能好、扩展灵活等优点;提出一种基于二维CRS编码的数据完整性保证方法,通过双驱动自动检错和两级CRS容错编码实现数据检错和恢复,能有效保证归档存储系统的数据完整性并控制功耗;利用上述研究成果,实现了一个LAS归档存储原型系统LASPS,满足了测试分析相关算法性能的需要,并为LAS归档存储系统的实现提供了关键技术支持。

全文目录


摘要  11-12
ABSTRACT  12-13
第一章 绪论  13-25
  1.1 研究背景  13-16
    1.1.1 信息数字化  13-14
    1.1.2 法规遵从  14
    1.1.3 信息的价值  14-15
    1.1.4 归档存储  15-16
  1.2 相关的研究工作  16-22
    1.2.1 信息聚类  16-19
    1.2.2 信息检索  19
    1.2.3 数据布局  19-21
    1.2.4 数据完整性  21-22
  1.3 本文的研究工作  22-23
    1.3.1 研究目标  22
    1.3.2 研究内容  22
    1.3.3 主要创新  22-23
  1.4 论文结构  23-25
第二章 归档存储系统框架结构  25-36
  2.1 存储框架结构的演进  25-26
  2.2 典型存储框架结构分析  26-29
    2.2.1 SAN 和NAS  26-27
    2.2.2 OSD  27-28
    2.2.3 CAS  28-29
  2.3 LAS 存储框架结构  29-34
    2.3.1 系统组成  29-31
    2.3.2 数据流程  31-33
    2.3.3 关键技术  33-34
    2.3.4 系统灵活性  34
  2.4 小结  34-36
第三章 基于动态区间映射的文档聚类算法  36-51
  3.1 动态区间映射  36-38
    3.1.1 Monte Carlo 方法  36-37
    3.1.2 动态区间映射思想  37
    3.1.3 基于动态区间映射的聚类思想  37-38
  3.2 基于动态区间映射的文档聚类算法  38-42
    3.2.1 符号约定与基本定义  38-40
    3.2.2 算法思想  40
    3.2.3 算法描述  40-42
  3.3 算法分析  42-46
    3.3.1 聚类效果分析  42-45
    3.3.2 检索性能分析  45
    3.3.3 扩展性分析  45-46
  3.4 实验测试与分析  46-50
    3.4.1 聚类效果实验  46-47
    3.4.2 检索性能实验  47-48
    3.4.3 系统扩展实验  48-49
    3.4.4 结果分析  49-50
  3.5 小结  50-51
第四章 基于分块两级索引的数据布局算法  51-65
  4.1 关键技术  51-53
    4.1.1 基于内容检索  51-52
    4.1.2 索引  52-53
    4.1.3 数据布局  53
  4.2 基于分块两级索引的数据布局算法  53-56
    4.2.1 符号约定  53
    4.2.2 算法思想  53-54
    4.2.3 算法描述  54-56
  4.3 算法分析  56-59
    4.3.1 复杂度  57
    4.3.2 空间效率分析  57-58
    4.3.3 时间效率分析  58-59
    4.3.4 功能分析  59
  4.4 实验测试与分析  59-64
    4.4.1 索引空间开销实验  59-61
    4.4.2 索引更新效率实验  61-62
    4.4.3 基于内容检索实验  62-63
    4.4.4 基于关键词检索实验  63
    4.4.5 结果分析  63-64
  4.5 小结  64-65
第五章 基于二维CRS 编码的数据完整性保证方法  65-77
  5.1 容错编码  65-67
    5.1.1 容错能力  65
    5.1.2 空间性能  65-66
    5.1.3 时间性能  66
    5.1.4 数据部署  66-67
  5.2 自动检错技术  67-68
    5.2.1 检错算法  67
    5.2.2 检错策略  67
    5.2.3 存储设备  67-68
  5.3 基于二维CRS 编码的数据完整性保证方法  68-72
    5.3.1 基本思想  68
    5.3.2 算法描述  68-71
    5.3.3 存取性能分析  71-72
  5.4 可靠性分析  72-76
    5.4.1 RS-Group 数据可靠性分析  72-74
    5.4.2 OSD 数据可靠性分析  74-76
    5.4.3 LAS 系统数据可靠性分析  76
  5.5 小结  76-77
第六章 原型系统设计与实现  77-86
  6.1 总体结构  77
  6.2 模块设计  77-81
    6.2.1 存储模块  77-78
    6.2.2 检索模块  78-80
    6.2.3 系统模块  80-81
  6.3 实验设计  81-85
    6.3.1 DC-DIM 相关实验  82-83
    6.3.2 DP-C2LI 相关实验  83-85
  6.4 小结  85-86
第七章 结束语  86-89
  7.1 工作总结  86-87
  7.2 研究展望  87-89
致谢  89-90
参考文献  90-96
攻读硕士期间发表的主要学术论文  96

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
  4. 构建分布式系统的关键技术研究与实现,TP338.8
  5. 基于OVM的SoC功能验证系统的设计与实现,TN47
  6. 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
  7. 分布式内存数据库存储研究,TP311.13
  8. 互联网文件存储服务系统研究,TP393.09
  9. 分布式存储网络中的数据完整性校验与修复,TP333
  10. 民航气象资料历史归档管理系统的设计与实现,TP311.52
  11. 基于OWL的地名本体构建与检索机制研究,P208
  12. 面向地名本体服务的空间信息检索研究,P208
  13. 车载CAN/FlexRay网关设计技术研究,TP273
  14. 电子商务中专业领域货源信息检索系统的设计与实现,TP391.3
  15. 基于iSCSI协议的网络存储技术及数据布局研究,TP333
  16. 基于语义网的本体相似度算法研究,TP391.1
  17. Kullback-Leibler距离检索框架下文摘在检索中的应用,TP391.3
  18. 金融证券交易系统的分析和设计,TP311.52
  19. 基于Cluster-FCA-Merge算法的本体构造,TP391.1
  20. 基于术语簇和关联规则的文档聚类方法,TP311.13
  21. 彩铃平台中访问控制管理系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com