学位论文 > 优秀研究生学位论文题录展示

海量多结构数据智能检索中的存取方法研究

作 者: 王子健
导 师: 潘鹏
学 校: 华中科技大学
专 业: 计算机技术
关键词: 海量存储 语义检索 存取方法 分布式并行处理
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 16次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,数据信息也呈现出指数级增长,特别是在智能检索方面,传统的单机模式的处理方式已经不能很好地适应目前海量数据的处理。随着Hadoop分布式文件系统以及MapReduce分布式并行处理的出现,对海量信息特别是现代多结构化数据的处理方式逐渐转变为分布式并行处理方式。在对海量信息的智能检索方面,利用MapReduce技术也能进行高效的处理。在分析了Hadoop和MapReduce分布式并行处理环境对海量数据存储以及检索的可行性基础上,结合智能检索的海量数据语义特征的需求和内容特征的需求,提出了针对多结构化数据智能检索的数据组织策略和存取方法。针对Lucene全文检索技术的特点,设计出对海量数据的特征文本文件建立倒排索引和正排索引。在Hbase分布式数据库能很好地适应多结构化数据特点的基础上,设计出海量多结构化文件的高维特征(包括语义特征和内容特征)库。在海量信息的分布式处理方面,针对海量大文件的处理效率较高,结合分布式文件系统特点和小文件的特点,提出并实现了用大文件方式处理海量小文件的存取方法。基于以上的海量数据的存取方式,设计并实现了对这些海量存储数据的智能语义检索,包括单模态以及多模态的相似性检索和聚类检索,并且在其实现中对其检索机制进行了缓存优化处理。在MapReduce分布式处理方面,提出并实现了一种对其Shuffle阶段进行优化的方法。经过大量的实验表明,所实现的智能检索原型系统在存取和检索方面,具有较强的实用性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-12
  1.1 研究背景及意义  8
  1.2 国内外相关工作  8-10
  1.3 论文的主要工作  10
  1.4 论文的组织结构  10-12
2 语义检索系统总体设计  12-20
  2.1 基于语义和内容特征的存取和检索  12-15
  2.2 系统架构  15-16
  2.3 功能划分  16-19
  2.4 本章小结  19-20
3 文件及特征存取组织策略  20-36
  3.1 数据组织分析  20-25
  3.2 数据组织策略  25-28
  3.3 文件及特征处理的实现  28-35
  3.4 本章小结  35-36
4 智能检索的实现和优化  36-46
  4.1 检索方式  36-37
  4.2 SHUFFLE 优化  37-40
  4.3 分布式检索和优化的实现  40-45
  4.4 本章小结  45-46
5 实验与分析  46-57
  5.1 实验环境  46
  5.2 实验目标  46-47
  5.3 实验过程与结果分析  47-56
  5.4 本章小结  56-57
6 总结与展望  57-59
  6.1 本文总结  57
  6.2 工作展望  57-59
致谢  59-60
参考文献  60-64
附录 攻读学位期间参与的科研项目  64

相似论文

  1. 基于本体的语义检索研究,TP391.3
  2. 海量存储系统中并行文件系统的测试与优化,TP333
  3. 海量存储系统集群部署研究,TP333
  4. 海量存储系统Web代理服务器的设计与实现,TP393.05
  5. 基于Scorm与本体的教育资源语义检索系统的设计与实现,TP391.3
  6. 一个分布式作战指挥仿真系统的设计与实现,TP311.52
  7. 分布式文件系统客户端的设计与实现,TP338.8
  8. 基于云技术的分布式实时数据库高性能数据存储检索机制的研究,TP311.13
  9. 海量存储系统的性能管理与监测方法研究,TP333
  10. BlueOcean海量存储系统客户端的设计与实现,TP333
  11. 海量存储系统中高可用服务管理的设计与实现,TP333
  12. 海量存储系统数据节点的设计与实现,TP333
  13. 基于本体的泌尿外科知识库与智能信息处理研究,TP391.1;TP391.3
  14. 知识文档的语义检索方法研究与实现,TP391.3
  15. 基于本体和SWRL推理的知识检索方法研究,TP391.3
  16. 基于本体的知识管理系统的设计与实现,TP311.52
  17. 基于语义的金融企业非结构化信息检索系统研究,TP391.3
  18. 本体技术在电子病历中的应用研究,TH772.2
  19. 基于语义P2P技术的网络资源检索系统研究,TP393.09
  20. 基于领域本体的网络产品检索引擎的研究与实现,TP391.3
  21. 基于SCSI故障注入的可用性评测工具设计与实现,TP333

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com