学位论文 > 优秀研究生学位论文题录展示

面向海量数据库的数据流统计研究与实现

作 者: 魏晗
导 师: 韩伟红
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 数据流 海量数据库 统计 语义缓存 维护 异常数据 去重
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 168次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术的发展,海量数据库应用越来越普遍。数据流技术在数据库领域已经获得了广泛的研究,许多文章提出了优秀的算法和产品,数据流成为一种成熟的数据库模型。数据库加载数据具有连续、快速、随时间变化等一系列数据流特点,可以利用数据流模型对其进行处理。本文从入库之前的数据处理出发,通过研究数据流统计技术,提出了一个数据流统计服务的体系结构,实现了对加载数据流的信息统计处理。本文的应用环境是一个海量统计应用数据库,针对这个特点,本文还实现了对加载数据流中异常数据的统计处理,不仅对数据流中的异常数据进行统计,还保证异常统计结果能够及时更新到统计库中,使数据库后续处理结果与数据库中的数据记录保持一致。同时,为了使添加统计服务之后的加载服务满足性能的需求,减轻后续查询服务的压力,还针对数据流中存在的大量重复数据,提出并实现了一个基于短文本数据库的高效去重方法。本文的末尾对统计服务进行了测试,验证了统计服务工作的正确性。利用数据流统计结果维护语义缓存作为数据流统计服务的具体应用实例是本文研究的重点。数据流统计应用于语义缓存维护,能够降低聚集查询语句的响应时间,实现了处理压力从查询服务器转移到加载服务器,能够提高系统的整体性能和稳定性。本文主要贡献:1.提出了一个面向海量数据库加载的数据流统计服务的体系结构,该统计服务能在对加载过程影响极小的情况下高效率的完成统计;2.实现了对异常数据流的统计方法。通过采取多数据流的处理方法,在正常数据流滑动窗口之外还维护了一个异常数据流滑动窗口,动态分配基本窗口完成了异常数据的统计,并实现了将延迟数小时数据的统计结果合并更新到统计库中和查询结果中;3.研究了语义缓存维护,通过统计结果和语义缓存技术结合起来,提出了一种解决语义缓存维护性能的方法。通过将查询数据库服务器的压力转移到加载过程,提高了系统的整体性能和稳定性;4.研究了数据清洗技术,针对短文本重复数据产生的特点,提出了一个面向海量短文本数据库的高效去重方法。降低了数据规模,提升了数据库后续处理的性能。根据文中提到的技术,我们在大规模事务处理中间件StarTPMonitor上实现了一个面向海量加载的数据流统计服务。该服务通过统计将统计的摘要信息和语义缓存相结合,实现了语义缓存维护性能的提高,使系统整体查询性能得到大幅提升。

全文目录


摘要  9-11
ABSTRACT  11-13
第一章 绪论  13-22
  1.1 应用背景  13-15
  1.2 研究背景  15-17
  1.3 研究现状  17-20
    1.3.1 数据流  17-18
    1.3.2 语义缓存  18-19
    1.3.3 数据清洗  19-20
  1.4 本文工作  20
  1.5 论文结构  20-22
第二章 相关技术研究  22-34
  2.1 StarTPMonitor体系结构  22-25
  2.2 数据流技术  25-30
    2.2.1 基于界标模型的方法  25-28
    2.2.2 基于滑动窗口模型的方法  28-29
    2.2.3 数据流研究的要求和挑战  29-30
  2.3 语义缓存技术  30-32
    2.3.1 表缓存  31
    2.3.2 动态视图缓存  31-32
    2.3.3 块缓存  32
  2.4 数据清洗技术  32-34
第三章 数据流统计服务设计  34-48
  3.1 体系结构设计  34-41
    3.1.1 统计服务设计  35-37
    3.1.2 数据去重设计  37-40
    3.1.3 统计服务设计小结  40-41
  3.2 关键技术  41-48
    3.2.1 滑动窗口设计  42-43
    3.2.2 统计规则  43-44
    3.2.3 摘要数据  44-46
    3.2.4 查询结果维护  46-47
    3.2.5 数据去重性能  47-48
第四章 数据流统计服务实现  48-59
  4.1 元信息收集对象的实现  49-51
  4.2 摘要信息生成对象的实现  51-52
  4.3 查询结果生成对象的实现  52-55
  4.4 异常数据统计对象的实现  55-56
  4.5 数据去重模块的实现  56-59
第五章 性能测试  59-63
  5.1 测试环境  59-60
    5.1.1 硬件平台  59-60
    5.1.2 软件平台  60
    5.1.3 其他配置  60
  5.2 测试准备  60-61
  5.3 测试结果  61-62
    5.3.1 测试一:测试语义缓存中不存在的查询语句  61-62
    5.3.2 测试二:测试语义缓存中存在的查询语句  62
  5.4 结论  62-63
第六章 结束语  63-64
致谢  64-65
参考文献  65-68
附录A: 作者在攻读硕士学位期间论文发表情况  68-69
附录B: 作者在攻读硕士学位期间参与的科研项目  69

相似论文

  1. 光学零件表面轮廓干涉测量方法研究,TG84
  2. SINS/GPS组合导航系统算法研究,V249.328
  3. 旧工业建筑场所重塑研究,TU984.114
  4. 配电网故障定位与网络重构算法的研究,TM727
  5. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  6. 基于身份的多重数字签名及签密算法研究,TN918.1
  7. 阈下信道技术在多重签名中的应用,TN918.1
  8. 基于均值匹配的Turbo码联合译码的Matlab实现,TN911.22
  9. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  10. 海量数据压缩、操作和处理方法的研究,TP311.13
  11. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  12. 面向统计机器翻译的解码算法的研究,TP391.2
  13. 电视文化生态的建构,G220
  14. 江蓠残渣高活性膳食纤维和羧甲基纤维素钠的制备及性能研究,TS254.9
  15. 蛋白磷酸酶2A Cα亚基敲除所致心脏能量代谢重塑的研究,Q78
  16. 复合污染下大薸和凤眼莲对重金属的吸收和富集特征,X173
  17. 调环酸钙合成工艺研究及其类似物合成,TQ452
  18. 基于基因组重排技术的1,3-丙二醇高产菌株选育,TQ923
  19. 基于感性工学的家具把手及拉手设计研究,TS664.01
  20. 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
  21. 来华留学生心理健康状况及其影响因素研究,B849

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com