学位论文 > 优秀研究生学位论文题录展示

大数据服务若干关键技术研究

作 者: 韩晶
导 师: 宋美娜
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 大数据服务 非结构化数据 数据模型 服务模型 检索排名算法
分类号: TP311.13
类 型: 博士论文
年 份: 2013年
下 载: 126次
引 用: 0次
阅 读: 论文下载
 

内容摘要


大数据是现代信息技术的重要发展方向之一,实现大数据的共享和分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。在大数据时代,对大数据进行统一表示,实现大数据处理、查询、分析和可视化是亟需解决的关键问题。大数据服务(Big Data-as-a-Service, BDaaS)是一种新的数据资源使用模式和一种新的服务经济模式,它通过将各类大数据操作进行封装,对服务消费者提供无处不在的、标准化的、随需的检索、分析与可视化服务交付。目前针对大数据服务的研究还处于概念讨论阶段,因此仍然面临四方面挑战:1)缺乏一种能够屏蔽数据资源和操作复杂性,面向用户体验的规范化大数据服务架构;2)缺乏体现用户行为特征的通用非结构化数据模型,使得非结构化大数据服务难以构建;3)已有数据服务模型仅描述服务接口规范,而覆盖大数据特征的大数据服务模型还未出现;4)在大数据检索、分析和可视化服务提供和服务能力优化方面,缺乏相应的解决方案。为了解决以上问题,需要对大数据服务的理论模型、服务模型、实现方法等进行系统地研究。因此,本论文研究大数据服务架构、大数据服务数据模型、大数据服务模型,以及大数据服务应用四方面关键技术。为了能够对大数据服务平台构建提供规范化架构方案,本文首先设计了面向用户体验的大数据服务架构(User Experience-oriented Big Data-as-a-Service Architecture,UE-BDaaSA);其次,在数据模型方面,为实现面向非结构化数据的大数据服务,设计了基于主体行为的非结构化数据模型;在大数据服务模型方面,通过进程代数建立了大数据服务及其组合的代数模型,并设计了基于扩展OWL-S语义本体的大数据服务;在大数据服务应用方面,详细阐述了检索、分析和可视化服务的处理流程,并通过提高检索服务准确度和服务效率两方面措施实现了大数据服务能力优化。本文研究中产生的主要创新点有:(1)针对已有非结构化数据模型难以满足大数据服务构建需求的问题,提出了一种基于主体行为的非结构化数据星系模型(Galaxy Data Model, GDM)。通过监控数据产生者行为和数据产生背景,设计覆盖用户行为、语义背景等全方位数据特征的通用非结构化数据模型,为实现非结构化大数据服务提供了数据模型基础。实例验证结果表明,GDM具有较好的通用性和全面性,还具有轻量级的实现和成熟易用的操作语言。除传统文件系统外,GDM还支持对HDFS中的非结构化数据建模和检索。此外,GDM已经在国家免费孕前优生健康检查管理信息系统中实际应用,验证了其可行性和实用性。(第三章)(2)针对缺乏能够涵盖大数据特征的服务模型的问题,提出了一种基于扩展OWL-S本体的大数据服务模型(Extended OWL-S based Big Data-as-a-Service, EO-BDaaS)。通过在OWL-S中扩展数据源、数据服务类型、数据服务操作等属性,实现检索、分析、可视化等多类型大数据服务的构建和动态组合。实例验证结果表明,与已有数据服务相比,EO-BDaaS在属性和操作描述方面更加完备,且具有较强的语义理解能力和自动服务组合能力,还将数据服务特有的组合运算无缝地融入大数据服务的实现中。(第四章)(3)针对大数据检索服务准确度较低的问题,提出了热度敏感的非结构化数据检索排名优化算法HotRank。通过非结构化数据属性和服务消费者任务属性的匹配度来计算检索结果的热度分值,并基于热度分值对检索结果进行排序,从而实现了检索结果优化,使检索结果更加符合用户偏好。仿真实验表明,HotRank的正确率-召回率优于Windows Search排名算法,因此HotRank能够很好的提高大数据服务检索结果的准确度,实现了通过提高用户体验来提高大数据服务能力。(第五章)(4)针对大数据服务中对服务快速响应的要求,本文提出了一种基于数据热度识别的混合预取算法(Hybrid Prefetch Algorithm, HPA)。通过分析用户数据操作记录建立数据热度判定规则,根据动态和静态预取规则获得预取候选数据,最后将预取数据置入缓存。仿真实验结果显示,HPA的预取平均命中率为55%,平均准确率为43%,这表明该算法具有很好的用户操作数据预测和优化能力,同时也从服务效率方面优化了大数据服务能力。同时,基于HPA的分布式持久化缓存存储架构已在国家免费孕前优生健康检查管理信息系统中进行了应用,验证了其有效性。(第五章)本论文的研究内容作为“十一五”国家科技支撑计划项目“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”(编号:2008BAH24B04)和教育部-中国移动科研基金项目“面向互联网的业务支撑系统关键技术及方案研究”(编号:MCM20123031)的部分成果,己在实际运营的“国家孕前免费健康检查管理信息系统”中应用,帮助其实现了从人口计生领域数据采集到跨域人口计生大数据的共享和可视分析服务化的演进,为电子政务云计算国家工程实验室“电子政务云计算数据服务平台”建设提供了有效的解决方案和工程实践指导。

全文目录


摘要  4-7
ABSTRACT  7-11
目录  11-13
第一章 绪论  13-24
  1.1 课题研究背景  13-17
  1.2 论文研究内容  17-18
  1.3 论文主要创新点  18-19
  1.4 攻读博士学位期间主要工作  19-20
  1.5 论文组织结构  20-21
  参考文献  21-24
第二章 面向用户体验的大数据服务架构研究  24-46
  2.1 引言  24
  2.2 研究现状和存在问题  24-32
    2.2.1 研究现状  24-31
    2.2.2 存在问题  31-32
  2.3 大数据服务架构  32-39
    2.3.1 需求描述  32-35
    2.3.2 体系架构  35-37
    2.3.3 用户实体和行为库  37-38
    2.3.4 讨论与比较  38-39
  2.4 场景应用  39-43
  2.5 本章小结  43-44
  参考文献  44-46
第三章 基于主体行为的大数据服务数据模型研究  46-61
  3.1 引言  46
  3.2 研究现状及存在问题  46-48
    3.2.1 研究现状  46-47
    3.2.2 存在问题  47-48
  3.3 基于主体行为的非结构化数据模型  48-53
    3.3.1 需求描述  48-50
    3.3.2 模型设计  50-53
  3.4 模型实现及示例  53-57
    3.4.1 数据模型构建示例  53-55
    3.4.2 数据检索示例  55-57
  3.5 讨论与比较  57-58
  3.6 本章小结  58-59
  参考文献  59-61
第四章 基于扩展OWL-S本体的大数据服务模型研究  61-82
  4.1 引言  61
  4.2 研究现状及存在问题  61-65
    4.2.1 研究现状  61-65
    4.2.2 存在问题  65
  4.3 大数据服务代数模型  65-71
    4.3.1 大数据服务  65-66
    4.3.2 大数据服务组合  66-71
  4.4 大数据服务构建  71-79
    4.4.1 设计思路  71-72
    4.4.2 大数据服务的属性  72-75
    4.4.3 基于扩展OWL-S本体的大数据服务模型  75-79
  4.5 本章小结  79
  参考文献  79-82
第五章 面向服务能力优化的大数据服务应用研究  82-111
  5.1 引言  82
  5.2 研究现状及存在问题  82-86
    5.2.1 研究现状  82-85
    5.2.2 存在问题  85-86
  5.3 大数据检索服务  86-89
    5.3.1 执行流程  86-87
    5.3.2 语义检索  87-88
    5.3.3 关键字检索  88-89
  5.4 大数据分析服务  89-90
  5.5 大数据可视化服务  90-91
  5.6 大数据服务能力优化研究  91-105
    5.6.1 大数据服务能力  91-92
    5.6.2 检索服务的准确度优化  92-97
    5.6.3 基于混合预取和持久化缓存的服务响应优化  97-105
  5.7 应用实例  105-107
    5.7.1 数据检索  105
    5.7.2 数据分析  105-106
    5.7.3 数据可视化  106-107
  5.8 本章小结  107-108
  参考文献  108-111
第六章 总结和展望  111-114
  6.1 全文总结  111-112
  6.2 研究展望  112-114
附录1 缩略语  114-116
附录2 文中图表列表  116-118
致谢  118-119
攻读学位期间发表的学术论文  119-121
攻读学位期间申请的专利  121-122
攻读学位期间申请的软件著作权  122

相似论文

  1. 面向SMDA的服务建模方法及工具实现,TP311.52
  2. 中国碳排放水平的区域差异及影响因素分析,X502
  3. 信息资源元数据模型的研究与应用,TP315
  4. 中部地区融合金融服务业的产业结构升级研究,F832.2
  5. 模糊XML Twig模式查询算法的研究,TP311.13
  6. 股权结构与公司绩效的关联性,F224
  7. 基于服务划分的ERP系统快速重构平台关键技术的研究,TP311.52
  8. 商业智能中模型管理关键技术的研究与实现,TP311.52
  9. Ad Hoc网络中基于QoS约束多径路由协议及服务模型,TN929.5
  10. 大场景三维景观数据的组织与可视化研究,P208
  11. 基于SOA架构的统一集成化移动电子政务服务平台的分析与设计,TP393.09
  12. QoS在多业务承载网中的应用,TP393.09
  13. 面向非结构化数据查询优化的存储系统,TP333
  14. 江苏省金融发展与城乡收入分配差距的实证研究,F124.7;F224
  15. 税收分析系统的设计与实现,F812.42
  16. 房地产价格与居民消费的关联性研究,F293.3;F126.1
  17. 资本充足率对信贷及经济影响的实证研究,F832.4;F124
  18. 非结构化数据统一访问平台及索引技术研究,TP311.52
  19. 基于XML的非结构化数据管理研究及应用,TP311.13
  20. 去杠杆化对我国上市商业银行财务绩效的影响,F224
  21. 中国制造业标准化驱动因素研究,F424

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com