学位论文 > 优秀研究生学位论文题录展示

大数据及在当代互联网应用中的研究

作 者: 林荣耀
导 师: 郭锋
学 校: 厦门大学
专 业: 人工智能
关键词: 大数据 数据仓库 数据精简 时间戳 用户行为模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 67次
引 用: 0次
阅 读: 论文下载
 

内容摘要


据Gartner研究表明,每天我们要产生2.5QB的数据,而在目前全世界的所有的数据中,90%的数据是近2年内产生的[1]。这些数据来之与各个不同的地方,例如传感器收集到的天气的数据[2],在社交媒体网站上的帖子[3],数码相片和录像,购物产生的交易数据[4],甚至手机GPS的信号产生的地理数据[5]。那么这些数据就是所谓的大数据。随着全球的企业,政府组织开始认识到大数据的重要性,由机器传感器或者移动设备产生的数据以一个巨大的比例膨胀。有关机构预测在接下来的五年当中,这样的数据会增长超过650%,而这些数据大多都是机器和传感器产生的非结构化的数据。Gartner预测到了2015年,由于业务分析的需要,70%的投资会花在对企业IT信息架构的扩展和标准化,包括对服务器,存储架构,应用软件及服务的需求上面。如今大数据的影响力已经从企业,医疗扩散到了家庭宽带的设置和链接设备上。很快的成为了行业领先的分析数据的工具,比之前的工具更加便捷,而且节约成本。随着近几年来,互联网服务的飞速发展,国内的互联网三大巨头,百度,腾讯,阿里从好几年前就开始引入了大数据进行互联网业务决策。本文在这样的情况下,主要研究几方面的内容1.对大数据的现状和定义进行重新分析,深入了解何为大数据以及如今行业和市场对大数据的理解,再分析了大数据的多个研究方向,更好的了解大数据本身。2.对大数据普及的现状进行分析,阐述了如何对大数据的庞大数据集进行瘦身以及展望大数据市场未来发展的情况。3.从本人工作所涉及到的电子商务大数据预测的情况出发,对基于时间戳的网页点击数据进行预处理和分析,从而可以对业务进行更准确的预测。4.从目前流行的互联网在线社区获取数据,获取通过用户的属性,发现用户的典型行为模式,并且将用户分组,给互联网在线社区提供商进行决策依据。

全文目录


摘要  4-5
Abstract  5-7
目录  7-11
第一章 绪论  11-20
  1.0 引言  11-12
  1.1 大数据的简介  12-14
    1.1.1 大数据的定义  12-13
    1.1.2 国内外发展状况  13-14
  1.2 业务挑战和机会  14-18
  1.3 本文的主要研究工作  18-19
  1.4 本文组织结构  19-20
第二章 大数据分析及优化  20-26
  2.1 数据的质量  21-23
  2.2 数据的瘦身  23-24
  2.3 数据的市场化  24-25
  2.4 本章小结  25-26
第三章 基于时间戳的大数据集挖掘和预测方法  26-42
  3.1 三角分析方法简介  26-31
    3.1.1 背景描述  27-28
    3.1.2 三角分析法介绍  28-31
  3.2 问题的定义  31-33
    3.2.1 问题的定义  32
    3.2.2 运行示例  32-33
  3.3 三角分析法的实验及结果分析  33-41
    3.3.1 提出方法  35-38
    3.3.2 实验及结果分析  38-41
  3.4 本章小结  41-42
第四章 社交网络用户行为模式大数据  42-51
  4.1 问题介绍  42-43
  4.2 相关的工作及数据收集  43-44
  4.3 算法简介  44-46
    4.3.1 用户的特征向量  45-46
    4.3.2 用相近行为对用户分组的方法  46
  4.4 识别用户行为模式  46-49
    4.4.1 实验及结果  47-49
  4.5 本章小结  49-51
第五章 总结与展望  51-52
  5.1 对将来研究工作的展望  51-52
参考文献  52-55
致谢  55

相似论文

  1. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. 分布式审计系统中消息广播和超大数据传输方法的研究,TP338.8
  4. 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
  5. 政府采购资金使用数据挖掘研究,TP311.13
  6. 基于数据仓库的器材保障综合管理系统的研究与设计,TP311.13
  7. 基于社团结构发现的数据仓库主题抽取的研究,TP311.13
  8. 数据集成技术在银行综合账单系统中的应用研究,TP311.13
  9. 渤海海洋防灾减灾数据仓库的构建与快速访问技术研究,TP311.13
  10. 基于数据仓库与数据挖掘技术的计算机审计模型及其应用研究,TP311.13
  11. 基于领域本体的海洋环境数据仓库设计,TP311.13
  12. 农村信用社数据仓库系统设计与实现,TP311.13
  13. 社会网络化医药电子系统的设计与实现,TP311.52
  14. 门诊病人就诊行为模型挖掘研究,TP311.13
  15. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  16. DWMS列存储中执行引擎的优化与实现,TP311.13
  17. 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
  18. 税务数据仓库系统的设计与应用,TP311.13
  19. 民航空管局生产信息统计系统的设计与实现,TP311.52
  20. 超高速网络中基于终端限制的大数据传输问题的研究,TN919.3
  21. 基于数据挖掘技术的客户消费行为分析系统的开发与应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com