学位论文 > 优秀研究生学位论文题录展示

基于MapReduce的海量点击流信息挖掘研究

作 者: 冯宗伟
导 师: 胡维华
学 校: 杭州电子科技大学
专 业: 计算机应用技术
关键词: 点击流 频繁序列模式 MapReduce 数据仓库 ItemCF 模式融合
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网与电子商务的快速发展,网站产生的点击、商品、交易等数据呈现海量数据式增长。淘宝网(taobao.com)中的页面每天点击超过2亿次以上,商品成交超过5000万次/天。巨大的访问量带来了巨大的浏览记录与交易记录,挖掘这些记录中蕴含的用户信息成为时下网站建设者们最迫切的需求。点击流是用户在一个Session会话内点击URL链接而被记录的访问路径,挖掘点击流数据可以发现商品频繁点击序列,并尝试从点击流的角度优化个性化商品推荐算法。MapReduce计算模式是目前主流较为稳定的分布式计算平台,本文充分利用MapReduce在矩阵运算与聚合运算上的优势,改进传统挖掘算法在分布式环境下的数据共享、中间知识集吸收等问题,从而解决海量数据挖掘瓶颈,获得挖掘效率的提升。本文的主要工作和创新点如下:首先,本文使用HDFS构建的数据仓库+MapReduce实现开源分布式数据挖掘框架,采用自定义文本方式存储海量点击数据,使用MapReduce计算模式实现数据集的投影、选择、并、交、叉、连接等数据集操作,进而实现在HDFS中进行数据的清洗与预处理操作。其次,本文提出在MapReduce数据操作基础上使用点击树来还原一个完整Session会话内的用户点击路径,真正反映用户最原始的点击动机。在这基础之上优化原始BIDE频繁序列模式挖掘算法,消除前缀树生长过程中的递归方式,使挖掘任务在2个MapReduce任务内就能完成。最后,本文尝试从点击流数据、用户长期偏好数据多维度优化个性化推荐算法,给出一个基于点击流的ItemCF综合推荐算法应用。算法基于用户点击模式与用户长期偏好特征,引入时间因子到项相似度计算中。最终利用逻辑回归模型综合模式融合多种维度特征,给出商品Top-N推荐值排名,实验结果表明综合推荐算法效果有显著提升。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-18
  1.1 Web 点击流信息挖掘概述  10-13
    1.1.1 Web 点击流挖掘  10-12
    1.1.2 Web 日志抽取与描述  12-13
  1.2 互联网海量数据挖掘概述  13-14
  1.3 国内外研究现状及分析  14-16
    1.3.1 点击流序列模式挖掘方法  14-15
    1.3.2 推荐算法  15-16
  1.4 论文主要工作  16
  1.5 论文内容安排  16-18
第二章 关键技术综述  18-25
  2.1 MapReduce 的文件系统支持  18-20
    2.1.1 分布式文件系统  18-19
    2.1.2 Google 分布式文件系统 GFS  19-20
  2.2 MapReduce 关键技术  20-21
    2.2.1 MapReduce 计算模式原理  20-21
    2.2.2 MapReduce 编程方式  21
  2.3 MapReduce 模式实现的数据集操作  21-25
    2.3.1 基于 MapReduce 的选择运算  21
    2.3.2 基于 MapReduce 的投影运算  21
    2.3.3 基于 MapReduce 的并、交和差运算  21-22
    2.3.4 基于 MapReduce 的自然连接与一般性连接运算  22-23
    2.3.5 基于 MapReduce 的分组和聚合运算  23
    2.3.6 矩阵乘法  23-25
第三章 基于 HDFS 存储方式的数据仓库与开源分布式数据挖掘架构  25-32
  3.1 基于 HDFS 的数据仓库支撑体系  25-27
  3.2 Web 日志数据的 ETL 过程  27-31
    3.2.1 源数据同步到 HDFS  27-28
    3.2.2 使用 Hive 数据仓库管理  28-29
    3.2.3 日志数据 ETL 过程  29-31
  3.3 分布式数据挖掘策略  31-32
第四章 基于 MapReduce 的点击流频繁序列模式挖掘  32-40
  4.1 关联规则挖掘与频繁模式  32-33
  4.2 问题描述与定义  33
  4.3 点击流数据预处理  33-34
  4.4 使用 MapReduce 改进 BIDE 点击流序列模式挖掘算法  34-37
    4.4.1 BIDE 算法思想  34-36
    4.4.2 BIDE 算法描述  36
    4.4.3 基于 MapReduce 的 BIDE 点击流序列模式挖掘算法  36-37
  4.5 算法测试与分析  37-40
第五章 基于点击流的推荐算法应用  40-48
  5.1 基于项的协同过滤推荐  40-41
  5.2 维度与模式融合  41-42
  5.3 基于点击流的推荐算法  42-45
    5.3.1 基于项的推荐算法  42-43
    5.3.2 模式融合机器学习算法  43-44
    5.3.3 MapReduce 实现点击流的项推荐算法  44-45
  5.4 实验与分析  45-48
第六章 总结与展望  48-49
  6.1 本文研究工作总结  48
  6.2 未来工作及展望  48-49
致谢  49-50
参考文献  50-53
附录  53-54
详细摘要  54-56

相似论文

  1. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. 家校互动教育平台中数据仓库的研究与应用,TP311.13
  4. 高校毕业生就业状况监测系统研究,G647.38
  5. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  6. 面向烟草制造行业的商务智能系统设计,TP311.13
  7. 政府产业经济决策支持系统研究,TP311.13
  8. 政府采购资金使用数据挖掘研究,TP311.13
  9. Web点击流数据的聚类技术研究,TP311.13
  10. 基于稀疏表示残差融合的人脸表情识别,TP391.41
  11. 基于Eclipse的嵌入式数字电视开发平台数据仓库的研究与实现,TP311.52
  12. 增值业务综合运营平台营销服务支撑系统的设计与实现,TP311.52
  13. 达梦数据交换平台(DMETL)执行过程改进,TP311.13
  14. 多维数据建模工具的研究与实现,TP311.13
  15. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  16. DWMS列存储中执行引擎的优化与实现,TP311.13
  17. 民航空管局生产信息统计系统的设计与实现,TP311.52
  18. 高速网络环境下的入侵检测系统的研究,TP393.08
  19. 医疗资源管理决策支持系统的研究与实现,TP311.52
  20. 销售管理系统设计与实现,TP311.52
  21. 基于Hadoop的文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com