学位论文 > 优秀研究生学位论文题录展示

基于数据仓库的点击流技术的研究

作 者: 蔡俊
导 师: 宋顺林
学 校: 江苏大学
专 业: 计算机应用技术
关键词: 数据仓库 点击流 web日志 数据挖掘 电子商务
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 115次
引 用: 4次
阅 读: 论文下载
 

内容摘要


Internet的快速发展使得网上交易成为人们日常买卖行为中的一种重要形式,电子商务也因此得到了的蓬勃发展,而且正在成为一种潮流,随之而来的是大量web数据的产生,这些web数据广泛分布在网络服务器上,分布于世界各地,只要你拥有一台存放着电子商务系统的web服务器,你就可以获取这些潜藏着巨大商业价值的web数据。信息技术的发展让人们研究这些web数据成为现实,但是仍然存在两个方面的问题:如何有效的组织并存储如此大数量级的数据?如何利用有效的数据分析方法对海量数据进行分析,并从中发现具有实用价值的信息?这两个问题也正是本文要研究的内容。数据仓库最先是为基于关系型数据库的大量的数据存储问题而提出的一种解决方案,数据挖掘同样是为了实现对存储在关系型数据库的大量数据进行有效分析而提出的一种方法。随着web技术的不断发展,数据仓库、数据挖掘技术逐渐与web技术进行了融合,使得web数据仓库和web数据挖掘技术应运而生。本文首先对数据仓库和数据挖掘的基本概念和相关技术进行了概述,而后结合web数据仓库的知识,从数据仓库的总体架构、模型设计、元数据设计等方面对销售自动化系统点击流数据仓库的构建过程进行了详细阐述,得出了一个可用的点击流数据仓库的解决方案,并使用微软数据仓库构建工具对点击流数据仓库进行了实现。接着讨论了点击流数据的收集方法,将点击流分为静态点击流和动态点击流两种类型,分析了从web服务器日志文件获取静态点击流存在的问题以及数据预处理中的难点,提出了动态点击流收集策略的思想,该方法可以高效灵活的获取点击流信息,避免了数据预处理问题。最后结合web数据挖掘技术,提出了一种用户频繁偏爱路径挖掘算法,利用该算法可以发现用户的共同浏览兴趣,能够从多侧面深入了解用户行为,进而指导销售自动化系统改进结构,利用web开发技术实现了挖掘算法并将分析结果进行了展示。

全文目录


摘要  5-6
ABSTRACT  6-9
第一章 绪论  9-13
  1.1 课题的背景及意义  9-10
  1.2 国内外研究现状  10-11
  1.3 本文的主要研究内容  11-12
  1.4 本文的组织结构  12-13
第二章 基本概念及相关技术  13-26
  2.1 数据仓库  13-20
    2.1.1 数据仓库的概念  13-14
    2.1.2 数据仓库的体系结构  14-16
    2.1.3 数据仓库的数据组织  16-18
    2.1.4 数据仓库的数据模型  18-19
    2.1.5 数据仓库的ETL  19
    2.1.6 数据仓库工具  19-20
  2.2 数据挖掘  20-22
    2.2.1 Web数据挖掘  20-21
    2.2.2 Web数据预处理  21-22
  2.3 点击流与点击流数据仓库  22-26
    2.3.1 点击流的定义  22-23
    2.3.2 将数据仓库引入web  23-24
    2.3.3 点击流数据仓库的特点  24-26
第三章 销售自动化系统点击流数据仓库的设计与实现  26-41
  3.1 销售自动化系统  26-27
  3.2 CSDW的总体架构  27-28
  3.3 CSDW的模型设计  28-35
    3.3.1 概念模型设计  29
    3.3.2 逻辑模型设计  29-35
  3.4 CSDW的元数据设计  35-37
    3.4.1 维度元数据  35-36
    3.4.2 多维主题元数据  36-37
  3.5 CSDW的ETL设计  37-38
  3.6 使用SQL SERVER 2005构建点击流数据仓库  38-41
第四章 动态点击流收集策略  41-53
  4.1 动态点击流收集策略的思想  41-42
  4.2 动态点击流收集策略的设计思路  42-45
    4.2.1 利用Session机制简化数据预处理  42-44
    4.2.2 利用Ajax技术实现数据收集实时性  44-45
    4.2.3 动态点击流收集策略的框架  45
  4.3 动态点击流收集策略的实施  45-51
    4.3.1 用户身份识别  45-46
    4.3.2 用户行为数据捕捉与发送  46-49
    4.3.3 动态点击流数据的整理和存储  49-51
  4.4 动态点击流与静态点击流的比较  51-53
第五章 一种频繁偏爱路径挖掘算法  53-61
  5.1 相关定义  53-54
  5.2 算法思想  54
  5.3 算法处理过程  54-55
  5.4 算法的描述  55-57
  5.5 举例分析  57-59
  5.6 销售自动化系统点击流分析结果的web展示  59-61
第六章 总结  61-63
致谢  63-64
参考文献  64-66
攻读硕士期间发表的论文及参加的科研项目  66

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 基于数据挖掘技术的保健品营销研究,F426.72
  3. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  4. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  5. Bicluster数据分析软件设计与实现,TP311.52
  6. 基于变异粒子群的聚类算法研究,TP18
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 基于遗传算法和粗糙集的聚类算法研究,TP18
  9. 服装网络营销顾客忠诚度的实证研究,F274
  10. 中等职业学校语文课业设计的思考与实践,G633.3
  11. 基于数据挖掘的税务稽查选案研究,F812.42
  12. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  13. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  14. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  15. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  16. 论《联合国国际货物销售合同公约》在适用范围上的新发展,D997.1
  17. 教学质量评估数据挖掘系统设计与开发,TP311.13
  18. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  19. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  20. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  21. Web使用挖掘与网页个性化服务推荐研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com