学位论文 > 优秀研究生学位论文题录展示

Web用户访问聚类模式研究

作 者: 杜立平
导 师: 刘志镜;赵耿
学 校: 西安电子科技大学
专 业: 计算机技术
关键词: 数据挖掘 Web挖掘 概念URL K均值 蚁群算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着因特网的快速发展,海量的Web数据资源已经成为人们获取信息的重要来源。但是,由于Web资源所具有的一些特性,用户很难快速而准确地获取真正有价值的信息,由此产生了数据挖掘的概念。这种用于决策支持的新技术,能够利用已有的数据对未来的活动进行预测,并最终为用户提供方便的定制信息服务。现已成为一个新的重要的研究方向。本文系统、完整地论述了Web事务聚类分析的两个阶段,即数据预处理和聚类分析阶段。其中数据预处理阶段又包括日志解析、数据清洗、用户识别和事务识别四个过程;同时,论文在此阶段引入了“概念URL”,以获得容易理解的聚类结果。在聚类分析阶段,本文结合蚁群优化的原理,建立了人工蚂蚁模型,并基于该模型实现了蚁群聚类分析算法。另外,本文还在聚类分析过程中使用了K均值算法,并比较了蚁群算法和K均值算法在Web事务聚类分析上的优劣。采用某学院Web服务器日志作为数据集的试验表明,本文的技术和方法能够获得质量良好的聚类结果。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-11
  1.1 课题背景  7
  1.2 国内外的研究现状  7-8
  1.3 研究工作和意义  8-9
  1.4 论文的组织结构  9-11
第二章 数据挖掘与WEB挖掘  11-21
  2.1 数据挖掘概念的提出  11-16
    2.1.1 数据挖掘的过程  12-13
    2.1.2 数据挖掘的方法  13-16
  2.2 WEB挖掘概念的提出  16-20
    2.2.1 Web挖掘概念  16-17
    2.2.2 Web挖掘分类  17-20
  2.3 本章小结  20-21
第三章 WEB聚类分析  21-29
  3.1 聚类分析  21
  3.2 WEB聚类分析  21-22
  3.3 聚类分析常用算法  22-27
    3.3.1 基于划分的方法(Partitioning Method)  22-24
    3.3.2 基于层次的方法(Hierarchi cal Method)  24
    3.3.3 基于密度的方法(Density-based Method)  24
    3.3.4 基于网格的方法(Grid-based Method)  24
    3.3.5 基于模型的方法(Model-based Method)  24-25
    3.3.6 基于仿生学的方法(Bionic Method)  25-26
    3.3.7 聚类算法比较  26-27
  3.4 本章小结  27-29
第四章 WEB用户访问聚类分析系统构建  29-49
  4.1 系统模型  29-32
    4.1.1 系统功能层次结构  29-30
    4.1.2 系统架构与开发技术  30-31
    4.1.3 工作流程  31-32
    4.1.4 系统功能模块  32
  4.2 数据预处理  32-38
    4.2.1 挖掘数据源  32-34
    4.2.2 日志解析  34-35
    4.2.3 数据清洗  35-36
    4.2.4 用户识别  36-37
    4.2.5 会话/事务识别  37
    4.2.6 概念URL  37-38
  4.3 WEB事务聚类分析  38-47
    4.3.1 基于K均值算法的Web事务聚类分析  38-39
    4.3.2 基于蚁群算法的Web事务聚类分析  39-47
  4.4 本章小结  47-49
第五章 试验与分析  49-59
  5.1 基于蚁群算法的聚类分析结果  49-52
  5.2 基于K均值算法的聚类分析结果  52-56
  5.3 WEB用户访问聚类分析系统实现  56-58
    5.3.1 数据清洗视图  56
    5.3.2 会话识别视图  56-57
    5.3.3 聚类分析结果视图  57-58
    5.3.4 簇特征的呈现  58
  5.4 试验结果小结  58-59
第六章 结束语  59-61
  6.1 论文总结  59
  6.2 下一步的研究工作  59-61
致谢  61-63
参考文献  63-65

相似论文

  1. 高灵敏度GNSS软件接收机的同步技术研究与实现,P228.4
  2. 多导弹协同作战突防效能评估及组合优化算法研究,TJ760.1
  3. 基于蚁群算法的电梯群优化控制研究,TU857
  4. 医学超声图像去噪方法研究,TP391.41
  5. 隐式用户兴趣挖掘的研究与实现,TP311.13
  6. 动态环境下移动对象导航系统相关技术的研究,TP301.6
  7. 基于改进蚁群算法的机器人路径规划研究,TP242
  8. 基于数据挖掘技术的保健品营销研究,F426.72
  9. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  10. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  11. K-均值聚类算法的研究与改进,TP311.13
  12. 基于对数正态分布异方差模型的统计推断,O212.1
  13. 改进的蚁群算法及其在TSP上的应用研究,TP301.6
  14. Bicluster数据分析软件设计与实现,TP311.52
  15. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  16. 基于变异粒子群的聚类算法研究,TP18
  17. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  18. 基于遗传算法和粗糙集的聚类算法研究,TP18
  19. 基于共振峰的OSAHS筛查,R766
  20. 基于免疫机制蚁群算法的电力系统无功优化研究,TP18
  21. 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com