学位论文 > 优秀研究生学位论文题录展示
Web日志挖掘技术的研究及应用
作 者: 吴艳
导 师: 古辉;王维明
学 校: 浙江工业大学
专 业: 计算机技术
关键词: Web数据挖掘 Web日志挖掘 数据预处理 关联规则 FP-增长算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 238次
引 用: 3次
阅 读: 论文下载
内容摘要
万维网是一个巨大的、分布广泛的和全球性的信息库,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。如何利用这些庞大的数据得到有价值的信息和知识就是我们研究的课题—Web日志挖掘。Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善Web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同时将一些可疑信息及时反馈给网站管理员以加强网站的安全性。本篇论文主要从以下几个方面对Web日志挖掘进行系统的分析和研究:(1)阐述了本篇论文的研究背景及Web日志挖掘的国内外研究现状,并对数据挖掘、Web数据挖掘和Web日志挖掘进行了研究;(2)分析研究了传统的数据预处理过程,针对Web日志的结构采用挖掘中的数据预处理技术进行了分析与研究,并在此基础上提出一种简化预处理步骤的算法,实验证明这种算法可以在不降低预处理精度的情况下提高预处理的速度;(3)对数据挖掘中常用的几种算法进行简单介绍,针对挖掘环境的特点采用关联规则算法中的FP-增长算法,提出采用数字化的方法实现FP-增长算法,加快了挖掘进度;(4)论文介绍了Web日志挖掘的具体实现过程,针对挖掘过程的各个阶段采用了相应的措施,并给出具体实例;(5)总结了本课题的研究成果和工作中尚存的不足,并根据自身的研究,分析了Web日志挖掘的研究方向、应用前景和它所面临的挑战。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第1章 绪论 9-14 1.1 课题的背景、目的和意义 10 1.2 国内外的研究现状 10-14 1.2.1 国外的研究现状 11-12 1.2.2 国内的研究现状 12-14 第2章 数据挖掘与WEB日志挖掘 14-21 2.1 数据挖掘概述 14 2.2 WEB数据挖掘 14-18 2.2.1 Web数据挖掘的定义 15 2.2.2 Web挖掘的特点 15 2.3.3 Web挖掘的对象 15-16 2.2.4 Web挖掘的分类 16-18 2.3 WEB日志挖掘 18-20 2.3.1 Web日志挖掘的定义 18 2.3.2 Web日志挖掘步骤 18-19 2.3.3 Web日志挖掘的应刚领域 19-20 2.4 本章小结 20-21 第3章 WEB日志挖掘的预处理技术 21-31 3.1 数据预处理技术 21-22 3.2 WEB日志挖掘中数据预处理技术 22-24 3.3 WEB日志挖掘中数据预处理的流程 24-27 3.3.1 数据清理 24-25 3.3.2 用户识别 25-26 3.3.3 会话识别 26 3.3.4 路径补充 26 3.3.5 事务识别 26-27 3.4 用户访问序列获得事务算法 27-30 3.4.1 STT算法介绍 27-29 3.4.2 STT算法处理过程示例 29-30 3.5 本章小结 30-31 第4章 WEB日志挖掘的模式发现 31-44 4.1 模式发现 31-36 4.1.1 统计分析方法 31 4.1.2 路径分析 31 4.1.3 关联规则 31-33 4.1.4 序列模式 33-34 4.1.5 聚类 34-35 4.1.6 分类 35-36 4.2 FP-增长算法的分析与研究 36-42 4.2.1 基于Apriori的产生频繁项集的方法综述 36 4.2.2 FP-增长算法的执行过程 36-40 4.2.3 FP-增长算法的描述 40-41 4.2.4 FP-增长算法的数字化实现方案 41-42 4.3 模式分析 42-43 4.4 本章小结 43-44 第5章 WEB日志挖掘的实现 44-51 5.1 挖掘环境及日志数据的获取 44-45 5.2 挖掘数据的设计 45-49 5.2.1 Web日志数据的导入 45-46 5.2.2 Web日志数据的预处理 46-47 5.2.3 用户识别及事务数据库的生成 47-49 5.3 关联规则的挖掘及结果分析 49-50 5.4 本章小结 50-51 第6章 结论与展望 51-53 6.1 结论 51 6.2 展望 51-53 参考文献 53-56 致谢 56-57 攻读学位期间参加的科研项目和成果 57
|
相似论文
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
- 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
- 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
- 基于高斯过程的在线建模问题研究,TP181
- 基于投影寻踪回归的网络异常检测机制研究,TP393.08
- 通信行为指纹研究,TP311.13
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
- 动态关联规则的研究,TP311.13
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 惯性运动捕捉系统中传感数据的传输与处理,TP212
- “嫦娥一号”微波探测仪数据预处理与分析,V446.9
- 基于日志分析的超级计算机错误预测方法研究,TP338
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
- 用户交易行为的分析与展示—在现代易货业中的应用,TP311.13
- 基于数据挖掘的入侵检测技术的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|