学位论文 > 优秀研究生学位论文题录展示
面向校园网日志分析的web数据挖掘技术研究
作 者: 李娟
导 师: 刘志镜;石云辉
学 校: 西安电子科技大学
专 业: 计算机技术
关键词: Web使用挖掘 预处理 ID3算法 序列模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 83次
引 用: 0次
阅 读: 论文下载
内容摘要
Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、预测用户浏览行为,从而更好地理解和服务基于Web应用的技术。如何了解用户的兴趣和爱好,分析用户的浏览行为,使站点结构变得更加合理,更好的挖掘站点潜在的商业价值,解决这些问题的途径之一就是将传统数据挖掘技术应用于Web日志挖掘,并针对Web日志的新特性,对传统挖掘方法进行扩展和改进。Web内容的复杂性、多样性和非结构性,Web组织结构的动态性和多变性,Web使用数据的非精确性等,均给Web使用挖掘带来很多困难,使得不能够把传统的数据挖掘技术简单地应用于Web数据,同时也为Web挖掘理论和技术的深入研究提供了更多的挑战和机遇。Web使用挖掘的数据可能来源于服务器端、客户端、代理服务器端等,并且每一种类型的数据收集不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和它的实现方面都不相同。文章系统地阐述了论文的研究背景及Web日志挖掘的整个过程。数据挖掘的准备工作是对收集到的原始数据进行预处理,它由数据清洗、用户识别、会话识别和路径补充步骤构成。Web会话是由访问站点的Web页而访问序列构成的。因此,Web页面访问的相似性是Web会话相似性的基础。为了吸引用户,网站管理人员在设计网站结构时总是把具有相似内容的Web页面放在尽可能接近的位置,因而从Web页面的URL结构可以观察其静态相似性。总之,由于数据预处理的结果是数据挖掘的数据源,预处理质量对数据挖掘的结果有很大的影响。本文以高校校园网日志为研究对象并且实现了一个系统原型。首先,在分析了传统数据预处理过程后,研究了相应改进的预处理方法,其中,基于ID3算法的Frame页面过滤技术是对数据进行预处理的有效方法。其次,提出了基于多元预测模型的序列模式挖掘算法,并对算法进行了分析和实验测试。最后,利用某高校的校园网日志进行了相关实验,根据对实验结果数据的分析,对实验对象高校网站提出了几点改进的建议。由结果表明,该挖掘算法是有效、可行的。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-11 1.1 研究背景及研究意义 7 1.2 国内外研究现状 7-9 1.2.1 国外研究现状 8 1.2.2 国内研究现状 8-9 1.3 论文的主要工作 9 1.4 论文的组织结构 9-11 第二章 WEB访问信息挖掘概述 11-19 2.1 Web数据挖掘的定义 11-12 2.2 Web数据挖掘的分类 12-16 2.2.1 Web内容挖掘 13 2.2.2 Web结构挖掘 13-14 2.2.3 Web访问信息挖掘 14-16 2.2.4 Web用户性质挖掘 16 2.3 数据挖掘流程 16-18 2.4 本章小结 18-19 第三章 WEB访问信息挖掘相关技术研究 19-33 3.1 数据获取与预处理 20-24 3.1.1 数据获取 20-21 3.1.2 数据预处理 21-24 3.2 模式发现 24-31 3.2.1 关联规则方法 24-25 3.2.2 聚类分析方法 25-27 3.2.3 序列模式方法 27-31 3.2.4 其他方法 31 3.3 模式分析 31-32 3.4 本章小结 32-33 第四章 WEB数据挖掘预处理的改进 33-45 4.1 数据获取与数据分析 33-35 4.2 预处理中的Frame页面过滤技术 35-37 4.3 基于ID3算法的Frame页面过滤 37-40 4.4 预处理中改进的会话识别算法 40-44 4.4.1 优化的访问时间阈值的会话识别 40-42 4.4.2 实验结果与分析 42-44 4.5 本章小结 44-45 第五章 校园网日志挖掘系统的设计 45-59 5.1 系统原型设计 45-46 5.1.1 总体设计 45-46 5.1.2 系统模块功能 46 5.2 模式发现模块设计与实现 46-53 5.2.1 多元预测模型 47 5.2.2 模型构造与预测算法 47-50 5.2.3 实验结果与分析 50-53 5.3 系统实现运行 53-55 5.4 校园网网站改进建议 55-58 5.5 本章小结 58-59 第六章 全文总结与研究展望 59-61 6.1 全文总结 59 6.2 研究展望 59-61 致谢 61-63 参考文献 63-65
|
相似论文
- 舌图像中瘀斑瘀点检测技术研究,TP391.41
- Cu2+/Co2+催化漂白桉木浆工艺与机理研究,TS745
- 离子液体预处理纤维素及再生纤维素水解研究,TQ352.1
- 玉米秸秆和牛粪混合厌氧发酵工艺优化研究,S216.4
- 红外图像目标识别及跟踪技术研究,TP391.41
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 化学与生物成因施氏矿物的矿物学特征及其对水中As(Ⅲ)吸附去除效果的研究,X703
- O3高级氧化技术处理黄连素制药废水研究,X787
- 缺氧预处理MSCs移植对心肌梗死区SDF-1/CXCR4轴表达变化的实验研究,R542.22
- 内质网应激预处理提高肾组织对缺血再灌注损伤耐受性的作用及机制,R692.5
- 丁苯酞预处理对大鼠脑缺血再灌注损伤的神经保护作用,R743.33
- 经H2O2预处理的骨髓间充质干细胞移植对急性心梗后心室重构影响的实验研究,R542.22
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基于车牌识别技术的智能交通系统的设计与实现,TP391.41
- 基于小波分析的掌纹图像识别研究,TP391.41
- 基于高斯过程的在线建模问题研究,TP181
- 五效蒸发法预处理环氧丙烷废水研究,X78
- 基于投影寻踪回归的网络异常检测机制研究,TP393.08
- 基于web的通信原理教学信息管理与评估系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|