学位论文 > 优秀研究生学位论文题录展示
基于Web用户兴趣度的网页重构方法研究
作 者: 曹安得
导 师: 田力威
学 校: 沈阳大学
专 业: 管理科学与工程
关键词: Web日志挖掘 数据预处理 兴趣度 蚁群聚类
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 60次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet技术在电子商务、信息共享以及提供在线服务等方面的广泛应用,网络成为人与人之间进行信息处理与信息交流的平台。面对网络日益增长的信息量,如何理解用户与网络系统交互的行为,获取有效的个性化信息,成为困扰网站设计者的难题之一。由此产生了Web挖掘技术,其中Web日志挖掘是Web挖掘中的一个重要方面。本文是围绕Web日志预处理和Web日志挖掘技术方法展开研究的。首先、优化了数据预处理传统的用户识别方法。其次、综合用户浏览时间、浏览次数、浏览行为兴趣提出了新的兴趣度事务识别方法。最后、针对传统聚类算法无效搜索多、收敛速度慢、处理复杂数据差、易陷入局部最优等缺点,本文提出了改进的蚁群聚类算法,将信息熵引入到蚁群算法中,通过k-均值粗聚类的结果作为信息熵蚁群聚类的初始聚类中心,减少了参数以及初始数据分散的特性,提高了系统的运算效率。通过实验发现,本文提出的会话识别方法可以识别出页面浏览时间较长的会话,可以准确发现访问次数较少的链接页面,同时根据用户页面浏览兴趣度来清理掉冗余的页面数据,为日志挖掘方法提供优化的数据源。通过算法对比,本文提出的改进信息熵的蚁群聚类方法收敛速度快、有效搜索多、处理大数问题较准确,从而能更有效的找出访问页面相似的用户,为用户个性化推荐和网站动态构造提供方法策略。
|
全文目录
摘要 5-6 Abstract 6-11 1 绪论 11-19 1.1 课题背景和意义 11-12 1.2 研究现状 12-17 1.3 本文的研究内容及框架 17-19 1.3.1 论文内容 17 1.3.2 研究框架 17-19 2 Web数据挖掘 19-25 2.1 数据挖掘 19-20 2.2 Web挖掘 20 2.3 Web挖掘分类 20-23 2.4 本章小结 23-25 3 Web日志挖掘及预处理研究 25-33 3.1 Web日志挖掘 25-28 3.1.1 Web日志数据源 25-27 3.1.2 Web日志挖掘的相关概念 27-28 3.2 Web日志数据预处理过程 28-32 3.2.1 数据清理 29-30 3.2.2 用户识别 30-31 3.2.3 会话识别 31-32 3.2.4 事务识别 32 3.3 模式发现与模式分析 32 3.4 本章小结 32-33 4 基于Web用户兴趣度事务识别 33-39 4.1 兴趣度事务的提出 33 4.2 用户兴趣度量 33-36 4.2.1 用户行为 33-34 4.2.2 用户的浏览行为概述 34-35 4.2.3 用户浏览兴趣度量方法 35-36 4.3 用户行为的用户浏览兴趣度表示 36-38 4.4 本章小结 38-39 5 Web日志事务聚类方法研究 39-61 5.1 聚类分析概念及相关方法 39-47 5.1.1 串行聚类方法 39-41 5.1.2 并行聚类方法 41-42 5.1.3 聚类方法的分类及比较 42-43 5.1.4 数据挖掘对聚类算法的要求 43-44 5.1.5 聚类分析的数学模型 44-45 5.1.6 日志聚类 45-47 5.2 兴趣度事务矩阵表示 47-48 5.3 相似度事务聚类 48-50 5.3.1 兴趣度事务离散化及数据规格化 48-50 5.3.2 事务间相似度定义 50 5.4 改进蚁群算法对兴趣事务聚类 50-59 5.4.1 改进的蚁群算法 51-52 5.4.2 基于K-means的改进信息熵蚁群聚类(KIEAC)组合算法 52-53 5.4.3 算法流程 53-55 5.4.4 算法实现 55-56 5.4.5 聚类分析结果 56-59 5.5 本章小结 59-61 6 实验与结果分析 61-65 6.1 总体思路设计 61 6.2 实验过程 61-63 6.2.1 WEB日志进行数据预处理 61-62 6.2.2 设计思路的实现 62-63 6.3 实验结果及分析 63-64 6.4 本章小结 64-65 7 总结与展望 65-67 参考文献 67-71 在校期间研究成果 71-72 致谢 72
|
相似论文
- 蚁群算法及其在气象卫星云图分割中的应用,TP391.41
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 结合蚁群算法与基于划分的DBSCAN聚类算法的研究,TP311.13
- 基于高斯过程的在线建模问题研究,TP181
- 基于投影寻踪回归的网络异常检测机制研究,TP393.08
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
- 惯性运动捕捉系统中传感数据的传输与处理,TP212
- “嫦娥一号”微波探测仪数据预处理与分析,V446.9
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 基于蚁群算法的聚类算法研究,TP311.13
- 道路交通安全微观评价系统研究,U491
- 基于Web使用挖掘的网站优化研究,TP393.092
- 基于SDRI-LWD的随钻测井数据预处理技术研究,P634
- 汽车动态称重数据预处理及模糊补偿算法设计,TH715.1
- 多传感器信息融合技术的研究与应用,TP202
- 基于闭频繁项集的Web日志挖掘,TP393.092
- 基于WEB日志挖掘的用户兴趣模式研究,TP393.092
- 基于Web日志挖掘的个性化推荐系统研究,TP311.13
- 湿式硫酸制酸过程数据挖掘技术开发与应用,TP311.13
- 若干求解大规模问题的支持向量机算法,O212
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|