学位论文 > 优秀研究生学位论文题录展示
序列模式挖掘方法及Web使用挖掘研究
作 者: 杨钤雯
导 师: 寇纪淞
学 校: 天津大学
专 业: 管理科学与工程
关键词: 序列模式挖掘 遗传算法聚类 Web使用挖掘 会话聚类 层云表
分类号: TP311.13
类 型: 博士论文
年 份: 2010年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
序列模式挖掘针对序列数据库,致力于发现序列事件之间的关系,找到事件发生存在的特定顺序。序列模式挖掘是关联规则挖掘的推广,有着广泛的应用价值,例如顾客购买行为分析、Web访问模式分析、科学实验分析、疾病治疗早期诊断、自然灾害预测、DNA序列模式分析等。近年来,序列模式挖掘有了长足的发展,仍然存在许多问题,比如:算法复杂度过高,对大数据集效率低,适应性较差等。本文应用数据挖掘、遗传算法的理论和方法,重点研究了序列模式挖掘方法及在Web使用挖掘领域的应用。主要的研究内容和创新性工作包括:首先,介绍了数据挖掘的概念和发展情况,评述了数据挖掘的各种技术,面向不同数据类型的挖掘方法。分析了数据挖掘中的聚类技术,聚类的基本理论和方法、算法,以及聚类的详细过程。其次,针对k-means聚类算法对噪音数据敏感、易收敛到局部极值点、需要人为确定聚类的数目等不足,提出了结合k-medoids方法的遗传算法聚类方法-- GKMD算法。GKMD算法将聚类个数引入到适应值函数中,设计了包含聚类个数和类中心位置的统一编码及相应的交叉与变异算子,使遗传算法在进化的过程中自动确定最优的聚类个数。同时,在算法中嵌入了一种有效的启发式搜索方法,使得整个GKMD算法兼备了较好的全局搜索能力和局部搜索能力。实验表明, GKMD算法显著地改进了对包含噪音和异常点的数据进行聚类的鲁棒性,并能够在保证较高聚类准确率的基础上准确地确定聚类数目。第三,提出了一种新的结合聚类的两阶段序列模式挖掘方法。第一阶段用k-medoids算法将序列数据聚类到不同的群组,设计了一种n元组结构的序列模表示方法,可以减少序列的维数,并提出了一种新的序列模式相似度计算方法SMCS,能够捕捉序列模式更多的信息,更加准确的计算相似度。第二阶段用层云表展示每一个聚类,提供了更多的普通序列模式挖掘方法不能提供的信息,如转换的频率等,用于辅助显著模式发现和快速抽取。第四,将提出的序列模式挖掘方法进行了扩展并运用到Web使用挖掘中。分析了与Web用户兴趣行为密切相关的各种因素,给出了Web会话的语义本体表示,提出了一种更为准确的计算语义会话之间的相似度的方法SMSCP。分别采用分割式k-medoids方法和层次式Single link方法,进行序列模式挖掘过程中的Web会话的聚类,并应用层云表展示Web使用挖掘的聚类结果。通过不同的聚类算法以及性能评价指标,在特定的数据集与其它相似度计算指标进行了比较,验证了SMSCP的性能。
|
全文目录
中文摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-17 1.1 数据挖掘技术 8-12 1.2 序列模式挖掘及应用 12-13 1.3 序列模式挖掘存在的问题 13-14 1.4 文章结构和论文创新点 14-17 第二章 数据挖掘中的聚类技术 17-25 2.1 聚类的基础和算法分类 17-19 2.2 基于相似度或距离的聚类方法 19-21 2.3 聚类的过程 21-22 2.4 聚类数量的确定 22-24 2.5 本章小结 24-25 第三章 基于k-medoids 的遗传算法聚类 25-48 3.1 传统的基于距离的聚类方法 25-28 3.2 遗传算法用于聚类 28-32 3.3 结合k-medoids 的遗传算法聚类GKMD 32-39 3.4 基于密度的距离 39 3.5 实验结果及讨论 39-47 3.6 本章小结 47-48 第四章 结合聚类的两阶段序列模式挖掘方法 48-71 4.1 序列模式挖掘 48-54 4.2 基于聚类的两阶段序列模式挖掘算法 54-62 4.3 实验结果及讨论 62-69 4.4 本章小结 69-71 第五章 基于本体的Web 会话聚类方法研究 71-94 5.1 Web 日志会话聚类 71-79 5.2 基于语义公共路径的相似性度量 79-83 5.3 聚类的产生及可视化 83-86 5.4 实验结果及讨论 86-93 5.5 本章小结 93-94 第六章 总结与展望 94-97 6.1 论文的主要工作和创新性 94-95 6.2 今后研究工作与展望 95-97 参考文献 97-106 发表论文和科研情况说明 106-107 致谢 107
|
相似论文
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 基于隐私保护的多步攻击关联方法研究,TP311.13
- 基于Web使用挖掘的网站优化研究,TP393.092
- 基于Web日志的用户访问模式挖掘的研究,TP311.13
- 人工鱼群算法在聚类问题中的应用研究,TP18
- 一种基于GWRN模型的自组织神经网络算法的研究及应用,TP393.05
- Web挖掘技术在远程教学系统中的应用,TP391.6
- 面向税务稽查选案的信息处理方法,F812.42
- 面向校园网日志分析的web数据挖掘技术研究,TP311.13
- E-Learning平台上基于学习行为分析的个性化教学系统的研究与实现,TP391.6
- 多相关时间序列异常模式挖掘框架的研究,TP311.13
- Web使用挖掘中事务间关联规则方法研究,TP311.13
- 序列模式挖掘在医疗保险上的应用,TP311.13
- 基于聚类—遗传混合算法的物流配送路径优化研究,F253.9
- 基于Web使用挖掘的浏览兴趣预测及个性化推荐策略研究,TP391.3
- 基于Web日志的序列模式挖掘算法的研究,TP311.13
- 在自适应学习系统中应用序列挖掘技术实现智能导航,TP391.6
- 基于蜜罐系统的网络行为模式分析,TP393.08
- 面向问答的社区型知识抽取技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|