学位论文 > 优秀研究生学位论文题录展示
基于素数编码的序列模式挖掘研究
作 者: 孙粮磊
导 师: 李云
学 校: 扬州大学
专 业: 计算机应用技术
关键词: 数据挖掘 序列模式挖掘 素数编码 多层序列模式挖掘 加权序列模式挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
序列模式挖掘是数据挖掘领域中一个活跃的研究分支,有着广泛的应用前景,如顾客购买行为分析、Web点击流分析以及生物序列分析等,目前已经得到了广泛地研究,提出了许多经典的算法,如GSP算法、SPADE算法以及PrefixSpan算法等等,这些算法仅仅是挖掘出满足用户指定的最小支持度minsup的序列模式,然而用户可能需要更加抽象的信息,即根据分类概念,将序列数据库中的项目分成不同的类,形成不同的层次进行多层序列模式挖掘,而且用户可能更关注比较重要的序列模式,即将序列的权重参与到挖掘过程中进行加权序列模式挖掘。由于素数论中的素数编码方案具有良好的数学性质、鲜明的层次性与简洁的更新操作等优点,为此本文利用素数编码对序列模式挖掘进行了系统的研究,主要研究工作包括:(1)在多层序列模式挖掘中,编码既要直观地表达层次关系,又要方便确定不同层次之间的关系,编码方式将直接影响着算法的效率。本文在多层序列模式挖掘中采用素数编码,并证明了通过素数编码的简单整除操作就可确定层与层之间的父—子关系,提出了基于素数编码的多层序列模式挖掘算法(PMSM)和交叉层序列模式挖掘算法(CROSS-PMSM)。实验证明,该算法能有效地从序列数据库中挖掘多层和交叉层序列模式。(2)在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此本文提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法有较好的时间和空间性能。(3)在多层序列模式和加权序列模式的基础之上,本文定义了多层加权序列模式MWSP (Multi-level Weighted Sequential Pattern),提出了多层加权序列模式挖掘框架,并且给出了基于素数编码的多层加权序列模式挖掘算法(PMWSM)。该算法即可以为用户提供更加抽象的信息又可以挖掘出满足用户需求的有价值的序列模式。通过实验证明,本文提出的基于素数编码的多层加权序列模式挖掘算法在时间与空间上都具有良好的性能。
|
全文目录
摘要 5-7 Abstract 7-9 第一章 绪论 9-14 1.1 论文研究背景与选题依据 9-11 1.2 论文主要内容与创新 11-12 1.3 论文内容组织 12-14 第二章 素数编码理论与序列模式挖掘 14-29 2.1 素数编码理论 14-18 2.1.1 素数及其编码理论的基本概念 14 2.1.2 素数编码方案 14-17 2.1.3 素数编码理论的应用 17-18 2.2 序列模式挖掘 18-28 2.2.1 序列模式挖掘的基本概念 18-21 2.2.2 序列模式挖掘典型算法 21-27 2.2.3 序列模式挖掘的应用 27-28 2.3 小结 28-29 第三章 基于素数编码的多层序列模式挖掘 29-39 3.1 引言 29-30 3.2 相关知识 30-31 3.3 基于素数编码的多层序列模式挖掘算法 31-37 3.3.1 分类结构树中的素数编码 31-32 3.3.2 多层序列模式挖掘算法(PMSM) 32-35 3.3.3 交叉层序列模式挖掘算法(CROSS-PMSM) 35-37 3.4 实验结果与分析 37-38 3.5 小结 38-39 第四章 改进的加权序列模式挖掘算法 39-48 4.1 引言 39-40 4.2 相关知识 40-41 4.3 基于前缀投影数据库的加权序列模式挖掘算法 41-47 4.3.1 K-最小加权支持数 41-42 4.3.2 加权序列模式挖掘算法 42-46 4.3.3 实验结果与分析 46-47 4.4 小结 47-48 第五章 多层加权序列模式模型及挖掘算法 48-55 5.1 引言 48 5.2 多层加权序列模式模型 48-49 5.3 基于素数编码的多层加权序列模式挖掘算法(PMWSM) 49-53 5.3.1 PMWSM算法描述 49-51 5.3.2 PMWSM算法实例分析 51-53 5.4 实验结果与分析 53-54 5.5 小结 54-55 第六章 结束语 55-57 6.1 论文总结 55-56 6.2 进一步研究工作 56-57 致谢 57-58 参考文献 58-64 攻读硕士期间撰写的主要论文 64-65 攻读硕士期间参加的科研项目/学术会议/获奖 65-67
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
- 基于智能计算的网络学习评价模型研究与系统设计,TP18
- 基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现,TP311.52
- 面向电子商务的Web数据挖掘应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|