学位论文 > 优秀研究生学位论文题录展示

序列模式挖掘的研究与应用

作 者: 尹莉莉
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 数据挖掘 序列模式 时间限制 生物序列模式 候选序列
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 16次
引 用: 0次
阅 读: 论文下载
 

内容摘要


何为数据挖掘?从字面意思理解就是对数据进行挖掘,本质的目的就是从数据库或其它相关信息库的大量数据中,挖掘出能够反映有效知识的数据的过程,是当前非常热门的一个研究领域,其中序列模式的发现是其中的一个重要研究课题。自从序列模式挖掘问题被提出以后,就一直成为人们研究的重点,因为它可以被应用在很多领域。随着对序列模式算法的研究,出现了很多比较好的和相对比较成熟的算法,但是大部分算法都是面向整个数据库的序列来进行挖掘的,这样就会导致在挖掘过程中产生一些无用的或用户不感兴趣的候选序列,这在算法根据支持度进行挖掘的过程中就耗费了大量的时间和空间,如分析顾客的购买行为,就不需要将其一月份购买的产品和十二月份购买的产品放在一起进行研究比较,如何把时间限制因素融入到序列模式挖掘中成为目前序列模式挖掘研究的一个重要方向。本文简要介绍了基于约束的序列模式挖掘,并分析了相关的时间约束条件,提出了基于时间限制的快速产生候选项的方法,此方法能够快速定位序列之间的结合,避免了不必要的扫描和检验,从而加快了产生候选项的速度。序列模式挖掘在生物研究方面也具有十分重要的应用。随着医疗科技的发展,很多物种的基因序列都被测出,这就使得存储世界各地的生物序列的数据库变得越来越强大。如果能从这些海量的数据中探求出生物序列中的规律,我们就可以总结出一些物种的遗传特点,以及发现一些疾病的诱发基因,这对疾病的预防和治疗都是十分有意义的。由于生物序列本身的特殊性,采用单一支持度的挖掘方法在某些方面并不能满足生物序列挖掘的目的,所以本文提出了基于多支持度的生物序列模式挖掘的方法,该方法利用树的层次特征,根据两个性质对其进行删减,最终找到满足最小支持度的最终频繁模式,实验表明,该算法降低了时间和空间的复杂度。

全文目录


摘要  3-4
abstract  4-5
目录  5-7
第一章 绪论  7-16
  1.1 研究背景  7-9
    1.1.1 数据挖掘的相关知识  7-8
    1.1.2 数据挖掘的功能及意义  8-9
  1.2 数据挖掘概述  9-12
    1.2.1 数据挖掘的过程及工具  9-10
    1.2.2 数据挖掘与知识发现  10-11
    1.2.3 数据挖掘中的问题  11-12
  1.3 序列模式挖掘研究的现状  12-13
  1.4 生物序列模式挖掘的现状  13-14
  1.5 本文的主要内容和结构  14-16
第二章 序列模式挖掘  16-31
  2.1 序列模式挖掘的基本理论  16-20
    2.1.1 序列模式挖掘的概念定义  16-17
    2.1.2 序列模式挖掘的过程  17-18
    2.1.3 序列模式挖掘的若干划分  18-20
  2.2 序列模式挖掘的经典算法  20-27
    2.2.1 AprioriAll算法  20-23
    2.2.2 GSP算法  23-25
    2.2.3 SPADE算法  25-27
  2.3 序列模式与关联规则的比较  27-30
    2.3.1 关联规则的基本理论  27-29
    2.3.2 与序列模式挖掘的异同点  29-30
  2.4 小结  30-31
第三章 基于时间约束的快速产生候选项的方法  31-44
  3.1 基于约束的序列模式挖掘  31-32
  3.2 时间约束条件的简要介绍  32
  3.3 相关算法的介绍  32-37
    3.3.1 PrefixSpan算法的相关介绍  32-35
    3.3.2 FEGC算法的相关介绍  35-37
  3.4 TFEGC算法  37-41
    3.4.1 算法的简要介绍及相关定义  37-39
    3.4.2 公式的应用  39-40
    3.4.3 算法思想  40-41
    3.4.4 算法举例  41
  3.5 实验结果  41-43
  3.6 小结  43-44
第四章 基于多支持度的生物序列模式挖掘的研究  44-54
  4.1 生物序列模式挖掘  44-46
    4.1.1 生物序列模式挖掘的相关知识  44-45
    4.1.2 生物序列模式挖掘的特性  45-46
  4.2 PBioSM算法的相关性质与基本定义  46-48
    4.2.1 基本定义  46-47
    4.2.2 相关性质  47-48
  4.3 PBioSM算法描述  48-53
    4.3.1 算法思想  48
    4.3.2 算法举例  48-51
    4.3.3 实验结果与分析  51-53
  4.4 小结  53-54
第五章 总结  54-56
附录  56-60
  附录A 图索引  56
  附录B 表索引  56-57
  Appendix A. Figure Index  57-58
  Appendix B. Table Index  58-60
参考文献  60-64
致谢  64-65
攻读学位期间发表的学术论文  65

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  15. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  19. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  20. 高校毕业生就业状况监测系统研究,G647.38
  21. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com