学位论文 > 优秀研究生学位论文题录展示

数据流特征选择策略的研究

作 者: 陈万松
导 师: 赵雷
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 数据流 概要数据结构 特征选择 并行计算
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高维性,包含着大量无关特征和冗余特征,当对其进行直接处理时,有可能极大地影响学习算法的效率。利用属性相关性进行特征选择,消除无关特征和冗余特征,可以提高挖掘算法的效率,改善精确性等学习性能。然而,数据流的实时性、无限性以及概念漂移特点,也对传统的特征降维算法提出了严峻的挑战。针对数据流的这些特点,寻找适合于数据流的数据结构,研究有效度量属性相关性的方法对流数据进行降维,这已经成为目前数据流研究的一个热点。首先,本文深入探讨了特征选择的相关技术,研究了现有的特征选择方法在属性相关性度量方面存在的不足,结合流数据实时性,无限性、概念漂移的特点,提出了一种基于拟合的数据流特征选择算法FSCFFR,该算法可以有效地消除流数据中的冗余特征,提高了学习算法的性能。其次,本文针对数据流实时性的要求,提出了采用并行计算进行数据流特征选择的实施策略,传统的串行处理速度受限于单处理器的最大物理处理速度,而并行计算可以通过多处理器联合在一定程度上克服这种处理瓶颈。本文采用管理者/工作者模型,并在MPI环境下设计实现了两种通信策略的并行算法,实验表明,利用并行计算可以有效地提高流数据特征选择的效率和速度。最后,为了验证特征选择在实际应用场景下的表现,本文将整个处理方法运用到网络入侵检测中,对网络入侵检测系统中的数据进行在线分析处理,从而利用实际的示例验证了特征选择算法的可行性和实用性。综上所述,本文对数据流中特征选择技术的研究具有一定的现实意义,它不仅能消除流数据中的冗余特征,减小空间需求,而且能够改善学习算法的性能,提高数据挖掘的效率。另外,本文的示例验证也对相关的应用具有一定的参考价值。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-13
  1.1 课题背景  9-10
  1.2 课题研究内容  10-11
  1.3 课题研究意义  11-12
  1.4 文章组织结构  12-13
第二章 相关研究及其现状  13-31
  2.1 数据流上特征降维的应用  13-14
  2.2 数据流的相关概念  14-18
    2.2.1 数据流的定义  14-15
    2.2.2 数据摘要技术  15-18
  2.3 特征选择模型  18-24
    2.3.1 过滤模型( Filter Model )  19-21
    2.3.2 包裹模型( Wrapper Model )  21-23
    2.3.3 混合模型  23-24
  2.4 特征评价标准  24-29
    2.4.1 一致性度量  24-25
    2.4.2 相关性度量  25-29
  2.5 本章小结  29-31
第三章 基于属性相关性的数据流特征选择算法  31-46
  3.1 引言  31-32
  3.2 相关定义及说明  32-34
  3.3 基于曲线拟合的属性相关性特征选择算法FSCFFR  34-37
    3.3.1 初始化阶段  35
    3.3.2 删除数据阶段  35-37
    3.3.3 增加数据阶段  37
  3.4 实验分析  37-45
  3.5 本章小结  45-46
第四章 基于FSCFFR的并行数据流特征选择算法  46-56
  4.1 算法的工作模型  46-47
  4.2 算法的数据划分与通信策略  47-50
    4.2.1 数据划分  47-48
    4.2.2 通信策略  48-50
  4.3 算法的数据结构  50-52
  4.4 算法描述和实验分析  52-55
    4.4.1 算法描述  52
    4.4.2 实验分析  52-55
  4.5 本章小结  55-56
第五章 特征选择应用示例  56-64
  5.1 引言  56-57
  5.2 系统架构  57-58
  5.3 实验  58-63
    5.3.1 实验数据简介  58-59
    5.3.2 数据特征描述  59-61
    5.3.3 实验结果分析  61-63
  5.4 本章小结  63-64
第六章 总结与展望  64-66
  6.1 总结  64-65
  6.2 展望  65-66
参考文献  66-72
攻读硕士学位期间发表的论文  72-73
致谢  73-74

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 基于CUDA的图像数字水印技术的研究,TP309.7
  4. 基于数据流挖掘技术的流量识别,TP393.06
  5. 分片式处理器上谓词执行技术的实现与优化,TP302
  6. 一种多数据流聚类异常检测算法,TP311.13
  7. 数据流聚类算法研究,TP311.13
  8. 光学衍射场次级衍射的研究,O436.1
  9. 并发系统的并行计算及性能分析,TP338.6
  10. 滑动窗口内基于密度网格的数据流聚类算法研究,TP311.13
  11. 大规模二次规划相关算法的研究,O221.2
  12. 水稻分蘖断层图像重建加速研究,TP391.41
  13. 多时相遥感影像变化检测并行系统设计与实现,TP751
  14. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  15. 基于特征选择的入侵检测研究,TP393.08
  16. 基于图像的多角度人脸性别识别及其特征选择研究,TP391.41
  17. 基于CT图像的周围型非小细胞肺癌分型诊断模型研究,TP391.41
  18. 基于内容的Web新闻文本自动分类问题研究,TP391.1
  19. 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
  20. 基于特征选择的轻量级入侵检测系统,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com