学位论文 > 优秀研究生学位论文题录展示
数据流特征选择策略的研究
作 者: 陈万松
导 师: 赵雷
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 数据流 概要数据结构 特征选择 并行计算
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高维性,包含着大量无关特征和冗余特征,当对其进行直接处理时,有可能极大地影响学习算法的效率。利用属性相关性进行特征选择,消除无关特征和冗余特征,可以提高挖掘算法的效率,改善精确性等学习性能。然而,数据流的实时性、无限性以及概念漂移特点,也对传统的特征降维算法提出了严峻的挑战。针对数据流的这些特点,寻找适合于数据流的数据结构,研究有效度量属性相关性的方法对流数据进行降维,这已经成为目前数据流研究的一个热点。首先,本文深入探讨了特征选择的相关技术,研究了现有的特征选择方法在属性相关性度量方面存在的不足,结合流数据实时性,无限性、概念漂移的特点,提出了一种基于拟合的数据流特征选择算法FSCFFR,该算法可以有效地消除流数据中的冗余特征,提高了学习算法的性能。其次,本文针对数据流实时性的要求,提出了采用并行计算进行数据流特征选择的实施策略,传统的串行处理速度受限于单处理器的最大物理处理速度,而并行计算可以通过多处理器联合在一定程度上克服这种处理瓶颈。本文采用管理者/工作者模型,并在MPI环境下设计实现了两种通信策略的并行算法,实验表明,利用并行计算可以有效地提高流数据特征选择的效率和速度。最后,为了验证特征选择在实际应用场景下的表现,本文将整个处理方法运用到网络入侵检测中,对网络入侵检测系统中的数据进行在线分析处理,从而利用实际的示例验证了特征选择算法的可行性和实用性。综上所述,本文对数据流中特征选择技术的研究具有一定的现实意义,它不仅能消除流数据中的冗余特征,减小空间需求,而且能够改善学习算法的性能,提高数据挖掘的效率。另外,本文的示例验证也对相关的应用具有一定的参考价值。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-13 1.1 课题背景 9-10 1.2 课题研究内容 10-11 1.3 课题研究意义 11-12 1.4 文章组织结构 12-13 第二章 相关研究及其现状 13-31 2.1 数据流上特征降维的应用 13-14 2.2 数据流的相关概念 14-18 2.2.1 数据流的定义 14-15 2.2.2 数据摘要技术 15-18 2.3 特征选择模型 18-24 2.3.1 过滤模型( Filter Model ) 19-21 2.3.2 包裹模型( Wrapper Model ) 21-23 2.3.3 混合模型 23-24 2.4 特征评价标准 24-29 2.4.1 一致性度量 24-25 2.4.2 相关性度量 25-29 2.5 本章小结 29-31 第三章 基于属性相关性的数据流特征选择算法 31-46 3.1 引言 31-32 3.2 相关定义及说明 32-34 3.3 基于曲线拟合的属性相关性特征选择算法FSCFFR 34-37 3.3.1 初始化阶段 35 3.3.2 删除数据阶段 35-37 3.3.3 增加数据阶段 37 3.4 实验分析 37-45 3.5 本章小结 45-46 第四章 基于FSCFFR的并行数据流特征选择算法 46-56 4.1 算法的工作模型 46-47 4.2 算法的数据划分与通信策略 47-50 4.2.1 数据划分 47-48 4.2.2 通信策略 48-50 4.3 算法的数据结构 50-52 4.4 算法描述和实验分析 52-55 4.4.1 算法描述 52 4.4.2 实验分析 52-55 4.5 本章小结 55-56 第五章 特征选择应用示例 56-64 5.1 引言 56-57 5.2 系统架构 57-58 5.3 实验 58-63 5.3.1 实验数据简介 58-59 5.3.2 数据特征描述 59-61 5.3.3 实验结果分析 61-63 5.4 本章小结 63-64 第六章 总结与展望 64-66 6.1 总结 64-65 6.2 展望 65-66 参考文献 66-72 攻读硕士学位期间发表的论文 72-73 致谢 73-74
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于CUDA的图像数字水印技术的研究,TP309.7
- 基于数据流挖掘技术的流量识别,TP393.06
- 分片式处理器上谓词执行技术的实现与优化,TP302
- 一种多数据流聚类异常检测算法,TP311.13
- 数据流聚类算法研究,TP311.13
- 光学衍射场次级衍射的研究,O436.1
- 并发系统的并行计算及性能分析,TP338.6
- 滑动窗口内基于密度网格的数据流聚类算法研究,TP311.13
- 大规模二次规划相关算法的研究,O221.2
- 水稻分蘖断层图像重建加速研究,TP391.41
- 多时相遥感影像变化检测并行系统设计与实现,TP751
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 基于特征选择的入侵检测研究,TP393.08
- 基于图像的多角度人脸性别识别及其特征选择研究,TP391.41
- 基于CT图像的周围型非小细胞肺癌分型诊断模型研究,TP391.41
- 基于内容的Web新闻文本自动分类问题研究,TP391.1
- 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
- 基于特征选择的轻量级入侵检测系统,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|