学位论文 > 优秀研究生学位论文题录展示
流数据挖掘关键技术研究
作 者: 倪萍
导 师: 廖建新
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 相似置信度 无线传感网络 流数据 关联规则 可视化 降维 机器学习 关键性能指标 关键质量指标 运营数据分析 网络管理 业务等级协商
分类号: TP311.13
类 型: 博士论文
年 份: 2010年
下 载: 827次
引 用: 1次
阅 读: 论文下载
内容摘要
流数据挖掘是对到达的数据流按照一定的序列进行挖掘,它和静态数据关联规则的挖掘的不同在于流数据具有高速、连续和无边界等特性。流数据具有的独特特性给数据挖掘和分析带来一系列问题,比如如何快速高效的识别挖掘周期内的有效模式,模式以何种方式呈现能使使用者容易理解,高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除,如何选择合适的挖掘周期,对于连续的流数据采用何种方式进行噪音处理等。论文在对以上问题研究的基础上,进一步对流数据指标的聚合在网络中的应用进行了研究,多个指标如何反映到一个指标从而有利于业务管理者对业务进行有效的监控和管理。同时,通过对流数据指标的动态学习,深度挖掘流数据的特性,使得业务提供者可以在更高层次上评估用户使用业务的体验。论文的主要工作和创新点简要归纳如下:1)针对如何高效快速的识别挖掘周期内的有效模式,论文提出了一种大规模网络中流数据事件关联分析的算法EARA(Events Association Rules Analysis),通过EARA可以发现未知结构大规模网络中的异常事件,并且可以使得用户选择置信度门限值以达到仅仅提取有效模式的目的。同时提出了一种可视化模式压缩算法VPC(Visual Pattern Compress),解决了流数据挖掘中模式以何种方式呈现能使用户容易理解的问题。实验结果显示EARA算法可以发现重要事件之间的关联关系,而VPC算法进一步压缩事件,使得使用者可以很容易从数以千计的关联事件中发现有用的模式。2)针对高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除问题,论文提出了一种在智能建筑中对于传感网络中的流数据进行增量知识挖掘的算法IKMM(Incremental Knowledge Mining Model), IKMM算法采用树状结构来提高挖掘效率,通过滑动窗口时间参数来控制树状结构的变化速度。另外,通过启发式规则提高关联规则的提取效率。通过同传统的FUP2(Fast Update Patterns 2)和AFPIM(Adjusting FP-Tree for Incremental Mining)算法进行对比,在高维情况下,IKMM算法是其他两种算法效率的10倍以上。3)数据挖掘时机的确定是目前流数据关联规则挖掘算法的研究热点之一,就是在什么条件下需要重新运行挖掘算法提取关联规则,并且在有限的系统资源下尽可能提高挖掘效率和减少挖掘成本。论文提出了一种在流数据挖掘算法中关联规则提取时机的确定算法KRPB(Key Runtime Point Boundary), KRPB只对原始数据集进行一次扫描,在后续周期扫描中利用前次扫描的保存结果进行增量更新即可,在相邻两次原始数据集上取得支撑度附近的频繁项集参与两次数据集的变化差异程度的估计计算,从而确定是否需要运行挖掘算法进行数据模式的提取。4)为了对流数据特性进行有效监控,即如何可视化流数据指标之间的内在本质联系,论文对流数据的可视化数据挖掘进行了研究,即如何用可视化的方式来动态展示流数据之间的内在关系,在这个基础上提出了一种流数据增量式多维可扩展可视化挖掘算法IMDS(Incremental Multi-dimension Scaling)。IMDS通过数据表现的特征形状进行聚类,并且聚类结果会随着时间的推移用动态可视化的方式实时展现。通过仿真实验表明,IMDS算法相比传统的MDS(Multi-dimension Scaling)算法和简易型SIMPLEX优化算法在流数据挖掘中可以明显地提高可视化挖掘效率和可视化效果。5)针对流数据指标的聚合在网络中的应用,论文对网络底层数据流如何映射到业务层进行了研究,通过研究发现,如果能对底层数据流进行实时的聚合和分析,就能使得业务提供者实时观察当前网络和系统的健康状况,进一步能觉察到用户对当前业务的体验状况。论文参考TMF(Telecommunication Management Forum)规范的基础上,提出了K2K(KPI toKQI)算法,使得不同量纲的流数据指标可以平滑聚合到同一指标。但是在以上的聚合中存在如何分配流数据指标权重关系的问题,对此论文进一步提出了一种针对SLA(Service Level Agreement)数据特性的模式提取算法SLAEP(SLA Extract Patterns).本算法主要抽取出网络数据流中关键性能指标和关键质量指标,根据用户的体验进行机器学习发现模式,利用将多维数据转化成多维空间的映射点,有效的避免了求多个指标之间关联度的问题,制定出一种实际运行中可以自动归纳总结满足业务SLA策略的数据度量方法,并且利用可视化数据展示的方式让用户很容易辨别得到的模式是否是可信的,从而调整系统的输入参数以便得到更加准确的结果。
|
全文目录
摘要 5-7 ABSTRACT 7-11 第1章.绪论 11-14 1.1 研究背景和意义 11 1.2 研究内容及研究成果 11-13 1.3 论文的组织结构 13-14 第2章.大规模网络中的事件关联规则发现 14-20 2.1 相关研究 14-15 2.2 EARA算法 15-16 2.3 VPC算法 16-18 2.4 试验仿真 18-19 2.5 本章小结 19-20 第3章.智能建筑中无线传感流数据的增量挖掘 20-31 3.1 相关研究 21-22 3.2 相似置信度求解 22-27 3.3 试验仿真 27-30 3.4 结论 30-31 第4章.流数据挖掘算法中关联规则提取时机的确定 31-40 4.1 相关工作 32-34 4.2 问题分析和解决 34-36 4.3 系统仿真 36-37 4.4 效率分析 37-38 4.5 准确度分析 38-39 4.6 结论 39-40 第5章.CHERNOFF和HOEFFDING定理在关联规则提取中的理论分析及应用 40-48 5.1 相关工作 40-41 5.2 相关定理及其分析 41-44 5.2.1 相关定理 41-42 5.2.2 分析 42-44 5.3 试验仿真 44-47 5.3.1 效率 44-46 5.3.2 有效性 46-47 5.4 结论 47-48 第6章.一种流数据增量式多维可扩展可视化挖掘方法 48-55 6.1 相关工作 48-49 6.2 IMDS 49-52 6.2.1 非相似性定义 49 6.2.2 MDS定义 49-50 6.2.3 IMDS低维空间坐标初始化算法 50-51 6.2.4 IMDS算法 51-52 6.3 系统仿真 52-54 6.3.1 有效性 52-53 6.3.2 效率 53-54 6.4 结论 54-55 第7章.一种KPI映射到KQI的通用算法 55-66 7.1 关键指标层次 55-56 7.2 改进的关键指标层次 56-57 7.3 K2K算法 57-59 7.4 时间复杂度 59-60 7.5 K2K算法与TMF提出的聚合算法的对比 60-61 7.6 K2K算法性能分析 61-62 7.7 K2K算法在彩铃业务运行质量评价系统中的应用 62-64 7.8 结束语 64-66 第8章.一种不需协商的业务SLA测量的方法 66-77 8.1 视频SLA分析 67-72 8.2 性能分析 72 8.3 试验分析 72-76 8.4 结论 76-77 结束语 77-80 参考文献 80-86 主要缩略语 86-87 攻读博士学位期间发表的论文 87-88 致谢 88
|
相似论文
- 医学超声图像的三维可视化研究,TP391.41
- 基于流形学习的数据降维技术研究,TP311.13
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基于模型的水稻根系可视化研究,S511
- 基于模型的小麦根系可视化研究,S512.1
- 算法动画在高中算法教学中的应用研究,G633.6
- 基于数据挖掘的税务稽查选案研究,F812.42
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 基于数据分布特征的文本分类研究,TP391.1
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据保持电压的低功耗SRAM设计,TP333
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
- 基于球面渲染环境的海洋数据多维动态可视化关键技术研究,TP391.41
- 基于J2EE的SNMP网络管理系统的设计和实现,TP311.52
- 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
- 基于WEB的网络视频客户端软件的设计与实现,TP311.52
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 通信行为指纹研究,TP311.13
- 利用非局部相似性的图像超分辨率重建研究,TP391.41
- 动态关联规则的研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|