学位论文 > 优秀研究生学位论文题录展示
基于前缀树的日志模式聚类挖掘算法研究
作 者: 张曼琪
导 师: 黄建华; 冯东雷
学 校: 华东理工大学
专 业: 计算机技术
关键词: 数据挖掘 日志服务器 关联规则 聚类 前缀树 字节偏移
分类号: TP393.08
类 型: 硕士论文
年 份: 2014年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
二十一世纪是网络和信息时代,无论是个人还是企业都很依赖互联网,因此,网络安全和隐私已成为现代世界人们关注的一个重要问题。日志数据时刻记录着各种网络设备的活动,对于网络攻击、系统黑客攻击等事件的取证有着重要的意义。通过日志数据,运维人员可以实时监控系统和网络的健康状况,用户的使用情况等。但是日志数据通常数量巨大,且较难读懂,因此,对日志数据进行数据挖掘,从大量数据中提取有用的知识是非常有必要的。网络设备具有多样性,对设备逐个查看非常耗时耗力,本课题对日志采集技术进行了系统的研究,提出了一种日志数据的分布采集和集中存储架构,将日志消息分类存储在一个集中的Syslog日志服务器上,方便对日志数据进行集中管理和统计分析。然后通过对Syslog日志服务器采集到的数据进行挖掘,得到用户行为的频繁模式聚类和非频繁模式聚类。本文通过分析日志数据和关联规则挖掘算法,对已有的日志数据关联规则挖掘算法进行改进,提出了一种改进的日志模式聚类挖掘算法——-Improved Log-Pattern Cluster Algorithm (ILC算法)。然后将前缀树和传统的日志模式挖掘算法相结合,设计出一种基于前缀树的日志模式聚类算法——Prefix Tree Log-Pattern Cluster Algorithm (PTLC算法)。并将字节偏移的概念运用到ILC算法和PTLC算法中,得到改进的Byte-offset Improved Log-Pattern Cluster Algorithm (BILC算法)和Byte-offset Prefix Tree Log-Pattern Cluster Algorithm (BPTLC算法)。经实验验证,与传统的日志模式聚类算法相比,这四种算法更加节约时间和空间,性能有了很大的提升。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-15 1.1 研究背景 9-10 1.2 国内外研究现状 10-12 1.2.1 日志数据采集 10 1.2.2 事件关联挖掘技术 10-11 1.2.3 数据聚类 11-12 1.2.4 频繁模式聚类 12 1.3 研究内容和目标 12-14 1.3.1 日志事件集中采集研究 13 1.3.2 日志模式挖掘算法研究与改进 13 1.3.3 基于前缀树的日志模式挖掘研究 13-14 1.4 本文的组织结构 14-15 第2章 日志采集与挖掘所涉及到的技术 15-31 2.1 事件日志记录和监控 15-19 2.1.1 日志数据采集 15-16 2.1.2 Syslog日志 16-17 2.1.3 Syslog日志结构 17-18 2.1.4 Syslog日志数据集中采集 18-19 2.2 日志过滤与预处理 19-20 2.2.1 数据过滤和预处理概述 19 2.2.2 正则表达式 19-20 2.3 数据挖掘技术 20-24 2.3.1 数据挖掘方法 21 2.3.2 事件关联技术 21-22 2.3.4 关联规则挖掘 22-23 2.3.5 高维度数据聚类 23-24 2.3.6 简单事件关联 24 2.4 事件日志的模式挖掘 24-30 2.4.1 频繁模式挖掘算法 24-29 2.4.2 日志模式挖掘概述 29-30 2.5 本章小结 30-31 第3章 日志模式挖掘和ILC算法 31-45 3.1 日志数据的特征 31-33 3.2 日志数据采集与过滤 33-37 3.2.1 日志数据采集 34-35 3.2.2 日志数据过滤 35-36 3.2.3 双层日志分析技术 36-37 3.3 ILC算法——改进的日志模式聚类算法 37-43 3.3.1 日志事件关联挖掘概述 37 3.3.2 日志数据的hash查找 37-38 3.3.3 ILC算法的产生背景 38-39 3.3.4 ILC算法实现 39-41 3.3.5 BILC算法——字节偏移日志模式聚类算法 41-42 3.3.6 非频繁模式的挖掘 42-43 3.4 ILC算法和BILC算法的有效性 43 3.4.1 ILC算法和Apriori的比较 43 3.4.2 ILC算法和SLC算法的比较 43 3.4.3 BILC算法的优势 43 3.5 本章小结 43-45 第4章 基于前缀树的日志模式聚类 45-55 4.1 日志数据采集和过滤模型 45-47 4.1.1 Rsyslog日志数据采集 45-46 4.1.2 Rsyslog日志数据过滤和预处理 46-47 4.2 基于前缀树的数据聚类 47-48 4.2.1 深度优先搜索算法分析 47-48 4.2.2 基于日志特征的深度优先搜索算法 48 4.3 PTLC算法——基于前缀树的日志模式聚类算法 48-54 4.3.1 PTLC算法概述 48-49 4.3.2 PTLC算法的实现 49-53 4.3.3 PTLC算法的优势 53-54 4.3.4 BPTLC——字节偏移前缀树日志模式聚类算法 54 4.4 本章小结 54-55 第5章 实验结果分析 55-66 5.1 空间分析 55-63 5.1.1 SLC算法空间分析 55-57 5.1.2 ILC算法空间分析 57-58 5.1.3 BILC算法空间分析 58-60 5.1.4 PTLC算法空间分析 60-62 5.1.5 BPTLC算法空间分析 62-63 5.1.6 空间总结比较 63 5.2 时间分析 63-65 5.3 本章小结 65-66 第6章 总结与未来方向 66-68 参考文献 68-72 致谢 72-73 攻读硕士学位期间发表的论文 73
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 南通市农业面源污染负荷研究与综合评价,X592
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于多因素模糊聚类的底板突水危险性预测研究,TD745
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com
|