学位论文 > 优秀研究生学位论文题录展示
P2P流的测量与识别方法研究
作 者: 柳斌
导 师: 李芝棠
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 对等网 Bittorrent协议 行为特征 支持向量机 特征选择 半监督聚类 机器学习
分类号: TP393.02
类 型: 博士论文
年 份: 2008年
下 载: 641次
引 用: 13次
阅 读: 论文下载
内容摘要
P2P(Peer to Peer)是一种新的网络应用模式,其最大特点是P2P网络依靠网络边缘节点,而非中心节点实现自组织和资源共享。近些年来,P2P技术被广泛应用于文件共享、语音服务、流媒体、即时通信等领域。P2P技术在快速发展的同时也给网络管理带来了许多新的问题。如P2P应用消耗了大量带宽,版权纠纷以及安全问题等。P2P采用了动态端口,报文加密等逃避网络监测的技术,这使得传统的端口识别法对P2P流的识别不再有效。因此,研究有效的P2P流识别方法成为P2P流管理的重要课题。从典型的P2P系统测量,启发式识别方法,未知P2P流发现以及机器学习等四个方面对P2P流的测量和识别方法进行了研究。BitTorrent是目前广泛使用的混合式P2P系统的典型代表。从BitTorrent协议的主动测量,被动测量以及BitTorrent流的模型化三个方面展开了研究。首先提出了一种BitTorrent系统的主动测量方法,通过在BitTorrent节点中插入消息测量和状态测量模块,采集BitTorrent节点在下载过程中收发的各种消息以及状态变化信息,从协议内部对BitTorrent节点的下载过程进行观察。测量结果表明:BitTorrent节点下载时从群中少数节点获得大量数据,同时也主要向群中极少数节点上传数据,且下载量最多的节点通常也是上载量最多的节点。在被动测量研究中,提出了一种基于应用层特征的BitTorrent流实时测量方法。采用了流匹配测量框架,以流为基本单位进行匹配,设计了一种基于异或运算的哈希算法用于流匹配。利用应用层特征对BitTorrent报文进行识别,准确度较高。建立了测量算法的误报和漏报模型,并分析了特征报文与流长度的关系,提出应重点关注长流的应用层特征。分别提出了BitTorrent流流长和流时间间隔的分布模型。研究表明:BitTorrent流时间间隔可以用Weibull分布描述。BitTorrent流流长可以用Lognormal分布描述。对启发式P2P流识别方法进行了研究。提出了一种基于多行为特征的P2P主机识别算法。首先在分析P2P节点连接形式,远端地址分布以及端口行为特点的基础上,提取了双向连接率,IP地址随机测度和高端口连接率三种特征,然后通过阈值分类实现P2P流识别。实验表明该算法误报率低。与此同时,提出了一种基于支持向量机的P2P流应用级分类方法,利用支持向量机优良的分类性能,对不同应用类型的P2P流进行了分类。通过对BitTorrent,Emule,PPLive,PPstream 4种P2P流的分类实验,验证了方法的有效性,平均分类准确率为92.2%。对未知P2P应用的发现进行了研究。首先提出了一种基于多维聚类树的流分析方法(Multi-dimensional Clustering Tree,MCT)。该方法首先对流数据的每一维进行单维聚类,发现单维显著类。然后,构建多维聚类树发现多维显著类。MCT算法能自动挖掘网络中的显著流,描述显著流的多维属性,同时可以反映流量显著的IP子网。在MCT算法的基础上,提出了一种未知P2P流的识别方法。首先,利用P2P流的远端地址分布、双向性和高端口特征,定义了P2P流疑似度指标sp2p,对MCT算法挖掘出来的多维显著流进行P2P流疑似度判别。对高疑似度的P2P流,通过应用层特征匹配方法,去掉已知的P2P流,实现未知P2P流的识别。实验结果表明:MCT算法可以清楚了解网络流量的构成情况,利用sp2p能够有效识别出网络中流量较大的多种P2P应用。将机器学习方法应用到应用流的识别问题中,提出了一种基于熵函数的串联式特征选择算法。首先利用特征的后验概率分布来衡量特征对分类的有效性,接着采用顺序后退搜索方法,以分类器本身的分类准确率作为评估标准去除冗余特征。采用上述特征选择方法从Andew Moore数据集的249种特征中筛选出了11种分类特征。同时,提出了一种基于半监督聚类的应用流分类方法。首先采用粒子群优化的K均值聚类方法对混合数据进行聚类,然后利用少量标记数据确定簇与应用类型的映射关系,从而实现应用流分类。通过对Andew Moore数据集的实验表明:基于半监督聚类的应用流分类方法有较高的流识别准确率。
|
全文目录
摘要 4-6 Abstract 6-10 1 绪论 10-23 1.1 研究背景 10-11 1.2 P2P概述 11-15 1.3 国内外研究现状 15-20 1.4 主要创新与论文研究内容 20-22 1.5 论文结构 22-23 2 P2P流识别的相关方法 23-32 2.1 流识别基本概念 23-24 2.2 端口识别法 24-25 2.3 应用层特征识别法 25-26 2.4 行为特征识别法 26-28 2.5 机器学习识别方法 28-31 2.6 本章小结 31-32 3 BitTorrent系统测量 32-61 3.1 BitTorrent系统概述 32-35 3.2 BitTorrent主动测量 35-44 3.3 BitTorrent被动测量 44-53 3.4 BitTorrent流模型 53-59 3.5 本章小结 59-61 4 基于多行为特征的P2P主机识别算法 61-83 4.1 P2P节点的特征提取 61-71 4.2 基于多行为特征的P2P主机识别算法 71-75 4.3 基于支持向量机的P2P应用级分类方法 75-81 4.4 本章小结 81-83 5 基于多维聚类的未知P2P流识别方法 83-105 5.1 Netflow原理 83-86 5.2 基于多维聚类树的流分析算法 86-96 5.3 未知P2P流识别方法 96-98 5.4 实验结果与分析 98-104 5.5 本章小结 104-105 6 基于半监督聚类的应用流分类方法 105-124 6.1 特征选择 106-115 6.2 基于半监督聚类的应用流分类算法 115-123 6.3 本章小结 123-124 7 总结与展望 124-127 7.1 全文总结 124-125 7.2 进一步的研究工作 125-127 致谢 127-128 参考文献 128-139 附录1 攻读博士学位期间发表论文目录 139-141 附录2 攻读博士学位期间参加的科研项目 141
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 茶叶消费者行为特征及营销策略分析,F274
- 语音情感识别的特征选择与特征产生,TP18
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于数据分布特征的文本分类研究,TP391.1
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络结构与设计
© 2012 www.xueweilunwen.com
|