学位论文 > 优秀研究生学位论文题录展示

P2P流的测量与识别方法研究

作 者: 柳斌
导 师: 李芝棠
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 对等网 Bittorrent协议 行为特征 支持向量机 特征选择 半监督聚类 机器学习
分类号: TP393.02
类 型: 博士论文
年 份: 2008年
下 载: 641次
引 用: 13次
阅 读: 论文下载
 

内容摘要


P2P(Peer to Peer)是一种新的网络应用模式,其最大特点是P2P网络依靠网络边缘节点,而非中心节点实现自组织和资源共享。近些年来,P2P技术被广泛应用于文件共享、语音服务、流媒体、即时通信等领域。P2P技术在快速发展的同时也给网络管理带来了许多新的问题。如P2P应用消耗了大量带宽,版权纠纷以及安全问题等。P2P采用了动态端口,报文加密等逃避网络监测的技术,这使得传统的端口识别法对P2P流的识别不再有效。因此,研究有效的P2P流识别方法成为P2P流管理的重要课题。从典型的P2P系统测量,启发式识别方法,未知P2P流发现以及机器学习等四个方面对P2P流的测量和识别方法进行了研究。BitTorrent是目前广泛使用的混合式P2P系统的典型代表。从BitTorrent协议的主动测量,被动测量以及BitTorrent流的模型化三个方面展开了研究。首先提出了一种BitTorrent系统的主动测量方法,通过在BitTorrent节点中插入消息测量和状态测量模块,采集BitTorrent节点在下载过程中收发的各种消息以及状态变化信息,从协议内部对BitTorrent节点的下载过程进行观察。测量结果表明:BitTorrent节点下载时从群中少数节点获得大量数据,同时也主要向群中极少数节点上传数据,且下载量最多的节点通常也是上载量最多的节点。在被动测量研究中,提出了一种基于应用层特征的BitTorrent流实时测量方法。采用了流匹配测量框架,以流为基本单位进行匹配,设计了一种基于异或运算的哈希算法用于流匹配。利用应用层特征对BitTorrent报文进行识别,准确度较高。建立了测量算法的误报和漏报模型,并分析了特征报文与流长度的关系,提出应重点关注长流的应用层特征。分别提出了BitTorrent流流长和流时间间隔的分布模型。研究表明:BitTorrent流时间间隔可以用Weibull分布描述。BitTorrent流流长可以用Lognormal分布描述。对启发式P2P流识别方法进行了研究。提出了一种基于多行为特征的P2P主机识别算法。首先在分析P2P节点连接形式,远端地址分布以及端口行为特点的基础上,提取了双向连接率,IP地址随机测度和高端口连接率三种特征,然后通过阈值分类实现P2P流识别。实验表明该算法误报率低。与此同时,提出了一种基于支持向量机的P2P流应用级分类方法,利用支持向量机优良的分类性能,对不同应用类型的P2P流进行了分类。通过对BitTorrent,Emule,PPLive,PPstream 4种P2P流的分类实验,验证了方法的有效性,平均分类准确率为92.2%。对未知P2P应用的发现进行了研究。首先提出了一种基于多维聚类树的流分析方法(Multi-dimensional Clustering Tree,MCT)。该方法首先对流数据的每一维进行单维聚类,发现单维显著类。然后,构建多维聚类树发现多维显著类。MCT算法能自动挖掘网络中的显著流,描述显著流的多维属性,同时可以反映流量显著的IP子网。在MCT算法的基础上,提出了一种未知P2P流的识别方法。首先,利用P2P流的远端地址分布、双向性和高端口特征,定义了P2P流疑似度指标sp2p,对MCT算法挖掘出来的多维显著流进行P2P流疑似度判别。对高疑似度的P2P流,通过应用层特征匹配方法,去掉已知的P2P流,实现未知P2P流的识别。实验结果表明:MCT算法可以清楚了解网络流量的构成情况,利用sp2p能够有效识别出网络中流量较大的多种P2P应用。将机器学习方法应用到应用流的识别问题中,提出了一种基于熵函数的串联式特征选择算法。首先利用特征的后验概率分布来衡量特征对分类的有效性,接着采用顺序后退搜索方法,以分类器本身的分类准确率作为评估标准去除冗余特征。采用上述特征选择方法从Andew Moore数据集的249种特征中筛选出了11种分类特征。同时,提出了一种基于半监督聚类的应用流分类方法。首先采用粒子群优化的K均值聚类方法对混合数据进行聚类,然后利用少量标记数据确定簇与应用类型的映射关系,从而实现应用流分类。通过对Andew Moore数据集的实验表明:基于半监督聚类的应用流分类方法有较高的流识别准确率。

全文目录


摘要  4-6
Abstract  6-10
1 绪论  10-23
  1.1 研究背景  10-11
  1.2 P2P概述  11-15
  1.3 国内外研究现状  15-20
  1.4 主要创新与论文研究内容  20-22
  1.5 论文结构  22-23
2 P2P流识别的相关方法  23-32
  2.1 流识别基本概念  23-24
  2.2 端口识别法  24-25
  2.3 应用层特征识别法  25-26
  2.4 行为特征识别法  26-28
  2.5 机器学习识别方法  28-31
  2.6 本章小结  31-32
3 BitTorrent系统测量  32-61
  3.1 BitTorrent系统概述  32-35
  3.2 BitTorrent主动测量  35-44
  3.3 BitTorrent被动测量  44-53
  3.4 BitTorrent流模型  53-59
  3.5 本章小结  59-61
4 基于多行为特征的P2P主机识别算法  61-83
  4.1 P2P节点的特征提取  61-71
  4.2 基于多行为特征的P2P主机识别算法  71-75
  4.3 基于支持向量机的P2P应用级分类方法  75-81
  4.4 本章小结  81-83
5 基于多维聚类的未知P2P流识别方法  83-105
  5.1 Netflow原理  83-86
  5.2 基于多维聚类树的流分析算法  86-96
  5.3 未知P2P流识别方法  96-98
  5.4 实验结果与分析  98-104
  5.5 本章小结  104-105
6 基于半监督聚类的应用流分类方法  105-124
  6.1 特征选择  106-115
  6.2 基于半监督聚类的应用流分类算法  115-123
  6.3 本章小结  123-124
7 总结与展望  124-127
  7.1 全文总结  124-125
  7.2 进一步的研究工作  125-127
致谢  127-128
参考文献  128-139
附录1 攻读博士学位期间发表论文目录  139-141
附录2 攻读博士学位期间参加的科研项目  141

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于仿生模式识别的文本分类技术研究,TP391.1
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  16. 茶叶消费者行为特征及营销策略分析,F274
  17. 语音情感识别的特征选择与特征产生,TP18
  18. 基于车载3D加速传感器的路况监测研究,TP274
  19. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  20. 基于数据分布特征的文本分类研究,TP391.1
  21. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络结构与设计
© 2012 www.xueweilunwen.com