网络流量分类方法研究

2017年第8期信息通信2017
(总第176 期)INFORMATION & COMMUNICATIONS (Sum. N o 176)
网络流量分类方法研究
镇佳\朱国胜u
(1.湖北大学计算机与信息工程学院;2.湖北省教育信息化工程技术研究中心武汉430062)
摘要:网络流量分类对于网络的服务质量保证、安全管控和运营管理等具有重要意义。文章追踪分析了网络流量分类技 术不断演进发展的原因,给出了网络流量分类技术的正确率等评价指标,分析并描述了目前主流的网络流量分类技术,文章最后指出了网络流量分类技术面临的问题和挑战。
关键词:网络流量分类;端口;深度包检测;机器学习
中图分类号:TP393.06 文献标识码:A文章编号:1673-1131(2017)08-0171-03
1概述
随着互联网的迅猛发展,网络应用向各领域渗透,网络系 统日趋复杂,网络管理的难度日益加大,网络
的安全问题不断 增加。网络流量分类对于网络服务质量保证、安全管控和运 营管理等具有重要意义。
网络流量分类是指从网络流量中通过相关特征识别出相关的 协议或应用并对其进行分类的过程。如图1所示,网络流量 分类基本过程大致包括三部分:网络流量数据采集,网络流量 特征提取和网络流量匹配分类。
M络濃置数据采集 M络流征财------>{M络流置匹配分类
图1网络流量分类基本过程
网络流量分类最常用和最简单的技术是基于传输层端 口,这种方法非常有效,应用于传统的应用分类是相对准确 的。然而,随着网络的发展,越来越多的网络应用开始使用 动态端口,使得用该方法分类的准确度降低。为了避免对端 口号的依赖,人们提出了基于应用层数据信息的深度包检测 分类方法,通过应用特征字匹配,能有效识别基于端口的分 类技术无法识别的应用,但是该方法也存在资源消耗大,无 法识别加密流量的问题。随着用户隐私的需求迅速增加,加 密流量的比例急剧上升,使得加密流量分类的研究受到了越 来越广泛的关注,一些研究者提出了基于有效负载[1]和基于 特征18的加密流量分类方法。随着大数据、机器学习技术的 兴起,为了弥补基于端口匹配和基于深度包检测分类方法存 在的缺陷,研究人员又提出了基于机器学习的流量分类方法,目前机器学习方法受限于训
练集,为了提高机器学习分类方 法的稳定性,后来又提出了基于行为特征的分类方法,该方 法与机器学习分类方法相比,能用更少的信息去获得相似的 分类精确度。
上述的流量分类技术只是使用了某一种单一技术的分类 器,单一的分类方法只是针对某种特定网络环境具有较高准 确率,为了提高分类准确性,近年来一些研究采用集成学习的 方法进行流量分类,它可以减少平均分类时间,但是增加了时 间复杂度。
本文第一部分概述了网络流量分类方法的发展历程,第 二部分详细介绍了网络流量分类的评价指标,第三部分给出 了目前主流的网络流量分类方法,最后指出了网络流量分类 技术面临的问题与挑战。
2网络流量分类评价指标
网络流量分类的目的在于正确的识别出网络应用类型,其正确性评估指标可以由四个参数来说明:真阳性True Posi­t i v e(TP), 真阴性 True Negative (T N), 假阳性 False P o s i t i v e (FP),假阴性 False Negative(F N)。
(D T P表示某一类样本正确分类为此类的样本数。
(2) T N表示其他类样本正确分类为不属于某一类的样本 数。
(3) F P表示其他类样本错误地分类为某一类的样本数。
(4) F N表示某一类样本错误地分为其他类的样本数。
现在大多数文献中把总体精度(Overall accuracy)作为评
估流量分类方法好坏的指标,但是总体精度偏向于数据集中最
主要的类,它是指所有被正确分类的样本总数与所有测试样
本总数的比率。
TP+TN
Accuracy:
TP+TN+FP+FN
(1)
有文献[3]指出借鉴机器学习分类问题中使用的指标:准
确率、召回率和F值,可以更好地评估网络流量分类器的性能。
准确率:Precision,又称“精度”、“正确率”,是指正确分类的样
本占总样本的比率,也就是分类结果有多少是准确的。
Pr ecision=TP/ (TP+F P)(2)
召回率:Recall,又称“查全率”。指样本被正确分类的比
率,也就是正确的分类有多少被分出来了。
4 Re call-TP/(TP+F N)(3)
F-Measure:准确率和召回率的调和平均数,是用于综合反
映整体的指标。
F-Measure=2 x precision x recall/(precision+recall)
(4)
Precision和Recall两个指标一起用于评估分类方法,当
这两个指标出现矛盾的时候,就需要F-Measure综合考虑这两
个指标。F值还可以用于比较不同分类算法的性能。
精炼渣3主流网络流量分类方法
3.1基于端口匹配的分类方法
基于端口匹配是最快速最简单的流量分类方法,该方法
带外衰减只需要获取数据包头的端口信息,将已知端口号映射给定应
用类型来识别不同的应用,互联网地址编码分配机构IANAW
分配0-1023之间的通用端口号,比如:通常TCP/IP协议规定
W e b采用80号端口,F T P采用20、21号端口,SMTP/POP3邮
件服务采用25、110号端口等,1024-49151范围内的端口号给
相关应用注册使用,49152-65535为动态端口。这种方法的主
要优点是速度快,时间复杂度和空间复杂度低。该分类系统
的实现也非常简单,通过在其数据库中添加新的端口号与应
用类型的映射就可以轻松扩展分类系统。然而,基于端口匹
配的分类方法是不可靠的[5],新兴的P2P等应用程序使用非标
171
准端口、随机端口或伪装端口 M,这就大大增加了用端口匹配 方法来分类流量的难度。Thomas Karagiannis等人就在文献[6]中指出随着P2P应用的发展,其使用非标准端口和随机端 口使得传统的基于端口匹配的分类方法准确率在降低。
3.2基于深度包检测的分类方法
基于深度包检测的分类方法是指检测应用层的有效负载 内容,以识别出与一组预定义规则匹配的应用程序类型相关 的字符串。它通过比较数据包有效负载和已知协议的特征字 段来对流量分类。这种技术通常使用两种匹配方法:基于字 符串的匹配和正则表达式匹配。
深度包检测方法避免了对端口号的依赖,有效解决了非 标准端口和随机端口的问题,准确率高,并能识别出具体的应 用类型。Subhabrata Sen等人在文献[7]中提出了一种通过应 用层特征字段识别P2P应用的有效方法,用五种流行的P2P 协议来检查应用层识别方法的性能,结果发现这种方法在大 多数情况下能实现小于5%的FP和F N,具有很高的可扩展性,并且对P2P应用的识别准确率明显优于基于网络端口的方法。针对纯软件深度包检测方法只能提供百兆处理能力,不能处 理大量流并发的现状,文献[8]提出芯片级高吞吐率流分类系 统架构RocketTC,该架构基于深包检测技术,可以对92种网 络协议进行识别,分类准确率达到97%。
深度包检测方法目前已经大量应用于CiscoNBAR,Juni­per AI,L7-f i l t e r,B R O,Tcpdump,SnortjNetFlow等系统。但是 深度包检测需要检查每个数据包的有效载荷,从而引发了用 户隐私保护的问题,并且该方法不能识别加密的有效负载和 未知的应用类型。
3.3对加密流量的分类方法
由于深度包检测方法无法识别加密流量,这就激发了一 系列对加密流量分类的研究。Petr Velan等人在文献[9]中描 述了使用最广泛的加密协议,总结了现有的加密流量分类方法: 基于有效负载和基于特征的方法。其中基于特征的方法大多 数使用机器学习的方法。潘吴斌等人[1°]介绍了加密流量的识别 类型包括协议识别、应用类型识别、内容本质识别和异常流量识 别,提到的加密流量识别方法包括:
基于有效负载的识别方法、数据分组负载随机性检测、基于机器学习的识别方法、基于行为 的识别方法、基于数据分组大小分布的识别方法、混合方法,并 指出这些方法只是适用于特定的应用,目前多阶段或多方法集 成的混合方法是未来加密流量识别方法的研究热点。
燃料乙醇3.4基于机器学习的分类方法
机器学习技术在1990年第一次应用于网络领域,Frank J 最先提出使用机器学习的技术来研究入侵检测领域的流分类[11]。机器学习的分类方法利用传输层中的流统计特征来识别出不 同的应用类型,机器学习方法可分为两大类:监督学习和无监 督学习。监督学习方法根据标记样本数据对流量进行分类,能够建立网络流特征与训练集样本类别之间的关系,主要包 括:贝叶斯、决策树、支持向量机、K-最近邻、神经网络等。无 监督学习根据样本数据之间的相似性来分类未标记的数据,主要是指聚类算法,常用的聚类算法包括K-Means、D B S C A N 和AutoClass。其分类过程由两部分组成:建立分类模型,然后 用分类模型对新的样本分类。
Tom Auld等人[12]提出了一种不需要源、目标主机地址或 端口信息的流量分类器,使用贝叶斯神经网络的机器学习方 法对同一天采集的流量分类准确率高达99%。
决策树算法的典型代表是ID3和C4.5, C4.5算法是对ID3 算法的改良。基于朴素贝叶斯方法的不稳定性,徐鹏等人[13]引入C4.5决策树方法来进行流量分类,该方法利用训练数据集 中的信息熵来构建分
类模型,并通过对分类模型的简单查 来完成未知网络流样本的分类,实验结果表明利用C4.5决策 树处理流量分类间题,在分类稳定性上具有明显的优势,与朴 素贝叶斯方法及其改进方法相比,C4.5决策树方法更适合处理 大规模流量分类问题。
支持向量机是比较典型的机器学习方法,具有较高的准 确率和稳定性,其理论由Vapnik在文献[14]首次提出。Zhu Li等人[1S应用支持向量机算法进行流量分类,从校园骨干网 捕获了 7种不同特性的应用进行了研究,对于无偏差训练和 测试样本可以获得大约96.9%的准确率。Kim H等人[16]收集 了位于美国、日本和韩国的两个主干和两条边缘链路的七条 匿名的有效载荷痕迹,用F-measure度量了每个应用中训练 集大小的变化对七种监督式机器学习算法性能的影响,发现 支持向量机在每个应用中F-measure值表现最好,并对基于 传输层端口号、主机行为和监督式机器学习的分类方法进行 了比较,实验结果表明,基于支持向量机的分类方法准确率 最高。
由于最近邻分类方法的性能受到数据集大小的影响,Jun Zhang等人M将相关信息并入分类过程中来解决小样本训练 集的问题,实验用F-measure值度量了四种方法分别在两个数 据集上的每一类的性能,结果表明提出的方法可以改善每个 类的F-measure值,有效地提高了分类准确率。
针对B P算法的缺陷,谭骏等人[18]提出了基于自适应BP 神经网络的流量识别算法,使用双粒子算法对神经网络初 始权值进行了优化,对B P神经网络中隐层神经元个数进行了 动态确定,实验表明,
该算法在收敛速度上比传统的B P算法更 优,在识别率上与普通的B P算法相比,提高了 14.3%,并且对 U D P协议也有较高的识别率。
J e f f r e y Erman等人[19]收集了两组数据,一组是奥克兰大学 的公共网络数据,另一组是卡尔加里大学的网络数据,对K-Means,D B S C A N和AutoClass三种聚类算法进行了比较,实 验结果表明AutoClass准确率最高。
3.5基于行为特征的分类方法
基于行为特征的分类方法不借助端口号和载荷信息,分类 器仅通过分析网络中主机通信产生的行为特征,识别在目标 主机上运行的应用,从而实现流分类。主机行为特征是指一 台主机在一定时间间隔内通信产生的流量模式,比如通信的 主机数量,使用的传输层协议,通信的不同端口号数量等。
为了解决流分类中的一些问题,文献[20]提出了 B L I N C分类 方法,BLINC方法先解析所有流,并收集反映传输层行为的与 主机相关的信息,然后将主机行为与一个或多个应用程序类 型相关联,从而间接分类流量。研究结果表明该方法可以对 80 %-90 %的流量进行分类,准确率达95 %以上。
熊刚等人[21]利用主机行为之间的关联关系,提出了加 密P2P流量实时分类方法,实验表明,该方法对典型加密流 量的分类准确率、召回率均超过95%以上,计算代价小、性 能高。
3.6基于集成学习的分类方法
基于集成学习的分类方法是集成多个单分类器分类结果 的分类方法,是包含多个分类器方法的优点的组合方法,提高
172
了灵活性和速度,具有较高的分类完整性和准确性。
Peter  8&13111〇11等[22]在1990年首次提出神经网络的集成学 习方法,实验表明此方法能获得更好的性能。
针对流量分类中出现的分类不均衡问题,李林林等人^以 K 均值和K 近邻为基础设计了一种集成分类器,首先采用K 均值聚类算法将混有少量标记样本和大量未标记样本的数据 聚成若干个簇,然后采用K 近邻算法利用簇中标记样本对未 标记样本进行分类,实验结果表明此分类器在处理不平衡协 议流分类时较现有的单一分类器更有优势,尤其是对小类流 的识别率较高。
4当前网络流量分类面临的问题和挑战
网络流量分类近年来是一个热门研究课题,并取得了相
当好的研究成果,但仍然面临着一些有待解决的问题与挑战:
(1) 出于用户隐私问题不能访问用户数据包有效负载,这 给流量分类的工作加大了难度,另一方面,许多应用程序为了 绕过防火墙,拒绝使用已知端口,使得已知的端口号并不能可
靠地识别出应用类型[24]。
(2) 高速海量网络流量的实时采集、分析和数据存储问题, 是当前分类方法面临的挑战。网络安全控制等需要网络流量 采集、存储、分类、分析实时完成,对网络流量分类提出了巨大
挑战气
(3) 机器学习方法都存在过度拟合的问题,即在特定数据 集上训练的分类模型可能不适用于其他数据集,需要进行性 能、功能、成本的平衡。
参考文献:[1] Lyda  Rs  Hamrock  J . Using  entropy  analysis  to  find  encryp ­
ted  and  packed  malware [J ], IEEE  Security  & Privacy , 2007,
5(2).
[2] Sen  S , Wang  J . Analyzing  Peer -To-Peer  Traffic  Across  Lar ­
ge  Networks [J ]. IEEE/ACM  TRANSACTIONS  ON  NET ­
WORKING , 2004, 12(2): 219.[3] Dainotti  A , Pescape  A , ClafEy  K  C . Issues  and  future  direc ­tions  in  traffic  classification [J ]. IEEE  network , 2012,26(1).[4] IANA,List  of  assigned  port  numbers , http ://www .iana .org / assignments /port -numbers .[5]
Karagiannis  Ts  Broido  As  Brownlee  Ns  et  al . Is  p 2p  dying  or just  hiding ?[p 2p  traffic  measurement ] [C]//Global  Telecom ­munications  Conference , 2004. GLOBECOM '04. IEEE . IEEE , 2004,3: 1532-1538.[6]
Karagiannis  T , Broido  A , Faloutsos  M . Transport  layer  iden ­tification  of  P 2P  traffic  [C]//Proceedings  of  the  4th  ACM SIGCOMM  conference  on  Internet  measurement . ACM ,
2004:121-134.
缘114
[7] Sen  Ss  Spatscheck  O , Wang  D . Accurate , scalable  in -net ­
work  identification  of  p 2p  traffic  using  application  signat - ures [C]//Proceedings  of  t he  13th  i
nternational  conference  on World  Wide  Web . ACM , 2004: 512-521.[8] 付文亮,嵩天,周舟.RocketTC : —个基于FPGA 的高性能 网络流量分类架构[J ].计算机学报,2014,(02):414-422.[9] Velan  P , ermdk  M , eleda  P , et  al . A  survey  of  methods  for
encrypted  traffic  classification  and  analysis [J ]. International
Journal  of  N etwork  Management , 2015,25(5): 355-374.
[10] 潘吴斌,程光,郭晓军,黄顺翔.网络加密流量识别研究综述
及展望[J ].通信学报,2016,(09):154-167.[11] Frank  J . A r t i f i c i a l  i n t e l l i g e n c e  and  i n t r u s i o n  detection : Cur ­
r e n t  and  f u t u r e  d i r e c t i o n s  [C]//Proceedings  of  th e  17th  na ­t i o n a l  computer  s e c u r i t y  conference . 1994,10: 1-12.[12] Auld  T , Moore  A  W , Gull  S  F . Bayesian  neural  networks  f o r
i n t e r n e t  t r a f f i c  c l a s s i f i c a t i o n !!J ]. IEEE  Transactions  on  neura l networks , 2007,18(1): 223-239.[13] 徐鹏,林森.基于C 4.5决策树的流量分类方法[J ].软件学
报,2009,(10):2692-2704.
偏心井口
[14] Boser  B  E , Guyon  I M , Vapnik  V  N . A  t r a i n i n g  algorithm  f o r
optimal  margin  c l a s s i f i e r s  [C]//Proceedings  of  the  f i f t h  an ­
nual  workshop  on  Computational  learni ng  theory . A C M ,
1992: 144-152.
[15] Li  Z , Yuan  R , Guan  X . Accurate  c l a s s i f i c a t i o n  of  t he  i n t e r n e t  t r a f f i c  based  on  th e  svm  method [C ]//Communications , 2007. ICC '07. IEEE  I n t e r n a t i o n a l  Conference  on . IEEE , 2007:
1373-1378.
[16] Kim  H , ClafEy  K  C , Fomenkov  M , e t  a l . I n t e r n e t  t r a f f i c  c l a s ­s i f i c a t i o n  demystified : myths , caveats , and  the  best  p r a c t i c e s
[C]//Proceedings  of  the  2008 A C M  CoNEXT  conference . A C M , 2008: 11.[17] Zhang  J , Xiang  Ys  Wang  Ys  e t  a l . Network  t r a f f i c  c l a s s i f i c a ­
t i o n  using  c o r r e l a t i o n  information [J ]. IEEE  Transactions  on P a r a l l e l  and  Distribut ed  Systems , 2013,24(1): 104-117.[18] 谭骏,陈兴蜀,杜敏,朱锴.基于自适应B P 神经网络的网络
流量识别算法[J ].电子科技大学学报,2012,(04):580-585.[19] Erman  J , A r l i t t  M , Mahanti  A . T r a f f i c  c l a s s i f i c a t i o n  using
自动启闭阀
c l u s t e r i n g  algorithms  [C]//Proceedings  of  the  2006 SIG ­C O M M  workshop  on  Mining  network  data . A C M , 2006:
281-286.
[20] Karagiannis  T , Papagiannaki  K , Faloutsos  M . BLINC : mul ­
t i l e v e l  t r a f f i c  c l a s s i f i c a t i o n  i n  the  dark [C]//ACM  SIGCOM - M  Computer  Communication  Review . A C M , 2005, 35(4):
229-240.
[21] 熊刚,赵咏,曹自刚.基于主机行为关联的加密P 2P 流量实
时分类方法[J ].高技术通讯,2013,(10):1008-1015.[22] Krogh  A , Vedelsby  J . Neural  network  ensembles , cros s  va ­
l i d a t i o n , and  a c t i v e  leaming [J ]. Advances  i n  neural  informa ­t i o n  processing  systems , 1995,7: 231-238.
[23] 李林林,张效义,张霞,李青.一种基于集成学习的流量分类
算法[J ].信息工程大学学报,2015,(02):240-244.
[24] Callado  A , Kamienski  C , Szabo  G , e t  a l . A  survey  on  i n t e r ­
net  t r a f f i c  i d e n t i f i c a t i o n [J ]. IEEE  communications  surveys
& t u t o r i a l s , 2009,11(3).[25] Li  B , Springer  J , Bebis  G , e t  a l . A  survey  of  network  flow appli catio ns [J ]. Journal  of  N etwork  and  Computer  Applica ­t i o n s , 2013, 36(2): 567-581.
基金项目:赛尔网络下一代互联网技术创新项目N G H 20150101)作者简介:镇佳(1992-),女,硕士研究生;朱国胜(1972-),男,教授,通讯作者,研究方向:下一代互联网、软件定义网络。
173

本文发布于:2024-09-25 06:26:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/182783.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分类   方法   流量   网络流量   学习
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议