基于时间序列的网络流量分析与预测

基于时间序列的网络流量分析与预测
何建
电子科技大学应用数学学院,成都 (610054)
E-mail:windpost@163
摘 要 随着计算机网络的迅速发展,目前的网络规模越来越庞大和复杂,相应面临对网络有效管理的要求就越来越高。本文通过对CERNET(China Education and Research Network)上某个端口的网络流量数据的统计分析,给出了一种用时间序列的方法对流量数据进行模拟仿真,从而达到对网络流量的控制和预测以便提高对网络服务的质量。
关键词:网络流量,ARIMA 模型,平稳,差分,预测
1. 引言
随着计算机网络的迅速发展,目前的网络规模越来越庞大和复杂,这也就意味网络服务越容易出现问题,网络的性能就越容易受到影响。由此,为了给用户提供优质的服务,对网络的维护和管理显得尤为重要,于是设计和建立一个合理的网络流量模型来对网络设计和性能评估都起着十分重要的作用。
由于Internet 的多构性、异构性及网络行为的高突发连续性使传统的马尔可夫模型、普阿松模型已不适用于Internet 的流量描述与预测[1]。由于网络流量数据是随时间变化的数据,因此我们可以把网络流量数据看成一个时间序列,用时间序列的方法对流量数据进行建模。时间序列有平稳时间序列和非平稳时间序列。其中平稳时间序列有三种重要的形式,即AR 序列、MA 序列、ARMA 序列。非平稳序列方面,可以用ARIMA 序列来刻画。实际计算表明,许多常见的时间序列皆可用ARIMA 序列表示,从数学模型的角度,它们都可近似地归到ARIMA 序列中去。
ARIMA 模型是建立在马尔可夫随机过程上的基础上,它反映了动态的特点,即吸取了回归分析的优点又发扬了移动平均的长处。它根据数据序列的自相关函数和偏相关函数建立起线性数据间的定量模型,因而它反映了现在活动和过去活动的本质联系;另外ARIMA 模型在预测精度方面,对噪声进行了分析处理,只剩下当时和与历史无关的白噪声,使其生成线性模型的最优预测。该模型对噪声的详细分析和处理不仅让我们得到线性的最优预测,而且可以得到在不同概率情况下的准确边界。同时该模型对噪声概率分布的研究,使我们知道在各种概率情况下出现偏差的大小,这也很好的处理了随机的干扰问题。所以时间序列模型被广泛的运用在经济、通信、气象、运输等各种工程领域里面。
2. 关于ARIMA 序列的介绍
吸音降噪
2.1 模型的描述
在许多实际问题中,所观测到的样本数据序列{Xt ,t=0,1,2,…}常不是平稳序列,但如果将其做d 次有限次差分处理,则差分序列是平稳序列,那么可用平稳序列模型来做研究[2]。
定义:设d 是非负整数,称{Xt }是ARIMA(p,d,q)序列,如
t t d B X B ε)()(Θ=∇Φ    (1)
其中和是两个分别次数为p 和q 的特征多项式,p 和q 都是正整数,表达式分别为
)(B Φ)(B Θp p B B B φφ−−−=ΦL 11)(
(2) q q B B B θθ+++=ΘL 11)(
哺乳衫
(3) B 是延迟算子,有 1−=t t X BX
(4) d ∇为d 阶差分算子,有 t d t d X B X )1(−=∇
(6) t ε为高斯白噪声序列,服从WN (0,σ2)分布。
2.2  模型的参数估计
对某一满足ARIMA(p,d,q)模型的样本数据序列{Xt ,t=0,1,2,…}进行d次差分后,差分算子阶数d通常取0或1,一般不超过2可得到平稳ARMA(p,q)序列[2],数据平稳化过后,可以用ARMA模型的参数估计方法对处理后的数据进行建模。
在建立ARMA模型时,首先要进行模型初识别,可以根据平稳化后数据的自相关函数和偏相关函数的拖尾性或截尾性来判断模型类别;然后定阶可以采用AIC信息准则;最后对采取模型中的参数进行估计,可以采用常用的最小二乘估计和极大似然估计等估计方法。
模型建立后就是对模型进行检验,可以采用统计检验法来检验拟合模型的残差是否为白噪声,如果是,模型通过考核,否则从新对模型进行识别估计[3]。 2
χ3. 模型建立与预测
3.1 数据的预处理
对CERNET 的某个端口的流量数据进行采样,收集了3周的数据,数据时间间隔为2个小时,则观察数据为{Xt ,t=0,1,2,…252}。在排队论系统中,由于测量的方差会随均值的增大而增大,这样的测量值不能模型化为一种标准正态随机变量,而取对数是减少标准差的一种有效技术,因此对观测值先取对数,变换后的序列为V t =ln Xt 变化率随Xt 的增加而增加[4]。
图1 V t 序列观察图          图2  V t 序列自相关函数图
画出V t 的序列观察图(如图1),它直观反映了Xt 的变化情况,并明显发现这个序列具有周期性,
周期为12个单位,按每个单位是2个小时,正好周期为一天。根据观测数据的工程背景,也很容易得出这个结论,网络流量是按天为单位成周期的变化,如果
考虑复杂一点,还有以周、季度甚至有可能以年为周
期变化的规律,由于这里观测数据只有3周,所以只
能考虑以天为周期的情况。图2是V t 序列的自相关函
硅基动态数图,它更进一步描述了网络流量的特征。从该图可
以看到自相关函数也有明显得周期性,其周期正好是
观察数据的周期,并且随时滞增加,自相关函数下降
趋势缓慢,说明观测数据是非平稳数据,需要对数据
进行平稳化处理。由于观测数据的周期为12,则先用
步长为12的差分算子对V t 序列进行差分来消除周期
项,然后再对处理后的数据进行一阶差分使数据接近            图3  平稳化后的序列
或达到平稳。令预处理后的数据序列为Y t (如右图3),则表达式为:
t t V Y 12∇∇=      (7)
3.2 建立ARMA模型
从图3可以看出观察数据经过预处理后,残余序列Y t 即没有明显的周期性,也没有线性趋势,下面分析该序列的自相关函数和偏相关函数图,如下:
图4  Y t 的自相关函数图            图5  Y t 的偏相关函数图
从图4和图5也可以看出Y t 的自相关函数和偏相关函数都有明显的下降趋势,可以认为序列平稳。因此对预处理后的数据可以建立ARMA(p,q)模型。
对模型阶p 和q 的估计,采用AIC 信息准则,用SAS 数据处理软件对如下所选模型表达式进行计算:模型1:1212332212123322−−−−−−+++=−−−t t t t t t t t Y Y Y Y εθεθεθεϕϕϕ
模型2:12122212126633−−−−−++=−−−t t t t t t t Y Y Y Y εθεθεϕϕϕ
模型3:12122212123322−−−−−++=−−−t t t t t t t Y Y Y Y εθεθεϕϕϕ
模型1-3的AIC 信息分别是:-162.979、-162.41和-162.769。由此根据AIC 信息准则,选取模型1进行建模。用最小二乘估计法计算出模型1的估计参数,得到模型如下:
12321232814.006745.010297.01444.027381.014606.0−−−−−−−+−=−++t t t t t t t t Y Y Y Y εεεε  (8) 其中模型残差序列t ε的服从正态分布:WN (0.028966,0.1701942)
3.3 模型的预测
对所建立的模型进行检验,用SAS 软件对模型参数进行估计后,其模型的残余量用统计检验,可以认为该模型的残余量是白噪声,所以该模型通过考核。由于篇幅的原因,这里不进行详细叙述。 2
χ下面用所建立的模型来进行预测。根据所建立的模型对未来一天的网络流量进行预测,预测效果图如图6,实线是实际观测值,虚线是模型预测值,从图中可以直观的看到模型能很好对真是网络流量进行模拟仿真,并对未来的预测也可以达到比较精确的预测效果。
图6 网络流量的预测效果图
碳计算器4. 结束语
近些年来,关于网络流量的建模研究日益引起人们的极大关注。目前,国内外在这方面的研究主要集中在小波领域,用小波分析网络流量的自相似特征,在微观上研究网络流量的特征。通过分析,可以看出一个具有成长性、非平稳性的大尺度网络综合业务量数据序列,经过取自然对数,剔除趋势项后得到
一个短时相关的随机信号序列,而人们对于短时相关序列的研究是非常成熟和完善的,因此通过该方
法可以得到较为精确的宏观网络综合业务量的预测模型。用ARIMA模型分析网络流量可以从宏观上把握Internet的发展轨迹、成长趋势以及在一定尺度下的流量特征。本文就是基于这种模型对网络流量进行模拟仿真,并且该模型可以实时的对未来流量进行预报,提高网络管理员对网络监控管理的效率,从而达到提高了网络服务质量的最终目的。
参考文献
[1]Vern Paxson and Sally Floyd.Wide Area Traffic:The Failure of Poisson Modeling.IEEE Acm Transaction on Nertworking,1995,3(3):226-244
[2]田铮 译.时间序列的理论与方法. 高等教育出版社:2001
剖分式油封[3]范金程梅长林.数据分析.北京:科学出版社:2002
[4]邹柏贤,姚志强. 一种网络流量平稳方法通信学报 2004.8 第25卷第8期
Network Traffic Analysis & Prediction base on Time Series Model
绿豆肽
He Jian
School of Applied Mathematics, UEST of China,Chengdu,(610054)
Abstract
With the rapid development of computer network, The network become more larger and more complex nowadays, So the demand of efficiency face to network management become more higher. According  to analysis one port of CERNET’s network traffic data in this paper, we construct ARIMA model for network traffic simulation, and this model achieve the control of network traffic and enhance the QoS.
Keywords:Network Traffic; ARIMA model; Stationary; Difference operation; Prediction

本文发布于:2024-09-25 20:30:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/221099.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   序列   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议