一种工业互联网入侵检测方法



1.本技术属于工业互联网和物联网领域,具体涉及一种工业互联网入侵检测方法。


背景技术:



2.工业控制系统(industrial control systems,ics)是对用在过程控制上的多种控制系统(如plc、rtu和专用控制器等)以及相关仪器设备的总称。在早期,由于生产用途的限制,ics作为一个相对独立和隔离的系统存在,与外部互联网保持着分离的关系,自身网络安全性与可靠性很少得到人们的关注。随着信息化的发展,ics原有的相对独立和隔离的运行方式已然难以满足如今智能制造的要求。工业互联网和物联网通过对人、机、物全面连接,对工业数据深度感知、实时传输交换、快速计算处理,进而实现智能控制、运营优化和生产组织方式变革。
3.目前,暴露在公开的工业互联网中的ics系统由于其自身安全防护的先天不足,出现了日益严重的安全问题。在这种背景下,针对关键基础设施和工业企业的高调网络攻击将工业控制系统入侵检测问题提升为一个主流问题。
4.现有入侵检测方法按照检测方法进行分类,可以分为误用入侵检测技术和异常入侵检测技术。误用检测是一种基于模式匹配的网络入侵检测技术。假设所有的网络攻击行为和方法都具有一定的模式或特征,如果把以往发现的所有网络攻击的特征(“异常”特征)总结出来并建立一个入侵信息库,然后将搜集到的信息与已知的网络入侵和系统误用模式数据库进行比较,即可发现未知的网络攻击行为。异常入侵检测是指从正常运行的工控系统的网络流量信息或者主机设备信息中提取“正常”的特征,并以此构建工控系统的特征模型,之后将此特征模型与待检测的工控系统特征进行匹配,当偏差较大时判断工控系统发生了入侵。
5.基于流量的入侵检测需要实时抓取网络流量的相关信息,如连接次数,连接时间,端口,访问系统敏感文件权限等流量特征,构建流量特征的数据库。将采集的流量与已有特征库中的流量进行匹配,根据匹配结果判断工控系统是否发生了入侵,并依据数据分析对流量特征数据库进行实时更新。基于协议的入侵检测通过传感器监测并捕获 ics网络通信数据,解析后与进行匹配,完成协议字段的分析,达到对待测ics进行监控与防护的目标。基于主机的入侵检测主要从业务完成逻辑和系统设备操作两方面入手,目的在于破坏系统的运行。每个网络设备都有其独特的系统“指纹”,标识着系统的物理特性,网络特征等设备相关的信息,这些信息往往作为研究的标志信息。同时,当现场设备发生入侵时,会影响网络通讯,这会使得输入到被控对象的信号发生改变。
6.针对日益严重的工控网络安全问题,需要一种更加智能的方法,对工控系统的网络入侵行为进行感知、监测、预警、处置,保证工控系统安全平稳的运行。


技术实现要素:



7.本技术提出了一种工业互联网入侵检测方法,通过对数据预处理以及模型训练,
从而优化阈值,提高准确率。
8.为实现上述目的,本技术提供了如下方案:
9.一种工业互联网入侵检测方法,包括以下步骤:
10.获取特征数据,对所述特征数据进行清洗,得到清洗后的数据;
11.对所述清洗后的数据进行预处理,得到预处理后的数据;
12.对所述预处理后的数据进行特征构造,建立卷积神经网络模型进行特征提取;
13.对特征提取后的数据进行分类空间线性变换的阈值优化,得到检测结果。
14.优选的,所述清洗后的数据包括tcp连接基本特征、tcp连接的内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征。
15.优选的,对所述清洗后的数据进行预处理的方法包括:数据归一化处理和数据重采样处理。
16.优选的,所述数据归一化处理方法包括:所述清洗后的数据通过归一化方法降低高离差特征数据,公式如下:
[0017][0018]
其中,q
i,min
表示列向量q中的最小值,q
i,max
表示列向量q中的最大值。
[0019]
优选的,所述数据重采样处理方法包括:
[0020]
首先通过单次采样算法对所述清洗后的数据进行smote采样,其次,在单次采样的基础上,进行数据集的动态策略。
[0021]
优选的,对所述预处理后的数据进行特征构造,建立卷积神经网络模型进行特征提取的方法包括:对所述预处理后的数据进行特征构造,建立重组特征数据集的公式为:
[0022][0023]
在此基础上,建立卷积神经网络模型进行特征提取。
[0024]
优选的,对特征提取后的数据进行分类空间线性变换的阈值优化方法包括:基于roc获取youden系数和基于youden系数进行多分类优化。
[0025]
优选的,所述基于roc获取youden系数的方法包括:首先通过 roc曲线来测试模型准确性,以及auc度量准确性,用如下公式表示:
[0026][0027]
在上式中,表示第i条样本的序号,表示只把正类样本的
序号相加。
[0028]
auc表示roc的线下面积,用youden系数来获取auc的最佳阈值,如下公式表示:
[0029]
j=tpr-fpr
[0030]
其中,tpr表示最接近左上角的roc曲线上的点的横坐标,fpr 表示最接近左上角的roc曲线上的点的纵坐标,j表示最佳阈值。
[0031]
优选的,所述基于youden系数进行多分类优化包括:
[0032]
使用分类空间的线性变化方法:
[0033]
p
new
=p
·
diag(j)
[0034]

[0035][0036]
则分类器对结果的判断如下
[0037][0038]
result即为检测结果。
[0039]
本技术的有益效果为:本技术公开了tanhminmax归一化方法和采用的动态数据集策略实现对数据区分度的有效提高和对数据信息的有效利用,旨在解决现有处理方法冗余度较高,容易丧失数据信息的情况,实现对现有数据的有效利用,克服数据不平衡对分类器的影响;本技术采用的模型训练方法,旨在解决将数据特征进行有效的提取。基于特征构造后的数据,可以有效的被cnn网络所理解,实现从数据到分类的对应关系;本技术提出的基于分类空间线性变换的阈值优化方法,实现在不平衡数据集下,分类阈值的自动选取与分类空间的自动优化,实现整体准确率的提高和少数类f1值的提高,表面不平衡数据集对分类器的影响得到了显著降低。
附图说明
[0040]
为了更清楚地说明本技术的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0041]
图1为本技术实施例的一种工业互联网入侵检测方法流程示意图;
[0042]
图2为本技术实施例的动态采样策略过程示意图;
[0043]
图3为本技术实施例特征构造数据的过程示意图;
[0044]
图4为本技术实施例构建卷积神经网络模型结构示意图。
具体实施方式
[0045]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于
本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0046]
为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
[0047]
在本实施例中,如图1所示,提供了一种工业互联网入侵检测方法,包括如下步骤:
[0048]
第一步、获取特征数据,对特征数据进行清洗,得到清洗后的数据;
[0049]
本实施例的特征数据包括:9种tcp连接基本特征,13种tcp连接的内容特征,9种基于时间的网络流量统计特征和10种基于主机的网络流量统计特征。
[0050]
其中,9种tcp连接基本特征包括:tcp基本连接特征包含了一些tcp连接的基本属性,如连续时间,协议类型,传送的字节数,协议特征等。13种tcp连接的内容特征包括:对于u2r和r2l之类的攻击,由于它们不像dos攻击那样在数据记录中具有频繁序列模式,而一般都是嵌入在数据包的数据负载里面,通过tcp连接的内容特征,从报文内容里进行捕获。9种基于时间的网络流量统计特征包括:由于网络攻击事件在时间上有很强的关联性,因此统计出当前连接记录与之前一段时间内的连接记录之间存在的某些联系,可以更好的反映连接之间的关系。10种基于主机的网络流量统计特征包括:有些 probing攻击使用慢速攻击模式来扫描主机或端口,按照目标主机进行分类,统计信息,可以发现此类的攻击。
[0051]
我们将网络攻击细分为4大类共39种攻击类型。其中,4大类为:dos攻击,u2r攻击,r2l攻击,probe攻击。
[0052]
对特征数据进行清洗,删除不完整的流量数据以及重复的流量数据,用0填充无效值和缺失值,得到清洗后的数据,基于清洗后的数据得到的数据集,记n为数据集的总数据条数,记数据集为 x
i,j
为i条数据的第j个特征。
[0053]
每条数据均都有41维特征,可以视为一个行向量
[0054][0055]
其中,i为当前数据的条数。
[0056]
对于整个数据集,每个特征的所有数据可以视为一个列向量
[0057][0058]
其中,j为数据特征数。
[0059]
根据以上定义,原始数据集x可以表示为如下所示的二维矩阵。
[0060][0061]
第二步、对清洗后的数据进行预处理,包括:数据归一化处理和数据重采样处理。
[0062]
数据归一化处理:
[0063]
第一步获取的清洗后的数据中还存在着高离差特征数据,定义标准差大于1的特征为高离差特征,其含义是数据集中某个特征维度的值存在极大的标准差。这意味着数据的分布极度不均衡。
[0064]
归一化方法,通过非线性的双曲正切对原始数据变化,降低特征的高离差特性,更好的保留数据的区分度,q
i,min
表示列向量q中的最小值,q
i,max
表示列向量q中的最大值。归一化方法如下:
[0065][0066]
其中,q
i,min
示列向量q中的最小值,q
i,max
表示列向量q中的最大值。
[0067]
数据重采样处理:
[0068]
在真实网络流量中,正常流量占据绝大部分,而对于攻击流量中,由于dos攻击的特性,占据攻击流量的绝大多数,所以,对于网络流量来说,其不平衡性是必然且不可避免的。这种特征在数据集上,表现为normal分类和dos分类占据绝大多数。
[0069]
如图2所示,清洗后的数据中,存在数据的不平衡。不平衡性的含义是数据集中存在明显的少数类和多数类。在本实施例中,首先用单次采样算法对原始工控流量数据集进行smote采样和随机欠采样,增加少数类样本的数量,接着对数据集进行降采样,减少多数类的数量,最终达到数据集的平衡;为了克服单次采样算法带来的误差以及信息冗余,信息丢失的问题,在单次采样的基础上,进行数据集的动态策略,在每一轮训练之前,进行一次数据集的采样,每次训练前重新生成数据,以确保模型的鲁棒性。
[0070]
第三步、对预处理后的数据进行特征构造,建立卷积神经网络模型进行特征提取,如图3所示。
[0071]
基于预处理后的数据,删除全为0的一个冗余维度,在对特征字符串进行one-hot编码,one-hot编码即独热码,主要是采用n位状态寄存器来对n个状态进行编码,每个状态都由其独立的寄存器位,并且在任意时候只有一位有效。如原始特征protocol_type有三个取值,分别为tcp,udp,icmp,我们将其映射为[1,0,0],[0,1,0]和 [0,0,1];因此,得到如下所示的数据向量:
[0072][0073]
在此基础上,建立重组特征数据集的公式为:
[0074][0075]
由此,建立卷积神经网络模型进行特征提取。
[0076]
卷积神经网络(convolutional neural networks,cnn)由于具有较好的特征提取性能而被广泛应用。典型的网络结构由五层组成:输入层,卷积层,池化层,全连接层和输出层。本技术以cnn网络为核心,构建如图4所示的神经网络,对网络流量特征进行提取。其中,图中【?】表示维度的自适应。
[0077]
第一层网络为输入层,将原始的二维数组转换成张量的形式,输入神经网络;
[0078]
第二层为卷积层,使用32个卷积核对特征进行初步提取,使用same-padding的方式保证边缘效果,利用线性整流函数(linearrectificationfunction,relu)函数进行激活处理;
[0079][0080]
第三层为池化层,使用步长为2的最大池化对卷积的输出结果进行处理;
[0081]
第四层为卷积层,使用64个卷积核对特征进行进一步提取,此时,卷积核的感受野大于第一层网络的卷积,对特征可以进行更深层次的提取。和第一层网络一样,使用same-padding的方式保证边缘效果,利用relu函数进行激活;
[0082]
第五层为池化层,和第二层作用一样;
[0083]
第六层为flatten,将池化结果进行维度变换,得到一维向量;
[0084]
第七层为dropout,训练时随机中断一些神经元的连接,这种方法可以有效的防止模型过拟合,提高鲁棒性;
[0085]
第八层为全连接,将神经网络得到的结果进行初步提炼;
[0086]
第九层为全连接层,利用如下公式所示的softmax激活函数输出one-hot编码结果;
[0087][0088]
在训练过程中,利用adam优化器进行训练,利用如下公式所示的categorical_crossentropy作为损失函数。
[0089][0090]
上式中,x表示输入样本,c为待分类的类别总数,yi为第i个数据对应的真实标签,fi(x)为模型对第i个数据的输出值。
[0091]
第四步、对特征提取后的数据进行分类空间线性变换的阈值优化,包括:基于roc获取youden系数和基于youden系数进行多分类优化。
[0092]
基于roc获取youden系数:
[0093]
roc曲线即受试者工作特征曲线,横坐标是fpr,纵坐标是tpr,分别表示模型的特异性和敏感性,roc曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,描述被试对象在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。
[0094]
在roc曲线中,tpr越接近于1,fpr越接近于0,表示正类样本和负类样本分类均接近与完全正确,分类器性能越好,换句话说,越靠近左上角,试验的准确性就越高。这种准确性我们用auc进行度量,auc表示roc曲线下的面积,如下公式所示:
[0095]
[0096]
在上式中,表示第i条样本的序号,表示只把正类样本的序号相加。
[0097]
为了更方便的到最大auc对应的分类阈值,我们使用youden 系数进行评价,其含义为表示二分类的最佳阈值。假设fn和fp具有相同的危害的时候,youden系数可以表示为如下公式:
[0098]
j=tpr-fpr
[0099]
其中,tpr表示最接近左上角的roc曲线上的点的横坐标,fpr 表示最接近左上角的roc曲线上的点的纵坐标,j表示最佳阈值。即最接近左上角的roc曲线上的点的横纵坐标之差。
[0100]
基于youden系数进行多分类优化:
[0101]
对于多分类问题,经过分类器每个结果预测概率用如下公式表示:
[0102]
p=[p
1 p2…
pn]
t
[0103]
在不引入youden系数的情况下,分类器对结果的判断如下
[0104][0105]
而在本实施例中,对于多分类问题,每一个分类项都存在一个 youden系数
[0106]
j=[j
1 j2…jn
]
[0107]
本实施例使用分类空间的线性变化方法
[0108]
p
new
=p
·
diag(j)
[0109]

[0110][0111]
则分类器对结果的判断如下
[0112][0113]
result即检测结果。
[0114]
以上所述的实施例仅是对本技术优选方式进行的描述,并非对本技术的范围进行限定,在不脱离本技术设计精神的前提下,本领域普通技术人员对本技术的技术方案做出的各种变形和改进,均应落入本技术权利要求书确定的保护范围内。

技术特征:


1.一种工业互联网入侵检测方法,其特征在于,包括以下步骤:获取特征数据,对所述特征数据进行清洗,得到清洗后的数据;对所述清洗后的数据进行预处理,得到预处理后的数据;对所述预处理后的数据进行特征构造,建立卷积神经网络模型进行特征提取;对特征提取后的数据进行分类空间线性变换的阈值优化,得到检测结果。2.根据权利要求1所述的工业互联网入侵检测方法,其特征在于,所述清洗后的数据包括tcp连接基本特征、tcp连接的内容特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征。3.根据权利要求1所述的工业互联网入侵检测方法,其特征在于,对所述清洗后的数据进行预处理的方法包括:数据归一化处理和数据重采样处理。4.根据权利要求3所述的工业互联网入侵检测方法,其特征在于,所述数据归一化处理方法包括:所述清洗后的数据通过归一化方法降低高离差特征数据,公式如下:其中,q
i,min
表示列向量q中的最小值,q
i,max
表示列向量q中的最大值。5.根据权利要求3所述的工业互联网入侵检测方法,其特征在于,所述数据重采样处理方法包括:首先通过单次采样算法对所述清洗后的数据进行smote采样,其次,在单次采样的基础上,进行数据集的动态策略。6.根据权利要求1所述的工业互联网入侵检测方法,其特征在于,对所述预处理后的数据进行特征构造,建立卷积神经网络模型进行特征提取的方法包括:对所述预处理后的数据进行特征构造,建立重组特征数据集的公式为:在此基础上,建立卷积神经网络模型进行特征提取。7.根据权利要求1所述的一种工业互联网入侵检测方法,其特征在于,对特征提取后的数据进行分类空间线性变换的阈值优化方法包括:基于roc获取youden系数和基于youden系数进行多分类优化。8.根据权利要求7所述的工业互联网入侵检测方法,其特征在于,所述基于roc获取youden系数的方法包括:首先通过roc曲线来测试模型准确性,以及auc度量准确性,用如下公式表示:
在上式中,表示第i条样本的序号,表示只把正类样本的序号相加。auc表示roc的线下面积,用youden系数来获取auc的最佳阈值,如下公式表示:j=tpr-fpr其中,tpr表示最接近左上角的roc曲线上的点的横坐标,fpr表示最接近左上角的roc曲线上的点的纵坐标,j表示最佳阈值。9.根据权利要求8所述的工业互联网入侵检测方法,其特征在于,所述基于youden系数进行多分类优化包括:使用分类空间的线性变化方法:p
new
=p
·
diag(j)即则分类器对结果的判断如下result即为检测结果。

技术总结


本申请公开了一种工业互联网入侵检测方法,包括获取特征数据,对所述特征数据进行清洗,得到清洗后的数据;对所述清洗后的数据进行预处理,得到预处理后的数据;对所述预处理后的数据特征构造,建立卷积神经网络模型进行特征提取;对特征提取后的数据进行分类空间线性变换的阈值优化,得到监测结果。本申请实时调用训练完成的模型,对工控系统网络流量进行实时检测,实现网络安全的态势感知。实现网络安全的态势感知。实现网络安全的态势感知。


技术研发人员:

崔灵果 蒋汉锟 柴森春 申爽 李耀兵 高建磊

受保护的技术使用者:

北京理工大学

技术研发日:

2022.09.06

技术公布日:

2022/12/8

本文发布于:2024-09-21 01:46:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/30277.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   特征   所述   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议