一种基于1D-CNN特征重构的网络安全数据分类方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011209655.1
(22)申请日 2020.11.03
(71)申请人 杭州电子科技大学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 许艳萍 叶挺聪 仇建 章霞 
裘振亮 张桦 吴以凡 张灵均 
陈政 
(74)专利代理机构 杭州君度专利代理事务所
(特殊普通合伙) 33240
代理人 杨舟涛
(51)Int.Cl.
G06K  9/62(2006.01)
G06N  3/04(2006.01)
(54)发明名称一种基于1D-CNN特征重构的网络安全数据分类方法(57)摘要本发明公开了一种基于1D ‑CNN特征重构的网络安全数据分类方法,包括模型的构建与训练优化,具体为首先利用特征之间的相关性矩阵构建1D ‑CNN深层学习模型,通过卷积、池化和全连接的全局卷积操作,生成低维的重构特征,完成数据的降维重构。再利用传统的浅层机器学习算法构建安全数据分类模型,实现对网络安全大数据中的威胁行为检测。本发明提出的基于1D ‑CNN 的特征重构方法,可以控制重构特征的维度,实现数据降维,不仅简化了深度学习的运算过程,还提高了模型的运算效率,在卷积层中利用特征之间的相关性,提高了重构特征之间的关联性,
使分类结果更加准确。权利要求书2页  说明书5页  附图1页CN 112488149 A 2021.03.12
C N  112488149
A
1.一种基于1D ‑CNN特征重构的网络安全数据分类方法,其特征在于:该方法具体包括以下步骤:
步骤一:构建训练集
对原始安全数据进行One ‑hot编码,构建尺寸为N*D的测试集X test 与训练集X,计算训练集X的特征相关矩阵R,其中N为数据集的样本数,D表示数据集维度;Y为训练集X对应的真实类别标签集合;
步骤二:构建1D ‑CNN算法模型
构建1D ‑CNN算法模型,用于对输入的数据集进行降维、重构,模型包括一个输入层、L个卷积层、L个池化层、一个全连接层和一个Softmax层;
所述输入层,用于训练集X的输入;
所述L个卷积层,对每一个卷积层根据步骤一计算得到的特征相关矩阵R设置M个卷积核,将输入卷积层的数据与M个卷积核进行卷积运算,得到M个映射特征矩阵,再经过非线性
激活函数ReLU(·)得到M个非线性映射特征矩阵S l ;
其中第l个卷积层的输出经过非线性激活函数ReLU(·)后与第l个池化层相连;当l=1时,卷积层的输入与输入层的输出相连,当l >1时,卷积层的输入与经过非线性激活函数ReLU(·)的第l ‑1个池化层的输出相连;
所述L个池化层,采用最大值池化的方式,对卷积层输出的非线性映射特征矩阵S l 进行下采样操作,再经过非线性激活函数ReLU(·),得到池化后的非线性映射特征矩阵T l ;其中第L个池化层的输出经过非线性激活函数ReLU(·)后与全连接层的输入相连;
所述全连接层,采用卷积核为M ×D的全局卷积;将第L个池化层输出T L 经过全局卷积,实现特征空间的非线性变换后,再经过非线性激活函数ReLU(·),得到重构矩阵X ′f ;
所述Softmax层的输入与全连接层的输出相连;
步骤三、训练、优化1D ‑CNN算法模型
将步骤二得到的1D ‑CNN算法模型的输出重构矩阵X ′f 输入到softmax层中,
得到预测重构特征矩阵X ′f 中的样本类别标签Y ′
,将预测的样本类别标签Y ′与真实的类别标签Y相比,推导出1D ‑CNN模型的损失函数Loss,循环训练1D ‑CNN算法模型F次;
在1D ‑CNN算法模型训练迭代的过程中,采用Adam优化函数将1D ‑CNN算法模型的损失函数Loss优化到最小值;在1D ‑CNN算法模型训练结束时,从全连接层输出得到1D ‑CNN算法模型训练完成得到的尺寸为N ×D ′重构特征矩阵X ′,其中D ′≤D,表示重构矩阵的维度低于原始数据矩阵,即1D ‑CNN算法模型实现重构矩阵对原始矩阵的降维;
步骤四、构建并训练安全数据分类模型
构建基于浅层机器学习算法的安全数据分类模型,将步骤三得到的重构特征矩阵X ′输入到安全数据分类模型中,得到预测的样本类别标签Y ″;
设置性能目标,将预测的样本类别标签Y ″与真实类别标签Y相比,根据混淆矩阵评估指标计算分类模型的性能;当分类模型的性能未达到预设目标时,返回步骤三,重新训练、优化1D ‑CNN算法模型;分类器的性能达到预设目标时,进入下一步;
步骤五、安全数据分类
将测试数据集X test 输入到步骤三中训练、优化后的1D ‑CNN算法模型中,得到测试数据集X test 的重构特征矩阵X ′test ,然后将X ′test 输入到步骤四中训练、
优化后的安全数据分类模型中,得到测试数据集X test 的预测类别矩阵Y ′test ,实现网络安全数据集中
数据分类标签的预
测,即实现网络安全数据的分类。
2.如权利要求1所述一种基于1D‑CNN特征重构的网络安全数据分类方法,其特征在于:循环训练1D‑CNN算法模型的次数为F=1000。
3.如权利要求1所述一种基于1D‑CNN特征重构的网络安全数据分类方法,其特征在于:所述浅层机器学习算法为支持向量机、决策树或朴素贝叶斯。
4.如权利要求1所述一种基于1D‑CNN特征重构的网络安全数据分类方法,其特征在于:所述的分类模型性能包括分类模型的正确率、精准率和回调率。
一种基于1D‑CNN特征重构的网络安全数据分类方法
技术领域
[0001]本发涉及网络安全大数据分析和建模领域,尤其是涉及到一种基于1D‑CNN特征重构和降维的网络安全数据分类方法。
背景技术
[0002]网络空间中存在各种各样的网络攻击方式,比如恶意代码、钓鱼邮件和网站、流量攻击、漏洞利用等,这些攻击不仅会造成巨大的经济损失,甚至会威胁国家安全和社会稳定,因此对网络威胁进行检测是很有必要的。在检测的过程中,需要采集大量的网络数据,比如恶意软件、钓鱼邮件、网络流量、系统日志等,构建传统的机器学习模型分析这些数据已经难以取得较好的效果。随着深度学习、人工智能计算的不断发展,以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用,将深度学习技术应用于网络空间威胁检测方面,是一种实现网络安全数据分类,提高网络威胁检测的有效方法。
[0003]深度学习技术包括多种算法,比如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)等,其中,CNN算法利用卷积层的非线性运算,对数据特征进行学习和重新表征,利用池化层的压缩运算,减少数据特征的维度,因此,CNN算法能够用于处理网络安全数据。根据处理数据类型的不同,CNN算法可以构建1D‑CNN模型和2D‑CNN模型。比如,在处理序列信号数据和自然语言时,构建1D‑CNN模型,在处理图像、视频数据时,构建2D‑CNN模型。将2D‑CNN模型用于网络安全数据进行分类时,首先需要将数据转换为图像格式然后再进行处理,在处理过程中存在运算过程复杂、运算量多的缺陷;同时,在卷积核中采用随机数也存在特征之间的关联性较差的问题,导致整体分类精度低。
发明内容
[0004]针对现有技术的不足,本发明提出了一种基于1D‑CNN特征重构的网络安全数据分类方法,针对
安全数据样本的一维特性构建1D‑CNN深层模型,利用神经元的非线性特性重构原始的安全数据的特征,将卷积层的卷积核中的随机数改为特征相关系数,提高重构特征间的相关性,降低特征空间维度,提高分类精度。
[0005]一种基于1D‑CNN特征重构的网络安全数据分类方法,具体包括以下步骤:[0006]步骤一:构建数据集
[0007]对原始安全数据进行One‑hot编码,构建尺寸为N*D的测试集X
与训练集X,计算
test
训练集X的特征相关矩阵R,其中N为数据集的样本数,D表示数据集维度;Y为训练集X对应的真实类别标签集合,
[0008]步骤二:构建1D‑CNN算法模型
[0009]构建1D‑CNN算法模型,用于对输入的数据集进行降维、重构,模型包括一个输入层、L个卷积层、L个池化层、一个全连接层和一个Softmax层。
[0010]所述输入层,用于训练集X的输入。
[0011]所述L个卷积层,对每一个卷积层根据步骤一计算得到的特征相关矩阵R设置M个
卷积核,将输入卷积层的数据与M个卷积核进行卷积运算,得到M个映射特征矩阵,再经过非线性激活函数ReLU(·)得到M个非线性映射特征矩阵S l ;其中第l个卷积层的输出经过非线性激活函数ReLU(·)后与第l个池化层相连;当l=1时,卷积层的输入与输入层的输出相连,当l>1时,卷积层的输入与经过非线性激活函数ReLU(·)的第l ‑1个池化层的输出相连。
[0012]所述L个池化层,采用最大值池化的方式,对卷积层输出的非线性映射特征矩阵S l 进行下采样操作,再经过非线性激活函数ReLU(·),得到池化后的非线性映射特征矩阵T l ;其中第L个池化层的输出经过非线性激活函数ReLU(·)后与全连接层的输入相连。
[0013]所述全连接层,采用卷积核为M ×D的全局卷积;将第L个池化层输出T L 经过全局卷积,实现特征空间的非线性变换后,再经过非线性激活函数ReLU(·),得到重构矩阵X ′f 。
[0014]所述Softmax层的输入与全连接层的输出相连。
[0015]步骤三、训练、优化1D ‑CNN算法模型
[0016]将步骤二得到的1D ‑CNN算法模型的输出重构矩阵X ′f 输入到softmax层中,
得到预测重构特征矩阵X ′f 中的样本类别标签Y ′
,将预测的样本类别标签Y ′与真实的类别标签Y相比,推导出1D ‑CNN模型的损失函数Loss,循环训练1D ‑CNN算法模型F次。
[0017]在1D ‑CNN算法模型训练迭代的过程中,采用Adam优化函数将1D ‑CNN算法模型的损失函数Loss优化到最小值。在1D ‑CNN算法模型训练结束时,从全连接层输出得到1D ‑CNN算法模型训练完成得到的尺寸为N ×D ′重构特征矩阵X ′,其中D ′≤D,表示重构矩阵的维度低于原始数据矩阵,即1D ‑CNN算法模型实现重构矩阵对原始矩阵的降维。
[0018]作为优选,循环训练1D ‑CNN算法模型的次数为F=1000。
[0019]步骤四、构建并训练安全数据分类模型
[0020]构建基于浅层机器学习算法的安全数据分类模型,将步骤三得到的重构特征矩阵X ′输入到安全数据分类模型中,得到预测的样本类别标签Y ″。
[0021]设置性能目标,将预测的样本类别标签Y ″与真实类别标签Y相比,根据混淆矩阵评估指标计算分类模型的性能。当分类模型的性能未达到预设目标时,返回步骤三,重新训练、优化1D ‑CNN算法模型;分类模型的性能达到预设目标时,进入下一步。
[0022]作为优选,所述浅层机器学习算法为支持向量机、决策树或朴素贝叶斯。
[0023]作为优选,所述分类模型的性能包括分类模型的正确率、精准率和回调率
[0024]步骤五、安全数据分类
[0025]将测试数据集X test 输入到步骤三中训练、
优化后的1D ‑CNN算法模型中,得到测试数据集X test 的重构特征矩阵X ′test ,然后将X ′test 输入到步骤四中训练、
优化后的安全数据分类模型中,得到测试数据集X test 的预测类别矩阵Y ′test ,
实现网络安全数据集中数据分类标签的预测,即实现网络安全数据的分类。
[0026]本发明具有以下有益效果:
[0027](1)根据输入数据的1D结构,构建1D ‑CNN算法模型,其中卷积核和池化采样都是采用1D矩阵样式,相比于现有技术中的2D ‑CNN模型,1D ‑CNN网络的运算更简化,运算量也相应减少了,可以提高模型的运算效率;
[0028](2)在1D ‑CNN算法模型卷积层的卷积操作中,卷积核采用特征相关性矩阵而非随机数,将输入数据与相关性卷积核卷积运算,使得到的重构特征之间具有较好的关联性,可

本文发布于:2024-09-20 12:37:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/802339.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   分类   特征   重构   算法   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议