一种基于集成学习的入侵检测方法[发明专利]

(10)申请公布号 CN 102263790 A
(43)申请公布日 2011.11.30C N  102263790 A
*CN102263790A*
(21)申请号 201110200871.4
(22)申请日 2011.07.18
H04L 29/06(2006.01)
H04L 12/26(2006.01)
(71)申请人华北电力大学
地址102206 北京市昌平区朱辛庄北农路2
(72)发明人李元诚  王宇飞
(74)专利代理机构北京众合诚成知识产权代理
有限公司 11246
代理人
黄家俊
(54)发明名称
一种基于集成学习入侵检测方法
(57)摘要
本发明公开了网络信息安全技术领域中的一
种基于集成学习的入侵检测方法。该方法使用核
主成分分析从网络安全设备的日志中提取入侵检
测所需要的若干特征,进而将各个时间监测点中
这些特征的数据结合当时网络安全态势构造成训
练样本集;在集成学习Boosting 算法中使用核心
向量机作为弱学习算法,利用集成学习Boosting
算法对训练样本集进行迭代训练得到满足误差要
求的弱学习机序列,再利用对弱学习机序列加权
求和的方法得到强学习机;利用强学习机完成当
前入侵检测分析。本发明在提高入侵检测系统实
时性,降低入侵检测漏报率和误报率方面,以及提
高入侵检测系统泛化能力方面,有较好的性能。(51)Int.Cl.
(19)中华人民共和国国家知识产权局(12)发明专利申请
权利要求书 2 页  说明书 7 页  附图 2 页
1.一种基于集成学习的入侵检测方法,其特征是所述方法包括以下步骤:
步骤1:使用核主成分分析从网络安全设备日志的属性x 1,x 2,L ,x n 中提取入侵检测所需要的时间监测点i 的特征数据
步骤2:将特征数据结合时间监测点i 的网络安全态势y i 构造成集成学习Boosting 算法中弱学习算法可读的训练样本集S train ;
步骤3:利用集成学习Boosting 算法对训练样本集S train 进行迭代训练得到满足误差要求的弱学习机序列h ,再利用对弱学习机序列h 加权求和的方法得到强学习机H ;
步骤4:利用强学习机H 完成当前入侵检测分析。
2.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述弱学习算法为核心向量机。
3.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述步骤1包括以下步骤:
步骤1.1:将属性x 1,x 2,L ,x n 的数据利用核函数变换Φ:从R n 空间映射到Hilbert 空间,得到Hilb
ert 空间中的数据
步骤1.2:在Hilbert 空间中计算各分量的协方差矩阵C ;
步骤1.3:求解协方差矩阵C 所对应的特征方程λυ=C υ中的特征值及非零特征值对应的特征向量υ,并将特征向量υ的表达式为
步骤1.4:求解αq ,可得特征向量α的对偶特征方程m λα=K α;
步骤1.5:将特征向量α单位化;
步骤1.6:计算各Φq (x)在特征向量υ上的投影g q (x);
步骤1.7:将所有投影g q (x)组合成一个矢量g(x)=[g 1(x),Λ,g n (x)]T 作为样本的特征向量;
步骤1.8:用比值表示分量g q (x)对样本总体方差的贡献度,按贡献度从大到小排序,最终选取前指定个
最大的特征值λq 对应的特征向量υq 构成训练样本集所需的特征数据
4.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述步骤3包括以下步骤:
步骤3.1:设定集成学习Boosting 算法最大迭代次数k ,并设定集成学习Boosting 算法所调用的弱学习算法;
步骤3.2:规范化训练样本集S train ,并设定训练样本集S train 为集成学习Boosting 算法的原始数据样本集D ;
步骤3.3:以ωf (l)为概率从原始数据样本集D 中抽取的样本集D f ,并由弱学习算法训练,得到弱学习机h f ;
步骤3.4:计算弱学习机h f 的训练误差εf ;
步骤3.5:计算弱学习机h f 的权重αf ;
步骤3.6:更新原始数据样本集D 中训练样本的权重;
步骤3.7:当满足下列两个条件之一,则执行步骤3.8;否则返回步骤3.3;
条件1:集成学习Boosting 算法达到最大迭代次数k ;
条件2:样本集D f 不再变化;
步骤3.8:输出强学习机H 。
5.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述训练误差εf 的计算公式为:
式中:
εf 为训练误差,f ∈[1,…,k];
ωf (l)为抽取概率。
6.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述权重αf 的计算公式为:
式中:
αf 为弱学习机h f 的权重。
7.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述强学习机H 的计算公式为:
式中:
H 为强学习机;
sign 为符号函数;
αl 为弱学习机h l 的权重。
一种基于集成学习的入侵检测方法
技术领域
[0001] 本发明属于网络信息安全技术领域,尤其涉及一种基于集成学习的入侵检测方法。
背景技术
[0002] 随着Internet技术的飞速发展,网络安全的重要性及其对社会的影响越来越大,网络安全问题也越来越突出,并逐渐成为Internet及各项网络服务和应用进一步发展所亟需解决的关键问题。此外网络入侵和攻击行为正朝着分布化、规模化、复杂化、间接化等趋势发展,势必对安全产品技术提出更高的要求。
[0003] 入侵检测是对入侵行为的检测,入侵检测系统通过收集网络及计算机系统内所有关键节点的信息,检查网络或系统中是否存在违反安全策略行为及被攻击迹象。入侵检测的数据来源是各种网络安全设备(如防火墙、IDS、IPS等)的日志,这些设备会实时的记录每个时间监测点目标网络的活动情况以便
分析目标网络的运行情况。入侵检测技术的理论来源是模式识别中分类问题,将各种网络攻击抽象成一个已知类别,将网络安全设备的历史运行日志作为训练样本集使用人工智能算法通过训练学习得到多分类模型,即入侵检测系统。目前入侵检测的解决方案,主要是利用神经网络、支持向量机等单学习机方法,单学习机的方法误差相对较大、易出现过拟合现象、计算过程复杂。
[0004] 入侵检测系统的核心性能要求是准确性和实时性,目前基于单学习机的解决方案在这两方面均有不足。为了改善入侵检测系统的准确性,本发明采用集成学习Boosting算法设计入侵检测系统,集成学习Boosting算法的最大优势在于通过对弱学习算法的反复迭代训练从而得到高精度的分类模型。为了改善入侵检测系统的实时性,本发明分别在特征提取阶段和集成学习Boosting算法的弱学习算法选择上使用核主成分分析和核心向量机,从而使得在尽量不降低精度的情况下提高入侵检测系统的速度。
[0005] 为此本发明采用集成学习Boosting算法设计入侵检测系统,有效改善了入侵检测系统精度和实时性。
发明内容
[0006] 针对上述背景技术中提到的单学习机方法误差较大、易出现过拟合现象、计算过程复杂等不足,本发明提出了一种基于集成学习的入侵检测方法。
[0007] 本发明的技术方案是,一种基于集成学习的入侵检测方法,其特征是所述方法包括以下步骤:
[0008] 步骤1:使用核主成分分析从网络安全设备日志的属性x1,x2,L,x n中提取入侵检测所需要的时间监测点i的特征数据
[0009] 步骤2:将特征数据结合时间监测点i的网络安全态势y i构造成集成学习Boosting算法中弱学习算法可读的训练样本集S
train
[0010] 步骤3:利用集成学习Boosting算法对训练样本集S train进行迭代训练得到满足
误差要求的弱学习机序列h ,再利用对弱学习机序列h 加权求和的方法得到强学习机H ;
[0011] 步骤4:利用强学习机H 完成当前入侵检测分析。
[0012] 所述弱学习算法为核心向量机。
[0013] 所述步骤1包括以下步骤:
[0014] 步骤1.1:将属性x 1,x 2,L ,x n 的数据利用核函数变换Φ:
从R n 空间映射到Hilbert 空间,得到Hilbert 空间中的数据
[0015]
步骤1.2:在Hilbert 空间中计算各分量的协方差矩阵C ;[0016] 步骤1.3:求解协方差矩阵C 所对应的特征方程λυ=C υ中的特征值及非零特征值对应的特征向量υ,并将特征向量υ的表达式为
[0017]
步骤1.4:求解αq ,可得特征向量α的对偶特征方程m λα=K α;
[0018] 步骤1.5:将特征向量α单位化;
[0019] 步骤1.6:计算各Φq (x)在特征向量υ上的投影g q (x);
[0020] 步骤1.7:将所有投影g q (x)组合成一个矢量g(x)=[g 1(x),Λ,g n (x)]T 作为样本的特征向量;
[0021] 步骤1.8:用比值表示分量g q (x)对样本总体方差的贡献度,按贡献度从大到小排序,最终选取前指定个最大的特征值λq 对应的特征向量υq 构成训练样本集所需的特征数据
[0022]
所述步骤3包括以下步骤:
[0023] 步骤3.1:设定集成学习Boosting 算法最大迭代次数k ,并设定集成学习Boosting 算法所调用的弱学习算法;
[0024] 步骤3.2:规范化训练样本集S train ,并设定训练样本集S train 为集成学习Boosting 算法的原始数据样本集D ;
[0025] 步骤3.3:以ωf (l)为概率从原始数据样本集D 中抽取的样本集D f ,并由弱学习算法训练,得到弱学习机h f ;
[0026] 步骤3.4:计算弱学习机h f 的训练误差εf ;
[0027] 步骤3.5:计算弱学习机h f 的权重αf ;
[0028] 步骤3.6:更新原始数据样本集D 中训练样本的权重;
[0029] 步骤3.7:当满足下列两个条件之一,则执行步骤3.8;否则返回步骤3.3;
[0030] 条件1:集成学习Boosting 算法达到最大迭代次数k ;
[0031] 条件2:样本集D f 不再变化;
[0032] 步骤3.8:输出强学习机H 。
[0033] 所述训练误差εf 的计算公式为:
[0034]
[0035]
式中:
[0036] εf 为训练误差,f ∈[1,…,k];

本文发布于:2024-09-21 22:03:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/420790.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   入侵   学习   算法   集成
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议