基于数据挖掘的入侵检测

第23卷第ll 期  计算机应用与软件
VoI.23,No.ll
2006年ll 月  Computer AppIications and Software NoV.2006
基于数据挖掘的入侵检测
蒋云燕        成长生
(东华大学计算机学院 上海20005l )  (东华大学网络学院 上海20005l )
收稿日期:2005-0l -27。蒋云燕,硕士,主研领域:网络安全。
摘 要  本文介绍了入侵检测的一些基本概念,以及如何将数据挖掘应用于入侵检测;着重于阐述针对网络和针对主机的安全审计数据进行数据挖掘,以发现异常。
关键词  数据挖掘 入侵检测 安全审计数据
DATA MINING APPROACHES FOR INTRUSION DETECTION
电机技术Jiang Yunyan l  Cheng Changsheng 2
1(College of Computer Science and Technology ,Donghua Uniuersity ,Shanghai 200051,China )
2
(College of Network Education ,Donghua Uniuersity ,Shanghai 200051,China )
Abstract  This paper proVides the basic concepts of Intrusion Detection.And we aIso discuss how to use data mining to approach for intru-sion detection.The key ideas are to use data mining technigues to approach for intrusion detection.Keywords  Data mining (DM ) Intrusion detection Audit data
1 引 言
随着计算机网络系统在当今社会扮演的角变得日益重要,网络已经成为了犯罪分子的攻击目标。因此,必须到一种较好的方法来尽可能地保护现有的网络系统。
入侵是“试图危及某一资源的完整性、机密性或有效性的一系列行为”[l ]
。入侵预防技术,例如用户签名(使用密码或生物测定学),避免程序错误,消息保护,使用防火墙
等,已经作为第一线的防卫被用于保护计算机系统。但是,单纯的入侵预防并不充分,因为当系统变得相当复杂的时候,由于设计和规划所产生的错误或不同的渗透技术,系统中总会存在着可被攻击的薄弱环节。既然现有的技术无法实现完全的防止入侵,那么只能希望在系统遭受攻击之后,能够尽快地检测出这个入侵,甚至是实时的,这样就能采取相应的措施来对付入侵。“入侵检测被认为是防火墙之后的第二道安全闸门。”[2]
入侵监测技术是为保证计算机系统的安全而设计与配置的一种能够及时发现并报告系统中未授权或异常现象的技术,是一种用于监测计算机网络中违反安全策略行为的技术。入侵监测系统能够识别出任何不希望有的活动,这种活动可能来自于网络外部和内部。
入侵检测的基本原理是:在一个目标系统中保护资源,也就是说,用户账号,文件系统,系统核等;这些资源都被标记为nor-maI 或Iegitimate ;所有的实际的系统行为与已制定的模型相比,以鉴别哪些是异常的和入侵的。入侵检测的目的就是要在提取到的庞大数据中到入侵的痕迹。
由于用户的数据都表现为数据形式,所以,解决入侵检测现存缺点的核心问题是如何高效地处理收集到的大量数据,并从中得出结论。
2 基于数据挖掘的入侵检测
数据挖掘就是从大量的数据中提取或“挖掘”知识[3]
。它
本身是一种通用的知识发现技术,其目的是在海量数据中提取出有价值的数据信息(知识)。
基于数据挖掘的入侵检测方法,首先是由哥伦比亚大学的
Wenke Lee 提出的,在其一系列的研究论文[4~6]
中,详细阐述了
针对基于网络的审计数据和基于主机的系统调用数据,利用数据挖掘算法进行特征提取、相关分析和智能化的数据分类等方法,以完成入侵检测的目的。
在入侵检测系统中使用数据挖掘技术,最大的优点就是能实时地处理海量数据,并及时发现攻击;不但能使系统可以检测出以前从未出现过的攻击方法,而且大大减小了系统的误检率。
2.1 数据挖掘应用于入侵检测
将数据挖掘技术应用于入侵检测领域,主要是利用数据挖掘中的数据分类(Data CIassification )、关联分析(Mining Associa-tion RuIes )和序列模式挖掘(Mining SeguentiaI Patterns ),对来自不
同数据源(网络或主机)的安全审计数据进行智能化的分析处理,通过提取数据本身存在的规律性,帮助系统生成入侵检测规则及建立异常检测模型,最大限度地降低在处理安全审计数
据时对先验知识的要求[4]。目的是要建立一种基于数据挖掘
的入侵检测方法,其中包括针对安全事件审计数据的数据采集、数据准备和预处理、特征变量选取、数据挖掘、挖掘结果处理以及结果可视化等一系列的过程。其中数据挖掘是整个过程的关
第11期蒋云燕等:基于数据挖掘的入侵检测
键。
其基本框架是:首先从审计数据中提取特征,以帮助区分正常数据和攻击行为;然后将这些特征用于模式匹配或异常监测模型;接着描述一种人工异常产生方法,来降低异常监测算法的误报率;最后提供一种结合模式匹配和异常监测模型的方法。实验表明,上述方法能够提高系统的监测率,而不会降低任何一种监测模型的效能。在此技术基础上,实现了数据挖掘的实时IDS则是由引擎、监测器、数据仓库和模型产生四部分构成,如图1所示。其中,引擎观察原始数据并计算用于模型评估的特征;监测器获取引擎的数据并利用监测模型来评估它是否是一个攻击;数据仓库被用作数据和模型的中心存储地;模型产生的主要目的是为了加快开发以及分发新的入侵监测模型的速度。
语音学
图1 基于数据挖掘的IDS体系结构
!.!"基于数据挖掘的入侵检测的分类
从Wenke Lee提出基于数据挖掘的入侵检测的理念至今,对于数据挖掘应用于入侵检测的研究根据其数据源的不同主要都集中在基于网络的数据挖掘实现入侵检测和基于主机的数据挖掘实现入侵检测两个方面。
针对网络数据,主要的做法是使用网络服务端口作为网络连接记录的类型标识,根据大量的正常连接记录生成各个服务类型的分类模型,在测试过程中根据分类模型对当前的连接记录进行分类,并与实际服务类型进行比较,从而判断出该分类模型的准确性。
针对主机数据,主要是通过对系统调用进行序列分析,然后预测随后发生的系统调用序列,并对结果进行了进一步的抽象分析以降低算法的预测误差。
#"基于网络数据源和主机数据源的数据挖掘实现入侵检测
#.$"基于网络数据源
首先将网络中传输的数据包还原成基于传输层的连接记录,从中提取出可以用于对传输层连接记录进
行分类的特征属性。对于在传输层无法判断的连接记录,则进行高层的协议解析,分解为相应的FTP、TeInet、HTTP会话,针对每一种高层协议,提取出可以用于判断的特征属性。针对各种已知的攻击手段,利用数据挖掘分类算法(判定树归纳分类,贝叶斯分类等),通过对包含特定攻击手段的训练数据的机器学习,挖掘出对应的分类规则,用于对实际网络中的连接(会话)记录进行分类。
针对网络数据源,另一部分工作是对用户行为的异常检测。异常检测的关键问题在于正常使用模式的建立以及如何利用该模式对当前用户行为进行比较和判断。
网络系统中,主机通常具备高速的计算能力、大容量的存储设备、高性能的系统吞吐率、庞大的系统数据库以及其它软硬件资源。为了节省开支和充分利用主机的资源,通常由主机向外提供TeInet服务,为用户访问系统资源提供便捷的方式。目前,实验中所进行的用户行为异常检测主要针对于TeInet会话过程中用户所执行的SheII命令。
事实上,要从单一的事件来判断用户是否异常是非常困难的,应该对用户在一次会话过程中的所有行为进行全面的考察,才能在某种程度上鉴别用户的行为模式。实验的目的就是通过在训练阶段中,根据用户在TeInet会话过程中提交的SheII命令,应用数据挖掘中的关联分析和序列挖掘,提取用户所执行命令中存在的相关性和规律,针对每个用户构建其正常的行为模式。然后在实际检测过程中,对用户的每一次TeInet会话都挖掘出其中包含的当前模式,将当前模式和历史模式进行比较,计算出两者CHF
的相似度。相似度越高,说明该用户的当前行为模式与历史模式越吻合,出现异常的可能性也就越小。图2给出了简单的示意图。
图2 用户行为模式的异常检测
实验中使用了数据挖掘中的Apriori算法对用户行为模式进行挖掘寻关联规则。例如通过对用户历史数据的分析,发现了如下的规则:
1)USerIP(10.86.0.158)!HoStIP(218.78.201.60)
2)USerIP(10.86.0.158)!Param(.doc)
从规则中可知,用户IP地址是10.86.0.158访问服务器IP 地址是218.78.201.60,对.doc为后缀名的文件进行操作。
规则的支持度和置信度是关联规则的两个关键属性,对于A!B的蕴涵式,采用的支持度和置信度的计算公式为:支持度:Support(A!B)=P(A"B)
置信度:confidence(A!B)=P(B I A)
依照以上挖掘出来的规则,如果发现有用户IP为10.86.0. 169访问主机218.78.201.60,或者发现IP地址为10.86.0.158的用户访问了后缀名为.doc以外的文件,则可以判断出用户行为出现了某种异常。
#.!"基于主机数据源
安全审计数据另一个重要的来源是操作系统。安全审计是一个安全的网络必须支持的功能特性,它记录用户使用计算机网络系统进行所有活动的过程,是提高安全性的工具。审计信息中记录了包括:谁访问了系统,系统正被怎样使用等,对于判断网络是否被攻击有着很重要的作用。其具体过程如图3所示。
图3 基于主机数据源数据挖掘的入侵检测过程
任何一种进程都是一段程序,如果一段程序完全没有if-eISe这类选择语句和whiIe等循环语句,那么这段程序所产生的系统调用一定是完全固定的,如果该进程受到攻击,例如由于缓冲区溢出转而执行“/bin/Sh”,必然会打乱正常的系统调用,从而可以通过对系统调用序列的分析检测出来。如果把选择语句和循环语句考虑进来,从中可以发现,虽然整个程序产生的系统调用具有一定的随机性,但是如果将系统调用序列划分为一定
52
1
计算机应用与软件2006年
窗口大小的子序列,这些子序列仍然具有相当的稳定性。
最早的序列匹配算法是由新墨西哥大学的Stephanie Forrest
提出的短序列匹配算法,这种算法只考虑了系统调用在时间上
的次序,没有考虑调用的参数,Stephanie Forrest统计一串系统
调用中不匹配的短序列的个数或者百分比,如果超出某个给定
的门限值就认为是异常。虽然这个算法本身的思想非常简单,
但是提出了一个重要的思想。
根据Stephanie Forrest的理论,笔者提出了自己的算法,对
于待检测的数据,使用大小为的时间段划分数据,在每一个窗
口中有个状态(
l ,
2
,…,)下的公式:
2(,)=(-)-l(-)
设是新出现的特征属性矢量,是系统预测出的特征属性矢量。-l是=(,)的反函数,和分别指的是第时刻和第时刻预测矢量的元素。
(,)#l0((!!))此处,应该小于256,!是测试数据中的样品数据,!是标准差。
该算法应用的具体步骤如下:
邓景辉
l)以时间为轴取到+-l这段时间的数据;
2)预测得出下一时刻特征属性;
3)以时间为轴取+l到+这段时间的数据;
4)计算得出这一时刻的特征属性;
5)调用上述算法,最终得出异常度。
这一算法可以让系统在自学习中挖掘数据、总结规则、定义门限,这样通过序列异常度就可以判断是否为入侵。通过测试证明,使用这一算法使系统的检全率提高了5%左右。!"总结与展望
将数据挖掘技术应用于入侵检测的理论,其技术上的难点主要在于如何根据具体应用的要求,提取出可以有效反映系统特性的特征属性,应用合适的算法进行数据挖掘。技术难点还存在于结果的可视化,以及如何将挖掘结果自动地应用到实际的入侵检测系统中。这方面的研究,包括整个将数据挖掘技术运用于入侵检测的研究,总体都停留在理论研究的阶段,对于实际应用尚需要进一步的努力。
参考文献
[l]R.Heady,G.Luger,A.Maccabe,and M.ServiIIa,“The architecture of a network IeveI intrusion detection system”,TechnicaI report,Computer Science Department,University of New Mexico,August l990.
[2]张世永主编,网络安全原理与应用,科学出版社,January2004,pp.3l9~349.[3]Jiawei Han、MicheIine Kamber、范明、孟小峰等译,数据挖掘概念与技术,机械工业出版社,January200
3.
[4]Wenke Lee,
“A Data Mining Framework for Constructing Features and Mod-eIs for Intrusion Detection Systems”,PhD thesis,CoIumbia University,l999.[5]Wenke Lee,S.J.StoIfo,“Data mining approaches for intrusion dete-cion”.In Proceedings of the7th USENIX Security Symposium,San An-tonio,TX,January l998.
[6]Wenke Lee,S.J.StoIfo,and K.W.Mok.“A data mining framework for buiIding intrusion detection modeIs”,In Proceedings of the l999IEEE Symposium on Security and Privacy,May l999.
[7]连一峰,分布式入侵检测系统研究,中国科学技术大学博士学位论文,2002.
62l
基于数据挖掘的入侵检测
作者:蒋云燕, 成长生, Jiang Yunyan, Cheng Changsheng
作者单位:蒋云燕,Jiang Yunyan(东华大学计算机学院,上海,200051), 成长生,Cheng Changsheng(东华大学网络学院,上海,200051)
刊名:
计算机应用与软件
英文刊名:COMPUTER APPLICATIONS AND SOFTWARE
年,卷(期):2006,23(11)
被引用次数:4次
1.R Heady;G Luger;A Maccabe;M.Servilla The architecture of a network level intrusion detection system 1990
2.张世永网络安全原理与应用 2004
3.Jiawei Kan;Micheline Kamber;范明;孟小峰数据挖掘概念与技术 2003
4.Wenke Lee A Data Mining Framework for Constructing Features and Models for Intrusion Detection Systems 1999
5.Wenke Lee;S J Stolfo Data mining approaches for intrusion detecion 1998
网路管理6.Wenke Lee;S J Stolfo;K W Mok A data mining framework for building intrusion detection models[外文会议] 1999
7.连一峰分布式入侵检测系统研究[学位论文] 2002
1.龙涛.洪帆.孙伶俐.LONG Tao.HONG Fan.SUN Ling-li基于移动代理的网络安全审计策略[期刊论文]-计算机应用研究2008,25(7)
2.徐连诚.陈晶网络安全审计与计算机取证系统的设计[期刊论文]-科技信息(学术版)2008(16)
3.杨超峰.刘庆云.刘利军.YANG Chaofeng.LIU Qingyun.LIU Lijun多层次网络安全强审计模型BrosaAudit[期刊论文]-计算机工程2006,32(10)
4.黄水源.周理凤.段隆振.黄龙军.Huang Shuiyuan.Zhou Lifeng.Duan Longzhen.Huang Longjun数据挖掘技术在入侵检测中的应用[期刊论文]-微计算机信息2006,22(24)
5.吴伟杰.范辉华.丁明君.祝凤杰涉密网络安全审计技术研究[会议论文]-2008
6.王保云.杨英杰.常德显.吴蓓.WANG Bao-yun.YANG Ying-jie.CHANG De-xian.WU Bei一种安全审计事件时空逻辑关系可视化方法[期刊论文]-计算机工程2009,35(2)
7.王旭仁.何发镁.WANG Xu-ren.HE Fa-mei基于Na(i)ve Bayes分类的网络安全审计数据分析研究[期刊论文]-计算机工程与应用2007,43(31)
8.姜染石在蜜罐中应用数据挖掘的研究[学位论文]2007
9.翟继强.乔佩利.ZHAI Ji-qiang.QIAO Pei-li蜜罐信息采集技术分析[期刊论文]-哈尔滨理工大学学报2007,12(3)
10.张军.杨帆.ZHANG Jun.YANG Fan数据挖掘技术在入侵检测系统中的应用现状及展望[期刊论文]-河南农业大学学报2006,40(4)
1.吴冬妮基于关联规则的入侵检测方法[期刊论文]-凯里学院学报 2012(3)
抗体亲和力2.江巧洪异常入侵检测中聚类算法的改进与应用[期刊论文]-福建电脑 2009(7)
3.耿风数据挖掘算法在入侵检测中的应用分析[期刊论文]-内江科技 2013(5)
4.王霞基于智能Agent和数据挖掘技术的蜜罐系统的研究[期刊论文]-电脑知识与技术 2008(14)

本文发布于:2024-09-24 05:22:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68442.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:入侵   检测   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议