面向以太网的网络故障自动实时发现与定位方法

面向以太网的网络故障自动实时发现与定位方法
赵灿明;纪诗厚;石滚;田野
【摘 要】在网络应用已完全融入日常生产生活的今天,人们需要稳定、可靠的计算机网络,高效、准确地发现和定位网络故障,是提高网络可靠性的重要手段。现有的网络故障自动发现方法往往需要修改节点代码、控制节点行为来实现故障检测,而交换机等以太网设备通常并不具有可修改性。针对以太网故障的自动发现与定位问题,基于目前标准化交换机支持的简单网络管理协议SNMP(Simple Network Management Protocol)协议和管理信息库 MIB-2(Management Information Base)提出了“设备状态一致性检测算法”、“设备拥塞异常检测算法”等针对不同故障的检测算法。实验结果表明该故障检测算法对发现和定位以太网故障具有较高的效率和准确率。基于所提出的故障检测算法,该设计实现了一个故障发现与定位系统,并成功地在芜湖市国家电网计算机网络中部署运用。%Nowadays the network applications have been fully integrated into people’s daily life,the people require a stable and reliable computer network.To efficiently and accurately identify and locate network faults is the important means for improving networks reliability. However existing automatic network faults
detection methods usually need to modify nodes code or control nodes behaviour to realise the faults detection,but the switches and other Ethernet devices are not modifiable typically.In this paper,in light of automatic Ethernet faults detection and localisation issue,we proposed based on SNMP and MIB-2 which supporting the standardised switches the “device status consistency de-tection algorithm”,“device congestion anomaly detection algorithm”and other detection algorithms aimed at different Ethernet faults.Experi-mental results indicate that these algorithms could identify and locate Ethernet faults with high efficiency and accuracy.Based on these pro-posed algorithms we design and implement a detection and localisation system for Ethernet faults,and it is successfully deployed in computer networks of State Grid in Wuhu Power Supply Company.
【期刊名称】《计算机应用与软件》
【年(卷),期】2016(033)009
【总页数】5页(P101-105)
【关键词】网络故障;故障定位与检测;管理信息库(MIB)
【作 者】赵灿明;纪诗厚;石滚;田野
【作者单位】国网安徽省电力公司芜湖供电公司信通公司 安徽 芜湖 241000;国网安徽省电力公司芜湖供电公司信通公司 安徽 芜湖 241000;中国科学技术大学计算机科学与技术学院 安徽 合肥 230027;中国科学技术大学计算机科学与技术学院 安徽 合肥 230027
【正文语种】中 文
【中图分类】TP393
随着越来越多的互联网应用融入人们的日常生活,人们对网络的用户体验要求越来越高。使网络保持实时畅通是保证用户体验的前提,因此必须及时地检测并排除网络故障,网络故障的检测与排除是网络管理工作中很重要的一部分。如何高效准确地检测网络故障成为近年来网络故障研究中的一个热点和难点。
目前,关于网络故障检测算法的研究已有较多成果。Katzela等[1]提出了基于网络中通信实体间的网络依赖图进行网络故障检测和定位。Kandula等[2]提出了基于系统和程序产生的日志信息,模块依赖图和历史诊断结果来定位和诊断企业网络故障,并研发出一个称为NetMe
dic的故障检测系统。McCann[3]提出通过依赖图诊断网络系统故障,主要包括网络协议栈故障诊断和网络流故障诊断。虽然依赖图对故障的定位和检测具有较高的准确率,但是建立一个系统或网络的依赖图要求对该系统或网络很熟悉才能建立比较准确的依赖图,且随着网络拓扑的变化,网络依赖图也需要变化,但是保持网络依赖图的实时性也较难。Steinder等[4]提出了一种概率事件驱动故障定位技术,该技术使用概率症状故障地图作为故障传播模型,通过更新症状-解释变量,来确定可能出现该症状的集合。同时Steinder等[5]提出了通过贝叶斯推理技术以及系统的结构状态信息来定位网络故障。上述两个故障定位算法虽然模拟实验结果表明具有较高的准确率,但是算法比较复杂,工程实现具有一定的难度。蒋康明等[6]提出了基于主动探测的故障检测探测选择(PSFD)算法和故障定位探测选择(IFL)算法。其中的PSFD算法是在已有的贪婪算法上做了改进,IFL算法将现有的2种故障定位探测选择算法相结合,但算法的工程实用性难以保证。
同时对网络故障管理系统研发的相关研究也较多。马秀丽等[7]将开源规则引擎Drools应用于网络故障管理系统中。该系统采用数据挖掘的方法获取相关性规则,并分类存储在规则库中,然后通过规则引擎提供的API创建规则引擎对象,并加载规则库,自动实现对告警实例的相关性分析处理。王伟等[8]提出了一种基于专家系统的网络故障管理系统结构。把事件关
联和数据挖掘应用于网络故障管理,设计出了一个完整的基于规则的网络故障管理系统模型,它能够同时支持对关联规则和序列模式的推理[9]。结合专家系统的知识库和推理机,设计故障过滤和故障诊断模型[10]。Kompella等[11]提出基于风险模型和故障排除系统来定位网络故障。Zhang等[12]提出基于加权二分图的模型来定位网络故障。Feng等[13]将概率模型用于网络故障定位。然而,基于数据挖掘和概率模型研发的系统其准确率较难保证,且需要积累海量的网络设备日志进行分析,还有不同的厂商生产的网络设备的日志内容、格式不一样,有些网络设备甚至不产生日志。因此如果网络中新增加了不同厂商不同类型的网络设备,该设备的故障检测的实时性较难保证,同时不产生日志的网络设备的故障较难检测。
还有一些企业同时也开发了商用网络故障管理系统。如ManageEngine的OpManager系统[14],这是一款端到端的综合网络管理软件,可对企业网络内的网络设备、服务器、主机、WAN链路、应用及服务等IT基础设施实现全方位、可视化、统一集中监控和管理。IBM的Netcool Network Management系统[15]是一款具有拓扑发现、检测网络故障、配置网络等功能的系统。惠普的OpenView系统[16]是一款具有拓扑发现和故障管理等功能的系统。
本文基于目前标准化交换机支持的SNMP和MIB-2,提出了以太网故障检测方法。该方法通
过查询MIB-2中的相关变量和简单计算即可检测与定位以太网的一般性故障:链路拥塞、设备异常、设备状态不一致等,且实验结果表明该方法具有较高的效率和准确率。然后基于本文的故障检测方法设计和实现了以太网故障检测系统,并成功部署到芜湖市国家电网计算机网络中。
1.1 MIB变量说明
SNMP是一个用于IP网络设备管理标准的互联网协议。目前支持SNMP的网络设备包括:路由器、交换机、服务器、工作站、调制解调器、打印机等[23]。SNMP作为一个网络设备管理协议并没有定义哪些信息是网络设备应提供用于管理的,而MIB说明了设备管理的数据结构,使用对象标识符OID(Object Identifier)来唯一标识每个变量,这些变量可以通过SNMP协议来读取和赋值。本文使用的MIB变量如表1所示。
1.2 以太网故障发现与发现方法
首先形式化描述由以太网拓扑发现子系统获得的目标网络拓扑结构(以太网拓扑发现系统是基于文献[17]中的算法研发的)。对于发现的目标网络拓扑结构,用图G=(V,E)表示,其中u∈V
表示图中的一个节点,代表拓扑上的一台交换机,ui表示交换机u的第i个端口。e=(ui,vj)∈E表示图中的一条边,代表拓扑中连接交换机u的ui端口和交换机v的vj端口的一条链路。所有的交换机和链路构成目标网络链路层拓扑G=(V,E)。
1.2.1 设备状态一致性检测算法
以太网交换机状态一致性检测算法如算法1所示。目标网络中交换机状态一致性检测主要包括:
• 交换机端口状态检测:对目标网络中的所有交换机,对该交换机出现在拓扑中的所有端口,查询其ifOperStatus值为1,表明端口正在工作;否则,报警。
• 交换机STP协议版本一致性检测:对目标网络中的所有交换机,查询其dot1dStpProtocolSpecification取值应一致;否则,报警。
• 交换机工作方式一致性检测:对目标网络中的所有交换机,获取其dot1dTpPortTable全为空,或者其dot1dSrPortTable全为空;否则,报警。
• 交换机源路由协议版本一致性检测:如果网络中所有交换机工作于源路由模式,则查询所有交换机的dot1dSrBridgeLfMode取值应一致;否则,报警。

本文发布于:2024-09-20 12:25:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/808561.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   故障   网络故障   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议