一种故障分析方法和装置与流程



1.本发明涉及通信技术领域,特别是涉及一种故障分析方法和装置。


背景技术:



2.通信技术发展日新月异,运营商网络拓扑结构及业务类型复杂度日渐升高,告警种类和数量日趋增多,网络运维人员定位故障根因愈发困难,因此需要一种出告警中的根源告警以定位故障位置的方法。
3.现有技术中,主要通过对网络中告警进行监测、分析,结合网络中的通道信息,实现对传输网络的智能运维,这种方式需直接分析全网物理数据、拓扑数据、配置数据、告警数据等,常用的分析流程为获取数据-》清洗数据-》关联数据-》分析数据,其中关联数据需要与网络中其他资源数据建立关联,直接查询存储全网物理数据、拓扑数据、配置数据、告警数据等进行分析需要大量计算和存储资源,实际工程使用场景中存储计算资源获取不易,且关联后的数据扩充了原有告警数据列,导致需要分析的数据更多,需耗费大量计算和存储资源。还存在通过建立模型对告警进行故障分析的方法,而模型分析通常需要大量的计算过程,耗费大量的资源,影响到网络故障究因的实时性,这两种方法均无法满足在网络中出现大量告警时的故障定位需求。
4.鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。


技术实现要素:



5.本发明要解决的技术问题是提供一种现有技术的故障分析方法在处理网络中出现大量告警时需耗费大量的资源,系统开销大,且计算速度慢。
6.第一方面,本发明提供了一种故障分析方法,包括:
7.根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;
8.根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;
9.根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
10.根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
11.优选的,所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,具体包括:
12.根据业务基础信息,得到业务的层级关系;根据业务关联信息,得到业务之间的关联关系;
13.结合业务之间的关联关系和业务的层级关系,生成业务关联结构;
14.根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。
15.优选的,所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,具体包括:
16.根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构;
17.根据业务之间的关联关系,到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。
18.优选的,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:
19.根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警;
20.对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。
21.优选的,所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:
22.当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支;
23.当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。
24.优选的,所述并到告警的关联业务,具体包括:
25.在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息;
26.在获取网络中的所有告警时,根据告警字段,获取告警的关联业务;
27.若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。
28.优选的,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:
29.根据告警根衍关系,得到根源告警;
30.根据故障分析规则匹配所述根源告警,定位得到具体故障。
31.优选的,所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:
32.在告警数据中携带告警闪断标识和告警重复次数信息;
33.在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。
34.优选的,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。
35.第二方面,本发明还提供了一种故障分析装置,包括解析模块、关系分析模块和故障分析模块;
36.所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;
37.所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;
38.所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
39.第三方面,本发明还提供了一种故障分析装置,用于实现第一方面所述的故障分析方法,所述装置包括:
40.至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的故障分析方法。
41.第四方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的故障分析方法。
42.本发明通过将不因业务变动的物理故障告警根据告警根衍规则优先处理,使过滤得到配置故障告警,再根据业务对配置故障告警进行处理,使无需将每个故障与业务强关联,通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。
附图说明
43.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1是本发明实施例提供的一种故障分析方法的流程示意图;
45.图2是本发明实施例提供的一种故障分析方法中业务层级关系的示意图;
46.图3是本发明实施例提供的一种告警根衍规则的示意表图;
47.图4是本发明实施例提供的一种故障分析规则的示意表图;
48.图5是本发明实施例提供的一种故障分析方法的流程示意图;
49.图6是本发明实施例提供的一种故障分析方法中业务层级关系的示意表图;
50.图7是本发明实施例提供的一种故障分析方法中业务之间的关联关系示意表图;
51.图8是本发明实施例提供的一种故障分析方法中业务关联结构的示意表图;
52.图9是本发明实施例提供的一种故障分析方法的流程示意图;
53.图10是本发明实施例提供的一种故障分析方法中告警数据的示意表图;
54.图11是本发明实施例提供的一种故障分析系统的架构示意图;
55.图12是本发明实施例提供的一种故障分析系统的架构示意图;
56.图13是本发明实施例提供的一种故障分析系统中智能缓存单元的架构示意图;
57.图14是本发明实施例提供的一种故障分析方法中进行业务关联结构进行裁剪的示意图;
58.图15是本发明实施例提供的一种故障分析方法中业务生成树状结构的示意图;
59.图16是本发明实施例提供的一种故障分析方法中得到配置故障告警的示意图;
60.图17是本发明实施例提供的一种故障分析方法中树状结构裁剪的示意图;
61.图18是本发明实施例提供的一种故障分析装置的架构示意图。
具体实施方式
62.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
63.在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
64.此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
65.实施例1:
66.本发明实施例1提供了一种故障分析方法,如图1所示,包括:
67.在步骤201中,根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务。
68.其中,所述全量告警数据是通过在网络系统中实时获取告警的上报和变更消息得到的。
69.在步骤202中,根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系。
70.所述物理故障告警是由物理设备如单盘等发生故障所产生的告警。
71.在步骤203中,根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系。
72.所述配置故障告警是由于业务中的配置错误所产生的告警,当网络中的业务发生变动时,其衍生的告警也可能发生变动。
73.所述配置故障告警之间的关联关系主要指告警依托于业务之间的关系,而告警根衍关系主要指告警之间的衍生关系。
74.在步骤204中,将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的。
75.在步骤205中,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
76.所述告警根衍规则由本领域技术人员通过网络中告警之间的关系分析得出并预先存储的,所述故障分析规则由本领域技术人员根据告警与故障之间的关系分析并预先存储,所述故障分析规则根据告警根衍规则匹配生成。
77.在实际使用中,如果是物理设备产生的告警,比如单盘掉电等,会引起后续的一连串告警,端口收不到光信号,进而业务停止并开始倒换,比如端口收无光、业务中断、倒换告警,影响范围从物理层到逻辑层都有。在分析物理故障告警时,业务层次是可靠的,因为这些业务都是经过这一物理设备,物理设备的问题会影响到承载的业务,即物理故障告警之间的根衍关系不因业务而变动,故可通过告警根衍规则直接进行分析。
78.而配置故障告警,即根源告警发生在逻辑层的告警不影响物理设备,不会衍生出物理层告警,对于根源告警在逻辑层的告警,单纯的业务层次是不可靠的。如图2所示,其中每一行代表一个业务层次,在c业务、e业务和g业务上存在告警,c业务上所产生的告警为och的fec解码信号劣化,e业务和g业务上产生告警均为otu服务层信号失效,那么可以判断c业务为e业务的根告警,在业务结构中c业务并不是g业务的关联业务,所以c业务不是g业务的根告警,如果直接对关联业务这个字段分析,是无法应对这种场景的。故在本实施例中,根据业务之间的关系对配置故障告警进行分析,使告警的故障定位可靠。
79.本实施例通过将不因业务变动的物理故障告警根据告警根衍规则优先处理,使过滤得到配置故障告警,再根据业务对配置故障告警进行处理,使无需将每个故障与业务强关联,通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。
80.如图3所示,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。
81.如图4所示,所述故障分析规则,包括故障名称和根源告警名,还可能包括故障类型和故障所属的领域等故障信息。
82.所述根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:
83.根据告警根衍关系,得到根源告警。
84.根据故障分析规则匹配所述根源告警,定位得到具体故障。
85.本实施例通过对网络中的告警进行集中处理分析,先通过根衍规则到告警中不受业务变动影响的物理故障告警,并对物理故障告警进行分析,并剔除得到配置故障告警,结合业务之间的关系,对配置故障告警进行分析,使定位所有告警的故障,且通过将告警进行集中分析处理,使对多个存在关联关系的告警能够一同分析得到故障,从而提高了故障分析的效率,以满足在出现大量告警时实时的故障分析定位需求。
86.所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,如图5所示,具体包括:
87.在步骤301中,根据业务基础信息,得到业务的层级关系。
88.在步骤302中,根据业务关联信息,得到业务之间的关联关系。
89.在步骤303中,结合业务之间的关联关系和业务的层级关系,生成业务关联结构。
90.在步骤304中,根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。
91.其中,所述业务基础信息和业务关联信息通过查询网管基础数据得到的。当网络中业务发生变动时,对所述业务关联结构进行实时更新。
92.所述业务的层级关系如图6所示,包括业务id和业务上报位置所属的业务层次。
93.所述业务之间的关联关系如图7所示,包括服务层业务id和客户层业务id,所述服务层和客户层是相对的,如a业务是b业务的一部分,那么a就是b的服务层,b就是a的客户层。
94.本实施例还针对所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,提供了一种可选的实现方式,具体包括:
95.根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构。
96.根据业务之间的关联关系,到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。
97.其中,对于具有关联关系的两个业务,如a是b的服务层,b是a的客户层时,在业务的层级关系中,b业务所在的层级必定与a业务所在层级相邻,且b业务所在层级为a业务所在层级的上层,故到具有关联关系的两个业务a与b后,可直接将b作为a的子节点,生成对应的分支。
98.具体的:由业务层级关系和业务关联关系,可从一个最小层次业务出发,持续在业务关联关系中查该业务的客户层,直至在业务关联关系中到以该业务为服务层的所有业务。所述生成业务关联结构的过程具体包括:从一个最小的业务(例如spn网络的spn group层次)出发,到他的上层业务,再通过上层业务查到更上层的业务,最终形成业务关联结构。
99.所形成的业务关联结构如图8所示,包含业务id、业务层次、客户层业务id集合和服务层业务id集合,其中所述客户层业务id集合是以业务id所指代业务为服务层业务的所有业务的id的集合,所述服务层业务id集合是以业务id所指代业务为客户层业务的所有业务的id的集合。
100.作为一种具体的业务关联结构的实现方式,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:
101.根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警,对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。
102.为了保留更为完整的告警间关系,还存在以下优选的实施例,即所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:
103.当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支。
104.当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。
105.本实施例通过树状结构存储业务之间的关系,通过向树状的业务关联结构的各节点中填充告警的方式,使能够根据业务关系直接得到告警之间的关联关系。且在进行裁剪时,还通过无告警节点的上下游节点综合判断是否进行裁剪,以确保告警的路径关系完整。
106.所述并到告警的关联业务,如图9所示,具体包括:
107.在步骤401中,在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息。
108.在步骤402中,在获取网络中的所有告警时,根据告警字段,获取告警的关联业务。
109.在步骤403中,若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。
110.在实际情况中,告警通常存在重复上报或闪断,针对此问题,存在一种优选的实现方式,即所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:
111.在告警数据中携带告警闪断标识和告警重复次数信息。
112.在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。
113.所述告警数据中所包含的字段如图10所示,包括告警编号、定位源、上报类型、告警闪断标识、告警重复上报次数、发生时间。告警类型、告警代码和告警的关联业务。
114.其中,所述告警的关联业务是由网管系统计算并上报的,逻辑层告警的告警发生位置是在业务上,所以必会携带业务的信息,物理层告警则不一定。由于物理层告警是发生在具体的网元/单盘/端口上,有些物理设备不具备上报告警功能,会由其他设备来上报(如网元内电源盘的告警会由主控盘来上报),此时这个告警没有携带业务信息,但是会有上报的盘的id信息,通过查询有哪些业务经过这个盘,可以到这个告警关联的业务。
115.在本发明实施例中,第一、第二等限定性描述,并非是指代特定顺序含义,仅仅是为了让对应限定的对象能够从同类中脱离出来,并且是为了方便描述同类中不同的两个对象或者多个对象方便而加的限定,不应该将其解释出进一步限定意义。
116.实施例2:
117.本发明在提供了实施例1所描述的一种故障分析方法后,还提供了一种故障分析装置,如图11所示,包括解析模块、关系分析模块和故障分析模块;
118.所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;
119.所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的。
120.所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。
121.作为一种优选的实现方式,如图12所示,所述故障分析装置还包括过滤模块、智能缓存模块和分类模块。
122.所述过滤模块用于根据告警数据中的告警字段,过滤掉闪断告警和用户屏蔽告警。
123.所述分类模块用于将物理层告警和逻辑层告警分别存储,以便于进行告警的剔除操作。
124.所述智能缓存模块用于缓存故障分析中所需用到的告警根衍规则、告警根衍规则、业务之间的关系、全量告警数据等。智能缓存单元的作用是首次通过网管接口查询,并放到智能缓存单元中,后续这个周期内再次查到这个盘,就可以快速得到影响的业务。这也是由于物理层告警会应发较大范围的告警链,所以有比较大的概率多次会需要查这个盘的信息。从而提高查询的效率。
125.需要说明的是,在所述图12中,解析模块表现为解析器,关系分析模块表现为分析器,故障分析模块表现为匹配器,过滤模块表现为过滤器,智能缓存模块变现为智能缓存单元,分类模块表现为匹配器。
126.所述智能缓存模块如图13所示,包括对象业务缓存器、二极缓存器、规则缓存器。对象业务缓存器根据系统设置的切片时间选择缓存失效时间,采取0.5*切片时间的失效时间,上限为2分钟。二极缓存器包括告警-业务队列和业务-告警队列,其中告警-业务队列是全量的告警数据,主键字段为告警序号,其他信息中填充此告警影响的业务,业务告警队列中为逻辑层告警,主键为业务序号,保留完整的业务层级结构。规则缓存器是系统内所有根衍规则的缓存存储,有益于加速告警数据的分析。
127.下面将结合实施例1中的方法对所述故障分析装置中的各模块功能进行具体阐述,如图14所示,具体包括。
128.在步骤501中,预先初始化智能缓存模块,智能缓存模块内包括对象业务缓存器、二极缓存器、规则缓存器。对象业务缓存器根据系统设置的切片时间选择缓存失效时间,采取0.5*切片时间的失效时间,上限为2分钟。
129.二极缓存器包括告警-业务队列和业务-告警队列,其中告警-业务队列用于存储全量告警数据,包括告警序号、告警位置、告警类型和告警的关联业务等信息。业务-告警队列中用于存储逻辑层告警,包括业务序号和业务的关联告警。在规则缓存器中存储告警根衍规则。
130.在步骤502中,获取到的告警数据首先经过一个过滤模块,利用上报告警的字段过滤掉闪断告警和用户屏蔽告警,有效减少告警风暴发生时的无效告警,将过滤后的告警发送到解析模块中。
131.在步骤503中,如图15所示,组合业务基础信息和业务关联信息数据,将平铺的关联关系数据组合为树状结构(可理解为实施例1中的业务关联结构),从业务的基础数据中获得业务的层次,填入树状结构,放在智能缓存模块中,其中,图15中左上角的a-》c代表业务a与业务c之间的关联关系,即在该关系中,a为c的服务层,c为a的客户层,图15中左下角代表各业务所属的层级,如a业务属于spn层。
132.在步骤504中,解析模块收到告警,开始分析,首先根据告警字段定位上报位置类型,为告警打上网元/单盘/端口/业务的标签,其中网元/单盘/端口为物理层,业务为逻辑层。解析物理层告警时,如果告警信息中携带了告警关联的业务信息,直接使用此信息;如果没有携带或信息为空,需要实时查询此物理层的关联业务,通过智能缓存模块获取。
133.在步骤505中,分类模块获取解析后的数据,将所有告警放入告警-业务队列,将逻辑层告警放入业务-告警队列。
134.在步骤506中,关系分析模块根据时间切片从上游的两个队列中获取数据,首先分析告警-业务队列,获取规则缓存器中的告警根衍规则,根据告警根衍规则,分析告警-业务队列中的告警,得到部分告警的告警根衍关系,所述部分告警为物理故障告警,由于物理故障告警所需的业务关系固定,故在所述告警根衍关系中存储告警所需的业务关系,是直接通过根衍关系生成告警根衍关系。
135.将告警-业务队列中的分析结果发送到业务-告警队列中,剔除已识别的告警,得到配置故障告警,如图16所示。然后将配置故障告警填入业务树状结构,裁剪无告警路径节点,分析业务层告警关系,如图17所示。在裁剪无告警路径节点时,当节点为有告警节点时保留该节点,当节点为无告警节点,但节点上游下游均有告警节点时保留该节点。可以在保障不丢失告警路径关系的前提下,节省内存资源。
136.在步骤507中,合并分析结果,根据切片内的根告警和规则库中的故障规则得出故障场景,同时向智能缓存模块发送当前故障情况,当故障内为单根情况较多时,会在下一周期采用底层为lru的缓存器,多根情况较多时,会在下一周期采用底层为lfu的缓存器。
137.本实施例通过智能缓存模块将业务关系以树状结构的形式存储,并根据网络实时更新,使在进行告警故障分析时能够直接取用,而无需对网络拓扑数据等进行分析,且利用智能缓存模块,能够以更小的内存占用留存更多网络信息,使得系统在发生告警风暴时,仍然可以以较少的内存运行,保障了系统的稳定性。且通过到物理故障告警,并加以剔除,使在后续的告警分析中,减少了分析数据量,提高了告警故障分析的效率。
138.实施例3:
139.如图18所示,是本发明实施例的故障分析装置的架构示意图。本实施例的故障分析装置包括一个或多个处理器21以及存储器22。其中,图18中以一个处理器21为例。
140.处理器21和存储器22可以通过总线或者其他方式连接,图18中以通过总线连接为例。
141.存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的故障分析方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行故障分析方法。
142.存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
143.所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的故障分析方法,例如,执行以上描述的图1、图5和图9和图14所示的各个步骤。
144.值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
145.本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通
过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
146.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种故障分析方法,其特征在于,包括:根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。2.根据权利要求1所述的故障分析方法,其特征在于,所述根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系,具体包括:根据业务基础信息,得到业务的层级关系;根据业务关联信息,得到业务之间的关联关系;结合业务之间的关联关系和业务的层级关系,生成业务关联结构;根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系。3.根据权利要求2所述的故障分析方法,其特征在于,所述结合业务之间的关联关系和业务的层级关系,生成业务关联结构,具体包括:根据业务的层级关系,从网络的所有业务中,以层级最低的业务作为根节点,构建树状的业务关联结构;根据业务之间的关联关系,到以第一节点的业务作为服务层时,所对应的客户层业务,以所述客户层业务作为所述第一节点的子节点,在所述业务关联结构中生成对应的分支;其中,以所述业务关联结构中的每一个节点作为第一节点,生成对应的分支,直至所述业务关联结构中不再生成新的分支。4.根据权利要求3所述的故障分析方法,其特征在于,所述根据配置故障告警的关联业务和所述业务关联结构,生成配置故障告警之间的关联关系,具体包括:根据配置故障告警的关联业务,向所述业务关联结构的节点中填充所述节点的业务所对应的配置故障告警;对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,得到配置故障告警之间的关联关系。5.根据权利要求4所述的故障分析方法,其特征在于,所述对填充后的业务关联结构中,未填充配置故障告警的节点及分支进行裁剪,具体包括:当所述业务关联结构中的节点存在对应的配置故障告警时,保留所述节点所在的路径分支;当所述业务关联结构中的节点不存在对应的配置故障告警时,若所述节点的父节点存在告警,且所述节点的至少一个子节点存在告警,则保留所述节点所在的路径分支;否则,裁剪所述节点所在的路径分支。6.根据权利要求1所述的故障分析方法,其特征在于,所述并到告警的关联业务,具体包括:
在告警数据中的告警字段中携带告警的上报位置,并在告警数据中携带告警的关联业务信息;在获取网络中的所有告警时,根据告警字段,获取告警的关联业务;若在所述告警字段中未获取到告警的关联业务信息,则根据所述告警的上报位置,查询所述上报位置的关联业务,所述上报位置的关联业务即为告警的关联业务。7.根据权利要求1所述的故障分析方法,其特征在于,根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障,具体包括:根据告警根衍关系,得到根源告警;根据故障分析规则匹配所述根源告警,定位得到具体故障。8.根据权利要求1所述的故障分析方法,其特征在于,所述根据网络中的全量告警数据,获取网络中的所有告警,还包括:在告警数据中携带告警闪断标识和告警重复次数信息;在获取网络中的所有告警时,根据所述告警闪断标识过滤闪断告警,根据所述告警重复次数信息过滤重复上报的告警。9.根据权利要求1-8任一所述的故障分析方法,其特征在于,所述告警根衍规则具体包括根源告警层次、根源告警名、衍生告警层次和衍生告警名。10.一种故障分析装置,其特征在于,包括解析模块、关系分析模块和故障分析模块;所述解析模块用于根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;所述关系分析模块用于根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;其中,所述配置故障告警是由网络中的所有告警剔除物理故障告警得到的;所述故障分析模块用于根据故障分析规则,对物理故障告警之间的告警根衍关系和配置故障告警之间的告警根衍关系进行分析,定位到具体故障。

技术总结


本发明涉及通信技术领域,提供了一种故障分析方法和装置。其中所述方法包括:根据网络中的全量告警数据,获取网络中的所有告警,并到告警的关联业务;根据告警根衍规则,对网络中的所有告警进行匹配分析,到所有告警中的物理故障告警,并得到物理故障告警之间的告警根衍关系;根据业务之间的关系和配置故障告警的关联业务,生成配置故障告警之间的关联关系;将存在关联关系的配置故障告警与告警根衍规则进行匹配,得到配置故障告警之间的告警根衍关系;根据故障分析规则,定位到具体故障。本发明通过对两类故障告警的区别处理,提高故障分析的准确性的同时,减少分析过程中的资源和时间消耗。时间消耗。时间消耗。


技术研发人员:

赵昱

受保护的技术使用者:

烽火通信科技股份有限公司

技术研发日:

2022.08.29

技术公布日:

2022/11/25

本文发布于:2024-09-23 02:22:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/8421.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:业务   所述   故障   节点
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议