异常数据检测方法、装置、设备及存储介质与流程



1.本技术涉及通信领域,尤其涉及一种异常数据检测方法、装置、设备及存储介质。


背景技术:



2.近年来,随着通信技术的发展,通信网络中出现了大量的网络数据。例如,有网络配置数据、性能数据、业务数据、异常数据等。
3.目前,在对通信网络数据中的异常数据进行检测时,需要先将通信网络数据按照时间顺序排列,生成时间序列数据。之后,运维人员对时间序列数据中的数据进行逐一分析,检测时间序列数据中的异常数据。但是,上述技术方案中,在通信网络数据的数据量较大时,增加了运维人员对通信网络数据进行分析的工作量,进而增加了检测通信网络数据中的异常数据的时间,导致检测异常数据的效率较低。


技术实现要素:



4.本技术提供一种异常数据检测方法、装置、设备及存储介质,用于解决检测异常数据的效率较低的问题。
5.为达到上述目的,本技术采用如下技术方案:
6.根据本技术的第一方面,提供一种异常数据检测方法。该方法包括:
7.异常数据检测装置(可以简称为“检测装置”)获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个第一数据集包括多种类型的数据。检测装置根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。检测装置根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。检测装置根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。检测装置从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。
8.可选的,上述“检测装置根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例”的方法,包括:检测装置根据预设异常阈值和第一系数,确定多种类型中每种类型对应的异常数据。检测装置根据每种类型对应的异常数据、每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集,一个第二异常数据集包括一个历史时刻下多种类型中每种类型对应的异常数据,多个第一数据集与多个第二异常数据集相对应。检测装置对于每个第一数据集,根据第一操作确定每个第一数据集的异常数据比例,第一操作包括:检测装置根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定第一子数据集的异常数据比例,第一子数据集为多个第一数据集中任一数据集,第一子异常数据集为多个第二异常数据集中,与第一子数据集对应的历史时刻相同的数据集。
9.可选的,上述“检测装置从多个第一异常数据集中确定目标异常数据集”的方法,包括:检测装置从多个第一异常数据集中确定多个第三异常数据集,第三异常数据集中真实的异常数据的占比大于预设真实比例阈值,一个第三异常数据集对应一个第一异常数据
集。检测装置从多个第三异常数据集中确定目标异常数据集,目标异常数据集为多个第三异常数据集之间的并集。
10.可选的,上述“检测装置从多个第一异常数据集中确定多个第三异常数据集”的方法,包括:检测装置对于多个第一异常数据集,根据第二操作从多个第一异常数据集中确定多个第三异常数据集,第二操作包括:检测装置获取目标比例,目标比例为第二子异常数据集中真实的异常数据的占比,第二子异常数据集为多个第一异常数据集中任一数据集。若目标比例大于预设真实比例阈值,则检测装置将第二子异常数据集作为第三异常数据集。若目标比例小于预设真实比例阈值,则检测装置根据目标比例、第二子异常数据集对应的第一数据集的异常数据比例、第二子异常数据集对应的第二系数、预设异常阈值,确定第四异常数据集,并对第四异常数据集执行第二操作,第四异常数据集包括第二子异常数据集中的异常数据。
11.根据本技术的第二方面,提供一种异常数据检测装置,该装置包括获取模块和处理模块。
12.获取模块,用于获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个第一数据集包括多种类型的数据。处理模块,用于根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。处理模块,还用于根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。处理模块,还用于根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。处理模块,还用于从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。
13.可选的,处理模块,还用于根据预设异常阈值和第一系数,确定多种类型中每种类型对应的异常数据。处理模块,还用于根据每种类型对应的异常数据、每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集,一个第二异常数据集包括一个历史时刻下多种类型中每种类型对应的异常数据,多个第一数据集与多个第二异常数据集相对应。处理模块,具体用于对于每个第一数据集,根据第一操作确定每个第一数据集的异常数据比例,第一操作包括:根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定第一子数据集的异常数据比例,第一子数据集为多个第一数据集中任一数据集,第一子异常数据集为多个第二异常数据集中,与第一子数据集对应的历史时刻相同的数据集。
14.可选的,处理模块,具体用于从多个第一异常数据集中确定多个第三异常数据集,第三异常数据集中真实的异常数据的占比大于预设真实比例阈值,一个第三异常数据集对应一个第一异常数据集。处理模块,具体用于从多个第三异常数据集中确定目标异常数据集,目标异常数据集为多个第三异常数据集之间的并集。
15.可选的,处理模块,具体用于对于多个第一异常数据集,根据第二操作从多个第一异常数据集中确定多个第三异常数据集,第二操作包括:获取目标比例,目标比例为第二子异常数据集中真实的异常数据的占比,第二子异常数据集为多个第一异常数据集中任一数据集。若目标比例大于预设真实比例阈值,则将第二子异常数据集作为第三异常数据集。若目标比例小于预设真实比例阈值,则根据目标比例、第二子异常数据集对应的第一数据集的异常数据比例、第二子异常数据集对应的第二系数、预设异常阈值,确定第四异常数据集,并对第四异常数据集执行第二操作,第四异常数据集包括第二子异常数据集中的异常
数据。
16.根据本技术的第三方面,提供一种异常数据检测装置,该装置包括:处理器和存储器。处理器和存储器耦合。存储器用于存储一个或多个程序,该一个或多个程序包括计算机执行指令,当该异常数据检测装置运行时,处理器执行该存储器存储的该计算机执行指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的异常数据检测方法。
17.根据本技术的第四方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述第一方面和第一方面的任一种可能的实现方式中所描述的异常数据检测方法。
18.根据本技术的第五方面,提供一种计算机程序产品,包括计算机程序,当其计算机程序被处理器执行时,使得计算机实现如第一方面和第一方面的任一种可能的实现方式中所描述的异常数据检测方法。
19.上述方案中,异常数据检测装置、计算机设备、计算机存储介质或者计算机程序产品所能解决的技术问题以及实现的技术效果可以参见上述第一方面所解决的技术问题以及技术效果,在此不再赘述。
20.本技术提供的技术方案至少带来以下有益效果:检测装置获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个第一数据集包括多种类型的数据。之后,检测装置根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。之后,检测装置根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。之后,检测装置根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。之后,检测装置从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。也就是说,检测装置可以根据多个历史时刻中每个历史时刻对应的数据集的异常数据比例、预设异常阈值和第一系数,确定多个异常数据集,并将多个异常数据集之间的并集的异常数据作为待检测数据集中的异常数据。如此,不仅可以提高检测异常数据的效率,而且可以保障检测到的异常数据为真实的异常数据,提高了异常数据的准确性。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理,并不构成对本技术的不当限定。
22.图1为本技术实施例提供的一种通信系统的示意图;
23.图2为本技术实施例提供的一种异常数据检测方法的流程图;
24.图3为本技术实施例提供的另一种异常数据检测方法的流程图;
25.图4为本技术实施例提供的另一种异常数据检测方法的流程图;
26.图5为本技术实施例提供的另一种异常数据检测方法的流程图;
27.图6为本技术实施例提供的一种异常数据检测装置的结构框图;
28.图7为本技术实施例提供的一种异常数据检测设备的结构示意图;
29.图8为本技术实施例提供的一种计算机程序产品的概念性局部视图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
31.本文中字符“/”,一般表示前后关联对象是一种“或者”的关系。例如,a/b可以理解为a或者b。
32.本技术的说明书和权利要求书中的术语“第一”和“第二”是用于区别不同的对象,而不是用于描述对象的特定顺序。
33.此外,本技术的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括其他没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
34.另外,在本技术实施例中,“示例性的”、或者“例如”等词用于表示作例子、例证或说明。本技术中被描述为“示例性的”或“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、或者“例如”等词旨在以具体方式呈现概念。
35.在对本技术实施例的异常数据检测方法进行详细介绍之前,先对本技术实施例的实施环境和应用场景进行介绍。
36.首先,对本技术实施例的应用场景进行介绍。
37.本技术实施例的异常数据检测方法应用于检测数据中的异常数据的场景中。在相关技术中,在对通信网络数据中的异常数据进行检测时,需要先将通信网络数据按照时间顺序排列,生成时间序列数据。之后,运维人员对时间序列数据中的数据进行逐一分析,检测时间序列数据中的异常数据。
38.示例性的,通信网络数据包括数据a、数据b和数据c。其中数据a对应时刻a,数据b对应时刻b,数据c对应时刻c。对数据a、数据b和数据c按照时刻a-时刻b-时刻c的时间顺序进行排列,生成时间序列数据:数据a-数据b-数据c。之后,运维人员对数据a-数据b-数据c中的数据进行逐一分析,检测数据a-数据b-数据c中的异常数据。
39.综上,目前的技术方案中,在通信网络数据的数据量较大时,增加了运维人员对通信网络数据进行分析的工作量,进而增加了检测通信网络数据中的异常数据的时间,导致检测异常数据的效率较低。
40.为了解决上述问题,本技术实施例提供一种异常数据检测方法,网络设备获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的多种类型的数据(即第一数据集),并根据预设异常阈值和第一系数,从每个第一数据集中确定多个异常数据(即第二异常数据集)。之后,网络设备根据多个第二异常数据集中的数据数量、该第二异常数据集对应的第一数据集中的数据数量和第一系数,确定多个第二系数。之后,网络设备根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。之后,网络设备从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。如此一来,不仅可以提高检测异
常数据的效率,而且可以保障检测到的异常数据为真实的异常数据,提高了异常数据的准确性。
41.下面对本技术实施例的实施环境进行介绍。
42.图1为本技术实施例提供的一种通信系统示意图,如图1所示,该通信系统可以包括:网络设备(如服务器101或)和至少一个(如102、103)。其中,102(或103)可以向服务器101发送待检测数据集。之后,服务器101可以接收到来自102(或103)的待检测数据集,并且,服务器101可以确定待检测数据集中的异常数据。
43.在一些实施例中,服务器101与102、103可以进行有线/无线通信。
44.例如,服务器101可以通过卫星通信与102、103进行通信。又例如,服务器101可以通过扩频微波通信与102、103进行通信。又例如,服务器101可以通过数传电台通信与102、103进行通信。
45.其中,(如102)可以包括各种形式的,例如:宏,微(也称为小站),中继站,接入点等。具体可以为:是无线局域网(wireless local area network,wlan)中的接入点(access point,ap),全球移动通信系统(global system for mobile communications,gsm)或码分多址接入(code division multiple access,cdma)中的(base transceiver station,bts),也可以是宽带码分多址(wideband code division multiple access,wcdma)中的(nodeb,nb),还可以是lte中的演进型(evolved node b,enb或enodeb),或者中继站或接入点,或者车载设备、可穿戴设备以及未来第五代移动通信技术(5th generation mobile communication technology,5g)网络中的下一代节点b(the next generation node b,gnb)或者未来演进的公用陆地移动网(public land mobile network,plmn)网络中的等。
46.在介绍了本技术实施例的应用场景和实施环境之后,下面结合上述实施环境,对本技术实施例提供的异常数据检测方法进行详细介绍。
47.以下实施例中的方法均可以在具有上述应用场景中实现。以下实施例中以服务器为执行主体为例,结合说明书附图对本技术实施例进行具体说明。
48.图2是根据一示例性实施例示出的一种异常数据检测方法的流程图。如图2所示,该方法可以包括s201-s205。
49.s201、服务器获取待检测数据集。
50.其中,待检测数据集可以包括:多个历史时刻中每个历史时刻对应的第一数据集。第一数据集可以包括多种类型的数据。
51.需要说明的是,本技术实施例对数据的类型不作限定。例如,多种类型的数据可以包括:能耗数据、信号发射功率、信号传输速率和用户终端数量等。
52.在一种可能的实现方式中,服务器可以周期性获取待检测数据集。
53.示例性的,服务器可以以一天(即每天00:00到24:00)为一个时间周期,并设置时间间隔,确定多个历史时刻。之后,服务器可以选取多个历史时刻中每个时刻对应的数据作为第一数据集。或者,服务器可以每间隔一个预设时段,获取一次数据,每次获取的数据为一个第一数据集。
54.示例性的,如表1所示,其示出了以一天(24小时)为一个时间周期、时间间隔为4小时的待检测数据集。待检测数据集包括多个历史时刻和多个第一数据集。其中,多个历史时
刻可以包括:04:00、08:00、12:00、16:00、20:00和24:00,在04:00时,信号发射功率为12瓦特,信号传输速率为3比特/秒,用户终端数量为1个,即04:00对应的第一数据集包括12、3、1。同理,08:00对应的第一数据集包括5、3、4,12:00对应的第一数据集包括7、9、6,16:00对应的第一数据集包括14、12、10,20:00对应的第一数据集包括16、15、17,24:00对应的第一数据集包括1、17、2。
55.表1待检测数据集
[0056][0057]
可选的,服务器可以根据数据的类型将待检测数据集确定为多个第二数据集,一个第二数据集可以包括不同时刻对应的同一种类型的数据。
[0058]
示例性的,结合表1,信号发射功率在04:00、08:00、12:00、16:00、20:00和24:00分别为12瓦特、5瓦特、7瓦特、14瓦特、16瓦特和1瓦特,则信号发射功率对应的第二数据集为12、5、7、14、16、1。同理,信号传输速率对应的第二数据集为3、3、9、12、15、17,用户终端数量对应的第二数据集为1、4、6、10、17、2。
[0059]
s202、服务器根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。
[0060]
在本技术实施例中,第一数据集的异常数据比例为第一数据集中异常数据的数据数量与第一数据集的数据数量之间的比值。
[0061]
示例性的,第一数据集包括数据a、数据b和数据c。其中,数据a和数据c为异常数据,则第一数据集的异常数据比例为
[0062]
在一些实施例中,如图3所示,该异常数据检测方法中,s202可以包括s301-s303。
[0063]
s301、服务器根据预设异常阈值和第一系数,确定多种类型中每种类型对应的异常数据。
[0064]
在一种可能的设计中,预设异常阈值可以通过四分位距(interquartile range,iqr)得到。服务器可以将第一类型的数据按照由小到大的顺序排列,并将排列之后的数据分成四等份,确定处于三个分割点的位置的数据,第一类型为多种类型中任一类型。
[0065]
在一种可能的设计中,三个分割点的位置可以分别通过公式一、公式二和公式三表示。
[0066][0067]
[0068][0069]
其中,q1用于表示第一分割点的位置,q2用于表示第二分割点的位置,q3用于表示第三分割点的位置,n用于表示数据数量。
[0070]
之后,服务器根据处于第一分割点的位置的数据和处于第三分割点的位置的数据,确定第一类型的数据对应的预设异常阈值。其中,预设异常阈值为第一分割点的位置对应的数据与第三分割点的位置对应的数据之间的差值。
[0071]
示例性的,如表2所示,其示出了以一天(24小时)为一个时间周期、时间间隔为1.6小时的待检测数据集。待检测数据集包括多个历史时刻和多个第一数据集。其中,多个历史时刻可以包括:01:36、03:12、04:48、06:24、08:00、09:36、11:12、12:48、14:24、16:00、17:36、19:12、20:48、22:24和24:00,在01:36时,在01:36时,信号发射功率为12瓦特,信号传输速率为3比特/秒,用户终端数量为15个,即01:36对应的第一数据集包括12、3、15。同理,03:12对应的第一数据集包括11、5、14,04:48对应的第一数据集包括14、9、12,06:24对应的第一数据集包括13、12、10,08:00对应的第一数据集包括13、15、18,09:36对应的第一数据集包括1、17、9,11:12对应的第一数据集包括2、10、12,12:48对应的第一数据集包括11、18、12,14:24对应的第一数据集包括25、6、14,16:00对应的第一数据集包括15、25、15,17:36对应的第一数据集包括16、11、14,19:12对应的第一数据集包括15、16、20,20:48对应的第一数据集包括37、1、14,22:24对应的第一数据集包括15、33、23,24:00对应的第一数据集包括9、4、13。服务器将类型为信号发射功率的数据按照由小到大的顺序排列,得到1-2-9-11-11-12-13-13-14-15-15-15-16-25-37,其中,第一分割点的位置q1对应的数据q
′1为11,第三分割点的位置q3对应的数据q
′3为15,则类型为信号发射功率的数据对应的预设异常阈值为4。
[0072]
同理,服务器将类型为信号传输速率的数据按照由小到大的顺序排列,得到1-3-4-5-6-9-10-11-12-15-16-17-18-25-33,其中,第一分割点的位置q1对应的数据q
′1为5,第三分割点的位置q3对应的数据q
′3为17,则类型为信号传输速率的数据对应的预设异常阈值为12。
[0073]
服务器将类型为用户终端数量的数据按照由小到大的顺序排列,得到9-10-12-12-12-13-14-14-14-14-15-15-18-20-23,其中,第一分割点的位置q1对应的数据q

1为12,第三分割点的位置q3对应的数据q
′3为15,则类型为信号发射功率的数据对应的预设异常阈值为3。
[0074]
表2待检测数据集
[0075][0076]
需要说明的是,预设异常阈值也可以由运维人员设置,本技术实施例对此不作限定。
[0077]
在一种可能的实现方式中,每种类型的数据对应一个预设异常阈值。服务器可以根据多种类型中每种类型的数据对应的预设异常阈值和第一系数,确定多种类型中每种类型对应的异常数据。其中,多种类型中每种类型对应的异常数据可以通过公式四表示。
[0078]
xa>[q

3a
+k1×
(iqra)]∪xa<[q

1a-k1×
(iqra)]
ꢀꢀ
公式四。
[0079]
其中,xa用于表示多种类型中第a种类型对应的异常数据,iqra用于表示多种类型中第a种类型对应的预设异常阈值,q

3a
用于表示第a种类型的数据中第三分割点的位置对应的数据,q

1a
用于表示第a种类型的数据中第一分割点的位置对应的数据,k1用于表示第一系数,k1默认为1。
[0080]
示例性的,以表2所示的多个历史时刻中每个历史时刻对应的第一数据集为例,则类型为信号发射功率对应的异常数据包括1、2、25、37,类型为信号传输速率对应的异常数据包括33,类型为用户终端数量对应的异常数据包括20、23。
[0081]
s302、服务器根据每种类型对应的异常数据、每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集。
[0082]
其中,一个第二异常数据集包括一个历史时刻下多种类型中每种类型对应的异常数据,多个第一数据集与多个第二异常数据集相对应。
[0083]
示例性的,以表2所示的多个历史时刻中每个历史时刻对应的第一数据集为例。若类型为信号发射功率对应的异常数据包括37,类型为信号传输速率对应的异常数据包括
33,类型为用户终端数量对应的异常数据包括23,并且,类型为信号发射功率对应的异常数据37对应的历史时刻为20:48,类型为信号传输速率对应的异常数据33对应的历史时刻为22:24,类型为用户终端数量对应的异常数据23对应的历史时刻为22:24,则服务器确定历史时刻20:48对应的第二异常数据集包括37,历史时刻22:24对应的第二异常数据集包括33和23。其中,历史时刻20:48对应的第二异常数据集为历史时刻20:48对应的第一数据集的子集,历史时刻22:24对应的第二异常数据集为历史时刻22:24对应的第一数据集的子集。
[0084]
在一些实施例中,对于每个第一数据集,根据第一操作确定每个第一数据集的异常数据比例。其中,第一操作包括:s303。
[0085]
s303、服务器根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定第一子数据集的异常数据比例。
[0086]
其中,第一子数据集中为多个第一数据集中任一数据集,第一子异常数据集为多个第二异常数据集中,与第一子数据集对应的历史时刻相同的数据集。
[0087]
示例性的,多个第一数据集包括数据集a、数据集b和数据集c,多个第二异常数据集包括数据集d、数据集e和数据集f。其中,数据集a对应的历史时刻与数据集d对应的历史时刻相同,数据集b对应的历史时刻与数据集e对应的历史时刻相同,数据集c对应的历史时刻与数据集f对应的历史时刻相同。若数据集a中的数据数量为3,数据集b中的数据数量为5,数据集c中的数据数量为7,数据集d中的数据数量为2,数据集e中的数据数量为5,数据集f中的数据数量为1,则服务器确定数据集a的异常数据比例为数据集a的异常数据比例为1,数据集a的异常数据比例为
[0088]
可以理解的是,服务器可以根据预设异常阈值和第一系数,确定多种类型中每种类型对应的异常数据。之后,服务器根据每种类型对应的异常数据、每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集,一个第二异常数据集包括一个历史时刻下多种类型中每种类型对应的异常数据,多个第一数据集与多个第二异常数据集相对应。之后,对于每个第一数据集,服务器根据第一操作确定每个第一数据集的异常数据比例,第一操作包括:服务器根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定第一子数据集的异常数据比例,第一子数据集为多个第一数据集中任一数据集,第一子异常数据集为多个第二异常数据集中,与第一子数据集对应的历史时刻相同的数据集。如此,服务器可以根据每个第一数据集的异常数据比例对第一系数执行不同的操作,提高了对多个第一数据集的异常数据比例和第一系数的操作性(具体可参考s203,此处不予赘述)。
[0089]
s203、服务器根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。
[0090]
其中,多个第二系数可以通过公式五表示。
[0091]k2b
=k1+pbꢀꢀ
公式五。
[0092]
其中,k
2b
用于表示多个第二系数中pb对应的第二系数,pb用于表示多个历史时刻中第b个历史时刻对应的第一数据集的异常数据比例。
[0093]
示例性的,多个第一数据集的异常数据比例包括p1和p2。其中,p1为p2为若k1为
1,则服务器确认p1对应的第二系数k
21
为p2对应的第二系数k
22

[0094]
s204、服务器根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集。
[0095]
其中,一个第二系数对应一个第一异常数据集。
[0096]
在一种可能的实现方式中,服务器可以根据预设异常阈值和多个第二系数,确定多个第一异常数据集中每个第一异常数据集中的异常数据。
[0097]
在一种可能的设计中,第一异常数据集中的异常数据可以通过公式六表示。
[0098]
xb>[q

3a
+k
2b
×
(iqra)]∪xb<[q

1a-k
2b
×
(iqra)]
ꢀꢀ
公式六。
[0099]
其中,xb用于表示k
2b
对应的第一异常数据集中的异常数据。
[0100]
示例性的,以表2所示的多个历史时刻中每个历史时刻对应的第一数据集为例。多个第二系数包括k
21
和k
22
。其中,k
21
对应第一异常数据集a,k
22
对应第一异常数据集b。若k
21
为k22为则服务器确定第一异常数据集a包括1、2、20、25、23和37,第一异常数据集b包括1、2、23、25和37。
[0101]
在一些实施例中,服务器可以记录第一异常数据集中每个异常数据对应的类型和历史时刻。
[0102]
s205、服务器从多个第一异常数据集中确定目标异常数据集。
[0103]
其中,目标异常数据集为多个第一异常数据集之间的并集。
[0104]
示例性的,多个第一异常数据集包括数据集a、数据集b和数据集c。若数据集a包括2、12和41,数据集b包括3和21,数据集c包括11,则服务器确定的目标异常数据集包括2、3、11、12、21和41。
[0105]
上述实施例提供的技术方案至少带来以下有益效果:服务器获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个第一数据集包括多种类型的数据。之后,服务器根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。之后,服务器根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。之后,服务器根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。之后,服务器从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。也就是说,服务器可以根据多个历史时刻中每个历史时刻对应的数据集的异常数据比例、预设异常阈值和第一系数,确定多个异常数据集,并将多个异常数据集之间的并集的异常数据作为待检测数据集中的异常数据。如此,不仅可以提高检测异常数据的效率,而且可以保障检测到的异常数据为真实的异常数据,提高了异常数据的准确性。
[0106]
在一些实施例中,如图4所示,该异常数据检测方法中,s205可以包括s401-s402。
[0107]
s401、服务器从多个第一异常数据集中确定多个第三异常数据集。
[0108]
其中,第三异常数据集中真实的异常数据的占比大于预设真实比例阈值,一个第三异常数据集对应一个第一异常数据集。
[0109]
在一种可能的实现方式中,服务器可以确定每个第一异常数据集中真实的异常数据的占比。之后,服务器可以将每个第一异常数据集中真实的异常数据的占比与预设真实比例阈值进行比较。之后,服务器将第一异常数据集中真实的异常数据的占比大于预设真
实比例阈值的第一异常数据集作为第三异常数据集。
[0110]
示例性的,多个第一异常数据集包括数据集a、数据集b和数据集c。其中,数据集a包括数据a和数据b,数据集b包括数据c、数据d和数据e,数据集c包括数据f。并且,数据集a中数据a为真实的异常数据、数据b为非真实的异常数据,数据集b中数据c和数据d均为真实的异常数据、数据e为非真实的异常数据,数据集c中数据f为真实的异常数据,则数据集a中真实的异常数据的占比为数据集b中真实的异常数据的占比为数据集c中真实的异常数据的占比为1。若预设真实比例阈值为则服务器确定数据集c为第三异常数据集。
[0111]
s402、服务器从多个第三异常数据集中确定目标异常数据集。
[0112]
其中,目标异常数据集为多个第三异常数据集之间的并集。
[0113]
可以理解的是,通过从多个第一异常数据集中确定多个第三异常数据集,并从多个第三异常数据集中确定目标异常数据集,可以提高第三异常数据集中的异常数据的准确性,进而可以提高目标异常数据中的异常数据的准确性。
[0114]
在一些实施例中,对于多个第一异常数据集,根据第二操作从多个第一异常数据集中确定多个第三异常数据集。其中,第二操作包括s501-s504。
[0115]
如图5所示,该异常数据检测方法中,s401可以包括:
[0116]
s501、服务器获取目标比例。
[0117]
其中,目标比例为第二子异常数据集中真实的异常数据的占比,第二子异常数据集中为多个第一异常数据集中任一数据集。
[0118]
需要说明的是,本公开实施例对获取目标比例的方式不作限定。例如,服务器可以对异常数据进行筛选,确定真实的异常数据,以得到目标比例。又例如,运维人员可以从第二子异常数据集中确定真实的异常数据,并得到目标比例,服务器可以接收运维人员的将目标比例输入服务器的操作,获取目标比例。
[0119]
s502、服务器确定目标比例是否大于预设真实比例阈值。
[0120]
在一些实施例中,服务器存储有预设真实比例阈值。服务器可以根据预设真实比例阈值和目标比例,确定目标比例是否大于预设真实比例阈值。若目标比例大于预设真实比例阈值,则服务器执行s503。若目标比例不大于预设真实比例阈值,则服务器执行s504。
[0121]
示例性的,服务器存储的预设真实比例阈值为若目标比例a为则服务器确定目标比例a大于预设真实比例阈值,服务器执行s503。若目标比例b为则服务器确定目标比例b不大于预设真实比例阈值,服务器执行s504。
[0122]
可以理解的是,通过对多个第一异常数据集中每个第一异常数据集按照目标比例是否大于预设真实比例阈值进行区分,可以对每个第一异常数据集进行区分。如此,服务器可以对于不同的第一异常数据集执行不同的操作,提高了对多个第一异常数据集的操作性(具体可参考s503或s504,此处不予赘述)。
[0123]
s503、服务器将第二子异常数据集作为第三异常数据集。
[0124]
在一些实施例中,在s502之后,该异常数据检测方法还可以包括s504。
[0125]
s504、服务器根据目标比例、第二子异常数据集对应的第一数据集的异常数据比
例、第二子异常数据集对应的第二系数、预设异常阈值,确定第四异常数据集。
[0126]
其中,第四异常数据集包括第二子异常数据集中的异常数据。
[0127]
在一种可能的实现方式中,服务器可以根据三个步骤(即步骤一、步骤二和步骤三),确定第四异常数据集。下面分别对步骤一、步骤二和步骤三进行介绍。
[0128]
步骤一,服务器可以根据目标比例、第二子异常数据集对应的第一数据集的异常数据比例和第二子异常数据集对应的第二系数,确定第二子异常数据集对应的第三系数。其中,第二子异常数据集对应的第三系数可以通过公式七表示。
[0129][0130]
其中,k
3b
用于表示多个第三系数中qb对应的第三系数,qb用于表示多个第一异常数据集中第b个第一异常数据集对应的目标比例。
[0131]
步骤二,服务器可以根据目标比例和第二子异常数据集对应的第一数据集的异常数据比例,确定更新后的第二子异常数据集对应的第一数据集的异常数据比例。其中,更新后的第二子异常数据集对应的第一数据集的异常数据比例可以通过公式八表示。
[0132][0133]
其中,p
′b用于表示更新后的多个历史时刻中第b个历史时刻对应的第一数据集的异常数据比例。
[0134]
步骤三,服务器可以根据第二子异常数据集对应的第三系数和预设异常阈值,确定第二子异常数据集对应的第三系数对应的第四异常数据集中的异常数据。其中,第三系数对应的第四异常数据集中的异常数据可以通过公式九表示。
[0135]
x
′b>[q

3a
+k
3b
×
(iqra)]∪x
′b<[q

1a-k
3b
×
(iqra)]
ꢀꢀ
公式九。
[0136]
其中,x
′b用于表示k
3b
对应的第四异常数据集中的异常数据。
[0137]
需要说明的是,在本技术实施例中,在确定第四异常数据集之后,可以对第四异常数据集执行第二操作,确定多个第三异常数据集。
[0138]
可以理解的是,服务器根据预设异常阈值,可以将目标比例大于预设异常阈值的第二子异常数据集作为第三异常数据集。并且,服务器可以根据目标比例不大于预设异常阈值的第二子异常数据集的目标比例、第二子异常数据集对应的第一数据集的异常数据比例、第二子异常数据集对应的第二系数、预设异常阈值,确定第四异常数据集,并对第四异常数据集执行第二操作,直至确定的数据集中真实的异常数据的占比大于预设异常阈值,并将该数据集作为第三异常数据集。如此,可以提高第三异常数据集中的异常数据的准确性,进而可以提高目标异常数据中的异常数据的准确性。
[0139]
本技术实施例可以根据上述方法示例对上述异常数据检测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0140]
图6是根据一示例性实施例示出的一种异常数据检测装置的结构框图。参照图6,该异常数据检测装置600包括获取模块601和处理模块602。
[0141]
获取模块601,用于获取待检测数据集,待检测数据集包括:多个历史时刻中每个
only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器703可以是独立存在,通过总线704与处理器702相连接。存储器703也可以和处理器702集成在一起。
[0149]
如图7所示,异常数据检测设备还可以包括通信接口701,其中,通信接口701、处理器702、存储器703可以相互耦合,例如,通过总线704相互耦合。通信接口701用于与其他设备进行信息交互,例如支持异常数据检测设备与其他设备的信息交互。
[0150]
需要指出的是,图7中示出的设备结构并不构成对该异常数据检测设备的限定,除图7所示部件之外,该异常数据检测设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不相同的部件布置。
[0151]
在实际实现时,处理模块602所实现的功能可以由图7所示的处理器702调用存储器703中的程序代码来实现。
[0152]
本技术还提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机能够执行上述所示实施例提供的异常数据检测方法。例如,计算机可读存储介质可以为包括指令的存储器703,上述指令可由计算机设备的处理器702执行以完成上述方法。可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。
[0153]
图8示意性地示出本技术实施例提供的计算机程序产品的概念性局部视图,计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
[0154]
在一个实施例中,计算机程序产品是使用信号承载介质800来提供的。信号承载介质800可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图2、图3、图4和图5描述的功能或者部分功能。因此,例如,参考图2中所示的实施例,s201~s205的一个或多个特征可以由与信号承载介质800相关联的一个或多个指令来承担。此外,图8中的程序指令也描述示例指令。
[0155]
在一些示例中,信号承载介质800可以包含计算机可读介质801,诸如但不限于,硬盘驱动器、紧密盘(cd)、数字视频光盘(dvd)、数字磁带、存储器、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等等。
[0156]
在一些实施方式中,信号承载介质800可以包含计算机可记录介质802,诸如但不限于,存储器、读/写(r/w)cd、r/w dvd、等等。
[0157]
在一些实施方式中,信号承载介质800可以包含通信介质803,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
[0158]
信号承载介质800可以由无线形式的通信介质803来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
[0159]
在一些示例中,诸如针对图7描述的异常数据检测装置可以被配置为响应于通过计算机可读介质801、计算机可记录介质802、和/或通信介质803中的一个或多个程序指令,提供各种操作、功能、或者动作。
[0160]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的
方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不相同的功能模块完成,即将装置的内部结构划分成不相同的功能模块,以完成以上描述的全分类部或者部分功能。
[0161]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0162]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不相同地方。可以根据实际的需要选择其中的部分或者全分类部单元来实现本实施例方案的目的。
[0163]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0164]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全分类部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全分类部或部分步骤。而前述的存储介质包括-u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0165]
以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:


1.一种异常数据检测方法,其特征在于,所述方法包括:获取待检测数据集,所述待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个所述第一数据集包括多种类型的数据;根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例;根据所述每个第一数据集的异常数据比例和所述第一系数,确定多个第二系数;根据所述预设异常阈值和所述多个第二系数,从所述待检测数据集中确定多个第一异常数据集,一个所述第二系数对应一个所述第一异常数据集;从所述多个第一异常数据集中确定目标异常数据集,所述目标异常数据集为所述多个第一异常数据集之间的并集。2.根据权利要求1所述的方法,其特征在于,所述根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例,包括:根据所述预设异常阈值和所述第一系数,确定所述多种类型的数据中每种类型对应的异常数据;根据所述每种类型对应的异常数据、所述每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集,一个所述第二异常数据集包括一个历史时刻下所述多种类型中每种类型对应的异常数据,所述多个第一数据集与所述多个第二异常数据集相对应;对于所述每个第一数据集,根据第一操作确定所述每个第一数据集的异常数据比例,所述第一操作包括:根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定所述第一子数据集的异常数据比例,所述第一子数据集为所述多个第一数据集中任一数据集,所述第一子异常数据集为所述多个第二异常数据集中,与所述第一子数据集对应的历史时刻相同的数据集。3.根据权利要求1或2所述的方法,其特征在于,所述从所述多个第一异常数据集中确定目标异常数据集,包括:从所述多个第一异常数据集中确定多个第三异常数据集,所述第三异常数据集中真实的异常数据的占比大于预设真实比例阈值,一个所述第三异常数据集对应一个所述第一异常数据集;从所述多个第三异常数据集中确定所述目标异常数据集,所述目标异常数据集为所述多个第三异常数据集之间的并集。4.根据权利要求3所述的方法,其特征在于,所述从所述多个第一异常数据集中确定多个第三异常数据集,包括:对于所述多个第一异常数据集,根据第二操作从所述多个第一异常数据集中确定所述多个第三异常数据集,所述第二操作包括:获取目标比例,所述目标比例为第二子异常数据集中真实的异常数据的占比,所述第二子异常数据集为所述多个第一异常数据集中任一数据集;若所述目标比例大于所述预设真实比例阈值,则将所述第二子异常数据集作为所述第三异常数据集;若所述目标比例小于所述预设真实比例阈值,则根据所述目标比例、所述第二子异常数据集对应的所述第一数据集的异常数据比例、所述第二子异常数据集对应的所述第二系
数、所述预设异常阈值,确定第四异常数据集,并对所述第四异常数据集执行所述第二操作,所述第四异常数据集包括所述第二子异常数据集中的异常数据。5.一种异常数据检测装置,其特征在于,所述装置包括:获取模块,用于获取待检测数据集,所述待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个所述第一数据集包括多种类型的数据;处理模块,用于根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例;所述处理模块,还用于根据所述每个第一数据集的异常数据比例和所述第一系数,确定多个第二系数;所述处理模块,还用于根据所述预设异常阈值和所述多个第二系数,从所述待检测数据集中确定多个第一异常数据集,一个所述第二系数对应一个所述第一异常数据集;所述处理模块,还用于从所述多个第一异常数据集中确定目标异常数据集,所述目标异常数据集为所述多个第一异常数据集之间的并集。6.根据权利要求5所述的装置,其特征在于,所述处理模块,还用于根据所述预设异常阈值和所述第一系数,确定所述多种类型中每种类型对应的异常数据;所述处理模块,还用于根据所述每种类型对应的异常数据、所述每种类型对应的异常数据对应的历史时刻,确定多个第二异常数据集,一个所述第二异常数据集包括一个历史时刻下所述多种类型中每种类型对应的异常数据,所述多个第一数据集与所述多个第二异常数据集相对应;所述处理模块,具体用于对于所述每个第一数据集,根据第一操作确定所述每个第一数据集的异常数据比例,所述第一操作包括:根据第一子数据集中的数据数量和第一子异常数据集中的数据数量,确定所述第一子数据集的异常数据比例,所述第一子数据集为所述多个第一数据集中任一数据集,所述第一子异常数据集为所述多个第二异常数据集中,与所述第一子数据集对应的历史时刻相同的数据集。7.根据权利要求5或6所述的装置,其特征在于,所述处理模块,具体用于从所述多个第一异常数据集中确定多个第三异常数据集,所述第三异常数据集中真实的异常数据的占比大于预设真实比例阈值,一个所述第三异常数据集对应一个所述第一异常数据集;所述处理模块,具体用于从所述多个第三异常数据集中确定所述目标异常数据集,所述目标异常数据集为所述多个第三异常数据集之间的并集。8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于对于所述多个第一异常数据集,根据第二操作从所述多个第一异常数据集中确定所述多个第三异常数据集,所述第二操作包括:获取目标比例,所述目标比例为第二子异常数据集中真实的异常数据的占比,所述第二子异常数据集为所述多个第一异常数据集中任一数据集;若所述目标比例大于所述预设真实比例阈值,则将所述第二子异常数据集作为所述第三异常数据集;若所述目标比例小于所述预设真实比例阈值,则根据所述目标比例、所述第二子异常
数据集对应的所述第一数据集的异常数据比例、所述第二子异常数据集对应的所述第二系数、所述预设异常阈值,确定第四异常数据集,并对所述第四异常数据集执行所述第二操作,所述第四异常数据集包括所述第二子异常数据集中的异常数据。9.一种异常数据检测设备,其特征在于,包括:处理器和存储器;所述处理器和所述存储器耦合;所述存储器用于存储一个或多个程序,所述一个或多个程序包括计算机执行指令,当所述异常数据检测设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述异常数据检测设备执行如权利要求1-4中任一项所述的异常数据检测方法。10.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当计算机执行所述指令时,所述计算机执行如权利要求1-4中任一项所述的异常数据检测方法。11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任意一项所述的异常数据检测方法。

技术总结


本申请提供一种异常数据检测方法、装置、设备及存储介质,涉及通信领域,用于解决检测异常数据的效率较低的问题。该方法包括:获取待检测数据集,待检测数据集包括:多个历史时刻中每个历史时刻对应的第一数据集,一个第一数据集包括多种类型的数据。根据预设异常阈值和第一系数,确定每个第一数据集的异常数据比例。根据每个第一数据集的异常数据比例和第一系数,确定多个第二系数。根据预设异常阈值和多个第二系数,从待检测数据集中确定多个第一异常数据集,一个第二系数对应一个第一异常数据集。从多个第一异常数据集中确定目标异常数据集,目标异常数据集为多个第一异常数据集之间的并集。间的并集。间的并集。


技术研发人员:

王静云 李德屹 金雨超 程新洲 郭省力 周诗雨 李京辉

受保护的技术使用者:

中国联合网络通信集团有限公司

技术研发日:

2022.08.19

技术公布日:

2022/11/22

本文发布于:2024-09-20 17:55:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/5477.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   异常   多个   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议