生成异常检测模型的方法、异常检测方法及电子设备与流程



1.本发明涉及计算机技术领域,尤其涉及一种生成异常检测模型的方法、异常检测方法及电子设备。


背景技术:



2.随着科技的发展,越来越多的可穿戴设备应用于医疗领域。在人们佩戴可穿戴设备的情况下,可穿戴设备可以实时监测人体的各种设定的指标数据,对监测到的指标数据进行异常分析,并上报异常指标。相关技术中,基于局部异常因子(lof,local outlier factor)算法、或孤立森林(isolation forest)算法对指标数据进行异常分析,但时间复杂度较高。


技术实现要素:



3.有鉴于此,本发明实施例提供一种生成异常检测模型的方法、异常检测方法及电子设备,以解决相关技术中异常检测方法的时间复杂度较高的技术问题。
4.为达到上述目的,本发明的技术方案是这样实现的:
5.本发明实施例提供了一种生成异常检测模型的方法,包括:
6.基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据;
7.按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;
8.基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;
9.基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,
10.所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。
11.上述方案中,所述基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值时,所述方法包括:
12.确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值;f为大于或等于1的整数;
13.在所述f小于第一密度金字塔的最大设定深度,且存在至少一个第一密度标记值为第一设定值的情况下,基于每两个相邻的指标数据的密度标记值,对第一维度的第一指标数据集中的指标数据进行聚类,得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果;
14.基于第一密度金字塔的第f层的聚类结果中的每类指标数据,确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的子集;
15.确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值;其中,
16.密度标记值表征指标数据在对应的第一金字塔中的对应层中的密度是否小于对应的平均密度;第一设定值表征对应的指标数据在第f层的密度小于对应的平均密度。
17.上述方案中,所述确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值,包括:
18.将第一密度金字塔对应的第一维度的第一指标数据集中每个指标数据的第一数量,确定为对应的指标数据的质量;
19.基于排序后的第一指标数据集中每个指标数据的值,确定出第一指标数据集中每个指标数据的体积;
20.将每个指标数据对应的质量与对应的体积之间的商,确定为对应的指标数据在第一密度金字塔的第f层中的第一密度;
21.基于每个指标数据在第一密度金字塔的第f层中的第一密度以及第一密度金字塔的第f层中所有指标数据的平均密度,确定出每个指标数据在第一密度金字塔的第f层中的第一密度标记值;其中,
22.指标数据的体积表征对应的指标数据与左右相邻的指标数据的坐标值之间的差值中的最大值。
23.上述方案中,所述确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值,包括:
24.将第一维度的第二指标数据集中每个子集中的每个指标数据对应的第二数量之间的第一总和,确定为对应的子集的质量;
25.基于第一维度的第二指标数据集中的每个子集的坐标值,确定出第二指标数据集中每个子集的体积;
26.将每个子集对应的质量与对应的体积之间的商,确定为对应的子集在第一密度金字塔的第f+1层中的第二密度;
27.基于每个子集在第一密度金字塔的第f+1层中的第二密度以及第一密度金字塔的第f+1层中所有子集的平均密度,确定出第一密度金字塔的第f+1层中的每个子集的第二密度标记值;其中,
28.子集的坐标值表征第二总和与第一总和之间的商;第二总和表征对应的子集中的每个指标数据的值与对应的第二数量之积的总和。
29.上述方案中,所述基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集时,所述方法包括:
30.按照设定的抽样比例对设定样本集进行抽样,得到第一密度金字塔对应的第一样本集;所述设定样本集包括m个样本,所述设定样本集中的每个样本具有n个维度,m和n为正整数;
31.生成第一密度金字塔对应的随机旋转矩阵;所述随机旋转矩阵表征n行n列的单位
矩阵;
32.对第一密度金字塔对应的随机旋转矩阵和第一样本集进行乘法运算,得到第一密度金字塔对应的第二样本集。
33.本发明实施例还提供了一种异常检测方法,包括:
34.基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;所述第一指标数据由可穿戴设备采集到;
35.基于所述平均密度标记值确定出所述第一指标数据是否为异常数据;其中,
36.所述异常检测模型为采用上述任一种生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。
37.上述方案中,所述方法还包括:
38.基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层所处的第一区间,确定出所述第一指标数据在每个第二密度金字塔的每一层对应的密度标记值;其中,
39.所述第一区间表征所述异常检测模型中第二维度的第二指标数据对应的坐标值区间。
40.上述方案中,所述基于所述平均密度标记值确定出所述第一指标数据是否为异常数据,包括以下之一:
41.基于确定出的平均密度标记值和设定阈值,确定出所述第一指标数据是否为异常数据;或者
42.基于确定出的平均密度标记值和所述异常检测模型中第二维度的指标数据对应的平均密度标记值,确定出所述第一数据是否为异常数据。
43.本发明实施例还提供了一种电子设备,包括:
44.第一确定单元,用于基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据;
45.采样单元,用于按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;
46.第二确定单元,用于基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;
47.生成单元,用于基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,
48.所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。
49.本发明实施例还提供了一种电子设备,包括:
50.确定单元,用于基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;所述第一指标数据由可穿戴设备采集到;
51.异常检测单元,用于基于所述平均密度标记值确定出所述第一指标数据是否为异常数据;其中,
52.所述异常检测模型为采用上述任一种生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。
53.本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
54.其中,所述处理器用于运行所述计算机程序时,执行以下之一:
55.上述任一种生成异常检测模型的方法的步骤;
56.上述任一种异常检测方法的步骤。
57.本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下之一:
58.上述任一种生成异常检测模型的方法的步骤;
59.上述任一种异常检测方法的步骤。
60.本发明实施例中,电子设备基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;基于采样得到的第二样本集对应的至少一个维度中每个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型。上述方案中,在生成异常检测模型的过程中引入了随机旋转矩阵,可以消除平行于坐标轴的边界,增强了异常检测模型的鲁棒性,在利用生成的异常检测模型进行异常检测时,可以提高检测结果的准确度;由于,异常检测模型表征至少一个维度的指标数据的值、每个指标数据在异常检测模型中对应的第一密度金字塔中的每一层的密度标记值,以及每个指标数据在异常检测模型中的平均密度标记值之间的对应关系,电子设备在利用异常检测模型进行异常检测时,可以基于异常检测模型中的每个维度的指标数据在每个第一密度金字塔的每一层对应的密度标记值,确定出待检测的指标数据的密度标记值,不需要通过确定待检测的指标数据的k邻域,或集成决策树,来确定待检测的指标数据的密度,可以减少确定异常数据所需的时间,提高确定异常数据的效率,以适用于对实时性要求较高的场景。另外,异常检测模型可以集成多个第一密度金字塔,而每个指标数据对应的平均密度标记值是对指标数据在每个第一密度金字塔中的平均密度标记的均值,基于指标数据对应的平均密度标记值进行异常检测时,可以进一步提高检测结果的准确度。
附图说明
61.图1为本发明实施例提供的生成异常检测模型的方法的实现流程示意图;
62.图2为本发明实施例提供的生成异常检测模型的方法中确定第二样本集的方法的
实现流程示意图;
63.图3为本发明实施例提供的生成异常检测模型的方法中确定指标数据的密度标记值的方法的实现流程示意图;
64.图4为本发明另一实施例提供的生成异常检测模型的方法中确定指标数据的密度标记值的方法的实现流程示意图;
65.图5为本发明再一实施例提供的生成异常检测模型的方法中确定指标数据的密度标记值的方法的实现流程示意图;
66.图6为本发明应用实施例提供的生成异常检测模型的方法的实现流程示意图;
67.图7为本发明实施例提供的异常检测方法的实现流程示意图;
68.图8为本发明实施例提供的样本集的数据分布示意图;
69.图9为本发明实施例提供的基于孤立森林算法进行异常检测时得到的检测效果图;
70.图10为本发明实施例提供的利用异常检测模型进行异常检测的方法时得到的检测效果图;
71.图11为本发明实施例提供的电子设备的结构示意图;
72.图12为本发明另一实施例提供的电子设备的结构示意图;
73.图13为本发明实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
74.相关技术中,基于lof算法进行异常检测时,通过比较数据集中每个给定数据点的密度与对应的邻居点的密度,来确定给定数据点是否为异常数据;其中,当给定数据点的密度大于或等于对应的邻居点的密度时,表征给定数据点是正常数据,当给定数据点的密度小于对应的邻居点的密度时,表征给定数据点是异常数据。由于给定数据点的密度是基于给定数据点的k邻域计算得到,确定每个给定数据点对应的k邻域导致时间复杂度较高。
75.基于孤立森林算法进行异常检测时,在给定数据集中只有少量异常数据,需要集成大量的决策树才能准确识别出异常数据,导致时间复杂度较高。
76.为了解决上述技术问题,本发明实施例提供了一种异常检测方法,由于异常检测模型表征至少一个维度的指标数据的值、每个指标数据在异常检测模型中对应的第一密度金字塔中的每一层的密度标记值,以及每个指标数据在异常检测模型中的平均密度标记值之间的对应关系,因此,电子设备可以基于异常检测模型中的第二维度的第二指标数据在每个第二密度金字塔的每一层对应的密度标记值,确定出第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,将第一指标数据在每个第二密度金字塔的每一层对应的密度标记值的均值,以及确定出第一指标数据在每个第二密度金字塔中的平均密度标记值,并基于确定出的平均密度标记值确定出第一指标数据是否为异常数据,由此,电子设备在对第一至少数据进行异常检测时,不需要确定第一指标数据的k邻域,也不需要集成决策树,可以减少确定异常数据所需的时间,提高确定异常数据的效率,以适用于对实时性要求较高的场景。
77.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不
用于限定本技术。
78.图1为本发明实施例提供的生成异常检测模型的方法的实现流程示意图,其中,流程的执行主体为终端或服务器等电子设备,终端包括手机、平板等。
79.如图1示出的,生成异常检测模型的方法包括:
80.步骤101:基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据。
81.这里,电子设备获取第一设定参数和第二设定参数,基于第一设定参数确定出第一密度金字塔的数量,基于第二设定参数确定出每个第一密度金字塔的最大设定深度。其中,第一设定参数表征需要生成的异常检测模型中包含的第一密度金字塔的数量;第二设定参数表征每个第一密度金字塔的最大设定深度;最大设定深度表征第一密度金字塔包括的层数。第一设定参数和第二设定参数可以从用于请求生成异常检测模型的需求信息中获得。
82.电子设备获取设定样本集,从设定样本集中确定出每个第一密度金字塔对应的第一样本集;其中,不同的第一密度金字塔对应的第一样本集中的样本可以部分相同,也可以完全不同。设定样本集由可穿戴设备采集到的多个样本构成,每个样本包括n个维度的指标数据,n可以大于或等于2,n个维度表征n项设定指标。设定指标可以包括以下至少一种:人体指标、环境指标和运动指标。实际应用时,人体指标包括:脉搏、血压以及心率等;环境指标包括环境温度、环境湿度以及声音分贝等;运动指标包括:卡路里、gps坐标、行走步数以及速度等。
83.电子设备通过设定函数生成每个第一密度金字塔对应的随机旋转矩阵,并基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;其中,随机旋转矩阵表征n行n列的单位矩阵。
84.需要说明的是,基于随机旋转矩阵对第一样本集进行旋转,是为了消除平行于坐标轴的边界,即消除横向和纵向的边界。
85.为了避免不同的第一样本集中存在大量重合的样本,以增强异常检测模型的鲁棒性,如图2所示,在一些实施例中,所述基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集时,所述方法包括:
86.步骤201:按照设定的抽样比例对设定样本集进行抽样,得到第一密度金字塔对应的第一样本集;所述设定样本集包括m个样本,所述设定样本集中的每个样本具有n个维度,m和n为正整数;
87.步骤202:生成第一密度金字塔对应的随机旋转矩阵;所述随机旋转矩阵表征n行n列的单位矩阵;
88.步骤203:对第一密度金字塔对应的随机旋转矩阵和第一样本集进行乘法运算,得到第一密度金字塔对应的第二样本集。
89.这里,设定抽样比例小于或等于1,且大于0。设定样本集可以表示为一个m行n列的矩阵,即,x∈rm×n。
90.电子设备按照设定的抽样比例对设定样本集进行随机抽样,得到第一密度金字塔对应的第一样本集;通过设定函数生成第一密度金字塔对应的随机旋转矩阵,对第一密度金字塔对应的随机旋转矩阵和第一样本集进行乘法运算,从而对第一样本集中的样本进行旋转,得到第一密度金字塔对应的第二样本集。
91.例如,在设定抽样比例为a,设定样本集为x∈rm×n,随机旋转矩阵为rotate的情况下,第一密度金字塔对应的第一设定样本集可以表示为一个k行n列的矩阵,即,x1∈rk×n,k=a
×
m;第二设定样本集x1

=x1
×
rotate,x1'∈rk×n。
92.步骤102:按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集。
93.这里,电子设备按照设定概率对第二样本集中的样本对应的多个维度的指标数据进行随机采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集。其中,采样得到的每个维度的指标数据构成一个指标数据集。
94.实际应用时,电子设备按照设定概率对第二样本集中的样本对应的n个维度的指标数据进行随机采样,得到第二样本集对应的n个维度中的第d个维度的指标数据集,即,第d列的指标数据集,d小于或等于n。在第二样本集为x1'∈rk×n的情况下,第d列的指标数据集可以表示为y∈rk×1。
95.步骤103:基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值。
96.其中,密度标记值表征指标数据在对应的第一金字塔中的对应层中的密度是否小于对应的平均密度。平均密度表征对应层中所有指标数据的密度的均值。
97.电子设备基于每个第一密度金字塔对应的至少一个维度中每个维度的指标数据集,计算出对应的第一密度金字塔中的每一层中的指标数据的密度和平均密度,基于对应的第一密度金字塔中的每一层中的指标数据的密度和平均密度,确定出对应的第一密度金字塔中的每一层中的指标数据的密度标记值,从而得到每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值。需要说明的是,同一第一密度金字塔中每一层的指标数据相同。
98.其中,指标数据的密度基于指标数据的质量和指标数据的体积确定出,指标数据的质量基于指标数据的值和指标数据的数量确定出。指标数据的体积基于每个排序后的指标数据集中的每个指标数据与左右相邻的指标数据的差值确定出。排序后的指标数据集是指对指标数据集中的数据进行排序后得到的指标数据集。
99.当指标数据的密度小于平均密度时,指标数据的密度标记值为第一设定值;当指标数据的密度大于或等于平均密度时,指标数据的密度标记值为第二设定值。指标数据的密度越小,表征指标数据为异常数据的概率越大。
100.实际应用时,第一设定值为1,第二设定值为0;当然,在一些实施例中,第一设定值可以为0,第二设定值可以为1。
101.为了准确地确定出第一密度金字塔中每一层的指标数据的密度标记值,如图3所示,在一些实施例中,所述基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度
标记值时,所述方法包括:
102.步骤301:确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值;
103.步骤302:在所述f小于第一密度金字塔的最大设定深度,且存在至少一个第一密度标记值为第一设定值的情况下,基于每两个相邻的指标数据的密度标记值,对第一维度的第一指标数据集中的指标数据进行聚类,得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果;
104.步骤303:基于第一密度金字塔的第f层的聚类结果中的每类指标数据,确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的子集;
105.步骤304:确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值。
106.其中,f为正整数,且f+1小于或等于对应的第一密度金字塔的最大设定深度。
107.这里,电子设备在确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值的情况下,判断f是否小于第一密度金字塔的最大设定深度,得到第一判断结果。在第一判断结果表征f小于第一密度金字塔的最大设定深度的情况下,判断确定出的第一密度标记值是否为第一设定值,得到第二判断结果。在第二判断结果表征存在至少一个第一密度标记值为第一设定值的情况下,对第f层中的所有指标数据进行排序,得到排序后的指标数据序列;基于排序后的指标数据序列中每两个相邻的指标数据的密度标记值,按照指标数据的值从小到大的顺序,对第一维度的第一指标数据集中的指标数据进行聚类,得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果。其中,在第一判断结果表征f等于第一密度金字塔的最大设定深度的情况下,结束本次流程;在第二判断结果表征第f层中的所有第一密度标记值均为第二设定值的情况下,结束本次流程。
108.实际应用时,在对第f层中的指标数据进行聚类时,将每个指标数据识别为一个点。对指标数据进行聚类的实现过程如下:
109.将值最小的指标数据识别为第一类型;当点t的第一密度标记值与点t-1的密度标记值相同时,将点t合并至点t-1所属的分类中,当点t的第一密度标记值与点t-1的密度标记值不同时,将点t识别为第二类型;也就是说,排序后的指标数据序列中,当相邻两个指标数据的第一密度标记值相同时,表征这两个指标数据属于同一类型,当相邻两个指标数据的第一密度标记值不同时,表征这两个指标数据属于不同类型。其中,t大于或等于2;每个分类中包括至少一个指标数据,在第f层中,指标数据的类型的数量小于或等于第f层的指标数据的个数。
110.在得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果的情况下,将第一密度金字塔的第f层的聚类结果中的每类指标数据,确定为第一密度金字塔的第f+1层对应的一个子集,从而得到第f+1层对应的第二指标数据集;基于第f+1层对应的第二指标数据集,确定出第二指标数据集中的每个子集的质量和体积,基于每个子集的质量和体积,确定出第f+1层中每个对应子集的密度。其中,子集的质量表征子集中所有指标数据的个数的总和;子集的体积基于排序后的子集序列中相邻两个子集的坐标值确定出,子集的坐标值基于子集中每个指标数据的值和每个指标数据的个数确定出;其中,当子集中第
一指标数据与子集中的其他指标数据均不同时,第一指标数据的个数为1,当子集中具有2个值相同的指标数据时,该指标数据的个数为2。
111.需要说明的是,在确定出第f+1层中的每个对应子集的密度标记值的情况下,当f+1小于第一密度金字塔的最大设定深度时,将每个子集识别为一个点,将f赋值为f+1,并对第f层中的子集进行聚类,得到聚类结果;根据聚类结果确定出f+1层对应的第二数据集中的子集,并基于确定出的第二数据集,确定出在f+1层对应的第二数据集中的每个子集的第二密度标记值,具体实现过程与步骤302至步骤304类似,此处不赘述。其中,流程循环的终止条件为f+1等于第一密度金字塔的最大设定深度,或者,第f层中的所有第一密度标记值均为第二设定值。
112.如图4所示,在一些实施例中,通过以下方式确定出第一密度金字塔的第一层中的指标数据的密度标记值:
113.所述确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值,包括:
114.步骤401:将第一密度金字塔对应的第一维度的第一指标数据集中每个指标数据的第一数量,确定为对应的指标数据的质量;
115.步骤402:基于排序后的第一指标数据集中每个指标数据的值,确定出第一指标数据集中每个指标数据的体积;
116.步骤403:将每个指标数据对应的质量与对应的体积之间的商,确定为对应的指标数据在第一密度金字塔的第f层中的第一密度;
117.步骤404:基于每个指标数据在第一密度金字塔的第f层中的第一密度以及第一密度金字塔的第f层中所有指标数据的平均密度,确定出每个指标数据在第一密度金字塔的第f层中的第一密度标记值;其中,
118.指标数据的体积表征对应的指标数据与左右相邻的指标数据的坐标值之间的差值中的最大值。
119.这里,f=1,以第一维度的指标数据集y为例进行说明,y∈rk×1:
120.电子设备按照指标数据的值从小到大的顺序,对指标数据集y中的指标数据进行排序,得到排序后的指标数据集y1;将y1中的每个指标数据识别为一个点,基于y1中每个指标数据的值,确定出第一集合,并确定出第一集合中每个点的质量,得到第二集合。其中,第一集合表征去重后的指标数据的值,第一集合可以表示为{c1、c2、c3、
……
、cs},cs表征点s的值。第二集合表征y1中与点i的值相同的指标数据的第一数量,点i的值为ci,i小于或等于s;也就是说,第一数量表征重复点的个数,比如,当y1中具有3个点1时,点1的质量m1为3;第二集合可以表示为{m1、m2、m3、
……
、ms},ms表征点s的质量;s小于或等于k。
121.电子设备基于y1中每两个相邻点的值,确定出y1中对应点的体积,其中,对于y1中的任意点t,t为大于1且小于s的整数,点t的体积为max(c
t-c
t-1
,c
t+1-c
t
);当t=1时,点t的体积为(c2-c1);当t=s时,点t的体积为(c
s-c
s-1
);由此得到y1中每个点的体积{v1、v2、v3、
……
、vs}。
122.对于y1中的任意点t,t为大于1且小于s的整数,点t的第一密度第一层中
的所有点的平均密度当点t的第一密度小于平均密度时,点t的第一密度标记值为第一设定值;当点t的第一密度大于或等于平均密度时,点t的第一密度标记值为第二设定值。
123.需要说明的是,y1中与点t的值相同的指标数据对应的第一密度标记值,与该点t的第一密度标记值相同。
124.考虑到第一密度金字塔的最大设定深度通常大于或等于2,为了更准确地确定出指标数据在第一密度金字塔的第f+1层中的密度标记值,f大于或等于1,如图5所示,在一些实施例中,所述确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值,包括:
125.步骤501:将第一维度的第二指标数据集中每个子集中的每个指标数据对应的第二数量之间的第一总和,确定为对应的子集的质量;
126.步骤502:基于第一维度的第二指标数据集中的每个子集的坐标值,确定出第二指标数据集中每个子集的体积;
127.步骤503:将每个子集对应的质量与对应的体积之间的商,确定为对应的子集在第一密度金字塔的第f+1层中的第二密度;
128.步骤504:基于每个子集在第一密度金字塔的第f+1层中的第二密度以及第一密度金字塔的第f+1层中所有子集的平均密度,确定出第一密度金字塔的第f+1层中的每个子集的第二密度标记值;其中,
129.子集的坐标值表征第二总和与第一总和之间的商;第二总和表征对应的子集中的每个指标数据的值与对应的第二数量之积的总和。
130.这里,以第一维度的指标数据集y,确定y中的指标数据在第一密度金字塔的第二层(f=1)中的第二密度标记值为例进行说明:
131.在确定出指标数据在第一密度金字塔的第一层的第一密度标记值的情况下,基于每个指标数据在第一层中的第一密度标记值,按照指标数据的值从小到大的顺序,对排序后的指标数据集y1中的指标数据进行聚类,得到聚类结果;基于第一密度金字塔的第一层的聚类结果中的每类指标数据,将一类指标数据确定为第一密度金字塔的第二层对应的第二指标数据集中的一个子集,从而得到第二指标数据集。
132.对于第二指标数据集中的任一子集,对子集中的每个指标数据对应的第二数量进行求和,得到第一总和,将确定出的第一总和确定为该子集的质量。例如,第二指标数据集的任一子集d={ce、c
e+1
、c
e+2

……
、c
e+g
},该子集d的质量m
e+i
表征点(e+i)的质量,点(e+i)的质量表征y1中与点(e+i)的值相同的指标数据的第二数量;点(e+i)的值为c
e+i
;e为正整数。
133.由于在前文已经确定出了y1对应的第一集合中的每个点的质量,得到了对应的第二集合,这里,可以基于前文确定出的第二集合,确定出点(e+i)的质量,一节省确定子集的质量所消耗的时间。
134.电子设备确定出第二数据集中的每个子集的坐标值,按照子集的坐标值从小到大的顺序,对第二数据集中的所有子集进行排序,得到排序后的子集;并基于排序后的子集中
每两个相邻子集的坐标值,确定出第二数据集中每个子集的体积,确定子集体积的方法请参照上文确定指标数据的体积的方法,此处不赘述;将每个子集对应的质量与对应的体积之间的商,确定为对应的子集在第一密度金字塔的第二层中的第二密度;确定出第一密度金字塔的第二层中每个子集的第二密度的均值,得到第一密度金字塔的第二层中所有子集的平均密度;基于每个子集的第二密度和确定出的平均密度,确定出第一密度金字塔的第二层中的每个子集的第二密度标记值;其中,当子集的第二密度小于平均密度时,对应的子集的第二密度标记值为第一设定值;当子集的第二密度大于或等于平均密度时,对应的子集的第二密度标记值为第二设定值。同一个子集中的所有指标数据对应的第二密度标记值相同。
135.其中,基于公式计算出第二指标数据集中的任一子集d的坐标值;基于公式vd=max(c
d-c
d-1
,c
d+1-cd),确定出第二指标数据集中的任一子集d的体积。
136.需要说明的是,电子设备在确定出指标数据集y中的每个指标数据在第一密度金字塔的第二层对应的第二密度标记值的情况下,基于每个子集的第二密度标记值,对所有子集进行聚类,得到聚类结果;将第一密度金字塔的第二层对应的聚类结果中的每类子集,确定为第一密度金字塔的第三层对应的子集,得到第一密度金字塔的第三层对应的第二指标数据集;按照确定第二层的第二指标数据集中每个子集的第二密度标记值的方法,确定出第一密度金字塔的第三层中的每个子集的第二密度标记值,由此,按照类似的方法可以确定出指标数据在第一密度金字塔的每一层的密度标记值。实际应用时,可以将每个子集识别为一个点。
137.步骤104:基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,
138.所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。
139.这里,电子设备基于每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值,确定出每个指标数据在对应的第一密度金字塔中的第一平均密度标记值;将每个指标数据对应的第一平均密度标记值的均值,确定为每个指标数据对应的平均密度标记值;基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中的每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型。其中,异常检测模型中集成了至少一个第一密度金字塔;异常检测模型表征指标数据的值、指标数据在对应的第一密度金字塔中的每一层的密度标记值以及指标数据对应的平均密度标记值之间的对应关系。
140.由于在利用异常检测模型需要将待检测的指标数据与异常检测模型中对应维度的指标数据对应的坐标值区间进行比较,因此,在一些实施例中,在生成异常检测模型时,在确定出每个维度的指标数据集中的指标数据在第一密度金字塔中的每一层的密度标记值的情况下,还可以确定出每个维度的指标数据集中的指标数据在对应的第一密度金字塔中的每一层中对应的坐标值区间;这样一来,生成的异常检测模型中还包括每个维度的指
标数据集中的指标数据在对应的第一密度金字塔中的每一层中对应的坐标值区间,在利用异常检测模型进行异常检测的过程中,不需要确定待检测的指标数据对应的维度的指标数据集中的每个指标数据对应的坐标值区间;当然,确定出待检测的指标数据对应的维度的指标数据集中的每个指标数据在第一密度金字塔的每一层对应的坐标值区间这一过程,也可以在利用异常检测模型的过程中进行。
141.其中,确定出每个维度的指标数据集中的指标数据在对应的第一密度金字塔中的每一层中对应的坐标值区间的过程如下:
142.由前文可知,在计算每个维度的指标数据集中的指标数据在第一密度金字塔中的每一层的密度时,按照指标数据的值对第一指标数据集中指标数据进行排序,或者按照子集的坐标值对的第二指标数据集中的子集进行排序;这里,针对第一密度金字塔的第一层,电子设备基于排序后的第一指标数据集中每三个相邻的指标数据的值,确定出对应指标数据对应的坐标值区间,比如,指标数据对应的区间可以表示为c
t-1
、c
t
和c
t+1
表征三个相邻的指标数据的值。
143.针对第一密度金字塔的第二层或更高层,电子设备基于排序后的第二指标数据集中的每三个相邻子集的坐标值,确定出对应子集对应的坐标值区间,从而得到每个子集中的所有指标数据对应的坐标值区间;比如,子集对应的坐标值区间表示为c
d-1
、cd和c
d+1
表征三个相邻的子集的坐标值。
144.在本发明实施例中,电子设备基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;基于采样得到的第二样本集对应的至少一个维度中每个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型。上述方案中,在生成异常检测模型的过程中引入了随机旋转矩阵,可以消除平行于坐标轴的边界,增强了异常检测模型的鲁棒性,在利用生成的异常检测模型进行异常检测时,可以提高检测结果的准确度;由于,异常检测模型表征至少一个维度的指标数据的值、每个指标数据在异常检测模型中对应的第一密度金字塔中的每一层的密度标记值,以及每个指标数据在异常检测模型中的平均密度标记值之间的对应关系,电子设备在利用异常检测模型进行异常检测时,可以基于异常检测模型中的每个维度的指标数据在每个第一密度金字塔的每一层对应的密度标记值,确定出待检测的指标数据的密度标记值,不需要通过确定待检测的指标数据的k邻域,或集成决策树,来确定待检测的指标数据的密度,可以减少确定异常数据所需的时间,提高确定异常数据的效率,以适用于对实时性要求较高的场景。
145.另外,异常检测模型可以由多个第一密度金字塔构成,而每个指标数据对应的平均密度标记值是对指标数据在每个第一密度金字塔中的平均密度标记的均值,基于指标数据对应的平均密度标记值进行异常检测时,可以进一步提高检测结果的准确度。
146.图6为本发明应用实施例提供的生成异常检测模型的方法的实现流程示意图。如图6示出的,生成异常检测模型的方法包括:
147.步骤601:按照设定的抽样比例对设定样本集进行抽样,得到至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集;其中,
148.所述设定样本集包括m个样本,所述m个样本为由可穿戴设备采集到的多个维度的指标数据;所述设定样本集中的每个样本具有n个维度,m和n为正整数。
149.步骤602:生成每个第一密度金字塔对应的随机旋转矩阵;所述随机旋转矩阵表征n行n列的单位矩阵。
150.步骤603:对每个第一密度金字塔对应的随机旋转矩阵和对应的第一样本集进行乘法运算,得到每个第一密度金字塔对应的第二样本集。
151.步骤604:按照设定概率对第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集。
152.步骤605:确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据,在第一密度金字塔的第一层中的第一密度标记值;其中,第一维度表征所述至少一个维度中的任一维度。
153.这里,确定出指标数据在第一密度金字塔的第一层中的第一密度的实现过程,请参照步骤401至步骤404中的相关描述,此处不赘述。
154.步骤606:基于第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第一层中的第一密度标记值,确定出第一密度金字塔的第二层对应的第一维度的第二指标数据集中包括的子集;其中,第二指标数据集中包括至少一个子集。
155.这里,确定第一维度的第二指标数据集中包括的子集的实现过程请参照步骤302和步骤303中的相关描述。其中,
156.在第一金字塔对应的最大设定深度大于或等于2,且确定出的第一密度标记值中存在至少一个第一密度标记值为第一设定值的情况下,执行步骤606;在第一金字塔对应的最大设定深度等于1,或确定出的第一密度标记值均为第二设定值的情况下,结束本次流程。
157.步骤607:确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第二层中的第二密度标记值。
158.这里,确定出第二密度标记值的实现过程请参照步骤304中的相关描述。
159.其中,在第一金字塔对应的最大设定深度大于或等于3,且确定出的第二密度标记值中存在至少一个第二密度标记值为第一设定值的情况下,执行步骤608;在第一金字塔对应的最大设定深度等于2,或确定出的第二密度标记值均为第二设定值的情况下,结束本次流程。
160.步骤608:基于第一维度的第二指标数据集中的每个子集在第一密度金字塔的第二层中的第二密度标记值,确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的子集。其中,f大于或等于2。
161.步骤609:确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的每个子集对应的第二密度标记值。
162.步骤610:判断f+1是否小于第一金字塔对应的最大设定深度,得到第一判断结果。
163.在第一判断结果表征f+1小于第一金字塔对应的最大设定深度的情况下,执行步骤611;在第一判断结果表征f+1等于第一金字塔对应的最大设定深度的情况下,结束本次
流程。
164.步骤611:判断步骤609中确定出的第二密度标记值是否为第一设定值,得到第二判断结果。
165.在第二判断结果表征步骤609中确定出的第三密度标记值中存在至少一个第二密度标记值为第一设定值的情况下,执行步骤612;在第二判断结果表征确定出的所有第二密度标记值均为第二设定值的情况下,结束本次流程。
166.步骤612:将f赋值为f+1,返回步骤608。
167.图7为本发明实施例提供的异常检测方法的实现流程示意图,其中,流程的执行主体为终端或服务器等电子设备,终端包括手机、平板等。执行生成异常检测模型的方法的电子设备,与执行异常检测方法的电子设备,可以相同,也可以不同。如图7示出的,异常检测方法包括:
168.步骤701:基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;其中,
169.所述第一指标数据由可穿戴设备采集到;所述异常检测模型为采用上述任一实施例的生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。
170.这里,电子设备获取由可穿戴设备采集到的第二维度的第一指标数据,例如,第一数据为心率值;从异常检测模型中确定出第二密度金子塔,第二密度金字塔表征异常检测模型中第二维度的第二指标数据的密度标记值对应的第一密度金字塔;从异常检测模型中确定出第二维度的第二指标数据在对应的第二密度金字塔中的每一层中对应的密度标记值;基于第二维度的第二指标数据在对应的第二密度金字塔中的每一层中对应的密度标记值,确定出第一指标数据在对应的第二密度金字塔中的每一层中对应的密度标记值;将第一指标数据在对应的第二密度金字塔的每一层对应的密度标记值的均值,确定为第一指标数据在对应的第二密度金字塔中的第一平均密度标记;将第一指标数据在每个第二密度金字塔中的第一平均密度标记的均值,确定为第一指标数据在异常检测模型中的平均密度标记值。
171.其中,电子设备可以通过以下方法确定出第一指标数据在对应的第二密度金字塔中的每一层中对应的密度标记值:
172.方式一:电子设备在每个第二密度金子塔的每一层中,确定出与第一指标数据的值最接近的第二指标数据;将与第一指标数据的值最接近的第二指标数据在对应的第二密度金字塔的对应层对应的密度标记值,确定为第一指标数据在对应的第二密度金字塔的对应层对应的密度标记值;
173.方式二:基于异常检测模型中第二维度的第二指标数据在对应的第二密度金字塔的每一层中对应的坐标值区间,确定出第一指标数据所处的坐标值区间;将第一指标数据所处的坐标值区间对应的第二指标数据的密度标记值,确定为第一指标数据在对应的第二密度金字塔的对应层对应的密度标记值。
174.为了更准确地确定出第一指标数据在对应的第二密度金字塔中的每一层中对应的密度标记值,在一些实施例中,所述方法还包括:
175.基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层所处的第一区间,确定出所述第一指标数据在每个第二密度金字塔的每一层对应的密度标记值;所述第一区间表征所述异常检测模型中第二维度的第二指标数据对应的坐标值区间。
176.其中,这里的第一区间是指步骤104中提及的坐标值区间。
177.电子设备确定出异常检测模型中第二维度的第二指标数据在对应的第二密度金字塔的每一层中对应的坐标值区间,并从确定出的坐标值区间中,确定出第一指标数据在异常检测模型中的每个第二密度金字塔的每一层所处的坐标值区间,得到第一指标数据在对应的第二密度金字塔的对应层所处的第一区间;将每个第二密度金字塔中的每一层对应的第一区间对应的第二指标数据的密度标记值,确定为第一指标数据在对应的第二密度金字塔的对应层的密度标记值。也就是说,在第二密度金字塔中的每一层中,处于同一坐标值区间的指标数据对应的密度标记值相同。
178.需要说明的是,在生成的异常检测模型中包括指标数据与坐标值区间之间的对应关系的情况下,电子设备可以从异常检测模型中,获取异常检测模型中第二维度的第二指标数据在对应的第二密度金字塔中的每一层对应的第一区间;在生成的异常检测模型中未包括指标数据与坐标值区间之间的对应关系的情况下,电子设备可以参照步骤104中的相关描述,确定出异常检测模型中每个第二指标数据在第二密度金字塔的每一层对应的坐标值区间。
179.步骤702:基于所述平均密度标记值确定出所述第一指标数据是否为异常数据。
180.这里,第一指标数据对应的平均密度标记越小,表征第一指标数据为异常数据的概率越大,因此,电子设备可以基于第一指标数据对应的平均密度标记,确定出第一指标数据是否为异常数据。
181.为了更准确地确定出异常数据,在一些实施例中,所述基于所述平均密度标记值确定出所述第一指标数据是否为异常数据,包括以下之一:
182.基于确定出的平均密度标记值和设定阈值,确定出所述第一指标数据是否为异常数据;或者
183.基于确定出的平均密度标记值和所述异常检测模型中第二维度的指标数据对应的平均密度标记值,确定出所述第一数据是否为异常数据。
184.实际应用时,在第一指标数据对应的平均密度标记小于设定阈值时,表征第一指标数据为异常数据;在第一指标数据对应的平均密度标记大于或等于设定阈值时,表征第一指标数据为正常数据。
185.实际应用时,电子设备可以将第一指标数据对应的平均密度标记值和异常检测模型中第二维度的指标数据对应的平均密度标记值进行排序,得到排序后的平均密度标记值;基于设定比例和平均密度标记值的总数,确定出需要筛选出的异常平均密度标记值的第三数量;按照平均密度标记值从小到大的顺序,从排序后的平均密度标记值中确定出第三数量的异常平均密度标记值。当第三数量的异常平均密度标记值中包括第一指标数据对应的平均密度标记值时,将第一指标数据确定为异常数据;当第三数量的异常平均密度标记值不包括第一指标数据对应的平均密度标记值时,将第一指标数据确定为正常数据。
186.需要说明的是,当异常检测模型中包括至少两个第二密度金字塔时,每个第二指
标数据对应的平均密度标记值是对第二指标数据在每个第二密度金字塔中的平均密度标记的均值,基于第二指标数据对应的平均密度标记值以及第一指标数据对应的平均密度标记值进行异常检测时,可以进一步提高检测结果的准确度。
187.实验数据表明,针对如图8所示的相同的样本集,利用本发明实施例中的异常检测模型进行异常检测的方法,相对于基于孤立森林算法进行异常检测的方法,在时间上-4倍,准确度提升10%。其中,
188.图9和图10中,样本数据分布越稠密的区域,颜越亮,表征对应的样本数据为正常数据的概率越高。样本数据分布越稀疏的区域,颜越暗,表征对应的样本数据为异常数据的概率越高。
189.与图9相比,图10中消除了横向边界和纵向边界,第一密度金字塔的边界更清晰,异常检测模型的性能优于基于孤立森林算法得到的模型。
190.本发明实施例中,由于异常检测模型表征至少一个维度的指标数据的值、每个指标数据在异常检测模型中对应的第一密度金字塔中的每一层的密度标记值,以及每个指标数据在异常检测模型中的平均密度标记值之间的对应关系,因此,电子设备可以基于异常检测模型中的第二维度的第二指标数据在每个第二密度金字塔的每一层对应的密度标记值,确定出第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,将第一指标数据在每个第二密度金字塔的每一层对应的密度标记值的均值,以及确定出第一指标数据在每个第二密度金字塔中的平均密度标记值,并基于确定出的平均密度标记值确定出第一指标数据是否为异常数据,由此,电子设备在对第一至少数据进行异常检测时,不需要通过确定待检测的指标数据的k邻域,或集成决策树,来确定待检测的指标数据的密度,可以减少确定异常数据所需的时间,提高确定异常数据的效率,以适用于对实时性要求较高的场景。
191.为实现本发明实施例的生成异常检测模型的方法,本发明实施例还提供了一种电子设备,该电子设备可以对应实现上述所有生成异常检测模型的方法的实施例,如图11所示,该电子设备包括:
192.第一确定单元111,用于基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据;
193.采样单元112,用于按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;
194.第二确定单元113,用于基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;
195.生成单元114,用于基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,
196.所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。
197.在一些实施例中,第一确定单元111用于:
198.按照设定的抽样比例对设定样本集进行抽样,得到第一密度金字塔对应的第一样本集;所述设定样本集包括m个样本,所述设定样本集中的每个样本具有n个维度,m和n为正整数;
199.生成第一密度金字塔对应的随机旋转矩阵;所述随机旋转矩阵表征n行n列的单位矩阵;
200.对第一密度金字塔对应的随机旋转矩阵和第一样本集进行乘法运算,得到第一密度金字塔对应的第二样本集。
201.在一些实施例中,第二确定单元113用于:
202.确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值;f为大于或等于1的整数;
203.在所述f小于第一密度金字塔的最大设定深度,且存在至少一个第一密度标记值为第一设定值的情况下,基于每两个相邻的指标数据的密度标记值,对第一维度的第一指标数据集中的指标数据进行聚类,得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果;
204.基于第一密度金字塔的第f层的聚类结果中的每类指标数据,确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的子集;
205.确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值;其中,密度标记值表征指标数据在对应的第一金字塔中的对应层中的密度是否小于对应的平均密度;第一设定值表征对应的指标数据在第f层的密度小于对应的平均密度。
206.在一些实施例中,第二确定单元113用于:
207.将第一密度金字塔对应的第一维度的第一指标数据集中每个指标数据的第一数量,确定为对应的指标数据的质量;
208.基于排序后的第一指标数据集中每个指标数据的值,确定出第一指标数据集中每个指标数据的体积;
209.将每个指标数据对应的质量与对应的体积之间的商,确定为对应的指标数据在第一密度金字塔的第f层中的第一密度;
210.基于每个指标数据在第一密度金字塔的第f层中的第一密度以及第一密度金字塔的第f层中所有指标数据的平均密度,确定出每个指标数据在第一密度金字塔的第f层中的第一密度标记值;其中,指标数据的体积表征对应的指标数据与左右相邻的指标数据的坐标值之间的差值中的最大值。
211.在一些实施例中,第二确定单元113用于:
212.将第一维度的第二指标数据集中每个子集中的每个指标数据对应的第二数量之间的第一总和,确定为对应的子集的质量;
213.基于第一维度的第二指标数据集中的每个子集的坐标值,确定出第二指标数据集中每个子集的体积;
214.将每个子集对应的质量与对应的体积之间的商,确定为对应的子集在第一密度金字塔的第f+1层中的第二密度;
215.基于每个子集在第一密度金字塔的第f+1层中的第二密度以及第一密度金字塔的第f+1层中所有子集的平均密度,确定出第一密度金字塔的第f+1层中的每个子集的第二密度标记值;其中,
216.子集的坐标值表征第二总和与第一总和之间的商;第二总和表征对应的子集中的每个指标数据的值与对应的第二数量之积的总和。
217.实际应用时,第一确定单元111、采样单元112、第二确定单元113和生成单元114可由电子设备中的处理器,比如,中央处理器(cpu,central processing unit)、数字信号处理器(dsp,digital signal processor)、微控制单元(mcu,microcontroller unit)或可编程门阵列(fpga,field-programmable gate array)等实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
218.需要说明的是:上述实施例提供的电子设备在生成异常检测模型时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与生成异常检测模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
219.为实现本发明实施例的异常检测方法,本发明实施例还提供了一种电子设备,该电子设备可以对应实现上述所有异常检测方法的实施例,如图12所示,该电子设备包括:
220.确定单元121,用于基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;所述第一指标数据由可穿戴设备采集到;
221.异常检测单元122,用于基于所述平均密度标记值确定出所述第一指标数据是否为异常数据;其中,
222.所述异常检测模型为采用上述任一种生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。
223.在一些实施例中,确定单元121还用于:基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层所处的第一区间,确定出所述第一指标数据在每个第二密度金字塔的每一层对应的密度标记值;其中,
224.所述第一区间表征所述异常检测模型中第二维度的第二指标数据对应的坐标值区间。
225.在一些实施例中,异常检测单元122用于实现以下之一:
226.基于确定出的平均密度标记值和设定阈值,确定出所述第一指标数据是否为异常数据;或者
227.基于确定出的平均密度标记值和所述异常检测模型中第二维度的指标数据对应的平均密度标记值,确定出所述第一数据是否为异常数据。
228.实际应用时,确定单元121和异常检测单元122可由电子设备中的处理器,比如,中央处理器(cpu,central processing unit)、数字信号处理器(dsp,digital signal processor)、微控制单元(mcu,microcontroller unit)或可编程门阵列(fpga,field-programmable gate array)等实现。当然,处理器需要运行存储器中存储的程序来实现上
述各程序模块的功能。
229.需要说明的是:上述实施例提供的电子设备在进行异常检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的电子设备与异常检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
230.基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备。图13为本发明实施例提供的电子设备的硬件组成结构示意图,如图13所示,电子设备13包括:
231.通信接口131,能够与其它设备比如网络设备等进行信息交互;
232.处理器132,与通信接口131连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的生成异常检测模型的方法,或者执行上述一个或多个技术方案提供的异常检测方法。而计算机程序存储在存储器133上。
233.当然,实际应用时,电子设备13中的各个组件通过总线系统134耦合在一起。可理解,总线系统134用于实现这些组件之间的连接通信。总线系统134除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图13中将各种总线都标为总线系统134。
234.本发明实施例中的存储器133用于存储各种类型的数据以支持电子设备13的操作。这些数据的示例包括:用于在电子设备13上操作的任何计算机程序。
235.可以理解,存储器133可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储器133旨在包括但不限于这些和任意其它适合类型的存储器。
236.上述本发明实施例揭示的方法可以应用于处理器132中,或者由处理器132实现。处理器132可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各
步骤可以通过处理器132中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器132可以是通用处理器、dsp,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器132可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器133,处理器132读取存储器133中的程序,结合其硬件完成前述方法的步骤。
237.可选地,所述处理器132执行所述程序时实现本发明实施例的各个方法中由终端实现的相应流程,为了简洁,在此不再赘述。
238.在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器133,上述计算机程序可由终端的处理器132执行,以完成前述方法的步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
239.在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
240.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
241.另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
242.需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
243.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:


1.一种生成异常检测模型的方法,其特征在于,包括:基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据;按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。2.根据权利要求1所述的方法,其特征在于,所述基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值时,所述方法包括:确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值;f为大于或等于1的整数;在所述f小于第一密度金字塔的最大设定深度,且存在至少一个第一密度标记值为第一设定值的情况下,基于每两个相邻的指标数据的密度标记值,对第一维度的第一指标数据集中的指标数据进行聚类,得到第一维度的第一指标数据集在第一密度金字塔的第f层的聚类结果;基于第一密度金字塔的第f层的聚类结果中的每类指标数据,确定出第一密度金字塔的第f+1层对应的第一维度的第二指标数据集中包括的子集;确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值;其中,密度标记值表征指标数据在对应的第一金字塔中的对应层中的密度是否小于对应的平均密度;第一设定值表征对应的指标数据在第f层的密度小于对应的平均密度。3.根据权利要求2所述的方法,其特征在于,所述确定出第一密度金字塔对应的第一维度的第一指标数据集中的每个指标数据在第一密度金字塔的第f层中的第一密度标记值,包括:将第一密度金字塔对应的第一维度的第一指标数据集中每个指标数据的第一数量,确定为对应的指标数据的质量;基于排序后的第一指标数据集中每个指标数据的值,确定出第一指标数据集中每个指标数据的体积;将每个指标数据对应的质量与对应的体积之间的商,确定为对应的指标数据在第一密度金字塔的第f层中的第一密度;基于每个指标数据在第一密度金字塔的第f层中的第一密度以及第一密度金字塔的第f层中所有指标数据的平均密度,确定出每个指标数据在第一密度金字塔的第f层中的第一密度标记值;其中,
指标数据的体积表征对应的指标数据与左右相邻的指标数据的坐标值之间的差值中的最大值。4.根据权利要求2所述的方法,其特征在于,所述确定出第一维度的第二指标数据集中的每个子集在第一密度金字塔的第f+1层中的第二密度标记值,包括:将第一维度的第二指标数据集中每个子集中的每个指标数据对应的第二数量之间的第一总和,确定为对应的子集的质量;基于第一维度的第二指标数据集中的每个子集的坐标值,确定出第二指标数据集中每个子集的体积;将每个子集对应的质量与对应的体积之间的商,确定为对应的子集在第一密度金字塔的第f+1层中的第二密度;基于每个子集在第一密度金字塔的第f+1层中的第二密度以及第一密度金字塔的第f+1层中所有子集的平均密度,确定出第一密度金字塔的第f+1层中的每个子集的第二密度标记值;其中,子集的坐标值表征第二总和与第一总和之间的商;第二总和表征对应的子集中的每个指标数据的值与对应的第二数量之积的总和。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集时,所述方法包括:按照设定的抽样比例对设定样本集进行抽样,得到第一密度金字塔对应的第一样本集;所述设定样本集包括m个样本,所述设定样本集中的每个样本具有n个维度,m和n为正整数;生成第一密度金字塔对应的随机旋转矩阵;所述随机旋转矩阵表征n行n列的单位矩阵;对第一密度金字塔对应的随机旋转矩阵和第一样本集进行乘法运算,得到第一密度金字塔对应的第二样本集。6.一种异常检测方法,其特征在于,包括:基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;所述第一指标数据由可穿戴设备采集到;基于所述平均密度标记值确定出所述第一指标数据是否为异常数据;其中,所述异常检测模型为采用如权利要求1至5任一项所述的生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。7.根据权利要求6所述的异常检测方法,其特征在于,所述方法还包括:基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层所处的第一区间,确定出所述第一指标数据在每个第二密度金字塔的每一层对应的密度标记值;其中,所述第一区间表征所述异常检测模型中第二维度的第二指标数据对应的坐标值区间。8.根据权利要求6所述的方法,其特征在于,所述基于所述平均密度标记值确定出所述
第一指标数据是否为异常数据,包括以下之一:基于确定出的平均密度标记值和设定阈值,确定出所述第一指标数据是否为异常数据;或者基于确定出的平均密度标记值和所述异常检测模型中第二维度的指标数据对应的平均密度标记值,确定出所述第一数据是否为异常数据。9.一种电子设备,其特征在于,包括:第一确定单元,用于基于随机旋转矩阵对至少一个第一密度金字塔中每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;所述第一样本集中的样本为由可穿戴设备采集到的多个维度的指标数据;采样单元,用于按照设定概率对每个第一密度金字塔对应的第二样本集中的所述多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;第二确定单元,用于基于每个第一密度金字塔对应的所述至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;生成单元,用于基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型;其中,所述异常检测模型用于检测可穿戴设备采集到的指标数据是否异常;所述平均密度标记值表征指标数据在每个第一密度金字塔中的平均密度标记值的均值。10.一种电子设备,其特征在于,包括:确定单元,用于基于第二维度的第一指标数据在异常检测模型中的每个第二密度金字塔的每一层对应的密度标记值,确定出所述第一指标数据在所述异常检测模型中的平均密度标记值;所述第一指标数据由可穿戴设备采集到;异常检测单元,用于基于所述平均密度标记值确定出所述第一指标数据是否为异常数据;其中,所述异常检测模型为采用如权利要求1至5任一项所述的生成异常检测模型的方法生成的异常检测模型;第二密度金字塔表征所述异常检测模型中包括第二维度的第二指标数据的密度标记值的第一密度金字塔。11.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行以下之一:权利要求1至5任一项所述的方法的步骤;权利要求6至8任一项所述的方法的步骤。12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下之一:权利要求1至5任一项所述的方法的步骤;权利要求6至8任一项所述的方法的步骤。

技术总结


本发明公开了一种生成异常检测模型的方法、异常检测方法及电子设备,生成异常检测模型的方法包括:基于随机旋转矩阵对每个第一密度金字塔对应的第一样本集进行变换,得到每个第一密度金字塔对应的第二样本集;按照设定概率对每个第一密度金字塔对应的第二样本集中的多个维度的指标数据进行采样,得到第二样本集对应的至少一个维度中每个维度的指标数据集;基于每个第一密度金字塔对应的至少一个维度的指标数据集,确定出每个指标数据集中的每个指标数据在对应的第一密度金字塔中的每一层的密度标记值;基于每个指标数据的值、每个指标数据在对应的第一密度金字塔中每一层的密度标记值,以及每个指标数据对应的平均密度标记值,生成异常检测模型。生成异常检测模型。生成异常检测模型。


技术研发人员:

胡冉杰 柳岸 董占龙 袁磊 黄承基

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2021.06.07

技术公布日:

2022/12/22

本文发布于:2024-09-23 11:18:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/45340.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:密度   数据   指标   金字塔
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议