一种原型残差异常检测和定位方法



1.本发明属于计算机视觉技术领域,具体涉及一种原型残差异常检测和定位方法。


背景技术:



2.人类的认知和视觉系统具有固有的感知异常的能力。人类不仅可以区分有缺陷的图像和无缺陷的图像,并且可以精确指出异常的位置,即使他们没有见过异常样本或只看到有限数量的异常样本。异常检测(图像级别异常或正常的二分类)和异常定位(像素级别异常或正常的二分类)是为相同目的而引入的,并因其效率高、精度高而被广泛应用于各种场景,包括工业缺陷检测[1][9][10][11][14]、医学图像分析[13]和视频监控[12]。基于此重要性,有很多工作致力于设计一个能同时做好异常检测和定位的方法,但很少有同时做好这两项任务的方法。我们认为是由于真实世界的异常数据主要在三个方面的特性,导致这些模型性能不佳:i)异常样本的数量是有限的,显著少于正常样本,产生的数据分布导致不平衡的学习问题;ii)异常通常是细微的,很难识别,因此正常模式仍然主导着异常图像,从整幅图像中识别出所有的异常区域是异常检测和定位的关键;iii)异常的外观变化较大,即异常区域的大小、形状和数量相同,这种外观上的变化给精确定位所有的异常区域带来了挑战。
[0003]
没有足够的异常进行训练,无监督模型成为事实上的主导方法,通过学习正常样本的分布[2][3][5][6][7]或生成充足的合成异常[8][17]来消除不平衡问题。然而,这些方法对真正的异常不透明,这种隐式决策可能导致许多假阴性和假阳性。同时,无监督方法严重依赖正常样本的质量,因此不够稳健,在未校准或有噪声的数据集上表现不佳。此外,这类无监督模型只能精确定位到异常区域,只能给出异常所在的大致范围。我们将这一问题归因于这些方法的正常与异常的辨别能力较弱。
[0004]
最近,一些有监督方法进行了不一样角度的探索。deepsad[15]在潜空间中扩大异常与正常类中心之间的差值,通过对已见异常获得更紧凑的正常类的描述。dra[4]和devnet[16]将异常检测定义为多实例学习(mil)问题,如果图像的任意patch是缺陷区域,则将图像划分为异常。基于mil的方法通过细粒度图像patch级的方法加强了模型的学习,有效地减少了正常patch对检测异常图像的干扰。然而,这些方法通常在这种图像级的监督下很难准确定位所有异常区域。特别是当异常区域仅占图像patch的很小一部分时,图像级表示可能以正常区域为主,忽略微小的异常,这可能导致检测和定位的性能不一致。
[0005]
综上,在异常检测与定位实际应用中,异常样本数量往往远少于正常样本,同时异常样本通常是难以识别和变化多样的,采用有监督模型容易过拟合少量可见的异常样本,会产生不满意的性能,而用无监督模型的隐含决策不够有区分度,十分依赖数据集的校准与质量。


技术实现要素:



[0006]
针对上述现有技术的不足,本发明的目的在于提出一种基于给定的输入图像重建
出图像中异常区域的原型残差异常检测和定位方法。
[0007]
本发明提出了多种异常生成策略,不仅能有效地缓解数据不平衡的影响,还能探索潜在的未知异常样本。此外,本发明提出多尺度原型来表示正常模式,与以往基于正常样本的特征连接或特征图随机采样来构建正常模式的方法相比,本发明使用不同尺度的中间特征图聚类得到的原型来构建正常模式,保留了空间信息,提供了更加精确和代表性的正常模式。本发明通过输入图像特征图与最接近原型在各尺度上的距离获得残差,并添加多尺度融合块,实现不同尺度间的信息交换。其次,由于异常区域差异很大,需要从多个感受域中捕捉patches之间的关系。因此,我们引入了一种多尺寸自注意力机制,该机制作用于特征图的不同感受野,以检测不同大小的patch级别的不一致性。最后,与以往使用图像级监督进行训练的方法不同,本发明通过像素级监督重构异常分割图,使得模型更关注异常区域。本发明的技术方案具体介绍如下。
[0008]
本发明提供一种原型残差异常检测和定位方法,其通过学习异常和正常模式之间不同尺度和大小的特征残差,基于原型残差的异常重构网络重构预测异常标注图,实现对图像样本的异常检测和定位;其中:
[0009]
基于原型残差的异常重构网络采用一个类似于u-net的网络,其包括图像特征编码模块、多尺度原型模块、两个多尺度融合模块、多尺寸自注意力模块和异常解码器模块;图像特征编码模块获取输入图像的多尺度特征图,多尺度原型模块用于表示异常对正常模式的残差特征,每个尺度的原型是从该尺度的所有特征图中推理得到的正常模式的特征表示,保留了完整的空间信息,代表着正常的模式;残差为输入图像的各个尺度的特征图与对应尺度最近的原型的像素级欧氏距离;第一个多尺度融合模块对输入图像的特征图与残差分别进行不同尺度的信息交换后拼接,拼接起来的图像特征通过多尺寸自注意力模块捕捉不同感受野下的不一致,再通过第二个多尺度融合模块进行信息交换;第二个多尺度融合模块的输出作为跳跃连接,异常解码器模块基于图像特征编码模块最后一层的输出特征与跳跃连接,重构预测异常标注图。
[0010]
该方法分为三个阶段,具体如下:
[0011]
第一阶段:构建多尺度原型
[0012]
基于训练集的所有正常样本,提取输入的正常图像的多尺度特征图,用从该尺度的所有特征图中推理得到的正常模式的特征表示每个尺度的原型,构建多尺度原型;
[0013]
第二阶段:异常合成策略生成各种类型的异常,通过真实异常标注和预测的异常标注的一致性损失来训练基于原型残差的异常重构网络;
[0014]
在正常样本的目标区域,通过扩展异常和模拟异常生成新的丰富的异常样本,真实异常标注由异常的生成过程产生;其中:扩展异常是通过将已见异常样本的异常区域进行彩和空间位置随机增强后,放置在正常样本的目标区域,来生成新的异常样本;模拟异常将柏林噪声生成随机的异常区域乘上其他数据源的图像或本身图像的自增强后,放置于正常样本的目标区域,来生成新的异常样本;基于原型残差的异常重构网络通过异常解码器模块重构预测异常标注图;
[0015]
基于原型残差的异常重构网络使用像素级监督重构异常标注,网络的损失函数为真实异常标注与预测异常标注的smooth l1损失和focal损失的加权求和:
[0016]
l
total
=smooth
l1
(mo,m)+λl
focal
(mo,m)
[0017]
λ是focal损失的权重系数。
[0018]
第三阶段:异常检测与定位
[0019]
以第二阶段训练好的模型作为推理模型,将待测试的正常或异常图像输入网络,以端到端的方式直接回归预测出异常的标注图。
[0020]
本发明中,在第一阶段中,图像特征编码模块采用的是预训练好的resnet模型。
[0021]
本发明中,在第一阶段中,基于正常样本所构建的多尺度原型具有三个尺度,每个尺度分别对应于图像特征编码模块的第一层、第二层和第三层的输出。
[0022]
本发明中,第一阶段中,每个尺度的原型数量为k,k占正常样本总数的比例为固定值。不同数据集的原型数量随着该数据集的正常样本的数量变化而变化。
[0023]
本发明中,每一尺度的原型初始状态为该尺度所有正常样本随机采样的特征图,再通过k-means聚类算法更新聚类中心,聚类中心称为原型,在k-means的更新中,两个特征图的距离由欧氏距离衡量,终止状态由迭代次数决定。
[0024]
本发明中,第二阶段中,训练集的异常样本的数量远少于正常样本的数量,数据集的分布不平衡。
[0025]
本发明中,第二阶段中,对于物体类数据集,目标区域是物体前景的部分区域,对于纹理类数据集,目标区域是整张图像的部分区域。
[0026]
本发明中,第二阶段中,生成扩展异常和模拟异常所使用的增强同时包括彩和空间上的增强。生成模拟异常使用的其他数据集是可描述纹理数据集(dtd)。其中模拟异常中的本身图像的自增强还包括图像在patch级别的随机打乱,具体是指将一张图像切分为n
×
n的网格并随机打乱后再重组为一张新的乱序图像。
[0027]
本发明中,第二阶段中,多尺度融合模块的输入为多尺度的特征或残差,输出为多尺度的融合过的特征或残差,每一种尺度的输出所执行的融合计算方式不同。优选的,为三个尺度。
[0028]
本发明中,第二阶段中,多尺寸自注意力模块的每一个head对应着一种patch大小的划分,多种感受野的信息通过卷积结合后,作为跳跃连接的输出。
[0029]
本发明中,异常解码器模块通过上采样和卷积预测异常区域的标注图。
[0030]
本发明中,在第三阶段中,使用预测异常标注中分值最高的n个像素的平均值作为输入图像的异常分数。
[0031]
发明人分别以模型预测的图像级别的受试者工作特征曲线(i)、像素级别的受试者工作特征曲线(p),像素级别的不同阈值下的区域重叠率(o)和像素级别的平均精准度(a)来综合衡量异常检测和定位的测评指标,将本发明与先前的无监督方法与有监督方法进行了对比,验证了本发明的方法在各个评测指标上均好于以上提到的两种方式。此外,本发明还对异常的检测与定位做了可视化,与其他方法进行视觉定性评测,本发明的方法明显更接近异常的真实标注。综合来讲,本发明的有益效果在于:
[0032]
1、本发明利用多样的异常合成策略解决异常检测与定位中异常样本不足的问题。该策略从扩展异常与模拟异常两个角度出发,将已见异常进一步多样化的同时,还有效探索了未见异常的潜在表现。
[0033]
2、本发明针对图像级别的监督学习会让神经网络在细微异常效果不佳的问题,引入基于像素级的残差原型学习,并通过多尺度残差信息,让网络更关注于异常区域。多尺度
的残差由输入图像的特征图与与其最接近的代表正常模式的原型之间的距离得到。该多尺度的残差经过多尺度融合模块交互信息后,能为神经网络提供异常所在的区域。
[0034]
3、本发明针对异常区域的大小、形状和数量等性质的多样化,引入了多尺寸自注意力机制。该机制通过不同大小的感受野,以检测不同大小的patch级别的不一致性,从而更精确的定位到多样异常的具体区域。
附图说明
[0035]
图1是本发明提出的合成策略中的扩展异常。扩展异常通过将已见异常样本的异常区域进行彩和空间位置随机增强后,放置在正常样本的目标区域,来生成新的异常样本。
[0036]
图2是本发明提出的基于原型残差异常检测和定位方法示意图。模型是一个类似于u-net的网络,跳跃连接通过多尺度原型和多尺寸自注意力机制进行增强。输入图像通过多尺度原型对每一个尺度的特征图获取每一层的特征残差。采用多尺度融合模块分别融合不同尺度的特征图和残差。多尺寸自注意力机制在每个尺度的特征残差捕捉通过不同大小的感受野去捕捉不同空间尺度的不一致信息,再通过另一个多尺度融合块进一步增强作为跳跃连接的输出。异常解码器模块包括上采样和卷积,利用跳跃连接和编码器最后一层的输出,预测异常区域的标注图。
[0037]
图3是本发明引入的多尺度特征融合模块,融合的特征图是三个输入特征图的转换表示的求和。
[0038]
图4是本发明在mvtec数据集的可视化结果图,对于不同数据集所体现的不同类型的异常,本发明提出的方法比其它方法的异常定位结果更加精确。
具体实施方式
[0039]
下面结合附图和实施例对本发明的技术方案进行详细阐述。
[0040]
为了缓解异常样本远少于正常样本带来的不平衡影响,本发明首先提出利用已见异常去生成扩展异常(图1)。本发明首先将已见异常先通过随机的彩增强来提升异常彩上的多样性(图1,a),再通过随机的空间增强来提升异常位置、形状和角度上的多样性(图1,r)。为了让生成的异常的样本更合理,本发明提出了目标区域,将增强后的异常部分放置在正常图像(图1,n)的指定区域上,得到裁剪后的异常部分(图1,c)。本发明将c二值化生成异常标注(图1,m)。扩展异常(图1,e)的生成过程为:
[0041][0042]
其中,是对m的逐像素取反,

是逐像素相乘操作,β是用于更好地组合异常和正常部分的透明度参数。对于物体类数据集,目标区域是物体前景的部分区域。对于纹理类数据集,目标区域是整张图像的部分区域。
[0043]
为了进一步探索未见异常的潜在外观表现,本发明提出了模拟异常,将柏林噪声生成随机的异常区域乘上其他数据源的图像或正常图像的自增强后,放置于正常样本的目标区域,来生成新的异常样本。
[0044]
本发明提出的基于原型残差的异常重构网络(图2),是基于深度学习技术的,模型是一个类似于u-net的网络,跳跃连接通过多尺度原型和多尺寸自注意力机制进行增强。输
入图像的各个尺度特征图计算与对应尺度的原型之间的残差。特征图与残差会分别通过两个多尺度融合模块进行多尺度的信息交互。交互后的信息会通过多尺寸自注意力机制进行多种空间感受角度的异常捕捉。解码器通过这种增强过的特征与残差信息,生成预测的异常标注。主要包括以下五个模块:(1)图像特征编码模块;(2)多尺度原型模块;(3)多尺度融合模块;(4)多尺寸自注意力模块;(5)异常解码器模块。
[0045]
给定单张rgb图像,首先,由初始的图像特征编码模块提取图像三个尺度的特征;然后,每个尺度的图像特征和对应尺度的原型中到最接近的原型,并计算它们的距离残差。多尺度的特征与残差各自通过一个多尺度融合模块进行不同尺度的信息交换后拼接起来;紧接着,拼接起来的特征通过多尺寸自注意力模块捕捉不同感受野下的不一致,再通过另一个多尺度融合模块进行信息交换。最后,将多尺度模块的输出作为跳跃连接,异常解码器基于编码器的特征与跳跃连接,通过上采样和卷积重构出异常标注图。预测异常标注图与真实异常标注图的损失由focal损失和smooth l1损失加权求和得到,这样的损失可以让模型更关注于异常区域的表现。
[0046]
本发明第二阶段主要学习多尺度的特征图与残差,用于重构异常预测标注,具体步骤如下:
[0047]
(1)首先,模型的输入是正常样本或在线生成的异常样本。异常样本包括扩展异常和模拟异常。正常样本是异常标注是值为0的灰度图,异常样本的异常标注由异常的生成过程产生(图1)。
[0048]
(2)输入图像通过图像特征编码模块提取图像三个尺度的特征,图像特征编码模块的前三层的参数是固定的。计算每个尺度的特征与该尺度下的原型的欧氏距离,距离最小的称为最近的原型。特征图与最近的原型的像素级欧氏距离为成为特征图与正常模式的残差。(3)多尺度的特征图与残差各自通过一个多尺度融合模块交换不同尺度的信息后,会拼接在一起。图3中,对于三种尺度的特征图,目标特征图的h与w大于输入特征图时,对输入特征图执行的操作是线性插值上采样与1
×
1的卷积,变换至与目标特征图一样的形状;目标特征图与输入特征的大小一样时,不做任何操作;目标特征图的h和w小于输入特征图时,对输入特征图执行的操作是深度分离卷积操作,变换至与目标特征图一样的形状。融合的特征图则是三种操作后的输出的求和。
[0049]
(4)多尺寸自注意力机制的设计中,每个head的patch大小是不一样的。每个head独立进行自注意力计算后,拼接在一起,再通过一个残差卷积融合多种感受野的信息。每个尺度下的多尺寸自注意力机制有多层,每个尺度的输出会再通过一个多尺度融合模块来交换不同尺度的信息。
[0050]
(5)训练网络的损失是focal损失和smooth l1损失的加权求和。focal损失能让网络更关注异常区域,smooth l1能降低网络对正常区域的异常赋值,从而在像素级别让正常和异常的分值更有区分度。
[0051]
本发明的测试阶段,将测试图像输入训练得到的网络,可以端到端的生成该图像的异常所在区域。
[0052]
下面结合实施例对本发明的技术方案进一步阐述。
[0053]
实施例1
[0054]
模型接受256*256固定尺寸大小的图像作为视觉分支的输入。各种大小的图像均
通过缩放归一化到上述尺寸。
[0055]
图1是本发明生成扩展异常的流程图与一些生成结果图。扩展异常考虑了可见异常外观的多样性,能生成各类跟训练集的异常样本接近的异常样本。训练集的异常样本远少于正常样本,本发明中,每一类数据集只有十个异常样本。图1提及到两种不同的数据增强方法,其中彩增强包括随机曝光、调分离、随机锐化、自动对比度、随机颜反转、gamma对比度以及不做改动的相等操作;空间增强则包括平移、旋转和剪切等多种方式。
[0056]
多尺度原型模块的设计中,图像特征编码模块为resnet-18,三种尺度的特征图的形状分别为64
×
64
×
64,128
×
32
×
32和256
×
16
×
16。原型的数量占所有正常样本的数量10%。每个尺度的原型初始状态为随机采样的特征图,再采用k-means聚类方法更新聚类中心,两个特征图的距离度量是欧氏距离。本发明将这些尺度的聚类中心统称为多尺度原型。对于输入的图像,同样先通过图像特征编码模块提取三个尺度的特征图,每个尺度的特征图在对应尺度的原型中,寻最接近的原型,计算它们的逐像素欧氏距离作为残差。
[0057]
多尺度特征融合模块的设计中,如图3所示,对于三种尺度的特征图,目标特征图的h与w大于输入特征图时,对输入特征图执行的操作是线性插值上采样与1
×
1的卷积,变换至与目标特征图一样的形状;目标特征图与输入特征的大小一样时,不做任何操作;目标特征图的h和w小于输入特征图时,对输入特征图执行的操作是深度分离卷积操作,变换至与目标特征图一样的形状。融合的特征图则是三种操作后的输出的求和。多尺度特征与残差各自通过一个多尺度特征融合模块后,同一尺度的特征和残差拼接在一起,形成三种新的特征图形状128
×
64
×
64,256
×
32
×
32和512
×
16
×
16。
[0058]
多尺寸自注意力机制的设计中,对于形状为c
×h×
w的特征图,本发明提出了四种尺度的patch大小,分别是h,本发明将此特征图根据大小为s的patch划分后,展平至一维向量并通过全连接层进行特征嵌入得到注意力模型的query(其中),对展平的一维向量执行相同的特征嵌入操作,得到注意力模型的key和value注意力矩阵则计算如下:
[0059][0060]
接着,as恢复至初始的空间分辨率。其它patch尺寸也遵循同样的操作,拼接在一起后通过残差卷积块得到多尺寸注意力模块的输出。本发明在每个尺度使用了三层这样的模块,并通过多尺度融合模块交换三个尺度的信息后作为异常解码器的跳跃连接。
[0061]
异常解码器模块的每一层由线性插值的上采样和两层卷积层、最大池化层和relu激活函数层构成。最后一层由卷积层和sigmoid激活函数层构成,输出预测的异常标注图。预测的异常标注图与网络输入图像的大小一样,每个像素点的分值在0到1之间,分值越高代表异常的可能性越高,其中分值最高的100个像素点的平均值作为图像级别的异常分数。
[0062]
方法评价
[0063]
本发明以模型预测的图像级别的受试者工作特征曲线(i)、像素级别的受试者工作特征曲线(p),像素级别的不同阈值下的区域重叠率(o)和像素级别的平均精准度(a)来综合衡量异常检测和定位的测评指标。
detection.in cvpr,2019.
[0075]
[2]paul bergmann,michael fauser,david sattlegger,and carsten steger.uninformed students:student-teacher anomaly detection with discriminative latent embeddings.in cvpr,2020.
[0076]
[3]hanqiu deng and xingyu li.anomaly detection via reverse distillation from one-class embedding.in cvpr,2022.
[0077]
[4]choubo ding,guansong pang,and chunhua shen.catching both gray and black swans:open-set supervised anomaly detection.in cvpr,2022.
[0078]
[5]ristea,neelu madan,radu tudor ionescu,kamal nasrollahi,fahad shahbaz khan,thomas b moeslund,and mubarak shah.self-supervised predictive convolutional attentive block for anomaly detection.in cvpr,2022.
[0079]
[6]karsten roth,latha pemula,joaquin zepeda,bernhardthomas brox,and petergehler.towards total recall in industrial anomaly detection.in cvpr,2022.
[0080]
[7]mohammadreza salehi,niousha sadjadi,soroosh baselizadeh,mohammad h rohban,andhamid r rabiee.multiresolution knowledge distillation for anomaly detection.in cvpr,2021.[8]vitjan zavrtanik,matej kristan,and danijel skoc
ˇ
aj.draem-a discriminatively trainedreconstruction embedding for surface anomaly detection.in iccv,2021.
[0081]
[9]jakob boz
ˇ
ic
ˇ
,domen tabernik,and danijel skoc
ˇ
aj.mixed supervision for surface-defectdetection:from weakly to fully supervised learningput ind,2021.
[0082]
[10]pankaj mishra,riccardo verk,daniele fornasier,claudio piciarelli,and gian luca foresti.vt-adl:a vision transformer network for image anomaly detection and localization.in isie,2021.
[0083]
[11]matthias wieler and tobias hahn.weakly supervised learning for industrial opticalinspection.2007.
[0084]
[12]wen liu,weixin luo,dongze lian,and shenghua gao.future frame prediction foranomaly detection

a new baseline.in cvpr,2018
[0085]
[13]sebastianwaldstein,sophieklimscha,bianca s gerendas,rene donner,thomas schlegl,ursula schmidt-erfurth,and georg langs.identifying and categorizinganomalies in retinal imaging data.arxiv preprint arxiv:1612.00686,2016.
[0086]
[14]denis gudovskiy,shun ishizaka,and kazuki kozuka.cflow-ad:real-time unsupervisedanomaly detection with localization via conditional normalizing flows.in wacv,2022.
[0087]
[15]lukas ruff,robert a vandermeulen,nicoalexander binder,
emmanuelklaus-robertand marius kloft.deep semi-supervised anomaly detection.arxivpreprint arxiv:1906.02694,2019.
[0088]
[16]guansong pang,choubo ding,chunhua shen,and an-ton van den hengel.explainabledeep few-shot anomaly detection with deviation networks.arxiv preprint arxiv:2108.00462,2021.
[0089]
[17]mircea cimpoi,subhransu maji,iasonas kokkinos,sammy mohamed,and andrea vedaldi.describing textures in the wild.in cvpr,2014。

技术特征:


1.一种原型残差异常检测和定位方法,其特征在于,其通过学习异常和正常模式之间不同尺度和大小的特征残差,基于原型残差的异常重构网络重构预测异常标注图,实现对输入待测试的图像的异常检测和定位;其中:基于原型残差的异常重构网络采用一个类似于u-net的网络,其包括图像特征编码模块、多尺度原型模块、多尺度融合模块、多尺寸自注意力模块和异常解码器模块;图像特征编码模块获取输入图像的多尺度特征图,多尺度原型模块用于表示异常对正常模式的残差特征,每个尺度的原型是从该尺度的所有特征图中推理得到的正常模式的特征表示,保留了完整的空间信息,代表着正常的模式;残差为输入图像的各个尺度的特征图与对应尺度的最近的原型的像素级欧氏距离;两个多尺度融合模块分别对输入图像的特征图与残差进行不同尺度的信息交换后拼接,拼接起来的图像特征通过多尺寸自注意力模块捕捉不同感受野下的不一致,再通过第三个多尺度融合模块进行信息交换;第三个多尺度融合模块的输出作为跳跃连接,异常解码器模块基于图像特征编码模块最后一层的输出特征与跳跃连接,重构预测异常标注图。2.根据权利要求1所述的原型残差异常检测和定位方法,其特征在于,其分为三个阶段,具体如下:第一阶段:构建多尺度原型基于训练集的所有正常样本,提取输入的正常图像的多尺度特征图,用从该尺度的所有特征图中推理得到的正常模式的特征表示每个尺度的原型,构建多尺度原型;第二阶段:异常合成策略在线生成各种类型的异常,通过真实异常标注和预测的异常标注的一致性损失来训练基于原型残差的异常重构网络;在正常样本的目标区域,通过扩展异常和模拟异常生成丰富的新的异常样本,真实异常标注由异常的生成过程产生;其中:扩展异常是通过将训练集的异常样本的异常区域进行彩和空间位置随机增强后,放置在正常样本的目标区域,来生成新的异常样本;模拟异常将柏林噪声生成随机的异常区域乘上从其他数据集随机采样并增强的图像或本身图像的自增强后,放置于正常样本的目标区域,来生成新的异常样本;基于原型残差的异常重构网络通过异常解码器模块重构预测异常标注图;基于原型残差的异常重构网络使用像素级监督重构异常标注,网络的损失函数为真实异常标注与预测异常标注的smoothl1损失和focal损失的加权求和:l1损失和focal损失的加权求和:是focal损失的权重系数;与分别对应预测的异常标注与真实的异常标注;第三阶段:异常检测与定位以第二阶段训练好的模型作为推理模型,将待测试的正常或异常图像输入网络,以端到端的方式直接回归预测出异常的标注图。3.根据权利要求1或2所述的原型残差异常检测和定位方法,其特征在于,每一尺度的原型初始状态为该尺度所有正常样本随机采样的特征图,再通过k-means聚类算法更新聚类中心,聚类中心称为原型,在k-means的更新中,两个特征图的距离由欧氏距离衡量,终止状态由迭代次数决定。4.根据权利要求2所述的原型残差异常检测和定位方法,其特征在于,第一阶段中,图
像特征编码模块采用的是预训练好的resnet模型;基于正常样本所构建的多尺度原型具有三个尺度,每个尺度分别对应于图像特征编码模块的第一层、第二层和第三层的输出。5.根据权利要求2所述的原型残差异常检测和定位方法,其特征在于,第二阶段中,训练集的异常样本的数量远少于正常样本的数量,数据集的分布不平衡。6.根据权利要求2所述的原型残差异常检测和定位方法,其特征在于,第二阶段中,对于物体类数据集,目标区域是物体前景的部分区域,对于纹理类数据集,目标区域是整张图像的部分区域。7.根据权利要求2所述的原型残差异常检测和定位方法,其特征在于,第二阶段中,生成扩展异常和模拟异常所使用的增强同时包括彩和空间上的增强;生成模拟异常使用的其他数据集是可描述纹理数据集dtd;生成模拟异常中的本身图像的自增强还包括图像在patch级别的随机打乱,具体是指将一张图像切分为的网格并随机打乱后再重组为一张新的乱序图像。8.根据权利要求1所述的原型残差异常检测和定位方法,其特征在于,多尺度融合模块的输入为多尺度的特征或残差,输出为多尺度的融合过的特征或残差,每一种尺度的输出所执行的融合计算方式不同。9.根据权利要求1所述的原型残差异常检测和定位方法,其特征在于,多尺寸自注意力模块的每一个head对应着一种patch大小的划分,多种感受野的信息通过卷积结合后,作为跳跃连接的输出。10.根据权利要求1或2所述的原型残差异常检测和定位方法,其特征在于,异常解码器模块通过上采样和卷积预测异常区域的标注图;异常解码器模块的最后一层由卷积层和sigmoid激活函数层构成,预测异常标注中分值最高的n个像素的平均值作为输入图像的异常分数。

技术总结


本发明属于计算机视觉异常检测与定位领域,具体为一种原型残差异常检测和定位方法。本发明通过学习异常和正常模式之间不同尺度和大小的特征残差,重建异常区域的分割图。该方法主要由两部分组成:一部分是用来表示异常对正常模式的残差特征的多尺度原型;另一部分是多尺寸自注意力机制,支持可变尺度的异常特征学习。此外,我们提出了多种异常生成策略,通过考虑可见异常和不可见异常的外观差异,实现了扩大和多样化异常样本。在四种常用数据集验证结果显示,相比于业内主流的有监督和无监督方法,本发明异常检测更加准确的同时,在异常定位的性能有更大的突破,证实了本发明的有效性和可泛化性。性和可泛化性。性和可泛化性。


技术研发人员:

姜育刚 张辉 吴祖煊

受保护的技术使用者:

复旦大学

技术研发日:

2022.11.29

技术公布日:

2023/3/24

本文发布于:2024-09-24 05:29:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/78757.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:异常   尺度   特征   原型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议