一种基于CNN与ViT融合的递进式辅助目标检测方法及系统


一种基于cnn与vit融合的递进式辅助目标检测方法及系统
技术领域
1.本发明涉及计算机视觉领域,具体涉及一种基于cnn与vit融合的递进式辅助目标检测方法及系统。


背景技术:



2.目标检测是计算机视觉研究的重点内容,可服务于广泛的应用,如自动驾驶、智能视频监控、遥感等。近年来,由于采用了深度卷积网络的蓬勃发展,提出了一些excellent检测器,例如ssd,faster r-cnn,retinanet,fpn,mask r-cnn,cascade r-cnn等。
3.在计算机视觉上使用transformer的目标检测方法始于vit(vision transformer),vit如swin transformer是一种全新的目标检测方法,能够在较大局部对全局像素进行建模从而分离出目标区域实现目标检测,但是计算量巨大,引入了太多背景像素。自然的,本发明想到如果vit仅仅计算目标区域,则会大大减少计算量,并且去除背景像素的干扰,实现目标检测准确度的提升。而目标检测主流方式的cnn方式以分层的方式提取并收集局部特征,能够在一定的图像范围内分离前景(目标)与背景像素,得到的感兴趣区域特征具备较高程度的语义信息。毫不奇怪,将cnn提取出的目标特征送进vit中,可大大减少vit的计算成本,从而达到提高性能的效果。因此,多种cnn与transformer进行结合的网络被提出。例如conformer利用transformer与cnn互补的检测特征的互动提高了检测能力。(国科大与华为)mobile-former实现局部和全局特征的双向融合,在分类和下游任务中,性能远超mobilenetv3等轻量级网络(微软)、cotnet创造性的将transformer中的自注意力机制的动态上下文信息聚合与卷积的静态上下文信息聚合进行了集成,提出了一种新颖的transformer风格的“即插即用”cot模块,它可以直接替换现有resnet架构bottleneck中的3
×
3卷积并取得显著的性能提升。(京东ai)、vitdet去掉了检测的pfn部分,直接用一种尺度特征图,通过上下采样,得到四种尺度特征图,从而用少量计算得到原有的效果。令人鼓舞的是这些检测网络相对于他们的基线网络都有者不同程度的提升,然而多数融合网络都是将局部特征与全局特征双向融合,在这个过程中反而增加了两个网络的负荷,因此这种融合非最优方式。此外,不同层次的cnn网络的提取的感受野大小不同,目标特征也不同,不应直接进行融合。公布号为cn114359756a的现有发明专利申请文献《一种震后无人机遥感影像损毁房屋快速智能检测方法》包括步骤:a、收集无人机遥感影像样本,建立损毁房屋样本集;b、基于yolov5深度学习模型,一是引入vision transformer结构优化backbone网络、提高检测精度;二是针对目标多尺度特点,用bifpn替换panet网络,增强多尺度信息融合能力;进而构建yolov5s-vit-bifpn模型;c、对输入的无人机遥感影像进行裁剪并记录其地理位置编码信息;d、基于该模型对裁剪后影像进行损毁房屋检测,得到目标检测框;e、将目标检测框进行地理位置信息复原和矢量化,得到损毁房屋检测框矢量图。由该现有文献的说明书内容可知,该现有方案采用了bifpn替换panet以进行多尺度融合,然而该技术的融合方式采用了全局特征学习以及多尺度信息融合,这种融合方式增加了整体网络的负荷,降低了算法的鲁棒性,同时该现有技术采用矢量化技术,增加了算法复杂性。公布号为
cn114842316a的现有发明专利申请文献《一种结合卷积神经网络及transformer网络的实时目标检测方法》包括以下步骤:s1:输入图像数据;s2:图像通过卷积神经主干网络,使提取特征具备归纳偏置特性;s3:设计检测颈部网络,在检测主干网络及头部网络间进行过渡,为检测头部网络提供高分辨率和高语义特征。s4:设计检测头部网络,在头部网络中引入transformer,为生成的局部特征间构建多个远程依赖关系,并对图像中存在的目标类别及坐标进行表征;s5:设计一种非线性组合方法,用于减少假阴性样本,提升检测模型对目标的捕获能力;s6:在自然数据集上进行检测。由该现有技术的具体实施例中可得知,该现有方案将差值后的特征数据与二阶网络层特征数据在通道维度上进行拼接;二阶网络层提供高分辨率的底层信息,特征融合部分将拼接后的数据再通过深度可分离卷积完成对特征的融合,即将二阶三阶及四阶网络层数据特征进行融合,由于在网络模型的实际运用过程中,不同层次的cnn网络的提取的感受野大小不同,目标特征也不同,如同前述现有方案这种直接融合各个层特征的方式易降低整体模型的预测效果。
4.如图1a及图1b所示,针对现有技术中对于拍摄角度单一(图1a)、目标较小(图1b)导致的特征量有限的素材,错检漏检等问题经常出现。
5.综上,现有技术存在融合效果不佳、增加网络负荷、错检漏检的技术问题。


技术实现要素:



6.本发明所要解决的技术问题在于如何解决现有技术中融合效果不佳、增加网络负荷、错检漏检的技术问题。
7.本发明是采用以下技术方案解决上述技术问题的:一种基于cnn与vit融合的递进式辅助目标检测方法包括:
8.s1、构建pao detection模型,其中,pao detection模型包括:特征提取骨干网络backbone、检测颈、检测头,利用特征提取骨干网络backbone提取目标特征,以检测颈根据目标特征,对差异层特征图进行上下融合,以得到语义位置信息差异分辨率特征图,二分类并回归处理差异层特征图,据以得到不少于2个(若干稀疏的)感兴趣区域,对不同尺度级别的感兴趣区域进行目标间建模,以交互并补充目标特征,以得到vit输出结果,以检测头分类并回归处理vit输出数据,以得到vit预测结果;
9.s2、构建递进式目标间辅助检测模型,以利用基于vit的感兴趣区域建模方法对大分辨率roi特征进行目标间建模与特征对齐,以得到对齐大分辨率roi特征以及对齐中分辨率roi特征,据以进行目标间建模与特征对齐,利用对齐大分辨率roi特征以及对齐中分辨率roi特征与小分辨率roi特征,进行目标间建模与特征对齐;
10.s3、对pao detection模型中检测颈的每层rpn网络输出的前景目标以及vit输出结果,按照simota动态正负样本分配策略进行训练;
11.s4、以pao detection模型计算每层rpn网络输出与vit输出数据的分类损失与回归损失,据以得到联合概率损失;
12.s5、设计面积缩放函数,根据长宽比例因子对预置数据集中的目标面积进行聚类,将所有目标按照缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果,据以对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标。
13.本发明使用cnn网络提取目标特征,得到的特征金字塔经过rpn分离前景与背景,得到感兴趣区域及其特征;最后采用vit网络,依次对不同尺度的感兴趣区域进行目标间建模,从而实现了检测的高精度与低计算量。
14.本发明在cnn前期提取初级特征,并分离出感兴趣区域,通过vit对不同尺度感兴趣区域进行递进式拼接与目标间建模,实现大目标辅助中、小目标的检测。该递进式建模方法按照先大后小的顺序,进行目标间特征交互与特征增强,用以实现大目标对小目标的辅助检测,通用性强,本发明将cnn与vit结构进行串联式融合,在兼顾局部前景响应的同时考虑到全局信息,来提升模型的目标检测能力,对小目标尤为有效。
15.本发明在同一场景中的相同尺度目标,以及不同尺度目标之间存在强相关性,可在全图像范围内建立目标间注意力热图,利用其相互关系进行特征补充与辅助识别,这对一些特征有限的模糊目标以及小目标有着十分重要的意义。
16.在更具体的技术方案中,步骤s4包括:
17.s41、利用难易样本平衡损失函数focal loss,计算rpn预测类别联合概率、vit预测类别联合概率与目标真实标签值之间的差异,据以获取分类损失;
18.s42、利用带角度损失函数siou获取并选择角度损失,根据角度损失重定义距离损失以及形状损失,并以预置逻辑处理得到iou损失,利用pao detection模型的第一层rpn及vit分类并回归处理最小分辨率特征图,以预测大目标信息,得到回归结果与大目标真值,据以计算siou损失;
19.s43、利用第二层rpn回归处理中分辨率特征图,以得到中目标前景特征并与第一层vit输出拼接,据以输入第二层vit模块进行目标级建模,以得到小中目标预测结果,据以利用真值计算获取回归损失;
20.s44、利用第三层rpn回归特征金字塔中的大分辨率特征图,以得到小目标前的前景特征,拼接小目标前的前景特征与第二层vit输出,并输入至第三层vit模块进行目标级建模,以得到所有目标预测结果、各层输出的分类损失及回归损失,据以利用下述逻辑求和得到整个网络训练总损失:
21.l=w
box
l
box
+w
cls
l
cls

22.式中,l
cls
与l
box
分别代表分类与回归损失,w
cls
与w
box
为两种损失的权重因子(可采用例如1:4的比例设置)。
23.在更具体的技术方案中,分类损失在步骤s41中,采用下述逻辑计算rpn预测类别联合概率、vit预测类别联合概率与目标真实标签值之间的差异:
24.fl(p
t
)=-(1-p
t
)
γ
log(p
t
)
[0025][0026]
其中,p
t
为网络预测概率,(1-p
t
)
γ
为模块因子。对于分类准确的样本p
t

1,模块因子趋近于0,y表示真实类别。
[0027]
本发明采用的focal loss相当于增加了难分样本在损失函数中的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度。本发明对于正样本(y=1)的情况下focal loss会向着难分辨样本进行资源倾斜,而负样本本身置信度就小,经过此加权会更加减少,从而更加完全的隔绝负样本数量过多(图像中大部分是背景)的干扰。
[0028]
在更具体的技术方案中,步骤s42包括:
[0029]
s421、以下述逻辑利用带角度损失函数siou获取并选择角度损失:
[0030][0031]
其中,iou是交并比损失,δ是距离损失,ω为形状损失;
[0032]
s422、根据角度损失,利用下述逻辑重定义距离损失:
[0033][0034][0035][0036][0037][0038]
其中:γ为松弛因子;λ为角度损失,由x计算得到,x为预测框与目标框中点连线与水平线夹角的正弦值,α为该夹角,σ为两框距离,ch为两框高度差。δ为距离损失,ρ
x
为两框水平归一化欧式距离,ρy为两框竖直归一化欧式距离。角度损失的目的是使两个目标框越靠近对角线损失越大,越在一条直线上损失越小。而λ函数刚好满足要求。距离损失的目的是,距离越远,距离损失越大加上了松弛因子考虑了角度,所以越靠近对角线损失越大,水平或竖直距离越远,距离损失越大。
[0039]
s423、根据角度损失,利用下述逻辑重定义距离损失:
[0040][0041]
其中:
[0042][0043]
θ为形状关注程度参数;
[0044]
s424、利用下述逻辑定义iou损失,其中b为预测框,b
gt
为真实标签框:
[0045][0046]
s425、以下述逻辑利用pao detection模型的第一层rpn及vit分类并回归处理最小分辨率特征图,以预测大目标信息,得到回归结果与大目标真值,据以计算giou损失:
[0047]
l
1(reg)
=l
large

[0048]
在更具体的技术方案中,步骤s43利用下述逻辑计算回归损失。其中l
large
、l
middle
、l
small
分别代表大中小三类目标的回归损失:
[0049]
l
2(reg)
=l
large
+l
middle
[0050]
l
3(reg)
=l
large
+l
middle
+l
small

[0051]
本发明的三层vit结构并非分别对大、中、小目标建模,而是在上一步建模和对齐的基础上,融合下一层尺度目标特征来进行下一步的目标建模和特征对齐。本发明采用的递进式的融合检测方式,最终能够帮助模型实现相同尺度目标之间,以及不同尺度目标之间的辅助检测,提高了系统的适用性。
[0052]
在更具体的技术方案中,步骤s5包括:
[0053]
s51、以预置逻辑设计面积缩放函数;
[0054]
s52、对预置数据集中的目标按照缩放后目标面积进行聚类,以k-means算法将所有目标按照缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果;
[0055]
s53、根据动态聚类结果对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标。
[0056]
本发明将每张图像中的目标进行动态调整,使得大中小目标的划分阈值处于较小幅度的动态变化之中,让相邻两类对应的特征图都对其进行预测,增强模型对边界值的相应,更利于训练的收敛。
[0057]
在更具体的技术方案中,步骤s51中,以下述逻辑设计面积缩放函数:
[0058][0059]
其中,s
ori
为原始面积,s为目标经过缩放后的面积值,w为宽度,h为高度。
[0060]
在更具体的技术方案中,步骤s52中,利用k-means算法,以下述逻辑将所有目标按照缩放后目标面积分成不少于2个部分:
[0061][0062]
其中,n为数据集目标个数。
[0063]
在更具体的技术方案中,步骤s53中,根据动态聚类结果,以下述逻辑为每张图重新分配目标尺度的划分界限:
[0064][0065]
其中,γ为松弛因子,在每一batch中,为单张图像单独进行三聚类,根据动态聚类结果为预置阈值加入松驰因子。
[0066]
本发明在训练时每一个batch中,本发明都会为单张图像单独进行三聚类,根据动态的聚类结果为提前计算好的阈值加入松驰变量,通过松弛边界划分,可以使处于边界点上的目标不受限与某类固定尺度范围,从而放宽边界限制。
[0067]
本发明的神经网络的某层特征图能够拟合该层负责预测尺度之外的相邻尺度目标,因而更具有泛化性能。而被重复预测的结果则会在后续的nms操作中被去除,从而保证高精度与高召回率。
[0068]
在更具体的技术方案中,一种基于cnn与vit融合的递进式辅助目标检测系统包
括:
[0069]
pao detection模型构建模块,用以构建pao detection模型,其中,pao detection模型包括:特征提取骨干网络backbone、检测颈、检测头,利用特征提取骨干网络backbone提取目标特征,以检测颈根据目标特征,对差异层特征图进行上下融合,以得到语义位置信息差异分辨率特征图,二分类并回归处理差异层特征图,据以得到不少于2个的感兴趣区域,对不同尺度级别的感兴趣区域进行目标间建模,以交互并补充目标特征,以得到vit输出结果,以检测头分类并回归处理vit输出数据,以得到vit预测结果;
[0070]
递进式目标间辅助检测模块,用以构建递进式目标间辅助检测模型,以利用基于vit的感兴趣区域建模方法对大分辨率roi特征进行目标间建模与特征对齐,以得到对齐大分辨率roi特征以及对齐中分辨率roi特征,据以进行目标间建模与特征对齐,利用对齐大分辨率roi特征以及对齐中分辨率roi特征与小分辨率roi特征,进行目标间建模与特征对齐,以利用cspnet从差异尺度特征图上抽取感兴趣区域,递进式目标间辅助检测模块与pao detection模型构建模块连接;
[0071]
训练模块,用以对pao detection模型中检测颈的每层rpn网络输出的前景目标以及vit输出结果,按照simota动态正负样本分配策略进行训练,训练模块与pao detection模型构建模块连接;
[0072]
联合概率损失处理模块,用于以pao detection模型计算每层rpn网络输出与vit输出数据的分类损失与回归损失,据以得到联合概率损失,联合概率损失处理模块与训练模块及pao detection模型构建模块连接;
[0073]
标签尺度动态划分模块,用以设计面积缩放函数,对预置数据集中的目标按照缩放后目标面积进行聚类,将所有目标按照缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果,据以对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标,标签尺度动态划分模块与pao detection模型构建模块及递进式目标间辅助检测模块连接。
[0074]
本发明相比现有技术具有以下优点:本发明使用cnn网络提取目标特征,得到的特征金字塔经过rpn分离前景与背景,得到感兴趣区域及其特征;最后采用vit网络,依次对不同尺度的感兴趣区域进行目标间建模,从而实现了检测的高精度与低计算量。
[0075]
本发明在cnn前期提取初级特征,并分离出感兴趣区域,通过vit对不同尺度感兴趣区域进行递进式拼接与目标间建模,实现大目标辅助中、小目标的检测。该递进式建模方法按照先大后小的顺序,进行目标间特征交互与特征增强,用以实现大目标对小目标的辅助检测,通用性强,本发明将cnn与vit结构进行串联式融合,在兼顾局部前景响应的同时考虑到全局信息,来提升模型的目标检测能力,对小目标尤为有效。
[0076]
本发明在同一场景中的相同尺度目标,以及不同尺度目标之间存在强相关性,可在全图像范围内建立目标间注意力热图,利用其相互关系进行特征补充与辅助识别,这对一些特征有限的模糊目标以及小目标有着十分重要的意义。
[0077]
本发明采用的focal loss相当于增加了难分样本在损失函数中的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度。本发明对于正样本(y=1)的情况下focal loss会向着难分辨样本进行资源倾斜,而负样本本身置信度就小,经过此加权会更加减少,从而更加完全的隔绝负样本数量过多(图像中大部分是背景)的干扰。
[0078]
本发明的三层vit结构并非分别对大、中、小目标建模,而是在上一步建模和对齐的基础上,融合下一层尺度目标特征来进行下一步的目标建模和特征对齐。本发明采用的递进式的融合检测方式,最终能够帮助模型实现相同尺度目标之间,以及不同尺度目标之间的辅助检测,提高了系统的适用性。
[0079]
本发明将每张图像中的目标进行动态调整,使得大中小目标的划分阈值处于较小幅度的动态变化之中,让相邻两类对应的特征图都对其进行预测,增强模型对边界值的相应,更利于训练的收敛。
[0080]
本发明在训练时每一个batch中,本发明都会为单张图像单独进行三聚类,根据动态的聚类结果为提前计算好的阈值加入松驰变量,通过松弛边界划分,可以使处于边界点上的目标不受限与某类固定尺度范围,从而放宽边界限制。
[0081]
本发明的神经网络的某层特征图能够拟合该层负责预测尺度之外的相邻尺度目标,因而更具有泛化性能。而被重复预测的结果则会在后续的nms操作中被去除,从而保证高精度与高召回率。本发明解决了现有技术中存在的融合效果不佳、增加网络负荷、错检漏检的技术问题。
附图说明
[0082]
图1a为现有技术第一错检漏检效果示意图;
[0083]
图1b为现有技术第二错检漏检效果示意图;
[0084]
图2为本发明实施例1的一种基于cnn与vit融合的递进式辅助目标检测方法中的pao detection的结构示意图;
[0085]
图3为本发明实施例1的大目标辅助小目标原图;
[0086]
图4为本发明实施例1的simota的anchor变化过程示意图;
[0087]
图5a为本发明实施例1的第一anchor点选取示意图;
[0088]
图5b为本发明实施例1的第二anchor点选取示意图;
[0089]
图5c为本发明实施例1的第三anchor点选取示意图;
[0090]
图6为本发明实施例1的预测过程以及训练过程示意图;
[0091]
图7为本发明实施例1的角度损失选择过程原理图;
[0092]
图8为本发明实施例1的angle cost的函数曲线图;
[0093]
图9为本发明实施例1的面积缩放函数走向示意图;
[0094]
图10为本发明实施例1的将分类标准加上松弛因子示意图;
[0095]
图11a为本发明实施例2的vit第一层的注意力示意图;
[0096]
图11b为本发明实施例2的vit第二层的注意力示意图;
[0097]
图11c为本发明实施例2的vit第三层的注意力示意图;
[0098]
图12为本发明实施例2的pao detection在uavdt数据集上的结果效果图;
[0099]
图13为本发明实施例2的vit和pao detection在uavdit数据集上的目标密度的变化图;
[0100]
图14a为本发明实施例2的yolox与yolox-pao detection的第一对比效果图;
[0101]
图14b为本发明实施例2的yolox与yolox-pao detection的第二对比效果图;
[0102]
图14c为本发明实施例2的yolox与yolox-pao detection的第三对比效果图;
[0103]
图14d为本发明实施例2的yolox与yolox-pao detection的第四对比效果图。
具体实施方式
[0104]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0105]
实施例1
[0106]
本发明提供的一种基于cnn与vit融合的递进式辅助目标检测方法以串联的方式搭建目标检测网络:cnn前期提取初级特征,并分离出感兴趣区域;vit对不同尺度感兴趣区域进行递进式拼接与目标间建模,实现大目标辅助中、小目标的检测。在被广泛测试的ms-coco数据集上,本发明使用各种backbone进行结合到本发明的pao detection中与其基线网络进行比较,结果均实现了2%-4%的涨点。最后使用yolox的backbone后在coco数据集上得到了新的结果,就是map为55.7%。
[0107]
一、模型介绍
[0108]
本节用以阐述pao detection。首先在第1.1节中描述其架构,第1.2节描述目标间辅助检测模型。第1.3节中,本发明描述了vit的损失函数。
[0109]
1.1、pao detection的体系结构
[0110]
如图2所示,pao detection的结构由特征提取骨干网络(backbone)、检测颈、检测头三部分组成。特征提取骨干网络backbone可采用经典cnn如resnet、cspnet等,因其参数共享、残差链接的特点,使其能够由浅入深,快速提取目标特征;检测颈包括特征金字塔(fpn)、rpn以及vit模块两部分。fpn负责对不同层特征图进行上下融合,从而得到兼顾语义与位置信息的不同分辨率特征图。rpn用来对多层特征图进行二分类与回归,得到若干感兴趣区域。vit模块则负责对不同尺度级别的感兴趣区域进行目标间建模,实现特征交互与补充的功能;检测头则对vit模块输出做最后的分类与回归操作,得到最终预测结果。本发明认为,同一场景中的相同尺度目标,以及不同尺度目标之间存在强相关性,可在全图像范围内建立目标间注意力热图,利用其相互关系进行特征补充与辅助识别,这对一些特征有限的模糊目标以及小目标有着十分重要的意义。
[0111]
2.2、由大到小的递进式目标间辅助检测模型
[0112]
如图3所示,在以往的检测模型中,小目标检测往往是重难点问题。与大目标相比,小目标特征少,可用来做识别与定位的信息有限,因此亟需利用周围与全局目标进行辅助识别与定位,提高检测效果。在目标检测中,大目标往往拥有更高的检测精度,且在同一场景中,大、小目标间相关性很强,可利用高准确率的大目标特征来补充小目标特征,辅助小目标的检测工作。
[0113]
常用的目标检测器,只能检测到主体部分的女性,背后沙滩上的人物识别度较低。本文设计了一种递进式目标间辅助检测模型,利用cspnet在不同尺度特征图上抽取感兴趣区域,首先采取基于vit的感兴趣区域建模方法对大分辨率roi特征进行目标间建模与特征对齐;随后,采用对齐过的大分辨率roi特征与中分辨率roi特征进一步做目标间建模与特征对齐;最后,采用对齐过的大、中分辨率roi特征与小分辨率roi特征做进目标间建模与特
征对齐。具体前向(inference)过程为:首先使用cnn的backbone提取特征,得到特征金字塔;随后利用rpn网络进行第一次分类(前景与背景的二分类)与回归,提取出不同分辨率特征图中的感兴趣区域,并从相应特征图中抽取对应特征块归一化缩放,最终得到相同维度的感兴趣区域特征及其前景的得分;随后,利用vit结构对小分辨率特征图的感兴趣区域(对应大目标)进行目标间建模与特征交互,输出结果与中分辨率特征图的感兴趣区域(对应中目标)进行拼接,并输入第二层vit结构进行目标间建模与特征交互,实现大目标对中目标的特征增强。输出结果同样与大分辨率特征图对应的感兴趣区域(对应小目标)进行拼接,并输入第三层vit结构,从而实现递进式的特征补充,让检测精度更高的大尺度目标来辅助小目标检测。最后,对三阶段vit输出特征做第二次的分类与回归,分类得分与首次前背景分类得到相乘,得到最终目标类别与位置信息。其流程如图2所示。通过这种递进的对齐与建模方式,利用特征丰富的大目标来辅助中小目标的识别工作,达到了较好效果。
[0114]
2.3、训练阶段
[0115]
如图4所示,在训练阶段,对每层rpn网络输出的前景目标,以及vit输出预测结果,按照simota动态正负样本分配策略。
[0116]
如图5所示,具体过程为,根据已有的anchor和gt,将gt定义为可以提供正样本的供货商,将anchor定义为需要一个样本的需求方,将背景定义为提供负样本的供货商,他们之间的路程消耗为loss,经过不断迭代,将到消耗最短的路径从而选取真正的anchor。
[0117]
如图6所示,进而计算损失,最后,将三层损失相加,得到总损失,按照梯度下降法更新网络参数。
[0118]
2.4、损失函数
[0119]
模型对rpn输出与vit输出计算联合概率损失,损失由分类与回归损失加权组成,表示如下:
[0120]
l=w
box
l
box
+w
cls
l
cls
[0121]
分类损失采用难以样本均衡的focal loss作为损失函数,用来计算rpn、vit输出的预测类别联合概率与目标真实标签值之间的差异,其公式如下:
[0122]
fl(p
t
)=-(1-p
t
)
γ
log(p
t
)
[0123]
其中(1-p
t
)
γ
称作modulating factor,对于分类准确的样本p
t

1,modulating factor趋近于0。对于分类不准确的样本(1-p
t
)

1,modulating factor趋近于1。相比交叉熵损失,focal loss对于分类不准确的样本,损失没有改变,对于分类准确的样本,损失会变小,整体而言,相当于增加了分类不准确样本在损失函数中的权重。同时p
t
也反应了分类的难易程度,p
t
越大,说明分类的置信度越高,与真实类别y即ground truth越相似,代表样本越易分,分类越准确;p
t
越小,分类的置信度越低,代表样本越难分,其中y为可调节因子,且y>0。因此focal loss相当于增加了难分样本在损失函数中的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度。focal loss的主要目标是增加难分类样本的重视程度,其中难分类样本的判断标准是,对于正样本来说,置信度越小越是难分类。而增加重视程度即增加损失的权重使得计算增多。loss中p
t
的表达式如下:
[0124][0125]
对于正样本(y=1)的情况下focal loss会向着难分辨样本进行资源倾斜,而负样
本本身置信度就小,经过此加权会更加减少,从而更加完全的隔绝负样本数量过多(图像中大部分是背景)的干扰。
[0126]
回归损失函数采用带角度损失的siou损失函数:回归损失函数的目标是在理想情况下将预测框与真实框相匹配,而不匹配的评判标准有三个:框中心之间的距离、重叠区域、纵横比。传统的惩罚指标有三个:距离、形状和iou。为了加快网络收敛速度和效果,考虑了匹配的方向,最终形成siou损失函数:
[0127][0128]
其中,iou是交并比损失,对预测框与真实框的完全重合起着促进作用;δ是距离损失,同时受到角度损失的影响;ω为形状损失,约束着在不同移动情况下预测框的形状。使用角度损失的意图是最大限度的减少与距离相关的奇异变量的数量。
[0129]
在本实施例中,将预测框先移到真实框的x轴或y轴上(以接近者为准),然后沿着相关轴继续前进。
[0130]
如图7及图8所示,若α≤π/4,则最小化α,反之则最小化β。并定义角度损失如下式:
[0131][0132]
其中:
[0133][0134][0135][0136]
考虑到以上角度损失,重新定义距离损失:
[0137][0138]
其中:
[0139][0140]
在本实施例中,角度损失的目的是使两个目标框越靠近对角线损失越大,越在一条直线上损失越小。而λ函数刚好满足要求。距离损失的目的是,距离越远,距离损失越大加上了松弛因子考虑了角度,所以越靠近对角线损失越大,水平或竖直距离越远,距离损失越大。从图7及图8中可以看出当α

0时,distance cost的贡献变得大大降低,相反,α越接近distance cost贡献越大。随着角度的增大,问题变得越来越难。因此,角度越大,对距离的计算力度越大形状损失的定义为:
[0141][0142]
其中:
[0143]
[0144]
θ值定义了每个shape cost及其值是唯一的,θ的值是这个等式的十分重要的一环,它控制着对shape cost的关注程度。如果θ为1,它将立即优化一个shape,从而损害shape的自由移动。iou损失的定义为:
[0145][0146]
针对三层pao detection网络,第一层rpn与vit负责对最小分辨率特征图做分类与回归操作,来预测对应的大目标信息。其回归结果与大目标真值(groundtruth)计算giou损失:
[0147]
l
1(reg)
=l
large
[0148]
网络第二层rpn负责回归中分辨率特征图,将得到中目标前景特征并与第一层vit输出拼接,随后输入第二层vit模块来做目标级建模,最终得到网络对小、中目标的预测结果,进而利用真值(groundtruth)计算回归损失;网络第三层rpn回归特征金字塔中的大分辨率特征图,将得到小目标前的前景特征,将其与第二层vit输出拼接后输入第三层vit模块来做目标级建模,最终得到所有目标的预测结果,进而计算回归损失,公式如下:
[0149]
l
2(reg)
=l
large
+l
middle
[0150]
l
3(reg)
=l
large
+l
middle
+l
small
[0151]
因此,三层vit结构并非分别对大、中、小目标建模,而是在上一步建模和对齐的基础上,融合下一层尺度目标特征来进行下一步的目标建模和特征对齐。该递进式的融合检测方法,最终能够帮助模型实现相同尺度目标之间,以及不同尺度目标之间的辅助检测。
[0152]
整个网络训练总损失为三层rpn与vit输出分类与回归损失之和。
[0153]
三、标签尺度动态划分方法
[0154]
如图9所示,常用的数据集和检测器,一般根据目标面积占图像比来划分大中小三种目标。然而,在相同面积下,宽高差异较大的目标拥有更大的anchor跨度,使得网络对其预测大于其本身所在的尺度范围(层)。因此,本发明根据目标的宽高比设计了一种面积缩放函数,来衡量宽高因素对其尺度类别的影响程度。面积缩放函数定义如下:
[0155][0156]
其中s
ori
为原始面积,s为目标经过缩放后的面积值,用来作为判断目标尺度大小的最终标准。面积缩放函数中,输入为任意目标的宽高(w为宽度,h为高度),其函数走向如图9所示,函数以宽高比1为起点,沿x轴正负方向单调递增,值域区间为[1,1.6)。这表明目标宽高差异越大,对面积的增益(缩放)越大,更容易向上一级尺度类别靠近(比如宽高差异较大的小目标,由于宽或高过大,可能被判定为中目标),但缩放比例可控,对目标面积的增幅不超过1.6倍,符合目标尺度分布情况。
[0157]
随后,将数据集中的目标按照大中小进行聚类,首先利用缩放后的目标面积,对整个数据集进行聚类:使用k-means算法将所有目标按照目标大小分成三部分,得到三个区域的聚类中心为:s
l
,sm,ss,计算过程为:
[0158]
[0159]
其中n为数据集目标个数。经过计算,不同尺寸的目标可以到自己属于的类。然而在实际训练过程中,不同图片中其目标的尺度分布并不相同:有些目标间的尺度差异较大,而有些较小,并且存在只含有大目标或只含有小目标的情况。因此,这样的硬性划分边界方法会损伤模型对具体图片的拟合情况:对于一些存在于边界的真值,严格按硬边界划分会使得相邻特征图对其行进预测的监督信号为0,不利于模型的泛化。
[0160]
如图10所示,对于这些边界值,最好的办法是让相邻两类对应的特征图都对其进行预测,增强模型对边界值的相应,更利于训练的收敛。为了解决该问题,训练时每一个batch中,本发明都会为单张图像单独进行三聚类,根据动态的聚类结果为提前计算好的阈值加入松驰变量,从而放宽边界限制。
[0161]
具体计算过程为:针对每一张图片其中目标计算其聚类中心为s
′s,s
′m,s

l
,每一个类可用均值与方差来表示。根据动态聚类结果,可为每张图重新分配目标尺度的划分界限:
[0162][0163]
其中γ为松弛因子,代表固定边界向动态边界的移动程度,实验中可设为0.1。根据松弛公式,本发明可以将每张图像中的目标进行动态调整,使得大中小目标的划分阈值处于较小幅度的动态变化之中。
[0164]
松弛边界划分的方法,可以使处于边界点上的目标不受限与某类固定尺度范围。因为目标尺寸的“大小”本就是一个相对概念,对其判断标准的硬性划分反而会让每层某型受限而“放不开手脚”。采用松弛边界后,神经网络的某层特征图能够拟合该层负责预测尺度之外的相邻尺度目标,因而更具有泛化性能。而被重复预测的结果则会在后续的nms操作中被去除,从而保证高精度与高召回率(比如:相邻两层特征图同时预测了边界上的同一目标,在nms操作中只会保留置信度较高的预测框从而去除重复预测)。
[0165]
实施例2
[0166]
四、实验效果
[0167]
实验硬件使用配置有内存为24gb英伟达3090tigpu的intel 10900k i9 pc机;操作系统为ubuntu20.04,在python中基于pytorch深度学习框架对算法模型编程实现。实验环境基于pytorch1.9.1和python3.8。cnn部分采用centernet2中的resnet骨干网络与tolox中的darknet两种,vit分支输入序列编码维度为256。由于输入序列较少,不采用多头注意力结构。输出后处理时,非极大值抑制(nms)阈值为0.8,测试结果可视化选用的置信度阈值为0.3。训练前期,将cnn分支在imagenet分类数据集上预训练,vit分支在imagenet采用ibot掩模自监督方法预训练。训练中部分参数设置为:学习率取4*10^(-3),采用sgd动量衰减梯度下降法进行迭代。动量取0.9,权重衰减为0.0005。整个训练过程在两张gpu上,共计400个epoch,同时训练32张图像(batchsize=32)。
[0168]
表1.本文方法与其他检测网络在coco数据集上测试结果
[0169][0170]
表2.本文方法与其他检测网络在uavdt数据集上测试结果
[0171][0172]
如图11a、图11b及图11c所示,通过实验结果可知,本文所采用的改进方法在centernet2基础上提升了5.1%的map,yolox上提升了4.8%,而参数量增加不超过10%。其map值均超过主流cnn与vit based检测器。
[0173]
结合图11a中的layer1(first layer)、图11b中的layer3(middle layer)以及图11c中的layer5(final layer)图像,可知vit每一层的注意力的变化过程。
[0174]
如图12所示,可以看到刚开始自注意力只是关注与自己完全相同的一部分,随着训练的层数的增加,最终与全图做特征交互,证明了添加的vit的有效性。
[0175]
如图13所示,为了与普通的自注意力机制进行对比,本发明将vit与pao detection进行了目标热度图对比。图13中,第一行为原图,第二行是传统vit(实验采用swin transformer)的特征提取效果,由于用transformer提取图像特征,导致模型在背景区域中存在较多噪音点。本文方法pao detection由于只针对cnn预先提取的前景目标进行建模,得到的特征图响应更加稀疏,噪音少,目标所在位置的响应更加明显,如图第三行所示。
[0176]
如图14a至图14d所示,为了测试对小目标的实验效果,使用上述实验中表现好的yolox和yolox-pao detection进行实验得到结果图参见前述对比图。
[0177]
实验结果表明提升了所有目标的检测效果,尤其小目标提升明显。
[0178]
五、总结
[0179]
本文提出了一种递进式辅助目标检测方法(pao detection),将cnn与vit结构进行串联式融合,在兼顾局部前景响应的同时考虑到全局信息,来提升模型的目标检测能力,尤其对小目标尤为有效。pao detection由特征提取网络cnn、分离前景与背景的rpn结构以及三个用进行目标间建模的vit结构组成。具体来说,由cnn率先提取目标特征,降低特征图分辨率;随后,rpn结构对cnn输出的特征金字塔提取不同尺度层级的感兴趣区域,将其对应特征分别按照递进式结构输入三层vit进行目标间建模,利用相关性注意力图实现特征交互与补充,提升特征有效性,进而提升检测效果。其中,采用了松弛边界计算方法,动态计算每个batch中不同图片的目标尺度聚类形况,为监督学习添加目标划分“软边界”。大量的实验结果表明pao detection有利于特征提取网络的目标检测性能提高,例如resnet、cspnet等。更具体的说,上述网络在coco数据集上的map提高了1.5%-3%,同时实验结果表明,针对小目标的检测更为有效,在多数为小目的数据集uavdt中resnet的网络的准确度提高了4%。
[0180]
综上,本发明使用cnn网络提取目标特征,得到的特征金字塔经过rpn分离前景与背景,得到感兴趣区域及其特征;最后采用vit网络,依次对不同尺度的感兴趣区域进行目标间建模,从而实现了检测的高精度与低计算量。
[0181]
本发明在cnn前期提取初级特征,并分离出感兴趣区域,通过vit对不同尺度感兴趣区域进行递进式拼接与目标间建模,实现大目标辅助中、小目标的检测。该递进式建模方法按照先大后小的顺序,进行目标间特征交互与特征增强,用以实现大目标对小目标的辅助检测,通用性强,本发明将cnn与vit结构进行串联式融合,在兼顾局部前景响应的同时考虑到全局信息,来提升模型的目标检测能力,对小目标尤为有效。
[0182]
本发明在同一场景中的相同尺度目标,以及不同尺度目标之间存在强相关性,可在全图像范围内建立目标间注意力热图,利用其相互关系进行特征补充与辅助识别,这对一些特征有限的模糊目标以及小目标有着十分重要的意义。
[0183]
本发明采用的focal loss相当于增加了难分样本在损失函数中的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度。本发明对于正样本(y=1)的情况下focal loss会向着难分辨样本进行资源倾斜,而负样本本身置信度就小,经过此加权会更加减少,从而更加完全的隔绝负样本数量过多(图像中大部分是背景)的干扰。
[0184]
本发明的三层vit结构并非分别对大、中、小目标建模,而是在上一步建模和对齐的基础上,融合下一层尺度目标特征来进行下一步的目标建模和特征对齐。本发明采用的递进式的融合检测方式,最终能够帮助模型实现相同尺度目标之间,以及不同尺度目标之间的辅助检测,提高了系统的适用性。
[0185]
本发明将每张图像中的目标进行动态调整,使得大中小目标的划分阈值处于较小幅度的动态变化之中,让相邻两类对应的特征图都对其进行预测,增强模型对边界值的相应,更利于训练的收敛。
[0186]
本发明在训练时每一个batch中,本发明都会为单张图像单独进行三聚类,根据动态的聚类结果为提前计算好的阈值加入松驰变量,通过松弛边界划分,可以使处于边界点上的目标不受限与某类固定尺度范围,从而放宽边界限制。
[0187]
本发明的神经网络的某层特征图能够拟合该层负责预测尺度之外的相邻尺度目标,因而更具有泛化性能。而被重复预测的结果则会在后续的nms操作中被去除,从而保证
高精度与高召回率。本发明解决了现有技术中存在的融合效果不佳、增加网络负荷、错检漏检的技术问题。
[0188]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述方法包括:s1、构建pao detection模型,其中,所述pao detection模型包括:特征提取骨干网络backbone、检测颈、检测头,利用所述特征提取骨干网络backbone提取目标特征,以所述检测颈根据所述目标特征,对差异层特征图进行上下融合,以得到语义位置信息差异分辨率特征图,二分类并回归处理所述差异层特征图,据以得到不少于2个的感兴趣区域,对不同尺度级别的所述感兴趣区域进行目标间建模,以交互并补充所述目标特征,以得到vit输出结果,以所述检测头分类并回归处理所述vit输出数据,以得到vit预测结果;s2、构建递进式目标间辅助检测模型,以利用基于vit的感兴趣区域建模方法对大分辨率roi特征进行目标间建模与特征对齐,以得到对齐大分辨率roi特征以及对齐中分辨率roi特征,据以进行目标间建模与特征对齐,利用所述对齐大分辨率roi特征以及所述对齐中分辨率roi特征与小分辨率roi特征,进行目标间建模与特征对齐,以利用cspnet从差异尺度特征图上抽取所述感兴趣区域;s3、对所述pao detection模型中所述检测颈的每层rpn网络输出的前景目标以及所述vit输出结果,按照simota动态正负样本分配策略进行训练;s4、以所述pao detection模型计算所述每层rpn网络输出与所述vit输出数据的分类损失与回归损失,据以得到联合概率损失;s5、设计面积缩放函数,根据长宽比例因子对预置数据集中的目标按照缩放后目标面积进行聚类,将所有所述目标按照所述缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果,据以对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标。2.根据权利要求1所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s4包括:s41、利用难易样本平衡损失函数focal loss,计算rpn预测类别联合概率、vit预测类别联合概率与目标真实标签值之间的差异,据以获取所述分类损失;s42、利用带角度损失函数siou获取并选择角度损失,根据所述角度损失重定义距离损失以及形状损失,并以预置逻辑处理得到iou损失,利用所述pao detection模型的第一层rpn及vit分类并回归处理最小分辨率特征图,以预测大目标信息,得到回归结果与大目标真值,据以计算siou损失;s43、利用第二层rpn回归处理中分辨率特征图,以得到中目标前景特征并与第一层vit输出拼接,据以输入第二层vit模块进行目标级建模,以得到小中目标预测结果,据以利用真值计算获取所述回归损失;s44、利用第三层rpn回归特征金字塔中的大分辨率特征图,以得到小目标前的前景特征,拼接所述小目标前的前景特征与第二层vit输出,并输入至第三层vit模块进行目标级建模,以得到所有目标预测结果、各层输出的所述分类损失及所述回归损失,据以利用下述逻辑求和得到整个网络训练总损失:l=w
box
l
box
+w
cls
l
cls
式中,l
cls
与l
box
分别代表分类与回归损失,w
cls
与w
box
为两种损失的权重因子。3.根据权利要求2所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s41中,采用下述逻辑计算rpn预测类别联合概率、vit预测类别联合概率与
目标真实标签值之间的差异:fl(p
t
)=-(1-p
t
)
γ
log(p
t
)其中,(1-p
t
)
γ
为模块因子,对于分类准确的样本p
t

1,所述模块因子趋近于0,p
t
表示分类的难易程度,y表示真实类别。4.根据权利要求2所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s42包括:s421、以下述逻辑利用所述带角度损失函数siou获取并选择所述角度损失:其中,iou是交并比损失,δ是距离损失,ω为形状损失;s422、根据所述角度损失,利用下述逻辑重定义所述距离损失:s422、根据所述角度损失,利用下述逻辑重定义所述距离损失:s422、根据所述角度损失,利用下述逻辑重定义所述距离损失:s422、根据所述角度损失,利用下述逻辑重定义所述距离损失:s422、根据所述角度损失,利用下述逻辑重定义所述距离损失:其中:γ=2-λ,γ为松弛因子,λ为角度损失,由x计算得到,x为预测框与目标框中点连线与水平线夹角的正弦值,α为该夹角,σ为两框距离,c
h
为两框高度差。δ为距离损失,ρ
x
为两框水平归一化欧式距离,ρ
y
为两框竖直归一化欧式距离;s423、根据所述角度损失,利用下述逻辑重定义所述距离损失:其中:θ为形状关注程度参数;s424、利用下述逻辑定义所述iou损失:其中,b为预测框,b
gt
为真实标签框;s425、以下述逻辑利用所述pao detection模型的第一层rpn及vit分类并回归处理最小分辨率特征图,以预测大目标信息,得到回归结果与大目标真值,据以计算giou损失:l
1(reg)
=l
large

5.根据权利要求2所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s43利用下述逻辑计算所述回归损失:l
2(reg)
=l
large
+l
middle
l
3(reg)
=l
large
+l
middle
+l
small
其中,l
large
、l
middle
、l
small
分别代表大中小三类目标的回归损失。6.根据权利要求1所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s5包括:s51、以预置逻辑设计所述面积缩放函数;s52、对预置数据集中的目标按照缩放后目标面积进行聚类,以k-means算法将所有所述目标按照所述缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果;s53、根据所述动态聚类结果对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标。7.根据权利要求6所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s51中,以下述逻辑设计所述面积缩放函数:其中,s
ori
为原始面积,s为目标经过缩放后的面积值,w为宽度,h为高度。8.根据权利要求6所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s52中,利用所述k-means算法,以下述逻辑将所有所述目标按照所述缩放后目标面积分成不少于2个部分:其中,n为数据集目标个数。9.根据权利要求6所述的一种基于cnn与vit融合的递进式辅助目标检测方法,其特征在于,所述步骤s53中,根据动态聚类结果,以下述逻辑为每张图重新分配所述目标尺度的划分界限:其中,γ为松弛因子,在每一batch中,为单张图像单独进行三聚类,根据所述动态聚类结果为预置阈值加入所述松驰因子。10.一种基于cnn与vit融合的递进式辅助目标检测系统,其特征在于,所述系统包括:pao detection模型构建模块,用以构建pao detection模型,其中,所述pao detection模型包括:特征提取骨干网络backbone、检测颈、检测头,利用所述特征提取骨干网络backbone提取目标特征,以所述检测颈根据所述目标特征,对差异层特征图进行上下融合,以得到语义位置信息差异分辨率特征图,二分类并回归处理所述差异层特征图,据以
得到不少于2个的感兴趣区域,对不同尺度级别的所述感兴趣区域进行目标间建模,以交互并补充所述目标特征,以得到vit输出结果,以所述检测头分类并回归处理所述vit输出数据,以得到vit预测结果;递进式目标间辅助检测模块,用以构建递进式目标间辅助检测模型,以利用基于vit的感兴趣区域建模方法对大分辨率roi特征进行目标间建模与特征对齐,以得到对齐大分辨率roi特征以及对齐中分辨率roi特征,据以进行目标间建模与特征对齐,利用所述对齐大分辨率roi特征以及所述对齐中分辨率roi特征与小分辨率roi特征,进行目标间建模与特征对齐,以利用cspnet从差异尺度特征图上抽取所述感兴趣区域,所述递进式目标间辅助检测模块与所述pao detection模型构建模块连接;训练模块,用以对所述pao detection模型中所述检测颈的每层rpn网络输出的前景目标以及所述vit输出结果,按照simota动态正负样本分配策略进行训练,所述训练模块与所述pao detection模型构建模块连接;联合概率损失处理模块,用于以所述pao detection模型计算所述每层rpn网络输出与所述vit输出数据的分类损失与回归损失,据以得到联合概率损失,所述联合概率损失处理模块与所述训练模块及所述pao detection模型构建模块连接;标签尺度动态划分模块,用以设计面积缩放函数,对预置数据集中的目标按照缩放后目标面积进行聚类,将所有所述目标按照所述缩放后目标面积分成不少于2个部分,以得到不少于2个的聚类中心以得到动态聚类结果,据以对每张图重新分配目标尺度的划分界限,以利用大目标辅助检测中小目标,所述标签尺度动态划分模块与所述pao detection模型构建模块及所述递进式目标间辅助检测模块连接。

技术总结


本发明提供一种基于CNN与ViT融合的递进式辅助目标检测方法及系统,方法包括:将CNN与ViT结构进行串联式融合;Pao detection由特征提取网络CNN、分离前景与背景的RPN结构以及三个用进行目标间建模的ViT结构组成,其中,由CNN率先提取目标特征,降低特征图分辨率;随后,RPN结构对CNN输出的特征金字塔提取不同尺度层级的感兴趣区域,将其对应特征分别按照递进式结构输入三层ViT进行目标间建模,利用相关性注意力图实现特征交互与补充,提升特征有效性,进而提升检测效果;采用松弛边界计算方法,动态计算每个batch中不同图片的目标尺度聚类形况,为监督学习添加目标划分软边界。本发明解决了融合效果不佳、增加网络负荷、错检漏检的技术问题。漏检的技术问题。漏检的技术问题。


技术研发人员:

李从利 席智中 沈延安 高一博 刘永峰 韦哲

受保护的技术使用者:

中国人民解放军陆军炮兵防空兵学院

技术研发日:

2022.10.12

技术公布日:

2022/12/30

本文发布于:2024-09-26 00:33:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/50377.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:目标   特征   损失   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议