基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法与流程


解码器、时间transformer和前馈网络(ffn);其中时间transformer由三个组件组成,即时间可变形transformer编码器(tdte)、时间查询编码器(tqe)和时间可变形transformer解码器(tdtd)。
8.基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,主要包含以下步骤:
9.s1:通过现场监控或其他摄像工具获取电力作业动态视频;
10.s2:运用mk-rcn结构,对电力作业人员视频图像提取特征表示;
11.s3:将s2提取到的特征,用位置编码补充它,得到位置嵌入,位置编码向量公式如下:
[0012][0013][0014]
其中,pe为二维矩阵,pos表示位置,dmodel表示向量维度。
[0015]
s4:将s2得到的特征图和s3获得的位置嵌入传递给transformer编码器;
[0016]
s5:将对象查询得到的输出和s4中transformer编码器的输出作为transformer解码器的输入,使用多头注意力模块(multiheadattn),将学习位置编码的输入嵌入转换为输出嵌入,并将transformer编码器和transformer解码器的每个输出嵌入传递给时间transformer,多头注意力模块实现公式如下:
[0017][0018]
其中,m为第m注意头,和为学习权重。注意力权重a
mqk
为为学习权重;
[0019]
s6:将s4的特征图输入至tdte,对时空特征表示进行编码;
[0020]
s7:将步骤5的输出嵌入输入至tqe,从参考帧中获取所有空间对象查询以增强当前帧的空间输出查询;
[0021]
s8:将步骤6和步骤7的输出输入到tdtd中,以学习不同帧的时间上下文,tdtd层包括自注意力模块、可变形聚合注意力模块、前向反馈层,可变形聚合注意力模块实现公式为:
[0022][0023]
s9:将步骤8的每个输出嵌入传递给ffn,通过ffn进行最终的目标检测识别。
[0024]
进一步的,s2的具体步骤包括:
[0025]
s2.1:初始化mk-rcn结构的参数,使用resnet-18作为网络主干,在残差模块处使用三种卷积核,卷积核大小分别为3
×
3、3
×
1和1
×
3,学习率为10-5
,权重衰减为10-4

[0026]
s2.2:提取电力作业动态视频的第(t-i)至t帧对其进行特征提取,初始图片为3
×
h0×
w0,经mk-rcn产生新特征图c
×h×
w。
[0027]
进一步的,s3的具体步骤包括:
[0028]
s3.1:将s2.2得到的特征图分成三份,一份直接作为v值向量,其余两份与位置编码向量直接相加,分别作为k(键向量)和q(查询向量),根据位置编码向量公式(3-1)(3-2),可将pe(pos+k,2i)的向量求解,表示为pe(pos,2i)上的线性表示:
[0029][0030][0031]
进一步的,s4的具体步骤包括:
[0032]
s4.1:transformer编码器每一层由多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,在多头注意力层和前向反馈层(feed-forward)后各进行一次归一化,初始学习率为2
×
10-4
,权重衰减为10-4

[0033]
s4.2:将s3.1得到的kvq输入多头注意力模块,输出新特征图;
[0034]
s4.3:将s4.2得到的新特征图与原特征图相加;
[0035]
s4.4:进行linear还原维度,relu激活;
[0036]
s4.5:重复经过6个transformer编码器层后,编码结束,输出。
[0037]
进一步的,s5的具体步骤包括:
[0038]
s5.1:transformer译码器的输入包括查询嵌入、查询位置、transformer编码器输出、多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,每一层的输入除了上一层输入外,还有查询位置和transformer编码器中的位置编码,初始学习率为2
×
10-4
,权重衰减为10-4

[0039]
s5.2:输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到k、q,对象查询设置为300;
[0040]
s5.3:将s5.2得到的k和q与对象查询的输出输入到第一个多头注意力模块multiheadattn,得到输出;
[0041]
s5.4:将s5.3的输出进行dropout与对象查询的输出相加输出;
[0042]
s5.5:将对象查询的输出于与查询位置相加得到q,将s4.5的输出与位置编码向量相加得到k,s4.5的输出作为v,输入至第二个多头注意力模块;
[0043]
s5.6:进行linear还原维度,relu激活;
[0044]
s5.7:经过6个transformer解码器层后,解码结束,输出。
[0045]
进一步的,s6的具体步骤包括:
[0046]
s6.1:tdte层包括自注意力模块(self-attention)、多头可变形注意力模块(tempdefattn)和前向反馈层
[0047]
s6.2:将s4.5的输出作为输入,至自注意力模块
[0048]
s6.3:s6.2的输出作为多头可变形注意力模块的输入;
[0049]
s6.4:s6.3的输出作为前向反馈层的输入;
[0050]
进一步的,s6.3中,多头可变形注意力模块的输入,实现公式如下:
[0051][0052]
其中,m为第m注意头;l为同一视频采样的第l帧;k为第k采样点;δp
mlqk
和a
mlqk
分别
表示第l帧第k采样点和第m注意头的采样偏移和注意权重;标量注意权重a
mlqk
位于[0,1]中,由归一化所得;δp
mlqk
∈r2为具有无约束范围的二维实数;使用双线性插值法计算x(pq+δp
mlqk
;δp
mlqk
和a
mlqk
由查询特征zq上的线性投影得到的;使用归一化坐标实现比例公式,归一化坐标(0,0)和(1,1)分别表示左上角和右下角的图像拐点;函数将归一化坐标重新缩放到第l帧的输入特征图。多帧时间变形注意采样来自l特征图中的lk点,而不是单帧特征图中的k点
[0053]
进一步的,s7的具体步骤包括:
[0054]
s7.1:tqe层包括自注意力模块、交叉注意力模块(cross-attention)、前向反馈层
[0055]
s7.2:将步骤5.7的输出作为自注意力模块的输入
[0056]
s7.3:将步骤7.2的输出作为交叉注意力模块的输入,结合所有参考框架的空间对象查询,表示为q
ref
。以粗到细的方式进行评分和选择,即使用额外的前向反馈层预测类logits,然后计算其sigmoid值p=sigmoid[ffn(q
ref
)],通过p值对所有参考点进行排序,选择最高的k值输入至浅层网络,较低k值输入较深层网络
[0057]
s7.4:迭代地更新输出查询。
[0058]
进一步的,s8的具体步骤包括:
[0059]
s8.1:将s6.4的输出作为自注意力模块的输入;
[0060]
s8.2:将s7.4的细化的时间对象查询和s8.1的输出作为可变形聚合注意力模块的输入;
[0061]
s8.3:将s8.2的输出作为前向反馈层的输出;
[0062]
s8.4:将s8.3的输出作为ffn的输入,实现目标检测识别。
[0063]
进一步的,s8.3中,损失函数公式为:
[0064][0065]
其中,表示用于分类的焦点损失;和表示用于定位l1损失和广义iou损失;λ
cls
,λ
l1
和λ
giou
是其系数。
[0066]
相对于现有技术,本发明的有益效果在于:基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,选取基于多卷积核残差模块的时间transformer模型,结合深度学习技术,提供了适合在复杂的电力作业环境中进行移动个体检测的方法,实现了对电力行业中工作人员安全作业时的安全帽佩戴情况的自动识别与跟踪检测,减小了误报率,提高了检测效率,本发明能够有效提升电力行业中针对安全帽佩戴识别的适应性和高效性,为深度学习技术在电力安全作业中的动态目标自动识别与跟踪应用探索了一条有效可行的路径。
附图说明
[0067]
图1为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的安全帽识别佩戴流程图;
[0068]
图2为基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的多卷积核残差模块的时间transformer模型;
[0069]
图3为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的rcn多卷积核残差模块;
[0070]
图4为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的视频中的图像帧;
[0071]
图5为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的三种卷积核;
[0072]
图6为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的卷积过程中的一张感觉带有马赛克的图例;
[0073]
图7为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的视频中单帧图像的目标检测结果;
[0074]
图8为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的状态1时的跟踪结果;
[0075]
图9为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的状态2时的跟踪结果;
[0076]
图10为本发明基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法的状态3时的跟踪结果。
具体实施方式
[0077]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0078]
本发明提供一种技术方案:基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,设计方案主要由四个部分构成:用于提取特征表示的多卷积核残差神经网络(mk-rcn)主干、transformer编码器-解码器、时间transformer和前馈网络(ffn)进行最终的检测识别。时间transformer由三个组件组成,即时间可变形transformer编码器(tdte)、时间查询编码器(tqe)和时间可变形transformer解码器(tdtd)。
[0079]
其中,mk-rcn结构是为了提高模型多形态目标的感知敏感度,加强特征重用,来解决对小目标识别准确率低的问题;transformer编码器-解码器将每个帧(包括参考帧和当前帧)编码为两个紧凑的表示,即空间对象查询和内存编码;tdte将时空特征表示进行编码,为最终的解码器输出提供位置线索;tqe测量当前帧中的对象与参考图像中的对象之间的交互,用于融合对象查询;tdtd学习不同帧的时间上下文,获得当前帧检测结果;ffn结构实现目标检测识别。
[0080]
基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,具体包括以下步骤:
[0081]
s1:通过现场监控获取电力作业动态视频,电力监控系统用于对供电系统集中管理、调度、控制和数据采集,现场监控是用于监视和控制电力生产及供应过程的智能系统利用电力监控系统的后台工作站获取电力作业现场的动态视频。
[0082]
s2:运用mk-rcn结构,对电力作业人员视频图像提取特征表示。s2的具体步骤包括:
[0083]
s2.1:初始化mk-rcn结构的参数,使用resnet-18作为网络主干,在残差模块处使
用三种卷积核,卷积核大小分别为3
×
3、3
×
1和1
×
3,学习率为10-5
,权重衰减为10-4

[0084]
s2.2:提取电力作业动态视频的第(t-i)至t帧对其进行特征提取,初始图片为3
×
h0×
w0,经mk-rcn产生新特征图c
×h×
w。
[0085]
s3:将s2获得的特征,用位置编码补充它,得到位置嵌入。s3的具体步骤包括:
[0086]
s3.1:将s2.2得到的特征图分成三份,一份直接作为v值向量,其余两份与位置编码向量直接相加,分别作为k(键向量)和q(查询向量),位置编码向量实现公式如下:
[0087][0088][0089]
其中,pe为二维矩阵,pos表示位置,dmodel表示向量维度。
[0090]
根据式(3-1)(3-2),可将pe(pos+k,2i)的向量求解,表示为pe(pos,2i)上的线性表示:
[0091][0092][0093]
s4:将s2得到的特征图和s3获得的位置嵌入输入至transformer编码器。s4的具体步骤包括:
[0094]
s4.1:transformer编码器每一层由多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,在多头注意力层和前向反馈层(feed-forward)后各进行一次归一化,初始学习率为2
×
10-4
,权重衰减为10-4

[0095]
s4.2:将s3.1得到的kvq输入多头注意力模块,输出新特征图;
[0096]
s4.3:将s4.2得到的新特征图与原特征图相加;
[0097]
s4.4:进行linear还原维度,relu激活;
[0098]
s4.5:重复经过6个transformer编码器层后,编码结束,输出。
[0099]
s5:将对象查询得到的输出和步骤4获得的特征图输入至transformer解码器,transformer解码器将对象查询得到的输出和transformer编码器的输出作为输入,使用多头注意力模块,将学习位置编码的输入嵌入转换为输出嵌入。s5的具体步骤包括:
[0100]
s5.1:transformer译码器的输入包括查询嵌入、查询位置、transformer编码器输出、多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,每一层的输入除了上一层输入外,还有查询位置和transformer编码器中的位置编码,初始学习率为2
×
10-4
,权重衰减为10-4

[0101]
s5.2:输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到k、q,对象查询设置为300;
[0102]
s5.3:将步骤5.2得到的k和q与对象查询的输出输入到第一个多头注意力模块
(multiheadattn),得到输出,多头注意力模块实现公式如下:
[0103][0104]
其中,m为第m注意头,和为学习权重。注意力权重a
mqk
为为学习权重;
[0105]
s5.4:将s5.3的输出进行dropout与对象查询的输出相加输出;
[0106]
s5.5:将对象查询的输出于与查询位置相加得到q,将s4.5的输出与位置编码向量相加得到k,s4.5的输出作为v,输入至第二个多头注意力模块;
[0107]
s5.6:进行linear还原维度,relu激活;
[0108]
s5.7:经过6个transformer解码器层后,解码结束,输出。
[0109]
s6:将s4的特征图输入至tdte,对时空特征表示进行编码。s6的具体步骤包括:
[0110]
s6.1:tdte层包括自注意力模块(self-attention)、多头可变形注意力模块(tempdefattn)和前向反馈层;
[0111]
s6.2:将s4.5的输出作为输入,至自注意力模块;
[0112]
s6.:3:s6.2的输出作为多头可变形注意力模块的输入,实现公式如下:
[0113][0114]
其中,m为第m注意头;l为同一视频采样的第l帧;k为第k采样点;δp
mlqk
和a
mlqk
分别表示第l帧第k采样点和第m注意头的采样偏移和注意权重;标量注意权重a
mlqk
位于[0,1]中,由归一化所得;δp
mlqk
∈r2为具有无约束范围的二维实数;使用双线性插值法计算x(pq+δp
mlqk
;δp
mlqk
和a
mlqk
由查询特征zq上的线性投影得到的;使用归一化坐标实现比例公式,归一化坐标(0,0)和(1,1)分别表示左上角和右下角的图像拐点;函数将归一化坐标重新缩放到第l帧的输入特征图。多帧时间变形注意采样来自l特征图中的lk点,而不是单帧特征图中的k点;
[0115]
s6.4:s6.3的输出作为前向反馈层的输入。
[0116]
s7:将s5的输出嵌入输入至tqe,从参考帧中获取所有空间对象查询以增强当前帧的空间输出查询。s7的具体步骤包括:
[0117]
s7.1:tqe层包括自注意力模块、交叉注意力模块(cross-attention)、前向反馈层;
[0118]
s7.2:将s5.7的输出作为自注意力模块的输入;
[0119]
s7.3:将s7.2的输出作为交叉注意力模块的输入,结合所有参考框架的空间对象查询,表示为q
ref
。以粗到细的方式进行评分和选择,即使用额外的前向反馈层预测类logits,然后计算其sigmoid值p=sigmoid[ffn(q
ref
)],通过p值对所有参考点进行排序,选择最高的k值输入至浅层网络,较低k值输入较深层网络;
[0120]
s7.4:迭代地更新输出查询。
[0121]
s8:将s6和s7的输出输入到tdtd中,以学习不同帧的时间上下文,tdtd层包括自注意力模块、可变形聚合注意力模块、前向反馈层,可变形聚合注意力模块实现公式如下:
[0122][0123]
s8的具体步骤包括:
[0124]
s8.1:将s6.4的输出作为自注意力模块的输入;
[0125]
s8.2:将s7.4的细化的时间对象查询和是步骤8.2的输出作为可变形聚合注意力模块的输入;
[0126]
s8.3:将s8.2的输出作为前向反馈层的输出;
[0127]
损失函数为:
[0128][0129]
其中,表示用于分类的焦点损失;和表示用于定位l1损失和广义iou损失;入
cls
,入
l1
和入
giou
是其系数。
[0130]
s8.4:将s8.3的输出作为ffn的输入,实现目标检测识别。
[0131]
s9:将s8的每个输出嵌入传递给ffn,进行目标检测识别。
[0132]
图4是从电力行业在施工过程中所拍摄的监控视频影像中所抽取的一帧,首先使用提取特征表示的多卷积核残差神经网络,三种卷积核如图5所示,通过该方法提高模型对多形态目标的敏感度,解决对小目标识别准确率低的问题,卷积结果如图6所示。
[0133]
通过对施工过程中所拍摄的监控视频影像进行安全帽佩戴人工标记,然后使用randperm函数随机将该视频数据拆分为训练帧和测试帧,使用训练帧训练目标检测器,使用测试帧对目标识别和个体跟踪进行测试,测试结果的准确率可以达到83.7%,召回率可以达到85.5%。对于视频中的单帧图像的检测效果如图7所示,绿框和蓝框分别表示按要求正确佩戴安全帽和没有按要求进行安全帽的佩戴的情况。
[0134]
准确率p=(tp+tn)/(tp+fn+fp+tn);召回率r=tp/(tp+fn),其中,tp为将正确佩戴安全帽预测为正确的帧数,fn:将正确佩戴安全帽预测为错误的帧数,fp:将没有正确佩戴安全帽预测为正确的帧数,tn:将没有正确佩戴安全帽预测为错误的帧数。这种测试方式是机器学习算法在进行有效性测试时所采用的一种通用测试手段。因为深度学习算法更多的是使用数据进行驱动,很多因素都会影响算法的准确率和召回率,无法准确指出具体是算法的那些步骤对其进行了提升。
[0135]
提取电力作业动态视频的第(t-i)至t帧对其进行特征提取,通过tdte模块对时空特征进行编码,tqe模块增强当前帧的空间输出查询以及tdtd模块学习不同帧的时间上下文获得当前帧检测结果,实现施工人员在不同时间的佩戴状态识别。图8-图10分别表示施工人员在不同的时间状态1,时间状态2和时间状态3时被识别的结果。
[0136]
通过对来源于电力行业中针对安全作业的监控视频进行实验,实验结果验证了本发明方案的可用性和高效性。
[0137]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术特征:


1.基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:本设计方案主要由四个部分构成:用于提取特征表示的多卷积核残差神经网络主干、transformer编码器-解码器、时间transformer和前馈网络;其中时间transformer由三个组件组成,即时间可变形transformer编码器、时间查询编码器和时间可变形transformer解码器,主要包含以下步骤:s1:通过现场监控或其他摄像工具获取电力作业动态视频;s2:运用多卷积核残差神经网络主干结构,对电力作业人员视频图像提取特征表示;s3:将s2提取到的特征,用位置编码补充它,得到位置嵌入,位置编码向量公式如下:s3:将s2提取到的特征,用位置编码补充它,得到位置嵌入,位置编码向量公式如下:其中,pe为二维矩阵,pos表示位置,dmodel表示向量维度;s4:将s2得到的特征图和s3获得的位置嵌入传递给transformer编码器;s5:将对象查询得到的输出和s4中transformer编码器的输出作为transformer解码器的输入,使用多头注意力模块multiheadattn,将学习位置编码的输入嵌入转换为输出嵌入,并将transformer编码器和transformer解码器的每个输出嵌入传递给时间transformer,多头注意力模块实现公式如下:其中,m为第m注意头,和为学习权重,注意力权重a
mqk
为为学习权重;s6:将s4的特征图输入至时间可变形transformer编码器,对时空特征表示进行编码;s7:将步骤5的输出嵌入输入至时间查询编码器,从参考帧中获取所有空间对象查询以增强当前帧的空间输出查询;s8:将步骤6和步骤7的输出输入到时间可变形transformer解码器中,以学习不同帧的时间上下文,时间可变形transformer解码器层包括自注意力模块、可变形聚合注意力模块、前向反馈层,可变形聚合注意力模块实现公式为:s9:将步骤8的每个输出嵌入传递给前馈网络,通过前馈网络进行最终的目标检测识别。2.根据权利要求1所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s2的具体步骤包括:s2.1:初始化多卷积核残差神经网络结构的参数,使用resnet-18作为网络主干,在残差模块处使用三种卷积核,卷积核大小分别为3
×
3、3
×
1和1
×
3,学习率为10-5
,权重衰减为10-4

s2.2:提取电力作业动态视频的第(t-i)至t帧对其进行特征提取,初始图片为3
×
h0×
w0,经多卷积核残差神经网络产生新特征图c
×
h
×
w。3.根据权利要求2所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s3的具体步骤包括:s3.1:将s2.2得到的特征图分成三份,一份直接作为v值向量,其余两份与位置编码向量直接相加,分别作为键向量k和查询向量q,根据位置编码向量公式(3-1)(3-2),可将pe(pos+k,2i)的向量求解,表示为pe(pos,2i)上的线性表示:(pos+k,2i)的向量求解,表示为pe(pos,2i)上的线性表示:4.根据权利要求3所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s4的具体步骤包括:s4.1:transformer编码器每一层由多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,在多头注意力层和前向反馈层feed-forward后各进行一次归一化,初始学习率为2
×
10-4
,权重衰减为10-4
;s4.2:将s3.1得到的kvq输入多头注意力模块,输出新特征图;s4.3:将s4.2得到的新特征图与原特征图相加;s4.4:进行linear还原维度,relu激活;s4.5:重复经过6个transformer编码器层后,编码结束,输出。5.根据权利要求4所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s5的具体步骤包括:s5.1:transformer译码器的输入包括查询嵌入、查询位置、transformer编码器输出、多头注意力机制模块、add&norm模块和前向传播模块组成,一共有6层,每一层的输入除了上一层输入外,还有查询位置和transformer编码器中的位置编码,初始学习率为2
×
10-4
,权重衰减为10-4
;s5.2:输入通过对象查询对anchor的编码的查询嵌入与查询位置相加得到k、q,对象查询设置为300;s5.3:将s5.2得到的k和q与对象查询的输出输入到第一个多头注意力模块multiheadattn,得到输出;s5.4:将s5.3的输出进行dropout与对象查询的输出相加输出;s5.5:将对象查询的输出于与查询位置相加得到q,将s4.5的输出与位置编码向量相加得到k,s4.5的输出作为v,输入至第二个多头注意力模块;s5.6:进行linear还原维度,relu激活;s5.7:经过6个transformer解码器层后,解码结束,输出。6.根据权利要求5所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s6的具体步骤包括:s6.1:tdte层包括自注意力模块self-attention、多头可变形注意力模块tempdefattn和前向反馈层;
s6.2:将s4.5的输出作为输入,至自注意力模块;s6.3:s6.2的输出作为多头可变形注意力模块的输入;s6.4:s6.3的输出作为前向反馈层的输入。7.根据权利要求6所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s6.3中,多头可变形注意力模块的输入,实现公式如下:其中,m为第m注意头;l为同一视频采样的第l帧;k为第k采样点;δp
mlqk
和a
mlqk
分别表示第l帧第k采样点和第m注意头的采样偏移和注意权重;标量注意权重a
mlqk
位于[0,1]中,由归一化所得;δp
mlqk
∈r2为具有无约束范围的二维实数;使用双线性插值法计算x(p
q
+δp
mlqk
;δp
mlqk
和a
mlqk
由查询特征z
q
上的线性投影得到的;使用归一化坐标实现比例公式,归一化坐标(0,0)和(1,1)分别表示左上角和右下角的图像拐点;函数将归一化坐标重新缩放到第l帧的输入特征图,多帧时间变形注意采样来自l特征图中的lk点,而不是单帧特征图中的k点。8.根据权利要求7所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s7的具体步骤包括:s7.1:tqe层包括自注意力模块、交叉注意力模块cross-attention、前向反馈层;s7.2:将步骤5.7的输出作为自注意力模块的输入;s7.3:将步骤7.2的输出作为交叉注意力模块的输入,结合所有参考框架的空间对象查询,表示为q
ref
,以粗到细的方式进行评分和选择,即使用额外的前向反馈层预测类logits,然后计算其sigmoid值p=sigmoid[ffn(q
ref
)],通过p值对所有参考点进行排序,选择最高的k值输入至浅层网络,较低k值输入较深层网络;s7.4:迭代地更新输出查询。9.根据权利要求8所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s8的具体步骤包括:s8.1:将s6.4的输出作为自注意力模块的输入;s8.2:将s7.4的细化的时间对象查询和s8.1的输出作为可变形聚合注意力模块的输入;s8.3:将s8.2的输出作为前向反馈层的输出;s8.4:将s8.3的输出作为ffn的输入,实现目标检测识别。10.根据权利要求9所述的基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,其特征在于:s8.3中,损失函数公式为:其中,表示用于分类的焦点损失;和表示用于定位l1损失和广义iou损失;λ
cls
,λ
l1
和λ
giou
是其系数。

技术总结


本发明公开了基于多卷积核残差模块时间transformer模型的安全帽佩戴识别方法,选取基于多卷积核残差模块的时间transformer模型,结合深度学习技术,提供了适合在复杂的电力作业环境中进行移动个体检测的方法,实现了对电力行业中工作人员安全作业时的安全帽佩戴情况的自动识别与跟踪检测,本发明能够有效提升电力行业中针对安全帽佩戴识别的适应性和高效性,为深度学习技术在电力安全作业中的动态目标自动识别与跟踪应用探索了一条有效可行的路径。可行的路径。可行的路径。


技术研发人员:

朱建宝 邓伟超 俞鑫春 陈宇 马青山 张才智 叶超 孙根森 陈鹏 曹雯佳

受保护的技术使用者:

国网江苏省电力有限公司南通供电分公司

技术研发日:

2022.09.28

技术公布日:

2022/12/12

本文发布于:2024-09-22 05:38:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/34422.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模块   卷积   注意力   时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议