一种邮局场景人物交互行为识别方法及系统

1.本发明涉及一种邮局场景人物交互行为识别方法及系统，属于视频分析技术领域。

背景技术：

2.快递在揽收和运输过程中的安全问题越来越受到人们关注，为了防止包裹内存在易燃易爆等危险品，邮局工作人员有必要在快递完成打包前对其进行开箱验视。与传统人工视频分析的方法相比，智能视频监控技术可对快递工作人员的行为进行实时监督与报警，极大提高了监控效率和有效性。因此，需要研究基于计算机视觉的邮局场景人物交互行为识别方法。
3.目前国内外现有的行为识别研究更多聚焦于单人和多人行为，根据所使用数据类型的不同，目前主流的交互行为识别分析方法可以分为基于可见光(rgb)信息和基于深度信息两类。早期研究一般是使用基于rgb信息的方法，如手动构建方向梯度直方图特征、利用光流法提取运动特征等。虽然传统的基于rgb信息的交互行为识别方法在某些特定的场景下有着较大的优势，但仍存在较多难以解决的问题，如容易受到背景、光照等干扰因素的影响，在全天候的视频监控应用中难以取得理想效果。
4.随着深度相机的出现和普及，基于深度信息的交互行为识别方法开始进入人们的视野。相比于仅使用rgb信息的方法，基于深度信息的交互行为识别方法引入新维度信息，利用采集到的三维关节点信息可以更好地对人体行为进行分析，同时也避免了传统rgb方法对于颜、亮度等要素的依赖性。
5.pisharady p k,等人利用深度相机采集到的三维关节点数据转换成关节角度特征，并使用支持向量机(support vector machine,svm)对人体行为进行了识别(pisharady p k,saerbeck m.kinect based body posture detection and recognition system[c]//international conference on graphic and image processing(icgip 2012).international society for optics and photonics,2013,8768:87687f.)；杨文璐等人结合骨骼点角度变化的方差和骨骼点间的空间关系提取关键姿势，实现了双人交互行为的准确识别(杨文璐,于孟孟,谢宏.基于关键姿势的双人交互行为识别[j].计算机应用,2020,40(08):2231-2235.)；成科扬等人提出了基于骨架的时空建模方法，实现了交互骨架图的有效表示(成科扬,吴金霞,王文杉,等.融合时空图卷积的多人交互行为识别[j].中国图象图形学报,2021,26(07):1681-1691.)。
[0006]
但是在开箱验视的过程中，若仅仅使用人体骨骼信息，会导致箱体语义信息的丢失，如果不能识别人-物交互过程中的“物”的特征，就无法排除一些相似行为的干扰，从而影响开箱验视交互行为的识别准确率，而对于如何准确描述邮局场景下人与物的特定行为模式，以上研究并未给出很好的参考和解决方案。

技术实现要素：

[0007]
为了解决目前的交互识别方案在邮局开箱验视的场景下，人-物交互行为识别准确率较差的问题，本发明提供了一种邮局场景人物交互行为识别方法及系统，技术方案如下：
[0008]
本发明的第一个目的在于提供一种邮局场景人物交互行为识别方法，所述方法包括：
[0009]
步骤一：采用背景减除法判断检测区域内是否有行为发生，若有检测区域内有行为发生，则相机采集行为视频流，所述视频流包括：彩图像序列和深度图像序列；
[0010]
步骤二：基于unet网络进行前景分割，将所述彩图像序列输入到预训练好的unet网络模型中，输出带有标签的分割结果，从而获得箱体和人手的二值图；
[0011]
步骤三：对深度图像和彩图像进行配准；
[0012]
步骤四：利用所述步骤二中得到的箱体二值图，对配准后深度图像中的前景箱体进行特征提取，获得箱体深度特征；
[0013]
步骤五：基于所述步骤二中得到的人手二值图像提取人手运动轨迹，获得人手运动特征；
[0014]
步骤六：基于所述箱体深度特征和人手运动特征，构建包含深度和时空信息的特征描述子；
[0015]
步骤七：利用预训练好的svm分类器对所述特征描述子进行分类，实现人物交互行为的识别与检测。
[0016]
可选的，所述步骤四采用开箱过程中单帧图像的箱子前景深度值方差作为代表该图像的特征值，深度方差的计算公式为：
[0017][0018]
其中，σ2表示前景图像深度值的方差，n表示前景图像中像素点的总数，dk表示第k个像素点的深度值，dm表示前景图像中所有像素点深度值的平均值；
[0019]
通过计算单帧图像箱子深度前景图的方差σ2，然后按时间序列将多帧图像方差σ2形成特征向量λ
bn
。
[0020]
可选的，所述步骤五中人手运动特征提取的过程包括：
[0021]
对人手二值图进行特征点提取，选取两只人手中远离相机的那只，对其二值图像进行像素点遍历；以图像最上方白像素点所在的行数作为纵坐标，图像最左方白像素点所在的列数作为横坐标，得到特征点f(x,y)的坐标；
[0022]
计算特征点f(x,y)到图像坐标原点的像素距离d
t
，按照时间序列将连续帧图像的特征点距离原点的距离d
t
形成特征向量λ
hn
。
[0023]
可选的，所述步骤一中采用背景减除法判断检测区域内是否有行为发生的过程包括：
[0024]
将输入图像与背景模型进行比较，通过灰度、度等特征的变化来对图像中的运动目标进行提取和分割，背景减除法的计算公式为：
[0025]d(k)
(x,y)＝|f
(k+1)
(x,y)-b
(k)
(x,y)|
[0026][0027]
其中，d
(k)
(x,y)表示当前帧图像f(
k+1)
(x,y)与背景图像b
(k)
(x,y)的差值，m
(k)
(x,y)表示差值图像的二值化图像，t表示当前帧图像与背景图像像素差值的阈值，大于等于t时判断为存在前景目标；
[0028]
当相机视野范围内无运动目标进入时，检测系统处于待机模式，仅进行视频流与图像帧的获取，选取第一帧图像f0(x,y)作为初始的背景图像b0(x,y)，若场景发生变化，则背景图像相应进行更新；
[0029]
当检测区域内出现运动目标时，二值图像m
(k)
(x,y)中出现大量白像素点，通过计算白像素点与图片总像素的比例s，并根据经验设置评价标准的上限值v
max
及下限值v
min
；
[0030]
当s》v
min
时，判定开箱区域内有行为发生，此时检测系统进入开箱检测模式；记录当前帧的前一帧为起始点sτ，并将sτ作为新的背景图代替初始背景图像继续进行背景减除，直至s《v
min
时判定行为结束并将当前帧记录为结束点e
τ
，将s
τ
至e
τ
这一段视频帧作为疑似开箱行为进行后续的处理；
[0031]
若s一直小于v
min
或大于v
max
，则判断当前帧存在光照突变现象或检测区域内无行为发生，继续进行下一帧的判断。
[0032]
可选的，所述步骤三对深度图像和彩图像进行配准的过程包括：
[0033]
首先，将深度图的像素点还原到深度坐标系下，直接获取从深度坐标系到彩坐标系的欧式变换矩阵t
d2c
，然后将彩坐标系下的深度点映射到z＝1的彩平面上，转换公式为：
[0034][0035]
其中，t
d2c
表示深度坐标系到彩坐标系的转换矩阵，t
w2c
表示世界坐标系转换到彩坐标系的转换矩阵，t
w2d
表示世界坐标系转换到深度坐标系的转换矩阵。
[0036]
可选的，所述unet网络在特征提取的过程中，通过3
×
3卷积、relu激活以及2
×
2最大池化，逐步对特征图进行下采样，将输入的样本逐渐减小，同时增加通道数以补偿分辨率的损失。
[0037]
可选的，所述unet网络在上采样过程中，对特征图进行2
×
2转置卷积以及1
×
1卷积，每经过一次上采样，就与特征提取部分对应的通道数相同的尺度融合，逐步恢复图片细节，使得特征图的尺寸逐渐增加、通道数逐渐减少，最终输出语义分割图像。
[0038]
本发明的第二个目的在于提供一种邮局场景人物交互行为检测系统，用于实现权利要求上述的一种邮局场景人物交互行为识别方法，包括：
[0039]
视频流采集设备，用于采集检测区域内的行为视频流；
[0040]
行为触发模块，利用背景减除法判断检测区域内是否有行为发生，若有行为发生，触发所述视频流采集设备采集视频流；
[0041]
unet前景分割模块，用于对采集的视频流中的图像进行语义分割，提取前景运动目标中的箱体和人手图像；
[0042]
特征提取模块，对前景分割后的箱体和人手图像进行特征提取，获得箱体深度特征和人手运动特征；
[0043]
分类输出模块，利用svm分类器对提取的箱体深度特征和人手运动特征进行识别和分类，输出检测结果。
[0044]
可选的，所述视频流采集设备包括：rgbd相机。
[0045]
本发明有益效果是：
[0046]
本发明的邮局场景人物交互行为识别方法，以邮局快递验视中的人物交互行为识别为应用背景，通过引入基于深度学习的语义分割机制，提出了一种基于深度图和时空特征的人物交互行为识别方法，融合开箱验视过程中的箱体深度特征和人手运动特征构建特征描述子，相比于现有的仅基于人体骨骼信息的行为识别方法，本发明有效地解决了开箱验视过程中的复杂背景干扰和人与物的特定行为模式难以准确描述这两个痛点问题。
[0047]
实验表明，使用unet模型提取前景目标，对复杂背景干扰有较强的抑制作用；基于rgbd多源信息构建特征描述子，可实现箱体形态变化和人手行为模式的准确描述。本发明的邮局场景人物交互行为识别方法对于开箱验视行为的识别准确率较高，具有很好的鲁棒性，能够满足快递站对于工作人员的监督要求，对提高智能视频监控系统的自动化、现代化水平起到了一定帮助作用。
附图说明
[0048]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0049]
图1是本发明的基于深度图和时空特征的人物交互行为识别方法流程图。
[0050]
图2是本发明实施例三的unet网络结构图。
[0051]
图3是本发明实施例三的unet分割效果与hsv分割效果对比图。
[0052]
图4是本发明实施例三的深度图配准效果图，其中(a)是彩图，(b)是配准前的深度图，(c)是配准后的深度图。
[0053]
图5是本发明实施例三的开箱行为图像序列(箱体)图。
[0054]
图6是本发明实施例三的深度值方差特征向量曲线图。
[0055]
图7是本发明实施例三的开箱行为图像序列(人手)图。
[0056]
图8是本发明实施例三的基于特征点距离的人手运动轨迹曲线图。
[0057]
图9是本发明的快递人-物交互行为数据集示意图。
[0058]
图10是邮局真实场景测试集结果图，其中，(a)是开箱行为图像序列；(b)是未开箱行为图像序列；(c)是干扰行为图像序列。
[0059]
图11是特征曲线对比图，其中(a)是箱体深度方差曲线图，(b)是箱体高度曲线图，(c)是人手运动轨迹特征曲线图，(d)是人手深度方差曲线图。
[0060]
图12是箱体类型干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱子彩图，(d)为人手彩图。
[0061]
图13是背景杂物干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱子彩图，(d)为人手彩图。
[0062]
图14是光线变化干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱
子彩图，(d)为人手彩图。
[0063]
图15是混淆矩阵图，其中(a)是箱体类型干扰下的混淆矩阵图，(b)是背景杂物干扰下的混淆矩阵图，(c)是光线变化干扰下的混淆矩阵图。
具体实施方式
[0064]
为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0065]
实施例一：
[0066]
本实施例提供一种邮局场景人物交互行为识别方法，方法包括：
[0067]
步骤一：采用背景减除法判断检测区域内是否有行为发生，若有检测区域内有行为发生，则相机采集行为视频流，视频流包括：彩图像序列和深度图像序列；
[0068]
步骤二：基于unet网络进行前景分割，将彩图像序列输入到预训练好的unet网络模型中，输出带有标签的分割结果，从而获得箱体和人手的二值图；
[0069]
步骤三：对深度图像和彩图像进行配准；
[0070]
步骤四：利用步骤二中得到的箱体二值图，对配准后深度图像中的前景箱体进行特征提取，获得箱体深度特征；
[0071]
步骤五：基于步骤二中得到的人手二值图像提取人手运动轨迹，获得人手运动特征；
[0072]
步骤六：基于箱体深度特征和人手运动特征，构建包含深度和时空信息的特征描述子；
[0073]
步骤七：利用预训练好的svm分类器对特征描述子进行分类，实现人物交互行为的识别与检测。
[0074]
实施例二：
[0075]
本实施例提供一种邮局场景人物交互行为检测系统，用于实现实施例一所述的一种邮局场景人物交互行为识别方法，系统包括：
[0076]
视频流采集设备，用于采集检测区域内的行为视频流；
[0077]
行为触发模块，利用背景减除法判断检测区域内是否有行为发生，若有行为发生，触发所述视频流采集设备采集视频流；
[0078]
unet前景分割模块，用于对采集的视频流中的图像进行语义分割，提取前景运动目标中的箱体和人手图像；
[0079]
特征提取模块，对前景分割后的箱体和人手图像进行特征提取，获得箱体深度特征和人手运动特征；
[0080]
分类输出模块，利用svm分类器对提取的箱体深度特征和人手运动特征进行识别和分类，输出检测结果。
[0081]
实施例三：
[0082]
本实施例提供一种邮局场景人物交互行为识别方法。
[0083]
针对传统基于rgb信息的交互行为识别方法抑制干扰能力差、丢失语义信息的问题，本实施例引入基于unet的语义分割算法准确提取复杂背景中的箱体和人手，获得目标的类别和位置信息；融合深度和可见光信息，对开箱验视过程中箱体形态变化和人手行为
模式进行准确描述，确定人物交互关系；最后，训练svm分类器对人物交互行为进行识别分析，在背景杂物、光线变化等干扰严重的邮局环境下获得了较高的准确性和鲁棒性。
[0084]
本实施例提出的基于深度图和时空特征的人物交互行为识别方法的流程如图1所示。当检测系统利用背景减除法判断开箱区域内有异常行为触发后，进行视频流的采集；将采集到的视频流图像输入到预训练好的unet网络模型中，提取前景中的箱体和人手，获得目标的类别和位置信息；结合深度和可见光信息，构建箱体和人手的特征描述子，确定人物交互关系；最后，利用预训练好的svm分类器产生判断结果，实现邮局场景下人物交互行为的精确识别，通过对开箱行为和未开箱行为的判别来保证快递邮寄过程中操作的规范性。
[0085]
本实施例的基于语义分割的前景目标提取方法，具体包括：
[0086]
step1.使用基于背景减除法的异常行为触发检测。采用背景减除法判断开箱区域有无行为发生。
[0087]
背景减除法的基本思想是将输入图像与背景模型进行比较，通过灰度、度等特征的变化来对图像中的运动目标进行提取和分割。
[0088]d(k)
(x,y)＝|f
(k+1)
(x,y)-b
(k)
(x,y)|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0089][0090]
背景减除法的计算公式如式(1)和式(2)所示，其中，d
(k)
(x,y)表示当前帧图像f(
k+1)
(x,y)与背景图像b
(k)
(x,y)的差值，m
(k)
(x,y)表示差值图像的二值化图像，t表示当前帧图像与背景图像像素差值的阈值，大于等于t时判断为存在前景目标；
[0091]
当相机视野范围内无运动目标进入时，检测系统处于待机模式，仅进行视频流与图像帧的获取，选取第一帧图像f0(x,y)作为初始的背景图像b0(x,y)，若场景发生变化，则背景图像会相应进行更新。
[0092]
当检测区域内出现运动目标时，二值图像m
(k)
(x,y)中出现大量白像素点，通过计算白像素点与图片总像素的比例s，并根据经验设置评价标准的上限值v
max
及下限值v
min
即可实现运动目标的提取。当s》v
min
时，判定开箱区域内有行为发生，此时检测系统进入开箱检测模式。记录当前帧的前一帧为起始点sτ，并将sτ作为新的背景图代替初始背景图像继续进行背景减除，直至s《v
min
时判定行为结束并将当前帧记录为结束点e
τ
。将s
τ
至e
τ
这一段视频帧作为疑似开箱行为进行后续的处理。若s一直小于v
min
或大于v
max
，则判断当前帧存在光照突变现象或检测区域内无行为发生，继续进行下一帧的判断。
[0093]
step2.基于unet的前景分割。进入开箱检测模式后，需对前景运动目标进行提取，提取后需基于语义信息进一步对前景运动目标中的箱体和人手进行分割。由于传统基于hsv阈值的分割方法无法区分颜通常很相近的人手与箱子，同时背景杂物、光线变化等干扰因素也对特征的准确提取有较大影响，故本实施例选择使用卷积神经网络(cnn)来进行前景箱体与人手的分别提取。
[0094]
unet是目前较流行的用于语义分割的深度学习模型。unet模型结构简单，只需少量的训练样本就可获得更好的分割性能，结合了底层细节信息和高层语义信息，可以更好地实现箱体与人手进行精准分割。unet网络最早用于医学影像分割中，其网络结构包含特征提取和上采样两部分。如图2所示，给出了本实施例使用的unet网络结构图。在特征提取的过程中，通过3
×
3卷积+relu激活以及2
×
2最大池化，逐步对特征图进行下采样，将输入
的样本逐渐减小，同时增加通道数以补偿分辨率的损失。在上采样过程中，对特征图进行2
×
2转置卷积以及1
×
1卷积，每经过一次上采样，就与特征提取部分对应的通道数相同的尺度融合，逐步恢复图片细节，使得特征图的尺寸逐渐增加、通道数逐渐减少，最终输出语义分割图像。
[0095]
当检测系统进入开箱检测模式，系统将自动保存疑似开箱行为的彩图像以及深度图像，将彩图像序列输入至预训练完成的unet网络模型中，输出带有标签的分割结果，从而获得箱体和人手的二值图。
[0096]
如图3所示，给出了unet分割效果与hsv分割效果对比图。与传统基于hsv阈值的方法相比，unet模型对于不同种类、颜的箱体及人手均具有较好的分割效果。对于人手与箱体颜相近的情况，本实施例训练的unet模型相较于传统方法有着明显的优势，可以实现精准的分割提取，保证语义信息不会丢失，获得前景目标完整的类别和位置信息。
[0097]
对关键帧使用openpose计算获得骨骼点和肢体特征向量，输入深度学习行为分类网络得到人体最初行为模式和位置。
[0098]
本实施例的基于深度信息的人-物交互特征提取方法，具体包括：
[0099]
step1.深度图配准。由于可见光相机与深度相机具有一定的物理位置差距，为了能够利用rgb图像的分割结果来对箱子深度图像进行下一步处理，需将箱子的深度图与彩图进行配准，即将深度图的图像坐标系转换到彩图的图像坐标系。
[0100]
首先，将深度图的像素点还原到深度坐标系下，直接获取从深度坐标系到彩坐标系的欧式变换矩阵t
d2c
，最后，将彩坐标系下的深度点映射到z＝1的彩平面上。具体计算公式如式(3)所示：
[0101][0102]
其中，t
d2c
表示深度坐标系到彩坐标系的转换矩阵，t
w2c
表示世界坐标系转换到彩坐标系的转换矩阵，t
w2d
表示世界坐标系转换到深度坐标系的转换矩阵。根据此公式可以将深度图与彩图进行配准，配准前、后的深度图与彩图如图4所示，其中，(a)为彩图，(b)为配准前深度图，(c)为配准后深度图。
[0103]
step2.箱体深度特征提取。在人物交互行为分析中，物体作为承受行为的主体，其运动特征具有代表性作用。在开箱验视的过程中，若仅仅使用人体骨骼信息，会导致箱体语义信息的丢失，因此本实施例通过提取箱体深度特征作为判断开箱行为的依据，以确定人物交互关系。
[0104]
得到配准后的深度图后，利用unet网络得到的箱子二值图可以对深度图像中的前景箱体进行提取。
[0105]
如图5所示，展示了快递验视过程中的开箱行为图像序列，包含彩图、深度图以及提取到前景箱体深度图。在开箱过程中，伴随箱子的开合，其深度会产生较大变化，所以可以选择开箱过程中单帧图像的箱子前景深度值方差作为代表该图像的特征值，深度方差的计算公式如公式(4)所示：
[0106][0107]
其中，σ2表示前景图像深度值的方差，n表示前景图像中像素点的总数，dk表示第k
个像素点的深度值，dm表示前景图像中所有像素点深度值的平均值。通过计算单帧图像箱子深度前景图的方差σ2，然后按时间序列将多帧图像方差σ2形成特征向量λ
bn
，以此作为svm分类器训练所需的特征向量。
[0108]
为了更直观地分析开箱与未开箱之间特征向量λ
bn
的差异，本实施例分别将5组开箱行为(虚线)与5组未开箱行为(实线)图像序列的深度方差按时间顺序绘制成折线图，如图6所示。
[0109]
step3.人手运动特征提取。在人物交互行为分析中，人作为产生行为的主体，其运动特征也具有代表性作用。图7展示了快递验视过程中的开箱行为图像序列，包含彩图、人手掩膜图以及提取到前景人手彩图。
[0110]
本实施例提出了一种基于运动轨迹的人手特征描述方法，用来对unet网络模型分割所得到的人手二值图进行特征点提取。根据开箱行为的特性，选取两只人手中远离相机的那只，对其二值图像进行像素点遍历。以图像最上方白像素点所在的行数作为纵坐标，图像最左方白像素点所在的列数作为横坐标，得到特征点f(x,y)的坐标。计算特征点f(x,y)到图像坐标原点的像素距离d
t
，按照时间序列将连续帧图像的特征点距离原点的距离d
t
形成特征向量λ
hn
，以此作为svm训练所需要的特征向量。
[0111]
为了更直观地分析开箱与未开箱之间特征向量λ
hn
的差异，本实施例分别将以特征点距离d
t
所计算的5组开箱行为(虚线)与5组未开箱行为(实线)的人手运动轨迹按照时间序列绘制成折线图，如图8所示。
[0112]
从图8中可以看出，由于开箱行为中人手持续在一定区域内运动，其特征点距离随时间变化呈“平坦”趋势，而未开箱行为的特征点距离随时间变化呈“跳动”趋势，两者存在较为明显的差异，基于运动轨迹的人手特征描述子可以较好地反映人物交互行为过程中人手的变化，可根据此构建人手的特征向量并利用svm分类器对其进行分类识别。
[0113]
本实施例对前景中的箱体和人手进行准确分割后，分别提取箱体深度特征λ
bn
和人手轨迹特征λ
hn
。构建包含深度和时空信息的特征向量λn，输入svm分类器对其开箱与为开箱行为进行分类，实现人物交互行为的准确识别与检测。
[0114]
实施例四：
[0115]
为了进一步验证本发明的有益效果，对实施例三记载的一种邮局场景人物交互行为识别方法进行实验。
[0116]
按照本发明设计的识别流程，基于自建数据集进行人-物行为识别方法有效性测试。
[0117]
试验环境为：cpu为英特尔i7-8700，内存16gb，gpu为英伟达gtx 1660-6gb显存。操作系统：windows10专业版。编程语言：python。开发平台：vscode。卷积神经网络框架搭建平台：pytorch。
[0118]
数据集为：自建快递人-物交互行为数据集，如图9所示。使用intel realsense d435i rgbd相机模拟快递站的实际环境进行视频数据采集，构建了rgbd多源信息开箱动作数据集，该数据集内的图像分为开箱和未开箱两个动作类别，每个类别下的图像都包含有不同场景、不同开箱人员、不同种类箱子以及变化的光照条件等要素，共400组实验样本，每组实验样本中彩图像与深度图像的序列约为50-100帧，以此作为实验的训练集。同时，本实施例在真实邮局环境下采集了工作人员的开箱和未开箱行为图像序列，共40组，以验证
提出方法的有效性和鲁棒性。
[0119]
本实施例设计的实验步骤如下：
[0120]
step 1：数据集划分。将400组模拟场景实验样本按1:1的比例划分为unet模型训练数据和svm分类器训练数据，真实场景采集到的40组实验样本用作unet及svm的测试集；
[0121]
step 2：unet模型训练。对200组unet模型训练图像序列进行标注并训练网络模型；
[0122]
step 3：svm数据预处理。对svm训练集和测试集图像序列进行下采样，得到长度一致均为40帧的图像子序列，将图像子序列输入到训练好的unet分割模型中，得到语义分割后的图像序列；
[0123]
step 4：特征描述子构建。基于深度和时空信息对子序列进行特征提取，得到每一个子序列的箱体深度方差特征向量λ
bn
与人手运动特征向量λ
hn
，将两向量进行串联后得到长度为80
×
1的特征向量λn；
[0124]
step 5：svm数据扩增。通过添加随机高斯白噪声的方式，对训练集数据进行数据扩增，最终得到训练集数据共1000组(80
×1×
1000)，测试集数据不进行数据扩增，最终共40组(80
×1×
40)；
[0125]
step 6：svm分类器训练。将训练集数据输入svm分类器，对svm分类器进行训练，对真实邮局场景下的人物交互行为进行识别。
[0126]
最终，利用svm分类器对邮局开箱和未开箱人物交互行为的识别结果如表1所示：
[0127]
表1 svm分类器识别准确率
[0128][0129]
图10展示了邮局真实场景测试集中的部分开箱与未开箱图像序列以及svm识别结果。图10(a)序列为标准开箱行为，本实施例方法判断其为开箱；图10(b)中工作人员并未进行开箱验视，仅对箱子进行胶带包装，由于过程中箱子的深度并未发生明显变化，故本实施例方法识别其为未开箱；图10(c)序列为其它行为干扰，如屏幕中的人员在使用手机，视野中无法检测到箱子，本实施例的方法将其识别为未开箱。
[0130]
为了验证提出方法中每一个步骤的有效性与必要性，本实施例设置了如表2所示的消融实验。首先，通过与传统基于hsv阈值的前景分割方法进行对比(表2的2-3行)，本实施例所使用的基于unet的前景分割在面对箱子和人手颜极为相近和背景中有较多干扰的情况下，仍具有较高的分割精度。
[0131]
图11分别展示了使用深度信息描述箱子(图11(a))、使用rgb信息描述箱子(图11(b))、使用rgb信息描述人手(图11(c))以及使用深度信息描述人手(图11(d))的特征曲线图，只有使用深度方差(深度信息)描述箱子以及使用运动轨迹(rgb信息)描述人手，才可以对开箱行为(虚线)以及未开箱行为(实线)进行良好区分，从而证明了本实施例提出的基于深度和时空信息的特征描述子是合理且有效的。
[0132]
在表2的4-6行中，通过分别与只使用可见光信息和只使用深度信息的特征提取方法进行对比，说明了本实施例提出的基于深度和时空信息的特征提取方法在对快递站人物交互行为中的开箱和未开箱行为描述上有较高的精度，利用rgbd信息的互补融合可以显著
提升svm分类器的识别准确率。
[0133]
表2消融实验对比结果
[0134][0135]
为了验证本发明提出算法在不同干扰条件下的鲁棒性，本实施例还针对邮局真实开箱验视场景中存在的不同箱体类型、背景杂物、光线变化等现象进行了干扰抑制验证实验，本实施例训练的unet模型图像分割结果分别如图12-14所示，对应不同干扰情况分别计算svm分类器人物交互行为识别结果，混淆矩阵如图15所示。
[0136]
图12展示了箱体类型干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱子彩图，(d)为人手彩图，图12表明，本实施例提出的方法在面对真实邮局场景中不同类型、大小的箱体时，均能较好地实现物体和箱体的分割，保证最终检测结果的准确性(如图15(a)所示)。
[0137]
如图13展示了背景杂物干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱子彩图，(d)为人手彩图，图13表明，在视野范围内存在常见的手机、胶带等不利于前景提取的背景杂物干扰时，本实施例训练的unet模型仍能对箱体和人手进行准确提取，识别结果混淆矩阵如图15(b)所示，仍可达到较高的准确率。
[0138]
对于24小时全天候的监控场景来说，光线的变化也是需要考虑的干扰因素之一。图14为光线变化干扰实验结果图，其中(a)为原图像，(b)为分割结果图，(c)为箱子彩图，(d)为人手彩图，如图14所示，本实施例提出的基于unet的语义分割模型在面对不同光线条件的情况下，对箱体和人手也可实现精准分割，并能保证最终检测结果的准确性(如图15(c)所示)。
[0139]
实验结果表明，本实施例基于深度和时空信息所提取的特征描述子能够很有效地应对真实邮局验视场景中的不同干扰情况，对以上不同箱体类型、背景杂物、光线变化等干扰信息具有很好的抑制作用。该系统具有较高的鲁棒性和准确性，其检测精确率和召回率均能较好地满足人物交互行为识别的需求，实现对快递工作人员的开箱验视行为的可靠监督。
[0140]
本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。
[0141]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种邮局场景人物交互行为识别方法，其特征在于，所述方法包括：步骤一：采用背景减除法判断检测区域内是否有行为发生，若有检测区域内有行为发生，则相机采集行为视频流，所述视频流包括：彩图像序列和深度图像序列；步骤二：基于unet网络进行前景分割，将所述彩图像序列输入到预训练好的unet网络模型中，输出带有标签的分割结果，从而获得箱体和人手的二值图；步骤三：对深度图像和彩图像进行配准；步骤四：利用所述步骤二中得到的箱体二值图，对配准后深度图像中的前景箱体进行特征提取，获得箱体深度特征；步骤五：基于所述步骤二中得到的人手二值图像提取人手运动轨迹，获得人手运动特征；步骤六：基于所述箱体深度特征和人手运动特征，构建包含深度和时空信息的特征描述子；步骤七：利用预训练好的svm分类器对所述特征描述子进行分类，实现人物交互行为的识别与检测。2.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述步骤四采用开箱过程中单帧图像的箱子前景深度值方差作为代表该图像的特征值，深度方差的计算公式为：其中，σ2表示前景图像深度值的方差，n表示前景图像中像素点的总数，d
k
表示第k个像素点的深度值，d
m
表示前景图像中所有像素点深度值的平均值；通过计算单帧图像箱子深度前景图的方差σ2，然后按时间序列将多帧图像方差σ2形成特征向量λ
bn
。3.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述步骤五中人手运动特征提取的过程包括：对人手二值图进行特征点提取，选取两只人手中远离相机的那只，对其二值图像进行像素点遍历；以图像最上方白像素点所在的行数作为纵坐标，图像最左方白像素点所在的列数作为横坐标，得到特征点f(x,y)的坐标；计算特征点f(x,y)到图像坐标原点的像素距离d
t
，按照时间序列将连续帧图像的特征点距离原点的距离d
t
形成特征向量λ
hn
。4.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述步骤一中采用背景减除法判断检测区域内是否有行为发生的过程包括：将输入图像与背景模型进行比较，通过灰度、度等特征的变化来对图像中的运动目标进行提取和分割，背景减除法的计算公式为：d
(k)
(x,y)＝|f
(k+1)
(x,y)-b
(k)
(x,y)|
其中，d
(k)
(x,y)表示当前帧图像f(
k+1)
(x,y)与背景图像b
(k)
(x,y)的差值，m
(k)
(x,y)表示差值图像的二值化图像，t表示当前帧图像与背景图像像素差值的阈值，大于等于t时判断为存在前景目标；当相机视野范围内无运动目标进入时，检测系统处于待机模式，仅进行视频流与图像帧的获取，选取第一帧图像f0(x,y)作为初始的背景图像b0(x,y)，若场景发生变化，则背景图像相应进行更新；当检测区域内出现运动目标时，二值图像m
(k)
(x,y)中出现大量白像素点，通过计算白像素点与图片总像素的比例s，并根据经验设置评价标准的上限值v
max
及下限值v
min
；当s>v
min
时，判定开箱区域内有行为发生，此时检测系统进入开箱检测模式；记录当前帧的前一帧为起始点sτ，并将sτ作为新的背景图代替初始背景图像继续进行背景减除，直至s<v
min
时判定行为结束并将当前帧记录为结束点e
τ
，将s
τ
至e
τ
这一段视频帧作为疑似开箱行为进行后续的处理；若s一直小于v
min
或大于v
max
，则判断当前帧存在光照突变现象或检测区域内无行为发生，继续进行下一帧的判断。5.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述步骤三对深度图像和彩图像进行配准的过程包括：首先，将深度图的像素点还原到深度坐标系下，直接获取从深度坐标系到彩坐标系的欧式变换矩阵t
d2c
，然后将彩坐标系下的深度点映射到z＝1的彩平面上，转换公式为：其中，t
d2c
表示深度坐标系到彩坐标系的转换矩阵，t
w2c
表示世界坐标系转换到彩坐标系的转换矩阵，t
w2d
表示世界坐标系转换到深度坐标系的转换矩阵。6.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述unet网络在特征提取的过程中，通过3
×
3卷积、relu激活以及2
×
2最大池化，逐步对特征图进行下采样，将输入的样本逐渐减小，同时增加通道数以补偿分辨率的损失。7.根据权利要求1所述的邮局场景人物交互行为识别方法，其特征在于，所述unet网络在上采样过程中，对特征图进行2
×
2转置卷积以及1
×
1卷积，每经过一次上采样，就与特征提取部分对应的通道数相同的尺度融合，逐步恢复图片细节，使得特征图的尺寸逐渐增加、通道数逐渐减少，最终输出语义分割图像。8.一种邮局场景人物交互行为检测系统，其特征在于，所述检测系统用于实现权利要求1-7任一项所述的一种邮局场景人物交互行为识别方法，包括：视频流采集设备，用于采集检测区域内的行为视频流；行为触发模块，利用背景减除法判断检测区域内是否有行为发生，若有行为发生，触发所述视频流采集设备采集视频流；unet前景分割模块，用于对采集的视频流中的图像进行语义分割，提取前景运动目标中的箱体和人手图像；特征提取模块，对前景分割后的箱体和人手图像进行特征提取，获得箱体深度特征和人手运动特征；分类输出模块，利用svm分类器对提取的箱体深度特征和人手运动特征进行识别和分
类，输出检测结果。9.根据权利要求8所述的邮局场景人物交互行为检测系统，其特征在于，所述视频流采集设备包括：rgbd相机。

技术总结

本发明公开了一种邮局场景人物交互行为识别方法及系统，属于视频分析技术领域。所述方法利用背景减除法判断开箱区域内有异常行为触发后，进行视频流的采集；将采集到的视频流图像输入到预训练好的UNet网络模型中，提取前景中的箱体和人手；结合深度和可见光信息，构建箱体和人手的特征描述子，确定人物交互关系；最后，利用预训练好的SVM分类器产生判断结果，实现邮局场景下人物交互行为的精确识别；本发明对复杂背景干扰有较强的抑制作用，对于开箱验视行为的识别准确率较高，具有很好的鲁棒性，能够满足快递站对于工作人员的监督要求，对提高智能视频监控系统的自动化、现代化水平起到了一定帮助作用。水平起到了一定帮助作用。水平起到了一定帮助作用。