动作行为的识别方法、装置和服务器与流程

1.本说明书属于人工智能技术领域，尤其涉及动作行为的识别方法、装置和服务器。

背景技术：

2.在许多业务场景中，常常需要对视频中的人物对象的动作行为进行检测识别。
3.但是，基于现有方法对人物对象的动作行为的识别精度往往较低，误差相对较大，无法对视频中的人物对象的动作行为精准地进行细粒度行为识别。
4.针对上述问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本说明书提供了一种动作行为的识别方法、装置和服务器，可以通过有效利用粗粒度行为识别时得到的第一类视频特征，与细粒度行为识别时得到的第二类视频特征进行融合；并根据融合后的视频特征进行较为精细的细粒度识别，得到精度较高的细粒度识别结果。
6.本说明书提供了一种动作行为的识别方法，包括：
7.获取目标视频；其中，所述目标视频包含有目标对象的动作影像；
8.利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；
9.根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
10.在一个实施例中，在根据目标识别结果，确定出目标对象动作行为的细粒度识别结果之后，所述方法还包括：根据目标对象动作行为的细粒度识别结果，检测目标对象的动作行为是否存在风险。
11.在一个实施例中，所述目标识别结果还包括目标对象动作行为的粗粒度识别结果。
12.在一个实施例中，在根据目标识别结果，确定出目标对象的粗粒度行为和细粒度行为之后，所述方法还包括：
13.根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险。
14.在一个实施例中，在根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险之后，所述方法还包括：
15.在确定目标对象的动作行为存在风险的情况下，生成关于目标对象的风险提示。
16.在一个实施例中，所述预设的动作行为识别模型包括基于双流网络思想的神经网络模型。
17.在一个实施例中，所述第二分支网络至少包括融合模块，其中，所述融合模块用于融合第一类视频特征和第二类视频特征。
18.在一个实施例中，利用预设的动作行为识别模型处理目标视频，包括：
19.利用第一分支网络处理目标视频，以提取出第一类视频特征；
20.利用第二分支网络处理目标视频，以提取出第二类视屏特征；并利用融合模块融合第一类视频特征和第二类视频特征，得到融合后的视频特征；
21.利用第二分支网络处理融合后的视频特征，以得到目标对象动作行为的细粒度识别结果。
22.在一个实施例中，根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险，包括：
23.根据预设的拼接规则，拼接目标对象动作行为的粗粒度识别结果和细粒度识别结果，得到目标对象动作行为的综合识别结果；
24.利用预设的行为风险检测模型处理目标对象的目标对象动作行为的综合识别结果，以确定目标对象的行为是否存在风险。
25.在一个实施例中，所述方法还包括：
26.构建初始的动作行为识别模型；其中，所述初始的动作行为识别模型至少包括通过预设连接相连的初始的第一分支网络和初始的第二分支网络；所述初始的第一分支网络和初始的第二分支网络上还分别配置有第一损失函数和第二损失函数；
27.获取并利用样本数据，训练初始的动作行为识别模型；并在训练过程中，控制第一损失函数和第二损失函数进行网络参数的联合优化，以得到符合精度要求的预设的动作行为识别模型。
28.在一个实施例中，在获取目标视频之后，所述方法还包括：
29.对目标视频进行遮挡检测，以及确定目标视频是否符合预设要求。
30.本说明书还提供了一种动作行为的识别装置，包括：
31.获取模块，用于获取目标视频；其中，所述目标视频包含有目标对象的动作影像；
32.处理模块，用于利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；
33.确定模块，用于根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
34.本说明书还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现以下步骤：获取目标视频；其中，所述目标视频包含有目标对象的动作影像；利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为
识别；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
35.本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述动作行为的识别方法的相关步骤。
36.本说明书还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现所述动作行为的识别方法的相关步骤。
37.基于本说明书提供的动作行为的识别方法、装置和服务器，具体实施前，可以预先训练得到至少包括通过预设连接并联的第一分支网络和第二分支网络的预设的动作行为识别模型；其中，第一分支网络用于进行粗粒度行为识别；第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别。具体实施时，获取包含有目标对象的动作影像的目标视频；再利用预设的动作行为识别模型处理目标视频，以得到目标识别结果；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。从而可以通过有效利用粗粒度行为识别时得到的第一类视频特征，与细粒度行为识别时得到的第二类视频特征进行融合；并根据融合后的视频特征进行较为精细的细粒度识别，得到精度较高的目标对象动作行为的细粒度识别结果，进而可以精准地检测该目标对象的动作行为是否存在风险，减少检测误差。
附图说明
38.为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1是本说明书的一个实施例提供的动作行为的识别方法的流程示意图；
40.图2是在一个场景示例中，应用本说明书实施例提供的动作行为的识别方法的一种实施例的示意图；
41.图3是在一个场景示例中，应用本说明书实施例提供的动作行为的识别方法的一种实施例的示意图；
42.图4是在一个场景示例中，应用本说明书实施例提供的动作行为的识别方法的一种实施例的示意图；
43.图5是在一个场景示例中，应用本说明书实施例提供的动作行为的识别方法的一种实施例的示意图；
44.图6是在一个场景示例中，应用本说明书实施例提供的动作行为的识别方法的一种实施例的示意图；
45.图7是本说明书的一个实施例提供的服务器的结构组成示意图；
46.图8是本说明书的一个实施例提供的动作行为的识别装置的结构组成示意图。
具体实施方式
47.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，
本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。
48.参阅图1所示，本说明书实施例提供了一种动作行为的识别方法，其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容：
49.s101：获取目标视频；其中，所述目标视频包含有目标对象的动作影像；
50.s102：利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；
51.s103：根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
52.在一些实施例中，参阅图2所示，上述动作行为的识别方法具体可以应用于云服务器一侧。
53.其中，上述云服务器具体可以包括一种应用于云监测平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述云服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述云服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述云服务器所包含的服务器的数量。所述云服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集。
54.上述云服务器具体还可以与检测设备相连。其中，上述检测设备至少包括摄像头。上述检测设备可以用于采集视频数据。例如，监控摄像头、监护机器人等。
55.具体实施时，检测设备可以实时或定时采集所在环境区域中的视频，并将该视频上传发送给云服务器。云服务器可以利用预设的动作行为识别模型通过处理该目标视频，以对视频中的目标对象进行细粒度行为识别，得到精度较高的目标对象动作行为的细粒度识别结果；进而可以根据上述目标对象动作行为的细粒度识别结果，智能地自动判断该目标对象的动作行为是否存在风险。
56.具体的，上述检测设备可以布设于医院中，以配合云服务器实时检测患者是否出现需要紧急救治的风险动作行为。上述检测设备还可以布设于工厂中，以配合云服务器实时检测工作人员是否出现工作不规范的风险动作行为。上述检测设备还可以布设于家庭中，以配合云服务器实时检测家中的老人、小孩是否出现涉及居家安全的风险动作行为等等。
57.在检测到目标对象的动作行为存在风险时，可以及时生成针对该目标对象的风险提示；并将该风险提示发送至与该目标对象关联的用户所持有的用户终端。
58.当然，需要说明的是，上述所列举的应用场景只是一种示意性说明。具体实施时，根据具体情况和处理需求，上述检测设备和云服务器还可以应用于其他合适的应用场景中。对此，本说明书不作限定。
59.在一些实施例中，上述目标视频具体可以是指包含有目标对象的动作影像的视频数据。
60.其中，上述目标对象具体可以理解为所关注的对象。具体的，上述目标对象可以是
家中的老人、小孩，或者宠物；也可以是医院中的患者；还可以是工厂中的工人等。
61.具体实施时，用户可以通过所使用的用户终端，与云服务器交互，来自定义设置需要关注的目标对象。
62.其中，用户终端具体可以包括一种应用于用户一侧，能够实现数据采集、数据传输等功能的前端。具体的，所述用户终端例如可以为台式电脑、平板电脑、笔记本电脑、手机、智能手表等电子设备。或者，所述用户终端也可以为能够运行于上述电子设备中的软件应用。例如，可以是在手机上运行的某动作行为检测app等。
63.在一些实施例中，具体实施时，检测设备可以根据用户设置的自定义参数，每间隔预设的时间段采集包含有目标对象的动作影像的视频数据，作为目标视频；并将该目标视频通过有线或无线的方式发送至云服务器。相应的，云服务器获取得到目标视频。
64.在一些实施例中，在获取目标视频之后，所述方法具体实施时，还可以包括以下内容：对目标视频进行遮挡检测，以及确定目标视频是否符合预设要求。
65.具体的，云服务器可以从目标视频所包含的多帧图像中间隔抽取多帧图像作为采样图像；针对采样图像的中心图像区域(例如，以采样图像的中心为圆心，预设长度为半径的圆形图像区域)通过进行像素值方差检测，以确定采样图像中是否存在有遮挡的图像，并统计有遮挡的图像在采样图像中的占比；在确定采样图像中存在有遮挡的图像，且有遮挡的图像在采样图像中的占比大于预设的占比阈值的情况下，确定该目标视频是不符合预设要求的。
66.在确定目标视频不符合预设要求的情况下，可以不再浪费处理资源和处理时间对该目标视频进行后续处理。同时，还可以生成关于重新采集目标视频的重采指令，并将该重采指令发送至检测设备，以控制检测设备重新采集符合预设要求的目标视频。
67.相反，在确定目标视频符合预设要求的情况下，可以继续后续的数据处理，以对目标视频中的目标对象进行动作行为识别。
68.在一些实施例中，上述预设的动作行为识别模型具体可以理解为一种能够基于输入的视频数据，对视频中的目标对象进行细粒度行为识别的神经网络模型。
69.参阅图3所示，上述预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第二分支网络用于进行细粒度行为识别。
70.其中，上述粗粒度行为识别具体可以是基于宏观维度，对视频中目标对象的整体动作进行识别和分类。例如，识别出视频中目标对象的整体动作为跑步。
71.上述细粒度行为识别具体可以是基于微观维度，对视频中目标对象整体动作下的子动作、动作细节进行细致的检测和分析。例如，识别出视频中目标对象跑步时膝盖关节的摆动幅度和摆动方向，以及跑步时眨眼次数和频率等等。
72.参阅图4所示，上述第一分支网络具体可以包括第一特征提取模块，其中，上述第一特征提取模块具体可以用于对输入的目标视频进行基于粗粒度行为识别的特征处理，以提取得到针对粗粒度行为识别的第一类视频特征。
73.此外，上述第一分支网络还包括第一识别模块。其中，第一识别模块与第一特征模块相连，用于通过处理第一特征模块输出的第一类视频特征，对目标视频中的目标对象进行粗粒度行为识别，以输出目标对象动作行为的粗粒度识别结果。
74.上述第二分支网络具体可以包括第二特征提取模块，其中，上述第二特征提取模块具体可以用于对输入的目标视频进行基于细粒度行为识别的特征处理，以提取得到针对细粒度行为识别的第二类视频特征。
75.进一步，上述第二分支网络至少还可以包括融合模块，其中，所述融合模块用于融合第一类视频特征和第二类视频特征。
76.其中，上述融合模块分别与第一特征提取模块和第二特征提取模块相连。具体的，上述融合模块可以通过预设连接，与第一分支网络中的第一特征提取模块相连。
77.具体实施时，第一分支网络中的第一特征提取模块从目标视频中提取到的第一类特征还会通过预设连接流入第二分支网络中的融合模块；同时，第二分支网络中的第二特征提取模块从目标视频中提取到的第二类特征也会流入融合模块中。融合模块可以根据相应的融合规则，融合第一类视频特征和第二类视频特征，得到并输出融合后的视频特征。
78.这样得到的融合后的视频特征不但同时包含有基于粗粒度行为识别得到的第一类视频特征和基于细粒度行为识别得到的第二类视频特征的数据信息，同时还包含粗粒度行为和细粒度行为之间的关联信息。相应的，后续利用上述融合后的视频特征，可以更加精细实现对目标视频中目标对象的细粒度行为识别。
79.上述第二分支网络还包括第二识别模块。其中，第二识别模块与融合模块相连，用于通过处理融合模块输出的融合后的视频特征，对目标视频中的目标对象进行细粒度行为识别，以输出目标对象动作行为的细粒度识别结果。
80.在一些实施例中，所述预设的动作行为识别模型包括基于双流网络思想的神经网络模型。
81.具体的，上述预设的动作行为识别模型可以是一种基于双流convnet架构的神经网络模型。相应的，上述第一网络分支可以相当于第一双流网络分支，上述第二网络分支可以相当于第二双流网络分支。
82.基于上述架构的神经网络模型可以构建得到细粒度行为识别效果较好、精度较高的预设的动作行为识别模型。
83.在一些实施例中，具体实施时，可以将目标视频作为模型输入，输入至预设的动作行为识别模型中；并启动上述预设的动作行为识别模型，通过处理目标视频，输出对应的目标识别结果。
84.在一些实施例中，上述目标识别结果至少包括目标对象动作行为的细粒度识别结果。
85.在一些实施例中，在根据目标识别结果，确定出目标对象动作行为的细粒度识别结果之后，所述方法具体实施时，还可以包括：根据目标对象动作行为的细粒度识别结果，检测目标对象的动作行为是否存在风险。
86.具体实施时，可以将目标对象动作行为的细粒度识别结果，与预设的风险模板进行匹配；根据匹配结果，确定目标对象的动作行为是否存在风险。其中，预设的风险检测模板至少包含有相应场景下不同风险情况与细粒度识别结果的映射关系。
87.上述预设的风险检测模板具体可以是预先是按照以下方式构建得到的：获取大量所针对的应用场景下的包含有样本对象动作影像的历史视频；从大量历史视频中筛选出动作行为存在风险的历史视频作为样本视频；从样本视频中获取样本对象动作行为的细粒度
识别数据作为样本数据；并根据不同的风险情况对上述样本数据进行风险标注，得到标注后的样本数据；再通过对标注后的样本数据进行聚类处理，得到相应的聚类结果；根据聚类结果，确定出该应场景下不同风险情况与细粒度识别结果的映射关系，以构建得到与该应用场景对应的预设的风险检测模板。
88.在一些实施例中，参阅图5所示，上述利用预设的动作行为识别模型处理目标视频，具体实施时，可以包括以下内容：
89.s1：利用第一分支网络处理目标视频，以提取出第一类视频特征；
90.s2：利用第二分支网络处理目标视频，以提取出第二类视屏特征；并利用融合模块融合第一类视频特征和第二类视频特征，得到融合后的视频特征；
91.s3：利用第二分支网络处理融合后的视频特征，以得到目标对象动作行为的细粒度识别结果。
92.在一些实施例中，所述目标识别结果具体还可以包括目标对象动作行为的粗粒度识别结果。
93.在一些实施例中，在根据目标识别结果，确定出目标对象的粗粒度行为和细粒度行为之后，所述方法具体实施时，还可以包括以下内容：根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险。
94.具体实施时，可以根据预设的组合规则，组合目标对象动作行为的粗粒度识别结果和细粒度识别结果，得到目标对象动作行为的多粒度识别结果；再将目标对象动作行为的多粒度识别结果，与预设的风险模板进行匹配；根据匹配结果，确定目标对象的动作行为是否存在风险。其中，预设的风险检测模板至少包含有相应场景下不同风险情况与多粒度识别结果的映射关系。
95.上述预设的风险检测模板具体可以是预先是按照以下方式构建得到的：获取大量所针对的应用场景下的包含有样本对象动作影像的历史视频；从大量历史视频中筛选出动作行为存在风险的历史视频作为样本视频；从样本视频中获取并组合样本对象动作行为的细粒度识别数据和粗粒度识别，得到对应的多粒度识别结果作为样本数据；并根据不同的风险情况对上述样本数据进行风险标注，得到标注后的样本数据；再通过对标注后的样本数据进行聚类处理，得到相应的聚类结果；根据聚类结果，确定出该应场景下不同风险情况与多粒度识别结果的映射关系，以构建得到与该应用场景对应的预设的风险检测模板。
96.基于上述实施例，可以准确检测出目标对象的动作行为是否存在风险。
97.在一些实施例中，在根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险之后，所述方法具体实施时，还可以包括以下内容：在确定目标对象的动作行为存在风险的情况下，生成关于目标对象的风险提示。
98.针对不同的应用场景，可以采用与应用场景相匹配的触达方式，向相应用户触达上述风险提示。
99.具体的，例如，对于医院场景，可以将上述风险提示发送至与该患者绑定的医生用户的用户端，以及时将该风险提示触达给医生用户；同时，还可以响应上述风险提示，控制与该患者关联的警报器播放警报音，以及时提示周围护士前往看护。
100.又例如，对于家庭场景，可以将上述风险提示发送至家长用户的用户端，以及时提醒该家长用户家中的老人或小孩当前行为可能存在危险。
101.在一些实施例中，上述根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险，具体实施时，还可以包括以下内容：
102.s1：根据预设的拼接规则，拼接目标对象动作行为的粗粒度识别结果和细粒度识别结果，得到目标对象动作行为的综合识别结果；
103.s2：利用预设的行为风险检测模型处理目标对象的目标对象动作行为的综合识别结果，以确定目标对象的行为是否存在风险。
104.其中，上述预设的行为风险检测模型具体可以理解为一种预先利用相应应用场景下动作行为存在风险的样本视频训练得到的，能够基于输入的目标对象动作行为的综合识别结果，检测并判断出该目标对象是否存在该应用场景下的行为风险的神经网络模型。
105.在一些实施例中，参阅图6所示，所述方法具体实施时，还可以包括以下内容：
106.s1：构建初始的动作行为识别模型；其中，所述初始的动作行为识别模型至少包括通过预设连接相连的初始的第一分支网络和初始的第二分支网络；所述初始的第一分支网络和初始的第二分支网络上还分别配置有第一损失函数和第二损失函数；
107.s2：获取并利用样本数据，训练初始的动作行为识别模型；并在训练过程中，控制第一损失函数和第二损失函数进行网络参数的联合优化，以得到符合精度要求的预设的动作行为识别模型。
108.基于上述实施例，可以通过控制配置于第一分支网络和第二分支网络的第一损失函数和第二损失函数，进行多输出、多任务的模型训练，从而可以高效地训练得到精度较高、效果较好的预设的动作行为识别模型。
109.在一些实施例中，在获取目标视频之后，所述方法具体实施时，还可以包括：对目标视频进行诸如动态降噪等预处理，以减少目标视频中的影像误差，进一步提高后续识别处理时的精度。
110.由上可见，基于本说明书实施例提供的动作行为的识别方法，具体实施前，可以预先训练得到至少包括通过预设连接并联的第一分支网络和第二分支网络的预设的动作行为识别模型；其中，第一分支网络用于进行粗粒度行为识别；第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别。具体实施时，获取包含有目标对象的动作影像的目标视频；再利用预设的动作行为识别模型处理目标视频，以得到目标识别结果；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。从而可以通过有效利用粗粒度行为识别时得到的第一类视频特征，与细粒度行为识别时得到的第二类视频特征进行融合；并根据融合后的视频特征进行较为精细的细粒度识别，得到精度较高的目标对象动作行为的细粒度识别结果，进而可以精准地检测该目标对象的动作行为是否存在风险，减少检测误差。
111.本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标视频；其中，所述目标视频包含有目标对象的动作影像；利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频
drive,hdd)或者存储卡(memory card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。
121.在本实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。
122.本说明书实施例还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取目标视频；其中，所述目标视频包含有目标对象的动作影像；利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
123.参阅图8所示，在软件层面上，本说明书实施例还提供了一种动作行为的识别装置，该装置具体可以包括以下的结构模块：
124.获取模块801，具体可以用于获取目标视频；其中，所述目标视频包含有目标对象的动作影像；
125.处理模块802，具体可以用于利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；
126.确定模块803，具体可以用于根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。
127.在一些实施例中，所述装置具体还可以包括检测模块，具体可以用于在根据目标识别结果，确定出目标对象动作行为的细粒度识别结果之后，根据目标对象动作行为的细粒度识别结果，检测目标对象的动作行为是否存在风险。
128.在一些实施例中，所述目标识别结果具体还可以包括目标对象动作行为的粗粒度识别结果。
129.在一些实施例中，上述检测模块具体实施时，在根据目标识别结果，确定出目标对象的粗粒度行为和细粒度行为之后，还可以用于根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险。
130.在一些实施例中，所述装置在根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险之后，还可以用于在确定目标对象的动作行为存在风险的情况下，生成关于目标对象的风险提示。
131.在一些实施例中，所述预设的动作行为识别模型具体可以包括基于双流网络思想的神经网络模型等。
132.在一些实施例中，所述第二分支网络至少包括融合模块，其中，所述融合模块用于融合第一类视频特征和第二类视频特征。
133.在一些实施例中，上述处理模块802具体实施时，可以按照以下方式利用预设的动作行为识别模型处理目标视频：利用第一分支网络处理目标视频，以提取出第一类视频特征；利用第二分支网络处理目标视频，以提取出第二类视屏特征；并利用融合模块融合第一类视频特征和第二类视频特征，得到融合后的视频特征；利用第二分支网络处理融合后的视频特征，以得到目标对象动作行为的细粒度识别结果。
134.在一些实施例中，上述检测模块具体实施时，可以按照以下方式根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险：根据预设的拼接规则，拼接目标对象动作行为的粗粒度识别结果和细粒度识别结果，得到目标对象动作行为的综合识别结果；利用预设的行为风险检测模型处理目标对象的目标对象动作行为的综合识别结果，以确定目标对象的行为是否存在风险。
135.在一些实施例中，所述装置具体实施时，还可以用于构建初始的动作行为识别模型；其中，所述初始的动作行为识别模型至少包括通过预设连接相连的初始的第一分支网络和初始的第二分支网络；所述初始的第一分支网络和初始的第二分支网络上还分别配置有第一损失函数和第二损失函数；获取并利用样本数据，训练初始的动作行为识别模型；并在训练过程中，控制第一损失函数和第二损失函数进行网络参数的联合优化，以得到符合精度要求的预设的动作行为识别模型。
136.在一些实施例中，所述装置在获取目标视频之后，具体实施时，还可以用于对目标视频进行遮挡检测，以及确定目标视频是否符合预设要求。
137.需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
138.由上可见，基于本说明书实施例提供的动作行为装置，具体实施前，可以预先训练得到至少包括通过预设连接并联的第一分支网络和第二分支网络的预设的动作行为识别模型；其中，第一分支网络用于进行粗粒度行为识别；第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别。具体实施时，获取包含有目标对象的动作影像的目标视频；再利用预设的动作行为识别模型处理目标视频，以得到目标识别结果；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。从而可以通过有效利用粗粒度行为识别时得到的第一类视频特征，与细粒度行为识别时得到的第二类视频特征进行融合；并根据融合后的视频特征进行较为精细的细粒度识别，得到精度较高的目标对象动作行为的细粒度识别结果，进而可以精准地检测该目标对象的动作行为是否存在风险，减少检测误差。
139.虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无
创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
140.本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
141.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。
142.通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
143.本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
144.虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

技术特征：

1.一种动作行为的识别方法，其特征在于，包括：获取目标视频；其中，所述目标视频包含有目标对象的动作影像；利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。2.根据权利要求1所述的方法，其特征在于，在根据目标识别结果，确定出目标对象动作行为的细粒度识别结果之后，所述方法还包括：根据目标对象动作行为的细粒度识别结果，检测目标对象的动作行为是否存在风险。3.根据权利要求1所述的方法，其特征在于，所述目标识别结果还包括目标对象动作行为的粗粒度识别结果。4.根据权利要求3所述的方法，其特征在于，在根据目标识别结果，确定出目标对象的粗粒度行为和细粒度行为之后，所述方法还包括：根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险。5.根据权利要求2或4所述的方法，其特征在于，在根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险之后，所述方法还包括：在确定目标对象的动作行为存在风险的情况下，生成关于目标对象的风险提示。6.根据权利要求1所述的方法，其特征在于，所述预设的动作行为识别模型包括基于双流网络思想的神经网络模型。7.根据权利要求6所述的方法，其特征在于，所述第二分支网络至少包括融合模块，其中，所述融合模块用于融合第一类视频特征和第二类视频特征。8.根据权利要求7所述的方法，其特征在于，利用预设的动作行为识别模型处理目标视频，包括：利用第一分支网络处理目标视频，以提取出第一类视频特征；利用第二分支网络处理目标视频，以提取出第二类视屏特征；并利用融合模块融合第一类视频特征和第二类视频特征，得到融合后的视频特征；利用第二分支网络处理融合后的视频特征，以得到目标对象动作行为的细粒度识别结果。9.根据权利要求4所述的方法，其特征在于，根据目标对象动作行为的粗粒度识别结果和细粒度识别结果，检测目标对象的动作行为是否存在风险，包括：根据预设的拼接规则，拼接目标对象动作行为的粗粒度识别结果和细粒度识别结果，得到目标对象动作行为的综合识别结果；利用预设的行为风险检测模型处理目标对象的目标对象动作行为的综合识别结果，以确定目标对象的行为是否存在风险。10.根据权利要求1所述的方法，其特征在于，所述方法还包括：构建初始的动作行为识别模型；其中，所述初始的动作行为识别模型至少包括通过预
设连接相连的初始的第一分支网络和初始的第二分支网络；所述初始的第一分支网络和初始的第二分支网络上还分别配置有第一损失函数和第二损失函数；获取并利用样本数据，训练初始的动作行为识别模型；并在训练过程中，控制第一损失函数和第二损失函数进行网络参数的联合优化，以得到符合精度要求的预设的动作行为识别模型。11.根据权利要求1所述的方法，其特征在于，在获取目标视频之后，所述方法还包括：对目标视频进行遮挡检测，以及确定目标视频是否符合预设要求。12.一种动作行为的识别装置，其特征在于，包括：获取模块，用于获取目标视频；其中，所述目标视频包含有目标对象的动作影像；处理模块，用于利用预设的动作行为识别模型处理目标视频，得到对应的目标识别结果；其中，预设的动作行为识别模型至少包括并联的第一分支网络和第二分支网络；所述第一分支网络与第二分支网络通过预设连接相连；所述第一分支网络用于进行粗粒度行为识别；所述第一分支网络在进行粗粒度行为识别时所生成的第一类视频特征通过预设连接流入第二分支网络，并与第二分支网络生成的第二类视频特征融合，以进行细粒度行为识别；确定模块，用于根据目标识别结果，确定出目标对象动作行为的细粒度识别结果。13.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至11中任一项所述方法的步骤。14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被处理器执行时实现权利要求1至11中任一项所述方法的步骤。15.一种计算机程序产品，其特征在于，包含有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。

技术总结

本说明书提供了动作行为的识别方法、装置和服务器，应用于人工智能技术领域。基于上述方法，具体实施前，可以预先训练得到至少包括通过预设连接并联的第一分支网络和第二分支网络的预设的动作行为识别模型。具体实施时，可以利用预设的动作行为识别模型处理所获取的目标视频，以得到目标识别结果；再根据目标识别结果，确定目标对象动作行为的细粒度识别结果。从而可以通过有效利用粗粒度行为识别时得到的第一类视频特征，与细粒度行为识别时得到的第二类视频特征进行融合；并根据融合后的视频特征进行较为精细的细粒度识别，得到精度较高的细粒度识别结果，进而可以精准地检测判断该目标对象的动作行为是否存在风险，减少检测误差。测误差。测误差。