一种车内行为安全监测方法、系统、装置及存储介质与流程

1.本发明涉及计算机视觉技术领域，尤其是一种车内行为安全监测方法、系统、装置及介质。

背景技术：

2.随着汽车智能网联化的发展和网约车的兴起，通过平台进行约车逐渐成为大众出行最主要的方式之一，提高了人们出行的效率。然而，网约车在为人们提供便利的同时，也同样存在一定的乘车安全隐患，近年来网约车乘车安全事件时常发生，备受社会各界的关注。因此，如何实现对网约车车内行为的安全监测，成为了亟需解决的问题。
3.现有技术中，在网约车执行订单任务时，平台往往会通过录音设备采集网约车上的音频信息，从而实现对网约车的安全监测，然而仅仅根据音频信息往往难以准确判断车内是否存在强制的犯罪行为，导致车内行为安全监测的准确度较低，且平台无法为每台网约车安排对应的工作人员进行实时监测，大多数情况下存在一定的滞后性，甚至仅仅只能作为事后追溯调查的依据，影响了车内行为安全监测的效率。

技术实现要素：

4.本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
5.为此，本发明实施例的一个目的在于提供一种车内行为安全监测方法，该方法提高了车内行为安全监测的效率和准确度，提高了用户乘车的安全性。
6.本发明实施例的另一个目的在于提供一种车内行为安全监测系统。
7.为了达到上述技术目的，本发明实施例所采取的技术方案包括：
8.第一方面，本发明实施例提供了一种车内行为安全监测方法，包括以下步骤：
9.获取待监测车辆内的第一图像信息和第一音频信息；
10.对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对所述第一音频信息进行语音识别得到语音识别结果；
11.将所述表情识别结果、所述姿态识别结果以及所述语音识别结果输入到预先训练好的强制行为识别模型，判断所述待监测车辆内是否发生强制行为；
12.当所述待监测车辆内发生强制行为，通过预设的方式发出警报。
13.进一步地，在本发明的一个实施例中，所述获取待监测车辆内的第一图像信息和第一音频信息这一步骤，其具体包括：
14.响应于用户终端的第一操作指令，启动安装在待监测车辆内的图像采集装置和音频采集装置；
15.通过所述图像采集装置获取所述待监测车辆内的第一图像信息，并通过所述音频采集装置获取所述待监测车辆内的第一音频信息。
16.进一步地，在本发明的一个实施例中，所述对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果这一步骤，其具体包括：
17.通过orb算法对所述第一图像信息进行特征提取，得到多个orb特征点并生成对应的orb特征向量；
18.将所述orb特征向量分别与预设的人脸表情特征库和人体姿态特征库进行匹配，得到表情识别结果和姿态识别结果。
19.进一步地，在本发明的一个实施例中，所述对所述第一音频信息进行语音识别得到语音识别结果这一步骤，其具体包括：
20.对所述第一音频信息分别进行语音文本识别和语音情感识别，得到文本识别结果和情感识别结果；
21.根据所述情感识别结果对所述文本识别结果进行情感标注，得到语音识别结果。
22.进一步地，在本发明的一个实施例中，，所述车内行为安全监测方法还包括预先训练强制行为识别模型的步骤，其具体包括：
23.获取测试车辆内的第二图像信息和第二音频信息，所述第二图像信息包括测试人员模拟实施车内强制行为时的图像信息和所述测试人员正常驾乘时的图像信息，所述第二音频信息包括测试人员模拟实施车内强制行为时的音频信息和所述测试人员正常驾乘时的音频信息；
24.对所述第二图像信息分别进行人脸表情识别和人体姿态识别，得到表情样本数据和姿态样本数据，并对所述第二音频信息进行语音识别得到语音样本数据；
25.根据所述表情样本数据、所述姿态样本数据以及所述语音样本数据确定第一训练样本，并确定所述第一训练样本的行为标签，所述行为标签为正常驾乘行为或强制行为的具体类型；
26.根据所述第一训练样本和对应的行为标签构建训练样本集；
27.将所述训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型。
28.进一步地，在本发明的一个实施例中，所述将所述训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型这一步骤，其具体包括：
29.将所述训练样本集输入到预先构建的深度神经网络，得到行为识别结果；
30.根据所述行为识别结果和所述行为标签确定所述深度神经网络的损失值；
31.根据所述损失值通过反向传播算法更新所述深度神经网络的参数；
32.当所述损失值达到预设的第一阈值或迭代次数达到预设的第二阈值，停止训练，得到训练好的强制行为识别模型。
33.进一步地，在本发明的一个实施例中，所述当所述待监测车辆内发生强制行为，通过预设的方式发出警报这一步骤，其具体包括：
34.根据所述强制行为识别模型的识别结果确定强制行为类型；
35.根据所述第一图像信息、所述第一音频信息以及所述强制行为类型生成警报信息；
36.将所述警报信息发送至预设的接收方。
37.第二方面，本发明实施例提供了一种车内行为安全监测系统，包括：
38.获取模块，用于获取待监测车辆内的第一图像信息和第一音频信息；
39.识别模块，用于对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得
到表情识别结果和姿态识别结果，并对所述第一音频信息进行语音识别得到语音识别结果；
40.行为判断模块，用于将所述表情识别结果、所述姿态识别结果以及所述语音识别结果输入到预先训练好的强制行为识别模型，判断所述待监测车辆内是否发生强制行为；
41.报警模块，用于当所述待监测车辆内发生强制行为，通过预设的方式发出警报。
42.第三方面，本发明实施例提供了一种车内行为安全监测装置，包括：
43.至少一个处理器；
44.至少一个存储器，用于存储至少一个程序；
45.当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种车内行为安全监测方法。
46.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种车内行为安全监测方法。
47.本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：
48.本发明实施例获取待监测车辆内的第一图像信息和第一音频信息，然后对第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对第一音频信息进行语音识别得到语音识别结果，再将表情识别结果、姿态识别结果以及语音识别结果输入到预先训练好的强制行为识别模型，判断待监测车辆内是否发生强制行为，当待监测车辆内发生强制行为，通过预设的方式发出警报。本发明实施例实时获取待监测车辆内的图像信息和音频信息，得到车内人员的表情识别结果、姿态识别结果以及语音识别结果，通过预先训练好的强制行为识别模型综合考虑表情、姿态以及语音等多个维度的数据来判断车内是否发生强制行为，提高了车内行为安全监测的准确度，且可以在车辆行驶过程中实时进行判断，提高了车内行为安全监测的效率和用户乘车的安全性。
附图说明
49.为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。
50.图1为本发明实施例提供的一种车内行为安全监测方法的步骤流程图；
51.图2为本发明实施例提供的一种车内行为安全监测系统的结构框图；
52.图3为本发明实施例提供的一种车内行为安全监测装置的结构框图。
具体实施方式
53.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实
施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
54.在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
55.参照图1，本发明实施例提供了一种车内行为安全监测方法，具体包括以下步骤：
56.s101、获取待监测车辆内的第一图像信息和第一音频信息。
57.可以理解的是，本发明实施例的车内行为安全监测可适用于网约车、出租车等场景，本发明实施例中以网约车为例进行说明。
58.具体地，用车平台可在对网约车司机进行资格审核时为其提供进行特殊加密后的图像和音频采集装置，该装置采集得到的图像和音频仅可由平台获取；当用户乘车时，用户可在用户终端上的app进行授权，使得用车平台在订单执行过程中可以实时对车内的图像和音频进行采集，从而便于后续的安全监测。步骤s101具体包括以下步骤：
59.s1011、响应于用户终端的第一操作指令，启动安装在待监测车辆内的图像采集装置和音频采集装置；
60.s1012、通过图像采集装置获取待监测车辆内的第一图像信息，并通过音频采集装置获取待监测车辆内的第一音频信息。
61.具体地，用户通过手机app进行约车时，可以选择是否需要车内行为安全监测的服务，平台会根据用户的选择来推送满足要求的车辆；当网约车到达指定乘车地点后，用户通过非驾驶位车门上车时，用车平台监测到非驾驶位车门的开关动作，会再次发送确认消息到用户手机供用户确认，在获得用户同意后(隐私保护)，启动图像采集装置和音频采集装置对车内的图像和音频进行采集。
62.在一些可选的实施例中，图像采集装置可采用3d相机，通过3d相机可采集3d图像数据，以便于后续的人脸识别和姿态识别。
63.s102、对第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对第一音频信息进行语音识别得到语音识别结果。
64.进一步作为可选的实施方式，对第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果这一步骤，其具体包括：
65.s1021、通过orb算法对第一图像信息进行特征提取，得到多个orb特征点并生成对应的orb特征向量；
66.s1022、将orb特征向量分别与预设的人脸表情特征库和人体姿态特征库进行匹配，得到表情识别结果和姿态识别结果。
67.具体地，orb(oriented fast and rotated brief)算法可以用来对图像中的关键点快速创建特征向量，这些特征向量可以用来识别图像中的对象。在orb算法中，fast和brief分别为特征检测算法和向量创建算法。orb算法首先会从图像中查特殊区域，称为关键点，关键点即图像中突出的小区域，比如角点，比如具有像素值急剧的从浅变为深的特征的点；然后会为每个关键点计算相应的特征向量，orb算法创建的特征向量只包含1和0，称为二元特征向量，1和0的顺序会根据特定关键点和其周围的像素区域而变化，该向量表示关键点周围的强度模式，因此多个特征向量可以用来识别更大的区域，甚至图像中
的特定对象。
68.本发明实施例通过orb算法进行特征提取，可以快速、实时地提取车内图像的特征信息，而且在一定程度上不受噪点和图像变换(如旋转和缩放变换)的影响。
69.orb特征向量用于描述图像中的关键点，在获取车内图像的orb特征向量后，可以通过与预设的人脸表情特征库和人体姿态特征库进行关键点匹配来得到表情识别结果和姿态识别结果，具体可使用匹配函数来完成这一步骤。
70.匹配函数的目的是匹配两个不同图像的关键点，方法是比较这两个图像的orb特征向量，看看它们是否可以匹配。当匹配函数对比两个关键点时，它会根据某种指标得出匹配质量，这种指标表示关键点特征向量的相似性。可以将这个指标看作与两个关键点之间的标准欧几里得距离相似性。某些指标会直接检测特征向量是否包含相似顺序的1和0。需要注意的是，不同的匹配函数使用不同的指标来判断匹配质量。本发实施例中，可采用汉明指标匹配函数进行匹配，以提高表情识别和姿态识别的效率。汉明指标匹配函数通过计算orb特征向量之间的不同位数量判断两个关键点之间的匹配质量，以差异数最少的关键点对作为最佳匹配。根据匹配得到的人脸表情特征库中的表情类型以及人体姿态特征库红的姿态类型可以确定表情识别和姿态识别的结果。
71.在一些可选的实施例中，表情识别的结果可以是悲伤、惊讶、厌恶、生气，也可以是高兴、轻松、烦恼等；姿态识别的结果可以是摆手、阻挡、握拳、玩手机等。
72.进一步作为可选的实施方式，对第一音频信息进行语音识别得到语音识别结果这一步骤，其具体包括：
73.s1023、对第一音频信息分别进行语音文本识别和语音情感识别，得到文本识别结果和情感识别结果；
74.s1024、根据情感识别结果对文本识别结果进行情感标注，得到语音识别结果。
75.具体地，本发明实施例采用现有的语音文本识别和语音情感识别模型对第一音频信息进行文本和情感两个维度的识别，然后通过情感识别结果对文本识别结果进行情感标注，得到带有情感的文本信息，即为本发明实施例的语音识别结果。
76.在一些可选的实施例中，文本识别结果可以是停车、开门、放手等，而情感识别结果可以是急迫、恐惧、平和等，通过情感识别结果对文本识别结果标注后，得到的语音识别结果可以是(停车，恐惧)。
77.s103、将表情识别结果、姿态识别结果以及语音识别结果输入到预先训练好的强制行为识别模型，判断待监测车辆内是否发生强制行为。
78.具体地，本发明实施例的强制行为识别模型通过预先采集测试车辆内的图像和音频数据，提取训练样本后训练得到，下面对其训练过程进行说明。
79.进一步作为可选的实施方式，车内行为安全监测方法还包括预先训练强制行为识别模型的步骤，其具体包括：
80.a1、获取测试车辆内的第二图像信息和第二音频信息，第二图像信息包括测试人员模拟实施车内强制行为时的图像信息和测试人员正常驾乘时的图像信息，第二音频信息包括测试人员模拟实施车内强制行为时的音频信息和测试人员正常驾乘时的音频信息；
81.a2、对第二图像信息分别进行人脸表情识别和人体姿态识别，得到表情样本数据和姿态样本数据，并对第二音频信息进行语音识别得到语音样本数据；
82.a3、根据表情样本数据、姿态样本数据以及语音样本数据确定第一训练样本，并确定第一训练样本的行为标签，行为标签为正常驾乘行为或强制行为的具体类型；
83.a4、根据第一训练样本和对应的行为标签构建训练样本集；
84.a5、将训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型。
85.具体地，在构建训练样本集时，行为标签可根据模拟实施的车内强制行为的具体类型进行确定，也可以通过人工进行标注，强制行为的类型包括但不限于胁迫、争论、推搡等，根据强制行为的类型确定对应的行为标签，并作为各个训练样本的标签。采集数量足够多、不同测试人员、不同强制行为的数据作为训练样本，即可形成训练样本集。
86.进一步作为可选的实施方式，将训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型这一步骤a5，其具体包括：
87.a51、将训练样本集输入到预先构建的深度神经网络，得到行为识别结果；
88.a52、根据行为识别结果和行为标签确定深度神经网络的损失值；
89.a53、根据损失值通过反向传播算法更新深度神经网络的参数；
90.a54、当损失值达到预设的第一阈值或迭代次数达到预设的第二阈值，停止训练，得到训练好的强制行为识别模型。
91.具体地，对于强制行为识别模型来说，行为识别结果的准确性可以通过损失函数(loss function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(cost function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本发明实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的强制行为识别模型。具体的迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。
92.s104、当待监测车辆内发生强制行为，通过预设的方式发出警报。
93.具体地，用户可预先在手机app上设置接收警报信息的人员，也可以选择由平台进行接收并处理。步骤s104具体包括以下步骤：
94.s1041、根据强制行为识别模型的识别结果确定强制行为类型；
95.s1042、根据第一图像信息、第一音频信息以及强制行为类型生成警报信息；
96.s1043、将警报信息发送至预设的接收方。
97.具体地，本发明实施例将警报信息发送至用户指定的接收方，在保障用户隐私的同时提高了用户乘车的安全性。
98.在一些可选的实施例中，警报信息还可以包括待监测车辆的相关信息以及当前所在位置等。
99.以上对本发明实施例的方法步骤进行了说明。可以理解的是，本发明实施例实时获取待监测车辆内的图像信息和音频信息，得到车内人员的表情识别结果、姿态识别结果以及语音识别结果，通过预先训练好的强制行为识别模型综合考虑表情、姿态以及语音等多个维度的数据来判断车内是否发生强制行为，提高了车内行为安全监测的准确度，且可以在车辆行驶过程中实时进行判断，提高了车内行为安全监测的效率和用户乘车的安全性。
100.参照图2，本发明实施例提供了一种车内行为安全监测系统，包括：
101.获取模块，用于获取待监测车辆内的第一图像信息和第一音频信息；
102.识别模块，用于对第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对第一音频信息进行语音识别得到语音识别结果；
103.行为判断模块，用于将表情识别结果、姿态识别结果以及语音识别结果输入到预先训练好的强制行为识别模型，判断待监测车辆内是否发生强制行为；
104.报警模块，用于当待监测车辆内发生强制行为，通过预设的方式发出警报。
105.上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
106.参照图3，本发明实施例提供了一种车内行为安全监测装置，包括：
107.至少一个处理器；
108.至少一个存储器，用于存储至少一个程序；
109.当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种车内行为安全监测方法。
110.上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
111.本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种车内行为安全监测方法。
112.本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种车内行为安全监测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。
113.本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。
114.在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
115.此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
116.上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
117.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
118.计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。
119.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
120.在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或
者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
121.尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
122.以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征：

1.一种车内行为安全监测方法，其特征在于，包括以下步骤：获取待监测车辆内的第一图像信息和第一音频信息；对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对所述第一音频信息进行语音识别得到语音识别结果；将所述表情识别结果、所述姿态识别结果以及所述语音识别结果输入到预先训练好的强制行为识别模型，判断所述待监测车辆内是否发生强制行为；当所述待监测车辆内发生强制行为，通过预设的方式发出警报。2.根据权利要求1所述的一种车内行为安全监测方法，其特征在于，所述获取待监测车辆内的第一图像信息和第一音频信息这一步骤，其具体包括：响应于用户终端的第一操作指令，启动安装在待监测车辆内的图像采集装置和音频采集装置；通过所述图像采集装置获取所述待监测车辆内的第一图像信息，并通过所述音频采集装置获取所述待监测车辆内的第一音频信息。3.根据权利要求1所述的一种车内行为安全监测方法，其特征在于，所述对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果这一步骤，其具体包括：通过orb算法对所述第一图像信息进行特征提取，得到多个orb特征点并生成对应的orb特征向量；将所述orb特征向量分别与预设的人脸表情特征库和人体姿态特征库进行匹配，得到表情识别结果和姿态识别结果。4.根据权利要求1所述的一种车内行为安全监测方法，其特征在于，所述对所述第一音频信息进行语音识别得到语音识别结果这一步骤，其具体包括：对所述第一音频信息分别进行语音文本识别和语音情感识别，得到文本识别结果和情感识别结果；根据所述情感识别结果对所述文本识别结果进行情感标注，得到语音识别结果。5.根据权利要求1所述的一种车内行为安全监测方法，其特征在于，所述车内行为安全监测方法还包括预先训练强制行为识别模型的步骤，其具体包括：获取测试车辆内的第二图像信息和第二音频信息，所述第二图像信息包括测试人员模拟实施车内强制行为时的图像信息和所述测试人员正常驾乘时的图像信息，所述第二音频信息包括测试人员模拟实施车内强制行为时的音频信息和所述测试人员正常驾乘时的音频信息；对所述第二图像信息分别进行人脸表情识别和人体姿态识别，得到表情样本数据和姿态样本数据，并对所述第二音频信息进行语音识别得到语音样本数据；根据所述表情样本数据、所述姿态样本数据以及所述语音样本数据确定第一训练样本，并确定所述第一训练样本的行为标签，所述行为标签为正常驾乘行为或强制行为的具体类型；根据所述第一训练样本和对应的行为标签构建训练样本集；将所述训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型。
6.根据权利要求5所述的一种车内行为安全监测方法，其特征在于，所述将所述训练样本集输入到预先构建的深度神经网络进行训练，得到训练好的强制行为识别模型这一步骤，其具体包括：将所述训练样本集输入到预先构建的深度神经网络，得到行为识别结果；根据所述行为识别结果和所述行为标签确定所述深度神经网络的损失值；根据所述损失值通过反向传播算法更新所述深度神经网络的参数；当所述损失值达到预设的第一阈值或迭代次数达到预设的第二阈值，停止训练，得到训练好的强制行为识别模型。7.根据权利要求1至6中任一项所述的一种车内行为安全监测方法，其特征在于，所述当所述待监测车辆内发生强制行为，通过预设的方式发出警报这一步骤，其具体包括：根据所述强制行为识别模型的识别结果确定强制行为类型；根据所述第一图像信息、所述第一音频信息以及所述强制行为类型生成警报信息；将所述警报信息发送至预设的接收方。8.一种车内行为安全监测系统，其特征在于，包括：获取模块，用于获取待监测车辆内的第一图像信息和第一音频信息；识别模块，用于对所述第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对所述第一音频信息进行语音识别得到语音识别结果；行为判断模块，用于将所述表情识别结果、所述姿态识别结果以及所述语音识别结果输入到预先训练好的强制行为识别模型，判断所述待监测车辆内是否发生强制行为；报警模块，用于当所述待监测车辆内发生强制行为，通过预设的方式发出警报。9.一种车内行为安全监测装置，其特征在于，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种车内行为安全监测方法。10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种车内行为安全监测方法。

技术总结

本发明公开了一种车内行为安全监测方法、系统、装置及存储介质，方法包括：获取待监测车辆内的第一图像信息和第一音频信息；对第一图像信息分别进行人脸表情识别和人体姿态识别，得到表情识别结果和姿态识别结果，并对第一音频信息进行语音识别得到语音识别结果；将表情识别结果、姿态识别结果以及语音识别结果输入到预先训练好的强制行为识别模型，判断待监测车辆内是否发生强制行为；当待监测车辆内发生强制行为，通过预设的方式发出警报。本发明综合考虑表情、姿态以及语音等多个维度的数据来判断车内是否发生强制行为，提高了车内行为安全监测的准确度，且提高了车内行为安全监测的效率和用户乘车的安全性，可广泛应用于计算机视觉技术领域。视觉技术领域。视觉技术领域。