一种基于音视频的预质检方法及装置与流程

1.本技术涉检测技术领域，尤其涉及一种基于音视频的预质检方法及装置。

背景技术：

2.随着信息技术的发展，在业务办理过程中进行双录，即进行完整的录音和录像，有利于回溯行为、查询重要信息等。在将双录得到的音视频上传到质检系统后，会进行人工智能初步质检和人工复检，为了提高质检效率，通常在双录过程中进行预质检。
3.现有技术中基于音视频进行预质检时，对正在录制的视频中的人脸图像进行识别，确认业务办理人和业务受理人身份是否正确，确认成功后，对正在录制的音频做关键词识别，识别到关键词则认为预质检通过。
4.然而，经过研究发现，采用该现有技术所进行的预质检，仅对正在录制的音频做关键词识别，无法识别出业务受理人代替业务办理人回答关键词的情况，导致预质检的结果不准确。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种基于音视频的预质检方法及装置，旨在识别出业务受理人代替业务办理人回答关键词的情况，提高预质检的结果的准确性。
6.第一方面，本技术实施例提供了一种基于音视频的预质检方法，所述方法包括：
7.在识别到所述视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别所述音频是否包括预设关键词；
8.在识别到所述音频包括所述预设关键词后，确定所述预设关键词对应的时间段；
9.从所述视频获取所述时间段对应的视频片段；
10.若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述业务办理人的唇语识别结果包括所述预设关键词，确定预质检通过；
11.若所述唇语识别结果不包括所述预设关键词或所述第二人脸标识不包括所述业务办理人，确定预质检不通过。
12.可选地，所述视频片段中处于说话状态的人脸图像的第二人脸标识的确定步骤，包括：
13.根据所述视频片段的多个视频帧中人脸图像的嘴部关键点，获得所述多个视频帧中人脸图像的嘴部变化纵横比mar；
14.将所述多个视频帧中人脸图像的第一嘴部区域图输入说话动作识别模型，获得所述说话动作识别模型输出的说话动作识别结果；
15.将所述多个视频帧中人脸图像的嘴部变化纵横比mar符合预设变化状态，且和所述说话动作识别结果为存在说话动作的人脸图像，确定为处于说话状态的人脸图像；
16.根据所述处于说话状态的人脸图像，确定所述第二人脸标识。
17.可选地，所述嘴部关键点包括唇圈关键点和嘴角关键点，所述根据所述视频片段
的多个视频帧中人脸图像的嘴部关键点，获得所述多个视频帧中人脸图像的嘴部变化纵横比mar，包括：
18.获取所述人脸图像的唇圈关键点和嘴角关键点；
19.根据所述唇圈关键点获得所述嘴部的嘴部高度；根据所述嘴角关键点获得所述嘴部的嘴部宽度；
20.根据所述嘴部高度和所述嘴部宽度进行比值计算，获得所述mar；
21.其中，所述唇圈关键点包括内圈关键点或外圈关键点。
22.可选地，所述业务办理人的唇语识别结果的识别步骤，包括：
23.获取所述视频片段中业务办理人的人脸图像的第二嘴部区域图；
24.将所述第二嘴部区域图输入唇语识别模型进行特征提取，获得图像特征向量；
25.根据所述第二嘴部区域图对应的时间点，获取所述时间点前第一时间点至所述时间点后前第二时间点之间的第一音频片段；
26.将所述第一音频片段输入所述唇语识别模型进行特征提取，获得音频特征向量；
27.对所述图像特征向量和所述音频特征向量进行融合，获得融合特征向量；
28.对所述融合特征向量进行唇语识别，获得所述业务办理人的唇语识别结果。
29.可选地，所述基于音视频的预质检方法还包括：
30.若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述时间段对应的第二音频片段的声纹识别结果仅包括所述业务办理人，确定预质检通过。
31.可选地，所述时间段对应的第二音频片段的声纹识别结果的识别步骤，包括：
32.将所述第二音频片段的音频特征输入声纹识别模型，获得所述声纹识别模型输出的声纹识别结果；所述声纹识别模型是根据所述业务办理人的声纹特征数据和所述业务受理人的声纹特征数据训练识别网络获得的。
33.可选地，所述识别所述音频是否包括预设关键词，包括：
34.获取所述音频的音频特征；
35.将所述音频特征输入至关键词识别模型，获得所述关键词识别输出的关键词识别结果；
36.根据所述关键词识别结果，确定所述音频是否包括所述预设关键词。
37.可选地，所述基于音视频的预质检方法还包括：
38.若未识别到所述音频包括所述预设关键词，提示录制所述预设关键词。
39.可选地，所述基于音视频的预质检方法还包括：
40.若识别到所述视频中人脸图像的人脸标识不包括所述业务办理人，确定预质检不通过并提示录制所述业务办理人。
41.第二方面，本技术实施例提供了一种基于音视频的预质检装置，所述方法包括：
42.识别模块，用于在识别到所述视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别所述音频是否包括预设关键词；
43.第一确定模块，用于在识别到所述音频包括所述预设关键词后，确定所述预设关键词对应的时间段；
44.获取模块，用于从所述视频获取所述时间段对应的视频片段；
45.第二确定模块，用于若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述业务办理人的唇语识别结果包括所述预设关键词，确定预质检通过；
46.第三确定模块，用于若所述唇语识别结果不包括所述预设关键词或所述第二人脸标识不包括所述业务办理人，确定预质检不通过。
47.第三方面，本技术实施例提供了一种基于音视频的预质检设备，所述设备包括：
48.存储器，用于存储计算机程序；
49.处理器，用于执行所述计算机程序，以使所述设备执行前述第一方面所述的基于音视频的预质检方法。
50.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，当所述计算机程序被运行时，运行所述计算机程序的设备实现前述第一方面所述的基于音视频的预质检方法。
51.相较于现有技术，本技术实施例具有以下有益效果：
52.本技术实施例提供了一种基于音视频的预质检方法，在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词；在识别到音频包括预设关键词后，确定预设关键词对应的时间段；从视频获取时间段对应的视频片段；若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过；若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。可见，该方法既识别音频是否存在预设关键词，又对预设关键词对应的视频片段进行说话状态识别和唇语识别，以确认业务办理人是否说出预设关键词，能够识别出业务受理人代替业务办理人回答预设关键词的情况，从而提高预质检结果的准确性。
附图说明
53.为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
54.图1为本技术实施例提供的一种基于音视频的预质检方法的应用场景；
55.图2为本技术实施例提供的一种基于音视频的预质检方法的流程图；
56.图3为本技术实施例提供的一种视频片段中处于说话状态的人脸图像的第二人脸标识的确定方法的流程图；
57.图4为本技术实施例提供的一种嘴部关键点取点的示意图；
58.图5为本技术实施例提供的一种基于音视频的预质检装置的示意图。
具体实施方式
59.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在
没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
60.目前，现有技术中基于音视频进行预质检的方法为，对正在录制的视频中的人脸图像进行识别，确认业务办理人和业务受理人身份是否正确，确认成功后，对正在录制的音频做关键词识别，识别到关键词则认为预质检通过。然而，经过研究发现，采用该现有技术所进行的预质检，仅对正在录制的音频做关键词识别，无法识别出业务受理人代替业务办理人回答关键词的情况，导致预质检的结果不准确。
61.基于此，为了解决上述问题，提高预质检结果的准确性，本技术实施例提供了一种基于音视频的预质检方法及装置，在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词；在识别到音频包括预设关键词后，确定预设关键词对应的时间段；从视频获取时间段对应的视频片段；若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过；若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。可见，该方法既识别音频是否存在预设关键词，又对预设关键词对应的视频片段进行说话状态识别和唇语识别，以确认业务办理人是否说出预设关键词，能够识别出业务受理人代替业务办理人回答预设关键词的情况，从而提高预质检结果的准确性。
62.举例来说，本技术实施例的场景之一，可以是应用到如图1所示的场景中。该场景包括摄像机101和服务器102，其中，摄像机101在业务办理过程中进行双录，即进行完整的录音和录像得到音视频，服务器102针对摄像机101得到的音视频，采用本技术实施例提供的实施方式进行预质检。
63.首先，在上述应用场景中，虽然将本技术实施例提供的实施方式的动作描述由服务器102执行；但是，本技术实施例在执行主体方面不受限制，只要执行了本技术实施例提供的实施方式所公开的动作即可。
64.其次，上述场景仅是本技术实施例提供的一个场景示例，本技术实施例并不限于此场景。
65.下面结合附图，通过实施例来详细说明本技术实施例中基于音视频的预质检方法及装置的具体实现方式。
66.参见图2，该图为本技术实施例提供的一种基于音视频的预质检方法的流程图，结合图2所示，具体可以包括：
67.s201：在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词。
68.在开始办理业务时，需要对办理业务的全过程录制完整的音视频，首先识别正在录制的视频中的所有人脸图像的第一人脸标识，当识别到人脸图像的第一人脸标识包括业务办理人和业务受理人后，表示办理业务的场景具有业务办理人和业务受理人。此情况下，考虑到业务过程中通常有需要业务办理人回答问题的环节，以确认其知晓所办任务的具体信息，因此，需要对正在录制的音频中识别是否包括预设关键词。
69.其中，第一人脸标识是指对正在录制的视频中所有人脸图像赋予的标识，举例来说，可以对视频中不同的人脸图像赋予不同的专属标识，以识别是否包括业务办理人和业务受理人；业务办理人是指有业务需要办理的人，举例来说，可以包括保险公司的投保人或
被投保人，也可以包括银行的客户等；业务受理人是指接受业务并进行办理的人，举例来说可以包括保险公司的代理人，也可以包括银行的大堂经理等；预设关键词是指预先设置的业务办理人在回答问题时可能需要说出的关键词，举例来说业务办理人可以说出“确认”/“不确认”、“同意”/“不同意”等关键词。当然，以上所述也可以包括其他方式，并不影响本技术实施例的实现。
70.其中，本技术实施例可不具体限定识别音频是否包括预设关键词的具体过程，为了便于理解，下面结合一种可能的实施方式进行说明。
71.可以先将音频转换为音频特征，再将音频特征通过关键词识别模型得到关键词识别结果，判断关键词识别结果中是否包括预设关键词。因此，在一种可能的实施方式中，s201具体可以包括：获取音频的音频特征；将音频特征输入至关键词识别模型，获得关键词识别输出的关键词识别结果；根据关键词识别结果，确定音频是否包括预设关键词。
72.举例来说，可以先对音频进行预处理，将音频转化为音频特征，作为关键词识别模型的输入，然后通过预先训练好的关键词识别模型对音频特征进行关键词识别，关键词识别模型输出关键词识别结果。其中，关键词识别模型可以为神经网络分类模型，可以对音频特征做多分类，得到预测类别作为关键词识别结果，以确定音频中是否包括预设关键词。当然，也可以采用其他方式，并不影响本技术实施例的实现。
73.另外，可能出现识别到正在录制的视频中人脸图像未包括业务办理人的情况，导致业务不能开始办理，则预质检不通过，此时可以发出一些提示音来提醒业务办理人进入到录制的视频中，使业务办理顺利展开。因此，在本技术可选实施例中，方法还可以包括s1：若识别到视频中人脸图像的人脸标识不包括业务办理人，确定预质检不通过并提示录制业务办理人。其中，当在视频中识别到的人脸标识未包括业务办理人时，可以提示对业务办理人进行录制，以便开始办理业务，提示的内容可以是“未识别到业务办理人”，也可以是“请离摄像头近一些”，当然，也可以提示其他内容，并不影响本技术实施例的实现。
74.另外，还有可能出现业务办理人未能及时回应、或声音较小的情况，导致一直未能识别到预设关键词，此时可以发出一些提示音来提醒业务办理人回应或提高音量等。因此，在本技术可选实施例中，方法还可以包括s2：若未识别到音频包括预设关键词，提示录制预设关键词。其中，当在音频中未能识别到关键词时，可以提示对预设关键词进行录制，以完成当前环节，提示的内容可以是“请提高音量”，也可以是“请离收音设备近一些”，当然，也可以提示其他内容，并不影响本技术实施例的实现。
75.s202：在识别到音频包括预设关键词后，确定预设关键词对应的时间段。
76.当识别到音频中包括预设关键词后，确定预设关键词对应的开始时间和结束时间，得到预设关键词对应的时间段。
77.s203：从视频获取时间段对应的视频片段。
78.根据预设关键词对应的时间段，获取视频中时间段对应的视频片段，以便后续对视频片段中的人脸图像进行说话状态识别、唇语识别，确认业务办理人是否说出预设关键词。
79.s204：若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过。
80.获得时间段对应的视频片段后，对视频片段中的人脸图像进行说话状态识别，输
出视频片段中处于说话状态的人脸图像的第二人脸标识。当第二人脸标识包括业务办理人时，表示处于说话状态的仅为业务办理人，或者处于说话状态的人包括业务办理人和业务受理人，还需要对视频片段中业务办理人进行唇语识别，当业务办理人的唇语识别结果包括预设关键词时，表示确认业务办理人说出预设关键词，不存在业务受理人进行代答的情况，则确定预质检通过。
81.其中，第二人脸标识是指对视频片段中处于说话状态的所有人脸图像赋予的标识。
82.对于视频片段中处于说话状态的人脸图像的第二人脸标识的确定步骤的具体实现方式，本技术实施例可不做具体限定，为了便于理解，下面结合一种可能的实施方式进行说明。技术详情请参见下文所做的介绍。
83.其中，本技术实施例可不具体限定业务办理人的唇语识别结果的识别过程，为了便于理解，下面结合一种可能的实施方式进行说明。
84.针对视频片段中包括业务办理人的每一视频帧的人脸图像而言，可以获取人脸图像的嘴部区域图，作为第二嘴部区域图，在通过唇语识别模型对第二嘴部区域图进行特征提取得到图像特征向量的基础上，还需要选取第二嘴部区域图对应时间点前后一定时间点之间的音频片段，作为第一音频片段，通过唇语识别模型对第一音频片段进行特征提取得到音频特征向量；基于此，融合前述两个特征向量得到融合特征向量以进行唇语识别，得到业务办理人的唇语识别结果。因此，在一种可能的实施方式中，s204具体可以包括：获取视频片段中业务办理人的人脸图像的第二嘴部区域图；将第二嘴部区域图输入唇语识别模型进行特征提取，获得图像特征向量；根据第二嘴部区域图对应的时间点，获取时间点前第一时间点至时间点后前第二时间点之间的第一音频片段；将第一音频片段输入唇语识别模型进行特征提取，获得音频特征向量；对图像特征向量和音频特征向量进行融合，获得融合特征向量；对融合特征向量进行唇语识别，获得业务办理人的唇语识别结果。
85.举例来说，可以先截取视频片段中包括业务办理人的每一视频帧的人脸图像，通过目标检测网络检测到嘴部位置，将嘴部区域裁剪出来得到第二嘴部区域图，将第二嘴部区域图输入至唇语识别模型中的残差网络(resnet)进行特征提取，获得图像特征向量；然后，根据第二嘴部区域图对应的时间点t，选取(t-x，t+x)之间的音频片段，作为第一音频片段，x可以为任意时间，将第一音频片段输入至唇语识别模型中的前馈网络(feed-forward network，ffn)进行特征提取，获得音频特征向量；基于此，将图像特征向量和音频特征向量进行concatenation拼接，得到多个融合特征向量；最后，将多个融合特征向量按时间先后顺序排序，输入至唇语识别模型中的transformer网络进行唇语识别，得到业务办理人的唇语识别结果。当然，也可以采用其他方式，并不影响本技术实施例的实现。
86.s205：若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。
87.当视频片段中业务办理人的唇语识别结果不包括预设关键词时，表示业务办理人处于说话状态但业务受理人代替业务办理人说出预设关键词，或者当视频片段中处于说话状态的人脸图像的第二人脸标识不包括业务办理人时，表示处于说话状态的仅为业务受理人，此外业务受理人代替业务办理人说出了预设关键词，则确定预质检不通过。
88.另外，在视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人的
情况下，还可以获取预设关键词对应时间段所对应的音频片段，作为第二音频片段，对第二音频片段进行声纹识别得到声纹识别结果，当声纹识别结果仅包括业务办理人时，表示预设关键词对应时间段仅业务办理人说话，可以确认业务办理人说出预设关键词，则确定预质检通过。因此，在本技术可选实施例中，方法还可以包括s3：若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且时间段对应的第二音频片段的声纹识别结果仅包括业务办理人，确定预质检通过。当然，也可以采用其他方式，并不影响本技术实施例的实现。
89.其中，本技术实施例可不具体限定时间段对应的第二音频片段的声纹识别结果的识别过程，为了便于理解，下面结合一种可能的实施方式进行说明。
90.可以先分别提前录制业务办理人的音频数据和业务受理人的音频数据，分别对音频数据进行声纹特征提取，以业务办理人的声纹特征数据和业务受理人的声纹特征数据作为训练数据，对识别网络进行训练得到声纹识别模型；再对预设关键词对应时间段所对应的第二音频片段进行声纹特征提取，作为声纹识别模型的输入，通过声纹识别模型对声纹特征进行识别，声纹识别模型输出声纹识别结果。因此，在一种可能的实施方式中，s3具体可以包括：将第二音频片段的音频特征输入声纹识别模型，获得声纹识别模型输出的声纹识别结果；声纹识别模型是根据业务办理人的声纹特征数据和业务受理人的声纹特征数据训练识别网络获得的。举例来说，可以基于残差网络(resnet)或时延神经网络(time delay neural network，tdnn)实现声纹识别，当然，也可以采用其他方式，并不影响本技术实施例的实现。
91.基于上述s201-s205的相关内容可知，本技术实施例中，在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词；在识别到音频包括预设关键词后，确定预设关键词对应的时间段；从视频获取时间段对应的视频片段；若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过；若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。可见，该方法既识别音频是否存在预设关键词，又对预设关键词对应的视频片段进行说话状态识别和唇语识别，以确认业务办理人是否说出预设关键词，能够识别出业务受理人代替业务办理人回答预设关键词的情况，从而提高预质检结果的准确性。
92.参见图3，该图为本技术实施例提供的一种视频片段中处于说话状态的人脸图像的第二人脸标识的确定方法的流程图，结合图3所示，具体可以包括：
93.s301：根据视频片段的多个视频帧中人脸图像的嘴部关键点，获得多个视频帧中人脸图像的嘴部变化纵横比mar。
94.在视频片段的多个视频帧中人脸图像的嘴部取多个关键点，根据多个关键点计算多个视频帧中人脸图像的嘴部变化纵横比mar，以得到多个视频帧中人脸图像的嘴部张闭情况。
95.其中，本技术实施例可不具体限定嘴部变化纵横比mar的获得过程，为了便于理解，下面结合一种可能的实施方式进行说明。
96.通常人们在说话时，嘴部的宽度不变，嘴部的高度不断变化，所以可以根据变化的嘴部高度与不变的嘴部宽度进行比值计算，根据所获得的比值变化情况可以判断嘴部的状
态是否在变化。因此，在一种可能的实施方式中，嘴部关键点包括唇圈关键点和嘴角关键点，s301具体可以包括：获取人脸图像的唇圈关键点和嘴角关键点；根据唇圈关键点获得嘴部的嘴部高度；根据嘴角关键点获得嘴部的嘴部宽度；根据嘴部高度和嘴部宽度进行比值计算，获得mar；其中，唇圈关键点包括内圈关键点或外圈关键点。
97.其中，嘴角处两个关键点的差值即为嘴部宽度，唇圈处上下对应两个关键点的差值即为嘴部高度。举例来说，mar的计算方式可以为取嘴部内圈上下对应的两对关键点的距离差值绝对值之和，与嘴角关键点的距离差值绝对值的两倍，进行比值计算。参见图4，该图为本技术实施例提供的一种嘴部关键点取点的示意图。
98.其中，嘴角关键点为1和7，嘴部内圈关键点为13-20，取其中上下对应的两对关键点14和20与16和18，则mar值的计算公式为：
[0099][0100]
当然，也可以采用其他方式，并不影响本技术实施例的实现。
[0101]
s302：将多个视频帧中人脸图像的第一嘴部区域图输入说话动作识别模型，获得说话动作识别模型输出的说话动作识别结果。
[0102]
截取多个视频帧中人脸图像的嘴部区域，获得第一嘴部区域图，将第一嘴部区域图输入说话动作识别模型，说话动作识别模型根据按时间顺序输入的第一嘴部区域图，输出说话动作识别结果，即存在说话动作或不存在说话动作。
[0103]
举例来说，可以先对第一嘴部区域图进行图像特征提取，然后通过预先训练好的说话动作识别模型对图像特征进行识别，最后获得关键词识别结果。其中，话动作识别模型可以为神经网络分类模型，可以对于提取到的图像特征进行分类，获得第一嘴部区域图属于张嘴或闭嘴的识别结果。当然，也可以采用其他方式，并不影响本技术实施例的实现。
[0104]
s303：将多个视频帧中人脸图像的嘴部变化纵横比mar符合预设变化状态，且和说话动作识别结果为存在说话动作的人脸图像，确定为处于说话状态的人脸图像。
[0105]
当mar值符合预设变化状态时，表明多个视频帧中人脸图像的嘴部存在张开的情况，但可能仅是嘴部张开却没有说话，所以当该人脸图像的说话动作识别结果同时为存在说话动作时，确定该人脸图像处于说话状态。
[0106]
举例来说，mar值的预设变化状态可以包括多个按时间排序的mar值中存在从0开始逐渐增大直至超出阈值的部分mar值，表明嘴部存在从闭合到逐渐张开到一定高度的变化，mar符合预设变化状态。当然，也可以是其他预设变化状态，并不影响本技术实施例的实现。
[0107]
举例来说，说话动作识别结果为存在说话动作可以包括，预先设置一个阈值，将说话动作识别模型输出的嘴部区域图属于张嘴或者闭嘴的识别结果按时间先后进行排序，计算嘴巴由闭上到张开的次数，当大于预先设置的阈值时，识别为存在说话动作。当然，也可以采用其他方式，并不影响本技术实施例的实现。
[0108]
s304：根据处于说话状态的人脸图像，确定第二人脸标识。
[0109]
将处于说话状态的人脸图像，确定为第二人脸标识，根据第二人脸标识具体包括的人脸图像，以进行后续步骤。
[0110]
基于上述s301-s304的相关内容可知，本技术实施例中，根据视频片段的多个视频
帧中人脸图像的嘴部关键点，获得嘴部变化纵横比mar；将多个视频帧中人脸图像的第一嘴部区域图输入说话动作识别模型，获得说话动作识别模型输出的说话动作识别结果；将多个视频帧中人脸图像的嘴部变化纵横比mar符合预设变化状态，且和说话动作识别结果为存在说话动作的人脸图像，确定为处于说话状态的人脸图像；根据处于说话状态的人脸图像，确定第二人脸标识。可见该方法，通过计算嘴部变化纵横比和说话动作识别的方法识别视频片段中人脸图像的说话状态，通过两种方法相结合的识别方法提高了说话状态识别的准确性，从而进一步提高预质检结果的准确性。
[0111]
以上为本技术实施例提供的基于音视频的预质检方法的一些具体实现方式，基于此，本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
[0112]
参见图5，该图为本技术实施例提供的一种基于音视频的预质检装置500的结构示意图，该装置500可以包括：
[0113]
识别模块501，用于在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词。
[0114]
第一确定模块502，用于在识别到音频包括预设关键词后，确定预设关键词对应的时间段；
[0115]
获取模块503，用于从视频获取时间段对应的视频片段；
[0116]
第二确定模块504，用于若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过；
[0117]
第三确定模块505，用于若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。
[0118]
在本技术实施例中，通过识别模块501、第一确定模块502、获取模块单元503、第二确定模块504，以及第三确定模块505这五个模块的配合，基于音视频进行预质检，既识别音频是否存在预设关键词，又对预设关键词对应的视频片段进行说话状态识别和唇语识别，以确认业务办理人是否说出预设关键词，能够识别出业务受理人代替业务办理人回答预设关键词的情况，从而提高预质检结果的准确性。
[0119]
作为一种实施方式，第二确定模块504，具体可以包括：
[0120]
第一获得单元，用于根据视频片段的多个视频帧中人脸图像的嘴部关键点，获得多个视频帧中人脸图像的嘴部变化纵横比mar；
[0121]
第二获得单元，用于将多个视频帧中人脸图像的第一嘴部区域图输入说话动作识别模型，获得说话动作识别模型输出的说话动作识别结果；
[0122]
第一确定单元，用于将多个视频帧中人脸图像的嘴部变化纵横比mar符合预设变化状态，且和说话动作识别结果为存在说话动作的人脸图像，确定为处于说话状态的人脸图像；
[0123]
第二确定单元，用于根据处于说话状态的人脸图像，确定第二人脸标识。
[0124]
作为一种实施方式，嘴部关键点包括唇圈关键点和嘴角关键点，第一获得单元，具体可以用于：
[0125]
获取人脸图像的唇圈关键点和嘴角关键点；
[0126]
根据唇圈关键点获得嘴部的嘴部高度；根据嘴角关键点获得嘴部的嘴部宽度；
[0127]
根据嘴部高度和嘴部宽度进行比值计算，获得mar；
[0128]
其中，唇圈关键点包括内圈关键点或外圈关键点。
[0129]
作为一种实施方式，第二确定模块504，具体可以包括：
[0130]
第一获取单元，用于获取视频片段中业务办理人的人脸图像的第二嘴部区域图；
[0131]
第三获得单元，用于将第二嘴部区域图输入唇语识别模型进行特征提取，获得图像特征向量；
[0132]
第二获取单元，用于根据第二嘴部区域图对应的时间点，获取时间点前第一时间点至时间点后前第二时间点之间的第一音频片段；
[0133]
第四获得单元，用于将第一音频片段输入唇语识别模型进行特征提取，获得音频特征向量；
[0134]
第五获得单元，用于对图像特征向量和音频特征向量进行融合，获得融合特征向量；
[0135]
第六获得单元，用于对融合特征向量进行唇语识别，获得业务办理人的唇语识别结果。
[0136]
作为一种实施方式，该基于视音频的预质检装置500装置，还可以包括：
[0137]
第四确定模块，用于若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且时间段对应的第二音频片段的声纹识别结果仅包括业务办理人，确定预质检通过。
[0138]
作为一种实施方式，第四确定模块，具体可以包括：
[0139]
第七获得单元，用于将第二音频片段的音频特征输入声纹识别模型，获得声纹识别模型输出的声纹识别结果；声纹识别模型是根据业务办理人的声纹特征数据和业务受理人的声纹特征数据训练识别网络获得的。
[0140]
作为一种实施方式，识别模块501，具体可以包括：
[0141]
第三获取单元，用于获取音频的音频特征；
[0142]
第八获得单元，用于将音频特征输入至关键词识别模型，获得关键词识别输出的关键词识别结果；
[0143]
第三确定单元，用于根据关键词识别结果，确定音频是否包括预设关键词。
[0144]
作为一种实施方式，该基于视音频的预质检装置500装置，还可以包括：
[0145]
第一提示模块，用于若未识别到音频包括预设关键词，提示录制预设关键词。
[0146]
作为一种实施方式，该基于视音频的预质检装置500装置，还可以包括：
[0147]
第二提示模块，用于若识别到视频中人脸图像的人脸标识不包括业务办理人，确定预质检不通过并提示录制业务办理人。
[0148]
本技术实施例还提供了对应的设备以及计算机存储介质，用于实现本技术实施例提供的方案。
[0149]
其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本技术任一实施例所述的基于音视频的预质检方法。
[0150]
所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本技术任一实施例所述的基于音视频的预质检方法。
[0151]
本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。
[0152]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，rom)/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0153]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0154]
以上所述，仅为本技术的一种具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

技术特征：

1.一种基于音视频的预质检方法，其特征在于，音视频包括音频和视频，所述方法包括：在识别到所述视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别所述音频是否包括预设关键词；在识别到所述音频包括所述预设关键词后，确定所述预设关键词对应的时间段；从所述视频获取所述时间段对应的视频片段；若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述业务办理人的唇语识别结果包括所述预设关键词，确定预质检通过；若所述唇语识别结果不包括所述预设关键词或所述第二人脸标识不包括所述业务办理人，确定预质检不通过。2.根据权利要求1所述的方法，其特征在于，所述视频片段中处于说话状态的人脸图像的第二人脸标识的确定步骤，包括：根据所述视频片段的多个视频帧中人脸图像的嘴部关键点，获得所述多个视频帧中人脸图像的嘴部变化纵横比mar；将所述多个视频帧中人脸图像的第一嘴部区域图输入说话动作识别模型，获得所述说话动作识别模型输出的说话动作识别结果；将所述多个视频帧中人脸图像的嘴部变化纵横比mar符合预设变化状态，且和所述说话动作识别结果为存在说话动作的人脸图像，确定为处于说话状态的人脸图像；根据所述处于说话状态的人脸图像，确定所述第二人脸标识。3.根据权利要求2所述的方法，其特征在于，所述嘴部关键点包括唇圈关键点和嘴角关键点，所述根据所述视频片段的多个视频帧中人脸图像的嘴部关键点，获得所述多个视频帧中人脸图像的嘴部变化纵横比mar，包括：获取所述人脸图像的唇圈关键点和嘴角关键点；根据所述唇圈关键点获得所述嘴部的嘴部高度；根据所述嘴角关键点获得所述嘴部的嘴部宽度；根据所述嘴部高度和所述嘴部宽度进行比值计算，获得所述mar；其中，所述唇圈关键点包括内圈关键点或外圈关键点。4.根据权利要求1所述的方法，其特征在于，所述业务办理人的唇语识别结果的识别步骤，包括：获取所述视频片段中业务办理人的人脸图像的第二嘴部区域图；将所述第二嘴部区域图输入唇语识别模型进行特征提取，获得图像特征向量；根据所述第二嘴部区域图对应的时间点，获取所述时间点前第一时间点至所述时间点后前第二时间点之间的第一音频片段；将所述第一音频片段输入所述唇语识别模型进行特征提取，获得音频特征向量；对所述图像特征向量和所述音频特征向量进行融合，获得融合特征向量；对所述融合特征向量进行唇语识别，获得所述业务办理人的唇语识别结果。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述时间段对应的第二音频片段的声纹识别结果仅包括所述业务办理人，确定预质检通
过。6.根据权利要求5所述的方法，其特征在于，所述时间段对应的第二音频片段的声纹识别结果的识别步骤，包括：将所述第二音频片段的音频特征输入声纹识别模型，获得所述声纹识别模型输出的声纹识别结果；所述声纹识别模型是根据所述业务办理人的声纹特征数据和所述业务受理人的声纹特征数据训练识别网络获得的。7.根据权利要求1所述的方法，其特征在于，所述识别所述音频是否包括预设关键词，包括：获取所述音频的音频特征；将所述音频特征输入至关键词识别模型，获得所述关键词识别输出的关键词识别结果；根据所述关键词识别结果，确定所述音频是否包括所述预设关键词。8.根据权利要求1至7任意一项所述的方法，其特征在于，所述方法还包括：若未识别到所述音频包括所述预设关键词，提示录制所述预设关键词。9.根据权利要求1至7任意一项所述的方法，其特征在于，所述方法还包括：若识别到所述视频中人脸图像的人脸标识不包括所述业务办理人，确定预质检不通过并提示录制所述业务办理人。10.一种基于音视频的预质检装置，其特征在于，所述装置包括：识别模块，用于在识别到所述视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别所述音频是否包括预设关键词；第一确定模块，用于在识别到所述音频包括所述预设关键词后，确定所述预设关键词对应的时间段；获取模块，用于从所述视频获取所述时间段对应的视频片段；第二确定模块，用于若所述视频片段中处于说话状态的人脸图像的第二人脸标识包括所述业务办理人且所述业务办理人的唇语识别结果包括所述预设关键词，确定预质检通过；第三确定模块，用于若所述唇语识别结果不包括所述预设关键词或所述第二人脸标识不包括所述业务办理人，确定预质检不通过。

技术总结

本申请公开了一种基于音视频的预质检方法及装置，在该方法中，在识别到视频中人脸图像的第一人脸标识包括业务办理人和业务受理人后，识别音频是否包括预设关键词；在识别到音频包括预设关键词后，确定预设关键词对应的时间段；从视频获取时间段对应的视频片段；若视频片段中处于说话状态的人脸图像的第二人脸标识包括业务办理人且业务办理人的唇语识别结果包括预设关键词，确定预质检通过；若唇语识别结果不包括预设关键词或第二人脸标识不包括业务办理人，确定预质检不通过。可见，该方法能够识别出业务受理人代替业务办理人回答预设关键词的情况，从而提高预质检结果的准确性。确性。确性。