音视频的离线质检方法、装置及存储介质与流程

1.本技术涉及双录质检技术领域，特别是涉及一种音视频的离线质检方法、装置及存储介质。

背景技术：

2.根据中国银监会、证监会、保监会发出行业规范，要求逐步实施金融类产品销售过程的同步录音录像(简称“双录”)，加强金融类产品的全过程风险管理。
3.双录为了避免金融公司或者三方理财销售人员在跟客户沟通过程中出现虚假承诺、违规保本宣传的现象，另一方面也是对投资者风险承受能力、产品风险认识的再提醒，其初衷仍然是为了保护投资者。
4.随着金融公司应国家要求启用双录来完成金融产品的销售过程，遂产生大量的音视频文件，为保证音视频文件的合规性，需要大量的质检人员来完成音视频文件的质量检查，无疑浪费的巨大的人力物力，为公司增加了成本。
5.随着ai技术的进步和应用的深入，基于机器学习的视觉、图像、语音、语言分析相关的技术核心效果、产品化成熟度、业务应用模式等方面，都已达到了商用化程度。然而，现有的双录质检是通过质检人员查看双录资料以确实是否合规、手动标记是否质检通过，质检人员的工作量大，公司的人力成本高。
6.针对上述的现有技术中存在的双录质检是通过质检人员查看双录资料以确实是否合规以及手动标记是否质检通过，质检人员的工作量大，双录质检的人力成本高的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

7.本公开的实施例提供了一种音视频的离线质检方法、装置及存储介质，以至少解决现有技术中存在的双录质检是通过质检人员查看双录资料以确实是否合规以及手动标记是否质检通过，质检人员的工作量大，双录质检的人力成本高的技术问题。
8.根据本公开实施例的一个方面，提供了一种音视频的离线质检方法，包括：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
9.可选地，基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象，包括：利用asr技术对所述音频文件中的对话进行识别，生成与所述音频文件对应的文字信息；利用nlp技术对所述文字信息进行解析，确定所述文字信息的语义特征；将所述语义特征通过所述第一质检规则进行匹配，并根据匹配的结果判断所述音频文件是否存在违规现象。
10.可选地，基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件
是否存在违规现象，包括：对所述视频文件中的图像进行人脸检测，判断业务员或者客户是否处于视频录制范围内，生成人脸检测结果；将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对，检测业务员是否为同一人或者客户是否为同一人，生成人脸比对结果；根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象。
11.可选地，根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象，包括：根据所述人脸检测结果，判断人脸出框时间是否大于预设的时间阈值以及人脸数量是否大于预设的数量阈值；根据所述人脸比对结果，判断人脸比对失败次数是否大于预设的失败次数；在所述人脸出框时间大于预设的时间阈值时，判断所述视频文件存在违规现象；在所述人脸数量大于预设的数量阈值时，判断所述视频文件存在违规现象；在所述人脸比对失败次数大于预设的失败次数时，判断所述视频文件存在违规现象。
12.可选地，将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对之前，还包括：通过ocr技术提取所述视频文件中的人物证件以及确定与人物证件对应的证件信息。
13.可选地，将所述音视频文件分离，得到音频文件和视频文件，包括：通过ffmpeg技术将所述音视频文件进行音视频分离，分离成音频文件和视频文件。
14.可选地，该方法还包括：在判断所述音视频文件是否通过质检审核之后，将所述音视频文件的质检结果进行标识；将带有标识的所述音视频文件进行存储。
15.根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。
16.根据本公开实施例的另一个方面，还提供了一种音视频的离线质检装置，包括：获取模块，用于获取待质检的音视频文件；音视频分离模块，用于将所述音视频文件分离，得到音频文件和视频文件；音频质检模块，用于基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；视频质检模块，用于基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；音视频审核模块，用于根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
17.根据本公开实施例的另一个方面，还提供了一种音视频的离线质检装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
18.在本公开实施例中，获取待质检的音视频文件后，将音视频文件分离，得到音频文件和视频文件。然后，基于预设的第一质检规则，对音频文件进行质检，判断音频文件是否存在违规现象。其次，基于预设的第二质检规则，对视频文件进行质检，判断视频文件是否存在违规现象。最后，根据音频文件和所述视频文件的质检结果，判断音视频文件是否通过质检审核。本发明可以预先配置质检规则(包括音频质检规则和视频质检规则)，根据配置好的质检规则，检测音频文件是否存在违规话术及违禁词，以及检测视频文件是否存在违
规现象，以缓解质检人员听不清音频对话反复听取相同片段以判断是否存在违规话术及违禁词，以及缓解质检人员实时查看视频是否存在违规现象。从而，可以大幅缓解质检人员的工作量，有效帮助企业省下大量的人力消耗和人力成本。
附图说明
19.此处所说明的附图用来提供对本公开的进一步理解，构成本技术的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：
20.图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；
21.图2是根据本公开实施例1的第一个方面所述的音视频的离线质检方法的流程示意图；
22.图3是根据本公开实施例1所述的音视频的离线质检的整体流程示意图；
23.图4是根据本公开实施例1所述的音视频的离线质检的框架示意图；
24.图5是根据本公开实施例2所述的音视频的离线质检装置的示意图；以及
25.图6是根据本公开实施例3所述的音视频的离线质检装置的示意图。
具体实施方式
26.为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
27.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
29.自动语音识别(automatic speech recognition，简称：asr)：一种将人的语音转换为文本的技术，采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。
30.人脸检测：基于人的脸部特征，对输入的人脸图像或者视频流，首先判断其是否存在人脸，如果存在人脸，则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。
31.人脸比对：将待比对的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸的身份信息进行判断。这一过程又分为两类：一类是确认，是一对一进行图像比较的过程，另一类是辨认，是一对多进行图像匹配对比的过程。
32.身份证ocr：身份证识别技术使用成熟的ocr文字识别技术，通过手机或者带有摄像头的终端设备对身份证拍照，并对身份证照片做ocr文字识别，提取身份证信息。
33.ffmpeg：是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用lgpl或gpl许可证。它提供了录制、转换以及流化音视频的完整解决方案。
34.实施例1
35.根据本实施例，提供了一种音视频的离线质检方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
36.本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现音视频的离线质检方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
37.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
38.存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的音视频的离线质检方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的音视频的离线质检方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
39.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(network interface controller，nic)，其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
40.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
41.此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可
存在于上述计算设备中的部件的类型。
42.在上述运行环境下，根据本实施例的第一个方面，提供了一种音视频的离线质检方法，该方法可以应用到机器人客服系统中，用于识别客户在沟通过程中的情绪。图2示出了该方法的流程示意图，参考图2所示，该方法包括：
43.s202：获取待质检的音视频文件；
44.在本发明实施例中，客户在客户端完成音视频文件的录制后，将离线的音视频文件上传到服务器。此时，服务器从客户端获取到待质检的音视频文件。
45.s204：将所述音视频文件分离，得到音频文件和视频文件；
46.可选地，将所述音视频文件分离，得到音频文件和视频文件，包括：通过ffmpeg技术将所述音视频文件进行音视频分离，分离成音频文件和视频文件。
47.在本发明实施例中，通过ffmpeg技术将音视频文件进行音视频分离，分离成音频文件和视频文件。
48.s206：基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；
49.可选地，基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象，包括：利用asr技术对所述音频文件中的对话进行识别，生成与所述音频文件对应的文字信息；利用nlp技术对所述文字信息进行解析，确定所述文字信息的语义特征；将所述语义特征通过所述第一质检规则进行匹配，并根据匹配的结果判断所述音频文件是否存在违规现象。
50.在本发明实施例中，如图3所示，在对音频文件进行质检的过程中，首先将音频文件中的对话通过asr技术识别成文字，生成与所述音频文件对应的文字信息。然后，利用nlp技术对文字信息进行解析，确定文字信息的语义特征。最后，将nlp解析后的语义特征通过预先配置的第一质检规则进行匹配和判断是否存在违规或违禁词等，以确认音频文件是否质检审核通过。本发明运用asr和nlp技术进行语义解析，通过质检规则的配置检查是否存在违规话术及违禁词，缓解质检人员听不清音频对话反复听取相同片段以判断是否存在违规话术及违禁词。
51.s208：基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；
52.可选地，基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象，包括：对所述视频文件中的图像进行人脸检测，判断业务员或者客户是否处于视频录制范围内，生成人脸检测结果；将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对，检测业务员是否为同一人或者客户是否为同一人，生成人脸比对结果；根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象。
53.可选地，将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对之前，还包括：通过ocr技术提取所述视频文件中的人物证件以及确定与人物证件对应的证件信息。
54.可选地，根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象，包括：根据所述人脸检测结果，判断人脸出框时间是否大于预设的时间阈值以
及人脸数量是否大于预设的数量阈值；根据所述人脸比对结果，判断人脸比对失败次数是否大于预设的失败次数；在所述人脸出框时间大于预设的时间阈值时，判断所述视频文件存在违规现象；在所述人脸数量大于预设的数量阈值时，判断所述视频文件存在违规现象；在所述人脸比对失败次数大于预设的失败次数时，判断所述视频文件存在违规现象。
55.在本发明实施例中，如图3所示，在对视频文件进行质检的过程中，首先通过orc算法提取业务员或客户相关的证件信息，调用人脸检测算法判断业务员或客户是否在视频录制范围内。通过ocr算法获取的证件信息及证件照片，检测业务员或客户是否是同一人。通过预先配置的第二质检规则，检测人脸出框时间和人脸数量是否在质检规则范围内，检测人脸比对失败次数是否超过最大失败次数，以确定视频文件是否质检审核通过。本发明通过ocr、人脸检测和人脸比对技术，检测业务办理人员是否出镜时间过长或中途跟换办理人员等情况，缓解质检人员实时查看视频是否存在违规现象。
56.s210：根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
57.可选地，该方法还包括：在判断所述音视频文件是否通过质检审核之后，将所述音视频文件的质检结果进行标识；将带有标识的所述音视频文件进行存储。
58.在本发明实施例中，如图3所示，在判断音视频文件是否通过质检审核之后，将音视频文件的质检结果进行标识，并将带有标识的音视频文件进行持久化存储。
59.此外，图4示出了本发明提出的音视频的离线质检方法的框架示意图。参见图4所示，本发明提出的音视频的离线质检方法的整体流程如下：
60.1)配置质检规则(包括音频质检规则和视频质检过程)，用于判断双录资料(双录过程中产生的音视频文件)是否质检通过；
61.2)将离线的音视频文件上传到服务器；
62.3)通过ffmpeg技术将音视频文件进行音视频分离，得到音频文件和视频文件；
63.4)通过ai算法(包括asr技术、nlp技术、orc算法、人脸检测技术和人脸比对技术)分别进行音频文件和视频文件的检测；
64.5)通过配置的质检规则来检查ai算法抽取的音频文件和视频文件的结果进行判断，以确定音视频文件是否通过质检审核；
65.6)将该音视频文件的质检结果进行标识并持久化存储。
66.从而，本发明提出的音视频的离线质检方法，获取待质检的音视频文件后，将音视频文件分离，得到音频文件和视频文件。然后，基于预设的第一质检规则，对音频文件进行质检，判断音频文件是否存在违规现象。其次，基于预设的第二质检规则，对视频文件进行质检，判断视频文件是否存在违规现象。最后，根据音频文件和所述视频文件的质检结果，判断音视频文件是否通过质检审核。本发明可以预先配置质检规则(包括音频质检规则和视频质检规则)，根据配置好的质检规则，检测音频文件是否存在违规话术及违禁词，以及检测视频文件是否存在违规现象，以缓解质检人员听不清音频对话反复听取相同片段以判断是否存在违规话术及违禁词，以及缓解质检人员实时查看视频是否存在违规现象。从而，可以大幅缓解质检人员的工作量，有效帮助企业省下大量的人力消耗和人力成本。
67.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为
依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
68.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
69.实施例2
70.图5示出了根据本实施例所述的音视频的离线质检装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：获取模块510，用于获取待质检的音视频文件；音视频分离模块520，用于将所述音视频文件分离，得到音频文件和视频文件；音频质检模块530，用于基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；视频质检模块540，用于基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；音视频审核模块550，用于根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
71.可选地，音频质检模块530，具体用于：利用asr技术对所述音频文件中的对话进行识别，生成与所述音频文件对应的文字信息；利用nlp技术对所述文字信息进行解析，确定所述文字信息的语义特征；将所述语义特征通过所述第一质检规则进行匹配，并根据匹配的结果判断所述音频文件是否存在违规现象。
72.可选地，视频质检模块540，具体用于：对所述视频文件中的图像进行人脸检测，判断业务员或者客户是否处于视频录制范围内，生成人脸检测结果；将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对，检测业务员是否为同一人或者客户是否为同一人，生成人脸比对结果；根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象。
73.可选地，视频质检模块540，还具体用于：根据所述人脸检测结果，判断人脸出框时间是否大于预设的时间阈值以及人脸数量是否大于预设的数量阈值；根据所述人脸比对结果，判断人脸比对失败次数是否大于预设的失败次数；在所述人脸出框时间大于预设的时间阈值时，判断所述视频文件存在违规现象；在所述人脸数量大于预设的数量阈值时，判断所述视频文件存在违规现象；在所述人脸比对失败次数大于预设的失败次数时，判断所述视频文件存在违规现象。
74.可选地，装置500还包括：信息提取模块，用于将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对之前，通过ocr技术提取所述视频文件中的人物证件以及确定与人物证件对应的证件信息。
75.可选地，音视频分离模块520，具体用于：通过ffmpeg技术将所述音视频文件进行音视频分离，分离成音频文件和视频文件。
76.可选地，该装置500还包括：标识模块，用于在判断所述音视频文件是否通过质检
审核之后，将所述音视频文件的质检结果进行标识；将带有标识的所述音视频文件进行存储。
77.从而根据本实施例，可以预先配置质检规则(包括音频质检规则和视频质检规则)，根据配置好的质检规则，检测音频文件是否存在违规话术及违禁词，以及检测视频文件是否存在违规现象，以缓解质检人员听不清音频对话反复听取相同片段以判断是否存在违规话术及违禁词，以及缓解质检人员实时查看视频是否存在违规现象。从而，可以大幅缓解质检人员的工作量，有效帮助企业省下大量的人力消耗和人力成本。
78.实施例3
79.图6示出了根据本实施例所述的音视频的离线质检装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：处理器610；以及存储器620，与处理器610连接，用于为处理器610提供处理以下处理步骤的指令：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。
80.可选地，基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象，包括：利用asr技术对所述音频文件中的对话进行识别，生成与所述音频文件对应的文字信息；利用nlp技术对所述文字信息进行解析，确定所述文字信息的语义特征；将所述语义特征通过所述第一质检规则进行匹配，并根据匹配的结果判断所述音频文件是否存在违规现象。
81.可选地，基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象，包括：对所述视频文件中的图像进行人脸检测，判断业务员或者客户是否处于视频录制范围内，生成人脸检测结果；将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对，检测业务员是否为同一人或者客户是否为同一人，生成人脸比对结果；根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象。
82.可选地，根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象，包括：根据所述人脸检测结果，判断人脸出框时间是否大于预设的时间阈值以及人脸数量是否大于预设的数量阈值；根据所述人脸比对结果，判断人脸比对失败次数是否大于预设的失败次数；在所述人脸出框时间大于预设的时间阈值时，判断所述视频文件存在违规现象；在所述人脸数量大于预设的数量阈值时，判断所述视频文件存在违规现象；在所述人脸比对失败次数大于预设的失败次数时，判断所述视频文件存在违规现象。
83.可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对之前，通过ocr技术提取所述视频文件中的人物证件以及确定与人物证件对应的证件信息。
84.可选地，将所述音视频文件分离，得到音频文件和视频文件，包括：通过ffmpeg技术将所述音视频文件进行音视频分离，分离成音频文件和视频文件。
85.可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：在判断所述音视频文件是否通过质检审核之后，将所述音视频文件的质检结果进行标识；将带有标
识的所述音视频文件进行存储。
86.从而根据本实施例，可以预先配置质检规则(包括音频质检规则和视频质检规则)，根据配置好的质检规则，检测音频文件是否存在违规话术及违禁词，以及检测视频文件是否存在违规现象，以缓解质检人员听不清音频对话反复听取相同片段以判断是否存在违规话术及违禁词，以及缓解质检人员实时查看视频是否存在违规现象。从而，可以大幅缓解质检人员的工作量，有效帮助企业省下大量的人力消耗和人力成本。
87.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
88.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
89.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
90.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
91.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
92.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
93.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：

1.一种音视频的离线质检方法，其特征在于，包括：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。2.根据权利要求1所述的方法，其特征在于，基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象，包括：利用asr技术对所述音频文件中的对话进行识别，生成与所述音频文件对应的文字信息；利用nlp技术对所述文字信息进行解析，确定所述文字信息的语义特征；将所述语义特征通过所述第一质检规则进行匹配，并根据匹配的结果判断所述音频文件是否存在违规现象。3.根据权利要求1所述的方法，其特征在于，基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象，包括：对所述视频文件中的图像进行人脸检测，判断业务员或者客户是否处于视频录制范围内，生成人脸检测结果；将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对，检测业务员是否为同一人或者客户是否为同一人，生成人脸比对结果；根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象。4.根据权利要求3所述的方法，其特征在于，根据所述人脸检测结果和所述人脸比对结果，判断所述视频文件是否存在违规现象，包括：根据所述人脸检测结果，判断人脸出框时间是否大于预设的时间阈值以及人脸数量是否大于预设的数量阈值；根据所述人脸比对结果，判断人脸比对失败次数是否大于预设的失败次数；在所述人脸出框时间大于预设的时间阈值时，判断所述视频文件存在违规现象；在所述人脸数量大于预设的数量阈值时，判断所述视频文件存在违规现象；在所述人脸比对失败次数大于预设的失败次数时，判断所述视频文件存在违规现象。5.根据权利要求4所述的方法，其特征在于，将所述视频文件中的人脸图像与对应的证件照片中的人脸图像进行人脸比对之前，还包括：通过ocr技术提取所述视频文件中的人物证件以及确定与人物证件对应的证件信息。6.根据权利要求1所述的方法，其特征在于，将所述音视频文件分离，得到音频文件和视频文件，包括：通过ffmpeg技术将所述音视频文件进行音视频分离，分离成音频文件和视频文件。7.根据权利要求1所述的方法，其特征在于，还包括：在判断所述音视频文件是否通过质检审核之后，将所述音视频文件的质检结果进行标
识；将带有标识的所述音视频文件进行存储。8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。9.一种音视频的离线质检装置，其特征在于，包括：获取模块，用于获取待质检的音视频文件；音视频分离模块，用于将所述音视频文件分离，得到音频文件和视频文件；音频质检模块，用于基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；视频质检模块，用于基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；音视频审核模块，用于根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。10.一种音视频的离线质检装置，其特征在于，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。

技术总结

本申请公开了一种音视频的离线质检方法、装置及存储介质，其中音视频的离线质检方法，包括：获取待质检的音视频文件；将所述音视频文件分离，得到音频文件和视频文件；基于预设的第一质检规则，对所述音频文件进行质检，判断所述音频文件是否存在违规现象；基于预设的第二质检规则，对所述视频文件进行质检，判断所述视频文件是否存在违规现象；根据所述音频文件和所述视频文件的质检结果，判断所述音视频文件是否通过质检审核。频文件是否通过质检审核。频文件是否通过质检审核。