一种音视频检测方法、装置、电子设备及存储介质与流程

1.本发明实施例涉及图像处理技术领域，尤其涉及一种音视频检测方法、装置、电子设备及存储介质。

背景技术：

2.随着互联网的快速发展，人们可以从网络中观看到大量的视频，但在网络中不仅存在正常的可观看视频，还存在大量的包含非正常音频信息或视频信息的音视频文件。
3.为了确定网络中的音视频文件中是否包含非正常音频信息或视频图像信息，并基于检测结果向相关部门提供相应的参考依据，可以对网络中的音视频进行检测。目前，对网络中的音视频的检测通常是靠人工进行检测，但是基于人工检测的方法工作量大，存在检测效率低或出现漏检的问题，无法有效的检测视频是否为正常音视频的问题。
4.基于上述问题，可以对视频检测的方法进行改进，以实现自动对网络中的视频进行检测的效果。

技术实现要素：

5.本发明提供一种音视频检测方法、装置、电子设备及存储介质，以实现实时检测网络中的音视频中是否存在非正常音视频信息的效果。
6.第一方面，本发明实施例提供了一种音视频检测方法，包括：
7.获取待检测音视频，确定所述待检测音视频的待检测音视频来源；
8.若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；
9.若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
10.第二方面，本发明实施例还提供了一种音视频检测装置，包括：
11.视频来源确定模块，用于在接收到待检测音视频时，确定所述待检测音视频的待检测音视频来源；
12.音视频检测模块，用于若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；
13.检测结果确定模块，用于若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
14.第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：
15.一个或多个处理器；
16.存储装置，用于存储一个或多个程序，
17.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的音视频检测方法。
18.第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的音视频检测方法。
19.本实施例的技术方案，获取待检测音视频，确定所述待检测音视频的待检测音视频来源，根据白名单中是否包含待检测数据源可以确定待检测音视频来源是否安全可靠，对网络中的海量音视频文件进行筛选，以降低检测待检测音视频的工作量。若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果，将分离后的音频文件与预设检测条件进行比对，将分离后的视频文件与预设的检测条件进行比对，得到音频检测结果和视频检测结果，进一步的，可以确定待检测音视频是否为正常的音视频。若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。同时还可以将符合预设检测条件的待检测音视频所对应的待检测音视频来源更新至白名单中，以丰富白名单中的正常音视频来源信息。解决了通过人力检测视频中是否非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了自动的，实时的检测网络中的音视频是否为正常音视频的效果。
附图说明
20.为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。
21.图1为本发明实施例一所提供的一种音视频检测方法的流程示意图；
22.图2为本发明实施例二所提供的一种音视频检测方法的流程示意图；
23.图3为本发明实施例三所提供的一种音视频检测方法的流程示意图；
24.图4为本发明实施例三所提供的一种音频文件和视频文件进行校验的示意图；
25.图5为本发明实施例三所提供的一种音频文件检测的流程示意图；
26.图6为本发明实施例三所提供的一种视频文件检测的流程示意图；
27.图7为本发明实施例四所提供的一种音视频检测装置的结构示意图；
28.图8为本发明实施例五所提供的一种电子设备的结构示意图。
具体实施方式
29.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
30.实施例一
31.图1为本发明实施例一所提供的一种音视频检测方法流程示意图，本实施例可适用于检测网络中的视频是否存在非正常音频信息或视频信息的情况，该方法可以由音视频检测装置来执行，该装置可以通过软件和/或硬件的形式实现，硬件可以是电子设备，如，移动终端或pc端等。
32.如图1所示，该方法包括：
33.s110、获取待检测音视频，确定所述待检测音视频的待检测音视频来源。
34.在实际应用中，为了检测网络中的视频是否存在非正常音频信息或视频图像信息，可以接收来自网络中各数据源中实时或非实时播放的音视频文件。待检测音视频可以理解为从各数据源接收的音视频，待检测音视频可以有多个，可以来自同一个数据源，也可以来自不同的数据源。待检测音视频来源可以理解为各待检测音视频所对应的数据来源，或者说是各待检测音视频是从哪个数据源获取的，如可以包括各种应用软件、网页或网址等数据来源。其中，非正常音频信息可以理解包含特定关键词或特定语义的音频信息。非正常视频信息可以理解为包含非正常画面的视频信息。
35.具体的，在从网络中实时或非实时地获取待检测音视频后，首先需要确定待检测音视频所对应的数据来源，并将各数据来源作为待检测音视频来源，以对各待检测音视频来源进行检测，确定待检测音视频来源是否安全。
36.需要说明的是，以实时获取网络中的待检测音视频为例，在获取网络中的待检测音视频时，可以通过对现网链路采用旁路并接模式进行获取，获取方式可以为镜像或分光等方式。将获取后的待检测音视频通过信息解码生成话单，在话单中可以包括用户的相关信息，如用户号码、用户所使用的网站或客户端信息以及用户当前正在观看的音视频等。然后对待检测音视频进行进一步的检测，如通过预先存储有资源定位符(uniform resource location，url)、域名或ip地址等的白名单库过滤掉正常的音视频所对应的待检测音视频来源，若在白名单库中未检测到待检测音视频所对应的待检测音视频源，则需要对待检测音视频进行进一步的检测。
37.可选的，若所述待检测音视频来源与预先确定的白名单中的正常音视频来源相同，则确定待检测音视频的结果为正常音视频。
38.其中，在网络的海量视频中，包含正常视频和非正常视频，其中在视频中可以包含音频信息和图像信息，但可以理解的是，网络中正常的视频的占比远远大于非正常的视频，若对所有的视频进行检测，则会浪费大量的时间和资源。因此，可以设置白名单，用于将待检测音视频来源可靠的数据源进行记录，并将白名单中记录的待检测音视频来源作为正常音视频来源。当检测到待检测音视频来自白名单中的正常音视频来源时，可以认为该视频为正常的，不包含非正常音频信息或视频图像信息。
39.具体的，在预先设置的白名单中，可以记录预先确定的正常音视频来源，当检测到待检测音视频所对应的待检测音视频来源与白名单中的正常音视频来源相同，则认为待检测音视频为正常视频，播放该视频。若待检测音视频所对应的待检测音视频来源于正常音视频来源不同时，则需要对待检测音视频来源进行进一步的检测。
40.需要说明的是，白名单中记录的正常音视频来源可以由权威机构确认，或者是对于常用的网站、网址或应用软件等，这些数据源本身可以对播放的内容进行把控和拦截，通常来说可以视为安全可靠的数据源，将这些数据源作为正常音视频来源，记录在白名单中。
41.还需要说明的是，本技术方案可以适用于对网络中的海量的音视频进行检测，如可以对一个省、一个市或者是网站中正在播放的音视频文件进行实时检测，首先通过白名单过滤的方式对网络中的待检测音视频的数据来源进行检测，确定是否为安全可靠的正常音视频来源，这样设置的好处在于，对于网络中的海量视频，可以基于白名单过滤大量的正
常视频，为检测待检测音视频降低了工作量，提高了检测效率。但是在整个检测过程中，本技术方案不会对正在播放的待检测音视频造成干扰，仅用于对待检测音视频进行检测，确定待检测音视频是否为正常的音视频文件，若是，则对白名单库进行更新；若否则将检测结果上报，由其他部门进行进一步处理。
42.s120、若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果。
43.其中，若待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则需要对获取的待检测音视频进行进一步的检测。在检测时，可以将待检测音视频文件分为两个部分进行检测，一部分是音频检测，一部分是视频检测。音频检测对待检测音视频文件中的音频进行检测，视频检测对待检测音视频文件中的视频图像进行检测。对于一个待检测音视频来说，视频的时长的长短不同，对待检测音视频的整个播放过程中进行检测，可以得到对应的音频检测结果和视频检测结果。
44.可以理解的是，本技术方案不仅可适用于音频文件，也可以适用于视频文件，还适用于同时包含音频信息和视频图像信息的视频文件。
45.具体的，以待检测音视频为同时包含音频信息和视频图像信息的视频文件为例，当待检测音视频所对应的待检测音视频来源与白名单中的正常音视频来源不同，则需要对待检测音视频进行进一步的检测。将待检测音视频的音频部分和视频图像分离，然后对分离后得到的音频文件和视频文件分别进行检测，也就是对待检测音视频中的每个视频帧以及每个音频信息进行检测，并得到相对应的音频检测结果和视频检测结果。基于得到的音频检测结果和视频检测结果，可以确定待检测音视频是否存在非正常音频信息或视频图像信息，基于此可以确定是否播放待检测音视频，若不包含非正常音频信息或视频图像信息，则确定待检测音视频为正常音视频，若包含，则确定待检测音视频为非正常音视频，也就是说，当待检测音视频为非正常音视频时，可能包含非正常音频信息或视频图像信息。
46.需要说明的是，在对分离后的音频文件和视频文件进行检测之前，还需要对分离后的音频文件和视频文件进行检测，以确保在将待检测音视频文件分离为音频文件和视频文件后，不会丢失待检测音视频文件中的信息。示例性地，可以对待检测音视频进行解封装格式处理，得到音频压缩文件和视频压缩文件，然后采用相同的解码方法对音频压缩文件和视频压缩文件进行解压处理，将解压后的音频文件后视频文件进行合并，检测是否与原始待检测音视频相同，若音频文件和视频文件能够同步播放，则表示待检测音视频中的信息未丢失，则可以对分离后的音频文件和视频文件进行下一步的检测处理。
47.s130、若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
48.其中，预设检测条件可以理解为预先设置的用于判断待检测音视频是否存在非正常音频信息或视频图像信息的条件，预设检测条件包括对音频文件的检测条件和对视频文件检测的条件。
49.具体的，在对分离后的音频文件和视频文件进行检测时，可以通过将音频文件和视频文件的检测结果与预设检测条件进行对比，若音频文件和视频文件均满足预设检测条件，也就是说，当待检测音视频的音频文件和视频文件的检测结果中，不包含非正常的音频信息或视频图像信息，则表示待检测音视频文件符合音视频文件的播放要求，为正常的视
频；若音频文件或视频文件中不满足预设条件，也就是说，在待检测音视频中存在不可播放的音频信息或视频信息，则可以认为待检测音视频中为非正常音视频，可以将所对应的待检测音视频来源进行上报，以对此待检测音视频来源进行进一步处理。
50.可选的，将所述待检测音视频所对应的待检测音视频来源或地址，更新至所述白名单中。
51.具体的，当待检测音视频满足预设检测条件时，可以确定与该视频所对应的待检测音视频来源或地址等为安全可靠的数据源，则可以将待检测音视频所对应的待检测音视频来源或地址更新至白名单中，以丰富白名单中的正常音视频来源信息。
52.本实施例的技术方案，获取待检测音视频，确定所述待检测音视频的待检测音视频来源，根据白名单中是否包含待检测数据源可以确定待检测音视频来源是否安全可靠，对网络中的海量音视频文件进行过滤，以降低检测待检测音视频的工作量。若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果，将分离后的音频文件与预设检测条件进行比对，将分离后的视频文件与预设的检测条件进行比对，得到音频检测结果和视频检测结果，进一步的，可以确定待检测音视频是否为正常的音视频。若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。，同时还可以将符合预设检测条件的待检测音视频所对应的待检测音视频来源更新至白名单中，以丰富白名单中的正常音视频来源信息。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了自动的，实时的检测网络中的音视频是否为正常音视频的效果。
53.实施例二
54.作为上述实施例的一可选实施例，图2为本发明实施例二所提供的一种音视频检测方法的流程示意图，可选的，对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果进行细化。
55.如图2所示，该方法包括：
56.s210、获取待检测音视频，确定所述待检测音视频的待检测音视频来源。
57.s220、若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果。
58.在实际应用中，对待检测音视频分离为音频文件和视频文件，对分离后的音频文件和视频文件分别进行检测，可选的，对待检测音视频进行音频检测，得到音频检测结果，包括：当检测到所述待检测音视频中包括预设录音比对结果、关键词或预设声纹特征时，则确定所述音频检测结果为待审核结果。
59.其中，录音比对可以理解为用机器合成的人声，也可以包括预先进行的录音模板或者是人工智能语音模板等，录音比对的语音语调、语音频率以及录音内容等较为固定，很容易能够辨别。预设录音比对结果可以理解为，与预先设置的录音进行比对后，与预设录音的内容完全相同的结果。关键词可以理解为指定的词汇信息，如可以为具有某种特定语义的关键词。预设声纹特征可以理解为对说话人的识别，每个人对应的声纹特征较为固定，通过说话人的固定的声音频谱特征可以确定说话人的身份。当在音频文件中出现包含预设录音比对结果、关键词或预设声纹特征时，可以视为在该音频文件中包含非正常音频信息，待
审核结果可以理解为需要人工进行进一步核验该音频文件中是否为正常音频信息的结果。
60.具体的，在对分离后的音频文件进行检测时，可以通过三个方面进行检测，录音比对检测、关键词检测或预设声纹特征检测。比较常见的是，在音频文件中包含录音比对，这种录音比对很容易辨别，通常在3-5秒内即可辨别，或者说录音比对可以理解为日常听到的声音较为僵硬的人声声音，也可以是预先录好的录音文件，这种录音文件中的内容一般相对比较固定，当录音比对结果符合预设录音比对结果时，可以将音频检测结果确定为待审核结果。若在音频文件中没有检测到预设录音比对结果，则继续对音频文件进行检测，确定音频文件中是否包含与预设的关键词相匹配的词汇，若包含，则表示将此音频文件的检测结果作为待审核结果，通常可以将关键词的识别时长设置为30秒左右。还可以对音频文件中的音频信息与预设声纹特征进行比对，若与预设声纹特征相匹配时，则可以认为在该音频文件中可能包含非正常的音频信息，将此音频文件的检测结果作为待审核结果；若不包含，则可以认为该音频文件为正常的音频文件，通常可以将预设声纹特征的比较设置为45秒左右。
61.需要说明的是，若在对音频文件进行检测的过程中，该音频文件中不包括预设录音比对结果、关键词或预设声纹特征，则表示此音频文件中不包含非正常的音频信息，将此音频文件的检测结果确定为待审核结果，需要人工进行进一步的核验，或者判定该音频文件的检测结果为合格，具体的可以根据实际需求进行设定。
62.可选的，对待检测音视频进行视频检测，得到视频检测结果，包括：针对各视频帧，若当前视频帧中是否包括预设器件特征，则获取所述预设器件特征在所述当前视频帧中的器件图像；确定所述器件图像和所述预设器件特征所对应的至少一幅待比对图像之间的相似度值；若存在相似度值低于预设相似度阈值的视频帧，则确定所述视频检测结果为待审核结果。
63.其中，器件特征可以理解为视频图像中的器件的形状特征。预设器件特征可以理解为预先设置的器件特征，根据视频文件中采集到的器件特征与预设器件特征进行比对，若采集的器件特征与预设器件特征相匹配，则表明在视频文件中包含非正常图像信息。在对视频文件进行处理时，可以将视频图像中的疑似包含器件特征的图像区域进行提取，并将提取后的图像区域作为器件图像。在对视频文件进行检测时，可以通过深度学习神经网络模型的方法进行检测，待比对图像可以理解为预先在模型中输入的包含如各种器件图像模板。相似度值可以理解为基于相似度算法确定器件图像和待比对图像之间的相似程度。预设相似度阈值可以理解为预先设置一个相似度阈值，若得到的相似度值超过预设相似度阈值，则可以将视频检测结果确定为需要进行人工核验的结果。
64.具体的，在对视频文件进行检测时，可以采用视频分片分析将视频文件划分成小的视频段，可以按照时间长度划分，也可以按照视频帧数量划分，并对各视频段进行标识，以在对各视频段进行检测后，可以确定视频段的来源，用于追溯该视频所对应的待检测音视频来源。如，可以采用基于http的自适应码率流媒体传输协议(http live streaming，hls)，将一个大的视频文件进行分片，将该分片文件资源路径记录于m3u8文件(播放列表)内，然后获取对应的视频段文件进行播放。其中，对hls协议的解析，主要就是对m3u8文件进行解析，如果用户使用应用软件播放视频，则在m3u8文件中还可以设置相应的标识信息，以确定视频段的来源，若用户使用客户端播放视频，则在其m3u8文件中数据中还有相应的标
识信息。
65.或者也可以对视频段中的各视频帧进行抽帧提取，可以为每隔100毫秒提取一个视频帧，也可以每隔5个视频帧提取一个视频帧，同时将图片的相关信息和生成该图片的http会话的部分信息输出成txt话单文件，也就是说，在提取各视频帧后，可以将视频帧所对应的视频段、视频来源，相对应的使用者信息以及观看时间等信息记录在话单文件中，以在视频文件中出现非正常视频图像信息时，能够迅速定位到具体的视频位置。将提取的各视频帧输入预先训练好的深度学习神经网络模型中，可以确定各视频帧中是否包含预设器件特征。若检测到在当前视频帧中存在疑似的器件特征，则将该视频帧中的疑似区域提取出来，作为器件图像，然后基于该模型中预设的相似度算法，确定器件图像与所对应的至少一幅待比对图像之间的相似度值。若在某视频帧进行比对时，得到的相似度值低于预设的相似度阈值，如满分为100分，预设相似度阈值为 80分，则当得到的相似度值低于80分时，可以确定该视频文件的检测结果为待审核结果。
66.需要说明的是，通常情况下，当相似度值高于预设的相似度阈值时，可以确定在所检测的视频帧中包含预设器件特征，直接将此视频所对应的待检测音视频来源的结果确定为非正常视频的结果，也就是说，在此视频中包含了非正常音频信息或视频图像信息。当相似度值低于预设的相似度阈值时，则表示通过神经网络模型的检测，未发现该视频中存在非正常的视频图像信息，可以将该视频确定为正常视频，或者将该视频的检测结果确定为待审核结果，由工作人员进行进一步的核验。
67.s230、若所述音频检测结果和所述视频检测结果均不为所述待审核结果，则确定待检测音视频的结果为非正常音视频。
68.具体的，若音频文件的检测结果和视频文件的检测结果均为正常，也就是不需要人工进行核验时，可以确定所对应的待检测音视频为正常音视频，反之，若音频检测结果和视频检测结果均不为所述待审核结果，则表示在检测过程中确定音频文件或视频文件中包含非正常的音频信息或视频信息，则可以确定待检测音视频的结果为非正常音视频。
69.可选的，若所述音频检测结果或所述视频检测结果为所述待审核结果，则向目标终端设备发送审核指令；在接收到审核指令后，对待检测音视频进行人工核验，得到待检测音视频的检测结果。
70.其中，目标终端可以理解为工作人员所使用的终端设备，或者是检测设备所使用的终端设备。审核指令可以理解为需要进行人工核验的指令。
71.具体的，当音频检测结果或视频检测结果的其中任意一个结果为需要人工核验的结果，则检测设备可以向目标终端发送审核指令，提醒工作人员需要对该待检测音视频进行进一步的人工核验，以确定待检测音视频是否为正常音视频。
72.本实施例的技术方案，获取待检测音视频，确定所述待检测音视频的待检测音视频来源，根据白名单中是否包含待检测数据源可以确定待检测音视频来源是否安全可靠，对网络中的海量音视频文件进行过滤，以降低检测待检测音视频的工作量。若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果，将分离后的音频文件与预设检测条件进行比对，将分离后的视频文件与预设的检测条件进行比对，得到音频检测结果和视频检测结果，进一步的，可以确定待检测音视频是否为正常的音视频。若所述音频检测结果
和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。同时还可以将符合预设检测条件的待检测音视频所对应的待检测音视频来源更新至白名单中，以丰富白名单中的正常音视频数据源信息。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了实时对网络中的海量的音视频进行检测，确定所检测的音视频中是否包括非正常音频信息或视频图像信息的效果。
73.实施例三
74.在一个具体的例子中，如图3所示，在从网络中获取网络流量数据源(即，待检测音视频来源)后，通过预设的白名单对各数据源进行过滤筛选，过滤掉正常的视频流量，并将不属于白名单中的数据源所对应的待检测音视频作为待检测音视频进行检测。在对待检测音视频进行检测时，需要将待检测音视频的音频和视频分开进行检测，其中，分离后的音频文件可以直接使用录音比对、声纹比对、语音转写加关键词等检测技术，而分离后的视频文件需要先将视频进行抽帧处理后，根据预设的检测模板进行检测；若在检测结果中包括非正常音视频信息，如包含有害音频信息和有害图片信息(即，非待审核结果)的部分则将导入数据源白名单库进行库内容的更新丰富。
75.需要说明的是，在对分离后的音频文件和视频文件进行检测之前，需要先验证分离后的音频文件和视频文件是否存在丢失信息的情况。具体来说，在网络视频流量的采集过程中，可以通过对现网链路采用旁路并接模式实现采集，采集方式可以为镜像或分光。在视频流量采集后通过信息解码，然后通过资源定位符(uniform resource locator；url)、域名、ip地址等的白名单库过滤掉已知的正常流量。将其他待检测音视频通过协议解析还原分离为音频文件和视频文件，参见图4。待检测音视频的封装格式可以为mp4格式、ts格式或flv 格式等，然后对各种格式进行解封装处理，得到相应的音频压缩数据，如，aac 格式的音频文件或mp3格式的音频文件，以及相应的视频压缩数据，如h.264 格式的视频文件或mpeg2格式的视频文件等。基于相同的解码方式对音频压缩文件和视频压缩文件进行解压处理，可以得到对应的音频采样数据，如pcm数据，以及对应的视频像素数据，如，yuv格式的视频文件数据，将解压后的音频文件和视频文件进行播放，确定音频文件和视频文件是否同步，若同步，则表示待检测音视频在分离为音频文件和视频文件时未丢失信息，可以进行下一步的检测处理。
76.在对音频文件进行检测时，如图5所示，可以采用录音比对、声纹比对、语音转写加关键词比对的多种技术手段对分离后的音频文件进行检测。其中，为了防止音频文件在录制过程中的对抗性操作，即有目的性的避免音频文件中的非正常音频信息被检测出来，可以通过将录音比对、声纹比对、语音转写以及关键词比对每次所需比对时长及每项的比对次数可以灵活设置。一般来说，比对时长按从低到高依次为录音比对、关键词比对和声纹比对。可以理解的是，录音比对、声纹比对、语音转写以及关键词比对需要系统中预先预置有相对应的非正常信息录音模板、非正常信息自然人声纹模板或非正常信息文本关键词模板。
77.在对视频文件进行检测时，如图6所示，首先将视频文件分割为视频段，并按照预设的视频帧提取规则提取视频文件中的视频帧，然后对视频帧图像进行检测。如，可以采用基于http的自适应码率流媒体传输协议(http livestreaming，hls)，将一个大的视频文
件进行分片，将该分片文件资源路径记录于m3u8文件(播放列表)内，然后获取对应的视频段文件进行播放。其中，对hls协议的解析，主要就是对m3u8文件进行解析，如果用户使用应用软件播放视频，则在m3u8文件中还可以设置相应的特殊属性标签，以确定视频段的来源。视频抽帧功能主要实现从现网的视频数据流中抽取部分图像帧，并存成图片进行输出，同时将图片的相关信息和生成该图片的http会话的部分信息输出成txt话单文件，采用视频抽帧进行有害信息(即，非正常视频信息)检测主要原因是因为视频数据与图像数据非常类似，通过对视频帧进行识别可以确定视频文件是否为可播放视频。其中，在对视频帧进行检测处理时，可以将视频中转化为jpg图像格式，当然也可以是其它任意格式的图像，以得到使用范围广，占用空间小的视频帧。
78.然后基于预先训练好的神经网络模型低抽取后的视频帧进行比对，根据图像比对确定视频帧中是否存在与预设器件特征相匹配的器件特征，当检测到疑似非正常信息时，基于模型中的相似度算法确定器件图像与所对应的至少一幅待比对图像之间的相似度值。若在某视频帧进行比对时，得到的相似度值低于预设的相似度阈值，可以确定该视频文件的检测结果为待审核结果。
79.需要说明的是，当音频检测结果和视频检测结果中的任一检测结果为待审核结果，则需要人工进行进一步进行核验，以确定待检测音视频是否为正常音视频。若当音频检测结果和视频检测结果中的检测结果均为非待审核结果，则表明此待检测音视频中存在有害音视频，即，存在非正常音频信息或视频图像信息；若在待检测音视频中不存在非正常的音频信息或视频图像信息，则可以将该视频所对应的待检测音视频来源更新至白名单库中，以丰富白名单库。
80.本实施例的技术方案，获取待检测音视频，确定所述待检测音视频的待检测音视频来源，根据白名单中是否包含待检测数据源可以确定待检测音视频来源是否安全可靠，对网络中的海量音视频文件进行筛选，以降低检测待检测音视频的工作量。若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果，将分离后的音频文件与预设检测条件进行比对，将分离后的视频文件与预设的检测条件进行比对，得到音频检测结果和视频检测结果，进一步的，可以确定待检测音视频是否为正常的音视频。若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。同时还可以将符合预设检测条件的待检测音视频所对应的待检测音视频来源更新至白名单中，以丰富白名单中的正常音视频来源信息。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了实时对网络中的海量的音视频进行检测，确定所检测的音视频中是否包括非正常音频信息或视频图像信息的效果。
81.实施例四
82.图7为本发明实施例四提供的一种音视频检测装置，该装置包括：视频来源确定模块310、音视频检测模块320和检测结果确定模块330。
83.其中，视频来源确定模块310，获取待检测音视频，确定所述待检测音视频的待检测音视频来源；
84.音视频检测模块320，用于若所述待检测音视频来源与预先确定的白名单中的正
常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；
85.检测结果确定模块330，用于若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
86.本实施例的技术方案，获取待检测音视频，确定所述待检测音视频的待检测音视频来源，根据白名单中是否包含待检测数据源可以确定待检测音视频来源是否安全可靠，对网络中的海量音视频文件进行筛选，以降低检测待检测音视频的工作量。若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果，将分离后的音频文件与预设检测条件进行比对，将分离后的视频文件与预设的检测条件进行比对，得到音频检测结果和视频检测结果，进一步的，可以确定待检测音视频是否为正常的音视频。若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。同时还可以将符合预设检测条件的待检测音视频所对应的待检测音视频来源更新至白名单中，以丰富白名单中的正常音视频来源信息。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了实时对网络中的海量的音视频进行检测，确定所检测的音视频中是否包括非正常音频信息或视频图像信息的效果。
87.在本发明实施例中任一可选技术方案的基础上，可选地，所述音视频检测装置，还用于：
88.若所述待检测音视频来源与预先确定的白名单中的正常音视频来源相同，则确定待检测音视频的结果为非正常音视频。
89.在本发明实施例中任一可选技术方案的基础上，可选地，所述音视频检测模块，包括：
90.音频检测子模块，用于当检测到所述待检测音视频中不包括预设录音比对结果、关键词或预设声纹特征时，则确定所述音频检测结果为待审核结果。
91.在本发明实施例中任一可选技术方案的基础上，可选地，所述音视频检测模块，包括：
92.器件图像获取子模块，用于针对各视频帧，若当前视频帧中是否包括预设器件特征，则获取所述预设器件特征在所述当前视频帧中的器件图像；
93.相似度值确定子模块，用于确定所述器件图像和所述预设器件特征所对应的至少一幅待比对图像之间的相似度值；
94.待审核结果确定子模块，用于若存在相似度值低于预设相似度阈值的视频帧，则确定所述视频检测结果为待审核结果。
95.在本发明实施例中任一可选技术方案的基础上，可选地，所述检测结果确定模块，包括：
96.检测结果确定子模块，用于若所述音频检测结果和所述视频检测结果均不为所述待审核结果，则确定待检测音视频的结果为非正常音视频。。
97.在本发明实施例中任一可选技术方案的基础上，可选地，所述检测结果确定子模块，还用于：
98.若所述音频检测结果或所述视频检测结果为所述待审核结果，则向目标终端设备发送审核指令；
99.在接收到审核指令后，对待检测音视频进行人工核验，得到待检测音视频的检测结果。
100.在本发明实施例中任一可选技术方案的基础上，可选地，所述音视频检测装置，还用于：
101.将所述待检测音视频所对应的待检测音视频来源或地址，更新至所述白名单中。
102.本发明实施例所提供的音视频检测装置可执行本发明任意实施例所提供的音视频检测方法，具备执行方法相应的功能模块和有益效果。
103.值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。
104.实施例五
105.图8为本发明实施例五提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图8显示的电子设备40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
106.如图8所示，电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于：一个或者多个处理器或者处理单元401，系统存储器402，连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
107.总线403表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构 (isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
108.电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
109.系统存储器402可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统406可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘 (例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。
110.具有一组(至少一个)程序模块407的程序/实用工具408，可以存储在例如存储器402中，这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
111.电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410
等)通信，还可与一个或者多个使得用户能与该电子设备40交互的设备通信，和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o) 接口411进行。并且，电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器412通过总线403与电子设备40的其它模块通信。应当明白，尽管图8中未示出，可以结合电子设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
112.处理单元401通过运行存储在系统存储器402中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的音视频检测方法。
113.实施例六
114.本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行音视频检测方法，该方法包括：
115.获取待检测音视频，确定所述待检测音视频的待检测音视频来源；
116.若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；
117.若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
118.本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器 (cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
119.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
120.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
121.可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 java、smalltalk、c++，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或
服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
122.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

技术特征：

1.一种音视频检测方法，其特征在于，包括：获取待检测音视频，确定所述待检测音视频的待检测音视频来源；若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。2.根据权利要求1所述的方法，其特征在于，还包括：若所述待检测音视频来源与预先确定的白名单中的正常音视频来源相同，则确定待检测音视频的结果为正常音视频。3.根据权利要求1所述的方法，其特征在于，对待检测音视频进行音频检测，得到音频检测结果，包括：当检测到所述待检测音视频中不包括预设录音比对结果、关键词或预设声纹特征时，则确定所述音频检测结果为待审核结果。4.根据权利要求3所述的方法，其特征在于，对待检测音视频进行视频检测，得到视频检测结果，包括：针对各视频帧，若当前视频帧中是否包括预设器件特征，则获取所述预设器件特征在所述当前视频帧中的器件图像；确定所述器件图像和所述预设器件特征所对应的至少一幅待比对图像之间的相似度值；若存在相似度值低于预设相似度阈值的视频帧，则确定所述视频检测结果为待审核结果。5.根据权利要求3或4任一所述的方法，其特征在于，所述若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频，包括：若所述音频检测结果和所述视频检测结果均不为所述待审核结果，则确定待检测音视频的结果为非正常音视频。6.根据权利要求5所述的方法，其特征在于，还包括：若所述音频检测结果或所述视频检测结果为所述待审核结果，则向目标终端设备发送审核指令；在接收到审核指令后，对待检测音视频进行人工核验，得到待检测音视频的检测结果。7.根据权利要求1所述的方法，其特征在于，还包括：将所述待检测音视频所对应的待检测音视频来源或地址，更新至所述白名单中。8.一种音视频检测装置，其特征在于，包括：视频来源确定模块，用于获取待检测音视频，确定所述待检测音视频的待检测音视频来源；音视频检测模块，用于若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；检测结果确定模块，用于若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。
9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的音视频检测方法。10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的音视频检测方法。

技术总结

本发明公开了一种音视频检测方法、装置、电子设备及存储介质，其中，该方法包括：获取待检测音视频，确定所述待检测音视频的待检测音视频来源；若所述待检测音视频来源与预先确定的白名单中的正常音视频来源不同，则对所述待检测音视频进行音频检测和视频检测，得到音频检测结果和视频检测结果；若所述音频检测结果和所述视频检测结果均满足预设检测条件，则确定待检测音视频的结果为正常音视频。解决了通过人力检测视频中是否存在非正常音频信息或视频图像信息时，需要较大的人力资源、检测效率低且可能出现漏检的问题，实现了自动的，实时的识别网络中的音视频是否为正常音视频的效果。效果。效果。