一种检测自媒体音视频内容中的违规信息的方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710682539.3
(22)申请日 2017.08.10
(71)申请人 四川长虹电器股份有限公司
地址 621000 四川省绵阳市高新区绵兴东
路35号
(72)发明人 李强 王凤琴 
(74)专利代理机构 四川省成都市天策商标专利
事务所 51213
代理人 刘兴亮 刘渝
(51)Int.Cl.
H04N  21/44(2011.01)
H04N  21/439(2011.01)
H04N  21/435(2011.01)
G10L  15/26(2006.01)
G10L  25/51(2013.01)
(54)发明名称
的方法
(57)摘要
本发明公开了一种检测自媒体音视频内容
中的违规信息的方法,包括:步骤一、检测用户上
传的自媒体文件使用的格式和编码;步骤二、扫
描字幕文件的内容,查看是否存在敏感词汇;步
骤三、对自媒体进行解码,输出相应的数据流;步
骤四、对数据流进行实时检测,检测是否存在异
常声音的音频时间点;步骤五、从音频时间点开
始截取一段时间的音频内容,并生成一个音频文
件;步骤六、对音频文件进行语音识别,转为相应
的文字信息;步骤七、对文字信息进行检查,看是
否存在敏感词汇;步骤八、返回自媒体内容合法
的结果;步骤九、返回检测结果。本发明可以智能
地解决检测自媒体音视频内容中的违规信息的
工作,节省了大量人力劳动,并有利于净化网络
环境。权利要求书2页  说明书4页  附图1页CN 107295401 A 2017.10.24
C N  107295401
A
1.一种检测自媒体音视频内容中的违规信息的方法,其特征在于包括如下步骤:
步骤一、检测用户上传的自媒体文件使用的格式和编码;
步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;
对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续下一步骤;
步骤三、调用音视频解码器对自媒体进行解码,输出相应的数据流;
步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;
步骤五、从步骤四的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储;
步骤六、对音频文件进行语音识别,转为相应的文字信息;
步骤七、对文字信息进行检查,看是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续步骤八;
步骤八、返回自媒体内容合法的结果;表示自媒体内容已经通过平台机器人的智能审查,初审通过;
步骤九、返回检测结果;此步骤为返回检测到违规内容的结果。
2.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤一中,检测是指以数据流的方式,读取用户上传的自媒体文件的内容,并根据各种视频、音频、字幕的格式标准定义进行比对,获得用户上传的自媒体文件使用的格式和编码。
3.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤二所述敏感词汇的判定来源于预先构建的敏感词库,且这个敏感词库能够根据国家和广电总局的要求实时更新和扩展。
4.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤三中,解码,是根据检测获得的自媒体格式和编码,调用相应的音视频解码器,对自媒体的内容进行解码,输出相应的数据流。
5.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤四中,检测是否存在异常声音,是实时检测音频的采样频率,出变化的音频的时间点;
或者实时检测声音的频谱,出频谱突发性显著变化的音频的时间点。
6.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤五中,音频文件的编码格式为MP3、WAV、OGG、PCM编码格式,音频采样率不低于44.1KHz。
7.根据权利要求1或6所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤五中,临时存储的音频临时文件的文件名的编码规则,是以下字段的组合,包括:节目内容名、编码顺序号、时间长度、随机数的字段信息。
8.根据权利要求1所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
步骤六中,是通过语音识别引擎对音频文件的语音内容进行识别,以此获得语音内容的文字信息。
9.根据权利要求8所述检测自媒体音视频内容中的违规信息的方法,其特征在于:
所述语音识别引擎是厂家自建的语音识别服务,或者是调用开放的第三方的语音识别引擎API。
一种检测自媒体音视频内容中的违规信息的方法
技术领域
[0001]本发明涉及数字电视技术领域,具体涉及一种检测自媒体音视频内容中的违规信息的方法。
背景技术
[0002]自媒体是近几年产生的新生事物,自媒体又称“公民媒体”或“个人媒体”,是指私人化、平民化、普泛化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称。目前的自媒体平台有很多,包括各种博客平台、微博、、贴吧、短视频平台、直播平台等网络社区。
[0003]由于自媒体来自于广大人民众自行制作的内容,一些人在制作自媒体的同时,出于某些别有用
心的动机,往往会在自媒体内容中加入不符合广电总局要求的文字或音频内容信息。而对于各个自媒体平台而言,通过人工审核用户上传的自媒体信息,往往工作量较大,尤其是对于用户基数庞大的自媒体平台而言,人工审核的工作量非常大。
[0004]有鉴于此,我们设计并实现了一种检测自媒体音视频内容中的违规信息的方法,可以利用计算机的计算能力,智能地解决检测自媒体音视频内容中的违规信息的工作,节省了大量人力劳动,并有利于净化网络环境。
发明内容
[0005]本发明克服了现有技术的不足,提供了一种检测自媒体音视频内容中的违规信息的方法。
[0006]为解决上述的技术问题,本发明以下技术方案:
[0007]一种检测自媒体音视频内容中的违规信息的方法,包括如下步骤:
[0008]步骤一、检测用户上传的自媒体文件使用的格式和编码;
[0009]步骤二、扫描字幕文件的内容,查看是否存在敏感词汇;
[0010]对字幕文件的内容进行全文扫描,查看内容中是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续下一步骤;[0011]步骤三、调用音视频解码器对自媒体进行解码,输出相应的数据流;
[0012]步骤四、对数据流进行实时检测,检测是否存在异常声音的音频时间点;[0013]步骤五、从步骤四的音频时间点开始截取一段时间的音频内容,并生成一个音频文件,并进行临时存储;
[0014]步骤六、对音频文件进行语音识别,转为相应的文字信息;
[0015]步骤七、对文字信息进行检查,看是否存在敏感词汇;如果存在敏感词汇,检测结束,返回检测的结果,即步骤九;如果不存在敏感词汇,继续步骤八;
[0016]步骤八、返回自媒体内容合法的结果;表示自媒体内容已经通过平台机器人的智能审查,初审通过;
[0017]步骤九、返回检测结果;此步骤为返回检测到违规内容的结果。
[0018]更进一步的方案是:
[0019]步骤一中,检测是指以数据流的方式,读取用户上传的自媒体文件的内容,并根据各种视频、音频、字幕的格式标准定义进行比对,获得用户上传的自媒体文件使用的格式和编码。
[0020]更进一步的方案是:
[0021]步骤二所述敏感词汇的判定来源于预先构建的敏感词库,且这个敏感词库能够根据国家和广电总局的要求实时更新和扩展。
[0022]更进一步的方案是:
[0023]步骤三中,解码,是根据检测获得的自媒体格式和编码,调用相应的音视频解码器,对自媒体的内容进行解码,输出相应的数据流。
[0024]更进一步的方案是:
[0025]步骤四中,检测是否存在异常声音,是实时检测音频的采样频率,出变化的音频的时间点;
[0026]或者实时检测声音的频谱,出频谱突发性显著变化的音频的时间点。[0027]更进一步的方案是:
[0028]步骤五中,音频文件的编码格式为MP3、WAV、OGG、PCM编码格式,音频采样率不低于44.1KHz。
[0029]更进一步的方案是:
[0030]步骤五中,临时存储的音频临时文件的文件名的编码规则,是以下字段的组合,包括:节目内容名、编码顺序号、时间长度、随机数的字段信息。
[0031]更进一步的方案是:
[0032]步骤六中,是通过语音识别引擎对音频文件的语音内容进行识别,以此获得语音内容的文字信息。
[0033]更进一步的方案是:
[0034]语音识别引擎可以是厂家自建的语音识别服务,也可以调用开放的第三方的语音识别引擎API来实现,比如科大讯飞的语音识别开放平台、微软的语音识别引擎服务等等。[0035]本发明可以利用计算机的计算能力,智能地解决检测自媒体音视频内容中的违规信息的工作,节省了大量人力劳动,并有利于净化网络环境。
附图说明
[0036]图1是一种检测自媒体音视频内容中的违规信息方法的流程示意图。
具体实施方式
[0037]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明做进一步地详细描述。
[0038]如图1所示,为本发明实施例提供的一种检测自媒体音视频内容中的违规信息方法的流程示意图,该方法主要包括以下步骤:
[0039]一种检测自媒体音视频内容中的违规信息的方法,其步骤依次为:
[0040]步骤101,检测用户上传的自媒体文件使用的格式和编码。

本文发布于:2024-09-21 21:45:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/424787.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   内容   媒体   信息   音视频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议