一种电力现场的音频处理方法与流程



1.本发明涉及电力现场监控技术领域,尤其是指一种电力现场的音频处理方法。


背景技术:



2.随着语音识别技术的发展,语音识别系统逐渐成为物联网配备的重要智能组件之一,语音交互也逐渐成为物联网人机交互中的重要场景。常见的语音识别系统能够用于语音智能翻译、语音控制助手、服务行业行为规范等应用场景,其能够通过设备自动转录输入的音频文件进行系统自动化识别,从而大幅提升工作效率、服务质量及满意度。在电力现场施工过程中为了提高作业效率以及提升作业监控力度,常将语音识别功能也添加至电力现场的监控后台中,并根据语音识别结果对电力现场施工过程实现全面监控。
3.在电力现场施工过程中,往往存在着作业人员针对施工设备进行技术交流等情况,在技术交流过程中所采集到的音频数据可能存在着较多敏感词汇以及重要信息,若被非法截取,可能会造成重要信息泄漏。而现有的对音频数据的处理大多为整体倍速来实现音频保护目的,但一旦倍速值泄漏或被破解,即可获取音频数据所包含的所有信息内容,音频数据的安全性依旧不能得到保障。


技术实现要素:



4.本发明的目的是克服现有技术中的缺点,提供一种电力现场的音频处理方法,能够通过选取音频数据部分片段进行倍速处理,并输出倍速处理后的音频数据发送至电力现场监控后台,能够解决对整段音频数据进行倍速处理而导致的安全性不高的问题,使得电力现场的音频数据的安全性得到保障。
5.本发明的目的是通过下述技术方案予以实现:
6.一种电力现场的音频处理方法,包括:
7.实时采集电力现场施工过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;
8.通过制定搜索策略进行倍速值搜索,获取目标音频切片的目标倍速值,获取目标音频切片的起止时间,确定音频数据中目标音频切片的起止时间对应的音频数据片段,并根据目标倍速值对音频数据中目标音频切片的起止时间对应的音频数据片段进行倍速处理,输出倍速处理后的音频数据并发送至电力现场监控后台。
9.进一步的,在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。
10.进一步的,在进行倍速值搜索时,所述倍速值处于预设倍速值取值范围内。
11.进一步的,通过制定搜索策略进行倍速值搜索的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理
后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。
12.进一步的,根据比较结果调整预设倍速取值范围的上限或下限的具体过程为:当倍速处理后的目标音频切片的语音识别结果与初始语音识别结果不一致,则按照预设调整幅度向下调整预设倍速值取值范围的上限,下限保持不变;若倍速处理后的目标音频切片的语音识别结果与初始语音识别结果保持一致,则按照预设调整幅度向上调整预设倍速值取值范围的下限,上限保持不变。
13.进一步的,通过基于mfcc算法的语音识别模型对目标音频切片以及倍速后的目标音频切片进行语音识别。
14.进一步的,在确定预设倍速值取值范围的上限以及下限时,通过fft算法计算语音识别模型对于不同播放速度的音频数据的理解能力,并基于计算结果确定预设倍速值取值范围的上限与下限。
15.进一步的,在采集到电力现场施工过程中的音频数据后,还基于数据标准规则和过滤规则对音频数据进行过滤,过滤掉无效音频数据。
16.本发明的有益效果是:
17.能够对电力现场施工过程中采集到的音频数据进行部分倍速,无需对音频内容进行修改,降低了对于原始音频数据的可听性和可理解性的影响,进一步保障了音频数据的安全性。且相较于整段倍速的处理方式,选取音频数据的部分进行倍速的方式,对于音频数据的保护能力更好,即使倍速值泄漏,若不能够定位对应的目标音频切片,也无法对于音频数据进行还原,进而保障了音频数据所包含信息的安全性。
附图说明
18.图1是本发明的一种流程示意图。
具体实施方式
19.下面结合附图和实施例对本发明进一步描述。
20.实施例:
21.一种电力现场的音频处理方法,如图1所示,包括:
22.实时采集电力现场施工过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;
23.通过制定搜索策略进行倍速值搜索,获取目标音频切片的目标倍速值,获取目标音频切片的起止时间,确定音频数据中目标音频切片的起止时间对应的音频数据片段,并根据目标倍速值对音频数据中目标音频切片的起止时间对应的音频数据片段进行倍速处
理,输出倍速处理后的音频数据并发送至电力现场监控后台。
24.所述目标音频切片为音频数据中包含重要信息或敏感词汇的片段,所述目标音频切片可以为单个音频切片,也可以为多个音频切片,且每个音频切片对应不同的目标倍速值。
25.在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。
26.在进行倍速值搜索时,所述倍速值处于预设倍速值取值范围内。
27.通过制定搜索策略进行倍速值搜索的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。
28.根据比较结果调整预设倍速取值范围的上限或下限的具体过程为:当倍速处理后的目标音频切片的语音识别结果与初始语音识别结果不一致,则按照预设调整幅度向下调整预设倍速值取值范围的上限,下限保持不变;若倍速处理后的目标音频切片的语音识别结果与初始语音识别结果保持一致,则按照预设调整幅度向上调整预设倍速值取值范围的下限,上限保持不变。
29.通过基于mfcc算法的语音识别模型对目标音频切片以及倍速后的目标音频切片进行语音识别。
30.mfcc算法能够对音频数据进行特征提取,从而降低电力现场施工过程中噪音等其他因素对于音频数据语音识别结果的影响。而语音识别模型可以为常见的机器学习模型或神经网络模型等。
31.在确定预设倍速值取值范围的上限以及下限时,通过fft算法计算语音识别模型对于不同播放速度的音频数据的理解能力,并基于计算结果确定预设倍速值取值范围的上限与下限。
32.通过fft算法能够计算不同播放速度下,语音识别模型对于音频的理解能力,从而设定倍速值取值范围的上限和下限,保障在倍速后的音频数据能够被语音识别模型所识别。根据在倍速值取值范围内所获取的目标倍速值对目标音频片段进行倍速处理后,语音识别模型依旧能够识别其含义,后续获取的倍速处理后的音频数据也能够通过语音识别模型得到语音识别结果,但语音识别结果中目标音频片段的识别结果与实际存在偏差,从而达到模糊音频数据所代表语义,实现对于音频数据的保护目的。
33.在采集到电力现场施工过程中的音频数据后,还基于数据标准规则和过滤规则对
音频数据进行过滤,过滤掉无效音频数据。
34.数据标准规则包括了对于音频数据格式等标准规则,通过数据标准规则能够筛选过滤出不符合格式标准,无法进行语音识别以及存在缺失的音频数据。而通过过滤规则能够对冗余或垃圾信息进行辨别、分离和过滤,通过对音频数据进行音频解码、音频降噪和有效音时长检测后,实现无效音频数据过滤。
35.以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

技术特征:


1.一种电力现场的音频处理方法,其特征在于,包括:实时采集电力现场施工过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;通过制定搜索策略进行倍速值搜索,获取目标音频切片的目标倍速值,获取目标音频切片的起止时间,确定音频数据中目标音频切片的起止时间对应的音频数据片段,并根据目标倍速值对音频数据中目标音频切片的起止时间对应的音频数据片段进行倍速处理,输出倍速处理后的音频数据并发送至电力现场监控后台。2.根据权利要求1所述的一种电力现场的音频处理方法,其特征在于,在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的音频数据剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。3.根据权利要求1所述的一种电力现场的音频处理方法,其特征在于,在进行倍速值搜索时,所述倍速值处于预设倍速值取值范围内。4.根据权利要求3所述的一种电力现场的音频处理方法,其特征在于,通过制定搜索策略进行倍速值搜索的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。5.根据权利要求4所述的一种电力现场的音频处理方法,其特征在于,根据比较结果调整预设倍速取值范围的上限或下限的具体过程为:当倍速处理后的目标音频切片的语音识别结果与初始语音识别结果不一致,则按照预设调整幅度向下调整预设倍速值取值范围的上限,下限保持不变;若倍速处理后的目标音频切片的语音识别结果与初始语音识别结果保持一致,则按照预设调整幅度向上调整预设倍速值取值范围的下限,上限保持不变。6.根据权利要求3所述的一种电力现场的音频处理方法,其特征在于,通过基于mfcc算法的语音识别模型对目标音频切片以及倍速后的目标音频切片进行语音识别。7.根据权利要求6所述的一种电力现场的音频处理方法,其特征在于,在确定预设倍速值取值范围的上限以及下限时,通过fft算法计算语音识别模型对于不同播放速度的音频数据的理解能力,并基于计算结果确定预设倍速值取值范围的上限与下限。8.根据权利要求1所述的一种电力现场的音频处理方法,其特征在于,在采集到电力现场施工过程中的音频数据后,还基于数据标准规则和过滤规则对音频数据进行过滤,过滤掉无效音频数据。

技术总结


本发明提供了一种电力现场的音频处理方法,所述音频处理方法具体为实时采集电力现场施工过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;通过制定搜索策略进行倍速值搜索,获取目标音频切片的目标倍速值,获取目标音频切片的起止时间,确定音频数据中目标音频切片的起止时间对应的音频数据片段,并根据目标倍速值对音频数据中目标音频切片的起止时间对应的音频数据片段进行倍速处理,输出倍速处理后的音频数据并发送至电力现场监控后台。本发明能够对音频数据进行部分倍速,无需对音频内容进行修改,降低了对于原始音频数据的可听性和可理解性的影响,进一步保障了音频数据的安全性。的安全性。的安全性。


技术研发人员:

杨振 赖圣聪 夏陈喆 叶怡君 于杨 雷跃 夏惠惠 陈显辉 邵玲燕 胡朋杰 黄弘 陈丹霏 方雯雯 杨朝燕 杨静文 曹望舒

受保护的技术使用者:

国网浙江省电力有限公司双创中心

技术研发日:

2022.11.03

技术公布日:

2023/3/21

本文发布于:2024-09-22 03:52:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/76792.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   倍速   切片   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议