语音数据处理方法、装置、终端设备及存储介质与流程



1.本技术涉及数据处理技术领域,特别涉及一种语音数据处理方法、装置、终端设备及存储介质。


背景技术:



2.随着信息技术和互联网技术的发展,用户在日常生活中对终端设备使用的现象已经非常普遍,人们可以使用终端设备传输音频、视频等数据,实现声音、视频的传递。
3.其中,对于终端设备传输音频数据的过程中,当作为接收端的终端设备接收到音频数据时,会基于自身的检测装置对音频数据进行检测,查看是否有丢包现象。比如,终端设备中一般可以采用语音编码器内置的fec(forward error correction,前向纠错码),终端设备会基于fec传输语音数据时,会携带本帧语音数据编码的前一帧冗余信息,当发生丢包现象时,丢失的音频数据可以通过下一帧音频数据中携带的前一帧冗余信息进行恢复。
4.对于上述的传输音频数据的方案来说,终端设备需要使用更多的传输资源传输增加的冗余信息,增加了对传输资源的消耗,终端设备进行丢包检测的效率低。


技术实现要素:



5.为了解决现有技术的问题,节约终端设备的传输资源,提高终端设备对语音数据进行丢包检测的效率,本技术实施例提供了一种语音数据处理方法、装置、终端设备及存储介质。所述技术方案如下:
6.一个方面,本技术提供了一种语音数据处理方法,应用于终端设备,所述方法包括:
7.接收第一音频数据,所述第一音频数据中的各个语音包对应有各自的类型标签,所述类型标签用于指示语音包的语音类型;
8.根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息。
9.一个方面,本技术提供了一种终端设备控制装置,应用于终端设备,所述装置包括:
10.数据接收模块,用于接收第一音频数据,所述第一音频数据中的各个语音包对应有各自的类型标签,所述类型标签用于指示语音包的语音类型;
11.数据检测模块,用于根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息。
12.另一个方面,本技术提供了一种终端设备,所述终端设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如一个方面所述的语音数据处理方法。
13.另一个方面,本技术提供了一种计算机可读存储介质,所述存储介质中存储有至
少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如一个方面所述的语音数据处理方法。
14.另一方面,本技术实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如上述一个方面所述的语音数据处理方法。
15.另一方面,本技术实施例提供了一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如上述一个方面所述的语音数据处理方法。
16.本技术实施例提供的技术方案带来的有益效果至少包括:
17.本技术通过接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型;根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。本技术接收到的音频数据中包含各个语音包对应的类型标签,在进行检测过程中,根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,从而确定所述第一音频数据的丢失信息,不需要终端设备添加额外的冗余信息,按照类型标签实现对音频数据的检测过程,节约了终端设备的传输资源,提高了终端设备对语音数据进行丢包检测的效率。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术一示例性实施例涉及的一种数据传输的场景示意图;
20.图2是本技术一示例性实施例涉及图1的终端设备的一种结构示意图;
21.图3是本技术一示例性实施例提供的一种语音数据处理方法的方法流程图;
22.图4是本技术一示例性实施例提供的一种语音数据处理方法的方法流程图;
23.图5是本技术一示例性实施例涉及的一种终端设备的结构示意图;
24.图6是本技术一示例性实施例提供的语音数据处理装置的结构框图;
25.图7是本技术一示例性实施例提供的一种终端设备的结构示意图。
具体实施方式
26.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
27.随着科学技术的快速发展,各种各样的终端设备已经应用在人们的日常生活中,人们在工作中、生活中、学习中都需要使用终端设备,比如,人们利用终端设备对周围环境进行拍照,利用终端设备对工作中的数据进行记录等。随着人们使用终端设备的场景越来越多,万物互联的推广与使用,终端设备中的数据信息越来越多、越来越重要,人们对终端设备的信息传输需求的效率也越来越高。
28.请参考图1,其示出了本技术一示例性实施例涉及的一种数据传输的场景示意图。如图1所示,其中包含了多个终端设备110,服务器120。
29.其中,终端设备110可以是手机、平板电脑,笔记本电脑,智能眼镜,智能手表,mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3),mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器,台式电脑,膝上型便携计算机,智能家居设备等。
30.可选的,各个终端设备110可以基于服务器120建立有网络连接,也可以各个终端设备110之间相互建立有网络连接,并通过该网络连接将需要传输的音频数据、视频数据等进行传输。
31.可选的,上述的网络连接可以是无线网络或有线网络,其中,无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
32.目前,终端设备主要的系统有安卓(android)系统,ios系统,linux系统等,对于各种内核系统的终端设备,各自的厂商可以配置不同的数据传输方式,比如,终端设备面对弱网环境下的语音抗丢包问题,一般会采用语音编码器内置的带内fec(forward error correction,前向纠错码),使用fec后,终端设备传输的音频数据中会携带本帧音频数据编码的前一帧冗余信息。终端设备在相互传输音频数据的过程中,当发生丢包现象时,通过获取下一帧音频数据携带的前一帧冗余信息来确定当前帧音频数据的丢失位置,并进行恢复。
33.在上述终端设备执行检测音频数据是否出现丢包现象以及确定丢失位置的方式中,终端设备需要使用更多的传输资源传输增加的冗余信息,不仅增加了对传输资源的消耗,而且在音频数据连续丢失的情况下,上述方案也不能及时做出检测和恢复,降低了终端设备丢包检测的效率。
34.请参考图2,其示出了本技术一示例性实施例涉及图1的终端设备的一种结构示意图。如图2所示,终端设备包括处理器210、收发器220和显示单元270。其中,显示单元270可以包括显示屏。
35.可选地,终端设备还可以包括存储器230。处理器210、收发器220和存储器230之间可以通过内部连接通路互相通信,传递测距数据,该存储器230用于存储计算机程序,该处理器210用于从该存储器230中调用并运行该计算机程序。
36.上述处理器210可以和存储器230合成一个处理装置,更常见的是彼此独立的部件,处理器210用于执行存储器230中存储的程序代码来实现上述功能。具体实现时,该存储
器230也可以集成在处理器210中,或者,独立于处理器210。
37.可以理解的是,图2所示的终端设备可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
38.处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
39.在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
40.uart接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,uart接口通常被用于连接处理器210与收发器220。例如:处理器210通过uart接口与收发器220中的蓝牙模块通信,实现蓝牙功能。
41.mipi接口可以被用于连接处理器210与显示单元270等外围器件。mipi接口包括摄像头串行接口(camera serial interface,csi),显示屏串行接口(display serial interface,dsi)等。在一些实施例中,处理器210和显示单元270通过dsi接口通信,实现终端设备的显示功能。
42.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,gpio接口可以用于连接处理器210与显示单元270,收发器220等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
43.收发器220可以提供应用在终端设备上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。收发器220可以是集成至少一个通信处理模块的一个或多个器件,例如,可以包括蓝牙模块。
44.存储器230可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。存储器230可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端设备使用过程中所创建的数据(比如定位数据)等。此外,存储器230可以包括高速随机存取
存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。处理器210通过运行存储在存储器230的指令,和/或存储在设置于处理器中的存储器的指令,执行终端设备的各种功能应用以及数据处理。
45.除此之外,为了使得终端设备的功能更加完善,终端设备还可以包括电源250、输入单元260、音频电路280和传感器202等中的一个或多个。
46.电源250,用于给终端设备中的各种器件或电路提供电源。优选的,电源250可以通过电源管理装置与处理器210逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。
47.输入单元260可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地,输入单元260可包括触控面板以及其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作,比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作,并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器210,并能接收处理器210发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板,输入单元260还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于功能键、轨迹球、操作杆等中的一种或多种。
48.显示单元270可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元270可包括显示面板,可选的,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器210以确定触摸事件的类型,随后处理器210根据触摸事件的类型在显示面板上提供相应的视觉输出。
49.终端设备还可包括至少一种传感器202,比如陀螺仪传感器、运动传感器以及其他传感器。具体地,陀螺仪传感器可以用于确定终端设备的运动姿态。在一些实施例中,可以通过陀螺仪传感器确定终端设备围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器还可以用于导航,体感游戏场景。作为运动传感器的一种,加速度传感器可检测各个方向上(即,x,y和z轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备还可配置的压力计、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
50.音频电路280可包括扬声器和传声器,提供用户与终端设备之间的音频接口。音频电路280可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路280接收后转换为音频数据,再将音频数据输出处理器210处理后,经rf电路以发送给比如另一终端设备,或者将音频数据输出至存储器230以便进一步处理。
51.可以理解的是,本技术实施例示意的结构并不构成对终端设备的具体限定。在本
申请另一些实施例中,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
52.另外,本技术实施例所涉及的终端设备,可安装有操作系统,在该操作系统上可以安装运行应用程序,比如,终端设备可以是安卓(android)系统,ios系统,linux系统等,本技术实施例对此不作限定。
53.为了解决上述相关技术中存在的问题,节约终端设备的传输资源,提高终端设备对语音数据进行丢包检测的效率,本技术提供了一种语音数据处理方法,可以基于音频数据中的类型标签,及时对音频数据的丢包情况进行检测。
54.请参考图3,其示出了本技术一示例性实施例提供的一种语音数据处理方法的方法流程图,该语音数据处理方法可以用于终端设备中。如图1所示,该语音数据处理方法可以包括如下步骤:
55.步骤301,接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型。
56.可选的,在数据传输过程中,作为数据发送方的终端设备可以采集并生成第一音频数据,并将第一音频数据发送给作为数据接收方的终端设备,相应的,作为数据接收方的终端设备可以接收到第一音频数据。
57.其中,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型。可选的,类型标签是作为数据发送方的终端设备在生成可传输的音频数据之前,通过自身的编码模块对音频数据进行编码处理后得到的。比如,语音类型可以包含语音类型和非语音类型,对于一个音频数据来说,终端设备通过内置的编码模块对该音频数据进行判断,检测出其中的语音类型的语音段和非语音类型的语音段,并用标签一表示语音类型的语音段,用标签二表示非语音类型的语音段,添加在传输的音频数据中,得到最终具有标签的第一音频数据。
58.步骤302,根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。
59.可选的,终端设备利用第一音频数据中各个语音包的类型标签,对接收到的第一音频数据进行检测。当第一音频数据的类型标签有缺失时,说明第一音频数据具有丢包现象,根据类型标签以及类型标签的位置可以确定出丢失的语音包以及丢失位置。
60.比如,在上述第一音频数据中,每隔10个语音包作为一个数据传输的循环,每个语音包可以采用20ms的时长,那么,对于第一音频数据来说,经过终端设备编码后得到的第一音频数据中包含对10个语音包各自的类型标签,在检测时,基于这些类型标签的顺序或者结构,对第一音频数据进行检测,如果第5个语音包发生了丢失,那么,终端设备对10个语音包各自的类型标签进行检测之后,可以确定其中的第5个语音包发生了丢失,从而及时确定出第一音频数据中的丢失信息。
61.综上所述,本技术通过接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型;根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。本技术接收到的音频数据中包含各个语音包对应的类型标签,在进行检测过程中,根据所述第一音频数据的类型标签,对所
述第一音频数据进行检测,从而确定所述第一音频数据的丢失信息,不需要终端设备添加额外的冗余信息,按照类型标签实现对音频数据的检测过程,节约了终端设备的传输资源,提高了终端设备对语音数据进行丢包检测的效率。
62.在一种可能实现的方式中,本技术中还可以在终端设备中设置预设标签检测规则,在获取到各个语音包对应的类型标签之后,基于预设标签检测规则对各个所述类型标签进行检测,提高终端设备对语音数据进行丢包检测的效率。
63.请参考图4,其示出了本技术一示例性实施例提供的一种语音数据处理方法的方法流程图,该语音数据处理方法可以用于终端设备中。如图2所示,该语音数据处理方法可以包括如下步骤:
64.步骤401,接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型。
65.可选的,在本技术中,终端设备接收到第一音频数据中包含各个语音包对应有各自的类型标签,类型标签指示语音包的语音类型。在一种可能实现的方式中,语音类型可以包含语音类型和非语音类型,对于终端设备采集到的音频数据来说,终端设备可以通过内置的编码模块对该音频数据进行判断,判断出其中属于语音类型的语音段和非语音类型的语音段,如果用a表示非语音类型的语音段,b表示语音类型的语音段,那么,终端设备进行编码处理后,得到的语音数据对应的类型标签可以如下:0a,1a,2a,3b,4b,5a,6b,7b,8b,9b。其中,以10个语音包作为一个传输循环,终端设备可以依次对每个语音包编辑标签,得到如上结果。
66.在一种可能实现的方式中,终端设备内设置有语音端点检测(voice activity detection,vad)模块,终端设备通过vad模块对采集到的语音数据进行判断,识别出的语音类型可以包含语音类型,非语音类型,其他语音类型。终端设备可以基于预设识别判断算法,对获取到的音频数据进行识别,确定其中语音类型,非语音类型以及其他语音类型,并对各个语音包进行编码处理,得到各个语音包对应的类型标签。
67.例如,a表示非语音类型的语音段,b表示其他语音类型的语音段,c表示语音类型的语音段,那么,得到的语音数据对应的类型标签可以如下:0a,1a,2a,3c,4b,5b,6b,7c,8b,9a。可选的,语音类型的语音段对应的语音帧可以按照每隔n帧标记为c标签,其中,n为大于1的整数,且n与终端设备的通信质量以及语音包的大小有关。比如,终端设备的通信质量越好,n越小,终端设备的通信质量越差,n越大,终端设备的语音包越大,n越小,终端设备的语音包越小,n越大,终端设备可以根据自身当前的通信质量以及语音包的大小选择合适的编码量级进行编码。
68.例如,终端设备中预先存储有不同的n与对应的通信质量之间的对应关系表,终端设备在获取到自身当前的通信质量之后,可以通过查询该表格获取到对应的n,使用获取到的n进行编码。请参考表1,其示出了本技术一示例性实施例涉及的一种通信质量与n之间的对应关系表。
69.通信质量n通信质量一n1通信质量二n2通信质量三n3
…………
70.表1
71.如上述表1所示,终端设备可以获取自身当前的通信质量,从而获取到对应的n,可选的,上述语音包的大小也可以基于通信质量获取,此处不再赘述。
72.以终端设备对于语音类型的语音段对应的语音帧按照每隔3帧标记为c标签,20ms为一个语音包大小,每10个语音包作为一个循环为例,终端设备采集到的第一音频数据中包含100个语音包时,对于第一个循环中的10个语音包来说,终端设备通过vad模型判断出其中的语音类型,非语音类型以及其他语音类型,并进行编码后得到的类型标签可以如下:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。以此类推,终端设备对100个语音包进行编码后,得到具有各个标签的音频数据,从而发送给作为接收方的终端设备,作为接收方的终端设备接收第一音频数据。
73.可选的,作为发送方的终端设备将第一音频数据发送之前,还可以将第一音频数据的格式转换为目标数据格式,其中,目标数据格式可以预设在终端设备中。比如,目标数据格式是opus格式,终端设备在上述编码后,将带有标签的第一音频数据转换为opus格式,并发送给接收方。
74.步骤402,根据第一音频数据,依次获取第一音频数据中各个语音包对应的类型标签。
75.可选的,作为接收端的终端设备接收到上述第一音频数据后,可以通过解析得到第一音频数据中包含的各个语音包对应的类型标签。比如,终端设备通过解析得到上述第一音频数据中各个语音包对应的类型标签是:0a,1a,2a,3c,4b,5b,6b,7c,8b,9a。
76.步骤403,按照预设标签检测规则对各个类型标签进行检测,确定第一音频数据的丢失语音信息以及丢失位置信息,丢失语音信息是此次丢失的语音包的语音类型,丢失位置信息是此次丢失的语音包在第一音频数据中的位置。
77.可选的,终端设备对得到的各个类型标签进行检测,从而确定丢失信息,在本方案中,丢失信息包括丢失语音信息以及丢失位置信息。通过对各个类型标签进行检测,确定出此次丢失的语音包的语音类型以及此次丢失的语音包在第一音频数据中的位置。
78.可选的,预设标签检测规则还可以包括以下方式:按照预设的标签顺序结构依次对各个类型标签进行检测;和/或,按照预设的标签组合结构依次对各个类型标签进行检测。
79.在一种可能实现的方式中,终端设备中预先设置有预设标签检测规则,按照预设标签检测规则对各个类型标签进行检测。比如,预设标签检测规则是按照预设的标签顺序结构依次对各个类型标签进行检测。由于上述进行编码后,带有标签的第一音频数据中是具有标签顺序的,因此,终端设备可以依次检测每个标签,并确定其中缺失的部分。比如,第一音频数据中各个语音包对应的类型标签是:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。上述步骤402中获取到的类型标签是:0a,1a,2c,4b,5b,7b,8b,9a。终端设备根据标签顺序,可以得知3b和6c是缺失的,对于该第一音频数据来说,确定缺失的丢失位置信息是第4个语音包和第7个语音包,丢失语音信息是语音类型和其他语音类型。
80.在一种可能实现的方式中,终端设备按照预设的标签组合结构依次对各个类型标签进行检测时,可以结合标签顺序以及每隔n帧标记为c标签的方式来检测,比如,第一音频
数据中各个语音包对应的类型标签是:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。上述步骤402中获取到的类型标签是:0a,1a,2c,4b,5b,7b,8b,9a。终端设备根据标签顺序,可以得知3和6是缺失的,对于该第一音频数据来说,每隔3帧标记为c标签,那么,确定3位置处对应的类型是其他语音类型,确定6位置处对应的类型是语音类型,从而确定缺失的丢失位置信息是第4个语音包和第7个语音包,丢失语音信息是语音类型和其他语音类型。
81.步骤404,根据丢失信息,确定丢失信息在第一音频数据中相邻预设时长范围内的语音数据。
82.其中,相邻预设时长范围可以是预先设置在终端设备中的。比如,相邻预设时长范围是丢失的语音包相邻的前一个语音包以及后一个语音包,或者,相邻预设时长范围是丢失的语音包相邻的前两个语音包以及后两个语音包。
83.比如,第一音频数据中各个语音包对应的类型标签是:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。上述步骤402中获取到的类型标签是:0a,1a,2c,4b,5b,7b,8b,9a。终端设备根据标签顺序,可以得知3b和6c是缺失的,对于该第一音频数据来说,确定缺失的丢失位置信息是第4个语音包和第7个语音包,终端设备可以根据丢失的是第4个语音包和第7个语音包,分别获取到第4个语音包的相邻两个语音包(2c,4b),以及第7个语音包的相邻两个语音包(5b,7b)。
84.在一种可能实现的方式中,终端设备还可以获取终端设备的通信质量以及应用场景;根据通信质量以及应用场景,确定通信等级;根据通信等级,确定相邻预设时长范围。比如,终端设备可以通过获取自身的接收信号强度确定自身的通信质量,以及通过获取当前运行的应用程序,获取终端设备的应用场景,进而确定出自身当前所处的通信等级。其中,应用场景可以包括聊天场景、会议场景、通话场景等。
85.可选的,终端设备中预先存储有通信等级与相邻预设时长范围之间的对应关系表。请参考表2,其示出了本技术一示例性实施例涉及的一种通信等级与相邻预设时长范围之间的对应关系表。
86.通信等级相邻预设时长范围通信等级一相邻预设时长范围一通信等级二相邻预设时长范围二通信等级三相邻预设时长范围三
…………
87.表2
88.如上述表2所示,终端设备获取到的通信等级是通信等级三时,确定的相邻预设时长范围是相邻预设时长范围三,在本步骤中,获取对应相邻预设时长范围的音频数据。需要说明的是,通信等级越高,终端设备需要得到的音频数据越准确,相邻预设时长范围越大。
89.步骤405,根据丢失信息在第一音频数据中相邻预设时长范围内的语音数据,生成丢失语音数据,丢失语音数据是丢失信息对应的语音数据。
90.即,终端设备可以通过确定出丢失信息在第一音频数据中相邻预设时长范围内的语音数据后,对丢失的语音数据进行补偿,实现语音数据的恢复。在一种可能实现的方式中,终端设备也可以将上述获取到的第一音频数据以及丢失信息发送给服务器,由服务器对丢失的语音数据进行补偿,并接收服务器返回的丢失语音数据,本技术对此并不限定。
91.在一种可能实现的方式中,终端设备还可以根据上述步骤404中确定的通信等级,确定目标标签,目标标签可以是a,b,c中的b,c标签,或者,目标标签是c标签。依据语音数据具有短时平稳性,根据丢失信息前后带有c和b标签的语音包作为基础进行平滑处理,得到此处丢失语音数据。
92.比如,第一音频数据中各个语音包对应的类型标签是:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。上述步骤402中获取到的类型标签是:0a,1a,2c,4b,5b,7b,8b,9a。终端设备根据标签顺序,可以得知3b和6c是缺失的,对于该第一音频数据来说,确定缺失的丢失位置信息是第3个语音包和第6个语音包,当终端设备根据通信等级确定的目标标签类型是b,c类型标签,终端设备可以根据丢失的是第4个语音包和第7个语音包,分别获取到第4个语音包的相邻两个语音包(2c,4b),以及第7个语音包的相邻两个语音包(5b,7b),并进行平滑处理,得到丢失语音数据3b和6c。
93.在一种可能实现的方式中,终端设备作为语音数据的发送方,可以对获取到的语音数据进行发送。比如,终端设备还可以获取第二语音数据;对第二语音数据进行添加标签处理,并将添加标签后的第二音频数据的数据格式转换为目标数据格式,生成第二标签语音数据;发送第二标签语音数据。其中,终端设备可以通过自身的麦克风进行采集,从而获取到第二语音数据,并将第二音频数据的数据格式转换为目标数据格式,比如,目标数据格式是opus格式,终端设备在获取到第二音频数据后,将带有标签的第一音频数据转换为opus格式,并发送给接收方。
94.在一种可能实现的方式中,获取终端设备的通信质量;根据终端设备的通信质量,确定对音频数据进行标签处理时的添加标签的方式。可选的,终端设备获取通信质量的方式类似上述步骤401中的描述,此处不再赘述。终端设备进行添加标签时,根据通信质量,确定对应的n,从而确定相应的添加标签的方式,并进行添加。比如,以终端设备对于语音类型的语音段对应的语音帧按照每隔3帧标记为c标签,20ms为一个语音包大小,每10个语音包作为一个循环为例,终端设备采集到的第一音频数据中包含100个语音包时,对于第一个循环中的10个语音包来说,终端设备通过vad模型判断出其中的语音类型,非语音类型以及其他语音类型,并进行编码后得到的类型标签可以如下:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。
95.在一种可能实现的方式中,终端设备发送第二语音数据时可以按照如下方式:检测终端设备的通信质量;当通信质量低于预设质量阈值时,对第二语音数据进行筛选,获取第三语音数据,第三语音数据中包含目标类型标签的各个语音包;将第三语音数据进行发送。
96.其中,目标类型标签可以是c标签,比如,预设质量阈值是a,当通信质量是b,且b小于a时,终端设备可以对上述得到的第二语音数据进行筛选,获取其中包含c类型标签的各个语音包,得到第三语音数据,并将第三语音数据进行发送。比如,第二语音数据编码后得到的类型标签可以如下:0a,1a,2c,3b,4b,5b,6c,7b,8b,9a。在进行发送时,如果通信质量低于预设质量阈值,终端设备可以筛选出其中的2c以及6c的语音包,将2c以及6c的语音包作为第三语音数据并进行发送,从而减少传输的数据量,保证核心的语音数据发送出去。
97.请参考图5,其示出了本技术一示例性实施例涉及的一种终端设备的结构示意图。如图5所示,在终端设备500中包含了编码模块501,检测模块502,解码模块503。其中,编码模块501可以是对终端设备采集到的语音数据进行添加标签的模块,检测模块502可以是终
端设备执行上述步骤402至步骤403时对应的调用模块,解码模块503可以是终端设备执行上述步骤404至步骤405时对应的调用模块。比如,编码模块501是上述vad模块,作为数据发送方的终端设备通过编码模块501对语音数据进行编辑并发送,作为数据接收方的终端设备通过检测模块502对接收到的音频数据进行检测,确定出其中的丢失信息,并将丢失信息以及接收到的音频数据发送给解码模块503,由解码模块503执行数据补偿的过程,得到补偿后完整的音频数据。
98.需要说明的是,上述解码模块503也可以集成在服务器中,终端设备基于检测模块检测到丢失信息之后,可以根据自身需求,将丢失信息以及接收到的音频数据发送给服务器,从而让服务器进行补偿。
99.在一种可能实现的方式中,如果检测模块没有检测出丢失信息,即,第一音频数据未发生丢包现象,则可以不需要解码模块处理,直接使用该第一音频数据。比如,终端设备可以直接将第一音频数据流输入至服务器,服务器进一步对第一音频数据进行识别、评测等功能性处理。
100.综上所述,本技术通过接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型;根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。本技术接收到的音频数据中包含各个语音包对应的类型标签,在进行检测过程中,根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,从而确定所述第一音频数据的丢失信息,不需要终端设备添加额外的冗余信息,按照类型标签实现对音频数据的检测过程,节约了终端设备的传输资源,提高了终端设备对语音数据进行丢包检测的效率。
101.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
102.请参考图6,其示出了本技术一示例性实施例提供的语音数据处理装置的结构框图。该语音数据处理装置600可以用于终端设备中,以执行图3或图4所示实施例提供的方法中由终端设备执行的全部或者部分步骤。该语音数据处理装置600包括:
103.数据接收模块601,用于接收第一音频数据,所述第一音频数据中的各个语音包对应有各自的类型标签,所述类型标签用于指示语音包的语音类型;
104.数据检测模块602,用于根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息。
105.综上所述,本技术通过接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型;根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。本技术接收到的音频数据中包含各个语音包对应的类型标签,在进行检测过程中,根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,从而确定所述第一音频数据的丢失信息,不需要终端设备添加额外的冗余信息,按照类型标签实现对音频数据的检测过程,节约了终端设备的传输资源,提高了终端设备对语音数据进行丢包检测的效率。
106.可选的,所述数据检测模块602,包括:第一获取单元,第一确定单元;
107.所述第一获取单元,用于根据所述第一音频数据,依次获取所述第一音频数据中各个语音包对应的类型标签;
108.所述第一确定单元,用于按照预设标签检测规则对各个所述类型标签进行检测,确定所述第一音频数据的丢失语音信息以及丢失位置信息,所述丢失语音信息是此次丢失的语音包的语音类型,所述丢失位置信息是此次丢失的语音包在所述第一音频数据中的位置。
109.可选的,所述装置还包括:
110.第一确定模块,用于在所述根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息之后,根据所述丢失信息,确定所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据;
111.第一生成模块,用于根据所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据,生成丢失语音数据,所述丢失语音数据是所述丢失信息对应的语音数据。
112.可选的,所述装置还包括:
113.第一获取模块,用于在所述根据所述丢失信息,确定所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据之前,获取所述终端设备的通信质量以及应用场景;
114.第二确定模块,用于根据所述通信质量以及所述应用场景,确定通信等级;
115.第三确定模块,用于根据所述通信等级,确定所述相邻预设时长范围。
116.可选的,所述装置还包括:
117.第二获取模块,用于获取第二语音数据;
118.第二生成模块,用于对所述第二语音数据进行添加标签处理,并将添加标签后的所述第二音频数据的数据格式转换为目标数据格式,生成第二标签语音数据;
119.第一发送模块,用于发送所述第二标签语音数据。
120.可选的,所述装置还包括:
121.第三获取模块,用于在所述将所述第二音频数据的数据格式转换为目标数据格式,并对转换后的第二语音数据进行添加标签处理之前,获取所述终端设备的通信质量;
122.第三确定模块,用于根据所述终端设备的通信质量,确定对所述音频数据进行标签处理时的添加标签的方式。
123.可选的,所述第一发送模块,包括:第一检测单元,第二获取单元以及第一发送单元;
124.所述第一检测单元,用于检测所述终端设备的通信质量;
125.所述第二获取单元,用于当所述通信质量低于预设质量阈值时,对所述第二语音数据进行筛选,获取第三语音数据,所述第三语音数据中包含目标类型标签的各个语音包;
126.所述第一发送单元,用于将所述第三语音数据进行发送。
127.图7是本技术一示例性实施例提供的一种终端设备的结构示意图。该终端设备700包括:处理器701和存储器702,通信接口703以及总线704。其中,存储器702用于存储指令,该处理器701用于执行该存储器702存储的指令。处理器701、存储器702和通信接口703通过总线704实现彼此之间的通信连接。
128.其中,处理器701用于:获取装置700的第一参数,该第一参数用于指示终端设备700当前的通信质量;在根据第一参数确定终端设备700的通信质量低于预设通信质量阈值时,控制终端设备700重新进行网络连接。
129.终端设备700可以用于执行上述方法实施例中与第一设备或第二设备对应的各个步骤和/或流程。
130.可选地,该存储器702可以包括只读存储器和随机存取存储器,并向处理器701提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。例如,存储器702还可以存储设备类型的信息。该处理器701可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器701可以执行上述方法实施例中与第一设备或第二设备对应的各个步骤和/或流程。
131.应理解,在本技术实施例中,该处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
132.本技术实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的语音数据处理方法中,由终端设备执行的全部或部分步骤。
133.本技术实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的语音数据处理方法,由终端设备或者服务器执行的全部或部分步骤。
134.需要说明的是:上述实施例提供的装置在执行终端设备的控制时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
135.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
136.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
137.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种语音数据处理方法,其特征在于,所述方法应用于终端设备,所述方法包括:接收第一音频数据,所述第一音频数据中的各个语音包对应有各自的类型标签,所述类型标签用于指示语音包的语音类型;根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息,包括:根据所述第一音频数据,依次获取所述第一音频数据中各个语音包对应的类型标签;按照预设标签检测规则对各个所述类型标签进行检测,确定所述第一音频数据的丢失语音信息以及丢失位置信息,所述丢失语音信息是此次丢失的语音包的语音类型,所述丢失位置信息是此次丢失的语音包在所述第一音频数据中的位置。3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息之后,还包括:根据所述丢失信息,确定所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据;根据所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据,生成丢失语音数据,所述丢失语音数据是所述丢失信息对应的语音数据。4.根据权利要求3所述的方法,其特征在于,在所述根据所述丢失信息,确定所述丢失信息在所述第一音频数据中相邻预设时长范围内的语音数据之前,还包括:获取所述终端设备的通信质量以及应用场景;根据所述通信质量以及所述应用场景,确定通信等级;根据所述通信等级,确定所述相邻预设时长范围。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第二语音数据;对所述第二语音数据进行添加标签处理,并将添加标签后的所述第二音频数据的数据格式转换为目标数据格式,生成第二标签语音数据;发送所述第二标签语音数据。6.根据权利要求5所述的方法,其特征在于,在所述将所述第二音频数据的数据格式转换为目标数据格式,并对转换后的第二语音数据进行添加标签处理之前,还包括:获取所述终端设备的通信质量;根据所述终端设备的通信质量,确定对所述音频数据进行标签处理时的添加标签的方式。7.根据权利要求6所述的方法,其特征在于,所述发送所述第二标签语音数据,包括:检测所述终端设备的通信质量;当所述通信质量低于预设质量阈值时,对所述第二语音数据进行筛选,获取第三语音数据,所述第三语音数据中包含目标类型标签的各个语音包;将所述第三语音数据进行发送。8.一种语音数据处理装置,其特征在于,所述装置应用于终端设备,所述装置包括:数据接收模块,用于接收第一音频数据,所述第一音频数据中的各个语音包对应有各
自的类型标签,所述类型标签用于指示语音包的语音类型;数据检测模块,用于根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息。9.一种终端设备,其特征在于,所述终端设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的语音数据处理方法。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的语音数据处理方法。

技术总结


本申请公开了一种语音数据处理方法、装置、终端设备及存储介质,属于数据处理技术领域。应用于终端设备,该方法包括:接收第一音频数据,第一音频数据中的各个语音包对应有各自的类型标签,类型标签用于指示语音包的语音类型;根据第一音频数据的类型标签,对第一音频数据进行检测,确定第一音频数据的丢失信息。本申请接收到的音频数据中包含各个语音包对应的类型标签,在进行检测过程中,根据所述第一音频数据的类型标签,对所述第一音频数据进行检测,确定所述第一音频数据的丢失信息,不需要终端设备添加额外的冗余信息,按照类型标签实现对音频数据的检测过程,节约了终端设备的传输资源,提高了终端设备对语音数据进行丢包检测的效率。包检测的效率。包检测的效率。


技术研发人员:

陈昌儒 刘文娟 李超

受保护的技术使用者:

北京欧珀通信有限公司

技术研发日:

2022.10.27

技术公布日:

2023/2/3

本文发布于:2024-09-22 20:25:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/58292.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:终端设备   语音   数据   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议