一种语音处理方法、装置、设备及介质与流程



1.本技术涉及数据处理技术领域,尤其涉及一种语音处理方法、装置、设备及介质。


背景技术:



2.随着物联网概念的兴起,家电行业的产品更加智能化,为了提升用户的体验,推出了一系列智能音箱,通过智能音箱接收用户的语音信息,对智能音箱接收到的语音信息进行识别,从而有效地对所接收到的语音信息进行处理。例如,控制智能电视打开、控制智能音箱播放对应的音乐等。
3.图1为现有技术中语音处理过程的流程示意图,由图1可知,传统的智能音箱在被唤醒后,将接收到的语音信息上传到云端服务器,在云端服务器对语音信息进行语音识别、语义理解等操作,云端服务器根据语义理解的结果调用相关资源,将相关资源返回到智能音箱进行播放或根据语音理解的结果进行其他的操作。这个过程中,语音信息需要上传到云端服务器,以使云端服务器进行语音识别等操作。然而为了准确地对接收到的语音信息进行处理,需要准确地识别出接收到的语音信息对应的文本内容。现有的语音识别的方式,都是通过训练完成的语音识别模型进行识别,现有技术中进行语音识别的语音识别模型都是在云端服务器上进行训练,并在云端服务器上进行语音识别。
4.现有的语音识别都是通过统一的语音识别模型进行语音识别,虽然可以定制某些场景的服务,例如家庭场景,但由于用户的用户语音习惯等的不同,语音识别模型在识别不同用户录制的同样内容的一条语音信息时,识别出的文本内容会产生很多差别,例如:一般的语音识别模型对于“录入衣服”会识别为“路入一幅”,且每次错误均不一样,因此仅通过同一个语音识别模型获取接收到的语音信息对应的文本内容,并不能准确地识别语音信息对应的文本内容。并且现有技术中为了提高特定的场景下的识别效率,通过使用热词修改热词对应的权重,使得在进行语音识别时识别成指定的热词,但是这种方式也可能出现由于热词得分过高,使得正确路径被裁减掉的情况,提高热词对应的权重虽然有一定的效果,但是依然无法准确地识别语音信息对应的文本内容。


技术实现要素:



5.本技术实施例提供了一种语音处理方法、装置、设备及介质,用以解决现有技术中在对语音信息进行处理时,容易造成的语音信息识别不准确的问题。
6.第一方面,本技术实施例提供了一种语音处理方法,应用于电子设备,所述方法包括:
7.接收语音信息,提取所述语音信息的目标声纹结果;
8.根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;
9.对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
10.第二方面,本技术实施例提供了一种语音处理装置,所述装置包括:
11.接收提取模块,用于接收语音信息,提取所述语音信息的目标声纹结果;
12.处理模块,用于根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;
13.控制模块,用于对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
14.第三方面,本技术实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行上述任一项所述语音处理方法的步骤。
15.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时执行上述任一项所述语音处理方法的步骤。
16.在本技术实施例中,通过提取所接收到的语音信息的目标声纹结果,确定目标声纹结果对应的目标语音识别模型,并且由于在通过该目标语音识别模型识别出语音信息对应的文本内容后,对文本内容进行语义理解,并根据语音理解结果对设备进行控制。由于所确定该目标语音识别模型是,所接收到的语音信息中提取出的目标声纹结果对应的语音识别模型,因此通过该目标语音识别模型可以准确地识别所接收到的语音信息对应的文本内容。
附图说明
17.为了更清楚地说明本技术的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为现有技术中智能音箱在接收到语音信息时,语音处理过程的流程示意图;
19.图2为本技术实施例提供的一种语音处理过程示意图;
20.图3为本技术实施例提供的媒资类指令对应的详细处理流程示意图;
21.图4为本技术实施例提供的构建训练集的详细示意图;
22.图5为本技术实施例提供的构建语音识别模型对应的训练集的流程示意图;
23.图6为本技术实施例提供的语音识别模型训练详细示意图;
24.图7为本技术实施例提供的语音识别模型训练过程示意图;
25.图8为本技术实施例提供的语音识别模型部署的过程示意图;
26.图9为本技术实施例提供的一种语音处理装置结构示意图;
27.图10为本技术实施例提供的一种电子设备结构示意图。
具体实施方式
28.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
29.在本技术实施例中,为了准确地确定接收到的语音信息的文本内容,在接收到语
音信息后,提取语音信息中的目标声纹结果,并根据预先保存的声纹结果与语音识别模型的对应关系,确定所接收到的语音信息的目标声纹结果对应的目标语音识别模型,并将所接收到的语音信息输入到该目标语音识别模型中,通过该目标语音识别模型,确定该语音信息对应的文本内容,并通过语义理解获取该文本内容对应的语义理解结果,根据所获取到的语音理解结果,对接收到的语音信息进行相应的处理。
30.图2为本技术实施例提供的一种语音处理过程示意图,该过程包括以下步骤:
31.s201:接收语音信息,获取所述语音信息的目标声纹结果。
32.本技术实施例提供的语音处理方法应用于电子设备,该电子设备可以是pc或本地服务器等智能设备。
33.在本技术实施例中,在接收到语音信息后,为了准确地识别语音信息对应的文本内容,获取该语音信息的目标声纹结果。在本技术实施例中,可以通过电子设备外接的智能音箱接收语音信息。具体的,智能音箱在接收到语音信息后,将语音信息发送至电子设备。
34.其中,目标声纹结果指的是该语音信息对应的家庭成员,在本技术实施例中,将该语音信息输入到预先训练完成的声纹识别模型中,即可获取该语音信息的目标声纹结果。具体的,对声纹识别模型进行训练的过程为现有技术,在此不做赘述。
35.s202:根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容。
36.由于每个家庭成员的语言习惯不同,因此为了准确地确定语音信息对应的文本内容,在本技术实施例中,获取该家庭成员对应的语音识别模型,由于不同家庭成员的声纹结果不同,因此预先保存有声纹结果与语音识别模型的对应关系,将接收到的语音信息中提取出的目标声纹结果对应的语音识别模型,确定为目标语音识别模型。
37.在确定该语音信息对应的目标语音识别模型后,将语音信息输入到该目标语音识别模型中,获取该目标语音识别模型输出的文本内容,由于该目标语音识别模型为该目标声纹结果对应的模型,因此通过该目标语音识别模型可以更准确地确定该语音信息对应的文本内容。
38.s203:对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
39.在确定所接收到的语音信息对应的文本内容后,为了准确地对语音信息进行处理,对该文本内容进行语义理解,并根据语义理解的结果,对对应的设备进行相应的控制。其中,对文本内容进行语义理解的过程为现有技术,在此不做赘述。
40.例如,所接收到的语音信息为“打开电视机”,则根据声纹结果确定对应的目标语音识别模型,将该语音信息输入到该目标语音识别模型中,该目标语音识别模型会输出该语音信息对应的文本内容为“打开电视机”,并通过语义理解,可以确定该语音信息的意图以及所要控制的设备,从而可以准确地对该语音信息进行处理。
41.在本技术实施例中,由于不同声纹结果对应的语音识别模型不同,因此通过提取所接收到的语音信息的目标声纹结果,确定目标声纹结果对应的目标语音识别模型,并且由于在通过该目标语音识别模型识别出语音信息对应的文本内容后,对文本内容进行语义理解,并根据语音理解结果对设备进行控制。由于所确定该目标语音识别模型是,所接收到的语音信息中提取出的目标声纹结果对应的语音识别模型,因此通过该目标语音识别模型
可以准确地识别所接收到的语音信息对应的文本内容。
42.为了防止语音信息泄露,在上述各实施例的基础上,在本技术实施例中,所述方法还包括:
43.若无法获取语义理解结果,则将所述文本内容发送至云端服务器。
44.由于可能存在无法对文本内容进行语义理解的情况,在无法获取语义理解结果时,为了防止语音信息的泄露,在本技术实施例中,将上述所确定的文本内容发送至云端服务器,以使云端服务器对该文本内容进行语义理解,从而获取该文本内容对应的语义理解结果,并且由于在上传至云端服务器时,上传的是对应的文本内容,并未语音信息,因此可以在准确地对语音信息进行处理的同时,防止语音信息的泄露。
45.语音信息作为用户的重要隐私信息,一旦泄露可直接从语音信息中提取用户语音信息的相关特征,通过所提取出的相关特征进行训练可以模拟用户音,造成不必要的损失,在本技术实施例中,通过电子设备对接收到的语音信息进行语音识别以及语义理解,并且在无法进行语义理解时,将识别出的文本内容发送至云端服务器,可以有效地避免语音信息泄露。
46.为了准确地对所接收到的语音信息进行处理,在上述各实施例的基础上,在本技术实施例中,所述根据语义理解结果,对设备进行控制包括:
47.根据语义理解结果确定所述语音信息对应的指令;
48.根据所述指令,对对应的设备进行相应的控制。
49.在本技术实施例中,为了准确地对接收到的语音信息进行处理,在获取到语义理解结果后,根据该语义理解结果,确定所接收到的语音信息对应的指令,从而根据所确定的指令,对对应的设备进行相应的控制。
50.并且由于指令类别不同,对应的处理方式不同,因此指令中对应包含有指令类别。其中,指令类别包括交互指令、家居控制类指令以及媒资类指令中任意一种。具体的,若指令类别为交互指令,则电子设备根据语义理解结果合成对应的回复信息,控制音频播放设备播放所合成的回复信息。若指令类别为家居控制类指令,则电子设备根据指令中包含的对应的智能设备,对对应的智能设备进行相应的控制。若指令为媒资类指令,则电子设备将语义理解结果发送至云端服务器,以使云端服务器根据语义理解结果获取对应的资源,电子设备接收云端服务器返回的统一资源定位符(uniform resource locator,url),电子设备根据接收到的该url,控制对应的播放设备播放所获取到的资源。
51.并且在本技术实施例中,若通过电子设备外接的智能音箱接收语音信息,则为了防止智能在未使用时,一直处于开启状态,造成资源的浪费,可以通过唤醒指令,来控制智能音箱的开启,也就是说在智能音箱接收到唤醒指令之后,接收语音信息,并将接收到的语音信息发送至电子设备。
52.具体的,在本技术实施例中,该唤醒指令可以为包含具体内容的语音信息,例如“你好,哈利”或“哈利哈利”等。
53.并且在本技术实施例中,为了实时对接收到的语音信息进行处理,智能音箱对接收到的音频流进行断句处理,针对断句后的每一条语音信息进行处理,并及时处理断句后的每一条语音信息。具体的,如何进行断句处理为现有技术,在此不再赘述。
54.图3为本技术实施例提供的媒资类指令对应的详细处理流程示意图,在本技术实
施例中,以电子设备为本地服务器为例进行说明,该过程包括:
55.智能音箱接收唤醒指令,其中,该唤醒指令可以为“你好,哈利”。智能音箱在被唤醒后,进入拾音状态,接收音频流,其中,该音频流中的部分语音信息可以为“放个歌”,智能音箱对接收到的音频流自动断句,将断句后的语音信息发送至本地服务器,本地服务器接收语音信息,并针对接收到的语音信息进行语音识别,即将语音信息输入到语音识别模型中,获取对应的文本内容,对获取到的文本内容进行语义理解。若本地服务器无法获取语义理解结果,则将文本内容发送至云端服务器。
56.云端服务器根据接收到的文本内容进行语义理解,并根据语义理解结果确定该语音信息对应的指令为媒资类指令,云端服务器获取该语音信息对应的指令的url,并将获取到的url以及语义理解结果发送至本地服务器,本地服务器根据该url以及该语义理解结果,控制对应的设备,具体的,若所控制的设备为智能音箱,则可以是本地服务器将语义理解结果以及url发送至智能音箱,控制智能音箱通过接收到的url拉去媒资并进行播放。
57.具体的,云端服务器包括语音云端服务器以及媒资云端服务器,语音云端服务器用于进行语音相关服务,媒资云端服务器用于获取相关资料。具体的处理过程为语音云端服务器根据接收到的文本内容进行语义理解,并根据语义理解结果确定该语音信息对应的指令为媒资类指令,语音云端服务器将该语音信息对应的指令发送至媒资云端服务器,媒资云端服务器获取该语音信息对应的指令的url,并将获取到的url以及语义理解结果发送至本地服务器。
58.为了更准确地识别语音信息对应的文本内容,在上述各实施例的基础上,在本技术实施例中,所述通过所述目标语音识别模型,获取所述语音信息对应的文本内容之后,所述方法还包括:
59.控制显示器显示所识别出的所述文本内容。
60.在本技术实施例中,为了更准确地识别语音信息对应的文本内容,在获取语音信息对应的文本内容之后,还控制显示器显示所识别出的文本内容,便于使用该电子设备的家庭成员辨别所识别出的文本内容是否正确,从而根据所识别出的文本内容是否正确,进一步对该目标语音识别模型进行优化。
61.为了更准确地识别语音信息对应的文本内容,在上述各实施例的基础上,在本技术实施例中,所述控制显示器显示所识别出的所述文本内容之后,所述方法还包括:
62.判断在预设时间段内,是否接收到纠正指令,若接收到纠正指令,且未接收到文本信息,则舍弃所述语音信息;若接收到纠正指令,且接收到文本信息,则确定所述文本信息为第一标准文本,确定所述第一标准文本以及所述语音信息为第一样本对,并添加至所述目标声纹结果对应的训练集;
63.若未接收到纠正指令,则确定所述文本内容为第二标准文本,则确定所述第二标准文本以及所述语音信息为第二样本对,并添加至所述目标声纹结果对应的训练集。
64.随着家庭成员使用该电子设备的时间增加可以积累很多特定场景的语音信息,为了更准确地识别语音信息对应的文本内容,在本技术实施例中,通过构建该目标声纹结果的训练集,从而根据该训练集对该目标声纹结果对应的目标语音识别模型进行优化,便于更准确地识别语音信息对应的文本内容。
65.具体的,在本技术实施例中,在构建该目标声纹结果的训练集时,通过控制器显示
所识别出的文本内容,便于使用的家庭成员,辨别所识别出的文本内容是否正确。具体的,电子设备通过在预设时间段内,是否接收到纠正指令,判断所识别出的文本内容是否正确。其中,该纠正指令可以为电子设备中预设的按键接收到了触发操作,也可以为接收到对应包含纠正内容的语音信息。
66.当家庭成员通过显示设备确定语音信息对应的文本内容识别错误时,可以通过正确文本来矫正所识别出的文本内容。因此若电子设备接收到纠正指令,并且未接收到正确的文本信息,则电子设备并不知道该语音信息对应的标准的文本,则舍弃该语音信息。若电子设备接收到纠正指令,并且接收到文本信息,则说明该文本信息为该语音信息对应的正确的文本,则后续在语义理解时,通过该文本信息进行语义理解。并且确定该文本信息为该语音信息对应的第一标准文本,并确定该第一标准文本以及该语音信息为第一样本对,将该第一样本对添加至该目标声纹结果对应的训练集中,便于对该目标语音识别模型进行优化。具体的,该文本内容可以通过电子设备的显示器进行输入,也可以通过电子设备外接的设备进行输入。
67.若电子设备未接收到纠正指令,则说明该目标语音识别模型所识别出的文本内容是准确的,则确定所识别出的文本内容为第二标准文本,则确定该第二标准文本以及该语音信息为第二样本对,并将该第二样本对添加到该目标声纹结果对应的训练集中。由于通过该种方式所构建的训练集中的任一语音信息的声纹结果都是相同的,也就是说语音信息都是同一家庭成员发出的,因此通过该训练集对该声纹信息对应的目标语音识别模型进行训练,可以更准确地获取语音信息对应的文本内容。在本技术实施例中,可以根据该特定场景的获取到的样本对,即语音信息与对应的标准文本,进行定制训练微调网络也就是本技术实施例所说的目标语音识别模型以使目标语音识别模型习惯该家庭成员的语言习惯。
68.在本技术实施例中,通过部署语音识别模型,提高识别输入的语音信息对应的文本内容的准确率。另外,当发现语音识别模型识别出的文本内容存在错误时,可以将正确的文本信息以及接收到的语音信息添加至训练集中,通过该训练集对语音识别模型进行训练微调以适应家庭成员的语言习惯,后续通过该正确的文本信息以及语音信息,对该语音识别模型进行优化训练。
69.图4为本技术实施例提供的构建训练集的详细示意图,详细过程如下:
70.s401:接收语音信息。
71.s402:将该语音信息输入到语音识别模型中,获取该语音信息对应的文本内容。
72.s403:判断是否接收到纠正指令,若是,则执行s404,若否,则执行s405。
73.s404:判断是否接收到正确的文本信息,若是,则执行s406,若否,则执行s407。
74.s405:将该语音信息以及语音识别模型所识别出的文本内容添加至训练集中。
75.s406:将该语音信息以及所接收到的正确文本添加至训练集中。
76.s407:舍弃该语音信息。
77.通过本技术实施例,电子设备可以根据家庭成员构建不同家庭成员对应的声纹结果的训练集,使得每个家庭成员使用不同的语音识别模型,同时根据家庭成员不同可以根据用户身份进行训练不同的模型,使得语音识别的准确率更高。
78.图5为本技术实施例提供的构建语音识别模型对应的训练集的流程示意图,详细过程如下:
79.s501:接收语音信息,提取该语音信息的声纹结果。
80.s502:获取该声纹结果对应的目标语音识别模型。
81.s503:将该语音信息输入到该目标语音识别模型中,获取该语音信息对应的文本内容。
82.s504:判断是否接收到纠正指令,若是,则执行s505,若否,则执行s506。
83.s505:判断是否接收到正确的文本信息,若是,则执行s507,若否,则执行s508。
84.s506:将该语音信息以及语音识别模型所识别出的文本内容添加至该声纹结果对应的训练集中。
85.s507:将该语音信息以及所接收到的正确文本添加至该声纹结果对应的训练集中。
86.s508:舍弃该语音信息。
87.为了实现对语音识别模型的训练,在上述各实施例的基础上,在本技术实施例中,所述语音识别模型通过以下方式训练:
88.获取所述语音识别模型对应的训练集中任一样本对,其中,所述样本对包括:样本语音信息以及所述样本语音信息对应的标准文本;所述训练集中任一样本语音信息中提取出的声纹结果相同;
89.将所述样本语音信息输入到所述语音识别模型中,获取所述语音识别模型输出的目标文本;
90.基于所述标准文本以及目标文本,对所述语音识别模型进行优化。
91.为了实现对语音识别模型的训练,本技术实施例中保存有进行训练用的训练集,该训练集中包含样本对,其中任一样本对都包括样本语音信息以及该样本语音信息对应的标准文本,为了准确地对该语音识别模型训练,从训练集中任一样本语音信息中提取出的声纹结果均是相同的,也就是说训练集中的样本语音信息为同一用户或工作人员所录制的语音信息。
92.并且为了准确地对语音识别模型进行训练,训练集中包含的样本语音信息分别为语音内容不同、录制腔调不同、语音长短不同等各种语音信息。为了方便对语音识别模型进行训练,该样本集中还针对每个样本语音信息,保存有该样本语音信息对应的标准文本。在本技术实施例中,在获取到训练集中的任一样本对后,将该样本语音信息输入到该语音识别模型中,该语音识别模型输出该样本语音信息对应的目标文本。并且,在本技术实施例中,语音识别模型通过语音识别的服务接口,接收语音信息的输入。
93.在该语音识别模型确定出该样本语音信息对应的目标文本后,根据训练集中该样本语音信息对应保存的标准文本,以及该语音识别模型输出的目标文本,对该语音识别模型进行训练。
94.对该语音识别模型采用上述方式进行训练,当满足预设的条件时,得到训练完成的语音识别模型。其中,该预设的条件可以是,训练集中的样本语音信息通过语音识别模型训练后得到的目标文本与标准文本一致的样本语音信息的数量大于设定数量;也可以是对语音识别模型进行训练的迭代次数达到设置的最大迭代次数等。具体的,本技术实施例对此不做限制。
95.在本技术实施例中,语音识别模型在训练完成后,通过电子设备所获取到的声纹
结果对应的训练集对该声纹结果对应的语音识别模型进行优化,也就是说通过本技术实施例的对语音识别模型进行优化可以在帮助家庭成员训练定制对应的语音识别模型,相当于用户自己定制训练集,以使语音识别适用于各自的家庭场景服务。并且通过本技术实施例所提供的模型训练的方案,可以很好地解决现有技术语音识别模型,识别不准确的问题。现有的热词模式提高热词权重,而本技术实施例的微调在于根据前后文相关的语句环境进行模型训练,这样既能够在语句环境再次出现时能够识别正确,同时又避免了设置热词出现的只要相应热词出现就识别为热词的情况。
96.图6为本技术实施例提供的语音识别模型训练详细示意图。
97.由图6可知,在语音识别模型训练需要的流程较多,具体的流程包括数据清洗、文本音频的训练以及融合,生成最终的语音识别(asr)模型。具体的,模型训练时,输入层、清洗层、训练层、融合层以及输出层如何执行,为现有技术,在此不做详细赘述。
98.语音识别模型部署为家庭场景模型训练及部署,原始的语音识别模型需要的数据量大,训练耗时长,且有训练好的模型可以部署,因此在该电子设备出厂时即可将训练完成的语音识别模型部署好放在该电子设备上,刚开始使用时,该语音识别模型可以用于识别每个家庭成员的语音信息。后续电子设备根据构建的不同家庭成员对应的声纹结果的训练集,通过该训练集对该声纹结果对应的语音识别模型进行训练,训练出每个声纹结果对应的语音识别模型,并继续构建每个声纹结果对应的训练集,从而使得该声纹结果对应的语音识别模型可以更加准确地识别出可以提取出该声纹结果的语音信息。
99.图7为本技术实施例提供的语音识别模型训练过程示意图。
100.由图7可知,该语音识别模型在出厂前,通过音频以及文本等模型训练工具,对语音识别模型进行训练。在出厂后根据asr lite sdk,这个软件开发工具包获取每个声纹结果对应的训练集,接入方根据每个声纹结果对应的训练集,将训练集中的样本语音模型通过asr lite输入到该声纹结果对应的语音识别模型中,从而对该语音识别模型进行优化,使得该语音识别模型可以更加适应该语音识别模型对应的声纹结果的家庭成员的语言习惯。
101.图8为本技术实施例提供的语音识别模型部署的过程示意图。
102.由图8可知,语言识别模型在部署时,整个过程包括原始训练模型部署、样本对积累、训练部署应用。具体的,在出厂后,通过收集样本对,将样本对输入到语音识别模型中,对语音识别模型进行训练,在训练完成后将语音识别模型进行部署,并在模型部署后应用该语音识别模型。
103.图9为本技术实施例提供的一种语音处理装置结构示意图,该装置包括:
104.接收提取模块901,用于接收语音信息,提取所述语音信息的目标声纹结果;
105.处理模块902,用于根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;
106.控制模块903,用于对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
107.进一步地,所述处理模块902,还用于若无法获取语义理解结果,则将所述文本内容发送至云端服务器。
108.进一步地,所述控制模块,903,具体用于根据语义理解结果确定所述语音信息对应的指令;根据所述指令,对对应的设备进行相应的控制。
109.进一步地,所述处理模块902,还用于控制显示器显示所识别出的所述文本内容。
110.进一步地,所述处理模块902,还用于判断在预设时间段内,是否接收到纠正指令,若接收到纠正指令,且未接收到文本信息,则舍弃所述语音信息;若接收到纠正指令,且接收到文本信息,则确定所述文本信息为第一标准文本,确定所述第一标准文本以及所述语音信息为第一样本对,并添加至所述目标声纹结果对应的训练集;若未接收到纠正指令,则确定所述文本内容为第二标准文本,则确定所述第二标准文本以及所述语音信息为第二样本对,并添加至所述目标声纹结果对应的训练集。
111.进一步地,所述处理模块902,还用于获取所述语音识别模型对应的训练集中任一样本对,其中,所述样本对包括:样本语音信息以及所述样本语音信息对应的标准文本;所述训练集中任一样本语音信息中提取出的声纹结果相同;将所述样本语音信息输入到所述语音识别模型中,获取所述语音识别模型输出的目标文本;基于所述标准文本以及目标文本,对所述语音识别模型进行优化。
112.在上述各实施例的基础上,本技术实施例还提供了一种电子设备,如图10所示,包括:处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信。
113.所述存储器1003中存储有计算机程序,当所述程序被所述处理器1001执行时,使得所述处理器1001执行如下步骤:
114.接收语音信息,提取所述语音信息的目标声纹结果;
115.根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;
116.对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
117.在一种可能的实施方式中,所述方法还包括:
118.若无法获取语义理解结果,则将所述文本内容发送至云端服务器。
119.在一种可能的实施方式中,所述根据语义理解结果,对设备进行控制包括:
120.根据语义理解结果确定所述语音信息对应的指令;
121.根据所述指令,对对应的设备进行相应的控制。
122.在一种可能的实施方式中,所述通过所述目标语音识别模型,获取所述语音信息对应的文本内容之后,所述方法还包括:
123.控制显示器显示所识别出的所述文本内容。
124.在一种可能的实施方式中,所述控制显示器显示所识别出的所述文本内容之后,所述方法还包括:
125.判断在预设时间段内,是否接收到纠正指令,若接收到纠正指令,且未接收到文本信息,则舍弃所述语音信息;若接收到纠正指令,且接收到文本信息,则确定所述文本信息为第一标准文本,确定所述第一标准文本以及所述语音信息为第一样本对,并添加至所述目标声纹结果对应的训练集;
126.若未接收到纠正指令,则确定所述文本内容为第二标准文本,则确定所述第二标准文本以及所述语音信息为第二样本对,并添加至所述目标声纹结果对应的训练集。
127.在一种可能的实施方式中,所述语音识别模型通过以下方式训练:
128.获取所述语音识别模型对应的训练集中任一样本对,其中,所述样本对包括:样本语音信息以及所述样本语音信息对应的标准文本;所述训练集中任一样本语音信息中提取出的声纹结果相同;
129.将所述样本语音信息输入到所述语音识别模型中,获取所述语音识别模型输出的目标文本;
130.基于所述标准文本以及目标文本,对所述语音识别模型进行优化。
131.上述服务器提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
132.通信接口1002用于上述电子设备与其他设备之间的通信。
133.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
134.上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
135.在上述各实施例的基础上,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
136.接收语音信息,提取所述语音信息的目标声纹结果;
137.根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;
138.对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。
139.在一种可能的实施方式中,所述方法还包括:
140.若无法获取语义理解结果,则将所述文本内容发送至云端服务器。
141.在一种可能的实施方式中,所述根据语义理解结果,对设备进行控制包括:
142.根据语义理解结果确定所述语音信息对应的指令;
143.根据所述指令,对对应的设备进行相应的控制。
144.在一种可能的实施方式中,所述通过所述目标语音识别模型,获取所述语音信息对应的文本内容之后,所述方法还包括:
145.控制显示器显示所识别出的所述文本内容。
146.在一种可能的实施方式中,所述控制显示器显示所识别出的所述文本内容之后,所述方法还包括:
147.判断在预设时间段内,是否接收到纠正指令,若接收到纠正指令,且未接收到文本信息,则舍弃所述语音信息;若接收到纠正指令,且接收到文本信息,则确定所述文本信息为第一标准文本,确定所述第一标准文本以及所述语音信息为第一样本对,并添加至所述
目标声纹结果对应的训练集;
148.若未接收到纠正指令,则确定所述文本内容为第二标准文本,则确定所述第二标准文本以及所述语音信息为第二样本对,并添加至所述目标声纹结果对应的训练集。
149.在一种可能的实施方式中,所述语音识别模型通过以下方式训练:
150.获取所述语音识别模型对应的训练集中任一样本对,其中,所述样本对包括:样本语音信息以及所述样本语音信息对应的标准文本;所述训练集中任一样本语音信息中提取出的声纹结果相同;
151.将所述样本语音信息输入到所述语音识别模型中,获取所述语音识别模型输出的目标文本;
152.基于所述标准文本以及目标文本,对所述语音识别模型进行优化。
153.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
154.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
155.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
156.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
157.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:


1.一种语音处理方法,其特征在于,应用于电子设备,所述方法包括:接收语音信息,获取所述语音信息的目标声纹结果;根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若无法获取语义理解结果,则将所述文本内容发送至云端服务器。3.根据权利要求1所述的方法,其特征在于,所述根据语义理解结果,对设备进行控制包括:根据语义理解结果确定所述语音信息对应的指令;根据所述指令,对对应的设备进行相应的控制。4.根据权利要求1所述的方法,其特征在于,所述通过所述目标语音识别模型,获取所述语音信息对应的文本内容之后,所述方法还包括:控制显示器显示所识别出的所述文本内容。5.根据权利要求4所述的方法,其特征在于,所述控制显示器显示所识别出的所述文本内容之后,所述方法还包括:判断在预设时间段内,是否接收到纠正指令,若接收到纠正指令,且未接收到文本信息,则舍弃所述语音信息;若接收到纠正指令,且接收到文本信息,则确定所述文本信息为第一标准文本,确定所述第一标准文本以及所述语音信息为第一样本对,并添加至所述目标声纹结果对应的训练集;若未接收到纠正指令,则确定所述文本内容为第二标准文本,则确定所述第二标准文本以及所述语音信息为第二样本对,并添加至所述目标声纹结果对应的训练集。6.根据权利要求1或5所述的方法,其特征在于,所述语音识别模型通过以下方式训练:获取所述语音识别模型对应的训练集中任一样本对,其中,所述样本对包括:样本语音信息以及所述样本语音信息对应的标准文本;所述训练集中任一样本语音信息中所确定的声纹结果相同;将所述样本语音信息输入到所述语音识别模型中,获取所述语音识别模型输出的目标文本;基于所述标准文本以及目标文本,对所述语音识别模型进行优化。7.一种语音处理装置,其特征在于,所述装置包括:接收提取模块,用于接收语音信息,提取所述语音信息的目标声纹结果;处理模块,用于根据预先保存的声纹结果与语音识别模型的对应关系,确定所述目标声纹结果对应的目标语音识别模型;通过所述目标语音识别模型,获取所述语音信息对应的文本内容;控制模块,用于对所述文本内容进行语义理解,并根据语义理解结果,对设备进行控制。8.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于若无法获取语义理解结果,则将所述文本内容发送至云端服务器。9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用
于执行存储器中存储的计算机程序时执行权利要求1-6中任一项所述语音处理方法的步骤。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时执行权利要求1-6中任一项所述语音处理方法的步骤。

技术总结


本申请实施例提供了一种语音处理方法、装置、设备及介质,用以解决现有技术中在对语音信息进行处理时,容易造成的语音信息识别不准确的问题。在本申请实施例中,通过提取所接收到的语音信息的目标声纹结果,确定目标声纹结果对应的目标语音识别模型,并且由于在通过该目标语音识别模型识别出语音信息对应的文本内容后,对文本内容进行语义理解,并根据语音理解结果对设备进行控制。由于所确定该目标语音识别模型是,所接收到的语音信息中提取出的目标声纹结果对应的语音识别模型,因此通过该目标语音识别模型可以准确地识别所接收到的语音信息对应的文本内容。语音信息对应的文本内容。语音信息对应的文本内容。


技术研发人员:

高雪松 王月岭 孟卫明 王彦芳 杜兆臣 陈维强

受保护的技术使用者:

海信集团控股股份有限公司

技术研发日:

2021.06.11

技术公布日:

2022/12/12

本文发布于:2024-09-23 01:29:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/35551.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   语音   信息   文本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议