语音数据处理方法、装置及系统与流程

1.本发明涉及计算机技术领域，尤其涉及一种语音数据处理方法、装置及系统。

背景技术：

2.目前各供应商提供的语音系统的语音交互方式主要为一问一答，使用者面向单一的语音系统，所获取的语音回复信息较为单一，无法根据场景、时间、地点及不同的人员实现个性化的交互。
3.为了满足用户的需求，部分语音系统进行了改进，可以实现虚拟语音形象交互，但只能实现简单的形象切换功能，无法做到根据场景及交互者进行智能切换。
4.由于使用者具备年龄多样化、情绪多样化、需求多样化等特征，在不同时间、不同地点对语音系统的交互需求也不尽相同，单一化以及无法进行智能切换的语音交互形式无法满足使用者的需求，容易让使用者产生单调、乏味的使用体验。

技术实现要素：

5.本发明实施例提供一种语音数据处理方法、装置及系统，以解决现有技术中单一化以及无法进行智能切换的语音交互形式无法满足使用者的需求，容易让使用者产生单调、乏味的使用体验的问题。
6.第一方面，本发明实施例提供一种语音数据处理方法，应用于服务器，包括：
7.接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；
8.获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；
9.确定与所述语音信息对应的响应信息；
10.根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。
11.第二方面，本发明实施例提供一种语音数据处理方法，应用于客户端，包括：
12.确定第一虚拟语音形象信息；
13.在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征；
14.接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述
目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。
15.第三方面，本发明实施例提供一种语音数据处理方法，应用于虚拟语音形象平台，包括：
16.向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息；
17.其中，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。
18.第四方面，本发明实施例提供一种语音数据处理装置，应用于服务器，包括：
19.第一接收模块，用于接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；
20.第一获取模块，用于获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；
21.第一确定模块，用于确定与所述语音信息对应的响应信息；
22.第一处理模块，用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。
23.第五方面，本发明实施例提供一种语音数据处理装置，应用于客户端，包括：
24.第二确定模块，用于确定第一虚拟语音形象信息；
25.第一上报模块，用于在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征；
26.第二处理模块，用于接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。
27.第六方面，本发明实施例提供一种语音数据处理装置，应用于虚拟语音形象平台，包括：
28.第一发送模块，用于向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息；
29.其中，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。
30.第七方面，本发明实施例提供一种语音数据处理系统，包括：
31.客户端、服务器以及虚拟语音形象平台；
32.所述客户端用于获取用户输入的语音信息，将所述语音信息和特征信息上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；
33.所述服务器用于获取与所述语音信息匹配的目标信息、确定与所述语音信息对应的响应信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述服务器还用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端；所述目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；
34.所述虚拟语音形象平台用于向所述服务器发送所述语音形象数据集合，或者，向所述服务器发送所述目标信息。
35.第八方面，本发明实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面、第二方面或者第三方面所述的语音数据处理方法的步骤。
36.第九方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面、第二方面或者第三方面所述的语音数据处理方法的步骤。
37.本发明实施例的技术方案，通过客户端向服务器上报语音信息和特征信息，服务器根据语音信息确定客户端的交互意图，根据交互意图和特征信息在语音形象数据集合中确定包括语音信息对应的目标交互方式以及目标虚拟语音形象信息的目标信息，或者将交互意图和特征信息发送至虚拟语音形象平台，获取虚拟语音形象平台反馈的目标信息，服务器在确定与语音信息对应的响应信息之后，根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端，可以在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
附图说明
38.图1表示本发明实施例应用于服务器的语音数据处理方法示意图；
39.图2表示本发明实施例应用于客户端的语音数据处理方法示意图；
40.图3表示本发明实施例应用于虚拟语音形象平台的语音数据处理方法示意图；
41.图4表示本发明实施例虚拟语音形象平台的场景视图的示意图；
42.图5表示本发明实施例应用于服务器的语音数据处理装置示意图；
43.图6表示本发明实施例应用于客户端的语音数据处理装置示意图；
44.图7表示本发明实施例应用于虚拟语音形象平台的语音数据处理装置示意图；
45.图8表示本发明实施例语音数据处理系统示意图；
46.图9表示本发明实施例服务器、客户端以及虚拟语音形象平台交互的示意图；
47.图10表示本发明实施例电子设备示意图。
具体实施方式
48.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
49.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
50.在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
51.本发明实施例提供一种语音数据处理方法，应用于服务器，如图1所示，包括：
52.步骤101、接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征。
53.本发明实施例应用于服务器侧的语音数据处理方法中，服务器与客户端和虚拟语音形象平台交互，这里的客户端可以为终端应用，且本发明可应用于不同领域的语音交互，如金融领域(如自助语音服务)、银行领域(如自助语音服务)、车载通信领域等，针对车载通信而言，客户端可以为车机端。本发明中的具体实例以应用于车载通信领域为例对语音数据处理方法进行介绍。
54.服务器首先接收客户端上报的信息，其中客户端上报的信息可以包括语音信息和特征信息。这里的特征信息可以包括客户端确定的第一虚拟语音形象信息以及语音信息所对应的语音特征。其中，第一虚拟语音形象信息可以为默认虚拟语音形象信息或者为客户端在多个虚拟语音形象信息中确定的一虚拟语音形象信息。不同的虚拟语音形象信息，其展现出的沟通方式、情绪、音、语速等有所区别，即，不同的虚拟语音形象信息作出应答的方式不同。如，多个虚拟语音形象信息分别为卡通人物a对应的虚拟语音形象信息、公众人物b对应的虚拟语音形象信息、公众人物c对应的虚拟语音形象信息。语音特征包括但不限
于音、音量、语速、性别、年龄、情绪等特征。
55.步骤102、获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定。
56.服务器在接收客户端上报的语音信息和特征信息之后，可以获取语音信息对应的交互意图，如基于语音识别确定交互意图。在获取交互意图之后，可以基于交互意图以及特征信息在语音形象数据集合中匹配到目标信息，语音形象数据集合由虚拟语音形象平台提供。或者，将交互意图以及特征信息发送至虚拟语音形象平台，由虚拟语音形象平台根据交互意图和特征信息在语音形象数据集合中确定目标信息，然后接收虚拟语音形象平台发送的目标信息。即，目标信息可以由服务器确定，也可以由虚拟语音形象平台确定后发送至服务器。
57.步骤103、确定与所述语音信息对应的响应信息。
58.服务器在获取语音信息之后，可以通过分析语音信息对应的内容，确定针对语音信息进行反馈的响应信息。如，客户端(车载通信应用或者车机端)上报语音信息“地点a附近有什么酒店”，服务器通过分析语音信息对应的内容，确定需要为客户端反馈地点a附近的酒店，则通过调用相应的应用查到地点a附近的酒店，然后确定语音信息对应的响应信息，如“地点a附近有酒店a、酒店b以及酒店c”。在确定响应信息之后，可以执行步骤104。
59.步骤104、根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。
60.服务器在获取目标交互方式、目标虚拟语音形象信息以及响应信息之后，可以将响应信息与目标交互方式进行组合生成回复信息，将响应信息与目标交互方式进行组合可以理解为将响应信息填充至目标交互方式对应的话术中。如，客户端(车载通信应用或者车机端)上报语音信息“地点a附近有什么酒店”，服务器确定响应信息“地点a附近有酒店a、酒店b以及酒店c”，且服务器确定的目标交互方式为“为您播报地点a附近的酒店情况”，则通过将目标交互方式与响应信息进行组合，可以得到回复信息“为您播报地点a附近的酒店情况：地点a附近有酒店a、酒店b以及酒店c”。
61.在生成回复信息之后，可以基于目标虚拟语音形象信息对回复信息进行语音处理，将处理后的回复信息反馈至客户端，以实现在客户端进行播报。其中，根据目标虚拟语音形象信息对回复信息进行语音处理，即采用目标虚拟语音形象信息对回复信息进行语音包装，以生成经过语音处理后的回复信息。如，采用目标虚拟语音形象信息(公众人物a的声音、较慢语速、温柔情绪、中等音量、青年交互模式)对回复信息(为您播报地点a附近的酒店情况：地点a附近有酒店a、酒店b以及酒店c)进行语音处理，则在客户端可以实现公众人物a以较慢语速、温柔情绪、中等音量、青年人交互模式播放如下内容“为您播报地点a附近的酒店情况：地点a附近有酒店a、酒店b以及酒店c”。
62.本发明上述实施过程，通过接收客户端上报的语音信息和特征信息，根据语音信
息确定客户端的交互意图，根据交互意图和特征信息在语音形象数据集合中确定包括语音信息对应的目标交互方式以及目标虚拟语音形象信息的目标信息，或者将交互意图和特征信息发送至虚拟语音形象平台，获取虚拟语音形象平台反馈的目标信息，在确定与语音信息对应的响应信息之后，根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端，可以在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
63.在本发明一可选实施例中，所述服务器集成有软件开发工具包sdk，所述获取与所述语音信息匹配的目标信息，包括：
64.通过所述sdk在所述语音形象数据集合中基于所述交互意图和所述特征信息确定所述目标交互方式、基于所述特征信息确定所述目标虚拟语音形象信息；
65.其中，所述sdk集成所述虚拟语音形象平台推送的所述语音形象数据集合。
66.服务器可集成有软件开发工具包(software development kit，sdk)，其中，sdk集成有虚拟语音形象平台推送的语音形象数据集合，针对服务器集成sdk的情况，可以通过sdk在语音形象数据集合中进行匹配确定目标交互方式以及目标虚拟语音形象信息。
67.在通过sdk确定目标交互方式以及目标虚拟语音形象信息时，可以为：通过sdk，在语音形象数据集合中基于交互意图和特征信息确定目标交互方式，并在语音形象数据集合中基于特征信息确定目标虚拟语音形象信息。在基于交互意图和特征信息确定目标交互方式时，可以基于特征信息中的第一虚拟语音形象信息查到对应的虚拟语音形象，基于交互意图在该虚拟语音形象下查交互意图所对应的至少一个交互方式，然后基于特征信息中的语音特征在至少一个交互方式中确定目标交互方式。在基于特征信息确定目标虚拟语音形象信息时，可以在基于特征信息中的第一虚拟语音形象信息查到对应的虚拟语音形象、且确定目标交互方式之后，根据语音特征在目标交互方式可支持的语音回复特征(可包括音量、语速、情绪、不同人对应的交互模式等)中确定目标语音回复特征(如中等音量、快语速、活泼情绪、青年交互模式)，将目标语音回复特征与基于特征信息中的第一虚拟语音形象信息查到的虚拟语音形象进行组合，生成目标虚拟语音形象信息。其中，在基于特征信息确定目标虚拟语音形象信息时，也可以直接在语音形象数据集合中进行匹配查以获取目标虚拟语音形象信息，如基于第一虚拟语音形象信息查到虚拟语音形象、基于语音特征查到该虚拟语音形象对应的目标语音回复特征。下面通过一具体实例对确定目标交互方式以及目标虚拟语音形象信息的过程进行阐述。例如，客户端向服务器发送语音信息“我要打电话给张三”以及特征信息，特征信息所包括的第一虚拟语音形象信息为卡通人物b以正常情绪快速对话的形象，所包括的语音信息对应的语音特征为低音量、慢语速、男童音、情绪活泼，语音信息对应的交互意图为打电话，则可以根据第一虚拟语音形象信息在语音形象数据集合中确定卡通人物b、根据打电话的交互意图确定卡通人物b针对打电话意图对应的至少一种交互方式，基于语音特征在至少一个交互方式中确定目标交互方式，如目标交互方式对应的话术为正在为您。然后根据语音特征在目标交互方式可支持的语音回复特征(可包括音量、语速、情绪、不同人对应的交互模式等)中确定目标语音回复特征(如低音量、慢语速、温柔情绪、儿童交互模式)，将目标语音回复特征与查到的虚拟语音形象进行组合，生成目标虚拟语音形象信息(卡通人物b的声音、慢语速、低音量、
温柔情绪、儿童交互模式)。
68.本发明上述实施过程，服务器通过集成的sdk获取虚拟语音形象平台推送的语音形象数据集合，然后由sdk基于语音信息对应的交互意图和特征信息确定目标交互方式和目标虚拟语音形象信息，可以实现在服务器端获取目标信息，以减少与虚拟语音形象平台的交互，在服务器端完成目标信息的获取，以生成回复信息并对其进行语音处理后发送至客户端。
69.在本发明一可选实施例中，该方法还包括：
70.在所述服务器启动之后，通过所述sdk在所述虚拟语音形象平台拉取所述语音形象数据集合；
71.其中，在所述语音形象数据集合中的第一数据发生更新的情况下，通过所述sdk接收所述虚拟语音形象平台根据第一触发条件发送的更新后的所述第一数据。
72.服务器在启动之后，可以通过集成的sdk在虚拟语音形象平台拉取语音形象数据集合，具体可以为：向虚拟语音形象平台发送拉取指令，由虚拟语音形象平台在接收到拉取指令后进行认证，在认证通过的情况下，向服务器的sdk推送语音形象数据集合，以使得服务器可以通过sdk拉取语音形象数据集合。其中，服务器通过sdk所获取的语音形象数据集合为虚拟语音形象平台对应的最新语音形象数据集合。
73.在虚拟语音形象平台对应的语音形象数据集合中的第一数据发生更新的情况下，虚拟语音形象平台可以根据第一触发条件向服务器集成的sdk发送更新后的第一数据，服务器通过集成的sdk获取更新后的第一数据，以实现sdk内集成的数据的更新，保证sdk中的数据与虚拟语音形象平台对应的语音形象数据集合中数据的一致性，以便于服务器集成的sdk中存储最新数据，进而可以在服务器端基于最新数据获取目标信息。
74.本发明上述实施过程，在服务器启动后，通过集成的sdk获取语音形象数据集合，以保证可以在服务器端进行语音形象数据集合的存储，以便后续可以在接收到客户端上报的信息之后，直接在语音形象数据集合中进行匹配以获取目标信息，通过接收更新后的数据可以保证服务器集成的sdk存储最新的数据。
75.在本发明一可选实施例中，所述获取与所述语音信息匹配的目标信息，包括：
76.基于与所述虚拟语音形象平台的通信，接收所述虚拟语音形象平台发送的所述目标信息；
77.其中，所述目标信息由所述虚拟语音形象平台基于所述服务器发送的所述交互意图和所述特征信息在所述语音形象数据集合中确定。
78.服务器在获取语音信息匹配的目标信息时，可以通过与虚拟语音形象平台之间的通信，获取虚拟语音形象平台所发送的目标信息，此时，目标信息由虚拟语音形象平台基于服务器发送的语音信息对应的交互意图和特征信息，在语音形象数据集合中确定。即，虚拟语音形象平台首先获取服务器发送的语音信息对应的交互意图和特征信息，进而确定目标信息，然后将目标信息发送至服务器。此时可以基于服务器与虚拟语音形象平台的两次交互，实现服务器获取目标信息。
79.本发明上述实施过程，通过向虚拟语音形象平台发送语音信息对应的交互意图和特征信息，由虚拟语音形象平台根据交互意图和特征信息确定目标信息并反馈至服务器，可以使得服务器基于与虚拟语音形象平台的交互，获取目标信息。
80.在本发明一可选实施例中，所述服务器集成至少一个技能模块，所述确定与所述语音信息对应的响应信息，包括：
81.根据所述语音信息对应的交互意图，在所述至少一个技能模块中确定目标技能模块；
82.通过所述目标技能模块获取所述语音信息对应的所述响应信息。
83.服务器集成有至少一个技能模块，不同的技能模块可实现不同的功能，进而可以反馈不同的响应信息。服务器在获取语音信息之后，可以获取语音信息对应的交互意向，基于语音信息对应的交互意向在服务器集成的至少一个技能模块中确定目标技能模块，然后通过目标技能模块获取语音信息对应的响应信息。
84.例如，语音信息对应的交互意图为打电话，基于打电话的交互意图查到目标技能模块，由目标技能模块基于语音信息获取打电话的对象，此时语音信息对应的响应信息为客户端打电话的对象，其中目标技能模块可以控制客户端打电话。或者，语音信息对应的交互意图为查地点a附近的酒店，基于查酒店的交互意图查到目标技能模块，基于目标技能模块获取地点a附近的酒店a、酒店b以及酒店c，此时语音信息对应的响应信息为地点a附近有酒店a、酒店b以及酒店c。
85.本发明上述实施过程，通过在至少一个技能模块中确定目标技能模块，可以基于目标技能模块获取语音信息对应的响应信息，进而可以为后续确定语音信息对应的回复信息提供保障。
86.以上为本发明实施例提供的应用于服务器侧的语音数据处理方法，通过接收客户端上报的语音信息和特征信息，根据语音信息确定客户端的交互意图，根据交互意图和特征信息在语音形象数据集合中确定包括语音信息对应的目标交互方式以及目标虚拟语音形象信息的目标信息，或者将交互意图和特征信息发送至虚拟语音形象平台，获取虚拟语音形象平台反馈的目标信息，在确定与语音信息对应的响应信息之后，根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端，可以在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
87.进一步的，通过在服务器端获取目标信息，可以减少与虚拟语音形象平台的交互；通过由虚拟语音形象平台确定目标信息，可以基于与虚拟语音形象平台之间的交互获取目标信息。
88.本发明实施例还提供一种应用于客户端的语音数据处理方法，应用于客户端，参见图2所示，包括：
89.步骤201、确定第一虚拟语音形象信息。
90.客户端首先确定第一虚拟语音形象信息，第一虚拟语音形象信息可以为默认虚拟语音形象信息或者为客户端在多个虚拟语音形象信息中确定的一虚拟语音形象信息。不同的虚拟语音形象信息，其展现出的沟通方式、情绪、音、语速等有所区别，即，不同的虚拟语音形象信息作出应答的方式不同。
91.步骤202、在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征。
92.客户端可以接收用户输入的语音信息，在获取语音信息的情况下，将语音信息以及特征信息上报至服务器，这里的特征信息包括客户端确定的第一虚拟语音形象信息以及语音信息所对应的语音特征。
93.步骤203、接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。
94.在向服务器上报语音信息和特征信息之后，可以由服务器根据语音信息确定交互意图，根据交互意图和特征信息在语音形象数据集合中确定目标信息，其中目标信息包括目标交互方式以及目标虚拟语音形象信息。或者，可以由服务器在确定交互意图之后，将交互意图以及特征信息发送至虚拟语音形象平台，由虚拟语音形象平台基于交互意图以及特征信息在语音形象数据集合中确定目标信息，并反馈至服务器。服务器还可以确定与语音信息对应的响应信息，服务器在获取目标信息、确定响应信息之后，可以根据目标交互方式和响应信息确定回复信息，并基于目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端，客户端接收经过处理后的回复信息之后进行播放。
95.本发明上述实施过程，首先确定第一虚拟语音形象信息，在获取用户输入的语音信息的情况下，向服务器上报语音信息和包括第一虚拟语音形象信息以及语音信息对应的语音特征的特征信息，由服务器获取包括目标交互方式以及目标虚拟语音形象信息的目标信息，并根据目标交互方式和语音信息对应的响应信息确定回复信息，接收服务器发送的基于目标虚拟语音形象信息处理后的回复信息并播放，可以实现在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
96.在本发明一可选实施例中，所述确定第一虚拟语音形象信息，包括：
97.向所述虚拟语音形象平台发送携带客户端有效标识的请求信息；
98.接收所述虚拟语音形象平台基于所述请求信息反馈的与所述客户端有效标识对应的虚拟语音形象列表，所述虚拟语音形象列表包括至少一个虚拟语音形象信息；
99.在所述虚拟语音形象列表中确定所述第一虚拟语音形象信息；
100.其中，所述虚拟语音形象列表基于所述客户端有效标识在所述语音形象数据集合中获取。
101.客户端在确定第一虚拟语音形象信息时，可以向虚拟语音形象平台发送携带客户端有效标识的请求信息，由虚拟语音形象平台基于请求信息在语音形象数据集合中确定与客户端有效标识对应的虚拟语音形象列表，虚拟语音形象列表包括至少一个虚拟语音形象信息。其中，客户端有效标识可以用于区分不同的客户端，即可以区分安装在不同设备上的客户端，如，可以区分不同的车机端。虚拟语音形象平台可以根据预先配置的客户端与虚拟语音形象列表的对应关系，确定对应的虚拟语音形象列表。客户端可以接收虚拟语音形象平台反馈的虚拟语音形象列表，并在虚拟语音形象列表中确定第一虚拟语音形象信息。
102.其中，所述在所述虚拟语音形象列表中确定所述第一虚拟语音形象信息，包括以
下方案其中之一：
103.将所述虚拟语音形象列表中对应于预设序号的所述虚拟语音形象信息确定为所述第一虚拟语音形象信息，所述虚拟语音形象列表中的每个所述虚拟语音形象信息分别对应一序号；
104.接收用户在所述虚拟语音形象列表中的选择输入，确定选中的所述虚拟语音形象信息为所述第一虚拟语音形象信息。
105.虚拟语音形象列表中的每个虚拟语音形象信息分别对应一序号，在虚拟语音形象列表中确定第一虚拟语音形象信息时，可以将预设序号对应的虚拟语音形象信息确定为第一虚拟语音形象信息，如，将序号1对应的虚拟语音形象信息确定为第一虚拟语音形象信息。
106.在确定第一虚拟语音形象信息时，还可以接收用户在虚拟语音形象列表中所执行的选择输入，响应于用户的选择输入，将选中的虚拟语音形象信息确定为第一虚拟语音形象信息。如，虚拟语音形象列表中包括5个虚拟语音形象信息，接收用户对5个虚拟语音形象信息中某个虚拟语音形象信息的点击(即为在虚拟语音形象列表中所执行的选择输入)，根据用户的点击，确定接收点击的虚拟语音形象信息为第一虚拟语音形象信息。
107.本发明上述实施过程，通过向虚拟语音形象平台发送携带客户端有效标识的请求信息，可以获取对应的虚拟语音形象列表，保证虚拟语音形象列表获取的准确性，通过基于预设选择规则或者用户的干预，在虚拟语音形象列表中选择出第一虚拟语音形象信息，丰富了第一虚拟语音形象信息的确定方式。
108.在本发明一可选实施例中，在获取所述语音信息且与所述服务器中断连接的情况下，还包括：
109.基于所述第一虚拟语音形象信息对预设内容进行语音处理后进行播放。
110.客户端在接收到用户输入的语音信息之后，若客户端与服务器中断连接，可以将存储的预设内容采用第一虚拟语音形象信息进行语音处理后进行播放，以避免客户端与服务器中断连接时无法针对语音信息进行快速响应的问题。且通过采用第一虚拟语音形象信息对预设内容进行语音处理，可以实现以用户选定的虚拟语音形象进行内容播放，满足用户的需求。
111.其中，客户端可以存储至少一个针对任意语音信息进行响应的内容，如“请您再说一次”、“没有明白您的意思，请您说清楚一点”等。预设内容可以为至少一个内容中的任意一个，或者为至少一个内容中使用次数较多的一个。
112.本发明上述实施过程，在客户端与服务器中断连接时，通过基于第一虚拟语音形象信息对预设内容进行语音处理并播放，可以避免客户端与服务器中断连接时无法针对语音信息进行快速响应的问题，且可以实现以用户选定的虚拟语音形象进行播放，满足用户的需求。
113.在本发明一可选实施例中，在监测到第二触发条件的情况下，向所述虚拟语音形象平台上报至少一条用户行为信息，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项。
114.客户端在监测到第二触发条件的情况下，可以向虚拟语音形象平台上报至少一条用户行为信息，其中用户行为信息可以在包括特征信息的基础上，还可以包括时间信息和/
或地理位置信息，通过向虚拟语音形象平台上报用户行为信息，可以使得虚拟语音形象平台根据用户行为信息对语音形象数据集合进行数据更新。其中，第二触发条件可以为与上次上报的间隔时长达到预设时长，和/或，所累积的用户行为信息达到预设数量。当然第二触发条件并不局限于此。
115.本发明上述实施过程，通过基于第二触发条件，向虚拟语音形象平台上报用户行为信息，可以便于虚拟语音形象平台根据用户行为信息对语音形象数据集合进行数据更新。
116.以上为本发明实施例提供的应用于客户端的语音数据处理方法，通过确定第一虚拟语音形象信息，在获取用户输入的语音信息的情况下，向服务器上报语音信息和包括第一虚拟语音形象信息以及语音信息对应的语音特征的特征信息，由服务器获取包括目标交互方式以及目标虚拟语音形象信息的目标信息，并根据目标交互方式和语音信息对应的响应信息确定回复信息，接收服务器发送的基于目标虚拟语音形象信息处理后的回复信息并播放，可以实现在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
117.本发明实施例还提供一种语音数据处理方法，应用于虚拟语音形象平台，如图3所示，包括：
118.步骤301、向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。
119.虚拟语音形象平台包括语音形象数据集合，虚拟语音形象平台可以向服务器发送语音形象数据集合，以使得服务器可以在接收到客户端上报的语音信息和特征信息之后，获取语音信息对应的交互意图，基于交互意图以及特征信息在语音形象数据集合中匹配到目标信息。虚拟语音形象平台还可以获取服务器上报的交互意图以及特征信息，根据交互意图和特征信息在语音形象数据集合中确定目标信息，然后反馈至服务器。
120.本发明上述实施过程，通过向服务器发送语音形象数据集合，可以便于服务器在语音形象数据集合中确定目标信息，通过接收服务器发送的语音信息对应的交互意图和特征信息，可以在语音形象数据集合中确定目标信息反馈至服务器，以使得服务器在确定目标信息之后，向客户端反馈与语音信息对应的进行语音处理后的回复信息。
121.在本发明一可选实施例中，该方法还包括：
122.接收所述客户端发送的携带客户端有效标识的请求信息；
123.根据所述客户端有效标识在所述语音形象数据集合中获取与所述客户端有效标识对应的包括至少一个虚拟语音形象信息的虚拟语音形象列表；
124.响应于所述请求信息，向所述客户端反馈所述客户端有效标识对应的所述虚拟语音形象列表；
125.其中，所述第一虚拟语音形象信息由所述客户端在所述虚拟语音形象列表中确定。
126.客户端在确定第一虚拟语音形象信息时，可以向虚拟语音形象平台发送携带客户端有效标识的请求信息，虚拟语音形象平台在接收到请求信息之后，可以基于请求信息，在语音形象数据集合中确定与客户端有效标识对应的虚拟语音形象列表，虚拟语音形象列表包括至少一个虚拟语音形象信息。其中，客户端有效标识可以用于区分不同的客户端，即可以区分安装在不同设备上的客户端，如，可以区分不同的车机端。虚拟语音形象平台可以根据预先配置的客户端与虚拟语音形象列表的对应关系，确定对应的虚拟语音形象列表并反馈至客户端，客户端接收虚拟语音形象平台反馈的虚拟语音形象列表后，可以在虚拟语音形象列表中确定第一虚拟语音形象信息。
127.本发明上述实施过程，通过接收客户端发送的携带客户端有效标识的请求信息，可以根据客户端有效标识获取对应的虚拟语音形象列表并反馈至客户端，保证客户端获取虚拟语音形象列表的准确性。
128.在本发明一可选实施例中，所述向服务器发送语音形象数据集合，包括：
129.接收所述服务器在启动后通过软件开发工具包sdk发送的拉取指令；
130.响应于所述拉取指令，向所述sdk推送所述语音形象数据集合；
131.其中，在所述语音形象数据集合中的第一数据发生更新的情况下，根据第一触发条件向所述sdk发送更新后的所述第一数据。
132.服务器集成有sdk，虚拟语音形象平台可以在服务器启动后，接收服务器通过sdk发送的拉取指令，虚拟语音形象平台在接收到拉取指令后进行认证，在认证通过的情况下，向服务器的sdk推送语音形象数据集合，以使得服务器可以通过sdk拉取语音形象数据集合。其中，服务器通过sdk所获取的语音形象数据集合为虚拟语音形象平台对应的最新语音形象数据集合。
133.在虚拟语音形象平台对应的语音形象数据集合中的第一数据发生更新的情况下，可以根据第一触发条件向服务器集成的sdk发送更新后的第一数据，服务器通过集成的sdk获取更新后的第一数据，以实现sdk内集成的数据的更新，保证sdk中的数据与虚拟语音形象平台对应的语音形象数据集合中数据的一致性，以便于服务器集成的sdk中存储最新数据，进而可以在服务器端基于最新数据获取目标信息。
134.其中，第一触发条件可以为目标人员(虚拟语音形象平台对应的管理人员)对发布控件的输入，和/或，更新的数据达到特定数量。如，在接收到目标人员对发布控件的输入时，触发已更新的数据的同步。
135.本发明上述实施过程，在服务器启动后，接收拉取指令，响应于拉取指令向服务器反馈语音形象数据集合，以保证可以在服务器端进行语音形象数据集合的存储，以便服务器后续可以在接收到客户端上报的信息之后，直接在语音形象数据集合中进行匹配以获取目标信息，通过向服务器反馈更新后的数据，可以保证服务器集成的sdk存储最新的数据。
136.在本发明一可选实施例中，该方法还包括：
137.接收所述客户端根据第二触发条件上报的至少一条用户行为信息，根据所述至少一条用户行为信息更新所述语音形象数据集合，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项；
138.和/或
139.根据目标人员在编辑页面的输入，更新所述语音形象数据集合。
140.虚拟语音形象平台可以接收客户端根据第二触发条件所上报的至少一条用户行为信息，用户行为信息可以在包括特征信息的基础上，还可以包括时间信息和/或地理位置信息，通过接收客户端上报的用户行为信息，可以根据用户行为信息对语音形象数据集合进行数据更新。例如，客户端所上传的用户行为信息包括特征信息以及对应的时间信息(如凌晨1点)，虚拟语音形象平台可以根据特征信息丰富语音形象数据集合中与虚拟语音形象关联的数据，同时根据时间信息生成问候语“太晚了，要早点休息哦！”，将问候语添加至语音形象数据集合中。若后续客户端向服务器上报语音信息和特征信息的时间为凌晨1点，服务器可以在反馈回复信息的同时，在语音形象数据集合中获取对应的问候语并在回复信息中增加对应的问候语。或者，在虚拟语音形象平台向服务器反馈目标信息时，携带对应的问候语，以使得服务器反馈至客户端。针对用户行为信息包括地理位置信息的情况而言，客户端所上传的用户行为信息包括特征信息以及对应的地点信息(地点b)，虚拟语音形象平台可以根据特征信息丰富语音形象数据集合中与虚拟语音形象关联的数据，根据地点信息生成对应的提示用语(如已到达地点b)，将提示用语添加至语音形象数据集合中。若后续客户端向服务器上报语音信息和特征信息的地点为地点b，服务器可以在反馈回复信息的同时，在语音形象数据集合中获取对应的提示用语并在回复信息中增加对应的提示用语。或者由虚拟语音形象平台向服务器反馈目标信息时，携带对应的提示用语。
141.虚拟语音形象平台还可以接收目标人员在编辑页面的输入，以实现根据管理人员的干预对语音形象数据集合进行数据更新，以在自动更新的基础上增加手动更新的方式。参见图4所示，为虚拟语音形象平台对应的打电话场景的场景视图的示意(场景视图还可以包括其他内容，图4中未示意)，根据目标人员对更新控件的输入，可以对场景视图中的内容进行更新，如更改默认话术的内容，添加虚拟语音形象，以实现对语音形象数据集合进行数据更新。
142.本发明上述实施过程，可以接收客户端上报的用户行为信息，对语音形象数据集合进行数据更新，和/或，根据目标人员的干预对语音形象数据集合进行数据更新，丰富了数据更新方式。
143.以上为本发明实施例提供的应用于虚拟语音形象平台的语音数据处理方法，通过向服务器发送语音形象数据集合，可以便于服务器在语音形象数据集合中确定目标信息，通过接收服务器发送的语音信息对应的交互意图和特征信息，可以在语音形象数据集合中确定目标信息并反馈至服务器，以使得服务器在确定目标信息之后，向客户端反馈与语音信息对应的进行语音处理后的回复信息。
144.本发明实施例提供一种语音数据处理装置，应用于服务器，如图5所示，包括：
145.第一接收模块501，用于接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；
146.第一获取模块502，用于获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据
集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；
147.第一确定模块503，用于确定与所述语音信息对应的响应信息；
148.第一处理模块504，用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。
149.可选的，所述服务器集成有软件开发工具包sdk，所述第一获取模块进一步用于：
150.通过所述sdk在所述语音形象数据集合中基于所述交互意图和所述特征信息确定所述目标交互方式、基于所述特征信息确定所述目标虚拟语音形象信息；
151.其中，所述sdk集成所述虚拟语音形象平台推送的所述语音形象数据集合。
152.可选的，该装置还包括：
153.拉取模块，用于在所述服务器启动之后，通过所述sdk在所述虚拟语音形象平台拉取所述语音形象数据集合；
154.其中，在所述语音形象数据集合中的第一数据发生更新的情况下，通过所述sdk接收所述虚拟语音形象平台根据第一触发条件发送的更新后的所述第一数据。
155.可选的，所述第一获取模块进一步用于：
156.基于与所述虚拟语音形象平台的通信，接收所述虚拟语音形象平台发送的所述目标信息；
157.其中，所述目标信息由所述虚拟语音形象平台基于所述服务器发送的所述交互意图和所述特征信息在所述语音形象数据集合中确定。
158.可选的，所述服务器集成至少一个技能模块，所述第一确定模块进一步用于：
159.根据所述语音信息对应的交互意图，在所述至少一个技能模块中确定目标技能模块；
160.通过所述目标技能模块获取所述语音信息对应的所述响应信息。
161.本发明实施例还提供一种语音数据处理装置，应用于客户端，如图6所示，包括：
162.第二确定模块601，用于确定第一虚拟语音形象信息；
163.第一上报模块602，用于在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征；
164.第二处理模块603，用于接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。
165.可选的，所述第二确定模块包括：
166.发送子模块，用于向所述虚拟语音形象平台发送携带客户端有效标识的请求信息；
167.接收子模块，用于接收所述虚拟语音形象平台基于所述请求信息反馈的与所述客
户端有效标识对应的虚拟语音形象列表，所述虚拟语音形象列表包括至少一个虚拟语音形象信息；
168.确定子模块，用于在所述虚拟语音形象列表中确定所述第一虚拟语音形象信息。
169.其中，所述虚拟语音形象列表基于所述客户端有效标识在所述语音形象数据集合中获取。
170.可选的，所述确定子模块包括以下单元其中之一：
171.第一单元，用于将所述虚拟语音形象列表中对应于预设序号的所述虚拟语音形象信息确定为所述第一虚拟语音形象信息，所述虚拟语音形象列表中的每个所述虚拟语音形象信息分别对应一序号；
172.第二单元，用于接收用户在所述虚拟语音形象列表中的选择输入，确定选中的所述虚拟语音形象信息为所述第一虚拟语音形象信息。
173.可选的，在获取所述语音信息且与所述服务器中断连接的情况下，该装置还包括：
174.第三处理模块，用于基于所述第一虚拟语音形象信息对预设内容进行语音处理后进行播放。
175.可选的，该装置还包括：
176.第二上报模块，用于在监测到第二触发条件的情况下，向所述虚拟语音形象平台上报至少一条用户行为信息，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项。
177.本发明还提供一种语音数据处理装置，应用于虚拟语音形象平台，如图7所示，包括：
178.第一发送模块701，用于向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息；
179.其中，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。
180.可选的，该装置还包括：
181.第二接收模块，用于接收所述客户端发送的携带客户端有效标识的请求信息；
182.第二获取模块，用于根据所述客户端有效标识在所述语音形象数据集合中获取与所述客户端有效标识对应的包括至少一个虚拟语音形象信息的虚拟语音形象列表；
183.第二发送模块，用于响应于所述请求信息，向所述客户端反馈所述客户端有效标识对应的所述虚拟语音形象列表；
184.其中，所述第一虚拟语音形象信息由所述客户端在所述虚拟语音形象列表中确定。
185.可选的，所述第一发送模块进一步用于：
186.接收所述服务器在启动后通过软件开发工具包sdk发送的拉取指令；
187.响应于所述拉取指令，向所述sdk推送所述语音形象数据集合；
188.其中，在所述语音形象数据集合中的第一数据发生更新的情况下，根据第一触发条件向所述sdk发送更新后的所述第一数据。
189.可选的，该装置还包括：
190.第一更新模块，用于接收所述客户端根据第二触发条件上报的至少一条用户行为信息，根据所述至少一条用户行为信息更新所述语音形象数据集合，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项；和/或
191.第二更新模块，用于根据目标人员在编辑页面的输入，更新所述语音形象数据集合。
192.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
193.本发明实施例还提供一种语音数据处理系统，如图8所示，语音数据处理系统800包括：
194.客户端801、服务器802以及虚拟语音形象平台803；
195.所述客户端801用于获取用户输入的语音信息，将所述语音信息和特征信息上报至所述服务器802，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；
196.所述服务器802用于获取与所述语音信息匹配的目标信息、确定与所述语音信息对应的响应信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述服务器802还用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端801；所述目标信息由所述服务器802或者所述虚拟语音形象平台803基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器802接收所述虚拟语音形象平台803推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器802向所述虚拟语音形象平台803发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台803发送的所述目标信息，所述交互意图由所述服务器确定；
197.所述虚拟语音形象平台803用于向所述服务器802发送所述语音形象数据集合，或者，向所述服务器802发送所述目标信息。
198.客户端、服务器以及虚拟语音形象平台的交互流程可参见图9所示：
199.步骤901、客户端向服务器上报语音信息以及特征信息。
200.客户端在获取用户输入的语音信息之后，向服务器上报语音信息以及包括第一虚拟语音形象信息以及语音信息对应的语音特征的特征信息。
201.步骤902、服务器接收语音信息以及特征信息，确定语音信息对应的交互意图，基于交互意图以及特征信息在语音形象数据集合中确定目标信息，或者，将交互意图以及特征信息发送至虚拟语音形象平台，接收虚拟语音形象平台反馈的目标信息，目标信息包括语音信息对应的目标交互方式以及目标虚拟语音形象信息。
202.服务器可以基于交互意图以及特征信息在语音形象数据集合中匹配到目标信息，语音形象数据集合由虚拟语音形象平台提供。或者，服务器将交互意图以及特征信息发送至虚拟语音形象平台，由虚拟语音形象平台根据交互意图和特征信息在语音形象数据集合中确定目标信息，然后接收虚拟语音形象平台发送的目标信息。即，目标信息可以由服务器
确定，也可以由虚拟语音形象平台确定后发送至服务器。
203.步骤903、服务器确定与语音信息对应的响应信息。
204.服务器在获取语音信息之后，可以通过分析语音信息对应的内容，确定针对语音信息进行反馈的响应信息。
205.步骤904、服务器根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端。
206.在生成回复信息之后，可以基于目标虚拟语音形象信息对回复信息进行语音处理，在对回复信息进行语音处理时，即采用目标虚拟语音形象信息对回复信息进行语音包装，以生成经过语音处理后的回复信息。
207.步骤905、客户端接收经过语音处理后的回复信息并播放。
208.以上为客户端、服务器以及虚拟语音形象平台交互的具体情况。其中，针对客户端而言，还可以与虚拟语音形象平台连接(参见图8)，向虚拟语音形象平台请求对应的虚拟语音形象列表，在虚拟语音形象列表中确定第一虚拟语音形象信息。在与服务器中断连接的情况下，还可以基于第一虚拟语音形象信息对预设内容进行语音处理并播放。还可以在监测到第二触发条件的情况下，向虚拟语音形象平台上报至少一条用户行为信息，用户行为信息包括特征信息，还可以包括时间信息和地理位置信息中的至少一项。
209.针对服务器而言，在服务器端获取目标信息时，服务器集成有sdk，sdk集成虚拟语音形象平台推送的语音形象数据集合，通过sdk在语音形象数据集合中基于交互意图和特征信息确定目标交互方式、基于特征信息确定目标虚拟语音形象信息。且在服务器启动之后，可以通过sdk在虚拟语音形象平台拉取语音形象数据集合，在语音形象数据集合中的第一数据发生更新的情况下，可以通过sdk接收虚拟语音形象平台根据第一触发条件发送的更新后的第一数据。在接收虚拟语音形象平台反馈的目标信息时，可以基于与虚拟语音形象平台的通信，首先向虚拟语音形象平台发送交互意图和特征信息，接收虚拟语音形象平台反馈的目标信息。服务器集成有至少一个技能模块，在确定与语音信息对应的响应信息时，可以根据语音信息对应的交互意图，在至少一个技能模块中确定目标技能模块，通过目标技能模块获取语音信息对应的响应信息。
210.针对虚拟语音形象平台而言，可以接收客户端发送的携带客户端有效标识的请求信息，在语音形象数据集合中获取与客户端有效标识对应的虚拟语音形象列表反馈至客户端。在需要向服务器同步语音形象数据集合时，可以响应于服务器在启动后通过sdk发送的拉取指令，向sdk推送语音形象数据集合；在语音形象数据集合中的第一数据发生更新的情况下，根据第一触发条件向sdk发送更新后的第一数据。且还可以在接收到客户端根据第二触发条件上报的至少一条用户行为信息时，根据至少一条用户行为信息更新语音形象数据集合；和/或根据目标人员在编辑页面的输入，更新语音形象数据集合。
211.以上为本发明实施例提供的语音数据处理系统的实施例，客户端向服务器上报语音信息和特征信息，服务器根据语音信息确定客户端的交互意图，根据交互意图和特征信息在语音形象数据集合中确定包括语音信息对应的目标交互方式以及目标虚拟语音形象信息的目标信息，或者将交互意图和特征信息发送至虚拟语音形象平台，获取虚拟语音形象平台反馈的目标信息，服务器在确定与语音信息对应的响应信息之后，根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈
至客户端，可以在客户端以对应的语音形象进行内容播报，提高用户的使用体验，增加用户的使用兴趣和频次，满足可智能切换语音交互形象的使用需求，可以扩大客户端的使用人。
212.另一方面，本发明实施例还提供了一种电子设备，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各实施例中语音数据处理方法中的步骤。
213.举例如下，图10示出了一种电子设备的实体结构示意图。
214.如图10所示，该设备可以包括：处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。其中，电子设备可以为客户端对应的设备、服务器或者虚拟语音形象平台，在电子设备为服务器时，处理器1010用于执行以下步骤：接收客户端上报的语音信息和特征信息，特征信息包括客户端确定的第一虚拟语音形象信息以及语音信息对应的语音特征；获取与语音信息匹配的目标信息，目标信息包括语音信息对应的目标交互方式以及目标虚拟语音形象信息，目标信息由服务器或者虚拟语音形象平台基于语音信息对应的交互意图和特征信息在语音形象数据集合中确定，其中，服务器接收虚拟语音形象平台推送的语音形象数据集合并确定目标信息，或者，服务器向虚拟语音形象平台发送语音信息对应的交互意图和特征信息，并接收虚拟语音形象平台发送的目标信息，所述交互意图由所述服务器确定；确定与语音信息对应的响应信息；根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端。
215.在电子设备为客户端对应的设备时，处理器1010用于执行以下步骤：确定第一虚拟语音形象信息；在获取用户输入的语音信息的情况下，向服务器上报语音信息和特征信息，特征信息包括第一虚拟语音形象信息以及语音信息对应的语音特征；接收服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，回复信息根据目标交互方式和语音信息对应的响应信息确定，包括目标交互方式以及目标虚拟语音形象信息的目标信息由服务器或者虚拟语音形象平台基于语音信息对应的交互意图和特征信息在语音形象数据集合中确定，语音形象数据集合由虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。
216.在电子设备为虚拟语音形象平台时，处理器1010用于执行以下步骤：向服务器发送语音形象数据集合，或者，向服务器发送目标信息；其中，向所述服务器发送的目标信息由虚拟语音形象平台基于语音信息对应的交互意图和特征信息在语音形象数据集合中确定，虚拟语音形象平台接收服务器发送的语音信息对应的交互意图和特征信息，语音信息和特征信息由客户端上报至服务器，特征信息包括客户端确定的第一虚拟语音形象信息以及语音信息对应的语音特征，交互意图由服务器确定，目标信息包括语音信息对应的目标交互方式以及目标虚拟语音形象信息。
217.处理器1010还可以执行上述应用于服务器、客户端或虚拟语音形象平台的其他实施流程。此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
218.再一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例提供的语音数据处理方法中的步骤。
219.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
220.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
221.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种语音数据处理方法，应用于服务器，其特征在于，包括：接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；确定与所述语音信息对应的响应信息；根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。2.根据权利要求1所述的语音数据处理方法，所述服务器集成有软件开发工具包sdk，所述获取与所述语音信息匹配的目标信息，包括：通过所述sdk在所述语音形象数据集合中基于所述交互意图和所述特征信息确定所述目标交互方式、基于所述特征信息确定所述目标虚拟语音形象信息；其中，所述sdk集成所述虚拟语音形象平台推送的所述语音形象数据集合。3.根据权利要求2所述的语音数据处理方法，还包括：在所述服务器启动之后，通过所述sdk在所述虚拟语音形象平台拉取所述语音形象数据集合；其中，在所述语音形象数据集合中的第一数据发生更新的情况下，通过所述sdk接收所述虚拟语音形象平台根据第一触发条件发送的更新后的所述第一数据。4.根据权利要求1所述的语音数据处理方法，所述获取与所述语音信息匹配的目标信息，包括：基于与所述虚拟语音形象平台的通信，接收所述虚拟语音形象平台发送的所述目标信息；其中，所述目标信息由所述虚拟语音形象平台基于所述服务器发送的所述交互意图和所述特征信息在所述语音形象数据集合中确定。5.根据权利要求1所述的语音数据处理方法，所述服务器集成至少一个技能模块，所述确定与所述语音信息对应的响应信息，包括：根据所述语音信息对应的交互意图，在所述至少一个技能模块中确定目标技能模块；通过所述目标技能模块获取所述语音信息对应的所述响应信息。6.一种语音数据处理方法，应用于客户端，其特征在于，包括：确定第一虚拟语音形象信息；在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征；接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形
象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。7.根据权利要求6所述的语音数据处理方法，所述确定第一虚拟语音形象信息，包括：向所述虚拟语音形象平台发送携带客户端有效标识的请求信息；接收所述虚拟语音形象平台基于所述请求信息反馈的与所述客户端有效标识对应的虚拟语音形象列表，所述虚拟语音形象列表包括至少一个虚拟语音形象信息；在所述虚拟语音形象列表中确定所述第一虚拟语音形象信息；其中，所述虚拟语音形象列表基于所述客户端有效标识在所述语音形象数据集合中获取。8.根据权利要求7所述的语音数据处理方法，所述在所述虚拟语音形象列表中确定所述第一虚拟语音形象信息，包括以下方案其中之一：将所述虚拟语音形象列表中对应于预设序号的所述虚拟语音形象信息确定为所述第一虚拟语音形象信息，所述虚拟语音形象列表中的每个所述虚拟语音形象信息分别对应一序号；接收用户在所述虚拟语音形象列表中的选择输入，确定选中的所述虚拟语音形象信息为所述第一虚拟语音形象信息。9.根据权利要求6所述的语音数据处理方法，在获取所述语音信息且与所述服务器中断连接的情况下，还包括：基于所述第一虚拟语音形象信息对预设内容进行语音处理后进行播放。10.根据权利要求6所述的语音数据处理方法，还包括：在监测到第二触发条件的情况下，向所述虚拟语音形象平台上报至少一条用户行为信息，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项。11.一种语音数据处理方法，应用于虚拟语音形象平台，其特征在于，包括：向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息；其中，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。12.根据权利要求11所述的语音数据处理方法，还包括：接收所述客户端发送的携带客户端有效标识的请求信息；根据所述客户端有效标识在所述语音形象数据集合中获取与所述客户端有效标识对应的包括至少一个虚拟语音形象信息的虚拟语音形象列表；响应于所述请求信息，向所述客户端反馈所述客户端有效标识对应的所述虚拟语音形象列表；其中，所述第一虚拟语音形象信息由所述客户端在所述虚拟语音形象列表中确定。
13.根据权利要求11所述的语音数据处理方法，所述向服务器发送语音形象数据集合，包括：接收所述服务器在启动后通过软件开发工具包sdk发送的拉取指令；响应于所述拉取指令，向所述sdk推送所述语音形象数据集合；其中，在所述语音形象数据集合中的第一数据发生更新的情况下，根据第一触发条件向所述sdk发送更新后的所述第一数据。14.根据权利要求11所述的语音数据处理方法，还包括：接收所述客户端根据第二触发条件上报的至少一条用户行为信息，根据所述至少一条用户行为信息更新所述语音形象数据集合，所述用户行为信息包括所述特征信息，还可以包括时间信息和地理位置信息中的至少一项；和/或根据目标人员在编辑页面的输入，更新所述语音形象数据集合。15.一种语音数据处理装置，应用于服务器，其特征在于，包括：第一接收模块，用于接收客户端上报的语音信息和特征信息，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；第一获取模块，用于获取与所述语音信息匹配的目标信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述目标信息由所述服务器或者虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；第一确定模块，用于确定与所述语音信息对应的响应信息；第一处理模块，用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端。16.一种语音数据处理装置，应用于客户端，其特征在于，包括：第二确定模块，用于确定第一虚拟语音形象信息；第一上报模块，用于在获取用户输入的语音信息的情况下，向服务器上报所述语音信息和特征信息，所述特征信息包括所述第一虚拟语音形象信息以及所述语音信息对应的语音特征；第二处理模块，用于接收所述服务器发送的基于目标虚拟语音形象信息进行语音处理后的回复信息并播放，所述回复信息根据目标交互方式和所述语音信息对应的响应信息确定，包括所述目标交互方式以及所述目标虚拟语音形象信息的目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，所述语音形象数据集合由所述虚拟语音形象平台提供，所述响应信息和所述交互意图由所述服务器确定，所述服务器与所述虚拟语音形象平台通信。17.一种语音数据处理装置，应用于虚拟语音形象平台，其特征在于，包括：第一发送模块，用于向服务器发送语音形象数据集合，或者，向所述服务器发送目标信息；
其中，向所述服务器发送的所述目标信息由所述虚拟语音形象平台基于语音信息对应的交互意图和特征信息在所述语音形象数据集合中确定，所述虚拟语音形象平台接收所述服务器发送的所述语音信息对应的交互意图和所述特征信息，所述语音信息和所述特征信息由客户端上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征，所述交互意图由所述服务器确定，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息。18.一种语音数据处理系统，其特征在于，包括：客户端、服务器以及虚拟语音形象平台；所述客户端用于获取用户输入的语音信息，将所述语音信息和特征信息上报至所述服务器，所述特征信息包括所述客户端确定的第一虚拟语音形象信息以及所述语音信息对应的语音特征；所述服务器用于获取与所述语音信息匹配的目标信息、确定与所述语音信息对应的响应信息，所述目标信息包括所述语音信息对应的目标交互方式以及目标虚拟语音形象信息，所述服务器还用于根据所述目标交互方式和所述响应信息确定回复信息，采用所述目标虚拟语音形象信息对所述回复信息进行语音处理后反馈至所述客户端；所述目标信息由所述服务器或者所述虚拟语音形象平台基于所述语音信息对应的交互意图和所述特征信息在语音形象数据集合中确定，其中，所述服务器接收所述虚拟语音形象平台推送的所述语音形象数据集合并确定所述目标信息，或者，所述服务器向所述虚拟语音形象平台发送所述语音信息对应的交互意图和所述特征信息，并接收所述虚拟语音形象平台发送的所述目标信息，所述交互意图由所述服务器确定；所述虚拟语音形象平台用于向所述服务器发送所述语音形象数据集合，或者，向所述服务器发送所述目标信息。19.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5、6至10或者11至14中任一项所述的语音数据处理方法的步骤。20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5、6至10或者11至14中任一项所述的语音数据处理方法的步骤。

技术总结

本发明提供一种语音数据处理方法、装置及系统，应用于服务器的方法包括：接收客户端上报的语音信息和包括第一虚拟语音形象信息以及语音信息对应的语音特征的特征信息；获取与语音信息匹配的目标信息，目标信息包括语音信息对应的目标交互方式以及目标虚拟语音形象信息，目标信息由服务器或者虚拟语音形象平台基于语音信息对应的交互意图和特征信息在语音形象数据集合中确定；确定与语音信息对应的响应信息；根据目标交互方式和响应信息确定回复信息，采用目标虚拟语音形象信息对回复信息进行语音处理后反馈至客户端。本发明可以在客户端以对应的语音形象进行内容播报，增加用户的使用兴趣和频次，满足用户智能切换语音交互形象的需求。形象的需求。形象的需求。