语音播放方法、装置、计算机设备和存储介质与流程

1.本技术涉及信号处理技术领域，特别是涉及一种语音播放方法、装置、计算机设备和存储介质。

背景技术：

2.随着信号处理技术的发展，计算机设备可以对语音信号进行各种形式的处理，例如可以对待播放的语音添加空间音效，使得用户能够听到更有立体感、空间层次感的声音。
3.传统技术中，在对待播放的语音添加空间音效时，通常是按照固定的方式对待播放的语音进行处理得到添加了空间音效的目标语音，导致所播放的语音不满足声音接收对象的听觉需求，听感质量差。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高所播放的语音的听感质量的语音播放方法、装置、计算机设备和存储介质。
5.一种语音播放方法，所述方法包括：获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。
6.一种语音播放装置，所述装置包括：语音获取模块，用于获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；场景识别模块，用于对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；模板获取模块，用于获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；语音处理模块，用于根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。
7.在一些实施例中，所述目标空间音效模板包括与所述动态交互位置关系对应的目标声音方位参数序列；语音处理模块还用于将所述原始语音切分为所述目标声音方位参数序列中的参数数量的语音片段；根据所述语音片段在所述原始语音中的顺序，确定所述目标声音方位参数序列中所述语音片段对应的目标声音方位参数；根据所述语音片段对应的目标声音方位参数对所述语音片段进行处理，得到处理后的语音片段，各个所述处理后的语音片段按照语音顺序形成所述目标语音。
8.在一些实施例中，所述候选空间音效模板集合包括语音交互位置关系固定的候选空间音效模板；模板获取模块，还用于当所述当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从所述候选空间音效模板集合中，选取语音交互位置关系固定的
候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。
9.在一些实施例中，所述期望语音交互位置关系包括期望语音交互距离；模板获取模块还用于当所述当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从所述候选空间音效模板集合中，选取音效参数对应的声音距离固定，且所述声音距离与所述期望语音交互距离匹配的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。
10.在一些实施例中，所述期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；所述目标音效参数包括与所述期望语音交互位置关系匹配的位置关系音效参数；语音处理模块还用于利用所述目标空间音效模板中的位置关系音效参数，对所述原始语音进行语音处理，得到目标语音，以使得所述目标语音与所述期望语音交互位置关系匹配。
11.在一些实施例中，所述期望语音交互位置关系包括期望语音交互距离以及期望交互方位；所述位置关系音效参数包括方位相关音效参数以及距离相关音效参数；语音处理模块还用于利用所述方位相关音效参数对所述原始语音的方位进行处理，以及利用所述距离相关音效参数对所述原始语音的声压进行处理，得到目标语音；以使得所述目标语音的方位与所述期望交互方位匹配，所述目标语音的声压与所述期望语音交互距离匹配。
12.在一些实施例中，所述目标空间音效模板还与目标语音交互效果匹配，所述目标语音交互效果为所述当前声学场景下，声音接收对象的期待语音交互效果，所述目标音效参数包括与所述目标语音交互效果匹配的语音效果调整参数；语音处理模块还用于利用所述目标空间音效模板中的位置关系音效参数以及所述语音效果调整参数对所述原始语音进行处理，得到目标语音。
13.在一些实施例中，场景识别模块还用于获取所述环境声音对应的多个声音子片段，对所述声音子片段进行特征提取，得到子片段特征；基于所述子片段特征识别得到所述声音子片段对应的片段声学场景；对所述声音子片段对应的片段声学场景进行统计，得到各个片段声学场景对应的场景数量；选取场景数量最大的片段声学场景作为所述播放终端所处的当前声学场景。
14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。
15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得
到目标语音，以在所述播放终端中播放所述目标语音。
16.上述语音播放方法、装置、计算机设备和存储介质，获取待播放的原始语音，获取原始语音的播放终端当前所处播放环境中的环境声音，对环境声音进行场景识别，识别得到播放终端所处的当前声学场景，获取与当前声学场景匹配的目标空间音效模板，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，以在播放终端中播放目标语音，由于目标语音是根据目标空间音效模板中的目标音效参数对原始语音进行处理得到的，目标空间音效模板与目标语音交互方式匹配，而目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式，因此得到的目标语音能够满足声音接收对象的听觉需求，提高听感质量。
附图说明
17.图1为一些实施例中语音播放方法的应用环境图；
18.图2为一些实施例中语音播放方法的流程示意图；
19.图3为一些实施例中对所述原始语音进行处理得到目标语音的流程示意图；
20.图4为一些实施例中生成双声道立体语音的示意图；
21.图5为一些实施例中混响器的结构示意图；
22.图6为一些实施例中声学场景识别模型的结构示意图；
23.图7为一些具体的实施例中语音播放方法的流程示意图；
24.图8为一些实施例中在会话界面展示选择空间音效模板提示框的示意图；
25.图9为一些实施例中语音播放装置的结构框图；
26.图10为一些实施例中计算机设备的内部结构图。
具体实施方式
27.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
28.本技术提供的语音播放方法，可以应用于如图1所示的应用环境中。其中，第一终端102以及第二终端106通过网络与服务器104进行通信。第一终端102可以为声音发出对象对应的终端，第二终端106可以为声音接收对象对应的终端，第二终端106用于进行语音播放，因此可以称为播放终端。第一终端102采集声音发出对象的声音得到原始语音，将原始语音通过服务器104发送至第二终端106，第二终端106进一步采集当前所处播放环境中的环境声音，结合环境声音，播放终端或者服务器可以对原始语音进行处理，得到目标语音。
29.以播放终端对原始语音进行处理为例，对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景，进一步获取与所述当前声学场景匹配的目标空间音效模板，根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音。其中，目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式。播放终端处理得到的目标语音可以为添加了空间音效的立体语音，播放终端进一步可以通过耳机或者两个以上的扬声器组合对目标语音进行播放。
30.其中，第一终端102、第二终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集来实现。
31.在一些实施例中，如图2所示，提供了一种语音播放方法，以该方法应用于图1中的第二终端106即播放终端为例进行说明，包括以下步骤：
32.步骤202，获取待播放的原始语音，获取原始语音的播放终端当前所处播放环境中的环境声音。
33.其中，待播放的原始语音指的是播放终端需要播放的语音。待播放的原始语音可以是各种类型的语音，包括音视频中的语音、网络游戏中的语音或者通话过程中的人声等等。原始语音的播放终端当前所处播放环境指的是播放终端当前所在的物理场所对应的环境，例如，播放终端当前处在树林中，则该树林对应的环境即为播放终端当前所处播放环境，又如播放终端当前处在酒吧内，则酒吧对应的环境即为播放终端当前所处播放环境。环境声音可以是环境中的所有或者绝大部分可以代表该环境的声音，例如树林对应的环境声音可以是树林中的人声、鸟声、流水声等等，酒吧对应的环境声音可以是酒吧内的人声、音乐声、物体碰撞声音等等。
34.具体地，播放终端可以从本地或者服务器获取待播放的原始语音，在需要对原始语音进行播放时，采集播放终端当前所处播放环境中的环境声音。
35.在一些实施例中，播放终端安装有可播放语音的应用程序，该应用程序可以是实时通话类应用程序，从而播放终端在实时通话的过程中获取通话对象的实时语音得到待播放的原始语音，并采集当前所处播放环境中的环境声音，进而结合环境声音对原始语音进行处理得到目标语音。
36.在一些实施例中，播放终端安装的可播放语音的应用程序还可以是音视频娱乐类应用，从而播放终端在播放音频或者视频的过程中，将播放的音频或者视频中的音频确定为待播放的原始语音，并采集当前所处播放环境中的环境声音，进而结合环境声音对原始语音进行处理得到目标语音。
37.在一些实施例中，播放终端安装的可播放语音的应用程序还可以是即时通讯类应用程序，该应用程序可以接收语音类的消息，在接收到语音类的消息后，可以展示该消息的播放控件，并在接收到用户对播放控件的触发操作时，将该消息中的语音确定为待播放的原始语音，并采集当前所处播放环境中的环境声音，进而结合环境声音对原始语音进行处理得到目标语音，播放处理得到的目标语音。
38.步骤204，对环境声音进行场景识别，得到播放终端所处的当前声学场景。
39.其中，声音场景指的是根据声音进行划分的场景，声学场景根据播放终端所处的环境进行划分。在一些实施例中，由于不同的场所声音通常是不相同的，因此，声学场景可以根据场所的类别、声音的大小或者环境的气氛的至少一种进行划分，例如可以将声学场景划分为地铁场景、超市场景、酒吧场景或者海边场景的至少一种等等。在其他一些实施例中，考虑到不同场所的声音通常有一定的共性，可以根据声音的实际特点进行声学场景划定，例如，考虑到酒吧、菜市场等场所的声音往往是嘈杂喧闹的，树林中的声音是幽静的，可以将声学场景划分为喧闹场景、幽静场景以及介于喧闹场景和幽静场景之间的普通场景，普通场景中即不是喧闹场景也不是幽静场景。
40.具体地，播放终端可以采用基于机器学习的方式对环境声音进行场景识别，通过对端环境声音提取音频特征后，将音频特征输入已训练的声学场景识别模型中，通过该声学场景识别模型对环境声音进行场景识别，得到的场景识别结果即表征当前声学场景，从而播放终端可以得到所处的当前声学场景具体是哪个。
41.音频特征可以是环境声音的功率谱或者可以是环境声音的梅尔倒谱系数。声学场景识别模型指的是可以用于进行声学场景识别的机器学习模型，声学场景识别的过程即对声学场景进行分类的过程。场景识别模型具体可以是基于卷积运算的分类模型，例如循环神经网络(recurrent neural network,rnn)、卷积神经网络(convolutional neural networks,cnn)、长短期记忆网络(lstm，long short-term memory)、bilstm、门循环单元(gate recurrent unit，gru)、bigru等等。其中，cnn是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)；rnn是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)；lstm是一种时间循环神经网络，是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的，其中所有的rnn都具有一种重复神经网络模块的链式形式，前向的lstm和后向的lstm结合成bilstm；gru是rnn的一种，和lstm一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的，前向的gru和后向的gru结合成bigru。
42.在一些实施例中，声学场景识别模型可以部署在播放终端本地，播放终端可以从本地存储器中获取到声学场景识别模型，将提取的音频特征输入该声学场景识别模型中，从而可以快速地得到声学场景识别结果。在其他一些实施例中，为节省播放终端的存储空间，声学场景识别模型还可以部署在服务器，播放终端可以在得到音频特征后，向服务器发送携带该音频特征的场景识别请求，服务器将场景识别请求中音频特征输入至声学场景识别模型中，并将得打的场景识别结果返回至播放终端。
43.步骤206，获取与当前声学场景匹配的目标空间音效模板，目标空间音效模板与目标语音交互方式匹配，目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式。
44.其中，空间音效是指所要达到的空间声音效果，空间音效是经过一定的音频技术处理让用户听到更有立体感、空间层次感的声音，例如通过耳机或两个以上扬声器组合，播放还原出实际现场的听觉场景，让听者(即声音接收对象)能清晰辨识到不同的声学对象的方位、远近距离感以及移动轨迹，也能让听者感受到被声音全方位包裹感，让听者仿佛置身于实际环境的沉浸式听觉体验。
45.空间音效模板为用于对语音进行空间音效处理的模板，包括了用于进行空间音效处理的各种音效参数。空间音效模板可以由专业人员进行配置。不同的空间音效模板与不同的语音交互方式匹配。语音交互方式指的是声音接收对象接收声音发出对象的声音的方式，语音交互方式包括交互双方的位置关系以及声音的大小的至少一种。空间音效模板与语音交互方式匹配是指通过匹配的空间音效模板，能够使得所播放的语音，与所匹配的语音交互方式的交互方式是一致的，例如假设语音交互方式是声音发出对象相对声音接收对象的空间距离忽远忽近，则与其匹配的空间音效模板对声音进行处理后，能够达到播放的声音忽远忽近的效果。
46.声音接收对象指的是接收声音的对象，声音接收对象可以是播放终端对应的用户。声音发出对象可以是发出声音的对象。在语音通信中，声音发出对象为语音通信过程中的通信对象，而在音视频娱乐中，声音发出对象可以为发出声音的计算机设备，例如，用于通过播放终端播放音乐时，声音发出对象可以为播放终端。声音接收对象的期望语音交互方式指的是声音接收对象所期望的语音交互方式，包括期望的交互双方的位置关系以及期望的声音的大小的至少一种。
47.考虑到声音接收对象身处不同的环境下具有不同的听觉体验需求，因此在不同的声学场景下，声音接收对象的期望语音交互方式是不相同的。举例如下：声音接收对象身处很嘈杂的环境下，例如酒吧，听者更期望的语音交互方式是贴耳式的交互或者非常近距离的交互，避免环境噪声对收听过程的干扰；声音接收对象身处一个清幽的环境下，例如小树林，声音接收对象期望的语音交互方式是比较自然随意的，希望与其通话的对方也是比较自然无拘束的随意走动；声音接收对象身处一个开阔的环境，例如大球场，声音接收对象希望听到的声音应该是有一点混响的效果，跟现场的环境比较匹配。
48.具体地，对于每一种类型的声学场景，可以配置一个或者多个空间音效模板，即对于每一种类型的声学场景，建立该声学场景与空间音效模型之间的对应关系，播放终端在识别得到播放终端所处的当前声学场景，即可根据该对应关系从多个候选空间音效模板选取与当前声学场景匹配的空间音效模板选取作为目标空间音效模板，由于该目标空间音效模板是与当前声学场景匹配的，从而目标空间音效模板与目标语音交互方式匹配，该目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式，即声音接收对象在当前声学场景下所期望的语音交互方式。
49.在一些实施例中，播放终端中存储了声学场景标识和空间音效模型标识之间的对应关系，播放终端在识别得到当前声学场景后，根据标识之间的匹配关系获取当前声学场景匹配的目标空间音效模板。在其他一些实施例中，声学场景标识和空间音效模型标识之间的对应关系还可以存储在服务器中，从而播放终端在识别得到当前声学场景后，将该声学场景标识发送至服务器，服务器根据标识之间的匹配关系获取当前声学场景匹配的目标空间音效模板并返回播放终端。
50.在一些实施例中，当当前声学场景存在多个与之匹配的空间音效模板时，播放终端可以随机选取其中一个匹配的空间音效模板确定为目标空间音效模型。在其他一些实施例中，当当前声学场景存在多个与之匹配的空间音效模板时，播放终端还可以显示匹配的空间音效模板列表，该列表中显示了匹配的各个空间音效模型的名称及简介，并提供选择控件供用户进行空间音效模板的选择，将用户选择的空间音效模板确定为目标空间音效模板。
51.在一些实施例中，可以预先配置多个候选空间音效模板，包括贴耳交流模板、漫步移动交流模板、讲演式模板、出奇式交流模板、环绕式模板或者飞入飞出式模板的至少一种，其中，贴耳交流模板指的是声音发出对象近距离，靠近声音接收对象耳朵进行交流；漫步移动交流模板指的是声音发出对象处在一定距离范围内，按照随机或设定的运动轨迹，慢速运动中跟声音接收对象进行交流；讲演式模板指的是声音发出对象处在中远距离，声音洪亮且伴有一定混响效果；出奇式交流模板指的是声音发出对象所处位置不固定且运动轨迹是随机的，例如：前一句话时出现在声音接收对象左前方，后一句话时出现声音接收对
象后方，下一句话时贴近声音接收对象耳边，给人惊奇的听觉体验；环绕式模板指的是声音发出对象保持与声音接收对象一定的距离，在水平方位上围绕声音接收对象360度旋转着交流；飞入飞出式模板指的是声音发出对象从远方以较高速度往声音接收对象位置靠近，或者从接近声音接收对象的位置往远处以较高速度移走。
52.在一些实施例中，当候选空间音效模板包括贴耳交流模板、漫步移动交流模板、讲演式模板、出奇式交流模板、环绕式模板、飞入飞出式模板时，可以将声学场景分为三类包括：喧闹场景、幽静场景及普通场景，其中，喧闹场景与贴耳交流模板对应、幽静场景与出奇式交流模板、环绕式模板、飞入飞出式模板对应，普通场景与漫步移动交流模板、讲演式模板对应。
53.在一些实施例中，目标空间音效模板还与目标语音交互效果匹配，目标语音交互效果为当前声学场景下，声音接收对象的期望语音交互效果。
54.步骤208，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，以在播放终端中播放目标语音。
55.其中，音效参数指的是用于对语音进行音效处理的参数，音效参数包括与语音交互方式对应的参数，具体可以是位置关系音效参数，位置关系音效参数包括方位相关音效参数以及距离相关音效参数，声音方位相关音效参数例如可以是声音方位，距离相关音效参数例如可以是距离。音效参数还包括与语音交互效果对应的参数，具体可以是对语音效果调整参数，例如混响参数。
56.可以理解的是，目标音效参数包括的位置关系音效参数与期望语音交互方式匹配。目标音效参数包括的语音效果调整参数与期望语音交互效果匹配。
57.具体地，播放终端获取到与当前声学场景匹配的目标空间音效模板后，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，对目标语音进行播放。
58.在一些实施例中，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音具体可以是：根据目标音效参数中的位置关系音效参数对原始语音进行语音处理，得到目标语音，以使得目标语音与期望语音交互方式匹配。
59.在一些实施例中，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音具体可以是：根据目标音效参数中的语音效果调整参数对原始语音进行语音处理，得到目标语音，以使得目标语音与期望语音交互效果匹配。
60.上述语音播放方法中，获取待播放的原始语音，获取原始语音的播放终端当前所处播放环境中的环境声音，对环境声音进行场景识别，识别得到播放终端所处的当前声学场景，获取与当前声学场景匹配的目标空间音效模板，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，以在播放终端中播放目标语音，由于目标语音是根据目标空间音效模板中的目标音效参数对原始语音进行处理得到的，目标空间音效模板与目标语音交互方式匹配，而目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式，因此得到的目标语音能够满足声音接收对象的听觉需求，提高听感质量。
61.在一些实施例中，期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；得到与当前声学场景匹配的目标空间音效模板的步骤包括：获取候选空间音效模板集合；候选空间音效模板集合包括多个不同语音交互位置关系对应的候选
空间音效模板；从候选空间音效模板集合中，选取得到与当前声学场景匹配的目标空间音效模板，其中，目标空间音效模板对应的语音交互位置关系与当前声学场景对应的期望语音交互位置关系匹配。
62.其中，声音接收对象与声音发出对象之间的期望语音交互位置关系指的是声音接收对象所期望的声音发出对象与自身的交互位置关系。交互位置关系包括两种，位置关系无变化及位置关系有变化，其中，位置关系无变化即声音接收对象与声音发出对象之间的距离固定，位置关系无变化包括近距离和远距离两种，近距离指的是声音发出对象在靠近声音接收对象一定范围内，远距离指的是声音发出对象在远离声音接收对象一定范围内；位置关系有变化即声音接收对象与声音发出对象之间的位置关系随时间发生变化，包括声音发出对象的运动速度随时间发生变化、以及运动方向随时间发生变化中的至少一种。
63.本实施例中，可以预先配置多个候选空间音效模板，这些候选空间音效模板组成候选空间音效模板集合，每一个候选空间音效模板对应不同的语音交互位置关系，播放终端在得到当前声学场景后，从候选空间音效模板集合中，选取得到与当前声学场景匹配的目标空间音效模板，由于目标空间音效模板是与当前声学场景匹配的，因此目标空间音效模板对应的语音交互位置关系与当前声学场景对应的期望语音交互位置关系匹配。
64.举例说明，假设当前声学场景为喧闹场景，该场景下声音接收对象的期望语音交互位置关系为近距离交互，以避免环境噪声对收听过程的干扰，从而播放终端可以从候选空间音效模板集合中选取得到贴耳式交流模板，贴耳式交流模板对应的语音交互位置关系为近距离交互，与期望语音交互位置关系是匹配的。
65.本实施例中，通过从包括多个不同语音交互位置关系对应的候选空间音效模板的候选空间音效模板集合中，选取得到语音交互位置关系与当前声学场景对应的期望语音交互位置关系匹配的候选空间音效模板作为目标空间音效模板，可以选取到适合当前声学场景的空间音效模板，从而得到听感质量高的播放语音，同时由于预先配置了多个不同语音交互位置关系对应的候选空间音效模板，可以适合于多个不同的声学场景，扩展了应用范围。
66.在一些实施例中，候选空间音效模板集合包括语音交互位置关系变化的候选空间音效模板；从候选空间音效模板集合中，选取得到与当前声学场景匹配的目标空间音效模板包括：当当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
67.其中，候选空间音效模板集合包括语音交互位置关系变化的候选空间音效模板，语音交互位置关系变化的候选空间音效模板用于对原始语音进行处理时，得到的目标语音的语音交互方式对应的语音交互位置关系随时间发生变化。例如，语音交互位置关系变化的候选空间音效模板可以是出奇式交流模板、环绕式模板、飞入飞出式模板中的任意一种。
68.当前声学场景对应的当前语音交互位置关系指的是当前声学场景下声音接收对象的期望语音交互方式。不同的声学场景下声音接收对象的期望语音交互方式是不相同。动态交互位置关系指的是位置关系是随时间动态变化的，动态交互位置关系下声音发出对象按照设定或者随机的运动轨迹在运动，例如，声音发出对象360旋转运动，或者前一句话时出现在听者左前方，后一句话时出现听者后方，下一句话时贴近听者耳边，又或者从远方
向声音接收对象的位置靠近，或者从接近声音接收对象的位置往远处移走。
69.本实施例中，由于不同的声学场景下声音接收对象的期望语音交互方式是不相同，播放终端在识别得到当前声学场景后，即相当于获知了当前声学场景所对应的当前语音交互位置关系，当当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
70.在一些实施例中，当当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，当前声学场景可以是幽静的场景。
71.在一些实施例中，当语音交互位置关系变化的候选空间音效模板存在多个时，播放终端可显示各个语音交互位置关系变化的候选空间音效模板列表供用户选择，或者随机选择一个语音交互位置关系变化的候选空间音效模板作为目标空间音效模板。
72.上述实施例中，当当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，播放终端可以从候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板，从而可以选取到适合当前声学场景的空间音效模板。
73.在一些实施例中，目标空间音效模板包括与动态交互位置关系对应的目标声音方位参数序列；如图3所示，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音包括：
74.步骤302，将原始语音切分为目标声音方位参数序列中的参数数量的语音片段。
75.其中，声音方位参数指的是与声音方位相关的参数，声音方位参数可以是具体的声音方位。动态交互位置关系对应的声音方位参数是随时间动态变化的，随时间变化的多个声音方位参数按照时间顺序形成目标声音方位参数序列。目标声音方位参数序列中的参数数量指的是目标声音方位参数序列中不同时间对应的声音方位参数的数量，例如，目标声音方位参数序列中包括在6个不同时间对应的声音方位参数，则目标声音方位参数序列中的参数数量为6。
76.具体地，播放终端按照目标声音方位参数序列中的参数数量对原始语音进行切分，得到与目标声音方位参数序列中的参数数量相同的语音片段。例如，假设目标声音方位参数序列中的参数数量为6，则对原始语音进行切分得到6个语音片段。切分的方式可以是随机切分，或者按照目标声音方位参数序列中的参数数量对原始语音进行等时长切分，例如，原始语音为6分钟，需要切分为6个语音片段，则可以将原始语音时长为1分钟的6个语音片段。
77.步骤304，根据语音片段在原始语音中的顺序，确定目标声音方位参数序列中语音片段对应的目标声音方位参数。
78.其中，语音片段在原始语音中的顺序指的是多个语音片段按照在原始语音中的时间先后顺序进行排序的顺序。
79.具体地，由于目标声音方位参数序列中的声音方位参数是按照时间顺序排列的，每一个声音方位参数都有一个对应的顺序，而语音片段的数量和目标声音方位参数序列中的参数数量是相同的，每一个语音片段都可以对应一个声音方位参数，从而播放终端可以将目标声音方位参数序列中顺序与语音片段在原始语音中的顺序相同的声音方位参数确
定为该语音片段对应的目标声音方位参数。
80.步骤306，根据语音片段对应的目标声音方位参数对语音片段进行处理，得到处理后的语音片段，各个处理后的语音片段按照语音顺序形成目标语音。
81.具体地，播放终端根据语音片段对应的目标声音方位参数对语音片段的方位进行处理，生成语音片段对应的立体语音，作为处理后的语音片段，各个处理后的语音片段按照语音顺序形成目标语音。
82.在一些实施例中，播放终端可以采用基于hrtf(head-related transfer function)对语音片段的方位进行处理，生成语音片段对应的立体语音。hrtf(head-related transfer function)全称为头部关联传递函数，hrtf是综合了itd(时延差)、iid(声压差)和躯体声学反射频谱特性的声源位置函数，也就是声音传输路径的响应。hrtf传输函数对应的时域激励响应数据为hrir(head related impulse response)，最常用的hrir数据有cipic(center for image processing and integrated computing，图像处理和综合计算中心)数据集和mit(massachusetts institute of technology，麻省理工学院)数据集，例如cipic数据集收集了45个测量对象，每个测量对象在25个不同的水平方位、50个不同的垂直方位，共1250个方位上双耳收听信号的时域测量数据。
83.基于hrtf的立体声生成就是将原始的单声道输入信号u(n)与目标hrir数据h(n)做卷积，其输出为双声道立体声信号y(n)，参考如下公式(1)：
[0084][0085]
在确定hrir数据时，可以将目标方位参数与hrir数据集中的方位进行匹配，将匹配一致的方位对应的hrir数据确定为目标hrir数据。
[0086]
需要说明的是，h(n)里面分为左声道和右声道的hrir数据，所以生成的y(n)也对应左声道和右声道信号结果，如图4所示。参考图4，原始语音和左声道hrir数据卷积得到左声道语音信号，原始语音和右声道hrir数据卷积得到右声道语音信号。
[0087]
上述实施例中，通过将原始语音切分为多个语音片段，通过目标声音方位参数序列中不同的目标声音方位参数对各个语音片段进行处理，从而对各个不同的语音片段可以生成不同方位的立体语音，从而可以得到与目标空间音效模板匹配的、交互位置关系动态变化的目标语音。
[0088]
在一些实施例中，候选空间音效模板集合包括语音交互位置关系固定的候选空间音效模板；从候选空间音效模板集合中，选取得到与当前声学场景匹配的目标空间音效模板包括：当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0089]
其中，候选空间音效模板集合包括语音交互位置关系固定的候选空间音效模板，语音交互位置关系固定的候选空间音效模板用于对原始语音进行处理时，得到的目标语音的语音交互方式对应的语音交互位置关系是固定的，语音交互位置关系例如可以交互距离。语音交互位置关系固定的候选空间音效模板对应的交互距离可以是近距离或者远距离。语音交互位置关系固定的候选空间音效模板可以是贴耳式交流模板、漫步移动交流模板、讲演式模板中的任意一种。其中贴耳式交流模板对应的交互距离为近距离，而漫步移动交流模板、讲演式模板可以是远距离。
[0090]
当前声学场景对应的当前语音交互位置关系指的是当前声学场景下声音接收对象的期望语音交互方式。不同的声学场景下声音接收对象的期望语音交互方式是不相同。固定交互位置关系指的是位置关系是固定的，固定交互位置关系下声音发出对象与声音接收对象之间的交互距离是固定的。
[0091]
本实施例中，由于不同的声学场景下声音接收对象的期望语音交互方式是不相同，播放终端在识别得到当前声学场景后，即相当于获知了当前声学场景所对应的当前语音交互位置关系，当当前声学场景所对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0092]
上述实施例中，当当前声学场景所对应的当前语音交互位置关系为固定交互位置关系时，播放终端可以从候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板，从而可以选取到适合当前声学场景的空间音效模板。
[0093]
在一些实施例中，期望语音交互位置关系包括期望语音交互距离；当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板包括：当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取音效参数对应的声音距离固定，且声音距离与期望语音交互距离匹配的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0094]
其中，期望语音交互距离指的是声音接收对象在当前声学场景下期待的语音交互距离。在一些实施例中，当当前声学场景为喧闹的场景时，声音接收对象期待近距离的交流，以避免环境噪声对收听过程的干扰，即当前声学场景下期待的语音交互距离为近距离。近距离可以是声音接收对象与声音发出对象之间的距离在预设距离范围内。预设距离范围可以根据需要进行设定。
[0095]
音效参数对应的声音距离固定指的是音效参数中各个时间对应的声音距离是相同的。音效参数对应的声音距离与期望语音交互距离匹配指的是音效参数对应的声音距离数值与期望语音交互距离一致。
[0096]
具体地，不同的声学场景下，声音接收对象的期望语音交互距离是不相同的，在一些声学场景下声音接收对象的期望语音交互距离可以是近距离，而在其他一些声学场景下声音接收对象的期望语音交互距离可以是远距离或者中远距离。这里的远距离可以是声音接收对象与声音发出对象之间的距离大于预设距离阈值。预设距离阈值可以根据需要进行设定。中远距离可以是介于近距离和远距离之间的距离。本实施例中，由于不同的声学场景下，声音接收对象的期望语音交互距离并不相同，那么当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，播放终端可以从候选空间音效模板集合中，选取音效参数对应的声音距离固定，且声音距离与期望语音交互距离匹配的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0097]
在一些实施例中，当当前声学场景为喧闹的场景时，声音接收对象期待近距离的交流，则播放终端可以从候选空间音效模板集合中，选取贴耳式交流模板，作为目标空间音效模板。
[0098]
上述实施例中，从候选空间音效模板集合中，选取音效参数对应的声音距离固定，且声音距离与期望语音交互距离匹配的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板，由于所选取的目标空间音效模板不仅声音距离固定且声音距离与期望语音交互距离匹配，从而更好适合于当前声学场景。
[0099]
在一些实施例中，期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；目标音效参数包括与期望语音交互位置关系匹配的位置关系音效参数；根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音包括：利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音，以使得目标语音与期望语音交互位置关系匹配。
[0100]
其中，位置关系音效参数指的是与位置相关的音效参数，位置关系音效参数包括方位相关音效参数以及距离相关音效参数。位置关系音效参数与期望语音交互位置关系匹配指的是位置关系音效参数所指示的位置与期望语音交互位置关系所指示的位置一致。
[0101]
本实施例中，播放终端在根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音时，具体可以利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音，由于目标空间音效模板中的位置关系音效参数是与期望语音交互位置关系匹配的，从而得到的目标语音与期望语音交互位置关系匹配。
[0102]
上述实施例中，由于可以得到与期望语音交互位置关系匹配的目标语音，得到的目标语音与当前声学场景适配，语音听感质量高。
[0103]
在一些实施例中，期望语音交互位置关系包括期望语音交互距离以及期望交互方位；位置关系音效参数包括方位相关音效参数以及距离相关音效参数；利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音包括：利用方位相关音效参数对原始语音的方位进行处理，以及利用距离相关音效参数对原始语音的声压进行处理，得到目标语音；以使得目标语音的方位与期望交互方位匹配，目标语音的声压与期望语音交互距离匹配。
[0104]
其中，期望语音交互距离指的是当前声学场景下声音接收对象期待的语音交互位置，期望交互方位指的是当前声学场景下声音接收对象期待的语音交互方位。方位相关音效参数指的是与方位相关的音效参数，方位相关音效参数具体可以是方位数据。距离相关音效参数指的是与距离相关的音效参数，方位相关音效参数具体可以是距离数据或者声压数据中的其中一种。声压用于表征声音的大小，声压越大，则声音越大，反之，声压越小，则声音越小。
[0105]
本实施例中，目标音效参数包括与期望语音交互位置关系匹配的位置关系音效参数具体可以是：包括与期望语音交互距离匹配的距离相关音效参数以及与期望交互方位匹配的方位相关音效参数。
[0106]
具体地，播放终端利用方位相关音效参数对原始语音的方位进行处理，生成立体语音，并利用距离相关音效参数对立体语音的声压进行处理，得到目标语音，由于方位相关音效参数是与期望交互方位匹配的，而距离相关音效参数是与期望语音交互距离匹配的，因此得到的目标语音的方位与期望交互方位匹配，且目标语音的声压与期望语音交互距离匹配。
[0107]
在一些实施例中，播放终端利用方位相关音效参数对原始语音的方位进行处理，
生成立体语音具体可以是：将方位相关音效参数所指示的方位与hrir数据库中的方位进行匹配，将匹配一致的hrir数据与方位相关音效参数进行卷积，生成立体语音。
[0108]
在一些实施例中，由于声源与听者距离越近，听到声音的声压越高，相反，声源与听者距离越远，听到的声音的声压越低。距离r1和距离r2的声压级差值公式参考如下公式(2)，其中lp2为距离r2对应的声压，lp1为距离r1对应的声压：
[0109]
lp2＝lp1-20lg(r2/r1)
ꢀꢀꢀ
(2)
[0110]
实际应用中，可以测定一个特定距离r1下的声压值lp1，通过上述公式关系生成目标距离r2的声压lp2。并映射到对应的声音信号中，从而实现不同距离的听觉感知效果。例如r2/r1等于2，则声压衰减6db。
[0111]
在其他一些实施例中，声压lp和声音信号x(n)的关系，如下公式(3)，其中lp0为偏置值。根据对应关系可以调节输入信号的幅值来调节声压，进而实现听者和声源距离变化的效果：
[0112][0113]
上述实施例中，利用方位相关音效参数对原始语音的方位进行处理，以及利用距离相关音效参数对原始语音的声压进行处理，得到目标语音，得到的目标语音的方位与期望交互方位匹配，目标语音的声压与期望语音交互距离匹配，从而得到听感质量高的目标语音。
[0114]
在一些实施例中，目标空间音效模板还与目标语音交互效果匹配，目标语音交互效果为当前声学场景下，声音接收对象的期待语音交互效果，目标音效参数包括与目标语音交互效果匹配的语音效果调整参数；利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音包括：利用目标空间音效模板中的位置关系音效参数以及语音效果调整参数对原始语音进行处理，得到目标语音。
[0115]
其中，期待语音交互效果指的是当前声学场景下声音接收对象所期待的语音交互效果，语音交互效果具体可以是混响效果。语音效果调整参数指的是用于对声音的效果进行调整的参数。语音效果调整参数具体可以是衰减因子或者滤波器参数等等。
[0116]
具体地，播放终端在利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音时，具体可以利用目标空间音效模板中的位置关系音效参数对原始语音进行处理得到立体语音，并利用语音效果调整参数对原始语音的语音效果进行处理，得到目标语音，得到的目标语音的语音交互效果与期待语音交互效果是匹配的。
[0117]
如图5所示，为一些实施例中，利用语音效果调整参数进行语音效果调整的示意图。参考图5，语音效果调整参数为混响器中的参数，播放终端通过混响器对语音进行混响处理，得到有混响效果的目标语音。具体地，混响器内部有三个分支通过这三个分支可以分别得到直达语音信号、早期反射语音信号、后期反射语音信号，三个分支输出的语音信号进行叠加得到最终具有混响信号的目标信号。其中：
[0118]
分支一：原始语音x(n)乘以衰减因子得到直达语音信号；
[0119]
分支二：原始语音x(n)经过18点滤波器，滤波结果乘以早期反射衰减因子得到早期反射语音信号；
[0120]
分支三：原始语音x(n)经过18点滤波器，再经过6个低通梳状滤波器加权和，再通
过一个全通滤波器，最后滤波结果乘以后期反射衰减因子得到后期反射语音信号。
[0121]
上述实施例中，目标音效参数包括与目标语音交互效果匹配的语音效果调整参数，播放终端在对原始语音进行处理时，可以利用目标空间音效模板中的位置关系音效参数以及语音效果调整参数对原始语音进行处理，得到目标语音，使得得到的目标语音可以和当前声学场景下的期待语音交互效果匹配，得到目标语音听感质量较高，可以更好的满足声音接收对象的需求。
[0122]
在一些实施例中，对环境声音进行场景识别，得到播放终端所处的当前声学场景包括：获取环境声音对应的多个声音子片段，对声音子片段进行特征提取，得到子片段特征；基于子片段特征识别得到声音子片段对应的片段声学场景；对声音子片段对应的片段声学场景进行统计，得到各个片段声学场景对应的场景数量；选取场景数量最大的片段声学场景作为播放终端所处的当前声学场景。
[0123]
其中，声音子片段为对环境声音进行切分得到的。对环境声音进行切分可以按照目标时间间隔进行切分。子片段特征可以为功率谱或者梅尔倒谱系数。
[0124]
具体地，播放终端可以对环境声音进行切分，得到多个声音子片段，对于每一个声音子片段，可以输入已训练的声学场景识别模型中，识别得到声音子片段对应的声学场景即片段声学场景，每一个声音子片段都对应一个片段声学场景，因此环境声音对应多个片段声学场景，对这些片段声学场景的场景数量进行统计，得到每一个片段声学场景对应的场景数量，进而可以选取场景数量最大的片段声学场景作为播放终端所处的当前声学场景。
[0125]
举例说明，假设对环境声音切分为6个声音子片段分别为声音子片段1、声音子片段2、声音子片段3、声音子片段4、声音子片段5以及声音子片段6，其中声音子片段1对应的片段声学场景为场景a，声音子片段2对应的片段声学场景为场景a，声音子片段3对应的片段声学场景为场景b，声音子片段4对应的片段声学场景为场景a，声音子片段3对应的片段声学场景为场景c，则最后统计得到场景a对应的场景数量为4，场景b对应的场景数量为1，场景c对应的场景数量为1，则将场景a作为环境声音对应的当前声学场景，即播放终端所处的当前声学场景。
[0126]
在一些实施例中，场景识别模型可以通过以下方式进行训练，采集不同声学场景下的环境声音，对环境声音进行切分得到声音子片段并确定对应的训练标签，将各个声音子片段输入场景识别模型，以各个声音子片段对应的训练标签作为期待输出对声学场景识别模型进行训练，直至满足训练停止条件时，得到已训练的声学场景识别模型。其中，可以使用随机梯度下降算法、adagrad((adaptive gradient，自适应梯度)算法、adadelta(adagrad算法的改进)、rmsprop(adagrad算法的改进)、adam(adaptive moment estimation，自适应矩估计)算法等来调整声学场景识别模型的模型参数。当满足训练停止条件时，训练完成，得到已训练的声学场景识别模型，训练停止条件可以是模型参数不再发生变化，也可以是损失到达最小值，还可以是训练次数达到最大迭代次数等等。
[0127]
在一些具体的实施例中，如图6所示，为声学场景识别模型的模型结构示意图。参考图6，其中，声学场景识别模型包括五层卷积网络，第一层为稠密卷积网络(dense convolutional network，简称densenet)，第二层至第四层均为gru网络(gate recurrent unit，门控循环单元)，第二层至第四层的网络参数并不相同，第五层为softmax层，softmax
层也可以采用densenet网络结构。该声学场景识别模型最终的输出可以为预设场景标识，例如由一共5类场景，则训练样本的场景输出标识为5个二值数，即如00100，代表该样本对应是第三类场景。声学场景识别模型最终的输出还可以是识别为各类场景的概率，最终结果以所有类别输出概率最大者为最终识别场景结果。
[0128]
上述实施例中，通过获取环境声音对应的多个声音子片段，对各个声音子片段进行场景识别得到环境声音对应的多个片段声学场景，对各个片段声学场景的场景数量进行统计，最后选取场景数量最大的片段声学场景作为播放终端所处的当前声学场景，通过切分片段可以充分考虑环境声音中各个时段的声音，得到的场景识别结果更加准确，并且对环境声音进行切片输入声学场景识别模型，由于输入信号的长度减小了，模型识别结果也更加准确。
[0129]
在一些具体的实施例中，提供了一种语音播放方法。具体地，播放终端采集环境声音，根据采集的环境声音进行声学场景识别，根据识别得到的当前声学场景选取与场景匹配的空间音效模板，根据空间音效模板中的音效参数和原始语音进行虚拟立体声生成，最后播放生成的立体声。其中，原始语音信号可以为采集的声音发出对象的单声道语音信号。在一些具体的实施例中，虚拟立体声生成过程包括：对于采集的单声道信号，基于匹配的空间音效模板中的音效参数目标方位、混响参数和距离参数，首先基于hrtf技术生成立体声，然后进行距离音量调节，最后进行混响处理得到双声道立体声信号。
[0130]
本技术还提供一种应用场景，该应用场景应用上述的语音播放方法。在该应用场景中，声音发出对象与声音接收对象通过网络进行实时语音通话。具体地，参考图7，该语音播放方法在该应用场景的应用如下：
[0131]
步骤702、播放终端通过网络获取声音发出对象的实时语音作为原始语音，并采集当前所处播放环境的环境声音。
[0132]
步骤704、播放终端对环境声音进行切分，得到声音子片段。
[0133]
步骤706、对声音子片段进行提取功率谱或者梅尔倒谱系数，得到声音子片段对应的子片段特征。
[0134]
步骤708、将子片段特征输入声学场景识别模型中，得到声音子片段对应的片段声学场景。
[0135]
步骤710、对声音子片段对应的片段声学场景进行统计，得到各个片段声学场景对应的场景数量，选取场景数量最大的片段声学场景作为播放终端所处的当前声学场景。
[0136]
其中，声学场景包括三类：喧闹的场景、幽静的场景及普通场景，普通场景为介于喧闹的场景和幽静的场景之间的场景。
[0137]
步骤712、获取与当前声学场景匹配的目标空间音效模板，目标空间音效模板与目标语音交互方式匹配，目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式。
[0138]
可以预先配置6个候选空间音效模板，包括贴耳交流模板、漫步移动交流模板、讲演式模板、出奇式交流模板、环绕式模板、飞入飞出式模板，其中，贴耳交流模板指的是声音发出对象近距离，靠近声音接收对象耳朵进行交流；漫步移动交流模板指的是声音发出对象处在一定距离范围内，按照随机或设定的运动轨迹，慢速运动中跟声音接收对象进行交流；讲演式模板指的是声音发出对象处在中远距离，声音洪亮且伴有一定混响效果；出奇式
交流模板指的是声音发出对象所处位置不固定且运动轨迹是随机的，例如：前一句话时出现在声音接收对象左前方，后一句话时出现声音接收对象后方，下一句话时贴近声音接收对象耳边，给人惊奇的听觉体验；环绕式模板指的是声音发出对象保持与声音接收对象一定的距离，在水平方位上围绕声音接收对象360度旋转着交流；飞入飞出式模板指的是声音发出对象从远方以较高速度往声音接收对象位置靠近，或者从接近声音接收对象的位置往远处以较高速度移走。
[0139]
每个空间音效模板包含了一系列的声像方位、距离、混响参数等，根据这些参数通过相关的技术实现虚拟立体声生成，生成的立体声通过耳机或多扬声器进行播放，这里的多扬声器播放涉及双声道到多声道的upmix转换和串音消除技术。
[0140]
当当前声学场景为喧闹的场景时，播放终端获取贴耳交流模板作为目标空间音效模板；当当前声学场景为幽静的场景时，播放终端可以选取出奇式交流模板、环绕式模板、飞入飞出式模板三个空间音效模板，并提供选择界面，用户可以从这三个空间音效模板中选取一个作为目标空间音效模板；当当前声学场景为普通的场景时，播放终端可以选取出讲演式模板、出奇式交流模板两个空间音效模板，并提供选择界面，用户可以从这两个空间音效模板中选取一个作为目标空间音效模板。
[0141]
或者还可以将普通场景细分为自然场景，例如小树林，此时，播放终端可以选取漫步移动交流模板作为目标空间音效模板，还可以将普通场景细分为开阔的场景例如大球场，此时，播放终端可以选取讲演式模板作为目标空间音效模板。
[0142]
步骤714、根据空间音效模板中的目标方位，播放终端可以从hrir数据库中确定与之匹配的方位数据，将该方位数据对应的hrir数据与原始语音信号进行卷积生成虚拟立体声。
[0143]
步骤716、根据空间音效模板中的距离参数确定原始语音的声音对立体声进行调整，并根据空间音效模板中的混响参数进行混响处理，以得到具有混响效果的立体声音信号。
[0144]
在该应用场景中，通过使现实声学环境与虚拟空间声学相结合的技术，能解决用户在不同声学场景下不同的听觉需求以及全新的听觉体验。通过空间音效方式呈现出实际现场听觉体验，语音听感质量得到了明显提升。
[0145]
本技术还提供另外一种应用场景，该应用场景应用上述的语音播放方法。在该应用场景中，声音发出对象与声音接收对象通过网络进行即时语音通话。
[0146]
在该应用场景中，播放终端将声音发出对象发送的语音消息确定为原始语音，当播放终端接收到声音接收对象触发对原始语音的播放操作时，采集当前所处播放环境中的环境声音时，对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景，获取与所述当前声学场景匹配的目标空间音效模板，根据所述目标空间音效模板中的目标音效参数，对语音消息进行处理得到目标语音，并播放该目标语音。在该应用场景中，当播放终端获取到与当前声学场景匹配的空间音效模板包括多个时，播放终端可弹出选择空间音效模板的提示框，提示用户选择一个空间音效模板作为目标空间音效模板。
[0147]
参考图8，为一些实施例中，播放终端在会话界面展示选择空间音效模板提示框的示意图。本实施例中，当用户点击语音消息802时，播放终端即接收到用户对语音消息的播放操作，在当前声学场景确定之后，获取到与当前声学场景匹配的空间音效模板包括出奇
式交流模板、环绕式模板和飞入飞出模板，在会话界面800展示选择空间音效模板的提示框804，终端可以点击任意一个空间音效模型对应的文字信息对该空间音效模板进行选取，播放终端将用户选择的空间音效模板确定为目标空间音效模板。提示框804中还可以展示不使用空间音效模板的选项，当用户点击不使用空间音效模板，播放终端播放未进行任何空间音效处理的语音消息。
[0148]
在一些实施例中，当会话界面图有多个待播放的语音消息时，在接收到当前语音消息的播放操作，则执行声学场景识别，当识别得到当前声学场景时，则弹出选择空间音效模板提示框的界面。在用户选择了目标空间音效模板之后，对于下一个语音消息，播放终端继续进行声学场景识别，如果识别得到的声学场景保持不变(即与上一条语音消息的声学场景相同)，则自动采用用户在上一条语音消息选择的空间音效模板作为该语音消息对应的目标空间音效模板，如果识别得到的当前声学场景变化，则弹出选择变化后的声学场景对应的空间音效模板的提示框。
[0149]
应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0150]
在一些实施例中，如图9所示，提供了一种语音播放装置900，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：
[0151]
语音获取模块902，用于获取待播放的原始语音，获取原始语音的播放终端当前所处播放环境中的环境声音；
[0152]
场景识别模块904，用于对环境声音进行场景识别，得到播放终端所处的当前声学场景；
[0153]
模板获取模块906，用于获取与当前声学场景匹配的目标空间音效模板，目标空间音效模板与目标语音交互方式匹配，目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式；
[0154]
语音处理模块908，用于根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，以在播放终端中播放目标语音。
[0155]
上述语音播放装置，获取待播放的原始语音，获取原始语音的播放终端当前所处播放环境中的环境声音，对环境声音进行场景识别，识别得到播放终端所处的当前声学场景，获取与当前声学场景匹配的目标空间音效模板，根据目标空间音效模板中的目标音效参数，对原始语音进行处理得到目标语音，以在播放终端中播放目标语音，由于目标语音是根据目标空间音效模板中的目标音效参数对原始语音进行处理得到的，目标空间音效模板与目标语音交互方式匹配，而目标语音交互方式为当前声学场景下，声音接收对象的期望语音交互方式，因此得到的目标语音能够满足声音接收对象的听觉需求，提高听感质量。
[0156]
在一些实施例中，期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；模板获取模块还用于获取候选空间音效模板集合；候选空间音效模板集合包括多个不同语音交互位置关系对应的候选空间音效模板；从候选空间音效模板集
合中，选取得到与当前声学场景匹配的目标空间音效模板，其中，目标空间音效模板对应的语音交互位置关系与当前声学场景对应的期望语音交互位置关系匹配。
[0157]
在一些实施例中，候选空间音效模板集合包括语音交互位置关系变化的候选空间音效模板；模板获取模块还用于当当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0158]
在一些实施例中，目标空间音效模板包括与动态交互位置关系对应的目标声音方位参数序列；语音处理模块还用于将原始语音切分为目标声音方位参数序列中的参数数量的语音片段；根据语音片段在原始语音中的顺序，确定目标声音方位参数序列中语音片段对应的目标声音方位参数；根据语音片段对应的目标声音方位参数对语音片段进行处理，得到处理后的语音片段，各个处理后的语音片段按照语音顺序形成目标语音。
[0159]
在一些实施例中，候选空间音效模板集合包括语音交互位置关系固定的候选空间音效模板；模板获取模块，还用于当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0160]
在一些实施例中，期望语音交互位置关系包括期望语音交互距离；模板获取模块还用于当当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从候选空间音效模板集合中，选取音效参数对应的声音距离固定，且声音距离与期望语音交互距离匹配的候选空间音效模板，作为与当前声学场景匹配的目标空间音效模板。
[0161]
在一些实施例中，期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；目标音效参数包括与期望语音交互位置关系匹配的位置关系音效参数；语音处理模块还用于利用目标空间音效模板中的位置关系音效参数，对原始语音进行语音处理，得到目标语音，以使得目标语音与期望语音交互位置关系匹配。
[0162]
在一些实施例中，期望语音交互位置关系包括期望语音交互距离以及期望交互方位；位置关系音效参数包括方位相关音效参数以及距离相关音效参数；语音处理模块还用于利用方位相关音效参数对原始语音的方位进行处理，以及利用距离相关音效参数对原始语音的声压进行处理，得到目标语音；以使得目标语音的方位与期望交互方位匹配，目标语音的声压与期望语音交互距离匹配。
[0163]
在一些实施例中，目标空间音效模板还与目标语音交互效果匹配，目标语音交互效果为当前声学场景下，声音接收对象的期待语音交互效果，目标音效参数包括与目标语音交互效果匹配的语音效果调整参数；语音处理模块还用于利用目标空间音效模板中的位置关系音效参数以及语音效果调整参数对原始语音进行处理，得到目标语音。
[0164]
在一些实施例中，场景识别模块还用于获取环境声音对应的多个声音子片段，对声音子片段进行特征提取，得到子片段特征；基于子片段特征识别得到声音子片段对应的片段声学场景；对声音子片段对应的片段声学场景进行统计，得到各个片段声学场景对应的场景数量；选取场景数量最大的片段声学场景作为播放终端所处的当前声学场景。
[0165]
关于语音播放装置的具体限定可以参见上文中对于语音播放方法的限定，在此不再赘述。上述语音播放装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储
于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0166]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是播放终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音播放方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0167]
本领域技术人员可以理解，图10中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0168]
在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0169]
在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0170]
在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
[0171]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
[0172]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0173]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：

1.一种语音播放方法，其特征在于，所述方法包括：获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。2.根据权利要求1所述的方法，其特征在于，所述期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；得到与所述当前声学场景匹配的目标空间音效模板的步骤包括：获取候选空间音效模板集合；所述候选空间音效模板集合包括多个不同语音交互位置关系对应的候选空间音效模板；从所述候选空间音效模板集合中，选取得到与所述当前声学场景匹配的目标空间音效模板，其中，所述目标空间音效模板对应的语音交互位置关系与所述当前声学场景对应的期望语音交互位置关系匹配。3.根据权利要求2所述的方法，其特征在于，所述候选空间音效模板集合包括语音交互位置关系变化的候选空间音效模板；所述从所述候选空间音效模板集合中，选取得到与所述当前声学场景匹配的目标空间音效模板包括：当所述当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，从所述候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。4.根据权利要求3所述的方法，其特征在于，所述目标空间音效模板包括与所述动态交互位置关系对应的目标声音方位参数序列；所述根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音包括：将所述原始语音切分为所述目标声音方位参数序列中的参数数量的语音片段；根据所述语音片段在所述原始语音中的顺序，确定所述目标声音方位参数序列中所述语音片段对应的目标声音方位参数；根据所述语音片段对应的目标声音方位参数对所述语音片段进行处理，得到处理后的语音片段，各个所述处理后的语音片段按照语音顺序形成所述目标语音。5.根据权利要求2所述的方法，其特征在于，所述候选空间音效模板集合包括语音交互位置关系固定的候选空间音效模板；所述从所述候选空间音效模板集合中，选取得到与所述当前声学场景匹配的目标空间音效模板包括：当所述当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从所述候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。6.根据权利要求5所述的方法，其特征在于，所述期望语音交互位置关系包括期望语音
交互距离；所述当所述当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从所述候选空间音效模板集合中，选取语音交互位置关系固定的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板包括：当所述当前声学场景对应的当前语音交互位置关系为固定交互位置关系时，从所述候选空间音效模板集合中，选取音效参数对应的声音距离固定，且所述声音距离与所述期望语音交互距离匹配的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。7.根据权利要求1所述的方法，其特征在于，所述期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；所述目标音效参数包括与所述期望语音交互位置关系匹配的位置关系音效参数；所述根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音包括：利用所述目标空间音效模板中的位置关系音效参数，对所述原始语音进行语音处理，得到目标语音，以使得所述目标语音与所述期望语音交互位置关系匹配。8.根据权利要求7所述的方法，其特征在于，所述期望语音交互位置关系包括期望语音交互距离以及期望交互方位；所述位置关系音效参数包括方位相关音效参数以及距离相关音效参数；所述利用所述目标空间音效模板中的位置关系音效参数，对所述原始语音进行语音处理，得到目标语音包括：利用所述方位相关音效参数对所述原始语音的方位进行处理，以及利用所述距离相关音效参数对所述原始语音的声压进行处理，得到目标语音；以使得所述目标语音的方位与所述期望交互方位匹配，所述目标语音的声压与所述期望语音交互距离匹配。9.根据权利要求7所述的方法，其特征在于，所述目标空间音效模板还与目标语音交互效果匹配，所述目标语音交互效果为所述当前声学场景下，声音接收对象的期待语音交互效果，所述目标音效参数包括与所述目标语音交互效果匹配的语音效果调整参数；所述利用所述目标空间音效模板中的位置关系音效参数，对所述原始语音进行语音处理，得到目标语音包括：利用所述目标空间音效模板中的位置关系音效参数以及所述语音效果调整参数对所述原始语音进行处理，得到目标语音。10.根据权利要求1所述的方法，其特征在于，所述对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景包括：获取所述环境声音对应的多个声音子片段，对所述声音子片段进行特征提取，得到子片段特征；基于所述子片段特征识别得到所述声音子片段对应的片段声学场景；对所述声音子片段对应的片段声学场景进行统计，得到各个片段声学场景对应的场景数量；选取场景数量最大的片段声学场景作为所述播放终端所处的当前声学场景。11.一种语音播放装置，其特征在于，所述装置包括：
语音获取模块，用于获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；场景识别模块，用于对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；模板获取模块，用于获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；语音处理模块，用于根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。12.根据权利要求11所述的装置，其特征在于，所述期望语音交互方式包括声音接收对象与声音发出对象之间的期望语音交互位置关系；所述模板获取模块还用于获取候选空间音效模板集合；所述候选空间音效模板集合包括多个不同语音交互位置关系对应的候选空间音效模板；从所述候选空间音效模板集合中，选取得到与所述当前声学场景匹配的目标空间音效模板，其中，所述目标空间音效模板对应的语音交互位置关系与所述当前声学场景对应的期望语音交互位置关系匹配。13.根据权利要求12所述的装置，其特征在于，所述候选空间音效模板集合包括语音交互位置关系变化的候选空间音效模板；所述模板获取模块还用于当所述当前声学场景所对应的当前语音交互位置关系为动态交互位置关系时，从所述候选空间音效模板集合中，选取语音交互位置关系变化的候选空间音效模板，作为与所述当前声学场景匹配的目标空间音效模板。14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

技术总结

本申请涉及一种语音播放方法、装置、计算机设备和存储介质。所述方法包括：获取待播放的原始语音，获取所述原始语音的播放终端当前所处播放环境中的环境声音；对所述环境声音进行场景识别，得到所述播放终端所处的当前声学场景；获取与所述当前声学场景匹配的目标空间音效模板，所述目标空间音效模板与目标语音交互方式匹配，所述目标语音交互方式为所述当前声学场景下，声音接收对象的期望语音交互方式；根据所述目标空间音效模板中的目标音效参数，对所述原始语音进行处理得到目标语音，以在所述播放终端中播放所述目标语音。采用本方法能够提高所播放的语音的听感质量。法能够提高所播放的语音的听感质量。法能够提高所播放的语音的听感质量。