语音应答方法、装置、计算机设备及计算机可读存储介质与流程

1.本发明涉及人工智能技术的语音合成技术领域，具体而言，本发明涉及一种语音应答方法、装置、计算机设备及计算机可读存储介质。

背景技术：

2.随着人工智能的发展，机器人发挥着越来越重要的作用，如当前很多公司通过机器客服，采用预设的语音问答方法与客户进行语音问答，大大的提高了服务效率。
3.但现有的客服机器人都是采用统一的语音问答方式，针对不同客户提的相同问题采用同种应答方式，导致应答过于机械化，因此，语音问答的灵活性较差，影响用户使用体验。

技术实现要素：

4.本发明的主要目的为提供一种语音应答方法、装置、计算机设备及计算机可读存储介质，以提升语音问答的灵活性，提高用户体验。
5.为了实现上述发明目的，本发明提供一种语音应答方法，其包括：
6.在与用户语音交互时，接收用户的语音数据；
7.将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
8.将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
9.根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
10.将所述应答语音发送给所述用户。
11.优选地，所述语音特征包括声纹特征，所述根据所述答复文本及所述语音特征合成应答语音，包括：
12.将所述答复文本与声纹特征进行特征融合，得到融合特征；
13.利用声码器对所述融合特征进行音频合成，得到应答语音。
14.优选地，所述语音特征包括语调特征，所述根据所述答复文本及所述语音特征合成应答语音，包括：
15.从数据库中查询与所述语调特征相对应的目标语调特征；
16.将所述答复文本转换为对应的文本向量；
17.确定所述目标语调特征对应的向量，得到语调特征向量；
18.将所述文本向量与所述语调特征向量拼接后输入声学模型，得到对应的声学特征；
19.将所述声学特征转换为可播放的应答语音。
20.在一实施例中，所述将所述语音数据转换成语音文本，包括：
21.对所述语音数据进行预处理，得到语音信息；
22.提取所述语音信息中的内容，得到语音内容；
23.利用维特比算法对所述语音内容进行解码处理，得到语音最优路径；
24.根据所述语音最优路径确定所述语音文本。
25.优选地，所述将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图，包括：
26.将所述语音文本输入预先训练好的意图识别模型中，调用所述意图识别模型对所述语音文本进行分句处理，得到多个语句；
27.从预先构建的向量表中查询每个语句对应的语句向量，计算多个语句对应的语句向量的平均值，得到平均语句向量；
28.从预先构建的标准语句库中获取多个标准语句向量；
29.计算每个所述标准语句向量与所述平均语句向量的相似度；
30.将所述相似度最高的标准语句向量确定为目标语句向量，并将与所述目标语句向量对应的意图确定为所述语音文本的用户意图。
31.进一步地，所述将所述语音数据输入预先训练好的意图识别模型中，确定所述语音文本的用户意图之前，还包括：
32.获取训练数据；其中，所述训练数据包括多个语音文本样本及每个语音文本样本对应的目标意图识别结果；
33.将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模型。
34.优选地，所述将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模型，包括：
35.将所述训练数据输入预先构建的神经网络模型进行训练，利用预设的损失函数计算训练后的所述神经网络模型的损失值；
36.判断所述损失值是否低于预设损失值；
37.若是，则判定所述神经网络模型的训练结果满足要求，将训练结果满足要求的神经网络模型作为所述训练好的意图识别模型。
38.本发明还提供一种语音应答装置，其包括：
39.接收模块，用于在与用户语音交互时，接收用户的语音数据；
40.输入模块，用于将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
41.确定模块，用于将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
42.合成模块，用于根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
43.发送模块，用于将所述应答语音发送给所述用户。
44.本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
45.本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算
机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
46.本发明所提供的一种语音应答方法、装置、计算机设备及计算机可读存储介质，在与用户语音交互时，接收用户的语音数据，将语音数据输入预先训练好的语音提取模型中，确定语音数据的语音特征，将语音数据转换成语音文本，将语音文本输入预先训练好的意图识别模型中，确定语音文本的用户意图，根据用户意图确定答复文本，根据答复文本及语音特征合成应答语音，将应答语音发送给用户，由于不同用户的语音特征会具有差异，因此，本发明结合用户的语音特征合成相应的应答语音，实现针对不同用户的语音数据做出不同的语音答复，提升语音问答的灵活性，进而提高用户体验。
附图说明
47.图1为本发明一实施例的语音应答方法的流程示意图；
48.图2为本发明又一实施例的语音应答方法的流程示意图；
49.图3为本发明又一实施例的语音应答方法的流程示意图；
50.图4为本发明另一实施例的语音应答方法的流程示意图；
51.图5为本发明又一实施例的语音应答方法的流程示意图；
52.图6为本发明另一实施例的语音应答方法的流程示意图；
53.图7为本发明又一实施例的语音应答方法的流程示意图；
54.图8为本发明一实施例的语音应答装置的结构示意框图；
55.图9为本发明一实施例的计算机设备的结构示意框图。
56.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
57.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
58.本发明提出一种语音应答方法，本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
59.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
60.本发明提出的一种语音应答方法，以服务器为执行主体，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
61.该语音应答方法用于解决当前的客服机器人都是采用统一的语音问答方式，针对不同客户提的相同问题采用同种应答方式，应答过于机械化，语音问答的灵活性较差，影响
用户体验的技术问题。参考图1，其中一个实施例中，该语音应答方法包括以下步骤s11-s15：
62.s11、在与用户语音交互时，接收用户的语音数据；
63.s12、将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
64.s13、将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
65.s14、根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
66.s15、将所述应答语音发送给所述用户。
67.如上述步骤s11所述，在、售后服务及智能问答等语音交互过程中，用户所在客户端可以向服务器发送语音数据，语音数据可以含有用户所提的问题，服务器接收用户的语音数据，识别出语音数据中用户所提的问题，并从数据库中查询该问题对应的标准答案，基于该标准答案进行答复，以此完成语音应答。
68.如上述步骤s12所述，本实施例将语音数据输入预先训练好的语音提取模型中，利用语音提取模型确定所述语音数据的语音特征。其中，语音提取模型为预先训练好的神经网络模型，用于提取语音数据的语音特征，所述语音特征包括所述用户的声纹、语调和语速等用于反映用户发音的特征。
69.在一实施例中，在对语音提取模型进行训练时，可预先获取大量的语音数据样本及每个语音数据样本已确定的标准语音特征，将语音数据样本及对应的标准语音特征作为训练样本，将训练样本输入预先构建的起始神经网络模型进行迭代训练，在起始神经网络模型满足迭代条件时，获取该起始神经网络模型训练后的训练结果，判断训练结果是否满足要求，若是，则将训练后的起始神经网络模型作为训练好的语音提取模型。其中，该迭代条件包括训练时间或训练次数。
70.此外，训练样本及训练好的语音提取模型能够存储于区块链中，以使服务器需要使用是对区块链进行广播，并调用训练好的意图识别模型。该区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
71.如上述步骤s13所述，本实施例将语音数据转换成语音文本，而为了获取语音数据中的语音文本，方便后续的语音文本处理，本一个实施例中，需要将语音数据转换成文字，因此，可利用文本识别模型对所述语音数据进行文本识别处理，得到语音数据中的语音文本。此外，还可将语音数据分成多个语音片段，利用asr(automatic speech recognition，自动语音识别)技术将语音数据中的每个语音片段转换成文本，最后组成语音文本。
72.进一步地，为了保证文本识别的准确性，还可对语音文本进行文本纠错处理，得到标准文本，其中，所述文本纠错处理时将语音文本中预设错误类型的文本错误进行纠正，错误类型包括：谐音字词，如：配副眼睛-配副眼镜；混淆音字词。
73.在得到语音文本后，将所述语音文本输入预先训练好的意图识别模型中，确定语
音文本的用户意图，其中，语音提取模型为预先训练好的神经网络模型，用于确定语音文本的用户意图。
74.如上述步骤s14-s15所述，本实施例可构建对照表，用于查询每种用户意图对应的答复文本，该答复文本一般为标准答复内容。在需要答复用户时，根据用户意图，从对照表中查询该用户意图对应的答复文本，根据答复文本及语音特征合成应答语音，将合成后的所述应答语音发送给用户，以答复用户的语音数据。
75.其中，语音合成是指通过文字人工生成人类的声音，也就是让设备根据相应的输入文本发出语音，近年来，神经语音合成系统高速发展，摆脱了传统冗杂的合成流程，不再依赖高度专业的文法、词法特征提取，而是将原始文本经过神经网络转成梅尔谱，再将梅尔谱转成声音波形，实现了端到端的语音合成系统，所合成的语音质量近似人声，其在人工智能行业有着非常重要的应用，比如语音助手和各种场景的翻译、有声读物、新闻播报、ai电话和ai主播等。
76.本实施例可利用语音合成模型合成应答语音，所述语音合成模型(text to speech，tts)是指用于将文本转换成语音的模型，语音合成模型可包括：编码层、注意力机制以及全连接层，所述编码层用于对答复文本进行向量位置编码，以将答复文本转换成文本向量，及记录文本向量的位置信息，注意力机制用于对所述文本向量进行音频特征提取，以生成声音频谱，所述全连接层用于输出所述声音频谱，以生成应答语音。本实施例通过语音合成技术和神经网络技术来分析用户的语音数据，使得输出的应答语音更接近用户本人的语音特征，从而更具亲和力。
77.本发明所提供的一种语音应答方法，在与用户语音交互时，接收用户的语音数据，将语音数据输入预先训练好的语音提取模型中，确定语音数据的语音特征，将语音数据转换成语音文本，将语音文本输入预先训练好的意图识别模型中，确定语音文本的用户意图，根据用户意图确定答复文本，根据答复文本及语音特征合成应答语音，将应答语音发送给用户，由于不同用户的语音特征会具有差异，因此，本发明结合用户的语音特征合成相应的应答语音，实现针对不同用户的语音数据做出不同的语音答复，提升语音问答的灵活性，进而提高用户体验。
78.在一实施例中，参考图2所示，所述语音特征包括声纹特征，所述根据所述答复文本及所述语音特征合成应答语音，可具体包括以下步骤s21-s22：
79.s21、将所述答复文本与声纹特征进行特征融合，得到融合特征；
80.s22、利用声码器对所述融合特征进行音频合成，得到应答语音。
81.在本实施例中，可利用语音转换模型中的解码器对答复文本与声纹特征进行特征融合，得到融合特征，利用语音转换模型中的声码器对融合特征进行音频合成，得到应答语音。
82.所述语音转换模型用于将答复文本与声纹特征进行特征融合，以使可以通过用户语音的声纹表达答复文本的语义，其包括声码器和解码器，所述解码器用于融合所述答复文本与声纹特征；所述声码器用于对融合特征进行音频合成，得到应答语音。
83.本实施例通过声码器对融合特征进行音频合成，可以获取答复文本与任意用户的声纹特征的合成结果，从而可以通过任意用户语音的音表征答复文本的合成语音，形成答复文本的定制化用户个性答复语音，使得输出的应答语音更接近用户本人的声纹特征，
从而更具亲和力。其中，所述声码器通过griffin-lim算法构建，所述griffin-lim算法通过幅度谱和相位谱重新构建语音波形信号，以实现音频识别，因此，本实施例中根据融合特征进行幅度谱和相位谱，利用声码器重新构建融合特征的语音信号，以得到应答语音。
84.在一实施例中，在将答复文本与声纹特征进行特征融合时，可将答复文本转换为向量形式，得到答复文本向量，将声纹特征转换为向量形式，得到声纹特征向量，将答复文本向量与声纹特征向量进行组合后，得到融合特征。
85.在一实施例中，参考图3所示，所述语音特征包括语调特征，所述根据所述答复文本及所述语音特征合成应答语音，可具体包括以下步骤s31-s35：
86.s31、从数据库中查询与所述语调特征相对应的目标语调特征；
87.s32、将所述答复文本转换为对应的文本向量；
88.s33、确定所述目标语调特征对应的向量，得到语调特征向量；
89.s34、将所述文本向量与所述语调特征向量拼接后输入声学模型，得到对应的声学特征；
90.s35、将所述声学特征转换为可播放的应答语音。
91.在本实施例中，数据库预先记录了每种语调特征相对应的目标语调特征，例如，当用户是语调较高的语调特征时，则对应的目标语调特征为语调较低，以选取合适的语调特征合成应答语音，从而缓和气氛。
92.在确定目标语调特征后，本实施例可利用word2vec模型将答复文本转换为向量形式，得到答复文本对应的文本向量，并确定目标语调特征对应的向量，得到语调特征向量，将文本向量与语调特征向量进行拼接后输入声学模型，得到对应的声学特征。
93.word2vec模型能将自然语言中的单词表征为一个实数值的稠密向量。word2vec模型是能够进行词共现分析的一个三层神经网络，用大量语料库训练word2vec模型可以把对语料库中出现的单词的处理转化为对k维向量空间中向量的运算，可以利用向量之间的相似度来表示单词的相似度，进而来表示文本语义的相似度。因此，可以利用训练word2vec模型所得到的向量来做很多自然语言处理相关的工作。
94.声学模型可采用encoder-decoder的结构，主要使用cnn、双向lstm以及线性层进行搭建。具体包括编码单元和解码单元，所述编码单元包括2层cnn模型和2层双向lstm模型，并加入了自注意力机制，用于学习单词之间的间隔，以更好地学习文本和声学特征的对齐关系。另外，每两层网络之间使用relu(rectified linear unit，线性整流函数)激活函数进行非线性激活。所述解码单元包括1层cnn模型和3层双向lstm模型，在最后一层的双向lstm后连接了全连接层，用于生成指定维度的声学特征，如生成160维的声学特征。其中，所述声学特征为梅尔谱特征。
95.其中，可播放的应答语音中具有用户的语调特征，即以与用户相同的句式播放合成的应答语音。举个例子，如果用户的句式为疑问句，最后则以疑问句的语调播放应答语音；如果用户的句式为陈述句，最后则以陈述句的语调播放应答语音。
96.在一实施例中，参考图4所示，所述将所述语音数据转换成语音文本，可具体包括以下步骤s41-s44：
97.s41、对所述语音数据进行预处理，得到语音信息；
98.s42、提取所述语音信息中的内容，得到语音内容；
99.s43、利用维特比算法对所述语音内容进行解码处理，得到语音最优路径；
100.s44、根据所述语音最优路径确定所述语音文本。
101.本实施例可通过对语音数据进行预处理，能够从语音数据中剔除掉干扰信息，得到语音信息，进而利用维特比算法对所述语音信息中的语音内容进行解码，得到语音最优路径，根据所述语音最优路径能够准确地将所述语音内容转换为所述文本信息。
102.其中，维特比算法是一种动态规划算法用于寻最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。其中的"维特比路径"和"维特比算法"也被用于寻观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串。
103.在一实施例中，参考图5所示，所述将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图，可具体包括以下步骤s51-s55：
104.s51、将所述语音文本输入预先训练好的意图识别模型中，调用所述意图识别模型对所述语音文本进行分句处理，得到多个语句；
105.s52、从预先构建的向量表中查询每个语句对应的语句向量，计算多个语句对应的语句向量的平均值，得到平均语句向量；
106.s53、从预先构建的标准语句库中获取多个标准语句向量；
107.s54、计算每个所述标准语句向量与所述平均语句向量的相似度；
108.s55、将所述相似度最高的标准语句向量确定为目标语句向量，并将与所述目标语句向量对应的意图确定为所述语音文本的用户意图。
109.在无法通过正则表达式确定出意图时，可通过调用意图识别模型对语音文本进行分句处理，得到多个语句，从预先构建的向量表中查询每个语句对应的语句向量，计算多个语句所对应的语句向量的平均值，得到平均语句向量，从预先构建的标准语句库中获取多个标准语句向量，计算每个所述标准语句向量与所述平均语句向量的相似度，将相似度最高的标准语句向量确定为目标语句向量，并将与目标语句向量对应的意图确定为语音文本的用户意图，从而能够准确确定出所述语音文本的用户意图，确保所述语音数据的意图能够被识别，从而提高意图识别的准确率。其中，所述向量表中包括语句与向量的映射关系，所述标准语句库中存储有多个标准语句向量以及每个标准语句向量所对应的意图。
110.在一实施例中，参考图6所示，所述将所述语音数据输入预先训练好的意图识别模型中，确定所述语音文本的用户意图之前，还可包括以下步骤s61-s62：
111.s61、获取训练数据；其中，所述训练数据包括多个语音文本样本及每个语音文本样本对应的目标意图识别结果；
112.s62、将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模型。
113.本实施例的训练数据中包括多个语音文本样本及每个语音文本样本对应的目标意图识别结果，利用训练样本对预先构建的神经网络模型进行训练，在训练过程中不断调整神经网络模型的参数，直至得到训练合格的神经网络模型。其中，训练数据的数量需大于预设数据量，训练数据的数量越多，则训练得到的意图识别模型越收敛，识别精度越高。
114.当训练数据的数据量低于预设值时，则可利用数据增强算法对训练数据进行扩增
处理，得到数据量大于预设值的训练数据，该数据增强算法可可以是对语音文本样本进行随机剪切，得到多段子语音文本样本，然后从多段子语音文本样本中任意选取两段进行拼接，得到扩增处理后的一段语音文本样本，并将其作为训练数据；此外，还可对语音文本样本中的文字进行随机替换，得到扩增处理后的一段语音文本样本，并将其作为训练数据，本发明不做具体限定。
115.在一实施例中，参考图7所示，所述将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模型，可具体包括以下步骤s71-s73：
116.s71、将所述训练数据输入预先构建的神经网络模型进行训练，利用预设的损失函数计算训练后的所述神经网络模型的损失值；
117.s72、判断所述损失值是否低于预设损失值；
118.s73、若是，则判定所述神经网络模型的训练结果满足要求，将训练结果满足要求的神经网络模型作为所述训练好的意图识别模型。
119.在本实施例中，在对神经网络模型进行训练后，可利用预设的损失函数计算训练完成后的神经网络模型的损失值，并在损失值满足预设阈值或小于预设损失值时，即满足要求，则表明神经网络模型达到训练要求，完成所述神经网络模型的训练，以提高意图识别模型的识别效果。其中，损失函数用来评价神经网络模型的预测值和真实值不一样的程度，损失函数越好，通常神经网络模型的性能越好。
120.当神经网络模型的损失值不小于预设损失值时，可根据损失值在神经网络模型的神经网络结构中进行前向传递，调整神经网络模型的相关参数，基于重新设置的相关参数对调整后的神经网络模型进行重新训练，直至神经网络模型的损失值小于预设损失值为止，至此神经网络模型训练结束，得到训练结果满足要求的神经网络模型，进而得到训练好的意图识别模型。
121.参照图8，本发明实施例中还提供一种语音应答装置，所述装置包括：
122.接收模块11，用于在与用户语音交互时，接收用户的语音数据；
123.输入模块12，用于将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
124.确定模块13，用于将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
125.合成模块14，用于根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
126.发送模块15，用于将所述应答语音发送给所述用户。
127.在本实施例中，在、售后服务及智能问答等语音交互过程中，用户所在客户端可以向服务器发送语音数据，语音数据可以含有用户所提的问题，服务器接收用户的语音数据，识别出语音数据中用户所提的问题，并从数据库中查询该问题对应的标准答案，基于该标准答案进行答复，以此完成语音应答。
128.本实施例将语音数据输入预先训练好的语音提取模型中，利用语音提取模型确定所述语音数据的语音特征。其中，语音提取模型为预先训练好的神经网络模型，用于提取语音数据的语音特征，所述语音特征包括所述用户的声纹、语调和语速等用于反映用户发音的特征。
129.在一实施例中，在对语音提取模型进行训练时，可预先获取大量的语音数据样本及每个语音数据样本已确定的标准语音特征，将语音数据样本及对应的标准语音特征作为训练样本，将训练样本输入预先构建的起始神经网络模型进行迭代训练，在起始神经网络模型满足迭代条件时，获取该起始神经网络模型训练后的训练结果，判断训练结果是否满足要求，若是，则将训练后的起始神经网络模型作为训练好的语音提取模型。其中，该迭代条件包括训练时间或训练次数。
130.此外，训练样本及训练好的语音提取模型能够存储于区块链中，以使服务器需要使用是对区块链进行广播，并调用训练好的意图识别模型。该区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
131.本实施例将语音数据转换成语音文本，而为了获取语音数据中的语音文本，方便后续的语音文本处理，本一个实施例中，需要将语音数据转换成文字，因此，可利用文本识别模型对所述语音数据进行文本识别处理，得到语音数据中的语音文本。此外，还可将语音数据分成多个语音片段，利用asr(automatic speech recognition，自动语音识别)技术将语音数据中的每个语音片段转换成文本，最后组成语音文本。
132.进一步地，为了保证文本识别的准确性，还可对语音文本进行文本纠错处理，得到标准文本，其中，所述文本纠错处理时将语音文本中预设错误类型的文本错误进行纠正，错误类型包括：谐音字词，如：配副眼睛-配副眼镜；混淆音字词。
133.在得到语音文本后，将所述语音文本输入预先训练好的意图识别模型中，确定语音文本的用户意图，其中，语音提取模型为预先训练好的神经网络模型，用于确定语音文本的用户意图。
134.本实施例可构建对照表，用于查询每种用户意图对应的答复文本，该答复文本一般为标准答复内容。在需要答复用户时，根据用户意图，从对照表中查询该用户意图对应的答复文本，根据答复文本及所述语音特征合成应答语音，将合成后的所述应答语音发送给用户，以答复用户的语音数据。
135.其中，语音合成是指通过文字人工生成人类的声音，也就是让设备根据相应的输入文本发出语音，近年来，神经语音合成系统高速发展，摆脱了传统冗杂的合成流程，不再依赖高度专业的文法、词法特征提取，而是将原始文本经过神经网络转成梅尔谱，再将梅尔谱转成声音波形，实现了端到端的语音合成系统，所合成的语音质量近似人声，其在人工智能行业有着非常重要的应用，比如语音助手和各种场景的翻译、有声读物、新闻播报、ai电话和ai主播等。
136.本实施例可利用语音合成模型合成应答语音，所述语音合成模型(text to speech，tts)是指用于将文本转换成语音的模型，语音合成模型可包括：编码层、注意力机制以及全连接层，所述编码层用于对答复文本进行向量位置编码，以将答复文本转换成文本向量，及记录文本向量的位置信息，注意力机制用于对所述文本向量进行音频特征提取，以生成声音频谱，所述全连接层用于输出所述声音频谱，以生成应答语音。本实施例通过语音合成技术和神经网络技术来分析用户的语音数据，使得输出的应答语音更接近用户本人
的语音特征，从而更具亲和力。
137.如上所述，可以理解地，本发明中提出的所述语音应答装置的各组成部分可以实现如上所述语音应答方法任一项的功能，具体结构不再赘述。
138.参照图9，本发明实施例中还提供一种计算机设备，其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述语音应答方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音应答方法。
139.上述处理器执行上述的语音应答方法，包括：
140.在与用户语音交互时，接收用户的语音数据；
141.将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
142.将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
143.根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
144.将所述应答语音发送给所述用户。
145.本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音应答方法，包括步骤：
146.在与用户语音交互时，接收用户的语音数据；
147.将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；
148.将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；
149.根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；
150.将所述应答语音发送给所述用户。
151.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
152.综上所述，本发明的最大有益效果在于：
153.本发明所提供的一种语音应答方法、装置、计算机设备及计算机可读存储介质，在与用户语音交互时，接收用户的语音数据，将语音数据输入预先训练好的语音提取模型中，确定语音数据的语音特征，将语音数据转换成语音文本，将语音文本输入预先训练好的意图识别模型中，确定语音文本的用户意图，根据用户意图确定答复文本，根据答复文本及所述语音特征合成应答语音，将应答语音发送给用户，由于不同用户的语音特征会具有差异，因此，本发明结合用户的语音特征合成相应的应答语音，实现针对不同用户的语音数据做出不同的语音答复，提升语音问答的灵活性，进而提高用户体验。
154.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
155.以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：

1.一种语音应答方法，其特征在于，所述方法包括：在与用户语音交互时，接收用户的语音数据；将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；将所述应答语音发送给所述用户。2.根据权利要求1所述的方法，其特征在于，所述语音特征包括声纹特征，所述根据所述答复文本及所述语音特征合成应答语音，包括：将所述答复文本与声纹特征进行特征融合，得到融合特征；利用声码器对所述融合特征进行音频合成，得到应答语音。3.根据权利要求1所述的方法，其特征在于，所述语音特征包括语调特征，所述根据所述答复文本及所述语音特征合成应答语音，包括：从数据库中查询与所述语调特征相对应的目标语调特征；将所述答复文本转换为对应的文本向量；确定所述目标语调特征对应的向量，得到语调特征向量；将所述文本向量与所述语调特征向量拼接后输入声学模型，得到对应的声学特征；将所述声学特征转换为可播放的应答语音。4.根据权利要求1所述的方法，其特征在于，所述将所述语音数据转换成语音文本，包括：对所述语音数据进行预处理，得到语音信息；提取所述语音信息中的内容，得到语音内容；利用维特比算法对所述语音内容进行解码处理，得到语音最优路径；根据所述语音最优路径确定所述语音文本。5.根据权利要求1所述的方法，其特征在于，所述将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图，包括：将所述语音文本输入预先训练好的意图识别模型中，调用所述意图识别模型对所述语音文本进行分句处理，得到多个语句；从预先构建的向量表中查询每个语句对应的语句向量，计算多个语句对应的语句向量的平均值，得到平均语句向量；从预先构建的标准语句库中获取多个标准语句向量；计算每个所述标准语句向量与所述平均语句向量的相似度；将所述相似度最高的标准语句向量确定为目标语句向量，并将与所述目标语句向量对应的意图确定为所述语音文本的用户意图。6.根据权利要求1所述的方法，其特征在于，所述将所述语音数据输入预先训练好的意图识别模型中，确定所述语音文本的用户意图之前，还包括：获取训练数据；其中，所述训练数据包括多个语音文本样本及每个语音文本样本对应的目标意图识别结果；将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模
型。7.根据权利要求6所述的方法，其特征在于，所述将所述训练数据输入预先构建的神经网络模型进行训练，得到训练好的意图识别模型，包括：将所述训练数据输入预先构建的神经网络模型进行训练，利用预设的损失函数计算训练后的所述神经网络模型的损失值；判断所述损失值是否低于预设损失值；若是，则判定所述神经网络模型的训练结果满足要求，将训练结果满足要求的神经网络模型作为所述训练好的意图识别模型。8.一种语音应答装置，其特征在于，所述装置包括：接收模块，用于在与用户语音交互时，接收用户的语音数据；输入模块，用于将所述语音数据输入预先训练好的语音提取模型中，确定所述语音数据的语音特征；确定模块，用于将所述语音数据转换成语音文本，将所述语音文本输入预先训练好的意图识别模型中，确定所述语音文本的用户意图；合成模块，用于根据所述用户意图确定答复文本，根据所述答复文本及所述语音特征合成应答语音；发送模块，用于将所述应答语音发送给所述用户。9.一种计算机设备，其特征在于，包括：处理器；存储器；其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音应答方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-7任一项所述的语音应答方法。

技术总结

本发明为人工智能技术的语音合成技术领域，本发明提供了一种语音应答方法、装置、计算机设备及计算机可读存储介质，其中，所述方法包括：在与用户语音交互时，接收用户的语音数据，将语音数据输入预先训练好的语音提取模型中，确定语音数据的语音特征，将语音数据转换成语音文本，将语音文本输入预先训练好的意图识别模型中，确定语音文本的用户意图，根据用户意图确定答复文本，根据答复文本及语音特征合成应答语音，将应答语音发送给用户。本发明结合用户的语音特征合成相应的应答语音，实现针对不同用户的语音数据做出不同的语音答复，提升语音问答的灵活性，进而提高用户体验。进而提高用户体验。进而提高用户体验。