一种智能语音对话方法、装置以及系统与流程

1.本发明涉及智能语音对话技术领域，尤其涉及一种智能语音对话方法、装置、计算机可读存储介质及系统。

背景技术：

2.随着人口老龄化趋势的加剧和工业机器人技术的日趋成熟与完善，机器人开始逐步走入医疗、保健、家庭、体育和服务性行业，对机器人的要求也从简单重复的机械动作提升为研制具有高度智能型、自主性以及与其他智能体交互的仿人机器人。不同于传统的机器人，人们希望现代智能机器人能够交流，能理解人们说话时的注意力，使机器人更加智能化，也就是能更像人或者某些方面超过人类。现如今机器人朝着更加智能化的方向发展，让机器人的言行举止能达到或者超过人类的水平，利用自然语言处理技术并结合运动控制达到更加多样的人机交互场景。
3.在现有技术中，机器人朝着更加智能化的方向发展，通常使用经典语音声学模型和深度学习网络模型。在经典语音声学模型gmm-hmm(以下简称gh)中，其中gmm(高斯混合模型)用来对语音的观察概率进行建模，语音状态序列使用hmm(隐马尔科夫模型)进行建模；而深度学习网络模型则是将dnn(深度学习网络)融入语音识别框架中，其输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模，模型输出则保持了gh经常使用的trihone共享状态(senone)。
4.但是，现有技术仍存在如下缺陷：经典语音声学模型没有利用帧的上下文信息，gmm不能学习深层非线性特征变换；而深度学习网络模型不能利用历史信息来辅助当前任务，且运行时间长，需要高算力支持。
5.因此，当前需要一种智能语音对话方法、装置、计算机可读存储介质以及系统，从而克服现有技术中存在的上述缺陷。

技术实现要素：

6.本发明实施例提供一种智能语音对话方法、装置、计算机可读存储介质以及系统，从而提升用于支撑智能语音对话的模型性能。
7.本发明一实施例提供一种智能语音对话方法，所述智能语音对话方法包括：获取待执行的语音信息；通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征；根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。
8.作为上述方案的改进，在获取待执行的语音信息之前，所述智能语音对话方法还包括：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预
测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。
9.作为上述方案的改进，通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展以及融合以获取第一融合特征，具体包括：通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集；将所述第一语音特征集输入mlp网络中进行扩展，获得第二语音特征集；所述第二语音特征集包括多个第二语音特征；将所述第二语音特征进行多尺度融合，获得第一融合特征。
10.作为上述方案的改进，在通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集之前，还包括：对所述语音信息进行格式调整，以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
11.作为上述方案的改进，将所述第一语音识别对话模型输出为语音识别对话模型，具体包括：通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音识别对话模型；通过tensorrt对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
12.作为上述方案的改进，所述语音识别对话模型离线部署在终端。
13.本发明另一实施例对应提供了一种智能语音对话装置，所述智能语音对话装置包括信息获取单元、特征识别单元以及控制对话单元，其中，所述信息获取单元用于获取待执行的语音信息；所述特征识别单元用于通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征；所述控制对话单元用于根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。
14.作为上述方案的改进，所述智能语音对话装置还包括模型训练单元，所述模型训练单元用于：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。
15.作为上述方案的改进，所述特征识别单元还用于：通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集；将所述第一语音特征集输入mlp网络中进行扩展，获得第二语音特征集；所述第二语音特征集包括多个第二语音特征；将所述第二语音特征进行多尺度融合，获得第一融合特征。
16.作为上述方案的改进，所述特征识别单元还用于：对所述语音信息进行格式调整，以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
17.作为上述方案的改进，所述模型训练单元还用于：通过剪枝对所述第一语音识别
对话模型进行压缩以获取第二语音识别对话模型；通过tensorrt对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
18.本发明另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如前所述的智能语音对话方法。
19.本发明另一实施例提供了一种智能语音对话系统，所述智能语音对话系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如前所述的智能语音对话方法。
20.与现有技术相比，本技术方案存在如下有益效果：
21.本发明提供了一种智能语音对话方法、装置、计算机可读存储介质以及系统，通过提供基于纯自注意力机制的语音识别对话模型，在将语音信息切分为数据段后，对语音信息进行提取、扩展及融合，再根据融合后的第一融合特征控制输出相应的对话内容以进行对话，该方法、装置、计算机可读存储介质以及系统提升了用于支撑智能语音对话的模型性能。
22.进一步地，本发明提供的一种智能语音对话方法、装置、计算机可读存储介质以及系统还通过对模型进行推理加速，从而为智能离线实时语音对话提供最优模型，降低了硬件部署成本。
附图说明
23.图1是本发明一实施例提供的一种智能语音对话方法的流程示意图；
24.图2是本发明一实施例提供的一种智能语音对话装置的结构示意图。
具体实施方式
25.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.具体实施例一
27.本发明实施例首先描述了一种智能语音对话方法。图1是本发明一实施例提供的一种智能语音对话方法的流程示意图。
28.如图1所示，所述智能语音对话方法包括：
29.s1:获取待执行的语音信息。
30.现有技术中的经典语音声学模型和深度学习网络模型通常无法兼顾深层学习、运行速度和所需算力资源。对此，本发明实施例采用了纯自注意力机制算法，对待执行的语音信息进行编码和分割，从而加速模型推理速度并降低复杂度，进而提升用于支撑智能语音对话的模型性能。为了实现上述过程，在获取待执行的语音信息前，应当训练语音识别对话模型。在语音识别过程中，首先是采集语音信息并转换为文本，具体地，通过基于自注意力机制的语音识别对话模型，实时识别内容信息。相比于一般云端语音识别，本发明实施例在实施过程中能部署在终端离线运行，可以节约更多计算和网络传输成本，并能适应更多离
线极端环境。
31.在模型的训练过程中，需要获取文本语言的数据集以作为训练集(数据集包含各种句式词组，从而确保数据的多样性)，随后，构建纯自注意力网络模型，利用公开以及采集的数据集进行训练，生成最终的语音识别对话模型。
32.在一个实施例中，在获取待执行的语音信息之前，所述智能语音对话方法还包括：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。
33.为了使得模型尽可能地轻量化，在一个实施例中，将所述第一语音识别对话模型输出为语音识别对话模型，具体包括：通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音识别对话模型；通过tensorrt对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
34.s2:通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征。
35.在一个实施例中，所述语音识别对话模型离线部署在终端。
36.在一个实施例中，通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展以及融合以获取第一融合特征，具体包括：通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集；将所述第一语音特征集输入mlp网络中进行扩展，获得第二语音特征集；所述第二语音特征集包括多个第二语音特征；将所述第二语音特征进行多尺度融合，获得第一融合特征。
37.在一个实施例中，在通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集之前，还包括：对所述语音信息进行格式调整，以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
38.s3:根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。
39.本发明实施例描述了一种智能语音对话方法，通过提供基于纯自注意力机制的语音识别对话模型，在将语音信息切分为数据段后，对语音信息进行提取、扩展及融合，再根据融合后的第一融合特征控制输出相应的对话内容以进行对话，该方法提升了用于支撑智能语音对话的模型性能；进一步地，本发明实施例描述的一种智能语音对话方法还通过对模型进行推理加速，从而为智能离线实时语音对话提供最优模型，降低了硬件部署成本。
40.具体实施例二
41.除上述方法外，本发明实施例还公开了一种智能语音对话装置。图2是本发明一实施例提供的一种智能语音对话装置的结构示意图。
42.如图2所示，该智能语音对话装置包括信息获取单元11、特征识别单元12以及控制对话单元13。
43.其中，信息获取单元11用于获取待执行的语音信息。
44.特征识别单元12用于通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征。
45.在一个实施例中，特征识别单元12还用于：通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集；将所述第一语音特征集输入mlp网络中进行扩展，获得第二语音特征集；所述第二语音特征集包括多个第二语音特征；将所述第二语音特征进行多尺度融合，获得第一融合特征。
46.在一个实施例中，特征识别单元12还用于：对所述语音信息进行格式调整，以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
47.控制对话单元13用于根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。
48.在一个实施例中，所述智能语音对话装置还包括模型训练单元，所述模型训练单元用于：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。
49.在一个实施例中，所述模型训练单元还用于：通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音识别对话模型；通过tensorrt对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
50.在前述装置的基础上，本发明另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如前所述的智能语音对话方法。
51.其中，所述智能语音装置集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信
号和电信信号。
52.需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，单元之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
53.本发明实施例描述了一种智能语音对话装置及计算机可读存储介质，通过提供基于纯自注意力机制的语音识别对话模型，在将语音信息切分为数据段后，对语音信息进行提取、扩展及融合，再根据融合后的第一融合特征控制输出相应的对话内容以进行对话，该装置及计算机可读存储介质提升了用于支撑智能语音对话的模型性能；进一步地，本发明实施例描述的一种智能语音对话装置及计算机可读存储介质还通过对模型进行推理加速，从而为智能离线实时语音对话提供最优模型，降低了硬件部署成本。
54.具体实施例三
55.除上述方法和装置外，本发明实施例还描述了一种智能语音对话系统。
56.该智能语音对话系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如前所述的智能语音对话方法。
57.所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述装置的控制中心，利用各种接口和线路连接整个装置的各个部分。
58.所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
59.本发明实施例描述了一种智能语音对话系统，通过提供基于纯自注意力机制的语音识别对话模型，在将语音信息切分为数据段后，对语音信息进行提取、扩展及融合，再根据融合后的第一融合特征控制输出相应的对话内容以进行对话，该系统提升了用于支撑智能语音对话的模型性能；进一步地，本发明实施例描述的一种智能语音对话系统还通过对模型进行推理加速，从而为智能离线实时语音对话提供最优模型，降低了硬件部署成本。
60.以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员
来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

技术特征：

1.一种智能语音对话方法，其特征在于，所述智能语音对话方法包括：获取待执行的语音信息；通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征；根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。2.根据权利要求1所述的智能语音对话方法，其特征在于，在获取待执行的语音信息之前，所述智能语音对话方法还包括：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。3.根据权利要求2所述的智能语音对话方法，其特征在于，通过预设的语音识别对话模型中的自注意力层、mlp网络以及预设的特征融合方法，对所述语音信息进行特征提取、扩展以及融合以获取第一融合特征，具体包括：通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集；将所述第一语音特征集输入mlp网络中进行扩展，获得第二语音特征集；所述第二语音特征集包括多个第二语音特征；将所述第二语音特征进行多尺度融合，获得第一融合特征。4.根据权利要求3所述的智能语音对话方法，其特征在于，在通过预设的语音识别对话模型中的自注意力层，提取所述语音信息中的第一语音特征集之前，还包括：对所述语音信息进行格式调整，以使调整后的语音信息符合预设的语音识别对话模型的格式要求。5.根据权利要求4所述的智能语音对话方法，其特征在于，将所述第一语音识别对话模型输出为语音识别对话模型，具体包括：通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音识别对话模型；通过tensorrt对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。6.根据权利要求1-5任一项所述的智能语音对话方法，其特征在于，所述语音识别对话模型离线部署在终端。7.一种智能语音对话装置，其特征在于，所述智能语音对话装置包括信息获取单元、特征识别单元以及控制对话单元，其中，所述信息获取单元用于获取待执行的语音信息；所述特征识别单元用于通过预设的语音识别对话模型中的自注意力层、mlp网络以及
预设的特征融合方法，对所述语音信息进行特征提取、扩展及融合以获取第一融合特征；所述控制对话单元用于根据所述第一融合特征以及所述语音识别对话模型，控制输出相应的对话内容以进行对话。8.根据权利要求7所述的智能语音对话装置，其特征在于，所述智能语音对话装置还包括模型训练单元，所述模型训练单元用于：对预设的自注意力模型以及网络参数组进行初始化，获取第一自注意力识别模型；对预设的第一语音对话训练集进行分词以获得第二语音对话训练集，将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取，获取第一特征集；将所述第一对话特征集进行下采样和多尺度融合后传入预测头，以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型；根据所述损失值，判断所述预测结果是否收敛；若不收敛，则反向传递所述损失值，以使所述第一语音识别对话模型根据所述损失值进行更新，并重复上述步骤；若收敛，则将所述第一语音识别对话模型输出为语音识别对话模型。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-6任一项所述的智能语音对话方法。10.一种智能语音对话系统，其特征在于，所述智能语音对话系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的智能语音对话方法。

技术总结

本发明公开了一种智能语音对话方法、装置、计算机可读存储介质以及系统。该智能语音对话装置包括信息获取单元、特征识别单元以及控制对话单元。通过提供基于纯自注意力机制的语音识别对话模型，在将语音信息切分为数据段后，对语音信息进行提取、扩展及融合，再根据融合后的第一融合特征控制输出相应的对话内容以进行对话，该方法、装置、计算机可读存储介质以及系统提升了用于支撑智能语音对话的模型性能；进一步地，本发明提供的一种方法、装置、计算机可读存储介质以及系统还通过对模型进行推理加速，从而为智能离线实时语音对话提供最优模型，降低了硬件部署成本。降低了硬件部署成本。降低了硬件部署成本。