一种面向协作的语音交互系统和方法

1.本发明涉及语音处理技术领域，尤其适用于一种面向协作的语音交互系统和方法。

背景技术：

2.近年来，在包括医疗、智能家居、车载语音等在内的各个领域，人机语音交互系统得到了快速的发展，语音交互作为人机交互的一种重要方式，正在得到越来越广泛的应用。但当前市面上常见的语音交互系统，多是单人的语音交互系统，针对多人场景的协作语音交互系统在现实生活中仍然寥寥。
3.在语音交互过程中的对话主要分为三类：闲聊型对话，问答型对话和多轮次任务型对话。目前面向协作的语音交互系统，处理的对话主要是多轮次的任务型对话，处理这种对话，常常采用意图识别加语义槽提取的方法来实现。
4.这主要是因为面向协作的对话目的一般是希望交互系统能够依照用户自己的意图，让交互设备完成一些任务或操作。采用意图识别加语义槽提取方法的任务型对话，是一种被广泛采用的处理多轮任务型对话的方法，但是这种方法仍然没有解决多人对话的问题。
5.相比于一般的语音交互，面向协作场景的语音交互的对话过程更加复杂，具有多人、多轮次的特点。
6.现有的采用意图识别加语义槽提取这一技术方案的面向协作的语音交互系统，只能用于处理单人多意图的多轮次任务型对话，无法处理多人场景，不能解决多组多轮对话相互协调，处理一项协作任务的情况。如现实生活中会议预订这一任务，需要在会议创建完成后询问其他用户是否参会，类似这样的协作任务就需要与多人进行多轮对话才能完成，在现有的面向协作的语音交互系统中，这种多人对话的操作是难以实现的。
7.另外，现有的面向协作的语音交互系统也缺乏专门的协作知识图谱，来进行协作相关信息的存取。在协作领域人机对话的过程中，经常会涉及很多的协作知识，为了让面向协作的语音交互系统更加自然，更加智能，构建协作知识图谱并将其融入协作领域对话过程中是十分必要的。
8.以上这两个问题的存在，限制了面向协作的语音交互系统的功能和应用场景。因此，针对上述问题，同行从业人员亟需解决。

技术实现要素：

9.本发明的目的在于提供一种至少部分解决上述技术问题的面向协作的语音交互系统和方法，可以更好的处理协作环境中各种复杂的语音交互场景，完成多人场景下的任务型多轮对话，进一步扩展语音交互在协作环境中的应用范围。
10.为实现上述目的，本发明采取的技术方案为：
11.第一方面，本发明提供一种面向协作的语音交互系统，包括：数据采集传输模块，
语音识别模块，协作对话模块和语音合成模块；
12.其中，所述数据采集传输模块，用于获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到所述语音识别模块；
13.所述语音识别模块，用于接收带有协作标签信息的语音信息，识别为文本信息；
14.所述协作对话模块，用于接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；
15.所述语音合成模块，用于根据所述协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。
16.进一步地，所述数据采集传输模块包括：
17.获取模块，用于获取各协作语音交互设备客户端的录音权限及blob格式的音频源数据；
18.转码模块，用于将所述blob格式的音频源数据转码为base64格式；
19.发送模块，用于将所述base64格式数据通过websocket协议从客户端发送给服务器端；
20.标记模块，用于在所述服务器端将所述base64格式数据转码为wav格式，并为音频标记协作标签信息；所述协作标签信息包括：录制时间戳和用户id。
21.进一步地，所述协作对话模块包括：
22.自然语言理解模块，用于将接收的文本信息经过分词、向量化、神经网络层后，获得对话意图和语句中的实体信息；与经过编码处理的协作标签信息一起，传输给协作对话管理模块；
23.协作对话管理模块，用于监控对话状态与进行对话策略选择；
24.自然语言生成模块，用于根据对话状态信息及对话策略选择，获得结构化数据；并将所述结构化数据填充到回复模板中得到人类可理解的自然语言，发送到语音合成模块。
25.进一步地，所述协作对话管理模块，包括：
26.对话状态跟踪子模块，用于接收自然语言理解模块传来的实体信息，根据预设规则完成对话槽词的填充；
27.对话策略学习子模块，基于规则的原子对话意图和协作成员选择器，确定符合预设条件的下一个协作对话成员；并基于transformer的action分类器进行action的选择。
28.进一步地，所述协作对话管理模块，还包括：对话知识库；
29.所述对话知识库，用于通过api接口分别与所述对话状态跟踪子模块和对话策略学习子模块通讯连接，提供完成对话所需协作知识图谱信息和通用领域知识信息。
30.进一步地，所述协作知识图谱信息采用如下方式构建：
31.通过所述自然语言理解模块分析出协作对话任务中存在的实体、属性和关系信息；
32.对协作对话任务进行分解，得到构成协作任务的基本要素，为协作任务的设计提供基础模板；
33.以协作对话任务为中心，按照自顶向下的方式进行构建协作知识图谱信息。
34.进一步地，所述对话状态跟踪子模块，还用于保存对话历史中的action信息、历史对话意图信息和每轮对话的协作标签信息。
35.第二方面，本发明还提供一种面向协作的语音交互方法，使用上述实施例任一项所述的面向协作的语音交互系统，实现多人之间语音交互的对话管理，协调整个协作语音交互过程。
36.进一步地，该方法包括以下步骤：
37.s1、数据采集传输模块获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到语音识别模块；
38.s2、语音识别模块接收带有协作标签信息的语音信息，识别为文本信息；
39.s3、协作对话模块接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；
40.s4、语音合成模块根据所述协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。
41.进一步地，所述步骤s3包括以下子步骤：
42.s31、协作对话模块接收语音识别模块的文本信息，根据文本信息分析协作场景中存在的协作对话任务；
43.s32、对所述协作对话任务进行分解，得到构成该协作对话任务的基本要素；
44.s33、执行原子对话预设的系统操作，向对话状态跟踪子模块更新协作对话状态信息；
45.s34、根据当前状态，寻符合预设条件的下一个协作对话成员；
46.s35、分析所述下一个协作对话成员需完成的任务，唤起该成员对应的语音交互设备，发起协作对话任务；
47.s36、直到遍历完所有符合预设条件的协作对话成员后，协作对话结束并清空协作对话状态信息。
48.与现有技术相比，本发明具有如下有益效果：
49.本发明实施例提供的一种面向协作的语音交互系统，通过与多人进行的多组对话，协调众人共同完成一项协作任务，让整个协作交互过程更加智能、高效，最终提高协同工作环境的办公效率。
附图说明
50.图1为本发明实施例提供的面向协作的语音交互系统架构图。
51.图2为本发明实施例的语音交互系统的数据采集传输模块流程图。
52.图3为本发明实施例的语音交互系统的协作对话模块结构示意图。
53.图4为本发明实施例的语音交互系统的协作知识图谱示意图。
54.图5为本发明实施例的协作对话管理流程示意图。
55.图6为本发明实施例的一个涉及多人协作场景的对话示例图。
56.图7为本发明实施例的面向协作的语音交互方法的流程图。
57.图8为本发明实施例的协作对话模块的流程图。
具体实施方式
58.为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合
具体实施方式，进一步阐述本发明。
59.在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。
60.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
61.实施例1：
62.参照图1所示，本发明提供的一种面向协作的语音交互系统，包括：数据采集传输模块，语音识别模块，协作对话模块和语音合成模块；
63.其中，数据采集传输模块，用于获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到语音识别模块；语音识别模块，用于接收带有协作标签信息的语音信息，识别为文本信息；协作对话模块，用于接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；语音合成模块，用于根据协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。
64.协作成员通过各自的客户端装置以语音的形式与系统进行交互，进而完成各项协作任务。其中语音识别模块、语音合成模块采用成熟的端到端框架来实现，这里不再赘述。
65.数据采集传输模块的整体流程如图2所示，作用是获取各个用户语音交互设备收集的语音信息，给音频数据添加时间戳、用户id等标签信息，并发送到语音识别模块。其包括：
66.获取模块，用于获取各协作语音交互设备客户端的录音权限及blob格式的音频源数据；
67.转码模块，用于将所述blob格式的音频源数据转码为base64格式；
68.发送模块，用于将所述base64格式数据通过websocket协议从客户端发送给服务器端；
69.标记模块，用于在所述服务器端将所述base64格式数据转码为wav格式，并为音频标记协作标签信息；所述协作标签信息包括：录制时间戳和用户id。
70.如图3所示，协作对话模块是整个面向协作的语音交互系统的核心，它在协作对话过程中的作用是负责监测对话状态并控制整个协作人机对话过程，在此基础上执行合适的策略使得对话向着任务目标高效进行，最终完成协作成员指定的协作对话任务。
71.协作对话模块将任务进行分拆，得到自然语言理解子模块，协作对话管理子模块和自然语言生成子模块三部分。
72.自然语言理解模块作用是将自然语言转化为系统理解的结构化语言。首先接受数据采集传输模块传来的自然语言文本数据和包括用户id、时间戳等描述这句话的协作标签
信息。对于自然语言文本数据，经过分词，向量化，神经网络层之后，获得对话意图和语句中的实体信息，与经过编码处理的协作标签信息一起，传入协作对话管理子模块。
73.协作对话管理模块监控对话状态与进行对话策略选择。根据其需要完成的任务不同，可以进一步将其划分为对话状态跟踪子模块、对话策略学习子模块和对话知识库。
74.其中对话状态跟踪子模块接收自然语言理解模块传来的实体信息，并以此来完成对话槽词的填充。除此之外，对话历史中的action信息，历史对话意图信息、每轮对话的协作标签信息等，也都被保存在里面，以供对话策略学习子模块为下一轮对话生成合理的对话决策。
75.在单人对话中，对话策略学习子模块只需要决策出下一个待执行的action，一个action分类器就能解决问题，但多人协作对话因为增加了人数这一个维度，因此要在action决策之前，首先确定action的承受者是谁这一问题，因此，增加了基于规则的原子对话意图和协作成员选择器，首先解决与谁进行对话的问题，然后再进行action的选择。
76.最后，对话知识库子模块以api的形式依照协作对话管理模块的需要，向其提供完成对话所需协作知识信息和通用领域知识信息。协助系统更好的理解用户意图，并完成整个对话。
77.自然语言生成模块将输出的结构化数据填充到回复模板中得到人类可理解的自然语言并发送到语音合成模块。
78.如图4所示的协作知识图谱是图3所示的对话知识库的一部分，本着以任务为中心的思想，按照自顶向下的方式进行构建。协作任务实体是协作知识图谱的中心，在此基础上延伸出任务主题、任务时间、任务行为、任务地点和任务参与者五个实体。其中任务参与者包括人员个体以及小组两类。各实体之间的关系如图所示，方框中展示的是每个实体所包含的一部分属性信息，可以在此基础上，依据实际情况的需要进行扩展。以api的形式依照协作对话管理模块的需要，向其提供完成对话所需协作知识信息和通用领域知识信息。协助系统更好的理解用户意图，并完成整个对话。
79.上述构建的一种面向协作领域的知识图谱，为面向协作的语音交互系统和装置提供了领域相关知识的支持。
80.知识图谱，也被称为语义网络，是一种由实体、概念、属性、关系、值等构成的知识表示形式。领域知识图谱由通用知识图谱演化而来，如协作领域知识图谱，需要利用属于自己的领域相关知识为协作对话带来功能和效率上的提升。
81.当前领域知识图谱的构建集中于某些热门领域，如金融、医疗、电子商务等，然而在其他的一些领域如协作领域，知识图谱的构建较少。
82.而本发明实施例解决了在任务型对话当中协作领域知识图谱缺乏的问题。以实际的协作场景为基础，采用自顶向下的方式，先依照斯坦福大学医学院提出的七步法来进行协作知识图谱模式层的构建，再将结构化的协作相关数据填充到知识图谱数据层当中。构建出的协作知识图谱如图4所示。最后，知识图谱以api的形式，为协作对话提供协作信息支持。
83.如图5所示，是协作对话管理流程示意图。首先由用户a唤醒交互设备，发起协作任务。系统首先判断该意图是否为协作意图。如果是协作意图，用户首先根据系统的对话引导，填充完协作任务所必需的各种信息，如任务时间，地点，参与成员等。然后执行用户指定
的系统操作，并向协作对话管理模块的对话状态跟踪子模块发送协作对话状态信息更新。对话状态跟踪子模块接收信息并更新自己的协作状态信息，然后对话策略选择子模块根据当前状态，寻下一个协作对话成员和并分析该成员需执行的原子对话任务，系统唤起该成员的语音助手，发起协作任务。若遍历完成所有协作成员，都没有到需要执行协作任务的成员，协作对话结束并清空协作对话状态信息；如果是非协作的单人意图，协作对话模块使用通用领域知识图谱中的信息协作完成对话，不需要进行对话意图与对话成员的决策。
84.如图6所示，以预定会议任务为例，展示了一个完整的多人场景下的协作对话流程。可以完成复杂的多人多轮协作语音交互任务。首先，组管理者g1 manager发起预定会议的任务，在经过意图发起、槽词填充、信息确认几个步骤之后，新的会议被成功添加到会议管理系统中，一轮原子对话完成。该意图完成后协作对话管理模块更新对话状态信息，原子对话意图与协作成员选择器依据预先设定的规则和协作知识图谱中的协作知识信息，选出协作参与者g1member1和会议确认意图，展开新一轮的协作原子对话。最终与最后一名与会成员g1 memeber n完成对话后，所有与会成员都收到了与会信息并确认完毕，整个协作对话结束。
85.本发明实施例提供的一种面向协作的语音交互系统，创造性的解决了多人协作场景下的对话管理问题。在传统的单人多轮次任务型对话的基础上，增加了基于规则的原子对话意图与协作成员选择器，用于协作对话成员以及原子协作意图的选择。其中每一组单人任务型对话都作为一个多人协作对话过程的一个原子对话，多个单人原子对话按照一定的顺序依次进行，最终构成整个协作对话过程，完成用户指定的协作对话任务。这里除了采用基于规则的决策方法，还可以采用基于有限状态机的方法，基于强化学习的方法等原子对话策略选择方法。
86.该面向协作的语音交互系统，结合协作领域知识图谱，可以更好的处理协作环境中各种复杂的语音交互场景，完成多人场景下的任务型多轮对话，将语音交互的应用从单人场景扩展到多人协作场景，进一步扩展语音交互在协作环境中的应用范围。面向协作的语音交互系统通过与多人进行的多组对话，协调众人共同完成一项协作任务，让整个协作交互过程更加智能、高效，最终提高协同工作环境的办公效率。
87.实施例2：
88.本发明还提供了一种面向协作的语音交互方法，使用实施例1的面向协作的语音交互系统，实现多人之间语音交互的对话管理，协调整个协作语音交互过程。如图7所示，该方法包括以下步骤：
89.s1、数据采集传输模块获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到语音识别模块；
90.s2、语音识别模块接收带有协作标签信息的语音信息，识别为文本信息；
91.s3、协作对话模块接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；
92.s4、语音合成模块根据所述协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。
93.其中，如图8所示，步骤s3包括：
94.步骤s3包括以下子步骤：
95.s31、协作对话模块接收语音识别模块的文本信息，根据文本信息分析协作场景中存在的协作对话任务；
96.s32、对所述协作对话任务进行分解，得到构成该协作对话任务的基本要素；
97.s33、执行原子对话预设的系统操作，向对话状态跟踪子模块更新协作对话状态信息；
98.s34、根据当前状态，寻符合预设条件的下一个协作对话成员；
99.s35、分析所述下一个协作对话成员需完成的任务，唤起该成员对应的语音交互设备，发起协作对话任务；
100.s36、直到遍历完所有符合预设条件的协作对话成员后，协作对话结束并清空协作对话状态信息。
101.本实施例中，通过首先分析协作场景中存在的协作对话任务，分析协作领域中存在的实体、属性和关系，构造协作信息知识图谱，以此作为面向协作的语音交互系统的数据基础；然后对协作任务进行分解，得到构成协作任务的基本要素：任务开始时间、任务结束时间、任务地点、参与人员等，为协作任务的设计提供基础模板；最后是在传统的单人任务型对话的对话管理模块之上，增加了协作对话管理模块，用于多人之间语音交互的对话管理，将人机语音交互从单人的场景扩展到了多人协作场景，能够很好的协调整个协作语音交互过程，让整个协作交互过程更加智能、高效，最终提高协同工作环境的办公效率。
102.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

技术特征：

1.一种面向协作的语音交互系统，其特征在于，包括：数据采集传输模块，语音识别模块，协作对话模块和语音合成模块；其中，所述数据采集传输模块，用于获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到所述语音识别模块；所述语音识别模块，用于接收带有协作标签信息的语音信息，识别为文本信息；所述协作对话模块，用于接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；所述语音合成模块，用于根据所述协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。2.根据权利要求1所述的一种面向协作的语音交互系统，其特征在于，所述数据采集传输模块包括：获取模块，用于获取各协作语音交互设备客户端的录音权限及blob格式的音频源数据；转码模块，用于将所述blob格式的音频源数据转码为base64格式；发送模块，用于将所述base64格式数据通过websocket协议从客户端发送给服务器端；标记模块，用于在所述服务器端将所述base64格式数据转码为wav格式，并为音频标记协作标签信息；所述协作标签信息包括：录制时间戳和用户id。3.根据权利要求1所述的一种面向协作的语音交互系统，其特征在于，所述协作对话模块包括：自然语言理解模块，用于将接收的文本信息经过分词、向量化、神经网络层后，获得对话意图和语句中的实体信息；与经过编码处理的协作标签信息一起，传输给协作对话管理模块；协作对话管理模块，用于监控对话状态与进行对话策略选择；自然语言生成模块，用于根据对话状态信息及对话策略选择，获得结构化数据；并将所述结构化数据填充到回复模板中得到人类可理解的自然语言，发送到语音合成模块。4.根据权利要求3所述的一种面向协作的语音交互系统，其特征在于，所述协作对话管理模块，包括：对话状态跟踪子模块，用于接收自然语言理解模块传来的实体信息，根据预设规则完成对话槽词的填充；对话策略学习子模块，基于规则的原子对话意图和协作成员选择器，确定符合预设条件的下一个协作对话成员；并基于transformer的action分类器进行action的选择。5.根据权利要求4所述的一种面向协作的语音交互系统，其特征在于，所述协作对话管理模块，还包括：对话知识库；所述对话知识库，用于通过api接口分别与所述对话状态跟踪子模块和对话策略学习子模块通讯连接，提供完成对话所需协作知识图谱信息和通用领域知识信息。6.根据权利要求4所述的一种面向协作的语音交互系统，其特征在于，所述协作知识图谱信息采用如下方式构建：通过所述自然语言理解模块分析出协作对话任务中存在的实体、属性和关系信息；对协作对话任务进行分解，得到构成协作任务的基本要素，为协作任务的设计提供基
础模板；以协作对话任务为中心，按照自顶向下的方式进行构建协作知识图谱信息。7.根据权利要求4所述的一种面向协作的语音交互系统，其特征在于，所述对话状态跟踪子模块，还用于保存对话历史中的action信息、历史对话意图信息和每轮对话的协作标签信息。8.一种面向协作的语音交互方法，其特征在于，使用根据权利要求1-7任一项所述的面向协作的语音交互系统，实现多人之间语音交互的对话管理，协调整个协作语音交互过程。9.根据权利要求8所述的一种面向协作的语音交互方法，其特征在于，该方法包括以下步骤：s1、数据采集传输模块获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到语音识别模块；s2、语音识别模块接收带有协作标签信息的语音信息，识别为文本信息；s3、协作对话模块接收语音识别模块的文本信息，根据文本信息及所述协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；s4、语音合成模块根据所述协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。10.根据权利要求9所述的一种面向协作的语音交互方法，其特征在于，所述步骤s3包括以下子步骤：s31、协作对话模块接收语音识别模块的文本信息，根据文本信息分析协作场景中存在的协作对话任务；s32、对所述协作对话任务进行分解，得到构成该协作对话任务的基本要素；s33、执行原子对话预设的系统操作，向对话状态跟踪子模块更新协作对话状态信息；s34、根据当前状态，寻符合预设条件的下一个协作对话成员；s35、分析所述下一个协作对话成员需完成的任务，唤起该成员对应的语音交互设备，发起协作对话任务；s36、直到遍历完所有符合预设条件的协作对话成员后，协作对话结束并清空协作对话状态信息。

技术总结

本发明公开了一种面向协作的语音交互系统和方法，该系统包括：数据采集传输模块，用于获取各个用户语音交互设备收集的语音信息，添加对应的协作标签信息，并发送到语音识别模块；语音识别模块，用于接收带有协作标签信息的语音信息，识别为文本信息；协作对话模块，用于接收语音识别模块的文本信息，根据文本信息及协作标签信息，协作多人之间语音交互的对话管理，生成自然语言；语音合成模块，用于根据协作对话模块生成的自然语言，进行语音合成，并通过对应协作人员的语音交互设备输出合成的语音。该语音交互系统通过与多人进行的多组对话，协调众人共同完成一项协作任务，让整个协作交互过程更加智能、高效，最终提高协同工作环境的办公效率。环境的办公效率。环境的办公效率。