信息处理方法、装置、电子设备及存储介质与流程

1.本发明涉及信息处理技术领域，尤其涉及一种信息处理方法、装置、电子设备及存储介质。

背景技术：

2.目前，各平台的通话信息多是基于固话设备实现的，当至少三个用户基于固话设备通话时，多是基于同一目标接听设备来转发各发言用户的语音信息，对于接听用户和拨打用户来说可以通过音、音调等信息确定发言用户的身份信息。
3.发明人在基于上述方式实施本技术方案时，发现存在如下问题：
4.对于计算机来说，所有的语音信息都是基于同一目标接听设备来转发的，无法区分各发言用户，导致生成的语音记录也无法对应到具体的发言用户，导致无法有效提供相应服务的问题。

技术实现要素：

5.本发明提供了一种信息处理方法、装置、电子设备及存储介质，以实现有效区分各发言用户，并对各发言用户的语音信息转换为相应文本的技术效果。
6.根据本发明的一方面，提供了一种信息处理方法，所述方法包括：
7.在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端；其中，各发言用户所对应的终端设备与所述目标接听设备相通信；
8.基于所述目标服务端，确定与所述音频流相对应的发言用户标识，以及文本信息；
9.将所述发言用户标识以及相应的文本信息对应显示至目标显示设备。
10.进一步，在所述在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端之前，还包括：
11.基于目标通信协议，分别建立各发言用户所对应的终端设备与所述目标接听设备之间的通信。
12.进一步，所述在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端，包括：
13.基于所述目标接听设备获取各发言用户的音频信息，并对所述音频信息进行混音处理，得到所述音频流；
14.当目标通信协议中目标字段所对应的字段内容与预设字段内容相一致时，将所述音频流发送至所述目标服务端。
15.进一步，所述基于所述目标服务端确定与所述音频流相对应的发言用户标识，包括：
16.基于所述目标服务端提取所述音频流的目标音频特征；
17.当特征库中存在与所述目标音频特征相对应的目标待匹配音频特征时，确定所述目标待匹配音频特征的发言用户标识；
18.其中，所述发言用户标识与客服用户标识相对应。
19.进一步，当所述特征库中不存在与所述目标音频特征相对应的目标待匹配音频特征，确定所述音频流对应的发言用户标识为客户角标识。
20.进一步，所述基于所述目标服务端，确定与所述音频流相对应的发言用户标识，包括：
21.将所述音频流输入至部署在所述目标服务端中的声纹识别模型，得到分类结果；
22.基于所述分类结果，确定所述发言用户标识。
23.进一步，所述发言用户标识包括客服用户标识和客户角标识，所述基于所述分类结果，确定所述发言用户标识，包括：
24.若所述分类结果为第一分类结果，则基于所述第一分类结果确定客户用户标识；
25.若所述分类结果为第二分类结果，则确定所述发言用户标识为客户角标识；
26.其中，所述第一分类结果区别于所述第二分类结果。
27.进一步，所述将所述发言用户标识以及相应的文本信息对应显示至目标显示设备，包括：
28.基于目标通信协议中扩展的用户字段，显示所述发言用户标识；
29.将与所述音频流相对应的发言用户标识以及相应的文本信息，对应显示在所述目标显示设备。
30.进一步，当检测到触发所述目标显示设备上的目标文本信息时，确定与所述目标文本信息相对应的目标反馈文本，以基于所述目标反馈文本进行音频反馈。
31.根据本发明的另一方面，提供了一种信息处理装置，所述装置包括：
32.音频流发送模块，用于在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端；其中，各发言用户所对应的终端设备与所述目标接听设备相通信；
33.文本确定模块，用于基于所述目标服务端，确定与所述音频流相对应的发言用户标识，以及文本信息；
34.文本显示模块，用于将所述发言用户标识以及相应的文本信息对应显示至目标显示设备。
35.根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：
36.至少一个处理器；
37.以及与所述至少一个处理器通信连接的存储器；
38.其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的信息处理方法。
39.根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的信息处理方法。
40.本发明实施例的技术方案，通过在基于目标接听设备接收到各发言用户的音频流时，将音频流发送至目标服务端；其中，各发言用户所对应的终端设备与目标接听设备相通信；基于目标服务端，确定与音频流相对应的发言用户标识，以及文本信息；将发言用户标
识以及相应的文本信息对应显示至目标显示设备。本公开实施例的技术方案，解决了现有技术中在基于固话设备通信时，基于目标固话设备进行音频流转发时，无法确定音频流所对应的发言用户，导致无法提供后续服务的问题，实现了可以基于有效确定音频流所对应的发言用户，并将各发言用户的音频信息转换为相应文本，便于后续使用的技术效果。
41.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
42.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
43.图1为本发明实施例提供了一种信息处理方法的流程图；
44.图2是根据本发明实施例提供的一种信息处理方法适用的坐席示意图；
45.图3是根据本发明实施例提供的一种信息处理方法的系统架构图；
46.图4是根据本发明实施例提供的一种信息处理装置的结构示意图；
47.图5是实现本发明实施例的信息处理方法的电子设备的结构示意图。
具体实施方式
48.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
49.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
50.在介绍本实施例技术方案之前，可以先对应用场景进行示例性说明。本实施例可以适用于基于固话设备进行多人通话的场景中。通常，当固话设备接收到电话信号时，将接听的固话设备作为坐席设备。当坐席设备与其他用户的设备交互时，如果需要第三方用户接入，可以基于坐席设备向第三方用户的固话设备发起会话请求，第三方用户的固话设备可以接入坐席设备，通过坐席设备实现其他用户与第三方用户之间的转接。基于该方式通信时，每次都需要基于坐席设备将交互的语音流进行混音并转发至其他发言用户所对应的设备。需要说明的是，拨打用户所使用的设备可以是移动设备也可以是固话设备，其具体的设备可以根据实际需求进行使用。对于各通信用户来说，可以基于人工辨识对语音流的音
、音调进行区分，确定出语音流中的发言者是坐席设备对应的用户还是其他接入设备的用户。但是，对于计算机来说，接收到的是语音信息都是基于坐席固话设备转发的音频，无法确定音频流对应的发言用户。相应的，也无法对后续进行有效的服务。
51.图1为本发明实施例提供了一种信息处理方法的流程图，本实施例可适用于多人基于固话设备进行通话时，能够有效区分用户的情形，该方法可以由信息处理装置来执行，该信息处理装置可以采用硬件和/或软件的形式实现，该信息处理装置可配置于任意实现多方通话的终端设备中。
52.如图1所示，该方法包括：
53.s110、在基于目标接听设备接收到各发言用户的音频流时，将音频流发送至目标服务端。
54.其中，目标接听设备是用于接收各个发言用户音频流的设备。目标接通设备主要指的是固话设备，基于该固话设备可以接听其他用户发送的电话信号，基于电话信号可以进行通信。发言用户可以是当前发出音频信息的用户，例如，双人通话的场景下，a用户对应的设备为固话设备，b用户对应的是一个接入的用户。当b用户发言时，b用户即为发言用户，当a用户发言时，a用户即为发言用户。各发言用户所对应的终端设备与目标接听设备相通信。对于接入用户来说，接入用户的设备可以为任意的电子通讯设备，例如，移动终端、pad等，接听用户的设备为固话设备。目标服务端是可以对各发言用户的音频流信息进行处理的服务端，可以是媒体资源控制协议(media resource control protocol,mrcp)的服务端。
55.具体的，目标接听设备上的音频接收模块在接收到发言用户发出的音频流时，可以将该音频流发送至目标服务端，以使目标服务端对该音频流进行处理。
56.示例性的，使用目标接听设备的可以是客服人员，发言用户为客户。当客服人员与客户通过设备进行语音交流时，目标接听设备可以将客服与客户的发言对应的语音流，发送至目标服务端，以使目标服务端对该语音流进行分析。还可以是，当客服和客户沟通过程中，客服无法解决当前问题，可以与另一客服所使用的固话设备或移动设备进行通信，可以将此时也接入的设备作为其他设备，其他设备的音频流都是基于目标接听设备进行转发的。
57.在本实施例中，将音频流发送至目标服务端之前，还可以基于目标通信协议，分别建立各发言用户所对应的终端设备与目标接听设备之间的通信。
58.其中，目标通信协议是用于进行音频传输以及提供语音服务的协议，发言用户终端设备与目标接听设备之间基于目标通信协议进行通信。例如，目标通信协议是媒体资源控制协议(media resource control protocol,mrcp)，即mrcp协议，该协议是用于语音服务器向客户端提供各种语音服务，mrcp的消息通常是承载于其他协议之上，如实时流传输协议(real time streaming protocol，rtsp),会话初始协议(session initialization protocol，sip)。
59.具体的，为了使发言用户可通过终端设备将语音流发送至目标接收设备，在目标接听设备将音频流发送之前，可以建立各个发言用户所对应的终端设备与目标接听设备之间的mrcp协议。
60.在本实施例中，在基于目标接听设备接收到各发言用户的音频流时，将音频流发
送至目标服务端，包括：基于目标接听设备获取各发言用户的音频信息，并对音频信息进行混音处理，得到音频流；当目标通信协议中目标字段所对应的字段内容与预设字段内容相一致时，将音频流发送至所述目标服务端。
61.需要说明的是，在音频流发送至目标服务端进行处理前，先确定当前是否为多用户通话模式或会议模式，其目的是确定参与语音通信的用户是否为多个，如果是多个，则可以基于本实施例的方案对多个用户交互的语音流中对应的发言用户进行确定。
62.其中，混音处理是将所有用户的语音流消息汇总为一条语音流。目标字段是目标协议中的包含的字段，该字段可以用于判断当前的音频流是否是会议模式下对应的音频流。预设字段内容是预先设置的协议字段内容。例如，预设字段可以是contact字段和supported字段，相应的，预设字段内容可以为与contact字段对应的isfocus标签以及与supported字段对应的gruu标签。
63.示例性的，目标协议字段是x1，预设字段内容为x。相应的，如果目标协议字段x1对应的字段内容为x，即目标协议字段的字段内容与预设字段内容相同，表明目标字段所对应的字段内容与预设字段内容相一致。
64.图3是根据本发明实施例提供的一种信息处理方法的系统架构图，如图3所示，目标接听设备在接收到各个发言用户发出的语音流后，将所有语音流进行混合处理，得到音频流。进一步，当目标通信协议中的目标字段内容与预设字段内容相一致，则可以确定当前参与通信的用户为多人，目标接听设备将音频流发送至目标服务端，以使目标服务端对其进行处理。
65.图2是根据本发明实施例提供的一种信息处理方法适用的坐席示意图，结合图2介绍，在坐席a与客户b建立通信的过程中，坐席a准备邀请坐席c进入通话，坐席a发送会议邀请给客户b与坐席c，建立会议连接，由坐席a所对应的终端设备将语音信息转发至相应的用户。任意一个用户发送语音消息时，都需要由坐席a所对应的终端设备进行混音处理，将混音后的语音发送给另外的语音通话成员所对应的终端设备。用户收到语音流后，从sip header中与contact字段对应的isfocus标签和与supported字段对应的gruu标签识别出会议模式。当mrcp协议中contact字段的字段内容为isfocus标签且support字段的字段内容为gruu标签，则可以确定当前的语音通话模式处于会议模式，即参与发言的用户为多个，因此，可以将混合后得到的音频流发送至mrcp服务端。
66.s120、基于目标服务端，确定与音频流相对应的发言用户标识，以及文本信息。
67.其中，发言用户标识可以是字符串、数字、符号、id等，发言用户标识用于区分不同的发言用户，将不同发言用户对应的语音转换文本后，可以得到文本信息。例如，标识1代表发言用户为客服1，标识2代表发言用户为客服2，标识3代表发言用户为客户1。该文本信息可以用于快速查与文本信息相应的一些资料。例如，文本信息是客户咨询的某些政策，可以根据文本信息从数据库中调取与该政策相对应的内容，以使坐席用户可以基于该内容进行反馈。
68.具体的，目标服务端对音频流进行分析处理，由于音频流中混合了各个发言用户的语音。基于此，可以通过目标服务端对音频流分割处理，并确定出音频流中不同音频段对应的发言用户标识，并将各个发言用户对应的音频通过语音转文本技术，实时转换为文本信息。
69.示例性的，如图3所示，可以调用自然语言处理技术(natural language processing，nlp)，对语音实时转写为文本。
70.在本实施例中，基于目标服务端确定与音频流相对应的发言用户标识，包括：基于目标服务端提取音频流的目标音频特征；当特征库中存在与目标音频特征相对应的目标待匹配音频特征时，确定目标待匹配音频特征的发言用户标识。
71.其中，发言用户标识与客服用户标识相对应。目标音频特征是通过音频特征提取技术对音频流进行处理后，所提取出的音频特征，该音频特征包括但不限于以下特征：过零率、频谱质心、声谱衰减、度频率等。在特征库中预先存储了不同客服用户对应的音频特征以及客服用户标识，相应的，不同客服用户的音频特征即为目标待匹配音频。例如，在特征库中存储了客服a的音频特征，即目标待匹配音频特征1，同时存储了客服b的音频特征，即目标待匹配音频特征2。
72.具体的，通过目标服务端对音频流中的音频特征进行提取，可选的，采用mfcc音频特征提取方法对音频流进行特征提取，将提取出的音频特征作为目标音频特征。计算目标音频特征与特征库中的各个目标待匹配特征之间的相似度值，如果目标音频特征与特征库中的某个目标待匹配特征之间的相似度值达到一定的阈值，则可以认为该目标音频特征是与目标待匹配特征相匹配的，进一步，从特征库中查与该目标待匹配特征相对应的客服用户标识，并将该客服用户标识作为发言用户标识。如果没有匹配上，则说明该音频特征对应的为客户用户。
73.示例性的，目标音频特征为q,特征库中存储的目标待匹配音频特征有q、w,以及与其对应的客服用户标识5,6。当目标音频特征q与目标待匹配音频特征的相似度达到98％，可以认为，目标音频特征q与目标待匹配音频特征是相匹配的，则可以将客服用户标识5作为发言用户标识。即目标音频特征对应的音频流是客服用户标识5对应的客服发出的。
74.在实际应用中，当特征库中不存在与目标音频特征相对应的目标待匹配音频特征，确定音频流对应的发言用户标识为客户角标识。
75.其中，客户角标识与客户用户相对应。
76.具体的，当从特征库中未匹配到与目标音频特征相对应的目标待匹配音频特征，说明与目标音频特征对应的用户并不是固定的用户。即，该发言用户对应的为客户用户，可以对客户用户进行标记。
77.在本实施例中，确定与音频流相对应的发言用户标识还可以是将音频流输入至部署在目标服务端中的声纹识别模型，得到分类结果；基于分类结果，确定发言用户标识。
78.其中，声纹识别模型可以是预先训练的用于对输入的音频流处理，以确定其对应的用户标识的模型。声纹模型可以输出二分类的结果也可以输出多分类的结果，如果是多分类的结果，可以理解为，预先设定不同的分类结果所对应的用户标识，例如，分类结果为1，对应的是坐席用户标识1；分类结果为2，对应的坐席用户标识2；如果分类结果为0，说明该音频流并未与坐席用户相匹配，则认为是客户用户。如图3所示，引入声纹识别模型以及创建坐席声纹库。
79.具体的，可以将音频流输入至声纹识别模型，该模型对音频流进行的声纹进行分析处理，输出分类结果。不同的分类结果对应不同的发言用户标识，基于分类结果可以确定该音频流对应的是哪一个发言用户标识。
80.示例性的，分类结果可以包含a、b、c、d四种结果，与分类结果对应的发言用户标识为a、b、c、d。如果将当前音频流输入到声纹识别模型中，该模型输出的分类结果为c,相应的，发言用户标识为c。
81.在上述技术方案的基础上，发言用户标识包括客服用户标识和客户角标识，基于分类结果，确定发言用户标识，还可以是：若分类结果为第一分类结果，则基于第一分类结果确定客服用户标识；若分类结果为第二分类结果，则确定发言用户标识为客户角标识；
82.其中，所述第一分类结果区别于所述第二分类结果。可以设置第一分类结果对应的是客服，第二分类结果对应客户。
83.具体的，如果声纹识别模型输出的分类结果为第一分类结果，表明该音频流对应的发言用户为客服用户，基于对输出的结果分析，确定该结果实际对应的客服用户标识。如果分类结果是第二分类结果，说明发言用户是客户用户，则可以将该结果对应的发言用户标识确定为客户角标识。
84.s130、将发言用户标识以及相应的文本信息对应显示至目标显示设备。
85.需要说明的是，当发言用户为客户时，可以标记为预先设置的发言用户标识；当发言用户为客服时，对应的发言用户标识可以是客服的名字或者客服的工号。发言用户的标识的好处是可以明显的区分出当前的发言用户是谁，便于进行后续内容的搜索。
86.其中，目标显示设备可以是任意具有显示文本功能的设备，目标显示设备可以是第三方用户使用的设备。例如，目标显示设备为pc端。
87.在实际应用中，将发言用户的标识以及对应的文本信息显示在第三方用户使用的目标显示设备上，还可以将文本信息对应的时间戳信息也关联显示，使第三方用户可以更清晰的看到相关的文本信息，并将问题的答案反馈至客服人员，以使客服人员基于该答案为客户进行解答。
88.在本实施例中，将发言用户标识以及相应的文本信息对应显示至目标显示设备，可以是基于目标通信协议中扩展的用户字段，显示发言用户标识；将与音频流相对应的发言用户标识以及相应的文本信息，对应显示在所述目标显示设备。
89.其中，用户字段可以是在目标协议中扩展的字段，可以将发言的用户标识作为该字段的字段内容。
90.在实际应用中，还可以在mrcp协议中扩展会议主持人字段、实际说话人字段等，可以基于字段内容确定出会议模式中的主持人以及实际说话人。如图3所示，为本实施例的扩展后的架构图，扩展标准mrcp协议，实现实时语音流的角识别能力，还可以是实时更新扩展协议字段。
91.具体的，可以是对目标通信协议中扩展的用户字段，对用户字段进行解析，确定出字段内容，可以是字段内容中包含了发言用户标识，以。进一步，将音频流对应的文本与发言用户标识按照时间顺序，关联显示在目标显示设备上。
92.示例性的，发言用户为客服1，以及客户2，相应的，对应的标识为客服工号：003，以及客户用户标识为：36894。在目标显示设备上实时显示的内容可以为：2s-5s客服003发言内容“xxxxx”，5s-10s客户36894发言内容“xxxxx”。在目标显示设备上可以清楚的显示个各发言用户的发言内容以及相应的时间，方便专业人员对文本内容的解答分析。
93.在本实施例中，当检测到触发目标显示设备上的目标文本信息时，确定与目标文本信息相对应的目标反馈文本，以基于目标反馈文本进行音频反馈。
94.其中，目标反馈文本是与目标文本相关联的文本。例如，目标文本是某个关键，目标反馈文本是该关键词对应的释义。
95.具体的，可以对目标显示设备的显示界面上的某一行文本或某一个关键词进行点击，即可触发搜索服务，进一步搜索与该文本相关的含义或者业务规则，并基于相关的含义或业务规则为客户解答。
96.本发明实施例的技术方案，通过在基于目标接听设备接收到各发言用户的音频流时，将音频流发送至目标服务端；其中，各发言用户所对应的终端设备与目标接听设备相通信；基于目标服务端，确定与音频流相对应的发言用户标识，以及文本信息；将发言用户标识以及相应的文本信息对应显示至目标显示设备。本公开实施例的技术方案，解决了现有技术中在基于固话设备通信时，基于目标固话设备进行音频流转发时，无法确定音频流所对应的发言用户，导致无法提供后续服务的问题，实现了可以基于有效确定音频流所对应的发言用户，并将各发言用户的音频信息转换为相应文本，便于后续使用的技术效果。
97.图4是根据本发明实施例提供的一种信息处理装置的结构示意图。如图4所示，该装置包括：
98.音频流发送模块210，用于在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端；其中，各发言用户所对应的终端设备与所述目标接听设备相通信；
99.文本确定模块220，用于基于所述目标服务端，确定与所述音频流相对应的发言用户标识，以及文本信息；
100.文本显示模块230，用于将所述发言用户标识以及相应的文本信息对应显示至目标显示设备。
101.在上述技术方案的基础上，所述信息处理装置还包括：通信建立模块，用于基于目标通信协议，分别建立各发言用户所对应的终端设备与所述目标接听设备之间的通信。
102.在上述技术方案的基础上，所述音频流发送模块210包括：
103.混音模块，用于基于所述目标接听设备获取各发言用户的音频信息，并对所述音频信息进行混音处理，得到所述音频流；
104.目标字段匹配模块，用于当目标通信协议中目标字段所对应的字段内容与预设字段内容相一致时，将所述音频流发送至所述目标服务端。
105.在上述技术方案的基础上，所述文本确定模块220包括：
106.特征提取模块，用于基于所述目标服务端提取所述音频流的目标音频特征；
107.标识确定模块，用于当特征库中存在与所述目标音频特征相对应的目标待匹配音频特征时，确定所述目标待匹配音频特征的发言用户标识；
108.其中，所述发言用户标识与客服用户标识相对应。
109.在上述技术方案的基础上，当所述特征库中不存在与所述目标音频特征相对应的目标待匹配音频特征，确定所述音频流对应的发言用户标识为客户角标识。
110.在上述技术方案的基础上，所述文本确定模块220还包括：
111.声纹识别模块，用于将所述音频流输入至部署在所述目标服务端中的声纹识别模
型，得到分类结果；
112.用户标识确定模块，用于基于所述分类结果，确定所述发言用户标识。
113.在上述技术方案的基础上，所述发言用户标识包括客服用户标识和客户角标识，所述用户标识确定模块，包括：
114.第一分类单元，用于若所述分类结果为第一分类结果，则基于所述第一分类结果确定客户用户标识；
115.第二分类单元，用于若所述分类结果为第二分类结果，则确定所述发言用户标识为客户角标识；
116.其中，所述第一分类结果区别于所述第二分类结果。
117.在上述技术方案的基础上，所述文本显示模块230，包括：
118.用户标识显示模块，用于基于目标通信协议中扩展的用户字段，显示所述发言用户标识；
119.文本信息显示模块，用于将与所述音频流相对应的发言用户标识以及相应的文本信息，对应显示在所述目标显示设备。
120.在上述技术方案的基础上，所述信息处理装置还包括：
121.目标反馈模块，当检测到触发所述目标显示设备上的目标文本信息时，确定与所述目标文本信息相对应的目标反馈文本，以基于所述目标反馈文本进行音频反馈。
122.本发明实施例的技术方案，通过在基于目标接听设备接收到各发言用户的音频流时，将音频流发送至目标服务端；其中，各发言用户所对应的终端设备与目标接听设备相通信；基于目标服务端，确定与音频流相对应的发言用户标识，以及文本信息；将发言用户标识以及相应的文本信息对应显示至目标显示设备。本技术方案可以基于目标服务端对个多个发言用户的音频流进行区分，并转写为文本显示，将发言用户标识以及对应的文本实时显示在目标显示设备，解决了现有的语音转写技术对多个发言用户的音频不能区分的技术问题，提高了对音频流转文本时进行角区分的准确性。本公开实施例的技术方案，解决了现有技术中在基于固话设备通信时，基于目标固话设备进行音频流转发时，无法确定音频流所对应的发言用户，导致无法提供后续服务的问题，实现了可以基于有效确定音频流所对应的发言用户，并将各发言用户的音频信息转换为相应文本，便于后续使用的技术效果。本发明实施例所提供的信息处理装置可执行本发明任意实施例所提供的信息处理方法，具备执行方法相应的功能模块和有益效果。
123.图5是实现本发明实施例的信息处理方法的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
124.如图5所示，电子设备30包括至少一个处理器31，以及与至少一个处理器31通信连接的存储器，如只读存储器(rom)32、随机访问存储器(ram)33等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器31可以根据存储在只读存储器(rom)32中的计算机程序或者从存储单元38加载到随机访问存储器(ram)33中的计算机程序，来执行各种
适当的动作和处理。在ram 33中，还可存储电子设备30操作所需的各种程序和数据。处理器31、rom 32以及ram 33通过总线34彼此相连。输入/输出(i/o)接口35也连接至总线34。
125.电子设备30中的多个部件连接至i/o接口35，包括：输入单元36，例如键盘、鼠标等；输出单元37，例如各种类型的显示器、扬声器等；存储单元38，例如磁盘、光盘等；以及通信单元39，例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
126.处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理，例如信息处理方法。
127.在一些实施例中，信息处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元38。在一些实施例中，计算机程序的部分或者全部可以经由rom 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到ram 33并由处理器31执行时，可以执行上文描述的信息处理方法的一个或多个步骤。备选地，在其他实施例中，处理器31可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息处理方法。
128.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
129.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
130.在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
131.为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子
设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
132.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
133.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
134.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
135.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

技术特征：

1.一种信息处理方法，其特征在于，包括：在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端；其中，各发言用户所对应的终端设备与所述目标接听设备相通信；基于所述目标服务端，确定与所述音频流相对应的发言用户标识，以及文本信息；将所述发言用户标识以及相应的文本信息对应显示至目标显示设备。2.根据权利要求1所述的方法，其特征在于，在所述在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端之前，还包括：基于目标通信协议，分别建立各发言用户所对应的终端设备与所述目标接听设备之间的通信。3.根据权利要求1所述的方法，其特征在于，所述在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端，包括：基于所述目标接听设备获取各发言用户的音频信息，并对所述音频信息进行混音处理，得到所述音频流；当目标通信协议中目标字段所对应的字段内容与预设字段内容相一致时，将所述音频流发送至所述目标服务端。4.根据权利要求1所述的方法，其特征在于，所述基于所述目标服务端确定与所述音频流相对应的发言用户标识，包括：基于所述目标服务端提取所述音频流的目标音频特征；当特征库中存在与所述目标音频特征相对应的目标待匹配音频特征时，确定所述目标待匹配音频特征的发言用户标识；其中，所述发言用户标识与客服用户标识相对应。5.根据权利要求4所述的方法，其特征在于，还包括：当所述特征库中不存在与所述目标音频特征相对应的目标待匹配音频特征，确定所述音频流对应的发言用户标识为客户角标识。6.根据权利要求1所述的方法，其特征在于，所述基于所述目标服务端，确定与所述音频流相对应的发言用户标识，包括：将所述音频流输入至部署在所述目标服务端中的声纹识别模型，得到分类结果；基于所述分类结果，确定所述发言用户标识。7.根据权利要求6所述的方法，其特征在于，所述发言用户标识包括客服用户标识和客户角标识，所述基于所述分类结果，确定所述发言用户标识，包括：若所述分类结果为第一分类结果，则基于所述第一分类结果确定客服用户标识；若所述分类结果为第二分类结果，则确定所述发言用户标识为客户角标识；其中，所述第一分类结果区别于所述第二分类结果。8.根据权利要求1所述的方法，其特征在于，所述将所述发言用户标识以及相应的文本信息对应显示至目标显示设备，包括：基于目标通信协议中扩展的用户字段，显示所述发言用户标识；将与所述音频流相对应的发言用户标识以及相应的文本信息，对应显示在所述目标显示设备。9.根据权利要求1所述的方法，其特征在于，还包括：
当检测到触发所述目标显示设备上的目标文本信息时，确定与所述目标文本信息相对应的目标反馈文本，以基于所述目标反馈文本进行音频反馈。10.一种信息处理装置，其特征在于，包括：音频流发送模块，用于在基于目标接听设备接收到各发言用户的音频流时，将所述音频流发送至目标服务端；其中，各发言用户所对应的终端设备与所述目标接听设备相通信；文本确定模块，用于基于所述目标服务端，确定与所述音频流相对应的发言用户标识，以及文本信息；文本显示模块，用于将所述发言用户标识以及相应的文本信息对应显示至目标显示设备。11.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的信息处理方法。12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-9中任一项所述的信息处理方法。

技术总结

本发明公开了一种信息处理方法、装置、电子设备及存储介质。该方法包括：在基于目标接听设备接收到各发言用户的音频流时，将音频流发送至目标服务端；其中，各发言用户所对应的终端设备与目标接听设备相通信；基于目标服务端，确定与音频流相对应的发言用户标识，以及文本信息；将发言用户标识以及相应的文本信息对应显示至目标显示设备。本技术方案可以基于目标服务端对个多个发言用户的音频流进行区分，并转写为与各发言用户相对应的转化文本显示在目标显示设备上，解决了现有的语音转写技术对多个发言用户的音频不能区分的技术问题，实现了不仅可以区分各发言用户，还可以将各发言用户的音频信息转换为相应的文本以备使用的效果。的效果。的效果。