一种双人对话语音信息的角识别方法及系统与流程

1.本发明涉及语音识别技术领域，特别是涉及一种双人对话语音信息的角识别方法及系统。

背景技术：

2.随着电话客户服务行业的发展，对客服的服务质量量化与通过通话内容分析客户需求越来越重要。目前，客服的服务质量量化方式通常有实时检测和线下检测。实时检测通过数据流来源区分客服和客户，但是大多数企业都没有部署实时检测，因此只能使用线下检测。
3.线下检测从录音出发，但是大多数情况下，录音没有分轨数据，需要区分客服与客户两种角成为量化客服服务质量的关键，只有准确区分客服和客户，才能进一步深入分析客服说话是否规范，客户的需求是什么等等。
4.asr工具往往也能提供角分离的能力，通常情况asr只能区分出两个声音,但是无法正确识别哪个声音是客服的，哪个声音是客户的，如果asr将客户和客服的角识别准确，则角识别的准确率为100％，如果asr把客户和客服的角识别相反，则角识别的准确率为0，因此，提高asr工具角分离的能力非常有必要。

技术实现要素：

5.基于此，本发明提供了一种双人对话语音信息的角识别方法及系统，解决了asr工具角分离中将角识别相反时，角识别准确率为零的问题。
6.本发明实施例提供了一种双人对话语音信息的角识别方法，所述方法包括：
7.获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；
8.将所述待识别角的语音信息输入角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；
9.将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；
10.根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。
11.进一步地，所述获取待识别角的语音信息后还包括：
12.将所述待识别角的语音信息转译为待识别角的语音文本后；将所述待识别角的语音文本输入至所述角识别的第一预测模型和所述角识别的第二预测模型。
13.进一步地，所述角识别的第一预测模型为训练好的asr角预测模型，所述角识别的第二预测模型为训练好的bert模型；以及
14.所述asr角预测模型和所述bert模型通过如下步骤训练获得，包括：
15.转译各历史语音信息，对转译后的语音文本进行角标记，获取各历史语音信息转译后的语音文本的角结果；
16.将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，输入至asr角预测模型和bert模型中进行训练。
17.进一步地，所述根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果，包括：
18.获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；
19.获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；
20.判断所述第一概率与所述第二概率之和是否大于预设阈值；
21.如是，则调换所述角预测第一结果中识别出的第一角、第二角，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。
22.进一步地，将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；
23.所述预处理包括将所有所述历史语音信息转译后的语音文本的对话顺序打乱，将打乱后的语音文本合并。
24.本发明实施例还提供了一种双人对话语音信息的角识别系统，所述系统包括：
25.信息获取模块，用于获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；
26.第一识别模块，用于将所述待识别角的语音信息输入角识别的第一预测模型，得到角预测第一结果；
27.第二识别模块，用于将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；
28.角识别调整模块，用于根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。
29.进一步地，所述系统还包括：
30.转译模块，用于将所述待识别角的语音信息转译为待识别角的语音文本后；将所述待识别角的语音文本输入至所述角识别的第一预测模型和所述角识别的第二预测模型。
31.进一步地，所述角识别的第一预测模型为训练好的asr角预测模型，所述角识别的第二预测模型为训练好的bert模型；以及
32.所述系统还包括训练模块，用于获取训练好的asr角预测模型和bert模型，所述训练模块包括：
33.标记单元，用于转译各历史语音信息，对转译后的语音文本进行角标记，获取各
历史语音信息转译后的语音文本的角结果；
34.训练单元，将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，输入至asr角预测模型和bert模型中进行训练。
35.进一步地，所述角识别调整模块包括：
36.第一概率获取单元，用于获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；
37.第二概率获取单元，用于获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；
38.判断单元，用于判断所述第一概率与所述第二概率之和是否大于预设阈值；
39.目标角获取单元，用于所述第一概率与所述第二概率之和大于预设阈值时，调换所述角预测第一结果中识别出的第一角、第二角，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。
40.进一步地，所述系统还包括预处理模块，用于将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；
41.所述预处理模块包括：
42.打乱模块，用于将所述预处理包括将所有所述历史语音信息转译后的语音文本的对话顺序打乱；
43.合并模块，用于将将打乱后的语音文本合并。
44.本发明提供的一种双人对话语音信息的角识别方法，将待识别角的语音信息，通过输入至角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；通过输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；然后根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。提高了双人对话语音信息的角识别的准确率，并避免了asr工具角分离中将角识别相反时角识别准确率为零问题。
附图说明
45.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的一种双人对话语音信息的角识别方法的流程示意图；
47.图2为本技术实施例提供的调整待识别角的语音信息的目标角识别结果的流程示意图；
48.图3为本发明实施例提供的第一种双人对话语音信息的角识别系统的功能模块示意图；
49.图4为本发明实施例提供的第二种双人对话语音信息的角识别系统的功能模块示意图；
50.图5为本发明实施例提供的第三种双人对话语音信息的角识别系统的功能模块示意图；
51.图6为本发明实施例提供的第四种双人对话语音信息的角识别系统的功能模块示意图；
52.图7为本发明实施例提供的第五种双人对话语音信息的角识别系统的功能模块示意图。
具体实施方式
53.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术；本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。
54.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
55.为了使本技术的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
56.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明，其本身并没有特定的意义。
57.本技术实施例提供的方案涉及人工智能的深度学习(deep learning,dl)、语音技术等。
58.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。
59.深度学习(deep learing，dl)是机器学习(machine learning，ml)领域中一个主要的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音
等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。
60.语音技术(speech technology)的关键技术有自动语音识别技术(automatic speech recognition，asr)、语音合成技术(text to speech，tts)以及声纹识别技术等。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
61.图1是本技术实施例提供的一种双人对话语音信息的角识别方法的流程示意图，本技术提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图1，本技术实施例提供的一种双人对话语音信息的角识别方法可以包括如下步骤：
62.步骤s1:获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；
63.获取待识别角的语音信息，其中语音信息指的是两个或两个以上的人之间在对话过程中产生的语音数据，在获取语音信息之后，需要区分语音信息的角，根据区分的角对对话内容进行检测，实现对角的跟踪分析。在一些实际的场景中，例如一些咨询服务，会存在客户与客服之间的对话，语音客服主要包括以电话或在线语音的形式进行的客户服务，在电话或者语音对话的过程中可产生语音数据，需要对这些对话数据进行识别角，根据识别出的角，深入分析客户与客服之间的对话内容，进而检测客服说话是否规范，客户的实际需求是什么。
64.步骤s2:将所述待识别角的语音信息输入角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；
65.在本技术实施例中所述角识别的第一预测模型为asr角预测模型，自动语音识别也称为语音识别(speech recognition)或计算机语音识别(computer speech recognition)。预先分析出角的语音特征参数，制作语音模板，并存放在语音参数库中。将待识别语音信息经过与训练时相同的分析，得到语音参数。将它与库中的参考模板一一比较，并采用判决的方法出最接近语音特征的模板，得出语音信息角识别结果。
66.在本技术实施例中，上述角预测第一结果可以包含根据语音信息特征参数特征信息识别为第一角和第二角之间进行对话结果，例如一些咨询服务，将客户与客服之间的对话输入自动语音识别(asr)，自动语音识别(asr)将对话识别为客户(第一角)与客服(第二角)之间的对话。
67.步骤s3:将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；
68.在本技术实施例中所述角识别的第二预测模型可以是训练好的bert模型。bert的网络架构是基于vaswani et al.(2017)中描述的原始实现的multi-layer bidirectional transformer编码器。bert使用双向的transformer，在所有层中同时学习上下文语境特征信息。bert模型利用自监督的学习方法在大规模无标注语料上的进行预训练，使用transformer encoder结构，通过attention机制将任意位置的两个单词的距离转换成向量表示，在有效解决自然语言处理中长期依赖的问题，同时获取文本中丰富的语义信息。
69.在本技术实施例中，上述角预测第二结果可以包含根据语音信息语义信息识别出的第一角和第二角之间的对话，例如一些咨询服务，将通过bert模型将其识别为客户(第一角)与客服(第二角)之间的对话。
70.在一些实施例中，在步骤s2和步骤s3之前，需先对asr角预测模型和bert模型进行训练，并确定asr角预测模型和bert模型的参数。
71.具体地，对asr角预测模型和bert模型训练之前，先对存储于数据库中的历史语音信息转译为语音文本，对转译后的语音文本进行角标记，获取各历史语音信息转译后的语音文本的角结果，如可以通过自动语音识别(asr)将其转换为语音文本，然后对转译后的语音文本进行角标注，以获取各历史语音信息转译后的语音文本的角结果；需要解释的是，类别即为语音信息中包含的第一角和第二角，角标记指的是转译后的语音文本与对应的角之间建立起映射关系的处理过程；例如一些咨询服务，将语音文本中客户说的话标记为1，将语音文本中客服说的话标记为0。
72.进一步地，将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，分别输入至asr角预测模型和bert模型中进行训练。然后将各历史语音信息转译后的语音文本中客户和客服所说的话作为自变量，将语音文本中客户说的话标记为1和语音文本中客服说的话标记为0作为因变量，输入至asr角预测模型和bert模型中进行训练。训练结束之后，对训练得到的asr角预测模型和bert模型进行验证，当准确率达到80％以上时，训练得到的asr角预测模型和bert模型作为所述角识别的第一预测模型和所述角识别的第二预测模型。
73.在一些实施例中，将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；
74.所述预处理包括将所有所述历史语音信息转译后的语音文本的对话顺序打乱，将打乱后的语音文本合并。
75.历史语音信息是两个或两个以上的人之间在对话过程中产生的语音数据，将其转译得到语音文本，为了提高asr角预测模型和bert模型预测的准确性，将所述历史语音信息转译后的所有语音文本的对话顺序打乱，然后将打乱之后的语音文本随机合并之后，在输入至asr角预测模型和bert模型进行训练。
76.步骤s4:根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。
77.由上述实施例可知，所述角识别的第一预测模型将每通语音信息识别为第一角和第二角之间的对话，所述角识别的第二预测模型将每通语音信息识别为第一角
和第二角之间的对话，然后将角预测第一结果、所述角预测第二结果进行对比，可以得到第一预测模型将语音信息识别为第一角，在第二预测模型相同的语音信息识别为第二角的概率，同理，可以得到第一预测模型将语音信息识别为第二角，在第二预测模型中相同的语音信息识别为第一角的概率，然后将两个概率相加，与预设阈值进行比较，如果两个概率之和超过预设阈值，将第一预测模型中识别为第一角对应的语音信息的角替换为第二角，将第一预测模型中识别为第二角对应的语音信息的角替换为第一角，则替换后的结果作为所述待识别角的语音信息的目标角识别结果。如果两个概率的和在预设阈值之内，直接将所述角识别的第一预测模型识别出待识别角的语音信息的第一角和第二角作为目标角识别结果。
78.图2是本技术实施例提供的调整待识别角的语音信息的目标角识别结果的流程示意图，具体地，步骤s4包括：
79.步骤s41:获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；
80.步骤s42:获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；
81.步骤s43:判断所述第一概率与所述第二概率之和是否大于预设阈值；
82.步骤s44:如是，则调换所述角预测第一结果中识别出的第一角、第二角位置，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。
83.具体地，例如一些咨询服务将客户与客服之间的对话输入自动语音识别(asr)和bert模型中，自动语音识别(asr)将对话识别为角为客户与客服，bert模型将对话识别为角为客户与客服，然后统计同一句对话内容在自动语音识别(asr)识别为客户但在bert模型中识别为客服的第一概率，同理，统计同一句对话内容在自动语音识别(asr)识别为客服，但在bert模型中识别为客户的第二概率，然后将第一概率和第二概率相加，与预设阈值进行比较，如果第一概率和第二概率之和超过预设阈值，将自动语音识别(asr)识别的待识别角的语音信息识别为客户的对话角替换为客服，将自动语音识别(asr)识别的待识别角的语音信息识别为客服的对话角替换为客户，替换之后的结果为所述待识别角的语音信息的目标角识别结果。如果第一概率和第二概率之和在预设阈值以内，直接将自动语音识别(asr)将对话识别为角为客户与客服的角结果作为所述待识别角的语音信息的目标角识别结果。
84.本发明提供的一种双人对话语音信息的角识别方法，将待识别角的语音信息，通过输入至角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；通过输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；然后根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。提高了双人对话语音信息的角识别的准确率，及避免了asr工具角分离中将角识别相反时角识别准确率为零问题。
85.图3为本发明实施例提供的一种双人对话语音信息的角识别系统的功能模块示
意图，所述系统包括：信息获取模块1，用于获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；第一识别模块2，用于将所述待识别角的语音信息输入角识别的第一预测模型，得到角预测第一结果；第二识别模块3，用于将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；角识别调整模块4，用于根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。
86.在上述实施例的基础上，其他实施例中，图4为本发明实施例提供的一种双人对话语音信息的角识别系统的功能模块示意图，所述系统还包括：转译模块5，用于将所述待识别角的语音信息转译为待识别角的语音文本后；将所述待识别角的语音文本输入至所述角识别的第一预测模型和所述角识别的第二预测模型。
87.在上述实施例的基础上，其他实施例中，图5为本发明实施例提供的一种双人对话语音信息的角识别系统的功能模块示意图，所述系统还包括训练模块6，用于获取训练好的asr角预测模型和bert模型，所述训练模块包括：标记单元61，用于转译各历史语音信息，对转译后的语音文本进行角标记，获取各历史语音信息转译后的语音文本的角结果；训练单元62，将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，输入至asr角预测模型和bert模型中进行训练。
88.在上述实施例的基础上，其他实施例中，图6为本发明实施例提供的一种双人对话语音信息的角识别系统的功能模块示意图，所述角识别调整模块4包括：第一概率获取单元41，用于获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；第二概率获取单元42，用于获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；判断单元43，用于判断所述第一概率与所述第二概率之和是否大于预设阈值；目标角获取单元44，用于所述第一概率与所述第二概率之和大于预设阈值时，调换所述角预测第一结果中识别出的第一角、第二角，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。
89.在上述实施例的基础上，其他实施例中，图7为本发明实施例提供的一种双人对话语音信息的角识别系统的功能模块示意图，所述系统还包括预处理模块7，用于将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；所述预处理模块7包括：打乱模块71，用于将所述预处理包括将所有所述历史语音信息转译后的语音文本的对话顺序打乱；合并模块72，用于将将打乱后的语音文本合并。
90.关于上述实施例提供的双人对话语音信息的角识别系统中各模块实现技术方案的其他细节，可参见上述实施例中的双人对话语音信息的角识别方法中的描述，此处不再赘述。
91.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参
见方法实施例的部分说明即可。

技术特征：

1.一种双人对话语音信息的角识别方法，其特征在于，所述方法包括：获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；将所述待识别角的语音信息输入角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。2.根据权利要求1所述的一种双人对话语音信息的角识别方法，其特征在于，所述获取待识别角的语音信息后还包括：将所述待识别角的语音信息转译为待识别角的语音文本后；将所述待识别角的语音文本输入至所述角识别的第一预测模型和所述角识别的第二预测模型。3.根据权利要求2所述的一种双人对话语音信息的角识别方法，其特征在于，所述角识别的第一预测模型为训练好的asr角预测模型，所述角识别的第二预测模型为训练好的bert模型；以及所述asr角预测模型和所述bert模型通过如下步骤训练获得，包括：转译各历史语音信息，对转译后的语音文本进行角标记，获取各历史语音信息转译后的语音文本的角结果；将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，输入至asr角预测模型和bert模型中进行训练。4.根据权利要求1所述的一种双人对话语音信息的角识别方法，其特征在于，所述根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果，包括：获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；判断所述第一概率与所述第二概率之和是否大于预设阈值；如是，则调换所述角预测第一结果中识别出的第一角、第二角，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。5.根据权利要求3所述的一种双人对话语音信息的角识别方法，其特征在于，将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；所述预处理包括将所有所述历史语音信息转译后的语音文本的对话顺序打乱，将打乱后的语音文本合并。6.一种双人对话语音信息的角识别系统，其特征在于，所述系统包括：
信息获取模块，用于获取待识别角的语音信息，其中，所述待识别角的语音信息为包含第一角和第二角的对话信息；第一识别模块，用于将所述待识别角的语音信息输入角识别的第一预测模型，得到角预测第一结果；第二识别模块，用于将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；角识别调整模块，用于根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。7.根据权利要求6所述的一种双人对话语音信息的角识别系统，其特征在于，所述系统还包括：转译模块，用于将所述待识别角的语音信息转译为待识别角的语音文本后；将所述待识别角的语音文本输入至所述角识别的第一预测模型和所述角识别的第二预测模型。8.根据权利要求7所述的一种双人对话语音信息的角识别系统，其特征在于，所述角识别的第一预测模型为训练好的asr角预测模型，所述角识别的第二预测模型为训练好的bert模型；以及所述系统还包括训练模块，用于获取训练好的asr角预测模型和bert模型，所述训练模块包括：标记单元，用于转译各历史语音信息，对转译后的语音文本进行角标记，获取各历史语音信息转译后的语音文本的角结果；训练单元，将各历史语音信息转译后的语音文本作为自变量，各历史语音信息转译后的语音文本的角结果作为因变量，输入至asr角预测模型和bert模型中进行训练。9.根据权利要求6所述的一种双人对话语音信息的角识别系统，其特征在于，所述角识别调整模块包括：第一概率获取单元，用于获取所述角预测第一结果的第一角在所述角预测第二结果中预测为第二角的第一概率；第二概率获取单元，用于获取所述角预测第一结果的第二角在所述角预测第二结果中预测为第一角的第二概率；判断单元，用于判断所述第一概率与所述第二概率之和是否大于预设阈值；目标角获取单元，用于所述第一概率与所述第二概率之和大于预设阈值时，调换所述角预测第一结果中识别出的第一角、第二角，调换后的角识别结果为目标角识别结果；否则，以所述角预测第一结果为目标角识别结果。10.根据权利要求8所述的一种双人对话语音信息的角识别系统，其特征在于，所述系统还包括预处理模块，用于将历史语音信息转译后的语音文本输入asr角预测模型和bert模型之前，对所述历史语音信息转译后的语音文本进行预处理；所述预处理模块包括：打乱模块，用于将所述预处理包括将所有所述历史语音信息转译后的语音文本的对话
顺序打乱；合并模块，用于将将打乱后的语音文本合并。

技术总结

本发明提供了一种双人对话语音信息的角识别方法及系统，所述方法包括：获取待识别角的语音信息；将所述待识别角的语音信息输入角识别的第一预测模型，得到所述待识别角的语音信息对应的角预测第一结果；将所述待识别角的语音信息输入角识别的第二预测模型，得到所述待识别角的语音信息对应的角预测第二结果；根据所述角预测第一结果、所述角预测第二结果和预设阈值，判断是否对所述角预测第一结果中的第一角和第二角进行调整，并根据得到的调整结果从所述角预测第一结果中确定所述待识别角的语音信息的目标角识别结果。提高了双人对话语音信息的角识别的准确率。音信息的角识别的准确率。音信息的角识别的准确率。