AI外呼评估方法、装置、电子设备及存储介质与流程

ai外呼评估方法、装置、电子设备及存储介质
技术领域
1.本技术涉及人工智能技术领域，尤其涉及一种ai外呼评估方法、装置、电子设备及存储介质。

背景技术：

2.人工智能(artificial intelligence,ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门科学。它属于计算机科学的一个新的分支领域，企图通过挖掘智能的实质，生产出一种新的以和人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音合成/识别、图像识别、自然语言处理和专家系统等等。
3.近年来，人工智能在多意图识别领域的应用已越来越广泛，所涉及到的领域技术和模型类型也更具多样性和复杂性。在ai外呼(一个利用机器人帮助平台用户自动、与平台用户的客户进行沟通交流的智能服务平台)领域，机器人与客户(真人)进行实时的沟通交流的过程中，就至少需要用到(仿真人)语音合成、(真人)语音识别、自然语言处理和多意图识别等人工智能技术，从而利用机器人来满足客户的需求。
4.目前，对人工智能各研究领域的模型效果评估都已日趋成熟，且存在许多不同角度的评估指标供研究者参考，但是，不仅纯模型的效果与模型应用到现实生活后的效果之间存在着差异，且复杂的混合应用中任何单一模型的效果与整体应用展现出的效果之间更是差异巨大。因此，也往往给人以模型效果评估结果“失真”，即存在让用户感觉机器人并没有正确地识别到他们的想法的情形，因此，如何能够准确的提高对ai外呼评估的准确性，就成了亟需解决的问题。

技术实现要素：

5.本技术实施例的主要目的在于提出一种ai外呼评估方法、装置、电子设备及存储介质，能够提高对ai外呼评估的准确性。
6.为实现上述目的，本技术实施例的第一方面提出了一种ai外呼评估方法，所述方法包括：
7.获取外呼语音数据，所述外呼语音数据包括合成语音播报信息和目标对象语音输入信息；
8.确定所述合成语音播报信息的播报错误率，根据所述播报错误率确定语音合成评估指标；
9.确定所述目标对象语音输入信息的字错误率和句错误率，根据所述字错误率和所述句错误率确定语音识别评估指标；
10.利用多个单模型分别确定所述目标对象语音输入信息的意图分类语料数据，根据各个所述意图分类语料数据确定各个所述单模型的单模型评估指标，所述单模型评估指标用于表征所述单模型的意图分类准确率，其中，多个所述单模型为自然语言处理过程中不
同的用于意图分类的模型；
11.根据多个所述单模型确定多个模型组合，根据多个所述模型组合以及多个所述单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；
12.根据多个所述多模型评估指标确定语言处理评估指标；
13.根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标；
14.根据所述综合指标得到评估结果。
15.在一些实施例，所述根据所述综合指标得到评估结果，包括：
16.根据所述语音识别评估指标和所述语言处理评估指标确定语音意图评估指标；
17.根据所述综合指标和所述语音意图评估指标得到评估结果。
18.在一些实施例，所述根据多个所述多模型评估指标确定语言处理评估指标，包括：
19.确定多个所述模型组合各自对应的占比信息；
20.根据所述占比信息对多个所述多模型评估指标进行加权，得到所述语言处理评估指标。
21.在一些实施例，所述根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标，包括：
22.确定所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标各自对应的权重因子；
23.根据所述权重因子对所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标进行加权，得到所述综合指标。
24.在一些实施例，每个所述意图分类语料数据皆包括多个模型意图分类语料数，多个所述模型意图分类语料数由所述单模型对多个不同的意图分类进行分类得到；
25.每个所述单模型对应的单模型评估指标，由以下步骤得到：
26.根据多个所述模型意图分类语料数以及预设的多个正确预料分类数确定出意图分类正确语料数，其中，多个所述正确预料分类数与多个所述模型意图分类语料数一一对应；
27.根据多个所述意图分类正确语料数确定意图分类准确率，得到单模型评估指标。
28.在一些实施例，所述根据所述播报错误率确定语音合成评估指标，包括：
29.当所述播报错误率小于预设的第一错误率阈值，确定所述合成语音播报信息的播报正确率；
30.根据所述播报正确率确定所述语音合成评估指标。
31.在一些实施例，所述根据所述字错误率和所述句错误率确定语音识别评估指标，包括：
32.当所述字错误率小于预设的第二错误率阈值，根据所述句错误率确定语音识别评估指标。
33.为实现上述目的，本技术实施例的第二方面提出了一种ai外呼评估装置，所述装置包括：
34.数据获取模块，用于获取外呼语音数据，所述外呼语音数据包括合成语音播报信息和目标对象语音输入信息；
35.播报评估模块，用于确定所述合成语音播报信息的播报错误率，根据所述播报错误率确定语音合成评估指标；
36.语言识别模块，用于确定所述目标对象语音输入信息的字错误率和句错误率，根据所述字错误率和所述句错误率确定语音识别评估指标；
37.单模型评估模块，用于利用多个单模型分别确定所述目标对象语音输入信息的意图分类语料数据，根据各个所述意图分类语料数据确定各个所述单模型的单模型评估指标，所述单模型评估指标用于表征所述单模型的意图分类准确率，其中，多个所述单模型为自然语言处理过程中不同的用于意图分类的模型；
38.多模型评估模块，用于根据多个所述单模型确定多个模型组合，根据多个所述模型组合以及多个所述单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；
39.自然语言处理综合评估模块，用于根据多个所述多模型评估指标确定语言处理评估指标；
40.应用综合评估模块，用于根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标；
41.评估结果生成模块，用于根据所述综合指标得到评估结果。
42.为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现上述第一方面所述的ai外呼评估方法，或者，第二方面所述的ai外呼评估方法。
43.为实现上述目的，本技术实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面所述的ai外呼评估方法，或者，第二方面所述的ai外呼评估方法。
44.本技术提出的ai外呼评估方法、装置、电子设备及存储介质，其通过获取外呼语音数据，所述外呼语音数据包括合成语音播报信息和目标对象语音输入信息；确定合成语音播报信息的播报错误率，根据播报错误率确定语音合成评估指标；确定目标对象语音输入信息的字错误率和句错误率，根据字错误率和句错误率确定语音识别评估指标；利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，根据各个意图分类语料数据确定各个单模型的单模型评估指标，单模型评估指标用于表征单模型的意图分类准确率，多个单模型为自然语言处理过程中不同的用于意图分类的模型；根据多个单模型确定多个模型组合，根据多个模型组合以及多个单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；根据多个多模型评估指标确定语言处理评估指标；根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标；根据综合指标得到评估结果。本技术通过对ai外呼的每个过程进行单独的评估，并对每个过程得到的评估指标进一步进行了综合性的评估，得到对整个ai外呼过程的全面且系统的评估结果，从而提高了评估的准确性，便于后续利用评估结果对模型和算法进行优化。
附图说明
45.图1是本技术实施例提供的ai外呼评估方法的流程示意图；
46.图2是图1中的步骤s800的子流程示意图；
47.图3是图1中的步骤s600的子流程示意图；
48.图4是图1中的步骤s700的子流程示意图；
49.图5是本技术实施例提供的ai外呼评估装置的结构示意图；
50.图6是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
52.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
53.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
54.为了更好描述本技术实施例提供了一种ai外呼评估方法、装置、电子设备及存储介质，这里对ai外呼流程中涉及的关键技术进行一个简述。这些技术主要包括从文本到语音合成(text to speech，tts)技术、语音转换为文本(acceleration slip regulation，asr)技术、自然语言处理(natural languageprocessing，nlp)技术等。
55.tts语音合成技术应用于机器人语音播报阶段，asr语音识别技术应用于对客户输入的语音消息进行转文字分析阶段，nlp自然语言处理技术则是应用于对客户输入的语音消息进行意图分析。其中，自然语言处理技术涉及分词/关键字提取、分句模型、规则引擎、es引擎、esim模型、textcnn模型和fasttext模型等技术手段，在对客户输入的语音消息进行意图分析时，分别利用自然语言处理技术中技术手段完成意图分析处理。
56.因此，要实现对整个ai外呼过程的评估，需要同时考虑tts语音合成技术、asr语音识别技术和nlp自然语言处理技术综合应用和配合的结果，其中任何单一领域技术和模型的效果评估结果都不能全面、真实地代表整个应用的表现。
57.基于此，本技术实施例提供了一种ai外呼评估方法、装置、电子设备及存储介质，能够完成对tts语音合成技术、asr语音识别技术和nlp自然语言处理技术的综合考虑，使得评估的结果具备更好的准确性。
58.本技术实施例提供的ai外呼评估方法、装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本技术实施例中的ai外呼评估方法。
59.本技术实施例提供的ai外呼评估方法，涉及人工智能技术领域。本技术实施例提供的ai外呼评估方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间
件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现ai外呼评估方法的应用等，但并不局限于以上形式。
60.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
61.参照图1，图1是本技术实施例提供的ai外呼评估方法的一个可选的流程示意图，图1中的方法可以包括但不限于包括步骤s100至步骤s800。
62.步骤s100，获取外呼语音数据，外呼语音数据包括合成语音播报信息和目标对象语音输入信息；
63.步骤s200，确定合成语音播报信息的播报错误率，根据播报错误率确定语音合成评估指标；
64.步骤s300，确定目标对象语音输入信息的字错误率和句错误率，根据字错误率和句错误率确定语音识别评估指标；
65.步骤s400，利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，根据各个意图分类语料数据确定各个单模型的单模型评估指标，单模型评估指标用于表征单模型的意图分类准确率，其中，多个单模型为自然语言处理过程中不同的用于意图分类的模型；
66.步骤s500，根据多个单模型确定多个模型组合，根据多个模型组合以及多个单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；
67.步骤s600，根据多个多模型评估指标确定语言处理评估指标；
68.步骤s700，根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标；
69.步骤s800，根据综合指标得到评估结果。
70.本技术实施例的步骤s100至s800通过获取ai外呼过程中的外呼语音数据，进而可以对外呼语音数据进行分析，确定合成语音播报信息的播报错误率，以及确定目标对象语音输入信息的字错误率和句错误率，从而可以根据播报错误率确定语音合成评估指标，根据字错误率和句错误率确定语音识别评估指标；同时，利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，之后可以根据各个意图分类语料数据确定各个单模型的单模型评估指标，然后，可以根据多个模型组合以及多个单模型评估指标，确定与多个模型组合一一对应的多模型评估指标，进而根据多个多模型评估指标确定语言处理评估指标，并最终根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标，得到评估结果。本技术通过对ai外呼的每个过程进行单独的评估，并对每个过程得到的评估指标进一步进行了综合性的评估，得到对整个ai外呼过程的全面且系统的评估结果，从而提高了评估的准确性，便于后续利用评估结果对模型和算法进行优化。
71.具体的，合成语音播报信息基于tts语音合成技术直接生成，其由文字转换为语音的播报错误率，便可以作为对tts语音合成过程的语音合成评估指标的评估基础，播报错误率越低相应的语音合成评估指标的结果也会越好。目标对象语音输入信息通过asr语音识别技术识别为文字，识别过程中可能会出现识别错误的情形，这些错误最后可以归纳为字错误率和句错误率，可以理解的是字错误率和句错误率越低，相应的根据字错误率和句错误率确定的语音识别评估指标也会越好。nlp自然语言处理技术可以对目标对象语音输入信息进行意图分析，从而根据意图分类的结果来确定语言处理评估指标。
72.对于nlp自然语言处理技术而言，因处理过程中涉及较多的单模型，因此，需要先对各个单模型进行单独的评估，然后再利用多个模型组合完成组合评估，最后基于组合评估结果来确定整个nlp自然语言处理过程的语言处理评估指标。需要说明的是，nlp自然语言处理中的单模型至少包括情绪识别模型、分句模型、规则引擎模型、es召回模型、textcnn模型和fasttext模型。
73.对于单模型的评估，可以直接以单模型的意图分类准确率来作为评估标准，评估过程可以使用每个单模型自身进行意图分类得到的意图分类语料数据来完成。多个模型组合需要考虑各种有相互影响关系的模型之间的组合情况的识别效果，本实施例中，至少包括情绪识别模型与规则引擎模型组合、情绪识别模型与分句模型与es召回模型组合、情绪识别模型与分句模型与textcnn模型组合、情绪识别与分句模型与fasttext模型组合，具体的组合模型的个数以及组合情况，可以根据实际的需求进行适应性的调整；需要说明的是，每个组合模型确定多模型评估指标是直接基于组合中使用的单模型完成，对于具体获取方式，可以基于笛卡儿积的原理直接利用相应的单模型评估指标完成，以情绪识别模型与规则引擎模型为例，多模型评估指标即为情绪识别模型对应的单模型评估指标与规则引擎模型对应的单模型评估指标的乘积。多个多模型评估指标确定后，则可以直接综合多个模型组合的影响，利用多个多模型评估指标求取nlp自然语言处理过程的语言处理评估指标。
74.需要说明的是，在对整体效果进行评估时，asr语音识别和nlp自然语言处理之间是一种承上启下的紧密关系，asr语音识别的效果将直接影响nlp自然语言处理的意图识别，同时，tts语音合成的表现会直接影响客户的情绪以及客户的回答，即，如果机器人播报不清晰或错误，很可能导致客户情绪波动或者错误/不愿意回答问题，甚至挂断电话。因此，对于整体应用而言，除了需要考虑asr语音识别过程和nlp自然语言处理过程外，也需要综合考虑tts语音合成的效果。进而，在确定语音合成评估指标、语音识别评估指标和语言处理评估指标后，便可以综合考虑各个过程在实际处理时的影响，确定最终的综合指标，而此综合指标会用作评估结果输出，供研发人员查阅，以便后续对整体的算法或模型构架进行优化。
75.请参阅图2，在一些实施例中，步骤s800，包括：
76.步骤s810，根据语音识别评估指标和语言处理评估指标确定语音意图评估指标；
77.步骤s820，根据综合指标和语音意图评估指标得到评估结果。
78.除了对整个流程进行综合评估以外，对asr语音识别过程和nlp自然语言处理过程的评估也同样具备较为突出的实际意义，可以便于研发人员更好的了解意图识别效果。因此，在生成评估结果时，会先根据语音识别评估指标和语言处理评估指标确定语音意图评估指标，然后同时将综合指标和语音意图评估指标作为评估结果输出。需要说明的是，对于
语音意图评估指标的确定，可以直接利用语音识别评估指标和语言处理评估指标进行乘法运算得到即可。
79.请参阅图3，在一些实施例中，步骤s600，包括：
80.步骤s610，确定多个模型组合各自对应的占比信息；
81.步骤s620，根据占比信息对多个多模型评估指标进行加权，得到语言处理评估指标。
82.不同单模型的准确率不一样、性能不一样，因此，为了进一步保证评估结果的准确性，从而需要增加占比信息来区别不同的模型组合之间的影响力。所以在进行占比信息设置时，需要考虑但模型自身准确性和性能等因素，再确定每个模型组合对应的占比信息，通常不同的模型组合会对应不同的占比信息。在确定赞比信息后，则可以利用加权运算的方式完成语言处理评估指标的计算。在本实施例中，语言处理评估指标的计算公式如下：
83.语言处理评估指标＝规则引擎占比*(情绪识别模型+规则引擎模型)多模型评估指标+es召回统计占比*(情绪识别模型+分句模型+es召回模型)多模型评估指标+textcnn统计占比*(情绪识别模型+分句模型+textcnn模型)多模型评估指标+fasttext统计占比*(情绪识别模型+分句模型呢+fasttext模型)多模型评估指标，
84.式中，规则引擎占比、es召回统计占比、textcnn统计占比、fasttext统计占比分别为式中对应的模型组合的占比信息。
85.请参阅图4，在一些实施例中，步骤s700，包括：
86.步骤s710，确定语音合成评估指标、语音识别评估指标和语言处理评估指标各自对应的权重因子；
87.步骤s720，根据权重因子对语音合成评估指标、语音识别评估指标和语言处理评估指标进行加权，得到综合指标。
88.tts语音合成过程、asr语音识别过程和nlp自然语言处理过程对意图识别效果的影响不同，可以理解的是，tts语音合成过程对意图识别结果的影响相对而言会小很多，因此，可以增加权重因子来对语音合成评估指标、语音识别评估指标和语言处理评估指标来进行加权运算，从而得到综合指标。在本实施例中，综合指标的计算公式如下：
89.综合指标＝(w(t)*语音合成评估指标)*(w(a)*语音识别评估指标)*(w(n)*语言处理评估指标)，
90.式中，w(t)、w(a)、w(n)为分别对应语音合成评估指标、语音识别评估指标和语言处理评估指标的权重因子。
91.在一些实施例中，每个意图分类语料数据皆包括多个模型意图分类语料数，多个模型意图分类语料数由单模型对多个不同的意图分类进行分类得到；
92.每个单模型对应的单模型评估指标，由以下步骤得到：
93.根据多个模型意图分类语料数以及预设的多个正确预料分类数确定出意图分类正确语料数，其中，多个正确预料分类数与多个模型意图分类语料数一一对应；
94.根据多个意图分类正确语料数确定意图分类准确率，得到单模型评估指标。
95.对于单模型的单模型评估指标，直接可以基于意图分类的结果得到。以单个单模型为例，每个单模型都需要进行多种不同的意图分类，从而得到多个模型意图分类语料数；假设测试集的语料总量为p，其中属于意图分类x的正确预料分类数为px，机器人识别为意
图分类x的模型意图分类语料数为ax，机器人识别意图分类x的意图分类正确语料数为tx＝px∩ax，意图分类准确率的计算公式如下：
[0096][0097]
式中，n为每个单模型对应的n个不同的意图分类，意图分类准确率即为单模型评估指标。
[0098]
此外，在计算意图分类准确率的同时，还会计算出单模型对每个意图分类的单分类准确率和单分类正确比例，具体计算公式如下：
[0099]
单分类准确率＝tx/px，
[0100]
单分类正确比例＝tx/ax，
[0101]
单分类准确率代表的是对于某一个意图分类机器人的识别能力，可提供给研究人员，使研究人员有针对性地采集更多该意图分类的语料数量和类型并进行数据标注，最后用于模型训练以提升识别效果。单分类正确比例代表的也是对于某一个意图分类机器人的识别能力，与单分类准确率不同是，它是提供给研究人员直接用于模型分析和优化以提升识别效果。通过获取单分类准确率和单分类正确比例，使得在整个评估过程中，除了能够知晓ai外呼的效果，同时也可以得到让研究人员能够更为有效使用的数据。需要说明的是，对于每个单模型，都要计算出单模型评估指标以及多个单分类准确率和多个单分类正确比例。
[0102]
在一些实施例中，步骤200，包括：
[0103]
当播报错误率小于预设的第一错误率阈值，确定合成语音播报信息的播报正确率；
[0104]
根据播报正确率确定语音合成评估指标。
[0105]
首先需要说明的是，对tts语音合成过程的评估可通过mos值测试方法得到，直接使用mos自动打分系统可以节省人力资源和时间开销，mos自动打分系统可以选择mosnet、autonet等。但是，考虑到机器人只需要正常且清晰地播报出剧本话术就不会对后面的意图识别过程产生重大影响，可以只需要关心机器人播报正确/错误的占比即可。因此，可将mos值测试结果转换为确定机器人播报正确的概率值。因此，本技术直接使用了播报错误率来确定语音合成评估指标。
[0106]
具体的，在实际播报时，如果播报错误率过高，则会导致无法理解文本含义，因此，在确定语音合成评估指标前，需要先确定一下播报错误率是否小于第一错误率阈值，当小于第一错误率阈值时，才说明本次播报为有效播报，之后，确定播报正确率，以播报正确率作为最终的语音合成评估指标即可。
[0107]
在一些实施例中，步骤200，还包括：
[0108]
当播报错误率大于第一错误率阈值，返回第一测试失败标志。
[0109]
在播报错误率超过第一错误率阈值后，则说明无法理解文本含义，那么本次测试的结果不具备实际意义，则可以直接反馈第一测试失败标志即可，同时，可以结束本次测试，避免后续过程浪费算力。
[0110]
需要说明的是，通常认为播报错误率超过15％会导致难以理解文本内容，因此，在一些实施例中，第一错误率阈值可以设定为15％。
[0111]
在一些实施例中，步骤200，还包括：
[0112]
当播报错误率小于预设的第三错误率阈值，将播报正确率确定为完全正确，根据播报正确率确定语音合成评估指标。
[0113]
当错误率小于第三错误率阈值，对于自动识别而言可以基本理解为没有错误，此时完全不会影响文本的理解，因此，在对于播报正确率小于第三错误率阈值的情况，则可以直接默认为完全正确即可，此时语音合成评估指标表征100％正确。需要说明的是，通常认为播报错误率低于3％才完全不会影响文本的理解，因此，在一些实施例行，第三错误率阈值可以设定为3％。
[0114]
在一些实施例，步骤s300，包括：
[0115]
当字错误率小于预设的第二错误率阈值，根据句错误率确定语音识别评估指标。
[0116]
首先需要说明的是，对于asr语音识别技术的效果可以采用词错误率(word error rate，wer)和句错误率(sentence error rate，ser)来进行评估。假设s为替换的字数，d为删除的字数，i为插入的字数，c为正确的字数，n为s替换+d删除+c正确的字数，即n为源文本的总字数，则wer的计算公式为：
[0117]
wer＝(s+d+i)/n＝(s+d+i)/(s+d+c)，
[0118]
需要说明的是，n不包含i，故wer有可能大于100％。
[0119]
ser的计算公式为：
[0120]
ser＝错误句数/总句数；
[0121]
式中，错误句数是根据错误字数的存在与否进行判断的，通常，在一句话中如果存在错误字，则可以确定本句话为错误句，从而可以依据此方法，确定整个asr语音识别结果的错误总句数。
[0122]
通过上述过程可以知晓，错误字数的影响相较于错误句数的影响会更大，在语音识别时，如果识别出来的字错误率过高，则会导致识别结果毫无可读性，因此，在确定语音合成评估指标前，需要先确定一下子错误率是否小于第二错误率阈值，在小于第二错误率阈值时，才会根据句错误率来确定句正确率，即得到语音合成评估指标。
[0123]
在一些实施例中，步骤s300，还包括：
[0124]
当字错误率大于第二错误率阈值，返回第二测试失败标志。
[0125]
在字错误率超过第三错误率阈值后，则说明语音识别的文本毫无可读性，那么本次测试的结果则不具备实际意义，可以直接反馈第二测试失败标志即可，同时，可以结束本次测试，避免后续过程浪费算力。
[0126]
需要说明的是，通常认为字错误率超过15％会不存在可读性，因此，在一些实施例中，第二错误率阈值可以设定为15％。
[0127]
在一些实施例中，步骤s300，还包括：
[0128]
当子错误率小于预设的第四错误率阈值，将句正确率确定为完全正确，根据句正确率确定语音识别评估指标。
[0129]
当字错误率小于第四错误率阈值，对于语音识别出来的文本而言，完全不会影响文本的理解，因此，在对于字错误率小于第四错误率阈值的情况，则可以直接默认为完全正确即可，此时语音识别评估指标表征100％正确。需要说明的是，通常认为播报错误率低于3％才完全不会影响文本的理解，因此，在一些实施例行，第四错误率阈值可以设定为3％。
[0130]
为了更好的说明本技术实施例的ai外呼评估方法，这里以最小实施例的方式进行
叙述。
[0131]
需要说明的是，对于整个评估流程而言，在整个流程中所有测试过程都正常完成后，才具备测试的意义，如果中间过程出现错误或者处理失败则会停止测试，并返回相应的标志信息。具体的，当代表电话未接通，返回未接通标志；当电话接通但是tts语音合成判断测试失败，则返回第一测试失败标志；当电话接通、tts语音合成成功，但asr语音识别测试失败，则返回第二测试失败标志信息；当电话接通、tts语音合成成功和asr语音识别成功，但nlp自然语言处理识别失败，返回第三测试失败标志；当电话接通、tts语音合成成功和asr语音识别成功，且nlp识别成功，此时可以完整执行本技术实施例的ai外呼评估方法，在此前提下，得到的评估结果才是有效评估结果。下面在上述前提下，简述本技术最小实施例的ai外呼评估方法。
[0132]
获取外呼语音数据，外呼语音数据通过记录ai外呼通话流程得到，外呼语音数据至少包括合成语音播报信息和目标对象语音输入信息；
[0133]
确定合成语音播报信息的播报错误率，根据播报错误率确定语音合成评估指标；当播报错误率小于15％，利用播报错误率确定合成语音播报信息的播报正确率，将播报正确率确定为语音合成评估指标；当播报错误率小于3％，此时完全不影响文本理解，将播报正确率等同于完全正确即可，将播报正确率确定为语音合成评估指标即可；需要说明的是，当播报错误率大于15％，在说明测试失败，直接返回第一测试失败标志即可；
[0134]
确定目标对象语音输入信息的字错误率和句错误率，根据字错误率和句错误率确定语音识别评估指标；当字错误率小于15％，则说明基本可以理解识别结果，此时根据句错误率确定句正确率，将据正确率作为语音识别评估指标即可；当子错误率小于3％，此时识别结果完全可以正常识别，将句正确率确定为完全正确，将句正确率确定为语音识别评估指标即可；需要说明的是，当字错误率大于15％，说明无法理解识别结果，直接返回第二测试失败标志；
[0135]
利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，每个意图分类语料数据皆包括多个模型意图分类语料数ax，多个模型意图分类语料数ax由单模型对多个不同的意图分类进行分类得到；根据多个模型意图分类语料数ax以及预设的多个正确预料分类数px确定出意图分类正确语料数tx，基于此，可以确定每个单模型多个意图分类正确的意图分类正确语料数tx，从而利用总的意图分类正确语料数以及语料集中的语料总量p完成对单模型评估指标的计算；需要说明的是，在确定单模型评估指标的同时会同时确定单分类准确率和单分类正确比例，以便后续研发人员使用；还需要说明的是，多个单模型都是为自然语言处理过程中用于意图分类的模型；
[0136]
根据多个单模型确定多个模型组合，模型组合的选择需要根据实际的需求来进行确定，通常包括情绪识别模型与规则引擎模型组合、情绪识别模型与分句模型与es召回模型组合、情绪识别模型与分句模型与textcnn模型组合、情绪识别与分句模型与fasttext模型组合等多种组合；每个模型组合的多模型评估指标则可以利用对应的单模型的单模型评估指标基于笛卡尔积原理完成计算，根据相同原理，可以依次确定多个多模型评估指标；
[0137]
确定上述多个模型组合各自对应的占比信息，包括规则引擎占比、es召回统计占比、textcnn统计占比、fasttext统计占比；根据这些占比信息对多个多模型评估指标进行加权，便可以得到语言处理评估指标；
[0138]
根据语音识别评估指标和语言处理评估指标确定语音意图评估指标；语音意图评估指标高低代表客户的“真实”感受接近与否，更能够反映出意图识别的“真实”效果；
[0139]
确定语音合成评估指标、语音识别评估指标和语言处理评估指标各自对应的权重因子；根据权重因子对语音合成评估指标、语音识别评估指标和语言处理评估指标进行加权，得到综合指标；
[0140]
综合指标和语音意图评估指标便可以作为最终的评估结果。
[0141]
请参阅图5，本技术实施例还提供一种ai外呼评估装置，可以实现上述ai外呼评估方法，该装置包括：
[0142]
数据获取模块911，用于获取外呼语音数据，外呼语音数据包括合成语音播报信息和目标对象语音输入信息；
[0143]
播报评估模块912，用于确定合成语音播报信息的播报错误率，根据播报错误率确定语音合成评估指标；
[0144]
语言识别模块913，用于确定目标对象语音输入信息的字错误率和句错误率，根据字错误率和句错误率确定语音识别评估指标；
[0145]
单模型评估模块914，用于利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，根据各个意图分类语料数据确定各个单模型的单模型评估指标，单模型评估指标用于表征单模型的意图分类准确率，其中，多个单模型为自然语言处理过程中不同的用于意图分类的模型；
[0146]
多模型评估模块915，用于根据多个单模型确定多个模型组合，根据多个模型组合以及多个单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；
[0147]
自然语言处理综合评估模块916，用于根据多个多模型评估指标确定语言处理评估指标；
[0148]
应用综合评估模块917，用于根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标；
[0149]
评估结果生成模块918，用于根据综合指标得到评估结果。
[0150]
本技术实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述ai外呼评估方法。该电子设备可以为电脑、服务器等设备。
[0151]
请参阅图6，图6示意了另一实施例的电子设备的硬件结构，电子设备包括：
[0152]
处理器921，可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案；
[0153]
存储器922，可以采用只读存储器(read only memory，rom)、静态存储设备、动态存储设备或者随机存取存储器(random access memory，ram)等形式实现。存储器922可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器922中，并由处理器921来调用执行本技术实施例的ai外呼评估方法；
[0154]
输入/输出接口923，用于实现信息输入及输出；
[0155]
通信接口924，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
[0156]
总线925，在设备的各个组件(例如处理器921、存储器922、输入/输出接口923和通信接口924)之间传输信息；
[0157]
其中处理器921、存储器922、输入/输出接口923和通信接口924通过总线925实现彼此之间在设备内部的通信连接。
[0158]
本技术实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述ai外呼评估方法。
[0159]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0160]
本技术提出的ai外呼评估方法、装置、电子设备及存储介质，其通过获取外呼语音数据，外呼语音数据包括合成语音播报信息和目标对象语音输入信息；确定合成语音播报信息的播报错误率，根据播报错误率确定语音合成评估指标；确定目标对象语音输入信息的字错误率和句错误率，根据字错误率和句错误率确定语音识别评估指标；利用多个单模型分别确定目标对象语音输入信息的意图分类语料数据，根据各个意图分类语料数据确定各个单模型的单模型评估指标，单模型评估指标用于表征单模型的意图分类准确率，多个单模型为自然语言处理过程中不同的用于意图分类的模型；根据多个单模型确定多个模型组合，根据多个模型组合以及多个单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；根据多个多模型评估指标确定语言处理评估指标；根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标；根据综合指标得到评估结果。本技术通过对ai外呼的每个过程进行单独的评估，并对每个过程得到的评估指标进一步进行了综合性的评估，得到对整个ai外呼过程的全面且系统的评估结果，从而提高了评估的准确性，便于后续利用评估结果对模型和算法进行优化。
[0161]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
[0162]
本领域技术人员可以理解的是，图1-4中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
[0163]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0164]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0165]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存
在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0166]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0167]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0168]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0169]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0170]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0171]
以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

技术特征：

1.一种ai外呼评估方法，其特征在于，所述方法包括：获取外呼语音数据，所述外呼语音数据包括合成语音播报信息和目标对象语音输入信息；确定所述合成语音播报信息的播报错误率，根据所述播报错误率确定语音合成评估指标；确定所述目标对象语音输入信息的字错误率和句错误率，根据所述字错误率和所述句错误率确定语音识别评估指标；利用多个单模型分别确定所述目标对象语音输入信息的意图分类语料数据，根据各个所述意图分类语料数据确定各个所述单模型的单模型评估指标，所述单模型评估指标用于表征所述单模型的意图分类准确率，其中，多个所述单模型为自然语言处理过程中不同的用于意图分类的模型；根据多个所述单模型确定多个模型组合，根据多个所述模型组合以及多个所述单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；根据多个所述多模型评估指标确定语言处理评估指标；根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标；根据所述综合指标得到评估结果。2.根据权利要求1所述的ai外呼评估方法，其特征在于，所述根据所述综合指标得到评估结果，包括：根据所述语音识别评估指标和所述语言处理评估指标确定语音意图评估指标；根据所述综合指标和所述语音意图评估指标得到评估结果。3.根据权利要求1或2所述的ai外呼评估方法，其特征在于，所述根据多个所述多模型评估指标确定语言处理评估指标，包括：确定多个所述模型组合各自对应的占比信息；根据所述占比信息对多个所述多模型评估指标进行加权，得到所述语言处理评估指标。4.根据权利要求1或2所述的ai外呼评估方法，其特征在于，所述根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标，包括：确定所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标各自对应的权重因子；根据所述权重因子对所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标进行加权，得到所述综合指标。5.根据权利要求1所述的ai外呼评估方法，其特征在于，每个所述意图分类语料数据皆包括多个模型意图分类语料数，多个所述模型意图分类语料数由所述单模型对多个不同的意图分类进行分类得到；每个所述单模型对应的单模型评估指标，由以下步骤得到：根据多个所述模型意图分类语料数以及预设的多个正确预料分类数确定出意图分类正确语料数，其中，多个所述正确预料分类数与多个所述模型意图分类语料数一一对应；根据多个所述意图分类正确语料数确定意图分类准确率，得到单模型评估指标。
6.根据权利要求1所述的ai外呼评估方法，其特征在于，所述根据所述播报错误率确定语音合成评估指标，包括：当所述播报错误率小于预设的第一错误率阈值，确定所述合成语音播报信息的播报正确率；根据所述播报正确率确定所述语音合成评估指标。7.根据权利要求1所述的ai外呼评估方法，其特征在于，所述根据所述字错误率和所述句错误率确定语音识别评估指标，包括：当所述字错误率小于预设的第二错误率阈值，根据所述句错误率确定语音识别评估指标。8.一种ai外呼评估装置，其特征在于，所述装置包括：数据获取模块，用于获取外呼语音数据，所述外呼语音数据包括合成语音播报信息和目标对象语音输入信息；播报评估模块，用于确定所述合成语音播报信息的播报错误率，根据所述播报错误率确定语音合成评估指标；语言识别模块，用于确定所述目标对象语音输入信息的字错误率和句错误率，根据所述字错误率和所述句错误率确定语音识别评估指标；单模型评估模块，用于利用多个单模型分别确定所述目标对象语音输入信息的意图分类语料数据，根据各个所述意图分类语料数据确定各个所述单模型的单模型评估指标，所述单模型评估指标用于表征所述单模型的意图分类准确率，其中，多个所述单模型为自然语言处理过程中不同的用于意图分类的模型；多模型评估模块，用于根据多个所述单模型确定多个模型组合，根据多个所述模型组合以及多个所述单模型评估指标，确定与多个模型组合一一对应的多模型评估指标；自然语言处理综合评估模块，用于根据多个所述多模型评估指标确定语言处理评估指标；应用综合评估模块，用于根据所述语音合成评估指标、所述语音识别评估指标和所述语言处理评估指标确定综合指标；评估结果生成模块，用于根据所述综合指标得到评估结果。9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的ai外呼评估方法的步骤。10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7任一项所述的ai外呼评估方法的步骤。

技术总结

本申请实施例提供了一种AI外呼评估方法、装置、电子设备及存储介质，该方法包括：获取外呼语音数据；根据TTS过程的播报错误率确定语音合成评估指标；根据ASR过程的字错误率和句错误率确定语音识别评估指标；确定NLP过程中各个单模型的单模型评估指标；确定与多个模型组合一一对应的多模型评估指标；根据多个多模型评估指标确定语言处理评估指标；根据语音合成评估指标、语音识别评估指标和语言处理评估指标确定综合指标，得到评估结果。本申请通过对AI外呼的每个过程进行单独的评估，并对每个过程得到的评估指标进一步进行了综合性的评估，得到对整个AI外呼过程的全面且系统的评估结果，从而提高了评估的准确性。从而提高了评估的准确性。从而提高了评估的准确性。