工单填充方法、装置、电子设备及介质与流程



1.本发明涉及大数据技术领域,尤其涉及一种工单填充方法、装置、电子设备及介质。


背景技术:



2.随着网络信息技术的发展,各行各业均存在呼叫中心的规模与日剧增的情况。目前,大多数呼叫中心一般采用人工或人工智能进行留单。其中,留单是指坐席客服在接到用户一通来电后会生成一个工单,通话结束后坐席会根据对话的内容对工单中的选项、字段进行手动填充并提交系统。
3.由于呼叫中心语音数据体量大,是典型的非结构化数据,依靠人工方式留单,存在效率低下以及留单标准不统一等诸多问题。而,人工智能留单的方式,需要对客服与客户的对话文本(以下简称客服对话文本)进行文本分类,例如对用户的意图进行识别分类、对用户原因进行识别分类。由于客服对话文本的文本长度较长、且对话场景跳转频繁、客服对话文本中的信息分散,所以对客服对话文本的理解、类别预测以及工单填充造成了一定的困难。传统的人工智能方法存在以下局限性:其仅考虑了单个词的特征,没有考虑文本的上下关联性,对于特征不明显的类别难以识别。基于卷积神经网络的阅读理解模型应用在对话类的客服对话文本的阅读理解任务中存在以下局限性:对于长文本进行阅读理解时,其难以提取到关键的特征;在口语化的文本中,可能会对一些无意义的词赋予很大的权重,难以识别有用文本和无用文本。


技术实现要素:



4.为解决上述技术问题或至少部分地解决上述技术问题,本发明实施例提供一种工单填充方法、装置、电子设备及介质。
5.第一方面,本发明实施例提供了一种工单填充方法,包括:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;确定与每个所述待填充项对应的问题,得到多个问题;针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。
6.在可选的实施例中,基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单,包括:对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案;将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待填充工单。
7.在可选的实施例中,所述针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案,包括:对所述客服对话文本进行切分,获得多个文本片段;针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对;基于预设的问答抽取模型,分别对所述多个文本对进行问答
抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
8.在可选的实施例中,所述预设的问答抽取模型包括bert子模型和分类子模型;
9.所述基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,得到所述问题的多个候选答案,包括:针对每一所述文本对,将所述文本对作为当前文本对,所述当前文本对中的文本片段作为当前文本片段,所述当前文本对中的问题作为当前问题;将所述当前文本对作为第一输入参数输入所述bert子模型,确定所述当前文本对的语义特征向量;将所述语义特征向量作为第二输入参数输入所述分类子模型,确定所述当前文本片段中的字符的置信度,所述置信度用于指示所述字符为所述当前问题的候选答案的概率;基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案。
10.在可选的实施例中,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案,包括:基于所述多个候选答案中的字符对应的所述置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。
11.在可选的实施例中,所述置信度包括第一置信度和第二置信度,所述第一置信度用于指示所述字符为所述候选答案的起始字符的概率,所述第二置信度用于指示所述字符为所述候选答案的结束字符的概率;
12.所述基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案,包括:从所述当前文本片段中,筛选出所述第一置信度最高的第一字符和所述第二置信度最高的第二字符;基于所述第一字符和第二字符,从所述当前文本片段中抽取出所述当前问题的候选答案;
13.所述基于所述多个候选答案中的字符对应的所述置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案,包括:针对每一所述候选答案,基于所述候选答案的起始字符的所述第一置信度和结束字符的所述第二置信度,确定所述候选答案的第三置信度;基于所述第三置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。
14.在可选的实施例中,所述问答抽取模型根据如下过程训练:构造第一样本和第二样本,所述第一样本和所述第二样本均包括训练文本片段和训练问题,所述第一样本中的所述训练文本片段中包括所述训练问题的答案,所述第二样本中的所述训练文本片段不包括所述训练问题的答案;对所述第一样本和所述第二样本进行训练,得到所述问答抽取模型。
15.在可选的实施例中,所述对所述客服对话文本进行切分,获得多个文本片段,包括:对所述客服对话文本进行滑动窗口切分,获得多个文本片段,其中,所述滑动窗口的步长小于所述滑动窗口的长度。
16.在可选的实施例中,对所述客服对话文本进行滑动窗口切分,获得多个文本片段,包括:对所述客服对话文本,以句子为粒度进行滑动窗口切片,获得多个文本片段。
17.在可选的实施例中,所述方法还包括:根据预设的调整策略,对所述目标答案进行调整。
18.在可选的实施例中,所述根据预设的调整策略,对所述目标答案进行调整,包括:在所述目标答案为多个的情况下,确定多个所述目标答案之间是否存在交叠;若是,则对存在交叠的所述目标答案进行整合;和/或,确定所述目标答案中是否包括前导身份信息,若
是,则去除所述目标答案中的前导身份信息。
19.第二方面,本发明实施例提供了一种工单填充装置,包括:获取模块,用于获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;确定模块,用于确定与每个所述待填充项对应的问题,得到多个问题;答案抽取模块,用于针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;答案填充模块,用于基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。
20.在可选的实施例中,所述装置还包括答案筛选模块,用于对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案;将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待填充工单。
21.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本进行切分,获得多个文本片段;针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对;基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
22.在可选的实施例中,所述预设的问答抽取模型包括bert子模型和分类子模型;
23.所述答案抽取模块还用于:针对每一所述文本对,将所述文本对作为当前文本对,所述当前文本对中的文本片段作为当前文本片段,所述当前文本对中的问题作为当前问题;将所述当前文本对作为第一输入参数输入所述bert子模型,确定所述当前文本对的语义特征向量;将所述语义特征向量作为第二输入参数输入所述分类子模型,确定所述当前文本片段中的字符的置信度,所述置信度用于指示所述字符为所述当前问题的候选答案的概率;基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案。
24.在可选的实施例中,所述答案筛选模块还用于:基于所述多个候选答案中的字符对应的所述置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。
25.在可选的实施例中,所述置信度包括第一置信度和第二置信度,所述第一置信度用于指示所述字符为所述候选答案的起始字符的概率,所述第二置信度用于指示所述字符为所述候选答案的结束字符的概率;
26.所述答案筛选模块还用于:从所述当前文本片段中,筛选出所述第一置信度最高的第一字符和所述第二置信度最高的第二字符;基于所述第一字符和第二字符,从所述当前文本片段中抽取出所述当前问题的候选答案;
27.所述答案筛选模块还用于:针对每一所述候选答案,基于所述候选答案的起始字符的所述第一置信度和结束字符的所述第二置信度,确定所述候选答案的第三置信度;基于所述第三置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。
28.在可选的实施例中,所述装置还包括模型训练模块,用于:构造第一样本和第二样本,所述第一样本和所述第二样本均包括训练文本片段和训练问题,所述第一样本中的所述训练文本片段中包括所述训练问题的答案,所述第二样本中的所述训练文本片段不包括所述训练问题的答案;对所述第一样本和所述第二样本进行训练,得到所述问答抽取模型。
29.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本进行滑动窗
口切分,获得多个文本片段,其中,所述滑动窗口的步长小于所述滑动窗口的长度。
30.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本,以句子为粒度进行滑动窗口切片,获得多个文本片段。
31.在可选的实施例中,所述装置还包括修正模块,用于根据预设的调整策略,对所述目标答案进行调整。
32.在可选的实施例中,所述修正模块还用于:在所述目标答案为多个的情况下,确定多个所述目标答案之间是否存在交叠;若是,则对存在交叠的所述目标答案进行整合;和/或,确定所述目标答案中是否包括前导身份信息,若是,则去除所述目标答案中的前导身份信息。
33.第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例的工单填充方法。
34.第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明任一实施例的工单填充方法。
35.上述发明中的一个实施例具有如下优点或有益效果:
36.本发明实施例的工单填充方法,在确定与客服对话文本对应待填充工单及问题后,利用预设的问答抽取模型对客服对话文本进行多轮问答抽取处理,得到该问题的多个候选答案,能够从文本长度过长、信息分散多处的客户对话文本中抽取出准确的候选答案,即能够准确的从文本长度过长、信息分散多处的客户对话文本中抽取出待填充工单所需的信息,提了高工单填充的准确性。
37.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
38.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
39.图1示出了本发明实施例的工单填充方法的流程示意图;
40.图2示出了本发明实施例的工单填充方法的子流程的示意图;
41.图3示出了本发明实施例的工单填充方法的子流程的示意图;
42.图4示出了本发明实施例的工单填充方法的子流程的示意图;
43.图5示出了本发明另一实施例的工单填充方法的流程图;
44.图6示出了本发明又一实施例的工单填充方法的流程图;
45.图7示出了本发明实施例的工单填充装置的结构示意图;
46.图8示出了本发明实施例的电子设备的结构示意图。
具体实施方式
47.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
48.图1示出了本发明实施例的工单填充方法的流程图,如图1所示,该工单填充方法包括:
49.步骤s101:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项。
50.在本实施例中,可以预先设置不同的工单模板,每个工单模板中都设置有多个工单字段,即每个工单模板中都设置有多个待填充项,不同的工单字段记录不同的信息。作为示例,工单字段可以包括但不限于:用户的来电号码、咨询的套餐、故障的地址、联系时间、用户诉求等。在可选的实施例中,客服人员在接听到用户的来电后可以根据用户的意图来选择相应的工单模板,将该工单模板作为待填充工单。在其他可选的实施例中,也可以利用预设的分类模型对客服对话文本进行分类,以确定客服对话文本对应的工单模板。其中,客服对话文本可以利用预设的语音识别模型对客服与客户的对话音频文件进行识别得到。
51.步骤s102:确定与每个所述待填充项对应的问题,得到多个问题。
52.其中,问题与待填充项相对应,用于从客服对话文本中抽取出待填充项对应的信息。问题是针对工单模板中涉及到的字段,结合坐席人员业务知识人工设计好的问题,一种字段对应一个问题。如待填充项(工单字段):用户来电电话号码。问题:用户来电的电话号码是什么?
53.步骤s103:针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
54.其中,问答抽取处理是指给定一个文本和一个问题,从文本中抽取出问题的答案。本实施例中的客服对话文本属于对话类文本,而对话类文本会涉及到候选答案的多次出现,同时存在话题的频繁跳转,因此,本实施例中利用预设的问答抽取模型对客服对话文本进行多轮问答抽取处理,以从信息分散的客服对话文本中抽取出准确的信息。
55.步骤s104:基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。
56.本发明实施例的工单填充方法,在确定与客服对话文本对应待填充工单及问题后,利用预设的问答抽取模型对客服对话文本进行多轮问答抽取处理,得到该问题的多个候选答案,能够准确的从文本长度过长、信息分散多处的客户对话文本中抽取出待填充工单所需的信息,提了高工单填充的准确性。
57.在可选的实施例中,如图2所示,上述步骤s103针对每一问题,基于预设的问答抽取模型对客服对话文本进行多轮问答抽取处理,得到该问题的多个候选答案的过程包括:
58.步骤s201:对所述客服对话文本进行切分,获得多个文本片段。
59.由于语言模型的限制,文本对输入长度不得超过512字符的上限,但实际的客服对话文本的长度远远大于512字符,所以需要对客服对话文本进行切分。在本步骤中,将较长的客服对话文本切分成较短的多个文本片段,从而便于处理识别。
60.在可选的实施例中,可以对客服对话文本进行滑动窗口切分,获得多个文本片段。滑动窗口是指动态的窗口,窗口可以是固定长度,也可以是可变长度,在本实施例中滑动窗口是固定长度。而且,本实施例中考虑到对上下文语意的依赖,滑动窗口的步长小于滑动窗口的长度,其中,滑动窗口的长度、步长以及滑动窗口的首尾指针如下式(1)所示:
61.window_sizei=size
i-x
i-1
+xiꢀꢀ
(1)
62.其中,window_size表示滑动窗口的长度,sizei表示滑动窗口的步长,x
i-1
表示滑动窗口的首指针,xi表示滑动窗口的尾指针。
63.进一步的,考虑到客服和客户的对话是交替形式的,因此可以按照句子为最小粒度进行滑动窗口切分,并设置滑动窗口的步长小于滑动窗口的长度,使得切分的文本片段都包含一定的上下文环境。即,在滑动窗口切片的过程中,以句子为最小的粒度。对于长度小于滑动窗口长度的文本片段,可以利用预设的无意义字符进行填充。对于长度长于滑动窗口的文本片段,利用滑动窗口进行截断。
64.在本发明实施例中,通过对客户对话文本进行滑动窗口切分处理,且滑动窗口的步长小于滑动窗口的长度,构建了情景级上下文表示,保证了文本片段的强场景性和对话的关联性,提高了答案抽取的准确性。
65.步骤s202:针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对。
66.在本实施例中,对待填充工单对应的多个问题和多个文本片段进行两两组合,得到多个文本对。例如,待填充工单对应的问题有8个,对客服对话文本进行切分后得到20个文本片段,则,对该8个问题和20个文本片段进行两两组合,共得到8
×
20=160个文本对。
67.步骤s203:基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
68.在本步骤中,针对每一个问题,分别将该问题对应的多个文本对作为输入参数输入问答抽取模型,以对该客服对话文本进行多轮问答抽取处理,得到该问题对应的多个候选答案。在该步骤中可能存在没有从文本片段中抽取出答案的情况。
69.对于一个文本片段,其可能包括有某个问题的候选答案,也可能不包括该问题的候选答案,因此,本发明实施例考虑到文本片段中不包括答案的情况,在训练问答抽取模型时构建了无答案样本,该无答案样本中的文本片段不包括问题的答案。具体的,在训练该问答抽取模型时,可以构造第一样本和第二样本,所述第一样本和所述第二样本均包括训练文本片段和训练问题,所述第一样本中的所述训练文本片段中包括所述训练问题的答案,所述第二样本中的所述训练文本片段不包括所述训练问题的答案。
70.在构造得到第一样本和第二样本时,若第一样本和第二样本的分布不均衡,即第一样本和第二样本的数量相差较大,则可以利用降采样策略对数量较多的样本进行采样,以使得第一样本和第二样本的分布均衡,将采样后的样本作为训练数据进行训练,得到问答抽取模型。例如第一样本的数量小于第二样本的数量,则对第二样本进行降采样,以使得第二样本与第一样本的分布均衡,然后对第一样本和采样后的第二样本进行训练,得到所述问答抽取模型。
71.在可选的实施例中,该预设的问答抽取模型可以包括bert子模型和分类子模型。其中,bert(bidirectional encoder representation from transformers)模型是基于transformer的双向编码器表示,是一个预训练的语言表征模型。分类子模型是一种二分类模型,用于基于bert子模型输出的语言特征向量对文本片段中的每个字符进行预测,以从文本片段中抽取出候选答案。
72.具体的,如图3和图4所示,基于预设的问答抽取模型,对文本对进行问答抽取处理,得到问题的候选答案的过程可以包括:
73.步骤s301:针对每一所述文本对,将所述文本对作为当前文本对,所述当前文本对中的文本片段作为当前文本片段,所述当前文本对中的问题作为当前问题。
74.步骤s302:将所述当前文本对作为第一输入参数输入所述bert子模型,确定所述当前文本对的语义特征向量。
75.步骤s303:将所述语义特征向量作为第二输入参数输入所述分类子模型,确定所述当前文本片段中的字符的置信度,所述置信度用于指示所述字符为所述当前问题的候选答案的概率。
76.在本步骤中,可以利用如下式(2)所示的交叉熵损失函数计算当前文本片段中的字符的置信度:
77.cross_entrophy=-σcilog(pi)
78.其中,cross_entrophy表示交叉熵损失函数的计算值,ci表示标签值,pi表示预测值。
79.步骤s304:基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案。
80.在本步骤中,可以将置信度最高的两个位置作为候选答案的起始字符和结束字符,然后将起始字符和结束字符之间的文本作为当前问题的候选答案。也可以将置信度大于预设阈值且在当前文本片段中位置最靠前的字符作为候选答案的起始字符,将置信度大于预设阈值且在当前文本片段中位置最靠后的字符作为候选答案的结束字符,然后将起始字符和结束字符之间的文本作为当前问题的候选答案。
81.本发明实施例设计了多轮问答模式,通过迭代执行抽取式阅读理解问答预测,对每个问题,从所有文本片段中进行答案抽取处理,能够准确的从文本长度过长、信息分散多处的客户对话文本中抽取出待填充工单所需的信息,提了高工单填充的准确性。
82.在当前文本片段中不存在当前问题的候选答案的情况下,当前文本片段中每个字符的置信度为0或小于预设阈值。
83.在可选的实施例中,上述分类子模型确定的置信度包括第一置信度和第二置信度,第一置信度用于指示文本片段中的字符为候选答案的起始字符的概率,第二置信度用于指示该字符为候选答案的结束字符的概率。则,步骤s304,基于置信度从当前文本片段中抽取出与当前问题对应的候选答案的过程包括:
84.从所述当前文本片段中,筛选出所述第一置信度最高的第一字符和所述第二置信度最高的第二字符;
85.基于所述第一字符和第二字符,从所述当前文本片段中抽取出所述当前问题的候选答案。
86.本发明实施例的工单填充方法,通过bert子模型对文本对进行编码,得到文本对的语义特征向量,可以识别出文本对中的有用文本和无用文本,对有用文本赋予较大的权重,无用文本赋予较小的权重,从而可以提高答案抽取的准确性。
87.图5示意性示出了本发明另一实施例的工单填充方法的流程图,如图5所示,该方法包括:
88.步骤s501:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;
89.步骤s502:确定与每个所述待填充项对应的问题,得到多个问题;
90.步骤s503:对所述客服对话文本进行切分,获得多个文本片段;
91.步骤s504:针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对;
92.步骤s505:基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
93.步骤s506:对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案;
94.步骤s507:将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待填充工单。
95.其中,步骤s501-s505可以参考图1-图4所示的实施例,本发明在此不再赘述。
96.对于步骤s506-s507,针对每一问题,在确定该问题对应的多个候选答案之后,可以对多个候选答案进行筛选,将筛选出的候选答案作为该问题的目标答案,将该目标答案写入该问题对应的待填充项,以填充待填充工单。
97.其中,可以根据候选答案对应的置信度,从多个候选答案中筛选出目标答案。作为示例,可以按照置信度从大到小的顺序对候选答案进行排序,将排序靠前的n个候选答案作为目标答案,其中,n为正整数。
98.进一步的,可以针基于所述候选答案的起始字符的所述第一置信度和结束字符的所述第二置信度,确定所述候选答案的第三置信度;基于所述第三置信度,从所述多个候选答案中筛选出所述问题的目标答案。作为示例,可以计算起始字符的第一置信度和结束字符的第二置信度的加权和,将该加权和作为候选答案的第三置信度,然后按照第三置信度从大到小的顺序对多个候选答案进行排序,将排序靠前的n个候选答案作为当前问题的目标答案。
99.本发明实施例的工单填充方法,在确定每个候选问题的多个候选答案之后,从数量较多的多个候选答案中筛选出更加准确目标答案进行填充,精简了答案的数量,保证了工单填充的准确性和简洁性。
100.图6示意性示出了本发明另一实施例的工单填充方法的流程图,如图6所示,该方法包括:
101.步骤s601:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项。
102.步骤s602:确定与每个所述待填充项对应的问题,得到多个问题。
103.步骤s603:对所述客服对话文本进行切分,获得多个文本片段。
104.步骤s604:针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对。
105.步骤s605:基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
106.步骤s606:基于所述多个候选答案,确定所述问题的目标答案。
107.步骤s607:根据预设的调整策略,对所述目标答案进行调整。
108.步骤s608:将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待
填充工单。
109.其中,步骤s601-步骤s606以及步骤608可以参与图1-图5所示的实施例,本发明在此不再赘述。
110.在可选的实施例中,步骤s607根据预设的调整策略对目标答案进行调整的过程可以包括:在目标答案为多个的情况下,确定多个目标答案之间是否存在交叠,若是,则对存在交叠的目标答案进行整合。在本实施例中,当任意两个目标答案之间存在交叠时,可以将该两个目标答案的并集作为新的目标答案,将该新的目标答案填充到待填充工单中。其中,可以根据两个目标答案的起始字符的位置和结束字符的位置来判断其是否存在交叠。
111.在其他可选的实施例中,步骤s607根据预设的调整策略对目标答案进行调整的过程还可以包括:确定目标答案中是否包括前导身份信息,若是,则去除所述目标答案中的前导身份信息。其中,前导身份信息如“坐席:xxxx。用户:xxxx”中的“坐席:”、“用户:”。客服对话文本以及对客服会话文本进行切分后得到的文本片段中包括上述前导身份信息,在利用答案抽取模型进行问答抽取处理时将上述前导身份信息作为了输入参数的一部分,因此候选答案可能包含上述前导身份信息。在填充工单时不需要上述前导身份信息,因此需要在填充目标答案之前去除目标答案中的前导身份信息。
112.在可选的实施例中,步骤s607根据预设的调整策略对目标答案进行调整的过程也可以包括:基于预设的关键词字典,确定所述客服会话文本中的目标关键词,基于所述目标关键词,对所述目标答案进行修正。该过程可以包括:基于关键词词典从客服对话文本中抽取目标关键词,基于目标关键词,可以从客服对话文本中抽取出与该目标关键词相关的信息,抽取的相关信息即为与目标关键词对应的问题的答案,基于抽取的相关信息对目标答案进行修正。在填充工单中,工单中的某些填充项所需的信息与对应的问题具有强关联性,例如用户的手机号码。与问题具有强关联的相关信息可以通过设置相关关键词来从客服对话文本中抽取。
113.图7示意性示出了本发明实施例的工单填充装置700的结构示意图,如图7所示,该工单填充装置700包括:
114.获取模块701,用于获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;
115.确定模块702,用于确定与每个所述待填充项对应的问题,得到多个问题;
116.答案抽取模块703,用于针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;
117.答案填充模块704,用于基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。
118.本发明实施例的工单填充装置,在确定与客服对话文本对应待填充工单及问题后,利用预设的问答抽取模型对客服对话文本进行多轮问答抽取处理,得到该问题的多个候选答案,能够从文本长度过长、信息分散多处的客户对话文本中抽取出准确的候选答案,即能够准确的从文本长度过长、信息分散多处的客户对话文本中抽取出待填充工单所需的信息,提了高工单填充的准确性。
119.在可选的实施例中,所述装置还包括答案筛选模块,用于对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案;将所述目标答案写入与所述
问题对应的所述待填充项,以填充所述待填充工单。
120.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本进行切分,获得多个文本片段;针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对;基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。
121.在可选的实施例中,所述预设的问答抽取模型包括bert子模型和分类子模型;
122.所述答案抽取模块还用于:针对每一所述文本对,将所述文本对作为当前文本对,所述当前文本对中的文本片段作为当前文本片段,所述当前文本对中的问题作为当前问题;将所述当前文本对作为第一输入参数输入所述bert子模型,确定所述当前文本对的语义特征向量;将所述语义特征向量作为第二输入参数输入所述分类子模型,确定所述当前文本片段中的字符的置信度,所述置信度用于指示所述字符为所述当前问题的候选答案的概率;基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案。
123.在可选的实施例中,所述答案筛选模块还用于:基于所述多个候选答案中的字符对应的所述置信度,从所述多个候选答案中筛选出所述问题的目标答案。
124.在可选的实施例中,所述置信度包括第一置信度和第二置信度,所述第一置信度用于指示所述字符为所述候选答案的起始字符的概率,所述第二置信度用于指示所述字符为所述候选答案的结束字符的概率;
125.所述答案筛选模块还用于:从所述当前文本片段中,筛选出所述第一置信度最高的第一字符和所述第二置信度最高的第二字符;基于所述第一字符和第二字符,从所述当前文本片段中抽取出所述当前问题的候选答案。
126.在可选的实施例中,所述答案筛选模块还用于:针对每一所述候选答案,基于所述候选答案的起始字符的所述第一置信度和结束字符的所述第二置信度,确定所述候选答案的第三置信度;基于所述第三置信度,从所述多个候选答案中筛选出所述问题的目标答案。
127.在可选的实施例中,所述装置还包括模型训练模块,用于:构造第一样本和第二样本,所述第一样本和所述第二样本均包括训练文本片段和训练问题,所述第一样本中的所述训练文本片段中包括所述训练问题的答案,所述第二样本中的所述训练文本片段不包括所述训练问题的答案;对所述第一样本和所述第二样本进行训练,得到所述问答抽取模型。
128.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本进行滑动窗口切分,获得多个文本片段,其中,所述滑动窗口的步长小于所述滑动窗口的长度。
129.在可选的实施例中,所述答案抽取模块还用于:对所述客服对话文本,以句子为粒度进行滑动窗口切片,获得多个文本片段。
130.在可选的实施例中,所述装置还包括修正模块,用于根据预设的调整策略,对所述目标答案进行调整。
131.在可选的实施例中,所述修正模块还用于:在所述目标答案为多个的情况下,确定多个所述目标答案之间是否存在交叠;若是,则对存在交叠的所述目标答案进行整合;和/或,确定所述目标答案中是否包括前导身份信息,若是,则去除所述目标答案中的前导身份信息。
132.上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
133.本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
134.存储器803,用于存放计算机程序;
135.处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;确定与每个所述待填充项对应的问题,得到多个问题;针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;基于所述多个候选答案,确定所述问题的目标答案;将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待填充工单。
136.上述终端提到的通信总线804可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线804可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
137.通信接口802用于上述终端与其他设备之间的通信。
138.存储器803可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器801的存储装置。
139.上述的处理器801可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
140.在本发明提供的又一实施例中,还提供了一种计算机可读介质,该计算机可读介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的工单填充方法。
141.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的工单填充方法。
142.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘
solid state disk(ssd))等。
143.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
144.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
145.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

技术特征:


1.一种工单填充方法,其特征在于,包括:获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;确定与每个所述待填充项对应的问题,得到多个问题;针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单,包括:对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案;将所述目标答案写入与所述问题对应的所述待填充项,以填充所述待填充工单。3.根据权利要求2所述的方法,其特征在于,所述针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案,包括:对所述客服对话文本进行切分,获得多个文本片段;针对每一所述问题,分别将所述多个文本片段与所述问题进行组合,得到多个文本对;基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,以对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案。4.根据权利要求3所述的方法,其特征在于,所述预设的问答抽取模型包括bert子模型和分类子模型;所述基于预设的问答抽取模型,分别对所述多个文本对进行问答抽取处理,得到所述问题的多个候选答案,包括:针对每一所述文本对,将所述文本对作为当前文本对,所述当前文本对中的文本片段作为当前文本片段,所述当前文本对中的问题作为当前问题;将所述当前文本对作为第一输入参数输入所述bert子模型,确定所述当前文本对的语义特征向量;将所述语义特征向量作为第二输入参数输入所述分类子模型,确定所述当前文本片段中的字符的置信度,所述置信度用于指示所述字符为所述当前问题的候选答案的概率;基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案。5.根据权利要求4所述的方法,其特征在于,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案,包括:基于所述多个候选答案中的字符对应的所述置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。6.根据权利要求5所述的方法,其特征在于,所述置信度包括第一置信度和第二置信度,所述第一置信度用于指示所述字符为所述候选答案的起始字符的概率,所述第二置信度用于指示所述字符为所述候选答案的结束字符的概率;所述基于所述置信度,从所述当前文本片段中抽取出所述当前问题的候选答案,包括:从所述当前文本片段中,筛选出所述第一置信度最高的第一字符和所述第二置信度最
高的第二字符;基于所述第一字符和第二字符,从所述当前文本片段中抽取出所述当前问题的候选答案;所述基于所述多个候选答案中的字符对应的所述置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案,包括:针对每一所述候选答案,基于所述候选答案的起始字符的所述第一置信度和结束字符的所述第二置信度,确定所述候选答案的第三置信度;基于所述第三置信度,对所述多个候选答案进行筛选,将筛选出的所述候选答案作为所述问题的目标答案。7.根据权利要求1-6任一项所述的方法,其特征在于,所述问答抽取模型根据如下过程训练:构造第一样本和第二样本,所述第一样本和所述第二样本均包括训练文本片段和训练问题,所述第一样本中的所述训练文本片段中包括所述训练问题的答案,所述第二样本中的所述训练文本片段不包括所述训练问题的答案;对所述第一样本和所述第二样本进行训练,得到所述问答抽取模型。8.根据权利要求2所述的方法,其特征在于,所述对所述客服对话文本进行切分,获得多个文本片段,包括:对所述客服对话文本进行滑动窗口切分,获得多个文本片段,其中,所述滑动窗口的步长小于所述滑动窗口的长度。9.根据权利要求8所述的方法,其特征在于,对所述客服对话文本进行滑动窗口切分,获得多个文本片段,包括:对所述客服对话文本,以句子为粒度进行滑动窗口切片,获得多个文本片段。10.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据预设的调整策略,对所述目标答案进行调整。11.根据权利要求10所述的方法,其特征在于,所述根据预设的调整策略,对所述目标答案进行调整,包括:在所述目标答案为多个的情况下,确定多个所述目标答案之间是否存在交叠;若是,则对存在交叠的所述目标答案进行整合;和/或确定所述目标答案中是否包括前导身份信息,若是,则去除所述目标答案中的前导身份信息。12.一种工单填充装置,其特征在于,包括:获取模块,用于获取客服对话文本以及与所述客服对话文本对应的待填充工单,所述待填充工单包括多个待填充项;确定模块,用于确定与每个所述待填充项对应的问题,得到多个问题;答案抽取模块,用于针对每一所述问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;答案填充模块,用于基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。
13.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。

技术总结


本发明公开了一种工单填充方法、装置、电子设备及介质,涉及大数据技术领域。该方法包括:获取客服对话文本以及与客服对话文本对应的待填充工单,待填充工单包括多个待填充项;确定与每个所述待填充项对应的问题,得到多个问题;针对每一问题,基于预设的问答抽取模型对所述客服对话文本进行多轮问答抽取处理,得到所述问题的多个候选答案;基于所述多个候选答案,对所述问题对应的所述待填充项进行填充,以填充所述待填充工单。该方法通过对客服对话文本进行多轮问答抽取处理,解决了留单业务中客服对话文本过长、信息分散多次出现的问题,能够准确地从客服对话文本中抽取出与待填充工单对应的信息。充工单对应的信息。充工单对应的信息。


技术研发人员:

危枫 黄媛 冉猛 王晨子

受保护的技术使用者:

中国电信股份有限公司

技术研发日:

2022.08.09

技术公布日:

2022/11/22

本文发布于:2024-09-20 13:36:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/8426.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   多个   答案   文本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议