人工监控方法、装置、电子设备及存储介质与流程

1.本发明涉及语音语义领域，尤其涉及一种人工监控方法、装置、电子设备及可读存储介质。

背景技术：

2.当前社会中，通过电话进行产品营销或者回访的方式已经成为一种趋势，但是在通话过程中，由于缺少监督，无法保证客服是否通过电话获取客户私人信息，从而造成客户信息泄露；
3.目前常见的解决此类问题的方法是对通话内容进行语音录制，事后进行人工质检，造成检测滞后，导致客户信息泄露，且人工成本较高。

技术实现要素：

4.本发明提供一种人工监控方法、装置、电子设备及计算机可读存储介质，其目的在于提高通话过程中客户信息的安全性及保密性。
5.为实现上述目的，本发明提供的一种人工监控方法，包括：
6.构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；
7.实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本；
8.对所述通话文本进行关键词提取，得到通话关键词；
9.判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配；
10.当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常；
11.当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；
12.判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；
13.当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；
14.当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
15.可选地，所述提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量，包括：
16.对所述敏感语音数据库中的敏感文本进行文本切分处理，得到敏感切分文本；
17.根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文
本；
18.对所述敏感切分文本进行分词处理，得到敏感分词文本；
19.根据预设的文字音素映射词典，对所述敏感分词文本进行映射，得到敏感音素；
20.对所述敏感音素进行向量转化，得到敏感音素特征向量。
21.可选地，所述对所述通话语音进行语音文本转换，得到通话文本，包括：
22.对所述通话语音进行静音切除及降噪处理，得到可读取通话语音；
23.对所述可读取通话语音进行语音分帧，得到语音帧；
24.对所述语音帧进行声学特征提取，得到所述语音帧的多维特征向量；
25.利用预设的声学模型对所述多维特征向量进行状态识别，得到所述语音帧对应的状态；
26.对所述状态进行组合，得到所述语音帧对应的音素；
27.对所述音素进行组合，得到所述语音帧对应的单词；
28.输出所述单词，得到所述通话语音对应的通话文本。
29.可选地，所述判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，包括：
30.利用下述相似度算法计算所述通话音素特征向量与所述敏感音素特征向量之间的相似度simq：
[0031][0032]
其中，α和βn分别为所述通话音素特征向量与敏感音素特征向量；
[0033]
判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；
[0034]
当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；
[0035]
当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0036]
可选地，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0037]
将所述通话文本与预构建的候选词模板进行匹配，得到候选词集合；
[0038]
利用tf-ldf算法计算所述候选词集合中每个候选词的评分，得到每个候选词的分值；
[0039]
根据所述每个候选词的分值，选取预设个数的候选词作为所述通话关键词。
[0040]
可选地，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0041]
利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量；
[0042]
利用所述关键词提取模型中的注意力机制层对所述通话字符向量进行矩阵拼接，得到通话字符矩阵；
[0043]
利用所述关键词提取模型中的全连接层对所述通话字符矩阵进行排列组合，得到通话关键词。
[0044]
可选地，所述利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量，包括：
[0045]
利用所述编码层提取所述通话文本中的通话字符位置、通话字符维度及待编码的通话字符长度；
[0046]
根据所述通话字符位置、所述通话字符维度及所述待编码的通话字符长度对所述通话文本中的字符进行字符编码，得到通话字符向量。
[0047]
为了解决上述问题，本发明还提供一种人工监控装置，所述装置包括：
[0048]
敏感音素特征向量提取模块，用于构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；
[0049]
通话关键词匹配模块，用于实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本，对所述通话文本进行关键词提取，得到通话关键词，判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；
[0050]
音素特征向量相似度判断模块，用于判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常，当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0051]
为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
[0052]
存储器，存储至少一个计算机程序；及
[0053]
处理器，执行所述存储器中存储的计算机程序以实现上述所述的人工监控方法。
[0054]
为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的人工监控方法。
[0055]
本发明实施例提出的人工监控方法、装置、电子设备及存储介质通过实时记录人工客服的通话语音，对所述通话语音的通话文本进行关键词提取，得到通话关键词，当所述通话关键词与预构建的敏感语音数据库中的敏感语音流对应的敏感文本匹配时，进一步提取所述通话语音的通话音素特征向量，通话音素特征向量敏感音素特征向量当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述客服的通话。本发明实施例通过文本与因素的双重判断，能够更加准确的判断人工客服是否有获取客户私密信息，并在判断人工客服通话语音异常，即可能存在获取客户私密信息的情况，从而保证客户的信息安全，提高了通话过程中客户信息的安全性及保密性。
附图说明
[0056]
图1为本发明一实施例提供的人工监控方法的流程示意图；
[0057]
图2为本发明一实施例提供的人工监控装置的模块示意图；
[0058]
图3为本发明一实施例提供的实现人工监控方法的电子设备的内部结构示意图；
[0059]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0060]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0061]
本发明实施例提供一种人工监控方法。所述人工监控方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述人工监控方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端可以包括独立的服务器，也可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0062]
参照图1所示的本发明一实施例提供的人工监控方法的流程示意图，在本发明实施例中，所述人工监控方法包括：
[0063]
s1、构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量。
[0064]
本发明实施例中，所述敏感语音数据库可以是包含敏感字词，敏感语句的语音数据库，例如：“电话”“”“您好，我方便询问一下您的手机号码嘛”等敏感字词与敏感语句。所述敏感语音流可以是所述敏感语音数据库中的敏感词语与敏感语音。所述敏感音素特征向量可以是根据敏感字词与敏感语句的自然属性划分出来的最小语音单位的特征向量，其中，所述音素可以是汉字的声母或者韵母等。
[0065]
本发明实施例通过构建敏感语音数据库，存储敏感字词与敏感语句，并提取所述敏感语音数据库中敏感语音流的敏感音素特征向量，从最小语音单位避免人工客服私自获取客户私人信息，从而确保客户的信息安全。
[0066]
进一步地，作为本发明一可选实施例，所述提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量，包括：
[0067]
对所述敏感语音数据库中的敏感文本进行文本切分处理，得到敏感切分文本；
[0068]
根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文本；
[0069]
对所述敏感切分文本进行分词处理，得到敏感分词文本；
[0070]
根据预设的文字音素映射词典，对所述敏感分词文本进行映射，得到敏感音素；
[0071]
对所述敏感音素进行向量转化，得到敏感音素特征向量。
[0072]
本发明实施例中，所述预设的的文本格式规则可以是所述敏感分词文本中，若存在阿拉伯数字，则将所述阿拉伯数字转化为文字，例如，“这里有123朵花”，其中“123”为阿拉伯数字，需要转化为汉字“一二三”，这样便于进行文字转化音素等后续过程。所述预设的文字音素映射词典可以是汉字与声母韵母等音素对应的词典。
[0073]
本发明可选实施例中，通过语音文本转换工具将所述敏感语音流转换为敏感文
本，便于音素特征获取，根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文本，从而扩大敏感语音数据库的内容，减少客户信息泄露的几率。
[0074]
s2、实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本。
[0075]
本发明实施例中，所述人工客服可以是进行语音童话的坐席人员等工作人员。
[0076]
本发明可选实施例中，通过监控人工客服通话记录并对所述通话记录进行读取存储等操作实现实时记录人工客服的通话语音，防止人工客服进行隐私询问，确保客户的信息安全。
[0077]
本发明实施例通过对所述通话语音进行语音文本转换，得到通话文本，进而通过对所述通话文本进行分析，判断所述人工客服是否询问客户隐私信息。
[0078]
进一步地，作为本发明一可选实施例，所述对所述通话语音进行语音文本转换，得到通话文本，包括：
[0079]
对所述通话语音进行静音切除及降噪处理，得到可读取通话语音；
[0080]
对所述可读取通话语音进行语音分帧，得到语音帧；
[0081]
对所述语音帧进行声学特征提取，得到所述语音帧的多维特征向量；
[0082]
利用预设的声学模型对所述多维特征向量进行状态识别，得到所述语音帧对应的状态；
[0083]
对所述状态进行组合，得到所述语音帧对应的音素；
[0084]
对所述音素进行组合，得到所述语音帧对应的单词；
[0085]
输出所述单词，得到所述通话语音对应的通话文本。
[0086]
本发明实施例中，所述预设的声学模型可以是基于深度学习的分类模型，其中包含大量参数用于确认所述语音帧对应的状态，进一步地，所述参数可以是经过大量语音数据进行训练得到。
[0087]
本发明一个实施例中，在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为vad，可使用信号处理技术实现。
[0088]
本发明其中一个实施例中，可以使用移动窗函数对所述可读取通话语音进行语音分帧。
[0089]
s3、对所述通话文本进行关键词提取，得到通话关键词。
[0090]
本发明实施例中，由于通话文本包含了大量不敏感字词与不敏感语句，因此，只对所述通话文本进行分析，不便于判断所述人工客服是否私自获取客户的私人信息。
[0091]
进一步地，作为本发明可选实施例，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0092]
利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量；
[0093]
利用所述关键词提取模型中的注意力机制层对所述通话字符向量进行矩阵拼接，得到通话字符矩阵；
[0094]
利用所述关键词提取模型中的全连接层对所述通话字符矩阵进行排列组合，得到通话关键词。
[0095]
本发明实施例中，本发明实施例中，所述预设的关键词提取模型可以是一个深度
学习模型，例如，bert模型。所述编码层的作用是提取所述通话文本中的字符特征信息，便于后续对通话文本进行相应的回复；所述注意力机制层的作用是将通话字符向量与通话字符向量对应的上下字符语义进行拼接，进一步提取关键字符信息，提高提取字符信息的准确率；所述全连接层的作用是对所述通话字符矩阵进行排列组合，并输出所述通话文本中包含的敏感信息的通话关键字。
[0096]
进一步地，所述利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量，包括：
[0097]
利用所述编码层提取所述通话文本中的通话字符位置、通话字符维度及待编码的通话字符长度；
[0098]
根据所述通话字符位置、所述通话字符维度及所述待编码的通话字符长度对所述通话文本中的字符进行字符编码，得到通话字符向量。
[0099]
本发明实施例中，所述通话字符位置为每个通话字符所处的位置；所述通话字符维度是指通话字符在编码过程中的进行字符嵌入的维度；所述待编码的通话字符长度是指通话字符的总长度。
[0100]
作为本发明另一可选实施例，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0101]
将所述通话文本与预构建的候选词模板进行匹配，得到候选词集合；
[0102]
利用tf-ldf算法计算所述候选词集合中每个候选词的评分，得到每个候选词的分值；
[0103]
根据所述每个候选词的分值，选取预设个数的候选词作为所述通话关键词。
[0104]
本发明实施例中，所述预构建的候选词模板可以是根据历史通话记录整理得到的包含大部分通话关键词和疑似通话关键词的模板。
[0105]
s4、判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配。
[0106]
本发明实施例中，所述敏感文本可以是所述敏感语音流进行语音文本转换之后的文本。
[0107]
本发明可选实施例中，通过模板查匹配的方法，一一判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配，并计算匹配率，确保不会造成关键词匹配遗漏，降低客户私人信息泄露的风险。
[0108]
s5、当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常。
[0109]
本发明可选实施例中，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，证明所述人工客服没有就客户的私人信息进行提问，因此，可以判定所述人工客服通话语音正常。
[0110]
s6、当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量。
[0111]
本发明实施例中，所述通话音素特征向量可以是根据通话文本的自然属性划分出来的最小语音单位的特征向量。
[0112]
本发明可选实施例中，当所述通话关键词与所述敏感语音数据库中的敏感语音流
对应的敏感文本匹配时，证明人工客服与客户的通话内容可能涉及到所述客户的私人信息，因此需要进一步提取所述通话语音的通话音素特征向量，判断所述人工客服与客户的通话内容是否涉及到所述客户的私人信息。
[0113]
本发明实施例中，所述提取所述通话语音的通话音素特征向量与所述提取所述敏感语音数据库中敏感语音流的敏感音素特征向量类似，故此不赘述。
[0114]
s7、判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值。
[0115]
本发明实施例中，所述预设阈值可以是众多数据进行多次试验后得到的结果，通常为0.5。
[0116]
本发明实施例中，通过判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值判断所述人工客服通话语音是否正常，使得客户的私人信息更为安全保密，减少人工客服透露客户信息的概率。
[0117]
进一步地，作为本发明一可选实施例，所述判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，包括：
[0118]
利用下述相似度算法计算所述通话音素特征向量与所述敏感音素特征向量之间的相似度simq：
[0119][0120]
其中，α和βn分别为所述通话音素特征向量与敏感音素特征向量。
[0121]
s8、当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常。
[0122]
本发明可选实施例中，当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，即simq结果不大于所述阈值时，证明所述人工客服与客户的通话过程中没有涉及所述敏感语音流的字词或语句，因此，可以判定所述人工客服通话语音正常。
[0123]
s9、当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0124]
本发明可选实施例中，当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，即simq结果大于所述阈值时，证明所述人工客服与客户的通话过程中有涉及所述敏感语音流的字词或语句，因此判定所述人工客服通话语音异常，并提示所述客户注意保护个人隐私，随后中断所述人工客服的通话，确保所述客户的私人信息安全。
[0125]
本发明实施例提出的人工监控方法通过实时记录人工客服的通话语音，对所述通话语音的通话文本进行关键词提取，得到通话关键词，当所述通话关键词与预构建的敏感语音数据库中的敏感语音流对应的敏感文本匹配时，进一步提取所述通话语音的通话音素特征向量，通话音素特征向量敏感音素特征向量当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述客服的通话。本发明实施例通过文本与因素的双重判断，能够更加准确的判断人工客服是否有获取客户私密信息，并在判断人工客服通话语音异常，即可能存在获取客户私密信息的情况，从而保证客户的信息安全，提高了通话过程中客户信息的安全性及保密性。
[0126]
如图2所示，是本发明人工监控装置的功能模块图。
[0127]
本发明所述人工监控装置100可以安装于电子设备中。根据实现的功能，所述人工监控装置可以包括敏感音素特征向量提取模块101、通话关键词匹配模块102及音素特征向量相似度判断模块103，本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0128]
在本实施例中，关于各模块/单元的功能如下：
[0129]
所述敏感音素特征向量提取模块101用于构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量。
[0130]
本发明实施例中，所述敏感语音数据库可以是包含敏感字词，敏感语句的语音数据库，例如：“电话”“”“您好，我方便询问一下您的手机号码嘛”等敏感字词与敏感语句。所述敏感语音流可以是所述敏感语音数据库中的敏感词语与敏感语音。所述敏感音素特征向量可以是根据敏感字词与敏感语句的自然属性划分出来的最小语音单位的特征向量，其中，所述音素可以是汉字的声母或者韵母等。
[0131]
本发明实施例通过构建敏感语音数据库，存储敏感字词与敏感语句，并提取所述敏感语音数据库中敏感语音流的敏感音素特征向量，从最小语音单位避免人工客服私自获取客户私人信息，从而确保客户的信息安全。
[0132]
进一步地，作为本发明一可选实施例所述提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量，包括：
[0133]
对所述敏感语音数据库中的敏感文本进行文本切分处理，得到敏感切分文本；
[0134]
根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文本；
[0135]
对所述敏感切分文本进行分词处理，得到敏感分词文本；
[0136]
根据预设的文字音素映射词典，对所述敏感分词文本进行映射，得到敏感音素；
[0137]
对所述敏感音素进行向量转化，得到敏感音素特征向量。
[0138]
本发明实施例中，所述预设的的文本格式规则可以是所述敏感分词文本中，若存在阿拉伯数字，则将所述阿拉伯数字转化为文字，例如，“这里有123朵花”，其中“123”为阿拉伯数字，需要转化为汉字“一二三”，这样便于进行文字转化音素等后续过程。所述预设的文字音素映射词典可以是汉字与声母韵母等音素对应的词典。
[0139]
本发明可选实施例中，通过语音文本转换工具将所述敏感语音流转换为敏感文本，便于音素特征获取，根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文本，从而扩大敏感语音数据库的内容，减少客户信息泄露的几率。
[0140]
所述通话关键词匹配模块102用于实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本，对所述通话文本进行关键词提取，得到通话关键词，判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量。
[0141]
本发明实施例中，所述人工客服可以是进行语音童话的坐席人员等工作人员。
[0142]
本发明可选实施例中，通过监控人工客服通话记录并对所述通话记录进行读取存储等操作实现实时记录人工客服的通话语音，防止人工客服进行隐私询问，确保客户的信息安全。
[0143]
本发明实施例通过对所述通话语音进行语音文本转换，得到通话文本，进而通过对所述通话文本进行分析，判断所述人工客服是否询问客户隐私信息。
[0144]
进一步地，作为本发明一可选实施例，所述对所述通话语音进行语音文本转换，得到通话文本，包括：
[0145]
对所述通话语音进行静音切除及降噪处理，得到可读取通话语音；
[0146]
对所述可读取通话语音进行语音分帧，得到语音帧；
[0147]
对所述语音帧进行声学特征提取，得到所述语音帧的多维特征向量；
[0148]
利用预设的声学模型对所述多维特征向量进行状态识别，得到所述语音帧对应的状态；
[0149]
对所述状态进行组合，得到所述语音帧对应的音素；
[0150]
对所述音素进行组合，得到所述语音帧对应的单词；
[0151]
输出所述单词，得到所述通话语音对应的通话文本。
[0152]
本发明实施例中，所述预设的声学模型可以是基于深度学习的分类模型，其中包含大量参数用于确认所述语音帧对应的状态，进一步地，所述参数可以是经过大量语音数据进行训练得到。
[0153]
本发明一个实施例中，在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为vad，可使用信号处理技术实现。
[0154]
本发明其中一个实施例中，可以使用移动窗函数对所述可读取通话语音进行语音分帧。
[0155]
本发明实施例中，由于通话文本包含了大量不敏感字词与不敏感语句，因此，只对所述通话文本进行分析，不便于判断所述人工客服是否私自获取客户的私人信息。
[0156]
进一步地，作为本发明可选实施例，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0157]
利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量；
[0158]
利用所述关键词提取模型中的注意力机制层对所述通话字符向量进行矩阵拼接，得到通话字符矩阵；
[0159]
利用所述关键词提取模型中的全连接层对所述通话字符矩阵进行排列组合，得到通话关键词。
[0160]
本发明实施例中，本发明实施例中，所述预设的关键词提取模型可以是一个深度学习模型，例如，bert模型。所述编码层的作用是提取所述通话文本中的字符特征信息，便于后续对通话文本进行相应的回复；所述注意力机制层的作用是将通话字符向量与通话字符向量对应的上下字符语义进行拼接，进一步提取关键字符信息，提高提取字符信息的准确率；所述全连接层的作用是对所述通话字符矩阵进行排列组合，并输出所述通话文本中包含的敏感信息的通话关键字。
[0161]
进一步地，所述利用预设的关键词提取模型中的编码层对所述通话文本进行字符
编码，得到通话字符向量，包括：
[0162]
利用所述编码层提取所述通话文本中的通话字符位置、通话字符维度及待编码的通话字符长度；
[0163]
根据所述通话字符位置、所述通话字符维度及所述待编码的通话字符长度对所述通话文本中的字符进行字符编码，得到通话字符向量。
[0164]
本发明实施例中，所述通话字符位置为每个通话字符所处的位置；所述通话字符维度是指通话字符在编码过程中的进行字符嵌入的维度；所述待编码的通话字符长度是指通话字符的总长度。
[0165]
作为本发明另一可选实施例，所述对所述通话文本进行关键词提取，得到通话关键词，包括：
[0166]
将所述通话文本与预构建的候选词模板进行匹配，得到候选词集合；
[0167]
利用tf-ldf算法计算所述候选词集合中每个候选词的评分，得到每个候选词的分值；
[0168]
根据所述每个候选词的分值，选取预设个数的候选词作为所述通话关键词。
[0169]
本发明实施例中，所述预构建的候选词模板可以是根据历史通话记录整理得到的包含大部分通话关键词和疑似通话关键词的模板。
[0170]
本发明实施例中，所述敏感文本可以是所述敏感语音流进行语音文本转换之后的文本。
[0171]
本发明可选实施例中，通过模板查匹配的方法，一一判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配，并计算匹配率，确保不会造成关键词匹配遗漏，降低客户私人信息泄露的风险。
[0172]
本发明可选实施例中，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，证明所述人工客服没有就客户的私人信息进行提问，因此，可以判定所述人工客服通话语音正常。
[0173]
本发明实施例中，所述通话音素特征向量可以是根据通话文本的自然属性划分出来的最小语音单位的特征向量。
[0174]
本发明可选实施例中，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，证明人工客服与客户的通话内容可能涉及到所述客户的私人信息，因此需要进一步提取所述通话语音的通话音素特征向量，判断所述人工客服与客户的通话内容是否涉及到所述客户的私人信息。
[0175]
本发明实施例中，所述提取所述通话语音的通话音素特征向量与所述提取所述敏感语音数据库中敏感语音流的敏感音素特征向量类似，故此不赘述。
[0176]
所述音素特征向量相似度判断模块103用于判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常，当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0177]
本发明实施例中，所述预设阈值可以是众多数据进行多次试验后得到的结果，通常为0.5。
interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0190]
图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0191]
例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等，在此不再赘述。
[0192]
可选地，所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。
[0193]
可选地，所述通信接口13还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0194]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0195]
所述电子设备中的所述存储器11存储的人工监控程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：
[0196]
构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；
[0197]
实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本；
[0198]
对所述通话文本进行关键词提取，得到通话关键词；
[0199]
判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配；
[0200]
当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常；
[0201]
当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；
[0202]
判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；
[0203]
当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；
[0204]
当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0205]
具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0206]
进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的，也可以是易失性的。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)。
[0207]
本发明实施例还可以提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0208]
构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；
[0209]
实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本；
[0210]
对所述通话文本进行关键词提取，得到通话关键词；
[0211]
判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配；
[0212]
当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常；
[0213]
当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；
[0214]
判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；
[0215]
当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；
[0216]
当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。
[0217]
进一步地，所述计算机标准存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
[0218]
在本发明所提供的几个实施例中，应该理解到，所揭露的电子设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0219]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0220]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以
是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0221]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0222]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0223]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0224]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0225]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0226]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

技术特征：

1.一种人工监控方法，其特征在于，所述方法包括：构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本；对所述通话文本进行关键词提取，得到通话关键词；判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配；当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常；当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。2.如权利要求1所述的人工监控方法，其特征在于，所述提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量，包括：对所述敏感语音数据库中的敏感文本进行文本切分处理，得到敏感切分文本；根据预设的文本格式规则，将所述敏感切分文本中的非文字文本转化为文字文本；对所述敏感切分文本进行分词处理，得到敏感分词文本；根据预设的文字音素映射词典，对所述敏感分词文本进行映射，得到敏感音素；对所述敏感音素进行向量转化，得到敏感音素特征向量。3.如权利要求1所述的人工监控方法，其特征在于，所述对所述通话语音进行语音文本转换，得到通话文本，包括：对所述通话语音进行静音切除及降噪处理，得到可读取通话语音；对所述可读取通话语音进行语音分帧，得到语音帧；对所述语音帧进行声学特征提取，得到所述语音帧的多维特征向量；利用预设的声学模型对所述多维特征向量进行状态识别，得到所述语音帧对应的状态；对所述状态进行组合，得到所述语音帧对应的音素；对所述音素进行组合，得到所述语音帧对应的单词；输出所述单词，得到所述通话语音对应的通话文本。4.如权利要求1所述的人工监控方法，其特征在于，所述判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，包括：利用下述相似度算法计算所述通话音素特征向量与所述敏感音素特征向量之间的相似度sim
q
：
其中，α和β
n
分别为所述通话音素特征向量与敏感音素特征向量；判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值；当所述通话音素特征向量与所述敏感音素特征向量的相似度不大于所述阈值时，判定所述人工客服通话语音正常；当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。5.如权利要求1所述的人工监控方法，其特征在于，所述对所述通话文本进行关键词提取，得到通话关键词，包括：将所述通话文本与预构建的候选词模板进行匹配，得到候选词集合；利用tf-ldf算法计算所述候选词集合中每个候选词的评分，得到每个候选词的分值；根据所述每个候选词的分值，选取预设个数的候选词作为所述通话关键词。6.如权利要求1所述的人工监控方法，其特征在于，所述对所述通话文本进行关键词提取，得到通话关键词，包括：利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量；利用所述关键词提取模型中的注意力机制层对所述通话字符向量进行矩阵拼接，得到通话字符矩阵；利用所述关键词提取模型中的全连接层对所述通话字符矩阵进行排列组合，得到通话关键词。7.如权利要求6所述的人工监控方法，其特征在于，所述利用预设的关键词提取模型中的编码层对所述通话文本进行字符编码，得到通话字符向量，包括：利用所述编码层提取所述通话文本中的通话字符位置、通话字符维度及待编码的通话字符长度；根据所述通话字符位置、所述通话字符维度及所述待编码的通话字符长度对所述通话文本中的字符进行字符编码，得到通话字符向量。8.一种人工监控装置，其特征在于，包括：敏感音素特征向量提取模块，用于构建敏感语音数据库，并提取所述敏感语音数据库中敏感文本对应的敏感语音流的敏感音素特征向量；通话关键词匹配模块，用于实时记录人工客服的通话语音，并对所述通话语音进行语音文本转换，得到通话文本，对所述通话文本进行关键词提取，得到通话关键词，判断所述通话关键词是否与所述敏感语音数据库中的敏感语音流对应的敏感文本相匹配，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本不匹配时，判定所述人工客服通话语音正常，当所述通话关键词与所述敏感语音数据库中的敏感语音流对应的敏感文本匹配时，提取所述通话语音的通话音素特征向量；音素特征向量相似度判断模块，用于判断所述通话音素特征向量与所述敏感音素特征向量的相似度是否大于预设阈值，当所述通话音素特征向量与所述敏感音素特征向量的相
似度不大于所述阈值时，判定所述人工客服通话语音正常，当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述人工客服的通话。9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的人工监控方法。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的人工监控方法。

技术总结

本发明涉及语音语义领域，揭露一种人工监控方法，包括：实时记录人工客服的通话语音，对所述通话语音的通话文本进行关键词提取，得到通话关键词，当所述通话关键词与预构建的敏感语音数据库中的敏感语音流对应的敏感文本匹配时，进一步提取所述通话语音的通话音素特征向量，通话音素特征向量敏感音素特征向量当所述通话音素特征向量与所述敏感音素特征向量的相似度大于所述阈值时，判定所述人工客服通话语音异常，并中断所述客服的通话。本发明还提出一种人工监控装置、电子设备以及存储介质。本发明可以提高通话过程中客户信息的安全性及保密性。程中客户信息的安全性及保密性。程中客户信息的安全性及保密性。