一种基于语义声纹交互模式的验证码实现方法和装置与流程

1.本技术涉及智能交互技术领域，尤其涉及一种基于语义声纹交互模式的验证码实现方法和装置。

背景技术：

2.随着互联网迅猛发展，为了防止机器批量刷单等黑客行为，互联网产品的某些应用会增加“验证码”进行真人验证，验证码起源于“图灵测试”，简单来说就是区分人类和计算机。常见的验证码有短信验证码、输入式图形验证码、行为验证码、图片选择与行为辅助、语音验证码等。
3.传统的语音验证码交互模式，是通过在电脑上播放一段数字，或者是通过电话语音呼叫用户，然后用户将听到的数字作为验证码输入。这种形式就是把传统的数字验证码改为语音播报的形式，随着语音转文字技术的提升，简单的语音直接转化文字数字较容易被破解。而且，用户收到语音内容后，仍然通过手工方式录入验证码，在某些不适合使用文字交互的场景，例如残障人士使用电脑，虚拟现实人机交互系统中，使用语音、视频交互效率更高。

技术实现要素：

4.本技术提供一种基于语义声纹交互模式的验证码实现方法和装置，通过将语义和声纹识别技术加入到验证码系统中，提高了验证码被攻克的难度，并且在大数据环境下通过地理信息与声纹模式识别技术结合，建立一种新的伪冒识别方案，提升系统安全性。
5.第一方面，本技术提供一种基于语义声纹交互模式的验证码实现方法，所述验证码实现方法包括：
6.接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq；
7.根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据；
8.将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本；
9.判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之间的匹配度；
10.若所述匹配度大于预设阈值，则随机验证码验证通过。
11.可选的，所述若所述匹配度大于预设阈值，则随机验证码验证通过，具体包括：
12.若所述匹配度大于预设阈值，则判定所述语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；
13.若所述语音数据不是机器人输入，则随机验证码验证通过。
14.可选的，所述采用声波聚类分析技术判断所述语音数据是否为机器人输入，具体包括：
15.对所述语音数据进行降噪处理和特征提取处理；
16.建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；
17.获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；
18.若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。
19.可选的，所述对所述语音数据进行降噪处理和特征提取处理，具体包括：
20.对所述语音数据进行降噪处理，然后提取所述语音数据的语音特征、语调特征、语流特征和语速特征。
21.第二方面，本技术提供一种基于语义声纹交互模式的验证码实现装置，所述验证码实现装置应用于终端设备和服务器，所述验证码实现装置包括：
22.处理模块，用于接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq；
23.语音模块，用于根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据；
24.发送模块，用于将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本；
25.判断模块，用于判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之间的匹配度；
26.验证模块，用于若所述匹配度大于预设阈值，则随机验证码验证通过。
27.可选的，所述判断模块具体用于：
28.若所述匹配度大于预设阈值，则判定所述语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；
29.若所述语音数据不是机器人输入，则随机验证码验证通过。
30.可选的，所述判断模块具体用于：
31.对所述语音数据进行降噪处理和特征提取处理；
32.建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；
33.获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；
34.若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。
35.第三方面，本技术提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；
36.所述存储器存储计算机执行指令；
37.所述处理器执行所述存储器存储的计算机执行指令，以实现上述第一方面所述的方法。
38.第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第一方面所述的方法。
39.第五方面，本技术提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的方法。
40.本技术提供的一种基于语义声纹交互模式的验证码实现方法和装置，使用了基于语义声纹交互模式，解决了在某些不适合手工输入验证码的交互场景，例如残障人士使用电脑、虚拟现实系统中语音输入比文字输入更便捷的场景下进行图灵测试的问题，而且通过将语义和声纹识别技术加入到验证码系统中，提高了验证码被攻克的难度，并且在大数据环境下通过地理信息与声纹模式识别技术结合，建立一种新的伪冒识别方案，提升系统安全性。
附图说明
41.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
42.图1为本技术一示例性实施例提供的一种基于语义声纹交互模式的验证码实现方法的流程示意图；
43.图2为本技术另一示例性实施例提供的一种基于语义声纹交互模式的验证码实现装置的示意图；
44.图3为本技术另一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
45.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
46.图1为本技术一示例性实施例提供的一种基于语义声纹交互模式的验证码实现方法流程图。如图1所示，本发明实施例提供的一种基于语义声纹交互模式的验证码实现方法具体步骤如下：
47.步骤s101：接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq。
48.具体的，全局唯一序列号seq可以是数据库自增长序列或字段，可以借助数据库自增主键实现全局唯一序列号seq的生成；将自增主键放大后，形成区间号段，在内存中分配，从而避免频繁的io，当达到号段最大值时，重新从数据库获取号段。
49.步骤s102：根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据。
50.具体的，用户点击播放验证码，系统后台启动验证码播放模块。系统从“验证码数据库”中选择一段文字，并将正确顺序存储到系统内存中，赋予该段文字一个全局唯一序列号seq。验证码数据库由海量的常用成语和常用单词等人类容易理解的短句组成，为提高系统安全性，验证码数据库定期更新。将从验证码数据库中选择的短句s逐字切割，分解为字符数组s0.…
s[n]，随机打乱顺序变为p0.…
p[n]，使用现有技术的文字转语音算法，将其转化为对应的语音数据在客户端播放新短句p对应的语音数据，以上过程是中文验证码库，对于其他语种的验证码库也类似。
[0051]
用户听到客户端播放的新短句p对应的语音数据后，将其重新组合为符合人类认知的短句q，然后采用语音输入的方式将短句q对应的语音数据输入客户端。
[0052]
步骤s103：将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本。
[0053]
步骤s104：判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之间的匹配度。
[0054]
具体的，客户端将用户采用语音输入的短句q对应的语音数据和客户端cookie中的seq标识一起上传到服务器，服务器端将短句q对应的语音数据转换为文字，通过与服务器内存中存储的以seq标识为主键的短句s比较，逐字计算匹配度，超过一定阈值算通过。
[0055]
步骤s105：若所述匹配度大于预设阈值，则随机验证码验证通过。
[0056]
具体的，若所述匹配度大于预设阈值，则判定语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；若所述语音数据不是机器人输入，则随机验证码验证通过。
[0057]
其中，采用声波聚类分析技术判断所述语音数据是否为机器人输入的过程具体为：对所述语音数据进行降噪处理和特征提取处理；具体的，对所述语音数据进行降噪处理，然后提取所述语音数据的语音特征、语调特征、语流特征和语速特征。然后建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；通过获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。
[0058]
声纹聚类分析模型可以对语音声纹特征向量进行转置操作，得到转置操作后的语音声纹特征向量；对所述语音声纹特征向量和所述转置操作后的语音声纹特征向量进行内积操作，得到交叉相似度矩阵，所述交叉相似度矩阵包括多行第一特征向量；遍历所述第一特征向量，并计算多行所述第一特征向量中的目标特征向量与其他行第一特征向量之间的相似度；将所述目标特征向量和第二特征向量进行聚类，得到目标语音声纹特征向量，其中，所述第二特征向量为其他行第一特征向量中与所述目标特征向量之间的相似度最大的向量，且所述目标特征向量与所述第二特征向量对应的说话人相同。
[0059]
声纹聚类分析模型通过将属于同一个说话人的目标特征向量和第二特征向量进行聚类，得到目标语音声纹特征向量，减少了目标语音声纹特征向量中其他说话人的干扰，从而提高了采用该目标语音声纹特征向量进行说话人查或者训练的准确度。
[0060]
人类的声纹可以包括四个方面：语音、语调、语流、语速，成年后的声纹相对稳定，可用于身份识别。声纹识别有三大部分组成：计算特征、训练模型和相似度打分。本发明实
施例使用的原理：同一个人的行动范围有限，所以不会同时出现在很多地理位置分散的地方，利用声纹识别与地理位置关联后建立聚类分析，识别出欺诈风险，不仅降低了声纹识别的难度，而且还提高了声纹识别的精度。
[0061]
本技术提供的一种基于语义声纹交互模式的验证码实现方法和装置，使用了基于语义声纹交互模式，解决了在某些不适合手工输入验证码的交互场景，例如残障人士使用电脑、虚拟现实系统中语音输入比文字输入更便捷的场景下进行图灵测试的问题，而且通过将语义和声纹识别技术加入到验证码系统中，提高了验证码被攻克的难度，并且在大数据环境下通过地理信息与声纹模式识别技术结合，建立一种新的伪冒识别方案，提升系统安全性。
[0062]
图2为本技术一示例性实施例提供的一种基于语义声纹交互模式的验证码实现装置的结构示意图。本技术实施例提供的一种基于语义声纹交互模式的验证码实现装置可以执行一种基于语义声纹交互模式的验证码实现方法实施例提供的处理流程。如图2所示，本技术提供的一种基于语义声纹交互模式的验证码实现装置20应用于终端设备和服务器，该验证码实现装置20包括：
[0063]
处理模块201，用于接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq；
[0064]
语音模块202，用于根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据；
[0065]
发送模块203，用于将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本；
[0066]
判断模块204，用于判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之间的匹配度；
[0067]
验证模块205，用于若所述匹配度大于预设阈值，则随机验证码验证通过。
[0068]
可选的，判断模块204具体用于：
[0069]
若所述匹配度大于预设阈值，则判定所述语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；
[0070]
若所述语音数据不是机器人输入，则随机验证码验证通过。
[0071]
可选的，判断模块204具体用于：
[0072]
对所述语音数据进行降噪处理和特征提取处理；
[0073]
建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；
[0074]
获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；
[0075]
若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。
[0076]
本技术实施例提供的装置可以具体用于执行上述图1对应方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。
[0077]
图3为本技术一示例实施例提供的电子设备的结构示意图。如图3所示，该电子设备30包括：处理器301，以及与处理器301通信连接的存储器302，存储器302存储计算机执行指令。
[0078]
其中，处理器执行存储器存储的计算机执行指令，以实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。该电子设备可以为上述提及的服务器。
[0079]
本技术实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。
[0080]
本技术实施例还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。
[0081]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0082]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

技术特征：

1.一种基于语义声纹交互模式的验证码实现方法，其特征在于，所述验证码实现方法包括：接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq；根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据；将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本；判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之间的匹配度；若所述匹配度大于预设阈值，则随机验证码验证通过。2.根据权利要求1所述的验证码实现方法，其特征在于，所述若所述匹配度大于预设阈值，则随机验证码验证通过，具体包括：若所述匹配度大于预设阈值，则判定所述语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；若所述语音数据不是机器人输入，则随机验证码验证通过。3.根据权利要求2所述的验证码实现方法，其特征在于，所述采用声波聚类分析技术判断所述语音数据是否为机器人输入，具体包括：对所述语音数据进行降噪处理和特征提取处理；建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。4.根据权利要求3所述的验证码实现方法，其特征在于，所述对所述语音数据进行降噪处理和特征提取处理，具体包括：对所述语音数据进行降噪处理，然后提取所述语音数据的语音特征、语调特征、语流特征和语速特征。5.一种基于语义声纹交互模式的验证码实现装置，所述验证码实现装置应用于终端设备和服务器，其特征在于，所述验证码实现装置包括：处理模块，用于接收用户输入的验证码播放指令，并根据所述验证码播放指令从验证码数据库中随机选择一段文字后将所述文字对应的正确顺序预存储在系统内存中，同时赋予所述文字一个全局唯一序列号seq；语音模块，用于根据所述验证码播放指令，语音播放所述文字并接受用户输入的语音数据；发送模块，用于将所述语音数据和客户端cookie中的seq标识一起打包发送给服务器，服务器根据所述语音数据得到其对应的文字文本；判断模块，用于判断所述文字文本与服务器内存中存储的以seq标识为主键的文字之
间的匹配度；验证模块，用于若所述匹配度大于预设阈值，则随机验证码验证通过。6.根据权利要求5所述的基于语义声纹交互模式的验证码实现装置，其特征在于，所述判断模块具体用于：若所述匹配度大于预设阈值，则判定所述语音数据对应的文字文本与服务器内存中存储的以seq标识为主键的文字匹配成功，之后采用声波聚类分析技术判断所述语音数据是否为机器人输入；若所述语音数据不是机器人输入，则随机验证码验证通过。7.根据权利要求6所述的基于语义声纹交互模式的验证码实现装置，其特征在于，所述判断模块具体用于：对所述语音数据进行降噪处理和特征提取处理；建立声纹聚类分析模型，并采用所述声纹聚类分析模型识别不同的所述语音数据是否为同一个人的声纹；获取所述语音数据对应的终端设备的地理位置信息，结合所述地理位置信息和声纹识别结果判断来自不同地理位置的两条语音数据是否属于相同的声纹；若来自不同地理位置的两条语音数据属于不同的声纹，则判定所述语音数据非机器人输入。8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-4中任一项所述的基于语义声纹交互模式的验证码实现方法。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-4中任一项所述的所述的基于语义声纹交互模式的验证码实现方法。10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-4中任一项所述的基于语义声纹交互模式的验证码实现方法。

技术总结

本申请提供一种基于语义声纹交互模式的验证码实现方法和装置，属于智能交互技术领域，本申请的方法，使用了基于语义声纹交互模式，解决了在某些不适合手工输入验证码的交互场景，例如残障人士使用电脑、虚拟现实系统中语音输入比文字输入更便捷的场景下进行图灵测试的问题，而且通过将语义和声纹识别技术加入到验证码系统中，提高了验证码被攻克的难度，并且在大数据环境下通过地理信息与声纹模式识别技术结合，建立一种新的伪冒识别方案，提升系统安全性。提升系统安全性。提升系统安全性。