一种身份识别方法、装置、计算机设备和存储介质与流程

1.本发明实施例涉及身份识别技术领域，尤其涉及一种身份识别方法、装置、计算机设备和存储介质。

背景技术：

2.随着国家对安防要求的不断提高，身份识别技术越来越普及。现有的身份识别方法，多为依托单一的音频信息、人脸信息进行身份认证，将只包含目标人物声音的音频信息与预先保存的声纹特征进行比对，或者将目标人物的正面人脸图像与预先保存的人脸特征进行比对，进行身份识别。
3.现有技术中的身份识别方法，无法适用于对存在较多干扰因素的视频或图像中的人物进行身份识别。

技术实现要素：

4.本发明实施例提供一种身份识别方法、装置、计算机设备和存储介质，以实现根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。
5.第一方面，本发明实施例提供了一种身份识别方法，该方法包括：
6.获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；
7.确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；
8.根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
9.第二方面，本发明实施例还提供了一种身份识别装置，该装置包括：
10.原始数据集获取模块，用于获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；
11.目标声纹特征信息确定模块，用于确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；
12.身份信息确定模块，用于根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
13.第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实
施例中任一所述的身份识别方法。
14.第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一所述的身份识别方法。
15.本发明实施例通过收集大量原始数据集，原始数据集中包括对视频或者图像进行人员特征提取得到的人员特征信息集合，以及对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合，在各原始数据集中确定与目标人员特征信息匹配的目标数据集，根据目标数据集中各声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，从而根据与目标人员特征信息匹配的身份信息，确定目标声纹特征信息的身份信息。解决了现有技术中的身份识别方法，无法适用于对存在较多干扰因素的视频或图像中的人物进行身份识别的问题，实现了根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。
附图说明
16.图1是本发明实施例一中的一种身份识别方法的流程图；
17.图2是本发明实施例二中的一种身份识别方法的流程图；
18.图3是本发明实施例三中的一种身份识别装置的结构示意图；
19.图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
20.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
21.实施例一
22.图1是本发明实施例一提供的一种身份识别方法的流程图，本实施例可适用于根据视频或图像，以及其携带的音频，确定音频中的声纹特征信息对应的身份信息的情况，该方法可以由身份识别装置来执行，该装置可以由软件和/或硬件来实现，并一般集成在计算机设备中。
23.如图1所示，本发明实施例的技术方案，具体包括如下步骤：
24.s110、获取至少两个原始数据集。
25.其中，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到。
26.可选的，对于视频，可以进行切片处理，获得多个独立的视频片段，对各视频片段进行人员特征和声纹特征提取。
27.在本发明实施例中，视频本身携带音频，对于图片，可以获取图片采集时间点，将图片采集时间点前后预设时间段内的音频作为图片携带的音频。人员特征信息可以包括人脸特征信息和/或人体特征信息，本实施例对此不进行限制。将视频以及其携带的音频，或者图片以及其携带的音频作为一组数据，对视频或者图像进行人员特征提取，获得人员特
征信息集合，对视频或者图像携带的音频进行声纹特征提取，获得声纹特征信息集合，将该组数据对应的人员特征信息集合和声纹特征信息集合作为一组原始数据集，本实施例对进行人员特征提取和声纹特征提取的方式不进行限制。
28.需要进行说明的是，此时的人员特征信息集合中的人员特征信息，和声纹特征信息集合中的声纹特征信息没有关联绑定关系，只是作为同一组原始数据进行保存。
29.在本发明实施例中，获取多个原始数据集，典型的，可以获取多个不同位置、不同时间的原始数据集。可选的，可以设置每隔预设时间根据获取的原始数据集进行身份识别，也可以在接收到用户发送的身份识别指令时，根据获取的原始数据集进行身份识别，本实施例对此不进行限制。
30.s120、确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息。
31.可选的，可以按照时间顺序，依次取各原始数据集的人员特征信息集合中的人员特征信息，作为目标人员特征信息。在全部原始数据集中的人员特征信息集合对应的全部人员特征信息中，确定与目标人员特征信息匹配的人员特征信息，本实施例对判断人员特征信息是否匹配的方式不进行限制。
32.在本发明实施例中，若人员特征信息与目标人员特征信息匹配，则说明该人员特征信息与目标人员特征信息对应同一个人员，也即，互相匹配的人员特征信息对应同一个人员，互相匹配的各人员特征信息对应的声纹特征信息集合中，可能存在与该人员对应的声纹特征信息。因此，如果原始数据集中存在与目标人员特征信息匹配的人员特征信息，则将该原始数据集作为与目标人员特征信息匹配的目标数据集。
33.对于目标数据集的声纹特征信息集合中的各声纹特征信息，统计各声纹特征信息的重复出现次数。重复出现次数可以根据互相匹配的声纹特征信息的数量进行确定，同样，本实施例对判断声纹特征信息是否匹配的方式不进行限制。重复出现次数越高，说明该声纹特征信息属于目标人员特征信息对应的人员的可能性越高，因此，根据各声纹特征信息在目标数据集中的重复出现次数，可以确定与目标人员特征信息匹配的目标声纹特征信息。
34.示例性的，如果目标人员特征信息为a1，若在全部人员特征信息中，存在a2、a3、a4以及a5与a1相匹配，则a1、a2、a3、a4以及a5对应的数据集s1、s2、s3、s4以及s5为目标数据集。对于s1、s2、s3、s4以及s5数据集中的各个声纹特征信息，若声纹特征信息b1在s1、s2以及s3中出现，则b1的重复出现次数为3。
35.在本发明实施例中，获取与目标人员特征信息匹配的目标数据集，也即对应同一个人员的各目标数据集。统计各声纹特征信息在各目标数据集中的重复出现次数，也即同一声音在对应同一人员的各目标数据集中的出现频率，从而根据各声纹特征信息的重复出现次数，确定与目标人员特征信息匹配的可能性最高的目标声纹特征信息。
36.在本发明实施例中，确定人员特征信息和声纹特征信息之间的匹配关系，可以实现将声音与人员进行关联，从而实现根据声纹特征信息确定身份信息。
37.s130、根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
38.在本发明实施例中，人员特征信息与身份信息互相匹配，示例性的，可以预先建立身份信息库，身份信息库中存储多个身份信息，以及各身份信息对应的人员特征信息，将本发明实施例中的目标人员特征信息与身份信息库中的人员特征信息进行匹配，将身份信息库中匹配成功的人员特征信息对应的身份信息，作为与目标人员特征信息匹配的身份信息。
39.在本发明实施例中，由于目标声纹特征信息与目标人员特征信息相匹配，因此，与目标人员特征信息匹配的身份信息，即为与目标声纹特征信息匹配的身份信息。本实施例通过建立声纹特征信息与人员特征信息之间的匹配关系，也即，建立人脸/人体与声音之间的匹配关系，可以实现“听声识人”。
40.在一个具体的适用场景下，通过本实施例的技术方案实现声纹特征信息与身份信息的匹配，建立身份信息库，身份信息库中存储有多个身份信息以及对应的声纹特征信息。在接到来电时，根据电话录音识别到的声纹特征信息，即可在身份信息库中确定对应的身份信息，从而为来电人员身份确认提供了便利。
41.本实施例的技术方案，通过收集大量原始数据集，原始数据集中包括对视频或者图像进行人员特征提取得到的人员特征信息集合，以及对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合，在各原始数据集中确定与目标人员特征信息匹配的目标数据集，根据目标数据集中各声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，从而根据与目标人员特征信息匹配的身份信息，确定目标声纹特征信息的身份信息。解决了现有技术中的身份识别方法，无法适用于对存在较多干扰因素的视频或图像中的人物进行身份识别的问题，实现了根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。
42.实施例二
43.图2是本发明实施例二提供的一种身份识别方法的流程图，本发明实施例在上述实施例的基础上，对确定与目标人员特征信息匹配的目标声纹特征信息的过程进行了进一步的具体化。
44.相应的，如图2所示，本发明实施例的技术方案，具体包括如下步骤：
45.s210、获取至少两个原始数据集。
46.s220、确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集。
47.在本发明实施例中，在各原始数据集中，确定与目标人员特征信息匹配的人员特征信息所在的原始数据集，作为目标数据集。
48.s230、针对目标数据集中包括的各声纹特征信息，统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息。
49.在本发明实施例中，声纹特征信息在目标数据集中的重复出现次数越高，说明该声纹特征信息属于目标人员特征信息对应的人员的可能性越高。
50.可选的，可以将预设次数的初始值设置为一个较小的数值，以防出现不存在重复出现次数大于或者等于预设次数的声纹特征信息的情况，同时，若重复出现次数大于或者等于预设次数的声纹特征信息的数量较多，还可以通过提高预设次数数值并迭代的方式，确定唯一满足条件的声纹特征信息。这样设置的目的在于，可以提高确定与目标人员特征信息匹配的目标声纹特征信息的准确性。
51.s240、判断重复出现次数大于或者等于预设次数的声纹特征信息的数量是否为一个，若是，则执行s250，否则执行s260。
52.在本发明实施例中，若重复出现次数大于或者等于预设次数的声纹特征信息的数量只有一个，则确定该声纹特征信息唯一归属于目标人员特征信息对应的人员，该声纹特征信息为目标声纹特征信息。此时，预设次数越高，该声纹特征信息与目标人员特征信息相匹配的准确率就越高，从而身份识别的准确率就越高。
53.s250、确定该声纹特征信息与目标人员特征信息匹配。执行s2100。
54.s260、判断重复出现次数大于或者等于预设次数的声纹特征信息的数量是否为至少两个，若是，则执行s270，否则执行s2110。
55.可以通过将预设次数的初始值设置为一个较小的数值的方式，避免出现不存在重复出现次数大于或者等于预设次数的声纹特征信息的情况。在本发明实施例中，当重复出现次数大于或者等于预设次数的声纹特征信息的数量有多个时，进一步进行处理，并在迭代过程中提高预设次数的数值，直至确定唯一满足条件的声纹特征信息。
56.s270、将重复出现次数大于或者等于预设次数的声纹特征信息作为候选声纹特征信息。
57.示例性的，如果目标人员特征信息为a1，若在全部人员特征信息中，存在a2、a3、a4以及a5与a1相匹配，则a1、a2、a3、a4以及a5对应的数据集s1、s2、s3、s4以及s5为目标数据集。对于s1、s2、s3、s4以及s5数据集中的各个声纹特征信息，若声纹特征信息b1在s1、s2以及s3中出现，则b1的重复出现次数为3，声纹特征信息b2在s1和s2中出现，则b2的重复出现次数为2，若声纹特征信息b3在s1、s2、s3以及s5中出现，则b3的重复出现次数为4，此时，若预设次数为3，则b1和b3为候选声纹特征信息。
58.s280、在至少两个原始数据集中，获取与各候选声纹特征信息匹配的待处理数据集。
59.在各原始数据集中，分别确定与各候选声纹特征信息匹配的待处理数据集，也即待处理数据集的声纹特征信息集合中，存在与候选声纹特征信息匹配的声纹特征信息。
60.示例性的，以上述示例为例，若在各原始数据集中，只有s1、s2、s3以及s6中存在与b1匹配的声纹特征信息，则s1、s2、s3以及s6为与候选声纹特征信息b1匹配的待处理数据集；若在各原始数据集中，只有s1、s2、s3以及s5中存在与b3匹配的声纹特征信息，则s1、s2、s3以及s5为与候选声纹特征信息b3匹配的待处理数据集。
61.s290、根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息。
62.待处理数据集与目标数据集相匹配，也即待处理数据集被目标数据集包含，若待处理数据集被目标数据集包含，说明该候选声纹特征信息从未在不包含其对应的人员特征信息的原始数据集中出现过。
63.相应的，s290又可以包括：
64.s291、判断待处理数据集与目标数据集相匹配的候选声纹特征信息的数量是否为一个，若是，则执行s292，否则执行s293。
65.在本发明实施例中，若待处理数据集与目标数据集相匹配的候选声纹特征信息有且只有一个，则认为该候选声纹特征信息唯一归属于目标人员特征信息对应的人员，该候
选声纹特征信息为目标声纹特征信息。
66.示例性的，以上述事例为例，候选声纹特征信息b1，与在s1、s2以及s3中出现的声纹特征信息b
10
、b
11
和b
12
相匹配，具体的，可以是b1与b
10
、b
11
和b
12
之间的相似度超过预设阈值，因此，b1对应的目标数据集为s1、s2以及s3，同时，b1的待处理数据集为s1、s2、s3以及s6，s6未被目标数据集包含，因此，候选声纹特征信息b1的待处理数据集与目标数据集不匹配。同理可知，若声纹特征信息b3对应的目标数据集为s1、s2、s3以及s5，同时，b3的待处理数据集为s1、s2、s3以及s5，因此，候选声纹特征信息b3的待处理数据集与目标数据集相匹配。此时，有且只有一个候选声纹特征信息b3的待处理数据集与目标数据集相匹配，则确定b3与为目标声纹特征信息，与目标人员特征信息相匹配。
67.s292、确定该候选声纹特征信息与目标人员特征信息匹配。执行s2100。
68.s293、判断待处理数据集与目标数据集相匹配的候选声纹特征信息的数量是否为至少两个，若是，则执行s294，否则执行s295。
69.若存在多个待处理数据集与目标数据集相匹配的候选声纹特征信息，则提高预设次数的数值，并进行迭代处理，直至确定唯一满足条件的声纹特征信息。
70.s294、提高预设次数。返回执行s230。
71.s295、判断待处理数据集与目标数据集相匹配的候选声纹特征信息的数量是否为零个，若是，则执行s296，否则执行s2110。
72.由于图像或者视频的采集是存在可视域范围的，而音频通过拾音器采集是全方位的，很可能候选声纹特征信息所属的人员在图像或者视频采集设备的可视域范围之外发出了声音，此时即表明候选声纹信息在不包含与目标人员特征信息相匹配的人员特征信息对应的原始数据集中出现过。当不存在待处理数据集与目标数据集相匹配的候选声纹特征信息时，也即，各候选声纹信息都在不包含与目标人员特征信息相匹配的人员特征信息对应的原始数据集中出现过。
73.以上述示例为例，候选声纹特征信息b1还在s6中出现过，但s6中不包含与目标人员特征信息相匹配的人员特征信息。若对于候选声纹特征信息b3，其待处理数据集除s1、s2、s3以及s5之外，还包括s7，则候选特征信息b1、b3均在不包含与目标人员特征信息相匹配的人员特征信息对应的原始数据集中出现过，也即，此时不存在待处理数据集与目标数据集相匹配的候选声纹特征信息。此时，可以继续采用s296-s299的方式，结合人员的活动范围，对各候选声纹特征信息的落点合理性进行分析，直至确定唯一满足条件的声纹特征信息。
74.s296、根据与目标数据集匹配的视频或者图像的时间信息和位置信息，生成目标人员的行动区域。
75.在本发明实施例中，对每个原始数据集，采集其匹配的视频或者图像时，该视频或者图像都有对应的采集时间信息和采集位置信息，采集位置信息可以是视频或者图像对应的经纬度信息。
76.对于各目标数据集，获取其匹配的视频或者图像的时间信息和位置信息，按照时间顺序，绘制目标人员特征信息对应的目标人员的人员行动轨迹，对于人员行动轨迹上的各轨迹点，向外辐射一定的活动范围，将人员行动轨迹以及各轨迹点向外辐射的活动范围作为目标人员的行动区域。
77.示例性的，各轨迹点向外辐射的活动范围的半径可以通过以下公式计算：
78.r＝m*h；
79.其中，r为各轨迹点向外辐射的活动范围的半径，m为目标人员的预设速度，h为该轨迹点与下一轨迹点之间的时间间隔。
80.s297、根据与待处理数据集匹配的视频或者图像的时间信息和位置信息，生成与候选声纹特征信息匹配的行动轨迹。
81.候选声纹特征信息对应的各待处理数据集，其匹配的视频或者图像也分别对应有时间信息和位置信息，根据各待处理数据集的时间顺序，依次绘制与该候选声纹特征信息匹配的行动轨迹。
82.s298、判断行动轨迹与行动区域匹配的候选声纹特征信息的数量是否为一个，若是，则返回执行s292，否则执行s299。
83.当候选声纹特征信息的行动轨迹位于目标人员的行动区域之内时，该候选声纹特征信息的行动轨迹与目标人员的行动区域相匹配。
84.若有且只有一个候选声纹特征信息，其行动轨迹与行动区域相匹配，则该候选声纹特征信息唯一归属于目标人员特征信息对应的人员，该候选声纹特征信息为目标声纹特征信息。
85.s299、判断行动轨迹与目标人员的行动区域匹配的候选声纹特征信息的数量是否为至少两个，若是，则返回执行s294，否则执行s2110。
86.若存在多个行动轨迹与目标人员的行动区域相匹配的候选声纹特征信息，则可以提高预设次数的数值并继续进行迭代，直至确定唯一满足条件的声纹特征信息。
87.可选的，当存在多个行动轨迹与目标人员的行动区域相匹配的候选声纹特征信息时，还可以将各候选声纹特征信息在人机交互界面进行展示，并根据用户在人机交互界面上的选择指令，确定目标声纹特征信息。
88.可选的，还可以在本次身份识别的处理周期内，不对目标人员特征信息确定匹配的目标声纹特征信息，随着原始数据集的不断采集和扩充，在下一次身份识别的处理周期内，继续采用本实施例的技术方案，直至可以确定唯一归属于目标人员特征信息的目标声纹特征信息。
89.s2100、根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
90.s2110、结束。
91.本实施例的技术方案，通过收集大量原始数据集，原始数据集中包括对视频或者图像进行人员特征提取得到的人员特征信息集合，以及对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合，在各原始数据集中确定与目标人员特征信息匹配的目标数据集，根据目标数据集中各声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，从而根据与目标人员特征信息匹配的身份信息，确定目标声纹特征信息的身份信息。解决了现有技术中的身份识别方法，无法适用于对存在较多干扰因素的视频或图像中的人物进行身份识别的问题，实现了根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。
92.实施例三
93.图3是本发明实施例三提供的一种身份识别装置的结构示意图，该装置可以集成
在计算机设备中，该装置包括：原始数据集获取模块310、目标声纹特征信息确定模块320以及身份信息确定模块330。其中：
94.原始数据集获取模块310，用于获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；
95.目标声纹特征信息确定模块320，用于确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；
96.身份信息确定模块330，用于根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
97.本实施例的技术方案，通过收集大量原始数据集，原始数据集中包括对视频或者图像进行人员特征提取得到的人员特征信息集合，以及对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合，在各原始数据集中确定与目标人员特征信息匹配的目标数据集，根据目标数据集中各声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，从而根据与目标人员特征信息匹配的身份信息，确定目标声纹特征信息的身份信息。解决了现有技术中的身份识别方法，无法适用于对存在较多干扰因素的视频或图像中的人物进行身份识别的问题，实现了根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。
98.在上述实施例的基础上，目标声纹特征信息确定模块320，包括：
99.重复出现次数判断单元，用于针对目标数据集中包括的各声纹特征信息，统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息；
100.第一目标声纹特征信息确定单元，用于若重复出现次数大于或者等于预设次数的声纹特征信息的数量为一个，则确定该声纹特征信息与目标人员特征信息匹配。
101.在上述实施例的基础上，目标声纹特征信息确定模块320，还包括：
102.候选声纹特征信息确定单元，用于若重复出现次数大于或者等于预设次数的声纹特征信息的数量为至少两个，则将重复出现次数大于或者等于预设次数的声纹特征信息作为候选声纹特征信息；
103.待处理数据集获取单元，用于在至少两个原始数据集中，获取与各候选声纹特征信息匹配的待处理数据集；
104.第二目标声纹特征信息确定单元，用于根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息。
105.在上述实施例的基础上，第二目标声纹特征信息确定单元，具体用于：
106.若待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为一个，则确定该候选声纹特征信息与目标人员特征信息匹配。
107.在上述实施例的基础上，第二目标声纹特征信息确定单元，具体用于：
108.若确定待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为至少两个，则提高预设次数，并返回执行统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息的操作。
109.在上述实施例的基础上，第二目标声纹特征信息确定单元，具体用于：
110.若确定待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为零个，则根据与目标数据集匹配的视频或者图像的时间信息和位置信息，生成目标人员的行动区域；
111.根据与待处理数据集匹配的视频或者图像的时间信息和位置信息，生成与候选声纹特征信息匹配的行动轨迹；
112.若确定行动轨迹与目标人员的行动区域匹配的候选声纹特征信息的数量为一个，则确定该候选声纹特征信息与目标人员特征信息匹配。
113.在上述实施例的基础上，第二目标声纹特征信息确定单元，具体用于：
114.若确定行动轨迹与目标人员的行动区域匹配的候选声纹特征信息的数量为至少两个，则提高预设次数，并返回执行统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息的操作。
115.本发明实施例所提供的身份识别装置可执行本发明任意实施例所提供的身份识别方法，具备执行方法相应的功能模块和有益效果。
116.实施例四
117.图4为本发明实施例四提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括处理器70、存储器71、输入装置72和输出装置73；计算机设备中处理器70的数量可以是一个或多个，图4中以一个处理器70为例；计算机设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图4中以通过总线连接为例。
118.存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的身份识别方法对应的模块(例如，身份识别装置中的原始数据集获取模块310、目标声纹特征信息确定模块320以及身份信息确定模块330)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的身份识别方法。该方法包括：
119.获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；
120.确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；
121.根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
122.存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
123.输入装置72可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设
置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
124.实施例五
125.本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种身份识别方法，该方法包括：
126.获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；
127.确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；
128.根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。
129.当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的身份识别方法中的相关操作。
130.通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
131.值得注意的是，上述身份识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
132.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

技术特征：

1.一种身份识别方法，其特征在于，包括：获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。2.根据权利要求1所述的方法，其特征在于，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，包括：针对目标数据集中包括的各声纹特征信息，统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息；若重复出现次数大于或者等于预设次数的声纹特征信息的数量为一个，则确定该声纹特征信息与目标人员特征信息匹配。3.根据权利要求2所述的方法，其特征在于，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息，还包括：若重复出现次数大于或者等于预设次数的声纹特征信息的数量为至少两个，则将重复出现次数大于或者等于预设次数的声纹特征信息作为候选声纹特征信息；在至少两个原始数据集中，获取与各候选声纹特征信息匹配的待处理数据集；根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息。4.根据权利要求3所述的方法，其特征在于，根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息，包括：若待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为一个，则确定该候选声纹特征信息与目标人员特征信息匹配。5.根据权利要求3所述的方法，其特征在于，根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息，包括：若确定待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为至少两个，则提高预设次数，并返回执行统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息的操作。6.根据权利要求3所述的方法，其特征在于，根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息，包括：若确定待处理数据集与目标数据集相匹配的候选声纹特征信息的数量为零个，则根据与目标数据集匹配的视频或者图像的时间信息和位置信息，生成目标人员的行动区域；根据与待处理数据集匹配的视频或者图像的时间信息和位置信息，生成与候选声纹特征信息匹配的行动轨迹；
若确定行动轨迹与行动区域匹配的候选声纹特征信息的数量为一个，则确定该候选声纹特征信息与目标人员特征信息匹配。7.根据权利要求6所述的方法，其特征在于，根据待处理数据集与目标数据集相匹配的候选声纹特征信息的数量，确定与目标人员特征信息匹配的目标声纹特征信息，还包括：若确定行动轨迹与行动区域匹配的候选声纹特征信息的数量为至少两个，则提高预设次数，并返回执行统计在目标数据集中重复出现次数大于或者等于预设次数的声纹特征信息的操作。8.一种身份识别装置，其特征在于，包括：原始数据集获取模块，用于获取至少两个原始数据集，所述原始数据集中包括人员特征信息集合和声纹特征信息集合，所述人员特征信息集合通过对视频或者图像进行人员特征提取得到，所述声纹特征信息集合通过对视频或者图像所携带的音频进行声纹特征提取得到；目标声纹特征信息确定模块，用于确定所述至少两个原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；身份信息确定模块，用于根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的身份识别方法。10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的身份识别方法。

技术总结

本发明公开了一种身份识别方法、装置、计算机设备和存储介质。该方法包括：获取至少两个原始数据集，原始数据集中包括通过对视频或者图像进行人员特征提取得到的人员特征信息集合，和通过对视频或者图像所携带的音频进行声纹特征提取得到的声纹特征信息集合；确定各原始数据集中与目标人员特征信息匹配的目标数据集，根据目标数据集中包括的各个声纹特征信息在目标数据集中的重复出现次数，确定与目标人员特征信息匹配的目标声纹特征信息；根据与目标人员特征信息匹配的身份信息，确定与目标声纹特征信息匹配的身份信息。使用本发明的技术方案，可以实现根据声纹对存在较多干扰因素的视频或图像中的人物进行身份识别。素的视频或图像中的人物进行身份识别。素的视频或图像中的人物进行身份识别。