讲话者识别装置、讲话者识别方法以及程序与流程

1.本公开涉及讲话者识别装置、讲话者识别方法以及程序。

背景技术：

2.讲话者识别技术是一种对评价讲话是哪个讲话者的登记讲话进行推测的技术，该讲话者识别技术基于从登记讲话算出的特征量与从评价讲话算出的特征量的相似度来进行推测，所述登记讲话是作为登记对象的每个讲话者的讲话，所述评价讲话是作为识别对象的未知的讲话者的讲话(例如专利文献1)。
3.例如，作为讲话者识别技术，专利文献1公开了一种通过利用每个登记讲话者的登记讲话中的讲话者特征向量和评价讲话中的讲话者特征向量的相似度，对评价讲话的讲话者进行识别的技术。
4.(现有技术文献)
5.(专利文献)
6.专利文献1：日本特开2017-187642号公报
7.然而，在将笑声或愤怒的叫喊声等情感讲话设为评价讲话的情况下，对识别准确度会造成影响。具体而言，如果登记讲话中包含的情感与评价讲话中包含的情感不同时，随着评价讲话包含的情感不同而产生的声音抑扬变化，会导致讲话者的识别准确度的下降。
8.也就是说，在专利文献1公开的现有讲话者识别技术中，不考虑评价讲话中包含的情感，而计算登记讲话和评价讲话中的讲话者特征向量的相似度并对评价讲话的讲话者进行识别。因此，以目前的讲话者识别技术来说，识别评价讲话的讲话者的准确度有时并不充分。

技术实现要素：

9.鉴于上述问题，本公开的目的在于提供一种即使评价讲话即识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度的讲话者识别装置、讲话者识别方法以及程序。
10.本公开的一个形态所涉及的讲话者识别装置，对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别装置具备：情感推测器，利用进行了学习的dnn(deep neural network：深度神经网络)，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理部，利用所述情感推测器的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。
11.另外，这些概括性的或具体的形态，也可以由系统、方法、集成电路、计算机程序或计算机可读取的cd-rom等记录介质来实现，也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
12.通过本公开的讲话者识别装置等，即使识别对象的讲话中包含了讲话者的情感，
也能够提高讲话者的识别准确度。
附图说明
13.图1是示出实施方式所涉及的讲话者识别系统的构成的一个例子的方框图。
14.图2是示出实施方式所涉及的讲话者识别系统的构成的另外一个例子的方框图。
15.图3是示出实施方式所涉及的预处理部的具体构成的一个例子方框图。
16.图4是示出实施方式所涉及的讲话者识别装置的具体构成的一个例子方框图。
17.图5示出了实施方式所涉及的情感推测器的构成的一个例子。
18.图6示出了实施方式所涉及的讲话者识别器的构成的一个例子。
19.图7示出了实施方式所涉及的讲话者识别器具有的讲话者特征量抽取部的构成的一个例子。
20.图8是示出实施方式所涉及的讲话者识别装置的工作的概要的流程图。图9是示出实施方式的变形例1所涉及的讲话者识别装置的具体构成的一个例子的方框图。
21.图10是示出实施方式的变形例2所涉及的讲话者识别装置的具体构成的一个例子的方框图。
22.图11示出了实施方式的变形例2所涉及的讲话者识别装置的一个处理例。
23.图12是示出实施方式的变形例3所涉及的讲话者识别装置的具体构成的一个例子的方框图。
具体实施方式
24.(本公开的概要)
25.本公开的一个形态的概要如下所述。
26.本公开的一个形态所涉及的讲话者识别装置，对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别装置具备：情感推测器，利用进行了学习的dnn(deep neural network：深度神经网络)，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理部，利用所述情感推测器的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。
27.通过本形态，即使识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度。
28.并且，例如也可以是，所述讲话者识别处理部具备多个讲话者识别器以及识别器选择部，所述多个讲话者识别器的每一个具有讲话者特征量抽取部以及相似度计算部，所述讲话者特征量抽取部在所述声学特征量被输入的情况下，从被输入的所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定，所述相似度计算部计算由所述讲话者特征量抽取部抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量，所述识别器选择部从所述多个讲话者识别器中选择一个讲话者识别器，被选择的所述一个讲话者识别器是在所述存储部中存储了能够对如下的声音的每一个进行确定的第2讲话者特征量
的讲话者识别器，所述声音的每一个是与所述推测结果所示的情感相对应的、包含了所述登记讲话者的一种情感的声音，由所述识别器选择部选择的讲话者识别器，通过被输入从所述讲话数据算出的声学特征量，来计算所述相似度，并作为所述分数输出。
29.并且，例如也可以是，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；修改部，将存储在存储部的第2讲话者特征量修改为第3讲话者特征量，该第2讲话者特征量能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定，该第3讲话者特征量能够对包含了与所述推测结果所示的情感相应的所述一种情感的声音的每一个进行确定；以及相似度计算部，计算抽取的所述第1讲话者特征量和由所述修改部修改的第3讲话者特征量的相似度，将算出的相似度作为所述分数来输出。
30.并且，例如也可以是，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；相似度计算部，计算抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量；以及可靠性赋予部，对算出的所述相似度赋予与所述推测结果所示的情感相应的权重，作为所述分数进行输出，所述可靠性赋予部也可以在所述一种情感与所述推测结果所示的情感一致的情况下，对算出的所述相似度赋予最大权重。
31.并且，例如也可以是，所述声学特征量是如下这样被算出的，即：由预处理部以时间序列且按识别单位，对示出规定期间中的一个讲话者的讲话声音的全部讲话数据进行分割，从而获得多个讲话数据，所述声学特征量是从获得的所述多个讲话数据的每一个中算出的，所述可靠性赋予部对所述相似度赋予权重，所述相似度是由所述相似度计算部算出的、针对所述多个讲话数据的每一个的相似度，所述权重是与由所述情感推测器推测出的、针对所述多个讲话数据的每一个的所述推测结果所示的情感相应的权重。
32.并且，例如也可以是，所述讲话者识别装置进一步具备讲话者识别部，所述讲话者识别部利用总体分数对所述全部讲话数据所对应的讲话者进行识别，所述总体分数是对由所述可靠性赋予部输出的、针对所述多个讲话数据的每一个的所述分数进行算术平均而得到的分数，所述讲话者识别部利用所述总体分数中的阈值以上的总体分数，对所述全部讲话数据所对应的讲话者进行识别。
33.并且，例如也可以是，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；相似度计算部，计算抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量；以及可靠性赋予部，对算出的所述相似度赋予与所述推测结果所示的情感相应的可靠性，作为所述分数进行输出。
34.并且，例如也可以是，所述讲话者识别装置进一步具备讲话者识别部，所述讲话者识别部利用所述可靠性为阈值以上的所述分数，对所述讲话数据所对应的讲话者进行识别。
35.并且，例如也可以是，所述讲话者特征量抽取部利用进行了学习的dnn，从所述声学特征量中抽取所述第1讲话者特征量。
36.本公开的一个形态所涉及的讲话者识别方法，对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别方法包括如下步骤：情感推测步骤，利用进行了学习的dnn，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理步骤，利用所述情感推测器的推测结果，根据从所述讲话数据算出的声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。
37.另外，本公开的一个形态所涉及的程序，使计算机执行讲话者识别方法，该讲话者识别方法对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别方法包括如下步骤：情感推测步骤，利用进行了学习的dnn，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理步骤，利用所述情感推测器的推测结果，根据从所述讲话数据算出的声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。
38.另外，这些概括性的或具体的形态，也可以由系统、方法、集成电路、计算机程序或计算机可读取的cd-rom等记录介质来实现，也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
39.以下参照附图来对本公开的实施方式进行说明。以下将要说明的实施方式均为示出本公开的一个的具体例。以下的实施方式所示的数值、形状、构成要素、步骤以及步骤的顺序等均为一个例子，其主旨并非是对本公开进行限定。并且，对于以下的实施方式的构成要素中没有记载在示出最上位概念的独立技术方案的构成要素，将作为任意的构成要素来说明。并且，在所有的实施方式中，能够对各个实施方式中的内容进行组合。
40.(实施方式)
41.以下参照附图对本实施方式所涉及的讲话者识别装置等进行说明。
42.[讲话者识别系统1]
[0043]
图1是示出本实施方式所涉及的讲话者识别系统1的构成的一个例子的方框图。图2是示出本实施方式所涉及的讲话者识别系统1的构成的另外一个例子的方框图。
[0044]
本实施方式所涉及的讲话者识别系统1用于识别示出含有讲话者的情感的讲话的声音的讲话数据所对应的讲话者，在此，含有讲话者的情感的讲话是识别对象的讲话。如图1所示，讲话者识别系统1具备预处理部10以及讲话者识别装置11。另外，如图2所示，讲话者识别系统1也可以具备讲话者识别部14，但这种构成并非是必需的。以下将对各构成要素进行说明。
[0045]
[1.预处理部10]
[0046]
图3是示出本实施方式所涉及的预处理部10的具体构成的一个例子的方框图。
[0047]
预处理部10获得示出识别对象的讲话声音的讲话数据，将从获得的讲话数据算出的声学特征量输出给讲话者识别装置11。如图3所示，本实施方式中的预处理部10具备声音获取部101以及声学特征量计算部102。
[0048]
[1.1声音获取部101]
[0049]
声音获取部101例如由麦克风构成，用于获得讲话者的讲话声音。声音获取部101
将获得的讲话声音转换为声音信号，对讲话区间进行检测，该讲话区间是已进行了讲话的区间，将通过分割讲话区间而得到的示出讲话声音的讲话数据输出给声学特征量计算部102。
[0050]
另外，声音获取部101可以以时间序列且按识别单位，对示出规定期间中的一个讲话者的讲话声音的全部讲话数据进行分割，从而获得多个讲话数据，并输出给声学特征量算出部102。识别单位例如可以是3秒至4秒的时间长度，也可以是上述的讲话区间。
[0051]
[1.2声学特征量计算部102]
[0052]
声学特征量计算部102根据由声音获取部101输出的讲话区间的声音信号即讲话数据，对与讲话声音有关的声学特征量进行计算。本实施方式中的声学特征量计算部102根据由声音获取部101输出的讲话数据，算出作为讲话声音的特征量的mfcc(mel frequency cepstral coefficient：梅尔频率倒谱系数)，以作为声学特征量。mfcc是表示讲话者的声道特征的特征量，一般也用于语音识别。更具体而言，mfcc是基于人类的听觉特征，对声音频谱进行分析而得到的声学特征量。另外，作为声学特征量，并非受声学特征量计算部102从讲话数据算出mfcc的情况所限，也可以通过梅尔滤波器组对声音信号进行滤波来算出，而且可以算出声音信号的频谱来作为声学特征量。
[0053]
[2.讲话者识别装置11]
[0054]
讲话者识别装置11例如也可以由具备处理器(微处理器)、存储器、通信接口等的计算机来实现。讲话者识别装置11可以被放在服务器中工作，也可以将讲话者识别装置11的一部分构成放在云服务器中工作。讲话者识别装置11进行用于识别讲话数据所对应的讲话者的处理，所述讲话数据示出作为评价讲话的识别对象的讲话声音。更具体而言，讲话者识别装置11将示出评价讲话的第1讲话者特征量和每个登记讲话者的登记讲话的第2讲话者特征量的相似度的分数，作为识别结果输出。本实施方式所涉及的评价讲话即识别对象的讲话中包含了讲话者的情感。
[0055]
图4是示出本实施方式所涉及的讲话者识别装置11的具体构成的一个例子的方框图。
[0056]
如图1和图4所示，讲话者识别装置11具备情感推测器12以及讲话者识别处理部13。
[0057]
[2.1情感推测器12]
[0058]
情感推测器12利用进行了学习的dnn(deep neural network：深度神经网络)，根据从讲话数据算出的声学特征量，对该讲话数据所示的讲话声音中包含的情感进行推测。另外，关于dnn，例如也可以利用cnn(convolution neural networks：卷积神经网络)、全链接nn(neural network：神经网络)、tdnn(time delay neural network：时延神经网络)。
[0059]
在此，对于情感推测器12的构成的一个例子，利用图5来进行説明。
[0060]
图5示出了本实施方式所涉及的情感推测器12的构成的一个例子。
[0061]
如图5所示，情感推测器12具备帧连接处理部121以及dnn122。
[0062]
[2.1.1帧连接处理部121]
[0063]
帧连接处理部121对作为从预处理部10输出的声学特征量的mfcc的多个帧进行连接，并输出给dnn122的输入层。mfcc是由一帧具有x(x是正整数)次方的特征量的多个帧构成。在图5的示例中，帧连接处理部121将由每帧24次方特征量所构成的mfcc参数连接成50
帧，从而生成1200次方的向量，输出给dnn122的输入层。
[0064]
[2.1.2dnn122]
[0065]
当连接好的mfcc的多个帧被输入的情况下，dnn122将概率最高的情感标签作为情感推测器12的推测结果进行输出。在图5的示例中，dnn122是由输入层、多个中间层、以及输出层构成的神经网络，是利用存储在存储部123的教师数据进行了学习的神经网络，所述教师数据是包含推测对象的情感的教师声音数据。输入层例如由1200节点构成，将由每帧24次方特征量构成的mfcc参数连接成50帧而生成的1200次方的向量被输入到该输入层。输出层例如由输出平静、愤怒、笑、悲伤这样的情感标签的节点构成，输出概率最高的情感标签。另外，多个中间层例如由2至3层构成。
[0066]
[2.2讲话者识别处理部13]
[0067]
讲话者识别处理部13利用情感推测器12的推测结果，根据从该讲话数据算出的声学特征量，输出用于识别该讲话数据所对应的讲话者的分数。
[0068]
如图4所示，本实施方式中的讲话者识别处理部13具备识别器选择部131以及多个讲话者识别器132。
[0069]
[2.2.1多个讲话者识别器132]
[0070]
多个讲话者识别器132的每一个是与一种情感对应的讲话者识别器132k(k为自然数)。一种情感是指例如平静、愤怒、笑、悲伤等其中之一。在图4的示例中，多个讲话者识别器132由讲话者识别器132a、讲话者识别器132b等构成。例如讲话者识别器132a与作为一种情感的“平静”对应，讲话者识别器132b与作为一种情感的“笑”对应。另外，将讲话者识别器132a、讲话者识别器132b等中的一个讲话者识别器称为讲话者识别器132k。
[0071]
当多个讲话者识别器132之中，由识别器选择部131选择的讲话者识别器132k被输入从所述讲话数据算出的声学特征量时，则计算相似度并作为分数输出。另外，也存在多个讲话者识别器132中的任何一个都不被识别器选择部131选择的情况，对于没有被识别器选择部131选择的情况，在图4中表示为：“无选择”。
[0072]
在此，作为讲话者识别器132k构成的一个例子，利用图6对与“笑”对应的讲话者识别器132b进行说明。
[0073]
图6示出了本实施方式所涉及的讲话者识别器132b构成的一个例子。图7示出了本实施方式所涉及的讲话者识别器132b具有的讲话者特征量抽取部133b的构成的一个例子。
[0074]
如图6所示，讲话者识别器132b具备讲话者特征量抽取部133b、存储部134b、以及相似度计算部135b。
[0075]
[2.2.1.1讲话者特征量抽取部133b]
[0076]
讲话者特征量抽取部133b，在从讲话数据算出的声学特征量被输入的情况下，从被输入的声学特征量抽取第1讲话者特征量，该第1讲话者特征量能够对该讲话数据所示的讲话声音的讲话者进行确定。更具体而言，讲话者特征量抽取部133b利用进行了学习的dnn，从声学特征量抽取第1讲话者特征量。
[0077]
在本实施方式中，讲话者特征量抽取部133b例如利用x-vector方式来抽取第1讲话者特征量。在此，x-vector方式是指，对被称为x-vector的讲话者固有的特征即讲话者特征量进行计算的方法。更具体而言，如图7所示，讲话者特征量抽取部133b具备帧连接处理部1331以及dnn1332b。
[0078]
[2.2.1.1-1帧连接处理部1331]
[0079]
帧连接处理部1331进行和帧连接处理部121一样的处理，即：帧连接处理部1331连接从预处理部10输出的作为声学特征量的mfcc的多个帧，并输出给dnn1332b的输入层。在图7的示例中，帧连接处理部1331将由每帧24次方特征量所构成的mfcc参数连接成50帧而生成的1200次方的向量，输出给dnn1332b的输入层。
[0080]
[2.2.1.1-2dnn1332b]
[0081]
若多个帧从帧连接处理部1331被输入到dnn1332b，则dnn1332b输出第1讲话者特征量。在图7的示例中，dnn1332b是由输入层、多个中间层、输出层构成的神经网络，是利用被存储在存储部1333b的作为教师数据的教师声音数据进行了学习的神经网络。在图7的示例中，在存储部1333b中存储有由多个讲话者的每一个的声音构成的教师声音数据，在该多个讲话者的每一个中包含了“笑”这一情感。
[0082]
在图7的示例中，输入层例如由1200节点构成，将由每帧24次方特征量构成的mfcc参数连接成50帧而生成的1200次方的向量被输入到该输入层。输出层由对教师数据中包含的与讲话者的数量对应的讲话者标签进行输出的节点构成。另外，多个中间层例如由2至3层构成，其中具有计算第1讲话者特征量的中间层。对第1讲话者特征量进行计算的中间层，对算出的第1讲话者特征量进行输出，以作为dnn1332b的输出。
[0083]
[2.2.1.2存储部134b]
[0084]
存储部134b例如由硬盘驱动器或固态驱动器等可改写的非易失性存储器构成，存储第2讲话者特征量，该第2讲话者特征量是事先登记的登记讲话者固有的特征量，也是从登记讲话者的登记讲话算出的特征量。换而言之，存储部134b存储能够对包含了登记讲话者的一种情感的声音的每一个进行确定的第2讲话者特征量。更具体而言，如图6所示，存储部134b存储包含了登记讲话者的“笑”这一情感的登记讲话的第2讲话者特征量。
[0085]
[2.2.1.3相似度计算部135b]
[0086]
相似度计算部135b计算由讲话者特征量抽取部133b抽取的第1讲话者特征量和存储在存储部134b的事先登记的第2讲话者特征量的相似度。
[0087]
在本实施方式中，相似度计算部135b对由讲话者特征量抽取部133b抽取的第1讲话者特征量和存储在存储部134b的1个以上的登记讲话者的第2讲话者特征量的每一个的相似度进行计算。相似度计算部135b输出表示算出的相似度的分数。
[0088]
例如，相似度计算部135b也可以通过使用在向量空间模型中的内积来计算余弦，将示出第1讲话者特征量和第2讲话者特征量的向量间夹角的余弦距离(也被称为余弦相似度)，作为相似度来计算。在该情况下，向量间夹角的数值越大，则表示相似度越低。另外，作为相似度的计算，相似度计算部135b也可以利用示出第1讲话者特征量的向量和示出第2讲话者特征量向量的内积，来计算负1到1的取值范围的余弦距离。在该情况下，余弦距离的数值越大，则表示相似度越高。
[0089]
另外，因为与“平静”对应的讲话者识别器132a等和与“笑”对应的讲话者识别器132b相同，在此省略说明。
[0090]
[2.2.2识别器选择部131]
[0091]
识别器选择部131按照情感推测器12的推测结果所示的情感，从多个讲话者识别器132中选择一个讲话者识别器132k。更具体而言，识别器选择部131选择在存储部中存储
了如下的第2讲话者特征量的讲话者识别器132k，所述第2讲话者特征量是能够对包含了登记讲话者的一种情感的声音的每一个进行确定的特征量，所述登记讲话者的一种情感与情感推测器12的推测结果示出的情感对应。另外，在没有与情感推测器12的推测结果所示的情感相应的讲话者识别器132的情况下，识别器选择部131也可以不利用任何一个讲话者识别器132(无选择)。
[0092]
如此，识别器选择部131能够根据情感推测器12的推测结果来切换讲话者识别器132。
[0093]
[3.讲话者识别部14]
[0094]
如图2所示，在讲话者识别部14被设置在讲话者识别系统1的情况下，利用由讲话者识别装置11输出的分数，对讲话数据所对应的讲话者进行识别。
[0095]
在本实施方式中，讲话者识别部14基于示出由相似度计算部135b算出的相似度的分数，对讲话数据所对应的讲话者进行识别。例如，讲话者识别部14利用这样的分数，将与第1讲话者特征量最接近的第2讲话者特征量所对应的登记讲话者，作为识别结果来输出。
[0096]
[讲话者识别系统1的工作]
[0097]
接下来，对如以上构成的讲话者识别系统1的工作进行说明。
[0098]
以下，作为讲话者识别系统1的工作，将对具有特征性的工作的讲话者识别装置11的工作进行说明。
[0099]
图8是示出本实施方式所涉及的讲话者识别装置11的工作的概要的流程图。
[0100]
首先，讲话者识别装置11利用进行了学习的dnn，根据从讲话数据算出的声学特征量，对该讲话数据所示的讲话声音中所包含的情感进行推测(s11)。
[0101]
接下来，讲话者识别装置11利用步骤s11推测出的推测结果，根据从讲话数据算出的声学特征量，对用于识别该讲话数据所对应的讲话者的分数进行输出(s12)。
[0102]
(效果等)
[0103]
如上所述，通过本实施方式所涉及的讲话者识别装置11，将推测评价讲话的情感的情感推测器12配置在与每一种情感对应的多个讲话者识别器132的前级，按照情感推测器12的推测结果所示的情感，对讲话者识别器132进行切换。
[0104]
由此，因为能够利用与评价讲话的情感对应的讲话者识别器132，所以能够在登记讲话中包含的情感和评价讲话中包含的情感一致的状态下，对评价讲话的讲话者进行识别。
[0105]
因此，通过本实施方式所涉及的讲话者识别装置11，即使识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度。
[0106]
并且，通过具备本实施方式的讲话者识别装置11的讲话者识别系统1，能够以会议记录系统、通信可视化系统等自由发言为对象，也就是说能够以不是文章朗读等会话中的声音为对象，对该声音的讲话者进行识别。
[0107]
(变形例1)
[0108]
另外，作为对示出识别对象的讲话即含有讲话者情感的讲话声音的讲话数据所对应的讲话者进行识别的方法，并非受上述的实施方式所限，也就是说，并非受将多个讲话者识别器132构成在情感推测器12的后级的方法所限。以下，将与上述实施方式中所说明的方法不同的其他的方法作为变形例1，并以与上述实施方式的不同之处为中心进行说明。
[0109]
[4.讲话者识别装置11a]
[0110]
图9是示出实施方式的变形例1所涉及的讲话者识别装置11a的具体构成的一个例子的方框图。另外，对于与图4等相同的构成赋予相同的符号，在此省略其详细说明。
[0111]
讲话者识别装置11a进行用于识别讲话数据所对应的讲话者的处理，所述讲话数据示出识别对象的讲话声音。更具体而言，讲话者识别装置11a将表示评价讲话的第1讲话者特征量与第3讲话者特征量相似度的分数，作为识别结果进行输出，该第3讲话者特征量是每个登记讲话者的登记讲话的第2讲话者特征量被修改的特征量。
[0112]
如图9所示，本变形例所涉及的讲话者识别装置11a相对于图4所示的讲话者识别装置11而言，其讲话者识别处理部13a的构成有所不同。
[0113]
[4.1讲话者识别处理部13a]
[0114]
讲话者识别处理部13a利用情感推测器12的推测结果，根据从该讲话数据算出的声学特征量，对用于识别该讲话数据所对应的讲话者的分数进行输出。
[0115]
如图9所示，本变形例中的讲话者识别处理部13a具备讲话者特征量抽取部133a、存储部134a、相似度计算部135a、存储部136a、以及修改部137a。
[0116]
[4.1.1讲话者特征量抽取部133a]
[0117]
讲话者特征量抽取部133a从声学特征量中抽取第1讲话者特征量，所述声学特征量是从讲话数据算出的，所述第1讲话者特征量是能够确定该讲话数据所示的讲话声音的讲话者的特征量。
[0118]
在本变形例中，讲话者特征量抽取部133a例如也利用x-vector方式来抽取第1讲话者特征量。为此，讲话者特征量抽取部133a可以和讲话者特征量抽取部133b一样，具备帧连接处理部以及dnn。在本变形例中，作为一种情感，例如利用由包含了“平静”的识别对象的多个讲话者的每一个声音构成的教师声音数据进行了学习。另外，“平静”是情感的一个例子，也可以是“笑”等其他的情感。对于其他示例，由于在上述的实施方式中已进行了说明，在此省略其说明。
[0119]
[4.1.2存储部134a]
[0120]
存储部134a例如由硬盘驱动器或固态驱动器等可改写的非易失性存储器构成，存储第2讲话者特征量，该第2讲话者特征量是被事先登记的第2讲话者特征量，并且是能够对包含了登记讲话者的一种情感的声音的每一个进行确定的特征量。如图9所示，在本变形例中，存储部134a存储包含有登记讲话者的“平静”这一情感的登记讲话中的第2讲话者特征量。另外，“平静”这一情感是一个示例，也可以是“笑”等其他的情感。
[0121]
[4.1.3存储部136a]
[0122]
存储部136a例如由硬盘驱动器或固态驱动器等可改写的非易失性存储器构成，存储用于修改登记讲话包含中的情感的学习数据。在本变形例中，存储在存储部136a的学习数据用于将第2讲话者特征量修改为第3讲话者特征量，该第2讲话者特征量是被存储在存储部134a的“平静”这一情感的特征量，该第3讲话者特征量是与情感推测器12的推测结果所示的情感相应的情感的讲话的讲话者特征量。
[0123]
[4.1.4修改部137a]
[0124]
修改部137a将存储在存储部134a的第2讲话者特征量修改为第3讲话者特征量，该第3讲话者特征量能够对包含有与情感推测器12的推测结果所示的情感相应的情感的声音
的每一个进行确定。
[0125]
例如，将情感推测器12的推测结果所示的情感设定为“笑”。在该情况下，修改部137a利用存储在存储部136a的学习数据，将存储在存储部134a的、包含了登记讲话者的“平静”这一情感的登记讲话的第2讲话者特征量，修改为例如能够对包含“笑”这一情感的声音的每一个进行确定的第3讲话者特征量。也就是说，修改部137a利用存储在存储部136a的学习数据，将存储在存储部134a的“平静”这一情感中的第2讲话者特征量，修改为情感推测器12的推测结果所示的情感中的第3讲话者特征量。
[0126]
[4.1.5相似度计算部135a]
[0127]
相似度计算部135a计算由讲话者特征量抽取部133a抽取的第1讲话者特征量和由修改部137a修改的第3讲话者特征量的相似度，将算出的相似度作为分数来输出。
[0128]
在本变形例中，相似度计算部135a计算由讲话者特征量抽取部133a抽取的第1讲话者特征量和每一个第3讲话者特征量的相似度，该第3讲话者特征量是存储在存储部134a的1个以上的登记讲话者的第2讲话者特征量被修改后的特征量。相似度计算部135a输出表示算出的相似度的分数。
[0129]
[5.讲话者识别部14]
[0130]
讲话者识别部14利用由讲话者识别装置11a输出的分数，对讲话数据所对应的讲话者进行识别。
[0131]
在本变形例中，讲话者识别部14基于由相似度计算部135a算出的相似度所示的分数，对讲话数据所对应的讲话者进行识别。例如，讲话者识别部14利用分数，将与第1讲话者特征量最接近的第3讲话者特征量所对应的第2讲话者特征量的登记讲话者作为识别结果进行输出。
[0132]
(效果等)
[0133]
如上所述，通过本变形例所涉及的讲话者识别装置11a，按照配置在前级的情感推测器12的推测结果，使配置在后级的讲话者识别处理部13a在将登记讲话的情感修改为评价讲话的情感的基础上，对评价讲话的讲话者进行识别。
[0134]
由此，能够在使得登记讲话中包含的情感和评价讲话中包含的情感一致的状态下，也就是说，对登记讲话和评价讲话之间的情感即声音抑扬的不同进行修改，在使其一致的状态下，对评价讲话的讲话者进行识别。
[0135]
因此，通过本变形例所涉及的讲话者识别装置11a，即使识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度。
[0136]
(变形例2)
[0137]
上述实施方式中说明的方法并不限于实施方式以及变形例1中所说明的情况。以下，对与实施方式以及变形例1中所说明的讲话者识别装置的不同构成进行说明。
[0138]
[6.讲话者识别装置11b]
[0139]
图10是示出本实施方式的变形例2所涉及的讲话者识别装置11b的具体构成的一个例子方框图。另外，对于与图4以及图9等相同的构成赋予相同的符号，在此省略其详细说明。
[0140]
讲话者识别装置11b和讲话者识别装置11一样，进行用于识别讲话数据所对应的讲话者的处理，所述讲话数据示出识别对象的讲话声音。更具体而言，讲话者识别装置11b
计算评价讲话的第1讲话者特征量和每个登记讲话者的登记讲话的第2讲话者特征量的相似度。并且，讲话者识别装置11b将对算出的相似度赋予可靠性而得到的分数，作为识别结果进行输出。在本变形例中，对进行加权来用作可靠性的情况进行说明。
[0141]
如图10所示，本变形例所涉及的讲话者识别装置11b相对于图4所示的讲话者识别装置11而言，其讲话者识别处理部13b的构成有所不同。并且，本变形例所涉及的讲话者识别装置11b相对于图9所示的讲话者识别装置11a而言，讲话者识别处理部13b的构成有所不同。
[0142]
[6.1讲话者识别处理部13b]
[0143]
讲话者识别处理部13b利用情感推测器12的推测结果，根据从该讲话数据算出的声学特征量，对用于识别该讲话数据所对应的讲话者的分数进行输出。
[0144]
在此，讲话者识别处理部13b获得的声学特征量，由预处理部10以时间序列且按识别单位，对示出规定期间中的一个讲话者的讲话声音的全部讲话数据进行分割，从而获得多个讲话数据，所述声学特征量是从获得的所述多个讲话数据的每一个中算出的，
[0145]
在本变形例中，如图10所示，讲话者识别处理部13b具备讲话者特征量抽取部133a、存储部134a、相似度计算部135b、以及可靠性赋予部138b。
[0146]
[6.1.1相似度计算部135b]
[0147]
相似度计算部135b，计算由讲话者特征量抽取部133a抽取的第1讲话者特征量和存储在存储部134a的事先登记的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量。
[0148]
在本变形例中，相似度计算部135b计算由讲话者特征量抽取部133a抽取的第1讲话者特征量和存储在存储部134a的1以上的登记讲话者包含了“平静”这一情感的登记讲话中的第2讲话者特征量的相似度。
[0149]
[6.1.2可靠性赋予部138b]
[0150]
可靠性赋予部138b对由相似度计算部135b算出的相似度，赋予与情感推测器12的推测结果所示的情感相应的权重，作为分数进行输出。在此，在一种情感与推测结果所示的情感一致的情况下，可靠性赋予部138b对算出的相似度赋予最大的权重。
[0151]
在本变形例中，可靠性赋予部138b对由相似度计算部135b算出的针对多个讲话数据的每一个的相似度，赋予与如下的情感对应的权重，该情感是针对多个讲话数据的每一个的推测结果示出的情感。可靠性赋予部138b，将多个讲话数据的每一个中进行了加权的相似度，作为针对多个讲话数据的每一个的分数，输出给讲话者识别部14。
[0152]
[7.讲话者识别部14]
[0153]
如图2所示，在讲话者识别部14被设置在讲话者识别系统1的情况下，利用由讲话者识别装置11b输出的分数，对讲话数据所对应的讲话者进行识别。
[0154]
在本变形例中，讲话者识别部14基于由相似度计算部135b输出并表示加权后的相似度的分数，对讲话数据所对应的讲话者进行识别。更具体而言，讲话者识别部14利用总体分数对全部讲话数据所对应的讲话者进行识别，该总体分数是对由可靠性赋予部138b输出的、针对多个讲话数据的每一个的分数进行算术平均而得到的分数。在此，讲话者识别部14利用总体分数中的阈值以上的总体分数，对所述全部讲话数据所对应的讲话者进行识别。并且，讲话者识别部14将识别出的全部讲话数据所对应的讲话者作为识别结果进行输出。
由此，讲话者识别部14能够仅利用可靠性高的总体分数，准确地对与总体分数对应的全部讲话数据所对应的讲话者进行识别。
[0155]
[讲话者识别装置11b的处理的例子]
[0156]
接下来，对如以上构成的讲话者识别装置11b的一个处理例，利用图11来进行説明。
[0157]
图11示出了实施方式的变形例2所涉及的讲话者识别装置的一个处理例。图11的第1级示出了讲话者识别装置11b所获得的全部讲话数据。另外，如以上所述，全部讲话数据是指，一个讲话者在规定期间中的讲话声音被转换后的声音信号，由按识别单位分割而成的讲话数据构成。在图11的示例中，识别单位为3至4秒的间隔，全部讲话数据是12至16秒的声音的声音信号，被分割为4个识别单位的声音信号。以识别单位来分割的全部讲话数据相当于上述的讲话数据。
[0158]
图11的第2级示出了多个讲话数据的每一个在加权前的分数以及推测结果。加权前的分数表示，由讲话者识别装置11b进行计算的、多个讲话数据的每一个的相似度。推测结果是由讲话者识别装置11b针对构成全部讲话数据的多个讲话数据的每一个进行推测而得到的、该讲话数据所示的讲话声音中包含的情感。在图11的示例中，按全部讲话数据的每个识别单位(每个讲话数据)示出了，(分数、情感)分别为：(50、平静)、(50、愤怒)、(50、耳语)、(50、愤怒)。
[0159]
另外，图11的第3级示出了基于推测结果赋予了权重的分数。该分数表示，基于多个讲话数据每一个中的推测结果，而赋予了权重的相似度，即表示多个讲话数据的每一个中的相似度。在图11的示例中，在推测结果所示的情感是“平静”时，赋予了最大权重，按全部讲话数据的每个识别单位(每个讲话数据)分别是：75、25、5、25。另外，在推测结果所示的情感是“平静”时，赋予了最大权重。这是因为讲话者识别装置11b利用包含了登记讲话者的“平静”这一情感的登记讲话的第2讲话者特征量，计算了多个讲话数据每一个中的相似度的缘故。也就是说，与为了得到讲话者识别装置11b在计算相似度时所利用的第2讲话者特征量，而利用的登记讲话中包含的情感越一致，就将针对算出的相似度的可靠性设定得越高，从而赋予越大的权重。
[0160]
图11的第4级示出了总体分数。总体分数是针对全部讲话数据的分数，如上述所述，是针对多个讲话数据的每一个的分数计算而得到的平均数。在图11的示例中，算出的数值为32.5。
[0161]
(效果等)
[0162]
如以上所述，在本变形例所涉及的讲话者识别装置11b中，讲话者识别处理部13b输出通过对如下的相似度赋予基于评价讲话的情感的推测结果的权重而得到的分数，所述相似度是针对评价讲话和登记讲话算出的相似度。另外，讲话者识别处理部13b在推测结果所示的评价讲话中包含的情感与登记讲话中包含的情感越一致时，则将针对算出的相似度的可靠性设定得越高，赋予越大的权重。
[0163]
据此，能够利用可靠性高的分数，在登记讲话中包含的情感与评价讲话中包含的情感接近(相似)的状态下，对评价讲话的讲话者进行识别。
[0164]
因此，通过本变形例所涉及的讲话者识别装置11b，即使识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度。
[0165]
另外，也可以通过确认分数的可靠性，对讲话者识别的结果的可靠性进行确认。
[0166]
(变形例3)
[0167]
在变形例2中说明的情况是，讲话者识别装置11b输出通过针对算出的相似度，赋予可靠性而得到的分数，在此赋予的可靠性是基于评价讲话中包含的情感的推测结果的权重算出的。在变形例3中将要说明的情况是，讲话者识别装置11c对算出的相似度赋予可靠性并进行输出，在此赋予的可靠性是基于评价讲话中包含的情感的推测结果的可靠性(具体是指表示可靠性的附加信息)，以下，对变形例3所涉及的讲话者识别装置11c与在变形例2中説明过的讲话者识别装置11b的不同之处为中心来进行说明。
[0168]
[8.讲话者识别装置11c]
[0169]
图12是示出本实施方式的变形例3所涉及的讲话者识别装置11c的具体构成的一个例子的方框图。另外，对于与图4、图9以及图10等相同的构成赋予相同的符号，在此省略其详细说明。
[0170]
讲话者识别装置11c和讲话者识别装置11b一样，进行用于识别讲话数据所对应的讲话者的处理，所述讲话数据示出识别对象的讲话声音。更具体而言，讲话者识别装置11c计算评价讲话的第1讲话者特征量和每个登记讲话者的登记讲话的第2讲话者特征量的相似度。并且，讲话者识别装置11b将对算出的相似度赋予可靠性(也可以是表示可靠性的附加信息)而得到的分数，作为识别结果进行输出。
[0171]
如图12所示，本变形例所涉及的讲话者识别装置11c相对于图10所示的讲话者识别装置11b而言，其讲话者识别处理部13c的构成有所不同。更具体而言，本变形例所涉及的讲话者识别装置11c相对于图10所示的讲话者识别装置11b而言，不具备可靠性赋予部138b，但具备可靠性赋予部138c的这一点上，构成有所不同。
[0172]
[8.1可靠性赋予部138c]
[0173]
可靠性赋予部138c对由相似度计算部135b算出的相似度赋予与情感推测器12的推测结果所示的情感相应的可靠性，作为分数进行输出。在此，可靠性赋予部138c在一种情感与推测结果所示的情感一致的情况下，则对算出的相似度赋予最高的可靠性。
[0174]
[9.讲话者识别部14]
[0175]
讲话者识别部14利用由讲话者识别装置11c输出的分数，对讲话数据所对应的讲话者进行识别。
[0176]
在本变形例中，讲话者识别部14基于由相似度计算部135b输出的、表示赋予了可靠性的相似度的分数，对讲话数据所对应的讲话者进行识别。例如，讲话者识别部14利用赋予了阈值以上的可靠性的分数，对讲话数据所对应的讲话者进行识别。并且，讲话者识别部14将识别出的讲话数据所对应的讲话者作为识别结果进行输出。据此，讲话者识别部14能够仅利用可靠性高的分数，准确地对与分数对应的讲话数据所对应的讲话者进行识别。
[0177]
(效果等)
[0178]
如以上所述，在本变形例所涉及的讲话者识别装置11c中，讲话者识别处理部13c输出通过对如下的相似度赋予基于评价讲话的情感的推测结果的可靠性的附加信息而得到的分数，所述相似度是针对评价讲话和登记讲话算出的相似度。例如，讲话者识别处理部13c在推测结果所示的评价讲话中包含的情感与登记讲话中包含的情感越一致时，则赋予附加信息以使针对算出的相似度可靠性变得越高。
[0179]
由此，能够通过利用可靠性高的分数，在登记讲话中包含的情感与评价讲话中包含的情感接近(相似)的状态下，对评价讲话的讲话者进行识别。
[0180]
因此，通过本变形例所涉及的讲话者识别装置11c，即使识别对象的讲话中包含了讲话者的情感，也能够提高讲话者的识别准确度。
[0181]
另外，也可以通过确认分数的可靠性，对讲话者识别的结果的可靠性进行确认。
[0182]
(其他实施方式的可能性)
[0183]
以上虽然对实施方式以及变形例等所涉及的讲话者识别装置进行了说明，但是本公开并非受这些实施方式所限。
[0184]
例如，上述实施方式以及变形例等所涉及的讲话者识别装置包括的各处理部可以作为典型的集成电路即lsi来实现。这些也可以个别地被制成一个芯片，也可以将其中的一部分或全部制成一个芯片。
[0185]
另外，集成电路化的方法并不限于lsi，也可以由专用电路或通用处理器来实现。也可以在lsi制造后，利用能够编程的fpga(field programmable gate array：现场可编程门阵列)、或能够重新构成lsi内部的电路单元的连接或设定的可重构处理器。
[0186]
另外，本公开也可以作为由讲话者识别装置执行的讲话者识别方法来实现。
[0187]
另外，上述各实施方式中的各构成要素也可以由专用硬件构成、或通过执行适合各构成要素的软件程序来实现。各构成要素也可以通过由cpu或处理器等的程序执行部读取并执行记录在硬件或半导体存储器等的存储介质的软件程序来实现。
[0188]
另外，方框图中的功能块的分割为一个例子，多个功能块可以作为一个功能块来实现，一个功能块也可以分割为多个，一部分的功能也可以转移到其他的功能块。并且，具有类似功能的多个功能块的功能也可以由单一的硬件或软件进行并行处理或者进行时间分割处理。
[0189]
另外，流程图中各步骤所执行的顺序是为了具体说明本公开的示例，也可以是上述以外的顺序。并且，上述步骤的一部分也可以和其他步骤同时(并行)执行。
[0190]
以上虽然基于实施方式以及变形例等对本公开一个或多个方式所涉及的讲话者识别装置进行了说明，但是本公开并非受这些实施方式以及变形例所限。在不脱离本公开的主旨的范围内，将本领域技术人员所能够想到的各种变形执行于各个实施方式以及变形例而得到的形态、以及对不同的实施方式以及变形例中的构成要素进行组合而构成的形态，均包括在本公开的一个或多个形态之内。
[0191]
本公开能够用于讲话者识别装置、讲话者识别方法、以及程序，能够以例如会议记录系统、通信可视化系统等包含情感的自由讲话为对象，利用讲话者识别装置、讲话者识别方法、以及程序对该自由讲话的讲话者进行识别。
[0192]
符号说明
[0193]
1 讲话者识别系统
[0194]
10 预处理部
[0195]
11、11a、11b、11c 讲话者识别装置
[0196]
12 情感推测器
[0197]
13、13a、13b、13c 讲话者识别处理部
[0198]
14 讲话者识别部
[0199]
101 声音获取部
[0200]
102 声学特征量计算部
[0201]
121、1331 帧连接处理部
[0202]
122、1332b dnn
[0203]
123、134a、134b、136a、1333b 存储部
[0204]
131 识别器选择部
[0205]
132、132a、132b 讲话者识别器
[0206]
133a、133b 讲话者特征量抽取部
[0207]
135a、135b、135b 相似度计算部
[0208]
137a 修改部
[0209]
138b、138c 可靠性赋予部

技术特征：

1.一种讲话者识别装置，对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别装置具备：情感推测器，利用进行了学习的深度神经网络，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理部，利用所述情感推测器的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。2.如权利要求1所述的讲话者识别装置，所述讲话者识别处理部具备多个讲话者识别器以及识别器选择部，所述多个讲话者识别器的每一个具有讲话者特征量抽取部以及相似度计算部，所述讲话者特征量抽取部在所述声学特征量被输入的情况下，从被输入的所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定，所述相似度计算部计算由所述讲话者特征量抽取部抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量，所述识别器选择部从所述多个讲话者识别器中选择一个讲话者识别器，被选择的所述一个讲话者识别器是在所述存储部中存储了能够对如下的声音的每一个进行确定的第2讲话者特征量的讲话者识别器，所述声音的每一个是与所述推测结果所示的情感相对应的、包含了所述登记讲话者的一种情感的声音，由所述识别器选择部选择的讲话者识别器，通过被输入从所述讲话数据算出的声学特征量，来计算所述相似度，并作为所述分数输出。3.如权利要求1所述的讲话者识别装置，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；修改部，将存储在存储部的第2讲话者特征量修改为第3讲话者特征量，该第2讲话者特征量能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定，该第3讲话者特征量能够对包含了与所述推测结果所示的情感相应的所述一种情感的声音的每一个进行确定；以及相似度计算部，计算抽取的所述第1讲话者特征量和由所述修改部修改的第3讲话者特征量的相似度，将算出的相似度作为所述分数来输出。4.如权利要求1所述的讲话者识别装置，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；相似度计算部，计算抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量；以及可靠性赋予部，对算出的所述相似度赋予与所述推测结果所示的情感相应的权重，作
为所述分数进行输出，所述可靠性赋予部在所述一种情感与所述推测结果所示的情感一致的情况下，对算出的所述相似度赋予最大权重。5.如权利要求4所述的讲话者识别装置，所述声学特征量是如下这样被算出的，即：由预处理部以时间序列且按识别单位，对示出规定期间中的一个讲话者的讲话声音的全部讲话数据进行分割，从而获得多个讲话数据，所述声学特征量是从获得的所述多个讲话数据的每一个中算出的，所述可靠性赋予部对所述相似度赋予权重，作为所述分数进行输出，所述相似度是由所述相似度计算部算出的、针对所述多个讲话数据的每一个的相似度，所述权重是与由所述情感推测器推测出的、针对所述多个讲话数据的每一个的所述推测结果所示的情感相应的权重。6.如权利要求5所述的讲话者识别装置，所述讲话者识别装置进一步具备讲话者识别部，所述讲话者识别部利用总体分数对所述全部讲话数据所对应的讲话者进行识别，所述总体分数是对由所述可靠性赋予部输出的、针对所述多个讲话数据的每一个的所述分数进行算术平均而得到的分数，所述讲话者识别部利用所述总体分数中的阈值以上的总体分数，对所述全部讲话数据所对应的讲话者进行识别。7.如权利要求1所述的讲话者识别装置，所述讲话者识别处理部具备：讲话者特征量抽取部，从所述声学特征量中抽取第1讲话者特征量，该第1讲话者特征量能够对所述讲话数据所示的所述讲话声音的讲话者进行确定；相似度计算部，计算抽取的所述第1讲话者特征量和存储在存储部的第2讲话者特征量的相似度，并且，该第2讲话者特征量是能够对包含了作为识别对象的登记讲话者的一种情感的声音的每一个进行确定的特征量；以及可靠性赋予部，对算出的所述相似度赋予与所述推测结果所示的情感相应的可靠性，作为所述分数进行输出。8.如权利要求7所述的讲话者识别装置，所述讲话者识别装置进一步具备讲话者识别部，所述讲话者识别部利用所述可靠性为阈值以上的所述分数，对所述讲话数据所对应的讲话者进行识别。9.如权利要求2至8的任一项所述的讲话者识别装置，所述讲话者特征量抽取部利用进行了学习的深度神经网络，从所述声学特征量中抽取所述第1讲话者特征量。10.一种讲话者识别方法，对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别方法包括如下步骤：情感推测步骤，利用进行了学习的深度神经网络，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理步骤，利用所述情感推测步骤中的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。11.一种程序，该程序使计算机执行讲话者识别方法，该讲话者识别方法对示出识别对
象的讲话声音的讲话数据所对应的讲话者进行识别，所述讲话者识别方法包括如下步骤：情感推测步骤，利用进行了学习的深度神经网络，根据从所述讲话数据算出的声学特征量，对所述讲话数据所示的所述讲话声音中包含的情感进行推测；以及讲话者识别处理步骤，利用所述情感推测步骤中的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别所述讲话数据所对应的讲话者的分数进行输出。

技术总结

本公开的讲话者识别装置是对示出识别对象的讲话声音的讲话数据所对应的讲话者进行识别的讲话者识别装置(11)，具备：情感推测器(12)，利用进行了学习的DNN(Deep Neural Network：深度神经网络)，根据从讲话数据算出的声学特征量，对讲话数据所示的讲话声音中包含的情感进行推测；以及讲话者识别处理部(13)，利用情感推测器(12)的推测结果，根据从所述讲话数据算出的所述声学特征量，对用于识别该讲话数据所对应的讲话者的分数进行输出。别该讲话数据所对应的讲话者的分数进行输出。别该讲话数据所对应的讲话者的分数进行输出。