用于识别说话者的方法与流程


用于识别说话者的方法
1.本发明总体上涉及基于人的语音对人进行识别的领域。
2.特别有利地,本发明适用于识别机动车辆的用户。
3.更特别地,本发明涉及一种用于通过包括计算机存储器的计算机从一组说话者中识别特定说话者的方法,该计算机存储器中记录有与所述组中的说话者之一相关联的至少一个参考语音签名,该方法包括以下步骤:
[0004]-获取由该特定说话者产生的识别语音信号
[0005]-根据所述识别语音信号来构建识别语音签名,
[0006]-将所述识别语音签名与记录在该计算机存储器中的该至少一个参考语音签名进行比较,以及
[0007]-根据所述比较的结果来识别该特定说话者。
[0008]
本发明还涉及一种用于在计算机存储器中记录新的说话者的方法。
[0009]
最后,本发明涉及一种机动车辆,该机动车辆包括实施这两种方法中的一种方法和/或另一种方法所需的技术手段。
[0010]
已知的做法是,使用唤醒短语使电子设备离开待机状态,以便进而能够控制特定的功能。唤醒短语的一个示例为“你好,谷歌”。该短语可以使设备离开待机状态,以便该设备进而能够执行特定的动作(搜索问题答案、打开灯等)。
[0011]
选择的这些唤醒短语要特别地简短,以便说话者快速发音。
[0012]
困难之一是,说话者发出该短语的语速往往很快,并且有时会有截断。于是,发现在使用设备检测该短语时存在困难。
[0013]
因此,应理解,仅基于该唤醒短语是不可能可靠地识别说话者的。
[0014]
现在,特别是在汽车领域中,期望能够识别产生语音命令的乘客,以便例如确保这些乘客是否被授权产生这些命令。通过示例的方式,期望能够确保下令完全打开其车窗的乘客是被授权这样做的。
[0015]
在语音生物识别特征领域已知的用于对人进行识别的一种解决方案包括要求其产生一个较长的短语,诸如“我的语音是密码”。通过该短语的长度,则证明可以从系统中已经记录的各个说话者中识别该说话者。
[0016]
这些短语的缺点是,由于其长度很长,因此证明其发音太麻烦,而无法经常使用。
[0017]
为了弥补现有技术的上述缺点,本发明提出使用简短的短语,然后通过计算且以用户无法察觉的方式丰富这些短语,以便能够高度可靠地识别产生短语的任何人。
[0018]
更特别地,根据本发明,提出了一种如在引言中定义的识别方法,其中规定,在上游,记录在计算机存储器中的至少一个参考语音签名是根据记录的语音信号和预定扩展信号确定的,并且其中,在构建步骤之前,规定了生成包括所述识别语音信号和所述预定扩展信号的完整信号的步骤,并且其中,在构建步骤中,识别语音签名也是根据所述扩展信号构建的。
[0019]
记录的语音信号可以将说话者记录在计算机应用中。该信号与扩展信号混合,然后进行处理,以便从中推断出记录的语音签名。
[0020]
在识别方法期间,说话者再次产生识别语音信号,该识别语音信号与同一扩展信号混合,然后进行处理,以便从中推断出识别语音签名。
[0021]
然后将该识别语音签名与记录在应用的存储器中的所有记录的语音签名进行比较,以便能够到说话者是谁。
[0022]
因此,对通过扩展信号丰富的语音签名进行比较。
[0023]
换言之,通过本发明,所使用的语音信号可以是一个较短的短语,只要该短语之后通过扩展信号被延长,这就使其可以成为一个较长的短语,从而确保从记录在系统中的说话者中更好地识别说话者。
[0024]
该解决方案的一个优点是其对于用户而言比较轻松,因为用户像之前一样,希望说出较短的短语。
[0025]
该解决方案的另一个优点是其可以更好地确保计算机安全性。特别地,如果黑客设法获得所记录用户的语音记录,他们将无法对记录做任何事情,因为他们不知道为了成功识别而必须添加到语音信号的扩展信号。
[0026]
又另一优点是该解决方案确保了对外部寄生噪声具有更好的稳健性,因为添加的扩展信号是没有噪声的并因此降低了用于进行识别的完整信号的总体噪声水平。
[0027]
以下是根据本发明的识别方法的其他有利的和非限制性的特征,这些特征单独地或以任何技术上可行的组合加以考虑:
[0028]-该计算机存储器包括分别与所述组中的多个说话者相关联的多个参考语音签名,该扩展信号与这些说话者之一相关联并且不同于与其他说话者相关联的扩展信号,所述存储器存储有每个扩展信号以便与这些说话者之一相关联;
[0029]-在该生成步骤中,该计算机至少生成与所述组中的说话者一样多的完整信号,每个完整信号包括所述识别语音信号以及记录在所述存储器中的所述扩展信号之一;
[0030]-在该构建步骤中,该计算机为每个完整信号构建识别语音签名;
[0031]-在该比较步骤中,该计算机将每个识别语音签名与记录在该存储器中的每个参考语音签名进行比较,以便从中推断出分数;
[0032]-在该识别步骤中,考虑推断出的分数来识别该特定说话者;
[0033]-该完整信号是通过在所述识别语音信号之前和/或之后附加该扩展信号来构建的;
[0034]-该扩展信号是频率介于50至650hz之间、且优选地介于100至500hz之间的至少一个正弦波之和的函数;
[0035]-该扩展信号是由可参数化函数与观察窗口函数的乘积产生的,所述可参数化函数优选地是振幅调制和/或频率调制的;
[0036]-该扩展信号的最大振幅小于或等于该识别语音信号的最大振幅,并且优选地小于或等于该识别语音信号的最大振幅的80%;
[0037]-所述至少一个扩展信号的最大长度小于或等于该完整信号的总长度的三分之一,并且优选地等于该完整信号的总长度的20%;
[0038]-该识别语音信号包括数量小于或等于四的音节。
[0039]
本发明还涉及一种用于通过包括计算机存储器的计算机来记录特定说话者的方法,该方法包括以下步骤:
[0040]-获取由该特定说话者产生的记录的语音信号,
[0041]-确定扩展信号,
[0042]-生成包括所述记录的语音信号和该扩展信号的记录的完整信号,
[0043]-根据该记录的完整信号来确定参考语音签名,以及
[0044]-将所述参考语音签名存储在所述存储器中以便与该特定说话者相关联。
[0045]
本发明还涉及一种机动车辆,该机动车辆包括乘客舱、用于获取由位于乘客舱中的特定说话者产生的语音信号的装置、以及被编程为实施上述方法中的一个和/或其他方法的计算单元。
[0046]
当然,本发明的各种特征、变体和实施例可以以各种组合相互关联,只要它们不是相互排斥或互不兼容的即可。
[0047]
参照附图,以下通过非限制性示例给出的描述将使得本发明包括的内容以及可以如何实施本发明相当清楚。
[0048]
在附图中:
[0049]
图1是展示了可以在根据本发明的方法的上下文中使用的可参数化函数的曲线图;
[0050]
图2是展示了可以在根据本发明的方法的上下文中使用的观察窗口函数的曲线图;
[0051]
图3是展示了可以在根据本发明的方法的上下文中使用的扩展函数的曲线图;
[0052]
图4是展示了包括图3的扩展函数的完整信号的曲线图;
[0053]
图5是展示了根据本发明的识别方法的一种实施方式的图。
[0054]
本发明可以在任何类型的设备上实施。
[0055]
在这里将描述的示例中,本发明将在机动车辆中实施,并且更特别地在可以容纳若干用户(驾驶员和乘客)的汽车中实施。
[0056]
该机动车辆将采用传统的形式。
[0057]
因此,该车辆包括为用户界定了乘客舱的底盘。
[0058]
该车辆还包括语音信号获取装置。这些获取装置例如以麦克风的形式布置在机动车辆中,以便能够记录由机动车辆内各个乘客产生的短语。
[0059]
机动车辆还包括连接至麦克风的计算机,并且该计算机形成以特定方式被编程的信息处理系统,以实施本发明。
[0060]
更特别地,该计算机包括至少一个处理器、一个存储器、各种输入和输出接口、以及人机接口。
[0061]
该计算机通过其存储器存储有由包括指令的计算机程序组成的计算机应用,该处理器执行这些指令使得计算机能够实施下文描述的方法。
[0062]
该计算机通过其输入接口可以读取由麦克风获取的数据。
[0063]
该计算机通过其输出接口可以下令实施机动车辆的某些功能,诸如例如,打开车窗或启动发动机。
[0064]
人机接口可以采用各种形式。这里将考虑,具有触摸屏和位于车辆乘客舱中的说话者。
[0065]
如将在本披露内容的剩余部分中确实描述的,本发明主要涉及基于由说话者用声
音产生的短语来识别说话者。
[0066]
这里,“短语”意指构成一个固定短语的一组词。在实践中,这意指预定义的关键词。
[0067]
在将考虑的示例中,说话者将是车辆的驾驶员,但作为变体可以是任何其他乘客。
[0068]
根据本发明,只要事先已经将说话者记录在信息处理系统上就可以识别说话者。
[0069]
识别说话者的过程特别地包括从事先已经记录的一组车辆用户中确定哪一个用户正在产生短语。
[0070]
因此,在本披露内容的第一部分,将描述可以将驾驶员记录在系统上的方式。本披露内容的第二部分就其本身而言将涉及到对驾驶员本身的识别。
[0071]
记录过程在若干连续的步骤中执行。其旨在可以生成与说话者相关联的语音签名。
[0072]
对于驾驶员,这里的第一步骤包括通过借助触摸屏在计算机应用中选择对应的菜单来启动该过程。
[0073]
一旦过程已经启动,计算机就通过人机接口生成请求,该请求包括要求驾驶员发音或甚至优选地将同一预定短语重复若干次。
[0074]
该短语优选地在计算机应用被设计为满足两个标准时被选择。
[0075]
第一个标准是理解标准。
[0076]
为了使计算机能够检测到驾驶员说出该短语的每个时刻,该短语必须有声音。换言之,该短语必须包括低频音调。因此,短语将被选择为使得其包括尽可能多的元音。
[0077]
第二个标准是时间标准。
[0078]
特别地,该短语必须快速说出,以便驾驶员可以容易且快速地说出该短语,而不会让他们感到麻烦。当该短语包括三或四个音节时,则满足该标准。这样,可以在小于一秒的时段内说出该短语。
[0079]
这里选择的短语为“你好,雷诺”。
[0080]
在记录过程期间,计算机记录一个较长的语音信号,然后当说出该短语时该较长的语音信号被分割成对应于三个时刻的三个语音信号。然后,这三个语音信号被组合成一个单个的记录的语音信号s41,该语音信号被认为形成了驾驶员说出短语的特征示例。
[0081]
计算机可以通过使用本领域技术人员公知的传统处理过程从该记录的语音信号s41中推断出基础语音签名,这在下文中将被称为“声学指纹生成过程”。
[0082]
该过程可以简明扼要地描述为以下方式。
[0083]
该过程首先包括声学分析,该声学分析包括从记录的语音信号中提取相关信息和特征信息。为此目的,在固定长度的信号块上,在规则的时间间隔内(也就是说,在连续的观察窗口内)计算多组声学系数。这几组系数一起构成了一个声学矩阵,该声学矩阵形成表征驾驶员语音的数字签名。
[0084]
例如,每组系数是使用信号能量谱密度对数的离散余弦变换来计算的。特别地,由这种分析产生的倒谱系数确实表征频谱的形状。
[0085]
在这种实例中,所使用的倒谱系数为mfcc(梅尔频率倒谱系数)。特别地,这些倒谱系数具有彼此之间弱相关的优点。
[0086]
此外,该过程在这里通过梅尔滤波器组滤波完成,这可以突出发音的丰富性。
[0087]
因此,声学指纹生成过程可以根据记录的语音信号s41生成表征驾驶员语音的基础语音签名。
[0088]
根据本发明,一旦已经获得了该基础语音签名,计算机就将寻求计算另一个语音签名,被称为扩展的语音签名。
[0089]
想法是,仅短语“你好,雷诺”太短,以至于仅使用基础语音签名无法从记录的若干用户中稳健地识别说话者。尤其是当驾驶员受特定病理状态(疾病、情绪、疲劳等)的影响、当声音记录条件不佳(环境噪声等)、或当驾驶员未理解就发出了短语(截断词等)时,尤为如此。
[0090]
为了获得扩展的语音签名,计算机首先确定扩展信号。
[0091]
该扩展信号旨在被附加至记录的语音信号以延长该语音信号的长度,从而能够获得一个完整信号,该完整信号将能够通过声学指纹生成过程进行处理,以生成扩展的语音签名。
[0092]
该扩展信号与驾驶员相关联。因此,该扩展信号被选择是为了与记录在系统中的其他说话者已经使用的扩展信号不同。
[0093]
该扩展信号由可参数化函数s1(t)产生,图1中展示了该可参数化函数的一个示例。
[0094]
该可参数化函数s1(t)优选地是频率介于100至500hz之间的至少一个正弦波之和。
[0095]
在这里描述的实施例中,该可参数化函数s1(t)的表示形式如下:
[0096][0097]
在该方程中,可调参数为:
[0098]-m:正弦波的数量,
[0099]-ai:每个正弦波的振幅,
[0100]-fi:每个正弦波的频率,以及
[0101]-每个正弦波的相位。
[0102]
该函数优选地是振幅调制(则ai为时间t的函数)和/或频率调制的(则fi为时间t的函数)。
[0103]
为创建扩展信号而选择的这组参数被选择为使得与各个说话者相关联的扩展信号彼此截然不同。
[0104]
可以认为,当至少一个20hz的步长将两个频率中的每一个分离时,两个扩展信号在频率上彼此不同。
[0105]
可以认为,当至少一个π/4弧度的步长将两个相位中的每一个分离时,两个扩展信号在相位上彼此不同。可以认为振幅接近于1,以便在频率(能量)方面最大化扩展信号的存在。
[0106]
这些多组参数可以由计算机随机选择,在这种情况下,计算机然后将检查这些参数是否确实满足上述差异性条件。
[0107]
作为变体,多组参数可以是预定的并记录在计算机存储器中,在这种情况下,计算
机将能够在每次记录新的说话者时进入其存储器并在其中搜索尚未被使用的一组新参数。
[0108]
在图1展示的示例中,使用以下这组参数:
[0109]
m=3
[0110][0111][0112][0113]
然后修改所获得的可参数化函数s1(t),使得一旦附加至记录的语音信号s41,在曲线之间的交界处不会出现不连续的情况。
[0114]
为此目的,规定了计算该可参数化函数s1(t)与图2展示的预定观察窗口函数(s2(t))的乘积。
[0115]
这里的观察窗口函数(s2(t))是变迹函数。可以确保可参数化函数s1(t)与观察窗口函数(s2(t))的乘积在所考虑的时间窗口开始和结束时取零值。
[0116]
在这里描述的示例中,观察窗口函数(s2(t))的方程如下。
[0117][0118]
在该方程中:
[0119]-x是相对于所考虑的时间窗口长度而归一化的时间段,并且
[0120]-r是余弦加权系数,这里被选择为等于0.25。
[0121]
然后,扩展信号s3被选择为等于可参数化信号s1与该观察窗口函数s2的乘积。这如图3所示。
[0122]
在此阶段,应当注意,扩展信号s3被参数化,使得其最大振幅小于或等于记录的语音信号的最大振幅的80%,并且使得附加至记录的语音信号s41的一个或多个扩展信号的总长度不超过完整信号的总长度的20%。
[0123]
然后通过将扩展信号s3附加至记录的语音信号的开头和/或结尾来获得该完整信号。这里,该扩展信号附加至语音信号的开头和结尾。
[0124]
图4中示出了如此获得的完整信号s4。可以在其中观察到,该完整信号包括两个相同的信号s31、s32,这两个相同的信号将记录的语音信号s41包括在内并且对应于扩展信号s3。
[0125]
还可以在其中观察到,记录的语音信号s41包括四个部分s42、s43、s44和s45,其对应于短语“你好,雷诺”的四个音节。
[0126]
在此阶段,通过声学指纹生成过程处理完整信号s4,以便获得扩展的语音签名。
[0127]
然后,将该扩展的语音签名、基础语音签名以及所使用的扩展信号s3存储在计算机的计算机存储器中,以便与驾驶员相关联。
[0128]
该关联可以采用各种形式。
[0129]
因此,这些各种元素可以简单地存储在一个记录中,该记录存储有驾驶员访问权
限(打开车窗的权限、要求启动发动机的权限等)。
[0130]
这里,更确切地说,将认为,基础语音签名、扩展的语音签名和扩展信号s3被记录在数据库中一个记录的三个字段中。该记录进一步包括存储(事先在触摸屏上输入的)驾驶员姓名的第四字段、以及存储(由驾驶员从触摸屏上显示的菜单中选择的)驾驶员访问权限的第五字段。还可以设想任何其他变体。
[0131]
在任何情况下,在若干连续的记录过程结束时,计算机存储了n个语音签名三元组的闭集(每个三元组包括一个基础语音签名、与记录的n个说话者之一相关联的一个扩展的语音签名、以及一个相关联的扩展信号s3)。在记录过程结束时存储在计算机存储器中的扩展的语音签名被称为参考语音签名。在记录过程结束时存储在计算机存储器中的基础语音签名被称为参考语音签名。
[0132]
替代性地,为了在计算机的计算机存储器中获得空间,可以存储基础语音签名和参数,从而可以重构一个扩展的语音签名。
[0133]
现在可以描述用于识别驾驶员的方法是如何实施的。
[0134]
为此目的,可以描述两种不同的实施例。
[0135]
图5中展示了第一实施例。
[0136]
当机动车辆的车门已解锁时,计算机被供应有电流,并且该计算机进入待机状态(步骤e1)。在该状态下,计算机需要处理从麦克风接收的数据。
[0137]
因此,通过开始识别方法的步骤e2,驾驶员口头说出约定的短语(这里为“你好,雷诺”),并且计算机可以检测到该短语。然后,计算机将由麦克风捕获的且包含该短语的新语音信号记录在其存储器中。该新的语音信号为识别语音信号。
[0138]
该新的语音信号的长度被调整为说出该短语所需的时间。
[0139]
通过步骤e31,计算机将新的语音信号附加至其存储器中记录的n个扩展信号中的第一个扩展信号,即,与所记录的第一个说话者相关联的且存储在其数据库的第一个记录中的扩展信号。这一操作是以与在记录过程中相同的方式来执行的,这里即,在新的语音信号之前和之后附加扩展信号。
[0140]
然后,通过步骤e41,计算机确定新的扩展的语音签名。该新的扩展的语音签名是识别语音签名。正是为此目的,基于在步骤e31中获得的完整信号,对该完整信号应用声学指纹生成过程。
[0141]
最终,通过步骤e51,计算机将该扩展的语音签名与存储在其数据库中的第一记录中的扩展的语音签名进行比较。换言之,计算机将识别语音签名与参考语音签名进行比较。
[0142]
该比较步骤是以本身已知的方式来执行的,即,比较这两个签名的多组声学系数。该比较可以确定分数,这里该分数越高,这两个签名的多组声学系数就越接近。
[0143]
利用存储在与记录的n个说话者相关联的数据库中的n个记录中的数据,将这三个步骤e31、e41和e51在这里重复n次(参见图5中的步骤e32…
e3n、e42…
e4n、以及e52…
e5n)。
[0144]
计算机因此获得与其存储器中记录的说话者一样多的分数。
[0145]
一旦已经计算出这些分数,通过步骤e6,计算机就将所有这些分数进行比较,并且选择最高的分数。该最大分数与记录的说话者之一(在下文中称为所选说话者)相关联。
[0146]
在此阶段,计算机可能得出如下结论:驾驶员与所选说话者一致。
[0147]
然而,为了更安全,通过步骤e7,计算机将该最大分数与预定阈值进行比较。
[0148]
如果该最大分数低于预定阈值,则通过步骤e8,计算机在触摸屏上显示或向说话者传输消息,向驾驶员指示这些说话者尚未被识别。特别地,该分数被认为不足以足够可靠地识别所选说话者是否确实与驾驶员一致。在这种情况下,建议记录驾驶员或使驾驶员重新说出该短语。
[0149]
在相反的情况下,通过步骤e9,计算机认为最大分数足够高,从而足够可靠地认为所选说话者确实与驾驶员一致。在这种情况下,驾驶员确实已被识别。然后他们可以产生指令,诸如打开车窗或启动发动机的命令。然后,在驾驶员的访问权限允许的情况下,将遵循这些指令。
[0150]
现在可以描述识别方法的第二实施例。
[0151]
在该第二实施例中,步骤e1和e2与上述那些步骤相同,并且参照图5进行描述。
[0152]
然而,在步骤e2结束时,规定了,计算机在考虑到驾驶员刚刚已产生的新语音信号的情况下继续计算基础语音签名。该基础语音签名是识别基础语音签名。
[0153]
然后,计算机将该识别基础语音签名与计算机的存储器中记录的参考基础语音签名中的每一个进行比较。为此目的,计算机以与上述相同的方式继续进行,这使得计算机可以获得n个分数。
[0154]
然后,如果获得的最大分数高于第一预定阈值,则计算机可以认为驾驶员已经被识别(步骤e9)。
[0155]
相反,如果最大分数低于第二预定阈值,则计算机可以认为驾驶员尚未被识别并且驾驶员将无法被识别(步骤e8)。
[0156]
如果最大分数介于这两个阈值之间,则计算机可以尝试对驾驶员进行识别,即,然后如在第一实施例中那样继续进行,不再基于基础语音信号而是基于扩展的语音信号。为此目的,计算机可以实施步骤e31以及以下描述的第一实施例的步骤。
[0157]
本发明决不限于所描述和示出的实施例,但是本领域技术人员将能够向其添加符合本发明的任何变体。
[0158]
特别地,可以规定,与说话者相关联的签名不是由如上文已经描述的一组声学系数形成的,而是由任何其他元素形成的。通过示例的方式,说话者的语音签名可以由记录的语音信号本身(由原始信号或由例如为了移除寄生噪声而可能已经经过再处理的信号)形成。
[0159]
作为另一变体,扩展信号可以不直接附加至由麦克风记录的语音信号的开头或结尾,但是可以规定,在扩展信号与语音信号之间留出空闲时间间隔。应当注意,优选地,这两个信号将不会完全或部分地重叠,因为重叠的后果是将会降低结果的可靠性。
[0160]
作为另一变体,记录在数据库中的各个说话者所使用的扩展信号可能是相同的,但是这里,这样的后果是将会进一步降低结果的可靠性。

技术特征:


1.一种用于通过包括计算机存储器的计算机从一组说话者中识别特定说话者的方法,该计算机存储器中记录有与所述组中的说话者之一相关联的至少一个参考语音签名,该方法包括以下步骤:-获取由该特定说话者产生的识别语音信号(s41),-根据所述识别语音信号(s41)来构建识别语音签名,-将所述识别语音签名与记录在该计算机存储器中的该至少一个参考语音签名进行比较,以及-根据所述比较的结果来识别该特定说话者,其特征在于,记录在该计算机存储器中的该至少一个参考语音签名是根据记录的语音信号和预定扩展信号(s31,s32)确定的,其特征在于,在该构建步骤之前,规定生成包括所述识别语音信号(s41)和所述预定扩展信号(s31,s32)的完整信号(s4)的步骤,并且其特征在于,在该构建步骤中,该识别语音签名也是根据所述扩展信号(s31,s32)构建的。2.如前一项权利要求所述的识别方法,其中,该计算机存储器包括分别与所述组中的多个说话者相关联的多个参考语音签名,该扩展信号(s31,s32)与这些说话者之一相关联并且不同于与其他说话者相关联的扩展信号,所述存储器存储有每个扩展信号以便与这些说话者之一相关联。3.如前一项权利要求所述的识别方法,其中:-在该生成步骤中,该计算机至少生成与所述组中的说话者一样多的完整信号(s4),每个完整信号(s4)包括所述识别语音信号(s41)以及记录在所述存储器中的所述扩展信号(s31,s32)之一,-在该构建步骤中,该计算机为每个完整信号(s4)构建识别语音签名,-在该比较步骤中,该计算机将每个识别语音签名与记录在该存储器中的每个参考语音签名进行比较,以便从中推断出分数,并且-在该识别步骤中,考虑推断出的分数来识别该特定说话者。4.如前述权利要求之一所述的识别方法,其中,该完整信号(s4)是通过在所述识别语音信号(s41)之前和/或之后附加该扩展信号(s31,s32)来构建的。5.如前述权利要求之一所述的识别方法,其中,该扩展信号(s31,s32)是频率介于50至650hz之间、且优选地介于100至500hz之间的至少一个正弦波之和的函数。6.如前述权利要求之一所述的识别方法,其中,该扩展信号(s31,s32)是由可参数化函数(s1)与观察窗口函数(s2)的乘积产生的,所述可参数化函数(s1)优选地是振幅调制和/或频率调制的。7.如前述权利要求之一所述的识别方法,其中:-该扩展信号(s31,s32)的最大振幅小于或等于该识别语音信号(s41)的最大振幅,并且优选地小于或等于该识别语音信号(s41)的最大振幅的80%,和/或-所述至少一个扩展信号(s31,s32)的最大长度小于或等于该完整信号(s4)的总长度的三分之一,并且优选地等于该完整信号(s4)的总长度的20%。8.如前述权利要求之一所述的识别方法,其中,该识别语音信号(s41)包括数量小于或
等于四的音节。9.一种用于通过包括计算机存储器的计算机来记录特定说话者的方法,该方法包括以下步骤:-获取由该特定说话者产生的记录的语音信号,-确定扩展信号,-生成包括所述记录的语音信号和该扩展信号的记录的完整信号,-根据该记录的完整信号来确定参考语音签名,以及-将所述参考语音签名存储在所述存储器中以便与该特定说话者相关联。10.一种机动车辆,包括乘客舱、用于获取由位于该乘客舱中的特定说话者产生的语音信号的装置、以及被编程为实施根据前述权利要求之一所述的方法的计算单元。

技术总结


本发明涉及一种用于通过包括计算机存储器的计算机从一组说话者中识别特定说话者的方法,该计算机存储器中存储有语音签名,每个语音签名与所述组中的说话者之一相关联,该方法包括以下步骤:-获取由特定说话者产生的语音信号(S41),-根据所述语音信号来构建新的语音签名,-将所述新的语音签名与存储在计算机存储器中的语音签名中的至少一个进行比较,以及-根据所述比较的结果来识别特定说话者。根据本发明,在构建步骤之前,规定了生成包括所述语音信号和至少一个预定扩展信号(S31,S32)的完整信号(S4)的步骤,并且在构建步骤中,规定了新的语音签名也是根据每个扩展信号来构建的。建的。建的。


技术研发人员:

N

受保护的技术使用者:

雷诺股份公司

技术研发日:

2021.03.02

技术公布日:

2023/3/21

本文发布于:2024-09-23 11:13:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/79118.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   语音   说话   计算机
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议