首页 > 专利技术

设备运维管理的人工智能黑科技：声纹识别

设备运维管理的⼈⼯智能⿊科技：声纹识别

国家电⽹公司在⼈⼯智能⽅向上研究攻关⼀直是重点投⼊，设备运维管理是⼈⼯智能应⽤的核⼼领域之⼀，涉及图像识别、视频分析、声纹识别、知识图谱、数据智能等多个⽅⾯。

声纹识别可以解决那些⽅⾯的问题呢？变电设备异常⼯况的诊断检测，如：变压器、电抗器、断路器、隔离开关等主设备内部不可见缺陷的准确诊断识别，此外绕组变形、偏磁异常、内部放电等⽅⾯的诊断也在探索研究。

那声纹识别到底是怎么回事呢？

同属于⽣物识别技术，与⽕爆的⼈脸识别相⽐，声纹识别表现得很低调，然⽽这并不影响这

⼀⿊科技魅⼒的散发，本⽂将带你认识⼀下声⾳⿊科技-声纹识别，让你了解真正的“闻声识

⼈”。

本⽂将从如下⽅⾯为你⼀⼀解读：

什么是声纹？

声纹识别的原理

声纹识别算法的技术指标

影响声纹识别⽔平的因素

声纹识别的应⽤流程

声纹识别的应⽤场景

降弓⼀、什么是声纹？

声纹(Voiceprint)，是⽤电声学仪器显⽰的携带⾔语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的⽣物特征，具有稳定性、可测量性、唯⼀性等特点。

⼈类语⾔的产⽣是⼈体语⾔中枢与发⾳器官之间⼀个复杂的⽣理物理过程，发声器官--⾆、⽛齿、喉头、肺、⿐腔在尺⼨和形态⽅⾯每个⼈的差异很⼤，所以任何两个⼈的声纹图谱都有差异。

每个⼈的语⾳声学特征既有相对稳定性，⼜有变异性，不是⼀成不变的。这种变异可来⾃⽣理、病理、⼼理、模拟、伪装，也与环境⼲扰有关。

尽管如此，由于每个⼈的发⾳器官都不尽相同，因此在⼀般情况下，⼈们仍能区别不同的⼈的声⾳或判断是否是同⼀⼈的声⾳。

声纹不如图像那样直观展现，在实际分析中，可通过波形图和语谱图进⾏展现，如下所⽰：

⼆、声纹识别的原理

⼈在讲话时使⽤的发声器官在尺⼨和形态⽅⾯每个⼈的差异很⼤，所以任何两个⼈的声纹图谱都有差异，主要体现在如下⽅⾯：

北虫草菌种共鸣⽅式特征：咽腔共鸣、⿐腔共鸣和⼝腔共鸣

嗓⾳纯度特征：不同⼈的嗓⾳，纯度⼀般是不⼀样的，粗略地可分为⾼纯度（明亮）、低纯度（沙哑）和中等纯度三个等级

平均⾳⾼特征：平均⾳⾼的⾼低就是⼀般所说的嗓⾳是⾼亢还是低沉

⾳域特征：⾳域的⾼低就是通常所说的声⾳饱满还是⼲瘪

不同⼈的声⾳在语谱图中共振峰的分布情况不同，声纹识别正是通过⽐对两段语⾳的说话⼈在相同⾳素

上的发声来判断是否为同⼀个⼈，从⽽实现“闻声识⼈”的功能。

三、声纹识别算法的技术指标

声纹识别在算法层⾯可通过如下基本的技术指标来判断其性能，除此之外还有其它的⼀些指标，如：信

道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、体普适性等指标，这部分后续于详细展开讲解。

错误拒绝率(False Rejection Rate, FRR) ：分类问题中，若两个样本为同类（同⼀个⼈），却被系统误认为异类（⾮同⼀个⼈），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的⽐例。

NBONE1. 错误接受率(False Acceptance Rate, FAR) ：分类问题中，若两个样本为异类（⾮同⼀个⼈），却

被系统误认为同类（同⼀个⼈），则为错误接受案例。错误接受率为错误接受案例在所有异类匹配

案例的⽐例。

灰板纸

2. 等错误率(Equal Error Rate，EER)：调整阈值，使得误拒绝率(False Rejection Rate，FRR)等于

误接受率 (False Acceptance Rate，FAR)，此时的FAR与FRR的值称为等错误率。

3. 准确率(Accuracy，ACC)：调整阈值，使得FAR＋FRR最⼩，1减去这个值即为识别准确率，即

卧式导热油加热器ACC=1 - min(FAR+FRR)

4. 速度：（提取速度：提取声纹速度与⾳频时长有关、验证⽐对速度）：Real Time Factor 实时⽐

（衡量提取时间跟⾳频时长的关系，⽐如：1秒能够处理80s的⾳频，那么实时⽐就是1:80）。验证⽐对速度是指平均每秒钟能进⾏的声纹⽐对次数。

5. ROC曲线：描述FAR与FRR之间相互变化关系的曲线，X轴为FAR的值,Y轴为FRR的值。从左到

右，当阈值增长期间，每⼀个时刻都有⼀对FAR和FRR的值，将这些值在图上描点连成⼀条曲线，就是ROC曲线。

6. 阈值：在接受/拒绝⼆元分类系统中，通常会设定⼀个阈值，分数超过该值时才做出接受决定。调

节阈值可以根据业务需求平衡FAR与FRR。当设定⾼阈值时，系统做出接受决定的得分要求较为严格，FAR降低，FRR升⾼；当设定低阈值时，系统做出接受决定的得分要求较为宽松，FAR升⾼，FRR降低。在不同应⽤场景下，调整不同的阈值，则可在安全性和⽅便性间平平衡，如下图所⽰：

四、影响声纹识别⽔平的因素

训练数据和算法是影响声纹识别⽔平的两个重要因素，在应⽤落地过程中，还会受很多因素的影响。声源采样率

⼈类语⾳的频段集中于50Hz ~ 8KHz之间，尤其在4KHz以下频段

离散信号覆盖频段为信号采样率的⼀半（奈奎斯特采样定理）

采样率越⾼，信息量越⼤

常⽤采样率：8KHz (即0 ~ 4KHz频段），16KHz（即0 ~ 8KHz频段）

信噪⽐（SNR）

信噪⽐衡量⼀段⾳频中语⾳信号与噪声的能量⽐，即语⾳的⼲净程度

15dB以上（基本⼲净），6dB（嘈杂），0dB（⾮常吵）

信道

不同的采集设备，以及通信过程会引⼊不同的失真

声纹识别算法与模型需要覆盖尽可能多的信道

⼿机麦克风、桌⾯麦克风、固话、移动通信（CDMA, TD-LTE等）、……

语⾳时长

语⾳时长（包括注册语⾳条数）会影响声纹识别的精度

有效语⾳时长越长，算法得到的数据越多，精度也会越⾼

短语⾳（1～3s）

长语⾳（20s＋）

⽂本内容

通俗地说，声纹识别系统通过⽐对两段语⾳的说话⼈在相同⾳素上的发声来判断是否为同⼀个⼈

智能电位器固定⽂本：注册与验证内容相同

半固定⽂本：内容⼀样但顺序不同；⽂本属于固定集合

⾃由⽂本

五、声纹识别的应⽤流程

声纹识别(VPR) ，⽣物识别技术的⼀种，也称为说话⼈识别，是从说话⼈发出的语⾳信号中提取声纹信息，从应⽤上看，可分为：

说话⼈辨认(Speaker Identification)：⽤以判断某段语⾳是若⼲⼈中的哪⼀个所说的，是“多选⼀”问题；

说话⼈确认(Speaker Verification)：⽤以确认某段语⾳是否是指定的某个⼈所说的，是“⼀对⼀判别”问题。

声纹识别在应⽤中分注册和验证两个主流程，根据不同的应⽤中，部分处理流程会存在差异，⼀般的声纹识别应⽤流程如下图所⽰：

六、声纹识别的应⽤场景

声纹识别作为⽣物识别技术的⼀种，有⾮常多好的应⽤场景，根据声⾳的特性，下⾯从公共安全、⾦融、社保、智能硬件四个领域介绍声纹识别的应⽤。

1、安防

声纹作为⼀种⽣物特征，最早在刑侦和鉴识领域成功应⽤。

近年来，由于互联⽹的发展，语⾳案件也呈现出井喷的趋势，在这些语⾳案件中，声纹识别成了唯⼀⼀种有效的技术侦破⼿段，通过的声纹识别和声纹⼤数据技术进⾏重点⼈员监管、反电信、反恐、刑事案件侦破、⾝份查询与核验，助⼒公安有效遏制与打击犯罪，构建和强化安全的社会公众环境。

2、⾦融

针对银⾏、互联⽹⾦融等各类⾦融及服务机构，通过声纹识别技术，提供了⽤户注册、远程验证、⾦融⽣物识别解决⽅案，⼤幅提⾼⾦融机构的风险防范系统安全性，强化风控能⼒，增加⽤户的安全性，防范⾝份欺诈。

另外在电话客服系统中，通过声纹识别技术，可实时识别出⽤户的⾝份，从⽽提供个性化的客户服务。

3、社保

我国针对离退休⼈员，每年⾄少需要进⾏⼀次⽣存状态验证，并以此为依据进⾏养⽼⾦的发放，⽬前可通过到指定社保⼤厅或⾃助终端进⾏⽣存验证，对于⼀些⾏动不便的⽼⼈家，这种⽅式也是⾮常不便利。声纹识别技术在远程⾝份验证中有着天然的优势，只需要⼀个电话（⼿机或固话都可以），即可完成⽣存验证，为参保⼈员提供了便利，同时也为国家节省⼤量成本，避免养⽼⾦流失。

4、智能硬件

在智能硬件产品中，声纹识别解决了当前智能产品只能识别⽤户所说的内容，⽽不能区分说话⼈⾝份的问题，让智能产品能够区分不同的⾓⾊，实现“听声识⼈”。

让系统针对性对每个⼈提供不同的内容与服务，让⼈机交互更加简单，让⽤户享受更轻松、更具个性化、更安全的产品体验。

七、总结

声纹识别作为最前沿的⽣物识别技术，随着技术的成熟，将会在越来越多的应⽤场景下落地，我们相信在不久的将来，在第三代⾝份证上，声纹将成为继指纹、⼈像后⼜⼀个新增的公民⾝份ID。声⾳将在我们未来的科技⽣活中扮演眼越来越重要的⾓⾊。

本文发布于:2024-09-21 16:21:57，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/103671.html

上一篇：榆济天然气管线次声波管道监测系统软件测试报告

下一篇：语音识别-科普性介绍