人脸识别性能指标

⼈脸识别性能指标

1 概念

⼈脸识别任务分为⼈脸验证(1:1，Face Verification)和⼈脸识别(1:N，Face Recognition) 两种。

⼈脸验证是给定⼀对图像，判定是否是同⼀个⼈；⼈脸识别是给定⼀张图像，判断其是图像底库中的谁。性能度量需要三个数据集，分别是：底库数据集 G(gallary)；测试集p_G，由属于G中的⼈员的且与G已包含的不同的图像组成 (库内⼈员的测试图像)；

物理教具制作

测试集p_N，由不属于G中的⼈员的图像组成（库外⼈员的测试图像）。

2 1:1 Face verification

⼈脸验证是给定⼀系列的图像对，判断出哪些图像对是同⼀个⼈，哪些图像对不是同⼀个⼈。⽐如在⾼铁站⼊⼝处，需要刷⾝份证进站的⼈脸闸机，就是⼈脸验证。我们希望算法对使⽤了⾃⼰真实⾝份证的⼈的通过率越⾼越好，希望使⽤了伪造⾝份证的⼈的误识率越低越好。⼀般的⼈脸特征提取算法，都是对⼀副⼈脸图像使⽤了⼀个特征向量进⾏了描述，具体两幅图像是不是同⼀个⼈要根据这两个特征向量的相似度进⾏判断，计算相似度可以使⽤余弦距离、欧式距离等。计算了两幅图像的特征向量的相似度之后，还要和⼀个指定的相似度阈值进⾏⽐较，⼤于该阈值则认为是同⼀个⼈，⼩于该阈值则认为不是

同⼀个⼈。

假定测试数据集包含M个测试图像对。

TP：相似度⼤于给定阈值且真实label为同⼀个⼈的图像对数；

FP：相似度⼤于给定阈值且真实label不是同⼀个⼈的图像对数；

FN：相似度⼩于给定阈值且真实label为同⼀个⼈的图像对数；

TN：相似度⼩于给定阈值且真实label不是同⼀个⼈的图像对数；

accuracy：总的判定对数中有多少对判定正确(包括属于同⼀个⼈的图像对和不属于同⼀个⼈的图像对)

大蒜剥皮机TAR : True Accept Rate

相似度⼤于阈值的图像对中有多少是真正属于同⼀个⼈的图像对⽐例。

FAR：False Accept Rate

真实情况不属于同⼀个⼈的图像对中相似度⼤于设置阈值的图像对⽐例。

FRR：False Reject Rate高温气化炉热电偶

真实情况属于同⼀个⼈的图像对中相似度⼩于阈值的图像对⽐例。

对于⼈脸验证任务，FRR = 1 - TAR。

acc ==TP +TN +FP +FN TP +TN M

TP +TN

TAR =TP +FN

FAR =FP +TN

FRR =FN +TP

⼈脸验证的指标主要有三个，分别是验证准确率(accuracy) 、TAR@FAR、FRR@FAR。

accuracy的计算可以借鉴LFW的评价⽅式：

1. 采⽤K折交叉验证的思路将所有的验证图像对分为K组，每次选取⼀组作为测试数据确定最佳阈值，剩下的K-1组作为评估数据；

2. 设置阈值的遍历范围，如以0.1的步长遍历0到1的范围，在某⼀阈值下，确定测试数据的accuracy；

3. 根据测试数据集上各阈值下的accuracy确定最佳阈值；

4. 计算最佳阈值下评估数据的accuracy；

5. 选取另外K-1组的数据中的某⼀个为测试数据，剩余的做评估数据，重复1 - 4的步骤得到另外K-1个accuracy；

6. 求K个accuracy的均值和⽅差作为最终的accuracy，记作的形式，如。

TAR@FAR的计算⽅式为：

1. 采⽤K折交叉验证的思路将所有的验证图像对分为K组，每次选取⼀组作为测试数据，剩下的K-1组作为评估数据；

2. 设置阈值的遍历范围，如以0.1的步长遍历0到1的范围，测试在每⼀阈值下的TAR和FAR并记录；

3. 重复1-2的步骤，得到K组各阈值下的TAR和FAR，TAR是⼀个K⾏M列的数组，FAR也是同样的shape，每⼀⾏表⽰每折的结果，每

列表⽰每个阈值下的结果；

4. 对TAR和FAR按⾏求均值，得到最终的TAR@FAR，可以使⽤该⾏向量绘制以FAR为横坐标，TAR为纵坐标的ROC曲线；

5. 很多情况下是报告FAR=下的TAR值，记作TAR@FAR=。

3 1:N Face Recognition

Face Recognition是给定⼀副测试图像prob，通过Face Recognition给出该⼈员的⾝份信息，需要提前设置底库图像集gallary。根据测试图像是否是gallary内⼈员的图像⼜将⼈脸识别分成了闭集测试和开集测试两种。

3.1 闭集(close-set)测试

闭集测试，是指测试图像prob肯定⾪属于底库内的⼈员，且和已包含在底库内的图像不同。

针对闭集测试，常⽤的性能指标有 Rank-K@gallary规模。

Rank-K @ 底库规模：

Rank-K是指每幅测试图像按照相似度对识别结果进⾏排序，前K个结果中包含真实label的⽐例，常⽤的K值有1，5，10，100等，当然K 值要⼩于等于底库规模，当K值等于底库规模时，则Rank-K等于1。

以Rank-1为例来说明 Rank-K@底库规模的计算，假设底库规模为⼀百万张图像，即，对于给定的测试图像，不需要设置相似度阈值，其⾸位识别正确的图像占所有测试图像的⽐例即为Rank-1。假设给定了1000幅测试图像，有900张图像的⾸位识别结果是正确的，则Rank-1为 90%@。

K值越⼤，Rank-K的值也越⼤。

以K值为横轴，Rank-K值为纵轴，可以绘制CMC曲线。

3.2 开集(open-set)测试

开集测试，是指测试图像对应的⼈员不⼀定⾪属于底库⼈员。

开集测试，常⽤的性能指标有 Rank-K@FAR 和 TAR@FAR。

对于开集测试，测试结果共有五种情况：

库内⼈员的测试图像，相似度⼤于阈值，识别结果正确，这样的样本个数记为 IBC (in & bigger & correct)；

库内⼈员的测试图像，相似度⼤于阈值，识别结果错误，这样的样本个数记为 IBE (in & bigger & error)；

库内⼈员的测试图像，相似度⼩于阈值，这样的样本个数记为 IS (in & smaller)；

库外⼈员的测试图像，相似度⼤于阈值，这样的样本个数记为 OB (out & bigger)；

库外⼈员的测试图像，相似度⼩于阈值，这样的样本个数记为 OS (out & smaller)。

mean ±val 99.6±0.1210,⋯,10−1−610−6106106

Rank-1@ FAR：

根据FAR的取值确定阈值，报告各阈值下的Rank-K值。

TAR@FAR：

对于开集测试，需要设置⼀个相似度阈值，得到TAR@FAR。

同样根据FAR的取值确定阈值，报告各阈值下的TAR值，FAR依据库外⼈员的测试集数量⼀般取。

FRR@FAR:

可降解塑料袋子吹膜机通过设置的相似度阈值，还可以得到FRR@FAR，这个指标和其他指标不同，上⾯其他的指标都是越⼤越好，这个指标是越⼩越好。这个指标反映的是在某个阈值下有多⼤⽐例的库内⼈员没有识别结果。

同样根据FAR的取值确定阈值，报告各阈值下的FRR值，FAR依据库外⼈员的测试集数量⼀般取。

个⼈认为FRR存在的意义是，表⽰库内⼈员的测试图像⼤于阈值的结果中识别正确的图像所占的⽐例。如果某个系统在FAR很⼩时值很⼤，则表⽰该系统虽然有很多的库内⼈员⽆法识别，但有结果的识别的还是⾮常可信的，这种情况下可以通过提升测试⼈员的配合度提升识别效果。FRR部分纯粹是⼀家之⾔，欢迎⼤家批评指正。

交通警示柱4 总结

⼈脸识别的评价指标很多，需要根据具体的业务场景确定指标。

上⾯的整理如有错误，欢迎批评指正。Rank 1=库内⼈员的测试集数量

IBC双电源控制器

RankK =库内⼈员的测试集数量

前K 个结果包含正确label 的IBC

FAR =库外⼈员的测试集数量

TAR =库内⼈员的测试集总数

IBC

FAR =库外⼈员的测试集数量

10−6FRR =库内⼈员的测试集总量

FAR =库外⼈员的测试集数量

10−61−FRR TAR 1−FRR TAR

本文发布于:2024-09-22 15:46:47，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/144839.html

上一篇：基于计算机视觉的人脸识别算法研究与应用

下一篇：python人脸识别实验报告总结_一篇文章带你了解Python人脸识别有多简单

标签：阈值图像测试相似

留言与评论（共有 0 条评论）