特异度(specificity)与灵敏度(sensitivity)
前⾔
在论⽂阅读的过程中,经常遇到使⽤特异性(specificity)和灵敏度(sensitivity)这两个指标来描述分类器的性能。对这两个指标表⽰的含有⼀些模糊,这⾥查阅了相关资料后记录⼀下。 生态环境大数据技术基础知识
轻纺城考虑⼀个⼆分类的情况,类别为1和0,我们将1和0分别作为正类(positive)和负类(negative),则实际分类的结果有4种,表格如下:
清教主义从这个表格中可以引出⼀些其它的评价指标:
ACC:classification accuracy,描述分类器的分类准确率
naieve计算公式为:ACC=(TP+TN)/(TP+FP+FN+TN)
BER:balanced error rate
计算公式为:BER=1/2*(FPR+FN/(FN+TP))
TPR:true positive rate,描述识别出的所有正例占所有正例的⽐例
计算公式为:TPR=TP/ (TP+ FN)
FPR:false positive rate,描述将负例识别为正例的情况占所有负例的⽐例
计算公式为:FPR= FP / (FP + TN)
TNR:true negative rate,描述识别出的负例占所有负例的⽐例
计算公式为:TNR= TN / (FP + TN)
PPV:
计算公式为:PPV=TP / (TP + FP)
NPV:
计算公式:NPV=TN / (FN + TN)
其中TPR即为敏感度(sensitivity),TNR即为特异度(specificity)。22美女网
image.png
实例解释论文网站
下⾯以医学中糖尿病⼈的筛查为例对敏感度和特异度进⾏解释。在这个例⼦中,我们只将病⼈⾎糖⽔平作为判断是否患有糖尿病的指标。下图为正常⼈和糖尿病患者⾎糖⽔平的统计图: 我们发现两个⼈中有重叠的部分,这个时候判定标准定的不同,得到的结果就会不同。 如果我们把标准定在最左边的虚线上,则低于这条线的为正常⼈,⾼于这条线的包含了两类⼈:正常⼈和糖尿病患者。这种时候就是灵敏度最⾼的时候,即实际有病⽽被诊断出患病的概率,没有放过⼀个患病的⼈。如果将标准定在最右边的虚线上,则是特异度最⾼的时候,即实际没病⽽被诊断为正常的概率,没有冤枉⼀个没病的⼈。
终上所述,敏感度⾼=漏诊率低,特异度⾼=误诊率低。
理想情况下我们希望敏感度和特异度都很⾼,然⽽实际上我们⼀般在敏感度和特异度中寻⼀个平衡点,这个过程可以⽤ROC(Receiver Operating Characteristic)曲线来表⽰:
即图中V34点,具有较⾼的灵敏度和特异度。
参考资料
注:⽂中的图⽚均来⾃参考资料。