ROC曲线原理实例分析【1】

ROC曲线原理实例分析【1】
在选择诊断试验时,许多研究者会在灵敏度和特异度之间进⾏艰难的取舍。那么,是否可以综合考虑灵敏度和特异度的特点,根据⼀个指标评价诊断试验的准确性呢?受试者⼯作特征曲线(receiver operating characteristic curve,简称ROC曲线),⽤来描述诊断试验的内在真实程度,应⽤⼗分⼴泛。
ROC曲线是以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的。每⼀个点都对应诊断试验的⼀个截点,我们将这些可能的点连接起来即可制作出经验ROC曲线(empirical ROC curve)。该⽅法可以帮助研究者简单、直观地分析诊断试验的临床准确性,选择更加合适的截点。
⼀、背景介绍
在介绍ROC曲线之前,⾸先来介绍⼀下预测模型的背景。
(⼀)预测模型建模流程简介
尴尬青春21.利⽤数据中的训练集进⾏模拟的⽣成。
2.利⽤测试集进⾏模型的评测。
3.将评测的结果反馈给⽣成模型。
4.若评测结果⽐较满意,进⾏⽣成模型的输出,否则重新⽣成。
那么测试集如何评测预测模型?这⾥引出混淆矩阵的概念。
(⼆)混淆矩阵
混淆矩阵也称误差矩阵,是表⽰精度评价的⼀种标准格式,常⽤来预测模型的准确率。
骑士车image
图1 混淆矩阵
P:样本中的正例,n:样本中的负例 Y:通过模型预测出来样本中的正列,N:通过模型预测出来样
本中的负列 TP(True Positives):本来是正列,通过模型预测出来也是正列FP(False Positives):本来是负列,通过模型预测出来也是正列预测模型准确率accuracy=(TP+TN)/(P+n)(三)案例分析
表1 原始数据
国家公路网规划发布
image
从表1可以看出,有20个观测值,结局有1和0两种状态,分别代表着阳性和阴性。类似于Logistic回归当中某个⼈是否患疾病,患病为1,不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢?
⾸先将这组数据的预测概率按照从⼤到⼩的顺序进⾏排列。⼀般的⼆分类的实现⽅法就是选择⼀个阈值,将⼤于这个阈值的样本认为是正例,⼩于这个阈值的样本认为是反例。如果以0.54为阈值,将预测概率0.54设置为阳性,预测概率⼩于0.54设置为阴性。 表2 以0.54为阈值的预测结局
image
从表2中可以看出前6个数据预测结局为阳性,其他14个数据预测结局为阴性。计算它的混淆矩阵如表3,真实结局中有10个1和10个0。但是预测结局的阳性数有6个,其中有5个是真实阳性,有1个是真实阴性。第三个观测值结局本来是阴性的,但预测结局是阳性的,这个观测值预测错误。同理,预测结局的阴性数有14个,其中有9个是真实阴性,有5个是真实阳性。第九个观测值结局本来是阳性的,但预测结局是阴性的,这个观测值预测错误。
表3 混淆矩阵表
紫外光固化树脂
image
真阳率是指本来是阳性的,预测出的结果也是阳性的。假阳率是指本来是阴性的,但预测出的结果是阳性的。从表3中可以看出,在真实阳性数这⼀竖列中,预测正确的观测值有5个,所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这⼀竖列中,预测正确的观测值有1个,所以假阳率(FPR)=1/n=1/10=0.1。
同理真阴率(TNR)=9/10=0.1,假阴率(FNR)=5/10=0.5。
表4 真阳率和假阳率
image
从表4可以看出,以0.54为阈值,作出来的混淆矩阵真阳率为0.5,假阳率为0.1。真阳率和假阳率是以每⼀次相应的预测概率为阈值,算出混淆矩阵⽽得到的。
将1-20每个样本的评分均作为分类器的判定阈值,可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建⽴⼀个直⾓坐标系,就可以得到图2。
image
图2 TPR和FPR的有序数对
⼆、ROC曲线概念
毛发湿度计
ROC曲线:受试者⼯作特征曲线(receiver operating characteristic curve,简称ROC曲线),⼜称为感受性曲线(sensitivity curve)。
采⽤真阳性率和假阳性率作出的曲线,适⽤于诊断试验结果为连续变量。试验的真阳性率(Sen)为纵坐标(Y),假阳性率(1-Spe)为横坐标(X),坐标轴上的率值由0100%。
image
图3 ROC曲线⽰意图横轴FPR:1-TPR,1-Specificity,FPR越⼤,预测正类中实际负类越多。纵轴TPR:Sensitivity,TPR越⼤,预测正类中实际正类越多。理想⽬标:TPR=1,TPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45°对⾓线越好,Sensitivity、Specificity越⼤效果越好。CDSN
三、最佳阈值的确定——约登指数
约登指数(Youden index,YI):是评价筛查试验真实性的⽅法,假设其假阴性和假阳性的危害性同等意义时,即可应⽤约登指数。约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越⼤说明筛查试验的效果越好,真实性越⼤。从表中可以看出,真阳率与假阳率的差值就是约登指数,最⼤的约登指数为0.4,0.4对应的预测概率为0.54,⼤于0.54认为是阳性的,⼩于0.54认为是阴性的。0.54就是最佳阈值。
四、AUC概念
AUC(Area Under Curve)值为ROC曲线下⽅的⾯积⼤⼩。显然,AUC越⼤,预测效果越好。AUC=1,是完美分类器,采⽤这个预测模型时,不管设定什么截断点都能得出完美预测。绝⼤多数预测的场合,不存在完美分类器。0.5<AUC<1,优于随机猜测。这个预测模型妥善设定截断点的话,能有预测
价值。AUC=0.5,跟随机猜测⼀样(例:抛硬币),模型没有预测价值。AUC<0.5,⽐随机猜测还差,但只要总是反预测⽽⾏,就优于随机预测。
1或0%
image 图4 包含AUC值的ROC曲线

本文发布于:2024-09-23 01:32:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/406884.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:预测   模型   曲线
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议