【机器学习】混淆矩阵详细介绍(代码+含义+解释)

【机器学习】混淆矩阵详细介绍(代码+含义+解释)
⽂章⽬录⼀瞥
图形介绍
同样的道理,这⾥我们采⽤recall来计算模型的好坏,也就是说那些异常的样本我们的检测到了多少,这也是咱们最初的⽬的!这⾥通常⽤混淆矩阵来展⽰。
人的价值20混淆矩阵(confusion matrix)衡量的是⼀个分类器分类的准确程度。理解其概念本⾝容易理解,但⼀些特定术语易被混淆。
混淆矩阵适⽤于包含多个分类器的问题,本⽂为了让读者理解更加容易,以⼆元分类的混淆矩阵为例进⾏讲解。陈洪周
观察混淆矩阵,可得如下结论:
1. ⽰例是⼀个⼆元分类问题,产⽣两种可能的分类:“是”或者“不是”。当预测⼀个事件是否发⽣时,“是”意味着该事件已经发
⽣,⽽“否”则相反,该事件没有发⽣。
2. 该模型对这个事件进⾏了100次预测。
3. 在这100次预测结果中,“是”有45次,“否”有55次。但实际上该事件发⽣了40次。
重要概念
1. 真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例
2. 真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例
3. 假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例
4. 假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例
混淆矩阵延伸出的各个评价指标
唯美主义运动>即刻反击1. 正确率(Accuracy):被正确分类的样本⽐例或数量
(TP+TN)/Total = (35+50)/100 = 85%
2. 错误率(Misclassification/Error Rate):被错误分类的样本⽐例或数量
集里中学(FP+FN)/Total = (5+10)/100 = 15%
3. 真阳率(True Positive Rate):分类器预测为正例的样本占实际正例样本数量的⽐例,也叫敏感度(sensitivity)或召回率
(recall),描述了分类器对正例类别的敏感程度。
TP/ actual yes = 35/40 = 87%
4. 假阳率(False Positive Rate):分类器预测为正例的样本占实际负例样本数量的⽐例。
FP/actual no = 10/60 = 17%
5. 特异性(Specificity):实例是负例,分类器预测结果的类别也是负例的⽐例。
骗纸
TN/actual no = 50/60 = 83%
6. 精度(Precision):在所有判别为正例的结果中,真正正例所占的⽐例。
TP/predicted yes = 35/45 = 77%
7. 流⾏程度(Prevalence):正例在样本中所占⽐例。
Actual Yes/Total = 40/100 = 40%
关键术语
1. 阳性预测值: 其术语概念与精度⾮常类似,只是在计算阳性预测值考虑了流⾏程度。在流⾏程度为50%的时候,阳性预测值(PPV)
与精度相同。
2. 空错误率: 当模型总是预测⽐例较⾼的类别,其预测错误的实例所占百分⽐。在上述⽰例中,空错误率为60/100 = 60%,因为如
果分类器总是预测“是”,那么对于60个为“否”的事件则可能进⾏错误预测。该指标可⽤于分类器间的性能⽐较。然⽽,对于某些特定的应⽤程序来说,其最佳分类器的错误率有时会⽐空错误率更⾼。
3. F值:F 值即为正确率和召回率的调和平均值。
4. Roc曲线:即接收者操作特征曲线(receiver operating characteristic curve),反映了真阳性率(灵敏度)和假阳性率(1-特异度)
之间的变化关系。Roc曲线越趋近于左上⾓,预测结果越准确。

本文发布于:2024-09-21 08:31:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/406911.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:预测   矩阵   混淆   样本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议