【机器学习】混淆矩阵详细介绍（代码+含义+解释）

⽂章⽬录⼀瞥

图形介绍

同样的道理，这⾥我们采⽤recall来计算模型的好坏，也就是说那些异常的样本我们的检测到了多少，这也是咱们最初的⽬的！这⾥通常⽤混淆矩阵来展⽰。

人的价值20混淆矩阵（confusion matrix）衡量的是⼀个分类器分类的准确程度。理解其概念本⾝容易理解，但⼀些特定术语易被混淆。

混淆矩阵适⽤于包含多个分类器的问题，本⽂为了让读者理解更加容易，以⼆元分类的混淆矩阵为例进⾏讲解。陈洪周

观察混淆矩阵，可得如下结论：

1. ⽰例是⼀个⼆元分类问题，产⽣两种可能的分类：“是”或者“不是”。当预测⼀个事件是否发⽣时，“是”意味着该事件已经发

⽣，⽽“否”则相反，该事件没有发⽣。

2. 该模型对这个事件进⾏了100次预测。

3. 在这100次预测结果中，“是”有45次，“否”有55次。但实际上该事件发⽣了40次。

重要概念

1. 真阳性（True Positive，TP）：样本的真实类别是正例，并且模型预测的结果也是正例

2. 真阴性（True Negative，TN）：样本的真实类别是负例，并且模型将其预测成为负例

3. 假阳性（False Positive，FP）：样本的真实类别是负例，但是模型将其预测成为正例

4. 假阴性（False Negative，FN）：样本的真实类别是正例，但是模型将其预测成为负例

混淆矩阵延伸出的各个评价指标

唯美主义运动>即刻反击1. 正确率（Accuracy）：被正确分类的样本⽐例或数量

(TP+TN)/Total = (35+50)/100 = 85%

2. 错误率（Misclassification/Error Rate）：被错误分类的样本⽐例或数量

集里中学(FP+FN)/Total = (5+10)/100 = 15%

3. 真阳率（True Positive Rate）：分类器预测为正例的样本占实际正例样本数量的⽐例，也叫敏感度（sensitivity）或召回率

（recall），描述了分类器对正例类别的敏感程度。

TP/ actual yes = 35/40 = 87%

4. 假阳率（False Positive Rate）：分类器预测为正例的样本占实际负例样本数量的⽐例。

FP/actual no = 10/60 = 17%

5. 特异性（Specificity）：实例是负例，分类器预测结果的类别也是负例的⽐例。

骗纸

TN/actual no = 50/60 = 83%

6. 精度（Precision）：在所有判别为正例的结果中，真正正例所占的⽐例。

TP/predicted yes = 35/45 = 77%

7. 流⾏程度（Prevalence）：正例在样本中所占⽐例。

Actual Yes/Total = 40/100 = 40%

关键术语

1. 阳性预测值：其术语概念与精度⾮常类似，只是在计算阳性预测值考虑了流⾏程度。在流⾏程度为50%的时候，阳性预测值（PPV）

与精度相同。

2. 空错误率：当模型总是预测⽐例较⾼的类别，其预测错误的实例所占百分⽐。在上述⽰例中，空错误率为60/100 = 60%，因为如

果分类器总是预测“是”，那么对于60个为“否”的事件则可能进⾏错误预测。该指标可⽤于分类器间的性能⽐较。然⽽，对于某些特定的应⽤程序来说，其最佳分类器的错误率有时会⽐空错误率更⾼。

3. F值：F 值即为正确率和召回率的调和平均值。

4. Roc曲线：即接收者操作特征曲线(receiver operating characteristic curve)，反映了真阳性率（灵敏度）和假阳性率（1-特异度）

之间的变化关系。Roc曲线越趋近于左上⾓，预测结果越准确。

本文发布于:2024-09-21 08:31:25，感谢您对本站的认可！

标签：预测矩阵混淆样本

留言与评论（共有 0 条评论）