一种最大熵约束的类别软标签识别训练方法与流程

1.本发明涉及细粒度图像识别技术领域，具体为一种最大熵约束的类别软标签识别训练方法。

背景技术：

2.细粒度识别算法的发展过程中有大量的算法涉及了目标和关键部位提取的操作。然而此类方法往往不适用于网络图像，其原因是两方面的：1）标签噪声的存在，尤其是分布外噪声图像的存在，对提取目标和关键部位造成了严重的困难，如果提取出的关键部位是错误的，那么模型会被错误信息误导，同时破坏部位提取算法和分类算法的性能，最终使此类基于目标和关键部位的细粒度识别算法无法发挥原有的性能；2）目标和关键部位提取增加了算法的复杂性，往往要训练一个额外的辅助模型，考虑到模型还需要同时应用标签噪声处理算法，过多甚至冗余的算法步骤会降低模型的效率和实用性。考虑到上述缺点，本发明提出了更加灵活轻便的细粒度识别算法，使其适用于网络监督训练。
3.现有的标签噪声处理算法中噪声净化算法能明确地识别并处理各个噪声样本，然而它们大部分都是在人工合成的噪声数据集上设计并测试的，一定程度上缺乏了实用性。噪声鲁棒算法则避免了识别噪声样本这一操作，使用鲁棒函数和正则化方法等方式来降低标签噪声的影响，达到鲁棒训练的结果，然而由于标签噪声没有被显示地丢弃，其不可避免地仍会对模型训练有一定的影响；所以需要针对上述问题进行改进。

技术实现要素：

4.本发明的目的在于提供一种最大熵约束的类别软标签识别训练方法，以解决上述背景技术提出的问题。
5.为实现上述目的，本发明提供如下技术方案：一种最大熵约束的类别软标签识别训练方法，其适用于网络监督训练，细粒度图像识别，能够对分布外噪声进行标签，提高模型的效率和实用性，所述学习方法包括如下步骤：s1.首先在一个含噪声的网络数据集d上训练深度网络模型，通过交叉损失函数得到次有的模型；s2.基于软标签的类别正则化方法，来获取每个类别的软标签，其具体的方法步骤为：s21.借助概率分布预测对软标签进行预测；s22.采用指数平滑来缓解模型预测结果不稳定导致的软标签波动；s23. 获取软标签后，使用周期估计出的软标签来监督周期的训练过程，利用训练损失函数提升细粒度识别任务的分类准确率；s24.采用最大熵约束来引导模型输出更加平滑的预测概率分布；s3.采用类别正则优化方法后，获取每个类别的软标签，利用类别软标签从实例的
角度，利用类别软标签进行噪声净化，具体步骤为：s31.首先，采用 js 散度来度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则；s32.使用一个阈值，根据js散度距离来区分干净和噪声样本；s33.在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批；s34.完成标签噪声识别后，先计算噪声样本的概率分布与期预测类别的软标签之间的js散度距离，s35.再使用一个硬阈值，在噪声批中进一步筛选可重标注的样本；s36.将筛选的重标注的样本放入噪声批中，进行进一步地筛选，其余样本直接丢弃，不参与训练。
6.进一步的，在s1中，网络数据集为，其中和分别表示第个训练样本和对应的网络标签，n代表样本总数；独热分布形式的网络标签的标签分布表示为，深度神经网络对于每个输入的样本产生一个概率分布预测，其中表示第类类别；每个训练样本的概率分布预测与其标签分布之间的交叉熵损失函数为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1)；其中c表示类别总数。
7.进一步的，在s2中，定义软标签为个训练周期中各个类别的软标签集合，对于每个训练周期，软标签集合是一个的矩阵，其每列分别对应一个类别的软标签；软标签初始化为零矩阵，并在训练过程中动态更新；对于每个输入样本，当其预测结果与对应的标签一致，那么类别的软标签会借助预测的概率分布以如下方式更新：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.2)是预测结果与标签一致的样本数；为了让估计到的软标签更加稳定，采用指数平滑方法来融合以往训练周期的软标签估计结果，公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.3)其中，表示为控制以往结果权重大小的动量。
8.更进一步的，在s23中，获取软标签后，使用周期估计出的软标签来监督周期的训练过程，软标签训练损失函数如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.4)软标签损失函数为非目标的类别分配了权重；然而，仅使用软标签损失函数来训练模型仍是有缺点的，因为其学习到的软标签往往会与独热标签较为相似，其中标签类别会有较高的权重，而其他类别则仅有很小的权重，使用最大熵（maximum entropy，me）约束来引导模型输出更加平滑的预测概率分布，其公式为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.5)最大熵约束的目的是增加预测概率分布的熵。
9.更进一步的，在s2的最后，类别正则化方法联合采用了独热标签与模型估计的软标签作为监督信息，并使用最大熵损失函数来提供正则化约束；类别正则化的训练损失函数可表示为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.6)其中，是用于平衡使用网络标签的交叉熵损失函数与软标签损失函数的权重，是最大熵约束的系数。
10.进一步的，在s31中，依据jo-src方法，实例噪声净化方法采用js 散度（jensen-shannon divergence）来度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则，公式如下：公式如下：公式如下：
ꢀꢀꢀꢀ
（6.7）其中，表示kl散度（kullback-leibler divergence）；在公式 (6.7) 中，js 散度距离是一个对称的测量方式。
11.更进一步的，在s32中，使用一个阈值，根据来区分干净和噪声样本；每个训练周期中的阈值定义如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.8)
其中，表示为整个训练集上所有样本js散度距离的集合，以及分别表示为计算平均值和标准差，是一个超参数；在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批，具体公式如下：具体公式如下：
ꢀꢀꢀ
(6.9)。
12.进一步的，在s34中，完成标签噪声的识别后，进一步在噪声批中筛选可重标注的图像,首先计算噪声样本的概率分布与其预测类别的软标签之间的js散度距离，公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.10)由于 js 散度距离的范围是在之间，可使用一个硬阈值在噪声批中筛选可重标注的样本，具体公式如下：具体公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.11)。
13.与现有技术相比，本发明的有益效果是：本发明中的方法利用最大熵正则化方法，让模型在训练过程中动态计算每个类别的软标签，并将其用于监督模型训练。软标签在训练过程中能促进模型能学习类间相似性以提升细粒度识别性能，同时学习噪声转换矩阵分布来减少标签噪声的影响，并且能抑制过拟合以提升网络的鲁棒性。此外，该方法利用模型对每个样本的预测概率分布和该样本的类别软标签之间的距离来识别标签噪声，并将它们丢弃或重标注以减少其对模型训练的影响。在网络监督细粒度视觉识别数据集 web-bird、web-aircraft 和 web-car 上的实验表明，该方法相比发表于 cvpr 2021 的 sota 噪声处理方法分别有 1.01%，0.56% 和 1.36% 的性能提升，验证了该方法的优越性。
附图说明
14.图1为本发明方法的流程图。
具体实施方式
15.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
16.请参照图1所示，本发明为一种最大熵约束的类别软标签识别训练方法，其适用于
网络监督训练，细粒度图像识别，能够对分布外噪声进行标签，提高模型的效率和实用性，所述学习方法包括如下步骤：s1.首先在一个含噪声的网络数据集d上训练深度网络模型，通过交叉损失函数得到次有的模型；s2.基于软标签的类别正则化方法，其具体的方法步骤为：s21.借助概率分布预测对软标签进行预测；s22.采用指数平滑来缓解模型预测结果不稳定导致的软标签波动；s23. 获取软标签后，使用周期估计出的软标签来监督周期的训练过程，利用训练损失函数提升细粒度识别任务的分类准确率；s24.采用最大熵约束来引导模型输出更加平滑的预测概率分布；s3.采用类别正则优化方法后，获取每个类别的软标签，利用类别软标签进行噪声净化，具体步骤为：s31.首先，采用 js 散度来度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则；s32.使用一个阈值，根据js散度距离来区分干净和噪声样本；s33.在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批；s34.完成标签噪声识别后，先计算噪声样本的概率分布与期预测类别的软标签之间的js散度距离，s35.再使用一个硬阈值，在噪声批中进一步筛选可重标注的样本；s36.将筛选的重标注的样本放入噪声批中，进行进一步地筛选，其余样本直接丢弃，不参与训练。
17.在本实施例中，在一个含噪声的网络数据集上训练深度网络模型，其中和分别表示第个训练样本和对应的网络标签，n代表样本总数；独热标签的标签分布表示为，深度神经网络对于每个输入的样本产生一个概率分布预测，其中表示第类类别，每个训练样本的概率分布预测与其标签分布之间的交叉熵损失函数为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1)其中c表示类别总数，交叉熵损失函数对标签噪声是敏感的，所以直接使用该损失函数来从含噪的网络数据集d中学习会得到次优的模型。
18.在本实施例中，在s2中基于类别正则化的方法中，标签平滑（label smoothing）方法将独热标签与均匀分布结合，构建出了鲁棒性更强的软标签，能够为模型提供正则化约束，广泛应用于标签噪声学习和细粒度识别研究中。在线标签平滑（online label smoothing）方法进一步改进了标签平滑技巧，将均匀分布替换为模型输出的概率分布预测，产生了更合理的软标签，进一步提升了正则化方法对模型训练的作用，基于上述方法，
本方法也采用了基于软标签的类别正则化方法。
19.首先，定义软标签为个训练周期中各个类别的软标签集合，对于每个训练周期，软标签集合是一个的矩阵，其每列分别对应一个类别的软标签；软标签初始化为零矩阵，并在训练过程中动态更新；对于每个输入样本，当其预测结果与对应的标签一致，那么类别的软标签会借助预测的概率分布以如下方式更新：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.2)是预测结果与标签一致的样本数，由公式 (6.2) 可以看出，每个类别的软标签是该类别中被正确预测的样本的概率分布的平均值。
20.然而，如果每个训练周期的软标签都直接来源于当前的样本预测结果，那么它可能会在训练过程中有较大的波动，这在训练初期（即模型快速拟合数据集的阶段）会更为明显。为了让估计到的软标签更加稳定，本方法采用了指数平滑（exponential moving average，ema）方法来融合以往训练周期的软标签估计结果，公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.3)其中，表示为控制以往结果权重大小的动量。指数平滑能缓解模型预测结果不稳定导致的软标签波动问题，平滑了软标签在训练中的变化。
21.在本实施例中，在s23中，获取软标签后，本方法使用周期估计出的软标签来监督周期的训练过程，软标签训练损失函数如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.4)与标签平滑相似，软标签损失函数也为非目标的类别分配了权重。所以它能减少模型的过拟合，提升噪声鲁棒性。此外，它还能促进模型学习类间相似性，能提升细粒度识别任务的分类准确率。
22.然而，仅使用软标签损失函数来训练模型仍是有缺点的，因为其学习到的软标签往往会与独热标签较为相似，其中标签类别会有较高的权重，而其他类别则仅有很小的权重。这个现象可能来源于交叉熵损失函数强大的模型拟合能力，导致模型的预测结果过于接近样本的标签。
23.为了解决该问题，本方法使用的类别正则化方法使用了最大熵（maximum entropy，me）约束来引导模型输出更加平滑的预测概率分布，其公式为：
ꢀꢀꢀꢀ
(6.5)最大熵约束的目的是增加预测概率分布的熵，所以它会让模型产生一个更合理的软标签。此外，最大熵约束让模型的预测更加平滑，能够减轻模型对于噪声标签的过拟合，进一步提升模型的噪声鲁棒性。
24.在本实施例中，在s2的最后，本方法使用的类别正则化方法联合采用了独热标签与模型估计的软标签作为监督信息，并使用最大熵损失函数来提供正则化约束，类别正则化的训练损失函数可以表示为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.6)其中，是用于平衡使用网络标签的交叉熵损失函数与软标签损失函数的权重，是最大熵约束的系数。得益于软标签损失函数和最大熵约束对模型鲁棒性的提升，类别正则化方法能够产生可靠的类别软标签，有效降低模型对噪声标签的敏感性。此外，产生的软标签可以用于从实例方面对含噪的数据集进行净化。
25.在本实施例中，在s31中，依据jo-src方法，实例噪声净化方法采用了 js 散度（jensen-shannon divergence）来度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则，公式如下：公式如下：
ꢀꢀꢀꢀ
(6.7)其中，表示kl散度（kullback-leibler divergence）。
26.在公式 (6.7) 中，js 散度距离是一个对称的测量方式，它度量了模型预测结果和对应的类别软标签两个概率分布之间的差异，更大的数值表明了更明显的差异。此外，当使用以2为底的对数时，js 散度距离的数值范围在区间内，较为可控，也方便通过阈值来进行样本筛选。
27.在本实施例中，由于干净图像的预测结果应与它们的类别软标签更为接近，它们与类别软标签的 js 散度距离应该比噪声样本的更低。基于此，可以使用一个阈值，根据来区分干净和噪声样本。每个训练周期中的阈值定义如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.8)其中，表示为整个训练集上所有样本 js 散
度距离的集合，以及分别表示为计算平均值和标准差，是一个超参数。在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批，具体公式如下：具体公式如下：
ꢀꢀꢀꢀ
(6.9)完成了标签噪声的识别后，进一步在噪声批中筛选可重标注的图像,首先计算噪声样本的概率分布与其预测类别的软标签之间的js散度距离，公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.10)然后，由于 js 散度距离的范围是在之间，可使用一个硬阈值在噪声批中筛选可重标注的样本，具体公式如下：具体公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.11)从公式（6.11）中可以看出，如果一个噪声样本的预测分布与其预测类别软标签之间的距离足够小，那么它就会被认为是可以重标注的样本，并将它的预测结果作为伪标签。其余的样本则直接丢弃，不参与训练。
28.最后，使用干净和重标注后的噪声样本来训练模型，此外，最大熵约束被用于训练丢弃的样本，目的是让模型“忘记”学到的错误信息。这些丢弃的样本有可能是分布外噪声，对于模型训练没有帮助，如果模型保留了学到的误导性信息，那么噪声识别过程可能会受一定的干扰。
29.本发明提出的最大熵约束的类别软标签识别训练方法流程如下：输入: 神经网络参数、网络图像训练集、预处理回合、动量、权重和、超参数、阈值以及训练时长。
30.初始化网络参数。
31.for
ꢀꢀ
dofor 每个训练集和d中的小批次bdoif
ꢀꢀ
then在小批次b上，通过公式 (6.6) 计算训练损失l。
32.else通过公式 (6.7)，计算 js 散度距离。
33.通过公式 (6.8)，计算阈值。
34.通过公式 (6.9)，获取干净批和噪声批。
35.通过公式 (6.11)，获取重标注批和丢弃批。
36.在干净批和重标注批上，通过公式 (6.6) 计算训练损失。
37.在丢弃批上，通过公式 (6.5)计算训练损失。
38.相加获取训练损失。
39.end通过公式 (6.3)，更新软标签。
40.更新网络参数。
41.end输出：更新后的网络参数。
42.以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例测试方法或流程所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

技术特征：

1.一种最大熵约束的类别软标签识别训练方法，其特征在于，包括如下步骤：s1.首先在一个含噪声的网络数据集d上训练深度网络模型，通过交叉损失函数得到次有的模型；s2.基于软标签的类别正则化方法，来获取每个类别的软标签，其具体的方法步骤为：s21.借助概率分布预测对软标签进行预测；s22.采用指数平滑来缓解模型预测结果不稳定导致的软标签波动；s23.获取软标签后，使用周期估计出的软标签来监督周期的训练过程，利用训练损失函数提升细粒度识别任务的分类准确率；s24.采用最大熵约束来引导模型输出更加平滑的预测概率分布；s3.采用类别正则优化方法后，获取每个类别的软标签，利用类别软标签从实例的角度，利用类别软标签进行噪声净化，具体步骤为：s31.首先，采用 js 散度来度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则；s32.使用一个阈值，根据js散度距离来区分干净样本和噪声样本；s33.在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批；s34.完成标签噪声识别后，计算噪声样本的概率分布与期预测类别的软标签之间的js散度距离；s35.使用一个硬阈值，在噪声批中进一步筛选可重标注的样本；s36.将筛选的重标注的样本放入噪声批中，进行进一步地筛选，其余样本直接丢弃，不参与训练。2.根据权利要求1所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s1中，网络数据集为，其中和分别表示第个训练样本和对应的网络标签，n代表样本总数；独热分布形式的网络标签的标签分布表示为，深度神经网络对于每个输入的样本产生一个概率分布预测，其中表示第类类别；每个训练样本的概率分布预测与其标签分布之间的交叉熵损失函数为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1)；c表示类别总数。3.根据权利要求2所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s2中，定义软标签为个训练周期中各个类别的软标签集合，对于每个训练周期，软标签集合是一个的矩阵，其每列分别对应一个类别的软标签；软标签初始化为零矩阵，并在训练过程中动态更新；对于每个输入样本，当其预测结果与对应的标签一致，那么类别的软标签会借助预测的概率分布以如下方式更新：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.2)是预测结果与标签一致的样本数；为了让估计到的软标签更加稳定，采用指数平滑方法来融合以往训练周期的软标签估计结果，公式如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.3)其中，表示为控制以往结果权重大小的动量。4.根据权利要求3所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s23中，获取软标签后，使用周期估计出的软标签来监督周期的训练过程，软标签训练损失函数如下：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.4)软标签损失函数为非目标的类别分配了权重；在s24中，通过最大熵约束来引导模型输出更加平滑的预测概率分布，其公式为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.5)最大熵约束的目的是增加预测概率分布的熵。5.根据权利要求4所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s2的最后，类别正则化方法联合采用了独热标签与模型估计的软标签作为监督信息，并使用最大熵损失函数来提供正则化约束；类别正则化的训练损失函数可表示为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.6)其中，是用于平衡使用网络标签的交叉熵损失函数与软标签损失函数的权重，是最大熵约束的系数。6.根据权利要求4所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s31中，实例噪声净化方法采用js 散度度量每个样本的概率分布和它对应的类别软标签之间的距离，并以此作为噪声识别准则，公式如下：公式如下：公式如下：
ꢀꢀꢀꢀ
（6.7）其中，表示kl散度；在公式(6.7)中，js散度距离是一个对称的测量方式。7.根据权利要求4所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在
s32中，使用一个阈值，根据来区分干净和噪声样本；每个训练周期中的阈值定义如下：(6.8)其中，表示为整个训练集上所有样本js散度距离的集合，以及分别表示为计算平均值和标准差，是一个超参数；在模型的预处理阶段结束后，实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批，具体公式如下：具体公式如下：(6.9)。8.根据权利要求7所述的一种最大熵约束的类别软标签识别训练方法，其特征在于，在s34中，完成标签噪声的识别后，进一步在噪声批中筛选可重标注的图像,首先计算噪声样本的概率分布与其预测类别的软标签之间的js散度距离，公式如下：(6.10)由于js散度距离的范围是在之间，可使用一个硬阈值在噪声批中筛选可重标注的样本，具体公式如下：具体公式如下：(6.11)。

技术总结

本发明公开一种最大熵约束的类别软标签识别训练方法，方法包括如下步骤：S1.首先在一个含噪声的网络数据集D上训练深度网络模型，通过交叉损失函数得到次有的模型；S2.基于软标签的类别正则化策略，来获取每个类别的软标签；S3.采用类别正则优化策略后，获取每个类别的软标签，利用类别软标签从实例的角度，进行噪声净化。本发明中的方法首先使用了最大熵正则化方法，使模型输出的标签变得平滑并以此估计每个类别的软标签，软标签能指导模型学习类别间的相似性，以促进细粒度分类性能的提升。以促进细粒度分类性能的提升。以促进细粒度分类性能的提升。