利用置信学习检测数据标注错误：自动化解决方案与开源工具

版权申诉

101 浏览量更新于2024-08-04 收藏 2.3MB PDF 举报

"别让数据坑了你！用置信学习找出错误标注（附开源实现）" 在机器学习和深度学习领域，数据的质量是至关重要的。然而，在实际操作中，我们经常会遇到数据标注的问题，比如标注错误、标准不一或者存在歧义。这些问题可能会严重影响模型的训练效果和最终性能。针对这一痛点，"置信学习"提供了一种有效的方法来识别并处理这些错误标注的样本。置信学习（Confidence Learning, CL）是一种源自ICML 2020年论文的概念，由MIT和Google的研究人员提出。它是一种框架，旨在识别并处理数据集中的标签错误，以应对噪声标签学习的挑战。论文《Confident Learning: Estimating Uncertainty in Dataset Labels》详细阐述了这种方法，其核心思想是通过对模型预测的不确定性进行量化，来识别那些可能存在错误的标注样本。传统的处理方式通常是人工清洗数据，但当数据规模较大时，这种方式变得难以实施。而置信学习则提供了一种自动化解决方案。通过训练模型，置信学习可以估计每个样本的标签不确定性，从而挑选出可能错误的样本，进一步进行人工校正或自动修正。置信学习的优势在于，它可以在不进行多次迭代的情况下发现标注错误的样本，这意味着可以更高效地处理大规模数据集。此外，该方法还提供了开源的Python包，使得研究人员和工程师可以方便地应用到自己的项目中。在实际应用中，置信学习不仅有助于提升模型的准确性和稳定性，还能降低对大量干净数据的依赖。在训练过程中，它可以动态调整权重，优先关注那些高置信度的样本，减少噪声标签的影响。这对于数据集质量参差不齐的情况尤其有用。然而，值得注意的是，置信学习并非万能的解决方案。它依赖于模型本身的泛化能力和对不确定性的估计能力。因此，选择合适的模型结构和训练策略也是确保置信学习效果的关键。同时，对于某些复杂的任务或特定领域的数据，可能需要结合领域知识和特定的预处理步骤来增强置信学习的效果。置信学习为处理数据标注错误提供了一个强大的工具，有助于提高机器学习项目的数据质量和模型性能。通过理解和应用置信学习，我们可以更有效地管理和利用有限的标注资源，从而推动机器学习模型的持续优化和改进。

论⽂最令⼈惊喜的⼀点就是作者这个置信学习框架进⾏了开源，并命名为cleanlab，我们可以 pip install cleanlab 使⽤。

cleanlab

我们要想找出错误标注的样本，通过使⽤cleanlab操作⼗分简单，我们仅仅需要提供两个输⼊，然后只需要1⾏code就可以找出

标注数据中的错误：

from cleanlab.pruning import get_noise_indices

输⼊

# s:

噪声标签

# psx: n x m

的预测概率概率，通过交叉验证获得

ordered_label_errors = get_noise_indices(

s=numpy_array_of_noisy_labels,

psx=numpy_array_of_predicted_probabilities,

sorted_index_method='normalized_margin', # Orders label error

)

这个输⼊是啥？很简单，⼀个输⼊是原始的样本标签（由于这些标签可能存在错误，我们称之为「噪声标签」吧〜），另⼀个输

⼊就是通过对训练集交叉验证，来预测的每⼀个样本在不同标签类别下的概率，这是⼀个nXm的概率矩阵（n为数据集⼤⼩，m

为标签类别总数）。

我们来看看cleanlab在MINIST数据集中找出的错误样本吧，是不是感觉很 〜

剩余11页未读，继续阅读

地理探险家

粉丝: 1216
资源: 5523

利用置信学习检测数据标注错误：自动化解决方案与开源工具

别让数据坑了你！用置信学习找出错误标注（附开源实现）.rar

cotraining算法实现半监督学习数字识别任务，怎么选择置信度最高的作为有标注数据加入到训练数据中的代码并注释

选取其中置信度较高的部分作为有标注数据加入到训练数据中 代码实现

通过3sigma找出异常值与置信区间找出异常值的区别

利用Apriori算法找出下列数据所有2项集，并计算他们的支持度和置信度。

如何利用Apriori算法找出数据所有2项集，并计算他们的支持度和置信度。

matlab二项分布作图以及置信率标注

如何绘制数据的置信椭圆

labelimg自动标注打错了怎么改

最新资源

选取其中置信度较高的部分作为有标注数据加入到训练数据中代码实现