部分注释组标签下的公平学习:CGL提升准确度与公平性

0 下载量 99 浏览量 更新于2025-01-16 收藏 1.02MB PDF 举报
"本文探讨了在现实世界中组公平性学习面临的挑战,即部分注释的组标签问题。作者提出了一种名为CGL(Confidence-based Group Label assignment)的策略,用于改善在部分注释组标签下的公平性和准确性。CGL通过辅助组分类器分配伪组标签,对低置信度样本赋予随机标签。理论分析和实验结果显示,CGL能与最先进的公平性感知方法结合,提升目标精度和公平性。此外,CGL还能增加给定组标签数据集的多样性,进一步提升准确性和公平性。" 在机器学习领域,公平性已经成为一个至关重要的议题,特别是在涉及敏感属性如种族、性别等的应用中。然而,大多数公平学习的方法依赖于完全注释的组标签,这在实际中并不常见,因为获取这些标签既昂贵又可能涉及隐私问题。论文中提出的问题是,当只有部分组标签可用时,如何有效地训练公平的分类器。 集群公平与部分注释(Fair-PG)是研究者模拟的更为实际的场景。在这种情况下,现有的公平学习方法表现甚至不如使用全部数据和目标标签的常规训练。为了应对这一挑战,CGL策略应运而生。CGL的核心是利用一个辅助的组分类器来生成伪组标签,对那些置信度低的样本,会分配随机标签。这种策略的设计旨在减少因错误或不确定的组标签而导致的不公平性。 作者通过理论分析证明了CGL在公平性标准上的优越性,并在多个基准数据集上进行了实验,结果显示CGL与先进的公平学习算法结合,能同时提升目标分类的准确性和公平性度量。此外,CGL还有助于扩展数据集,使得在保持目标标签不变的情况下,通过增加组标签多样性,进一步提高了模型的准确性和公平性。 CGL提供了一种有效的方法,解决了部分注释组标签带来的公平性学习难题,为现实世界中的公平机器学习实践提供了新的思路。通过优化组标签分配策略,它增强了模型在有限标注情况下的性能,有助于构建更加公平和准确的分类模型。