1695生成对抗性少数过采样Sankha Subhra Mullick印度统计研究所印度加尔各答Sankhar@isical.ac.inShounak Datta杜克大学Durham,NC,美国Shounak. gmail.com印度统计研究所印度加尔各答swagatam. isical.ac.in摘要类不平衡是一个长期存在的问题,与深度学习的许多实际应用有关过采样技术在经典学习系统中有效地处理类不平衡,但不能直接应用于端到端深度学习系统。我们提出了一个凸生成器、多类分类器网络和真/假判别器之间的三人对抗游戏,以在深度学习系统中执行过采样。凸生成器从少数类中生成新样本作为现有实例的凸组合,旨在欺骗分类器和分类器对生成的样本进行错误分类。因此,人工样本是在类的外围附近的关键位置生成的这又以更可能减少来自次要类别的误分类的方式调整分类器诱导的边界。在多类不平衡图像数据集上进行的大量实验证实了该方法的有效性1. 介绍当数据集中存在的所有类不具有相等数量的代表性训练实例时,类不平衡的问题就会发生[19,11]。现有的大多数学习算法在训练集中存在类不平衡的情况下会产生有利于多数类的归纳偏差,从而导致对少数类的学习效果不佳这是一个经常困扰许多现实世界应用的问题,例如欺诈检测、密集对象检测[30]、医疗诊断等。例如,在医学诊断应用中,与健康个体的信息相比,关于不健康患者的信息是稀缺的。因此,传统分类器可能会将一些不适合的患者错误分类为适合,具有灾难性的影响[32]。多年来,机器学习社区已经开发了许多解决类不平衡的方法[24,4]。然而,这些技术中只有少数被扩展到深度学习,即使类不平衡在这样的网络中相当持久,严重影响了两者(a)(b)第(1)款(c)(d)其他事项图1.使用“玩具”数据集的插图:(a)使用独立分类器网络M的不平衡分类导致少数类实例(红点)的误分类。(b)使用条件GAN生成的人工少数点(绿色(c)新的点是通过用M交替地训练凸生成器G来生成的。这是一个两人对抗游戏,其中G试图生成M难以正确分类的样本。这导致了少数类上的理想性能,但代价是将多数类错误分类为G不遵守少数类的分布。(d)通过进一步引入广告来实现两个类的理想性能,以诱导对少数类分布的忠实性并限制流入多数类领土。特征提取以及分类过程[48,21,49,5,22]。现有的解决方案[21,10,43,30,6]用于处理深度神经网络中的类不平衡-工作主要集中在成本调整上,以将适当的更高成本分配给少数实例。另一类有趣的方法[50,12]专注于构建数据集的平衡子样本。Wang等人[44]提出了一种新的元学习方案用于不平衡分类。有趣的是,像SMOTE这样的过采样技术[8] 尽管对经典系统1696[14 ]第10段。这是因为深度特征提取和分类是以端到端的方式执行的,使得难以结合通常在特征提取之后进行的过采样。Ando和Huang [1]在他们提出的深度过采样框架(DOS)中尝试弥合这一差距。然而,DOS均匀地对整个少数类进行过采样,并且无法将人工实例集中在困难区域。此外,DOS的性能取决于类的邻域大小的选择,这必须通过昂贵的参数调整来确定。生成对抗网络(GAN)是生成模型的一个强大子类,已成功应用于图像生成。这是由于它们能够学习低维潜在空间与感兴趣的复杂分布(例如自然图像)之间的映射[15,33,36,35]。该方法基于试图生成与真实样本相似的样本的生成器与试图区分真实训练样本和生成样本的判别器之间的对抗游戏。GAN作为生成模型的成功使得Douzas和Bacao [13]研究了它们对少数类进行过采样的有效性。然而,尝试使用GAN对少数类进行过采样可能会导致边界失真[39],导致多数类的性能更差(如图1(b)所示)。此外,生成的点可能位于少数类的模式附近[42],而学习可靠的判别(分类)模型需要类边界周围的新点[17,18]。因此,在这篇文章中,我们提出了(在第3节)一种新的端到端特征提取分类框架,称为生成对抗少数过采样(GAMO),它采用少数类的对抗过采样来减轻类不平衡的影响。本文所作的贡献与现有文献的不同之处在于:1. 与现有的深度过采样方案[1,13]不同,GAMO的特征在于凸生成器G,分类器网络M和CNOID之间的三人对抗游戏。2. 我们的方法从根本上不同于前对抗分类方案(其中生成器与分类器协调工作以欺骗分类器)[38,27,41,35],因为我们的凸生成器G试图欺骗M和D。3. 与GAN [15]中使用的生成器不同,我们约束G以在感兴趣的类的凸包内变戏法点。此外,CNOD进一步确保G遵守类分布,1编码数据,网址:https://github.com/SankhaSubhra/GAMO。对于非凸类。因此,与M的对抗性竞争将G学习到的条件分布推向相应类的外围,从而有助于有效地补偿类不平衡4. 与[8,13]等方法相比,G可以基于从M获得的梯度对数据分布的不同位置进行不同程度的过采样。5. 对于需要平衡的图像训练集的应用程序,我们还提出了一种称为GAMO2pix(第5节)的技术,该技术可以从分布式表示空间中由GAMO生成的合成实例我们进行了一项消融研究,并在第4节中评价了我们的方法与最新技术相比的性能,并在第6节中做出了总结性评论。2. 相关作品SMOTE [8,9]的成功激发了几项改进。例如,[17,7]试图选择性地对靠近类边界的少数类点进行过采样。另一方面,像[18,29,2]这样的作品对少数类进行非对称过采样,使得在难以分类的实例周围生成更多的合成点。虽然这些方法在传统分类器上取得了值得称赞的改进,但由于深度学习算法的端到端结构和缺乏适当的图像之间的距离概念,它们既不能扩展到深度学习技术,也不能应用于图像。扩展GAN用于半监督学习,其工作原理类似于[27,38]通过引入额外的输出线来识别假样本,将c另一方面,[41]提出了一个c类判别器,它对假图像做出不确定的预测。此外,[35]提出了一种共享的分类器和分类器网络,它使用两个不同的输出层进行两组单独的预测。这些方法可以松散地被认为与GAMO相关,因为这些方法还将分类器并入对抗学习方案中。3. 该方法让我们考虑一个c类分类问题,训练数据集为XRD(通过平坦化或卷积特征提取网络F矢量化的图像)。设第i类的先验概率为Pi,其中i∈ C={1,2,···c};C是可能类标签的集合在不失一般性 的 情 况 下 , 我 们 认 为 类 是 有 序 的 , 使 得P1≤P2≤···