拟合模型与改进数据集偏差：REPAIR算法的研究

148 浏览量更新于2023-10-19 收藏 747KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9572REPAIR：通过数据集恢复夷离UC San Diegoyil898@ucsd.eduNunoVasconcelos UC圣地亚哥nvasconcelos@ucsd.edu摘要现代机器学习数据集可能对某些表示有偏见，这些表示被算法利用来实现高性能，而无需学习解决底层任务。这个问题被称为“代表性偏见”。研究了如何减少数据集的表示偏差问题，提出了一种新的数据集表示偏差消除（REPAIR）方法。这将偏差最小化公式化为一个优化问题，寻求一个权重分布，该权重分布容易惩罚基于给定特征表示的分类器的示例。然后，偏差减小等同于最大化重新加权数据集上的分类损失与地面实况类标签的不确定性之间的比率。这是一个极小极大问题，REPAIR通过使用随机梯度下降交替更新分类器参数和数据集重采样权重来还引入了一个合成和动作识别数据的实验表明，数据集REPAIR可以显着减少表示偏差，并导致在REPAIRed数据集上训练的模型的泛化能力得到改善。用于表征表示偏差的工具和提出的数据集RE-PAIR算法可在https://github.com/JerryYLi/Dataset-REPAIR/上获得。1. 介绍在过去的十年中，深度神经网络（DNN）在各个领域实现了变革性的进步，在大规模基准测试中提供了卓越的性能然而，就像任何其他机器学习系统一样，DNN的质量在这方面，至少有两个令人关切的问题。首先，它们在训练域之外的泛化能力有限[32，2]。这通常被称为数据集偏差。其次，学习过程可能会导致有偏见的深度学习算法[3，25]。代表性偏见是这个问题的一个例子，从火车-在数据集上进行操作，这些数据集支持某些表示而不是其他表示[22]。当一个数据集很容易通过采用一个特定的特征表示φ来求解时，它被称为偏向φ。偏见本身并不是负面的：如果场景的分类，在一定的应用环境中，是高度依赖于某些对象的检测，成功的场景识别系统很可能需要详细的对象表示。在这种应用背景下，场景识别数据集应该表现出对象偏差。然而，在缺乏测量和控制偏倚的机制的情况下，尚不清楚从实验中得出的结论是否受到不期望的偏倚的污染。在这种情况下，学习算法可能只是过拟合数据集偏差，阻碍了特定数据集之外的泛化。这个问题与动作识别特别相关，在动作识别中，各种各样的视觉线索可以提供动作类标签的信息，并被不同的算法利用。在文献中，不同的算法倾向于实现不同的表示。一些模型从一个或几个视频帧中推断动作类别[27，14，40]，而其他模型则试图对长期依赖性进行建模[35，37，9];一些模型专注于对人体姿势进行建模[15]，而一些模型则更喜欢结合上下文信息[10]。一般来说，两种算法在偏向于表示的数据集上表现同样好e.G.具有静态或单帧偏差的数据集在用消除这种偏差的例子来扩充数据集时，可以以完全不同的方式表现，例如，通过要求更多的时间推理。如果没有能力控制数据集的静态偏差，就不可能排除这样的可能性，即良好的性能是由于算法能够拾取虚假的静态视觉线索（例如，背景、对象等）而不是模仿动作。在这项工作中，我们研究了如何减少数据集的表示偏差的问题为此，我们引入了一个新的REPresentAtionbIas删除（REPAIR）程序的数据集恢复，偏差最小化作为一个优化问题的配方的基础上。REPAIR寻求一组示例级别的权重，这些权重对基于给定特征表示的分类器来说很容易。这是通过使用DNN作为特征提取器来实现的，9573感兴趣的表示和学习独立的线性分类器来对这些特征进行分类。然后，偏差减少等同于最大化该分类器在重新加权的数据集上的损失与地面真值类标签的不确定性之间的比率。我们表明，这减少到一个极大极小问题，解决了交替更新的分类器系数和数据集的reserved权重，使用随机梯度下降（SGD）。除了介绍数据集修复程序，我们开发了一个实验程序，其评估。在这项工作中，我们考虑两种情况第一个是一个对照实验，我们明确地将颜色偏差添加到灰度图像的其他无偏数据集。这使得能够设计实验，明确测量识别性能作为偏差量的函数。第二个是视频中的动作识别，其中许多流行的数据集都具有静态偏差。在这两种情况下，数据集REPAIR被证明大大减少了代表性偏差，这是不可能的随机二次抽样。一个通用的设置，然后引入模型训练和评估的代表性偏差的影响进行评估。这有两个主要组成部分。第一个测量不同算法的性能如何作为数据集对给定表示的偏差的函数而变化。第二部分分析了表示偏差如何影响算法在数据集上的泛化能力在此设置中进行了各种实验，导致一系列有趣的发现模型在重采样数据集上的行为。总的来说，本文做出了三个主要贡献。第一个是一个新的配方的代表偏见最小化-灰作为一个可微和直接优化的问题。第二种是基于SGD的数据集重新排序策略REPAIR，它被证明能够显着降低代表偏倚。第三个是一个新的实验装置，用于评估数据集的restriking算法，这有助于确定这种restriking实现模型泛化和公平的算法比较的重要性。2. 相关工作公平的机器学习。随着数据驱动学习系统在越来越多的现实世界应用中的使用，这些系统所做决策的公平性和偏见成为一个近年来，已经提出了不同的标准来评估学习算法的公平性[38，7，12]，刺激尝试建立无偏算法。一般来说，深度学习系统善于捕捉甚至放大其监督信息中的偏差[25，39，1，29]。这在一定程度上是由于其训练的端到端性质，这鼓励模型利用有偏见的特征，如果这导致准确的分类。以前的工作主要集中在发现和解决学习模型中的不同偏见实例，包括性别偏见[3，39，1]和种族偏见[3，39，1]偏置[29]。然而，数据本身的偏差却较少受到社会的关注。数据集偏倚。虽然期望数据集类似于观测的概率分布，但数据收集过程可能会受到人为和系统因素的影响，导致数据集和真实数据之间以及两个数据集之间的分布不匹配。这被称为数据集偏倚[32，30]。[32]分析了不同图像识别数据集中存在的偏差形式，并证明了其对跨数据集模型泛化的负面影响。数据集偏倚已得到充分研究，可以通过域适应技术进行补偿[18，8，24]。表示偏差是一个较新的概念，描述了表示解决数据集的能力。它在[22]中首次明确提出，并用于测量现代动作识别数据集对对象，场景和人的偏见。表示偏差与数据集偏差不同，因为它能够实现潜在的例如，上下文偏差允许识别算法通过简单地观察其环境来识别对象[31]。即使智能体不仅仅依赖于捷径，它的决策也可能会偏向于这些表示，正如[25]在他们的案例研究中所示，形状偏差是如何被ImageNet上训练的模型捕获的视频动作识别。人类动作识别的早期努力主要依赖于压缩视频描述符编码手工制作的时空特征[20，34，35]。深度学习方法，如双流网络[27]，3D卷积网络[16，33]和递归神经网络[37]，使用学习所有相关特征的网络架构。许多动作识别工作的共同主题是捕获视频中的长期时间结构。然而，目前的数据集有大量的静态线索，可以放弃的行动（即。偏向静态表示），使得难以评估长期时间建模的重要性。在以前的工作中已经注意到并研究了这种静态偏置[10]利用上下文线索来实现最先进的动作识别性能。[6]可视化的动作模型，以发现训练数据中不必要的偏差。最后，[14]确定了可以在没有任何时间推理的情况下识别的动作类别。数据集恢复。恢复是指获得具有与原始分布不同的频率的样本点的做法。它通常用于机器学习中，通过对少数类进行过采样和对多数类进行欠采样来平衡数据集[5]。通过改变示例的相对频率，数据集恢复能够训练更公平的模型，这些模型不会区分少数类别。9574yiyi=13. 最小偏倚数据集恢复3.1. 表示偏差表示偏差[22]捕获数据集相对于表示的偏差。设φ：X → Z为特征表示。数据集D对φ的偏差是特征φ（x）在D上通过机会水平归一化的最佳可实现性能。在这项工作中，我们测量类-交叉熵损失偏差估计，并记录其交叉熵损失以及类频率。应当注意，（3）的偏置公式与[22]的偏置公式的不同之处在于：1）偏置值被适当地归一化到范围[0，1]，以及2）偏置相对于[0，1]是可微的。θ。最后一个属性特别重要，因为它可以实现偏置优化。3.2. 对抗性示例重新加权表示偏差可能是有问题的，因为它意味着数据集D更喜欢某些表示，而不是R（D，φ）=minEθX为oh[−logP（Y |Z; θ）]（1）他人虽然有一个未知的地面真理代表-对于在任务上实现最佳性能的数据集D，如果数据集其中X和Y是示例和它们各自的标记，Z=φ （ X ）是 X 的特征空间表示。这里 P （ Y|φ（X）;θ）由输入Z的softmax层（权重矩阵加上softmax非线性）计算，参数θ，通过梯度下降优化我们不微调表示φ本身以保留其原始语义;只学习softmax层的参数注意，最小化交叉熵损失鼓励softmax分类器输出真正的后验类概率P（Y|Z），我们可以将（1）改写为偏向于其他表现形式。我们提供了一些在第4.1节和第4.2节中有简单的例子。在这种情况下，需要修改数据集以使偏差最小化。我们在这项工作中探索的一种可能性是，执行数据集恢复。虽然（4）的风险和（5）的熵为D中的每个示例分配了相等的权重，但可以通过将某些示例优先于其他示例来控制换句话说，我们试图通过从现有数据集D中非均匀地采样样本来创建一个新的偏差减小的数据集D′。为此，它足以增加每个R（D，φ）=E=EZ，Y[−log P（Y |Z）]Σ Σ- logP（Y）−logP（Z，Y）示例（xi，yi）∈ D，权重wi对样本被重新选择的概率procedure.这将（4）和（5）转化为Z，YP（Z）P（Y）=H（Y）−I（Z，Y）（2）因此，风险R（D，φ）的上限为类标签Y的熵，并随着相互信息的减少而减少。R（D′，φ）min−θΣ|D|Σ|D|i=1WwiΣiwi logP（y i|x i; θ）（6）特征向量Z和标签Y之间的距离增加。因此，较低的R（D，φ）表明φ对求解D更有意义，即代表性偏差较大。这哪里H（Y′）−i=1ΣiiwiΣ对数p′、（7）通过将偏差定义为B（D，φ）=I（Z，Y）=1−R（D，φ）.（三）p′=i：yi=ywiiwi.（八）H（Y）H（Y）然后，目标是找到权重集{w i}| D|那最低-直觉上，偏差具有[0，1]中的值，其表征当观察到特征Z时关于类别标签Y的不确定性的减少归一化项H（Y）在数据集具有不同的最大限度地减少偏见B（ D′，φ）= 1−R（ D′，φ）H（Y ′）。（九）班级数量在实践中，用于定义偏差的术语（3）由经验值Σ这就引出了优化问题（w，θ）=最小值最大值V（w，θ）（10）R（ D，φ）min−1logP（y|x; θ）（4）W Σθ9575Σθ| D| （x，y）∈DV（w，θ）=1−iw ilog P（y i|x i;θ）wlogp′（十一）1iIyiH（Y）−|D| （x，y）∈Dlogpy（5）为了解决（10）的极大极小博弈，我们优化示例权重w =（w1，. . .，w| D|）和偏差估计量其中py是类y的频率。测量偏差因此相当于学习线性分类器θ，称为θ以交替的方式，类似于所用的程序训练对抗网络[11]。以保证9576yi权重 wi是二元概率，我们定义W 为S形函数 wi=ρ（ωi）=（1+e−ωi）−1∈（0，1）的输出，并直接更新ωi在整个训练迭代中，使用分类损失比例优化θ更准确地估计代表性偏差。另一方面，W的优化试图通过为错误分类的示例分配更大的权重来最小化该偏差估计。在收敛时，θ是重新加权数据集的偏差的精确度量，W确保该偏差确实最小化。根据分布wi恢复D导致数据集D′对于表示φ偏差较小，同时惩罚对分类没有贡献的类不确定性因为这具有均衡数据集对不同表示的偏好的效果，所以我们将此过程表示为数据集REPresentAtionbIas Removal（REPAIR）。3.3. 小批量优化4.1. 有色MNIST第一个案例研究基于MNIST的修改版本[21]，表示为有色MNIST。它利用了数字识别不需要颜色处理的直觉。因此，数字识别任务的地面实况表示不应涉及颜色处理。这对于在像MNIST这样的灰度数据集上学习的表示确实是有保证的。然而，通过引入颜色，可以创建偏向于颜色表示的数据集。实验装置。为了引入颜色偏差，我们对每个数字进行着色，对不同类别的数字使用不同的颜色，如图1a所示。通过将RGB 颜色空间中的颜色向量zi=（ri，gi，bi）分配给每个示例xi来执行着色颜色向量是从类相关的颜色分布，即。数字y的示例用从平均值μy=（μr，μg，μb）的正态分布py（z）中采样的向量着色，y y y大规模数据集上的有效优化通常需要小批量近似。上面的目标函数可以很容易地适应小批量算法。为此，只需定义协方差协方差Σy=σ2I.由于颜色的简单观察给出了数字，有色MNIST是偏向于颜色表示z。当在这个数据集上学习时，CNN可以实现高识别精度wiri=w<$wi为|D|Σiwi（十二）而不对除颜色之外的数字的任何属性建模。颜色分配方案还使得能够控制这种偏置的强度。通过改变均值和方差其中w<$是w i的样本a平均值。然后，（6）的风险和（7）的熵可以重写为在不同的类别中，可以在颜色分布之间产生或多或少的重叠，使得颜色或多或少地提供类别标签的信息。R（D′，φ）min−1 Σ|D|r ilogP（y i|x i; θ）（13）偏见与泛化为了了解如何代表-θH（Y′）−1|D||D| i=1Σ|D|rilogp′i=1，（14）假设偏差影响模型的公平评估，我们在有色MNIST训练集上训练了LeNet-5CNN，并在有色MNIST和原始（灰度）MNIST的测试集上验证了其识别数字的能力并从小批量中估计，|D|小批量生产这使得能够使用小批量SGD来求解（10）的最优权重。在实践中，在D组合的训练和测试分割上执行，以确保训练和测试集分布在重新分配后匹配。4. 案例研究在本节中，我们将介绍两个案例研究，用于研究偏倚减少。第一种是基于人为设置，其中可以明确控制偏差。第二种方法利用大规模视频数据集的自然场景进行动作识别.虽然地面实况表示对于该设置是未知的，但是怀疑若干偏差在现有数据集中是普遍的。在这两种情况下，我们研究了表示偏差如何损害模型评估的公平性，并阻止学习泛化良好的表示。数据集。为了控制有色MNIST的颜色偏差，我们改变了颜色分布的方差σ。图1b显示了在有色测试集上用（3）计算的偏差如何随σ变化。显然，增加方差σ会降低偏倚。这是意料之中的，因为大的差异会在不同类别的颜色之间产生更多的重叠，使颜色的区分性降低。图1c显示了学习的CNN在两个测试集上的识别准确度，作为颜色偏差的函数。从图中可以得出一些意见。首先，很明显，MNIST上的CNN性能随着偏差的增加而下降这表明表示偏差会损害CNN的泛化性能。其次，这种影响可能是压倒性的。对于最高水平的偏差，MNIST的性能下降到接近机会水平（在该数据集上为10%）。这表明，当有色MNIST对颜色有强烈的偏见时，CNN会学习一种主要考虑颜色的表示。虽然解决训练数据集（有色MNIST）是明智的，但这是一个可怕的策略9577恢复原始阈值秩cls_rank样本均匀0.80.6(a) 随机数字示例，重新排序之前（顶部）和之后（底部）0.41.00.80.60.40.20.00.1 0.2 0.3 0.40.5颜色偏差100806040200.2 0.4 0.6 0.8色偏0.20.0100908070600.100.15 0.20 0.25 0.30 0.35 0.40颜色偏差(b) 通过类内颜色变化控制偏差。(c) 在有偏（彩色）和无偏（灰度）测试集上测试准确性.(d) 上图：重采样数据集的偏倚。底部：泛化性能。图1：有色MNIST数据集上的数据集恢复。来解决一般的数字识别任务。正如MNIST上的糟糕表现所证明的那样，CNN没有学到任何关于数字或数字识别的知识，简单地过度拟合训练集的偏差。最后，也许也是最重要的，这种糟糕的泛化在有色MNIST测试集上是不可见的，CNN在该测试集上报告了欺骗性的高分类精度。问题是，像训练集一样，这是有偏见的颜色。请注意，添加更多的有色MNIST样式数据不会解决问题。过度拟合是由收集数据的过程引起的偏差引起的，而不是由于数据短缺。除非数据集收集程序发生变化，否则添加更多数据只会使CNN更有可能过度拟合偏差。虽然这个例子是人为的，但在实践中经常发生类似的问题。定义了一组类和一个数据收集过程，例如.在网上收集的数据，被选中。这些选择可能会引入表示偏差，这将独立于数据集的大小而存在。这种偏差有许多可能的来源，包括某些类可能出现在某些类型的背景下、包含某些对象、出现在某些类型的场景或上下文中、表现出某些类型的运动等。其中任何一个都可以扮演有色MNIST的数字颜色的角色一般来说，由于测试集是使用与用于收集训练集的协议类似的协议收集的，因此不可能从测试集结果中检测代表性偏倚或通过收集更多数据来减少偏倚因此，需要偏差减小技术。暂缓战略。我们接下来测试了RE-PAIR减少有色MNIST上的表征偏差的能力。REPAIR根据（10）在有色训练集和测试集组合上实现，学习率γθ=10−3和γw=10，持续200个epoch，产生最优的平均权向量W然后，这被用来实现一些采样策略。1. 保留（阈值）：保留所有示例，使得w i≥ t，其中t = 0。5是门槛;2. 排名（rank）：保持p=50%的最大权重wi的示例;3. 每类排名（cls排名）：保持p=50%来自每个类别的最大权重Wi的4. 抽样（sample）：保持每个样本i的概率为wi（丢弃概率为1 −wi）。5. 均匀（uniform）：保持p=50%的样本均匀随机。为了评估重新排序策略，我们测试了它们减少表示偏差和提高模型泛化能力的能力（MNIST上的测试准确性）。实验中采用不同的颜色方差σ来模拟不同程度的偏倚。在每个设置下，对5次运行的结果取平均值。图1d（顶部）显示了复位后的偏倚，作为σ的函数。所有四种策略，其中，相对于重新着色之前的偏置和通过均匀重新着色实现的偏置，重新着色利用权重，导致颜色偏置的显著降低。其中，阈值和排序对于大偏差（σ值较小）更颜色偏差的减少也导致了更好的模型泛化，如图1d（底部）所示这证实了大偏差会损害学习模型的泛化能力的预期。对REPAIRed数据集的示例进行视觉检查，如图1a（底部）所示，解释了这种行为。由于从颜色推断数字变得更加困难，CNN必须更强烈地依赖于形状建模，从而更好地推广。测试集彩色灰度色偏精度偏置准确度%95783.53.02.52.01.51.00.5播放长笛：0.974台球：0.085推力：0.977上拉：0.041风筝：0.955演奏竖琴：0.0560.00.0 0.2 0.4 0.6 0.8 1.01.2重量(a) UCF101(b) HMDB51。(c) 动力学图2：左：恢复权重的直方图右：每个数据集的最高和最低权重的示例0.80.60.40.20.0DatasetUCF101HMDB51动力学取样维修随机20 40 60 80 100数据集大小%在学习率γθ=10−3和γw=10−3的情况下，学习权重20k次迭代|D|因为要学习的权重w i的数量随着数据集大小线性增长。图2（左）显示了针对UCF 101 [28]、HMDB 51[19]和Kinetics [17]学习的重采样权重的分布;图2（右）显示了来自最高和最低权重视频的随机帧可以提出几点意见首先，REPAIR发现具有丰富静态线索的视频（例如，台球桌和平行垂直线演奏竖琴）。这些视频在重新播放期间获得较低的分数。另一方面，没有明显静态线索的视频（例如，复杂的人际互动），图3：静态偏倚与数据集大小的函数关系实例是随机或根据其权重移除。4.2. 情景二：动作识别视频动作识别是一项复杂的任务，具有各种潜在的偏见来源，如[22]的分析所示。在这项工作中，我们专注于静态偏置，即。偏向于单帧表示。观察到流行的动作识别数据集，如UCF 101 [28]和Kinetics [17]偏向静态特征，因为它们的大部分数据可以在不利用时间信息的情况下解决，最近的几项工作已经报道了[14，6]。然而，很少有人注意到偏见对动作识别模型的学习和评价的影响。在本节中，我们对静态数据集偏差和数据集上的模型性能之间的联系进行了深入分析。我们使用REPAIR来操纵数据集的静态偏差，通过根据学习的权重选择示例。然后，我们评估了流行的动作识别模型的性能这让我们以比较模型对数据中存在静态线索最后，通过检查在具有不同静态偏差水平的数据集上训练的模型，我们评估了它们捕获时间信息和学习跨数据集泛化的人类行为的能力。静态偏置最小化。我们使用从ResNet-50 [13]中提取的ImageNet特征实现了φ，ResNet-50是静态图像识别的典型表示。修复更有可能被选入重采样数据集。其次，优化不学习将所有权重设置为零的平凡解决方案。相反，所有视频的权重范围从0到1，在直方图的两端形成两个聚类第三，虽然所有数据集都包含大量导致静态偏差的视频，但Kinetics包含更多大权重（w >0）的视频。5），在组装新数据集时实现更多自由。按照第4.1节的排名策略，视频按权重递减排序。然后通过保留数据的前p%并消除其余部分（p值变化）来形成重新采样的数据集。图3显示了这三个数据集的静态偏差是如何通过这个重新排序过程来减少的。这是比较随机抽样相同数量的例子。公式（3）的偏差被计算为5次测量的最大值，每次训练偏差估计器θ时都有不同的权重衰减，范围从10−1到10−5，以防止由于训练数据不足而导致的过拟合。偏差曲线验证了REPAIR的有效性，因为静态分类器在REPAIRed数据集上的表现要弱得多（因此静态偏差较小）。这与随机采样不同，随机采样不会显著影响偏倚测量。这些结果也很有趣，因为它们使我们能够在相当大的值范围内改变静态数据集偏差，以便进一步使用动作识别模型进行实验。视频模型vs.静态偏差。为了评估表征偏差如何影响不同的动作识别性能UCF101HMDB51动力学偏置密度9579数据集大小100%（原始）75% 50% 25%平均每年生产总值%UCF10190807060504040 60 80100数据集大小%HMDB517060504030201040 60 80100数据集大小%动力学605040302040 60 80 100数据集大小%图4：动作识别模型在重采样数据集上的评估。在这些模型中，我们在原始和REPAIRed动作数据集上训练和评估了来自文献的1. 2D ConvNet（C2 D）：基线ResNet-50独立应用于每个帧，然后对预测进行平均。在ImageNet上进行预训练[26]。2. 时间片段网络（TSN）[36]：根据片段共识从视频的多个片段中聚合特征（我们使用RGB-diff）在ImageNet上预先训练。3. Inflated 3D ConvNet（I3 D）[4]：从2D Inception-v1网络膨胀的时空在ImageNet和Kinetics上进行预训练。这些网络通过SGD进行微调，学习率为10−3，动量为0.9，在UCF 101 和HMDB 51 上迭代10k ，在Kinetics上迭代50k图4显示了所有三个模型在三个数据集上的性能很明显，所有网络在REPAIRed数据集上的性能（静态偏差较小）都低于原始数据集。准确性的下降是动作模型对静态特征的依赖性的度量，我们将其表示为模型的静态偏差依赖性。更准确地说，我们将模型对表示φ的静态偏置依赖系数β定义为随机采样数据集和RE-PAIRed数据集上的模型性能之间的差异，在重采样率上取平均值（在这种情况下为0.25，0.5和0.75）。β越大，模型越多地利用静态偏差来求解数据集;β=0表示模型性能与静态偏差无关。表1总结了不同模型的依赖系数，表明C2D的静态偏置依赖性比TSN和I3D大得多虽然这种比较本身并不足以得出一个模型优于其他模型的结论，但更近网络的静态偏差依赖性降低表明，建立更好的时空模型的努力正在取得成效。图4中另一个值得注意的观察结果是，根据模型在原始数据集上的表现对模型进行排名不一定有意义。例如，虽然C2D在UCF 101上的表现优于TSN，但在50%和25%的恢复后，情况相反。这表明，排名表1：在三个不同的数据集上评估的三个动作识别模型的静态偏差依赖系数β表2：从Kinetics到HMDB 51的交叉数据集泛化超过12个普通类。每个类的AP见图5动作识别架构的复杂性可以简单地反映出它们在多大程度上利用了表征偏差。例如，如果数据集具有较大的静态偏差，则较强的时态模型可能表现不佳，从而可能导致模型评估的不公平性。通过减少代表偏见，REPAIR可以减轻这种不公平。跨数据集泛化。接下来，我们比较了在原始数据集和重采样数据集上训练的I3D模型的性能。与图1c的有色MNIST实验不同，不可能在无偏测试集上评估泛化。相反，我们测量了跨数据集泛化，设置与[32]类似这假设数据集不具有完全相同类型的表示偏差，在这种情况下，过度拟合训练集的偏差将妨碍泛化能力。我们使用Kinetics作为训练集，HMDB51作为泛化性能的测试集。这两个数据集共有12个动作类。虽然UCF 101和Kinetics之间共享了更多的类，但它们都收集在YouTube上，并且具有非常相似的分布。相反，HMDB51由来自电影和其他公共数据库的视频组成I3D模型在Kinetics的原始和修复版本的12个类上进行训练，并在HMDB 51的相同类上进行评估，而不进行微调模型的泛化是通过平均精度（AP）来评估的，平均精度是针对每个常见类别来测量的。图5总结了型号I3DC2DTSN取样维修随机准确度%准确度%准确度%C2D [27]TSN [36]I3D [4]UCF1010.2130.1150.065HMDB510.2360.1480.155动力学0.1460.1460.128平均0.1980.1360.1169580鼓掌60拥抱吻90笑110上拉俯卧撑2050805010090104070 908010090骑自行车0.2 0.4 0.6偏置握手7060500.2 0.40.6偏置1009080仰卧起0.2 0.4 0.6偏置烟雾90800.2 0.40.6偏置筋斗30200.2 0.40.6偏置剑20100.2 0.4 0.6偏置图5：在REPAIRedKinetics数据集上训练的I3D模型的类级跨数据集泛化。测试集为HMDB51。对于12个类中的每一个，I3D模型作为训练集中的静态偏置的函数。为了直观地显示这两个变量之间的相关性，我们还显示了一条在不同点上回归的直线。每个子图中从右到左的四个点分别对应于在原始数据集上训练的模型和具有75%、50%和25%采样率在12个班级中，偏误与泛化呈负相关此外，对于模型概括最差的类，即拥抱、空翻和剑，相关性往往是强烈负的。反之，在概括成绩高的班级中，正相关出现.这表明，在类水平上，两个数据集的偏差之间存在很大差异。泛化能力好的类是那些在数据集之间共享偏差的类，而低性能的类则有不同的偏差。平均精密度（mAP）如表2所示，所有12个等级在修复后都增加了1.2%，验证了修复对改善的有效性。证明模型泛化。学习模型中的时态推理。最后，我们更详细地分析了在REPAIRed数据集上学习的I3D模型，旨在了解其泛化性能的改进。我们假设，在需要保持较少静态线索的情况下，网络（即使结构不变）应该学会做出更多依赖于视频时间结构的推断。为了验证这个假设，我们做了一个简单的实验。给定一个输入视频，我们测量了从其常规64帧剪辑和其时间反转版本中提取的特征向量之间的欧氏距离。该距离在测试集中的所有视频剪辑上被平均，并且被表示为模型的时间结构得分。较大的分数反映了模型更强调视频的时间结构，而不是单独处理帧。注意，由于I3D的3D卷积核是通过复制2D网络的滤波器来初始化的[4]，因此在没有训练的情况下，时间结构得分应该为对于这个实验，我们使用了 20 BN- Something-Something-V2 [23]数据集的测试集，该数据集以表3：在上训练的I3D模型的时间结构得分UCF 101、HMDB 51和动力学，在Something-Something-V2测试集上进行评价。其动作类通常依赖于时间箭头的事实（例如，开幕式vs. 关闭或覆盖vs. 未覆盖）。表3总结了所有学习模型在Something-Something测试集上获得的分数。该表显示，对于REPAIRed数据集，随着从数据集中移除更多有偏差的视频，分数增加这不仅仅是数据集大小减少的结果，因为随机丢弃相同数量的样本，分数变化很小。这证明静态偏差是视频动态建模的障碍，而数据集REPAIR有可能克服这一障碍。5. 结论我们提出了一种新的数据集恢复过程，用于最小化数据集的表示偏差。基于新的偏差公式，将最小偏差问题等价为一个极大极小问题，并通过随机梯度下降法求解。数据集修复被证明是有效的，无论是在控制设置的有色MNIST和大规模的现代动作识别数据集。我们进一步介绍了一组实验，用于评估偏见消除的效果，这将表示偏见与识别模型的通用化能力及其评估的公平性联系起来。我们希望我们的工作将激励更多的努力来理解和解决机器学习不同领域中的代表性偏见。鸣谢这项工作得到了 NSF 奖项 IIS-1546305 和 IIS-1637941以及NVIDIA的GPU捐赠。AP类%AP类%训练集采样百分百训练集大小75% 50%百分之二十五修复1.761.921.96随机1.75 ±.031.79 ±.041.78 ±.05修复2.032.252.31随机2.02 ±.022.07 ±.072.08 ±.02动力学修复3.673.633.683.83随机3.66 ±.083.56 ±.043.59 ±.039581引用[1] Lisa Anne Hendricks ， Kaylee Burns ， Kate Saenko ，Trevor Darrell和Anna Rohrbach。妇女也滑雪：克服偏见的字幕模式.在欧洲计算机视觉会议（ECCV），第771-787页[2] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议（ECCV），第472-489页[3] Tolga Bolukbasi ， Kai-Wei Chang ， James Y Zou ，Venkatesh Saligrama，and Adam T Kalai.男人对于计算机程序员就像女人对于家庭主妇一样？去偏置字嵌入。神经信息处理系统进展（NIPS），第4349-4357页，2016年[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在计算机视觉和模式识别会议（CVPR），第4724-4733页[5] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，and W Philip Kegelmeyer. SMOTE：合成少数过采样技术。人工智能研究杂志（JAIR），16：321[6] Christoph Feichtenhofer，Axel Pinz，Richard P Wildes，and Andrew Zisserman.我们从动作识别的深层表现中学到了什么？在计算机视觉和模式识别（CVPR）会议上，第7844- 7853页[7] Michael Feldman ， Sorelle A Friedler ， John Moeller ，Carlos Scheidegger ，and Suresh Venkatasubramanian. 认证和消除不同的影响。在ACM SIGKDD知识发现和数据挖掘国际会议（KDD），第259-268页[8] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。在 International Conference on Computer Vision（ICCV），第2960-2967页[9] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad：学习动作分类的时空聚合。计算机视觉和模式识别会议，第3165- 3174页，2017年[10] Georgia Gkioxari Ross Girshick和Jitendra Malik。用r*cnn进行上下文动作识别。在国际计算机视觉会议（ICCV），第1080-1088页，2015年。[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），第2672- 2680页，2014年[12] Moritz Hardt，Eric Price，Nati Srebro，等.监督学习中的机会平等。神经信息处理系统（NIPS）进展，第3315-3323页，2016年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议（CVPR）中，第770-778页[14] De-An Huang，Vignesh Ramanathan，Dhruv Mahajan，Lorenzo Torresani ， Manohar Paluri ， Li Fei-Fei ， andJuan Carlos Niebles.什么让视频成为视频：分析视频理解模型和数据集中的时间信息。在计算机视觉和模式识别会议上，第7366-7375页[15] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid，and Michael J Black.对行动识别的理解。国际计算机视觉会议（ICCV），第3192-3199页，2013年[16] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），35（1）：221[17] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。[18] Aditya Khosla ， Tinghui Zhou ， Tomasz Malisiewicz ，Alexei A Efros，and Antonio Torralba.消除数据集偏差的损害。欧洲计算机视觉会议（ECCV），第158-171页，2012年[19] Hildegard Kuehne，Hueihan Jhuang，Est´ıbaliz Garrote，Tomaso Poggio，and Thomas Serre. HMDB：一个用于人体运动识别的大型视频数据库。国际计算机视觉会议（ICCV），第2556-2563页，2011年。[20] 伊万·拉普捷夫关于时空兴趣点。International Journal ofComputer Vision（IJCV），64（2-3）：107[21] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[22] Yingwei Li，Yi Li，and

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

拟合模型与改进数据集偏差：REPAIR算法的研究

数据拟合的算法

matlab中fit函数有哪些拟合模型

数据拟合算法和多项式拟合算法区别

pytorch降低模型过拟合

当出现过拟合时如何改进模型

python代码：使用ARIMA模型，只有一列数据，分成训练集和测试集，在训练集上拟合模型，在测试集上预测

用线性回归模型拟合数据集的matlab代码

基于最小二乘法的数据拟合算法有哪些

怎么解决分类算法模型训练数据过拟合问题

过拟合的模型偏差和方差

遗传算法的数据拟合改进

3.什么是过拟合？避免过拟合都有哪些措施？

matlab拟合曲线系数不准

怎么在python机器学习中使用标准SVM模型进行计算。在训练数据集中拟合你的算法，然后在测试数据集中验证你的算法。计算训练和测试数据集的错误分类误差、权重向量、偏差和支持向量的指数(从0开始)。

遗传算法改进matlab

如何将comsol处理结果利用机器学习算法进行插值和拟合

梯度提升（Gradient Boosting）算法 怎么避免过拟合

excel用ransac算法拟合圆

说明RANSAC平面拟合算法滤除地面数据的算法的局限性以及改进方法

过拟合的原因和解决方法

最新资源

梯度提升（Gradient Boosting）算法怎么避免过拟合