长尾识别：利用相互学习的框架提高长尾数据的表示质量

201 浏览量更新于2023-10-15 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2675长尾识别彰化公园42点公司Changhwa. 42dot.ai严俊浩*LG能源解决方案AI技术部门junho. lgensol.com全恩智*现代汽车集团先进技术开发研究所ejjun@hyundai.com摘要深度神经网络在人工平衡的数据集中表现良好，但现实世界的数据通常具有长尾分布。最近的研究集中在开发无偏分类器，以提高尾类的性能。尽管努力学习一个好的分类器，我们不能guarantee一个坚实的性能，如果表示质量差。然而，在长尾设置中学习高质量的表示是困难的，因为尾类的特征很容易过拟合训练数据集。在这项工作中，我们提出了一个相互学习的框架，通过交换网络之间的信息，在长尾设置中生成高质量的表示。我们表明，所提出的方法可以提高表示质量，并在几个长尾识别基准数据集上建立新的最先进记录，包括 CIFAR 100-LT ， ImageNet-LT 和iNaturalist 2018。1. 介绍深度神经网络在人工平衡数据集中表现出很高的识别准确性，例如ImageNet [8]，COCO [21]和Places[35]。然而，在实践中很难获得精细操纵的数据而不是长尾分布的数据[25]。在不平衡的情况下，一个简单学习的神经网络很容易被头类控制，而在尾类中表现得很糟糕[1]。明显的问题是分类器预测与长尾分布纠缠在一起[15]。在这方面，最近的几项研究集中在通过正确校准分类器边界来学习无偏分类器[17，15，33]。例如，代替实例平衡（自然）采样，已经使用跨类均匀采样的类平衡采样。这些，*在现代汽车集团AIRS公司完成的工作图1：分别在CIFAR 100-LT上通过独立学习和相互学习训练的表示的t-SNE可视化。为了比较尾类中的代表质量，选择了十个随机尾类。GIES通过增加尾类的性能来增强整体性能，但是这常常受到头类性能下降的影响更重要的是，以分类器为中心的方法的性能受到学习表示的质量的限制。在长尾环境中很难学习高质量的表示，因为它过度拟合有限数量的尾类样本。如果来自不同类的样本混合在学习的表示空间中，无论我们如何精细地调整分类器边界，性能都例如，图1（左）显示了使用交叉熵损失和实例平衡采样学习的尾类表示为了量化学习表示的质量，我们冻结了特征编码器，并使用测试数据集训练线性分类器。然后，线性分类器的精度可以被认为是上限精度，我们定义它为特征精度。虽然实例平衡采样比其他采样策略学习更好的表示[17]，但其fea2676∼∼准确率为58.3%。换句话说，任何分类器都无法通过学习表示获得高于58.3%的准确率，无论我们如何微调它。因此，在长尾环境下学习高质量的表示以实现更高的性能至关重要。在这项研究中，我们提出了一个框架，以提高质量的表示下，长尾的情况下，立场和结合无偏分类。由于表示学习的最佳策略不同于分类器训练的最佳策略，因此我们利用表示和分类器的解耦学习。例如，实例平衡采样比类平衡采样学习更好的表示，而类平衡采样比实例平衡采样学习更好的分类器[17]。在传统的分类问题中，提高泛化能力的一个简单方法是集成多个网络。另一方面，长尾识别存在上述固有问题，因此我们专注于促进表征学习。为了提高特征级的泛化能力，我们提出了一个使用相互学习技术的简单而有效的框架[32]，该技术可以一起训练多个网络并惩罚其输出之间的分歧。我们的动机是相互学习的属性，它纠正了模型没有看到的彼此。来自对等模型的信息可以减轻模型过度拟合尾类样本的趋势，使它们能够学习更好的使用特征准确性和其他分类器微调方法[17]，我们根据经验证明，相互学习可以提高长尾条件下的表示质量例如，使用图1（右）所示的相互学习学习的表示具有61.4%（+3.1%）的特征准确度此外，我们发现，采样策略是重要的协作学习，实例平衡采样优于类平衡采样。在学习到的高质量表示之后，我们可以应用任何无偏分类器。在本文中，我们应用一个简单的分类器，后补偿softmax（PC softmax）[15]，将训练数据分布与模型预测分开。我们提出以下意见和贡献。• 我们专注于学习更好的表示，并建议相互学习来实现它。我们的经验表明，在长尾环境中，相互学习比独立学习可以学习到更多的概括性特征。• 抽样策略很重要：即使在相互学习中，实例平衡采样也比类平衡采样学习更多的可推广的表示。• 我们提出了一个有效的框架，结合提出的特征提取方法与一个简单的解纠缠分类，PC softmax。• 我们在各种长尾基准数据集上广泛评估了所提出的框架，包括CIFAR 100-LT [3]（+0.1 1.7%），ImageNet-LT [22]（+2.8 2.9%）和iNaturalist 2018[27]（+2.0%），并实现了最先进的性能。2. 相关作品2.1. 重新平衡经典的重采样方法包括欠采样高频实例[9]，过采样低频实例[4，11]和类平衡采样[26，23]。另一种补偿不平衡分布的方法是成本敏感型学习，它给予辅修课更多的权重[20，3，7，29]。然而，这些方法被修剪为过拟合小类或欠拟合大类，导致整体性能不令人满意。2.2. 多专家网络最近，基于多专家的方法通过追求每个专家的专业知识，在头类和尾类中都有显著的性能改进。BBN [34]动态地结合了采用实例平衡采样器的传统学习分支和采用类平衡采样器的重新平衡分支。RIDE [28]独立训练多个专家，同时惩罚专家间的相关性，以鼓励他们之间的多样性。ACE [2]引入了互补专家，其中每个专家被分配了一个多样但重叠的类子集。与这些方法相反，我们追求专家之间的协作学习，以学习更好的表示。NCL [18]还使用了协作学习的概念，结合硬类别挖掘来刺激从局部角度的学习。然而，由于它结合了多个优化功能，它遭受超参数调整，并且其算法设计使用独立的网络作为专家需要大量的计算能力。在本文中，我们提出了一个简单而有效的方法，很容易适应其他方法。2.3. 知识蒸馏与相互学习从教师模型到学生模型的知识蒸馏[14]最近被引入长尾识别领域。LFME [30]将整个长尾数据集划分为具有较小不平衡的子集来训练专家模型，然后将知识提取到统一的学习模型中。RIDE [28]将知识蒸馏从具有更多专家的模型应用到具有更少专家的模型，以进一步改进。SSD [19]和DIVE [13]分别利用自我监督和功率归一化来获得更平坦的标签分布作为教师信号。与单向知识蒸馏相反，深度互学习[32]提出了协作学习的方法，267712·KKKKΣ。=L相互K−1LK在整个培训过程中，学生们互相教授专家的次级类概率充当彼此的显着线索，并且学习模型发现比独立模型更宽的最小值。与我们的工作类似，[10]还发展了具有实例平衡采样和类平衡采样的协作学习的概念。然而，我们做了一个有趣的观察，抽样策略是重要的相互学习，因为它是在独立的培训。我们的经验表明，只使用实例平衡采样学习更好的代表性，并实现更高的分类精度。3. 方法3.1. 总体框架相关信息帮助彼此避免落入局部最小值。在长尾识别问题中，由于尾类的基数有限，独立模型特别容易陷入尖锐的极小值。我们利用相互学习损失来寻找长尾环境下更鲁棒的极小值，并获得更好的代表性。当专家数量为2时，相互学习损失定义如下[32]：LMutual=DKL（p2<$p1），（1）LMutual=DKL（p1<$p2），（2）其中pk=σ（gθk（fθ（x），σ（）表示软极大函数.当有两个以上的专家时，我们可以单独使用每个队列，也可以使用他们的集合作为老师。如果我们将每个队列用作教师，则每个专家的相互学习损失变为L=1天l=1，lK（pp）.（三）当使用队列模型的集合作为教师时，每个专家的相互学习损失被定义为：LMutual=DKL（pavgpk），（4）K平均功率1=K−1l=0.01，l=0.01坡湖（五）K图2：总体框架。在训练阶段，我们采用相互学习损失和分类损失来学习高质量的表示。在推理阶段，使用PC softmax来平衡有偏差的预测。总体框架如图2所示。我们使用共享骨干架构来降低计算复杂度，类似于[28]。为了说明，fθ是共享的我们的经验发现，有没有显着的差异，在使用合奏信号作为教师和使用每个队列作为教师之间的性能在实验中，我们采用集成教师的相互学习损失。每个专家的监督交叉熵损失在addi-如下图所示，相互学习的损失L分类= − log pk（y）。（六）由所有专家，每个专家表示为gθk，其中k∈[1，K]，K是专家的个数。输出总的来说，总体目标如下K的fθ被馈送到每个专家，其中包括全连接层，并且专家的输出受到分类。L总K分类K相互Σ。（+LKL2678七）气化损失，L分类和相互学习损失，L相互的k=1所有专家使用实例平衡采样器，并在整个训练过程中共同训练在通过相互训练学习高质量的表示后，我们采用PC softmax作为分类器。3.2. 相互学习损失提出了相互学习损失[32]来提取队列模型之间的队列模型利用上述目标，共享骨干网络和所有专家一起训练。3.3. 后补偿Softmax我们利用相互学习来获得比独立学习更一般化的表示。虽然所提出的框架可以与任何其他以分类器为中心的方法一起应用来训练分类器，但我们采用2679θ4Kk=1ΣK推理阶段的后补偿（PC）策略[24，1，16，15]，这是简单的，几乎没有成本。在长尾条件下，训练数据集的标签分布往往与测试数据集的标签分布不由于学习的模型与训练数据集的标签分布紧密相关，因此它在测试数据集上的表现很差。PC softmax调整模型hPC（x）[y]=hθ（x）[y]−logps（y）+logpt（y），（8）其中h θ（x）=1Kg θ（f θ（x）），专家输出的集合，p s和p t分别是训练数据集和测试数据集的标签分布。我们在推理阶段使用专家输出的集合3.4. 特征概化许多长尾识别方法同时学习特征和分类器。正如[17]所指出的，目前假设通过一种方法学习的模型的特征泛化能力优于另一在这种情况下，当使用相同的分类方法时，我们可以预期前者的表现优于后者在这方面，我们强调学习更好的表示的重要性，它可以与其他以分类器为中心的方法结合使用。为了量化学习表示的质量，我们在测试数据集的冻结特征上测量线性分类精度为了说明，在训练之后，我们推断测试数据集上的特征，并使用推断的测试特征和测试标签训练单个然后，使用测试数据集学习的分类器的准确度作为分类准确度的上限，我们称之为特征准确度。我们评估质量的学习表示使用相互学习和独立学习，通过这种措施。相互学习的特征准确率高于独立学习的特征准确率，证明了相互学习在生成高质量表征方面的有效性。更多结果和讨论见第4.3节。4. 实验4.1. 实验装置4.1.1数据集ImageNet-LT[22]使用Pareto分布[25]从ImageNet-2012数据集[8]中采样，幂值α= 6。它总共有115.8K图像，来自1000个类，每个类最多1280个图像，每个类最少5个图像。CIFAR 100-LT[3]是CIFAR- 100的长尾版本，每个类的训练样本较少。失衡比率被定义为类的最大和最小大小之间的比率在CIFAR 100-LT中，类的其余大小呈指数衰减。我们在三个不平衡比上进行实验，10、50和100。iNaturalist 2018[27]是一个用于物种分类的大规模真实世界数据集。它总共有来自8142个类别的437.5K图像，并且具有500的高不平衡率。4.1.2实现细节我们使用ResNet-32 [12]用于CIFAR 100-LT，ResNet-50和ResNeXt-50 [31]用于ImageNet-LT，ResNet-50用于iNat- uralist 2018作为我们的骨干。在[28]之后，网络的前两个阶段作为共享的骨干，而后面的阶段作为专家每个专家中的过滤器数量减少1，以降低计算成本，这与[28]的设置相同对于所有的实验，我们采用了一个三专家模型，其计算成本与基线模型相当。我们使用余弦分类器和SGD优化器，所有数据集的动量为0.9。对于CIFAR 100-LT，我们主要遵循[3]的实验设置。训练周期为200，采用多步学习率调度，在第 160 和 180个周期时学习率分别降低 0.1 。对于ImageNet-LT和iNaturalist 2018，我们主要遵循[33]的协议。ImageNet-LT和iNaturalist 2018的训练历元是180和200，并且使用余弦学习率调度器。为了评估测试数据集上的线性分类精度，我们首先用学习的模型推断所有测试样本，并创建测试特征数据集。然后，我们初始化一个单层全连接网络，该网络以特征为输入，并使用交叉熵损失对其进行训练。我们使用SGD，动量为0.9，用于200个epoch。初始学习速率为0.1，在第160和180个历元时衰减0.1报告学习的分类器的前1准确度4.1.3竞争方法我们将所提出的方法与最近的最先进的方法进行比较：基于两阶段的方法（MiSLAS [33]）、logit调整训练（ LADE [15] ）、知识推理（ LFME [30] 、 SSD[19]、DIVE [13]）和多专家(BBN[34]，RIDE [28]，ACE [2]，NCL [18]）。对于多-专家为基础的方法，除了BBN，他们的三个专家模型的结果借用一个公平的比较。4.1.4评估指标我们在相应的测试数据集上评估训练好的模型，并报告所有类别的前1名准确率为了调查每个类的准确性并分析模型在类的基数不同时的表现，我们还报告了整个模型的三个子集的平均准确性。2680‡††PC Softmax†ACE [2]表1：使用ResNet-50和ResNeXt-50的ImageNet-LT上的Top-1准确度。表示使用RandAug- ment [5]训练400个epoch的模型。GFlops主要基于[28]方法很多。几表3：CIFAR 100-LT的Top-1精度，不平衡比为10、50和100。带符号表示直接从[15]中借用的结果。表示我们用发布的代码再现的结果。方法Top-1准确度交叉熵65.069.3BBN [34]表2：在具有ResNeXt-50的ImageNet-LT上与最新技术水平的类的前1准确度比较。以下为[22]：多镜头（包含超过100个样本）、中镜头（包含20到100个样本）和少镜头（包含低于20个样本）类。报告了三次独立运行的平均准确度4.2. 与现有技术的4.2.1ImageNet-LT上的结果表1示出了所提出的方法优于在具有各种骨干网络ResNet-50和ResNeXt-50的ImageNet-LT上不使用额外增强的现有技术方法。RIDE，特别是，惩罚专家间的相关性，而我们的方法鼓励专家之间的协作学习，并在ResNet-50上，RIDE，目前最好的方法，2.8%。此外，与ResNeXt-50上最先进的方法ACE相比，性能提高了 2.9% 。当使用 RandAugment [5] 并使用更长的epoch进行训练时，所提出的方法的性能与使用三个独立网络作为专家的NCL一样好或更好，因此需要比我们的方法更多的GFlops。表4：iNaturalist 2018上的前1名准确性。带符号表示直接从[15]中借用的结果。为了进一步评估所提出的方法，我们还在表2中报告了每个类别子集的平均准确度。将PC softmax引入到使用交叉熵损失学习的模型中可以提高整体精度，如表1所示，但它牺牲了表2中的多镜头类的性能与仅使用PC softmax相比，我们的方法与相互学习技术，甚至提高了多镜头子集的性能，并超过所有类别子集上的所有4.2.2CIFAR 100-LT的结果在CIFAR 100-LT上进行了大量实验，不平衡比为10、50 和 100 ，结果见表 3 。与在特定不平衡比 cir-cumstances上显示出最佳精度的先前方法相比，所提出的方法针对所有不平衡比设置产生新的最先进的结果值得注意的是，我们的方法优于使用混合增强的最先进的方法，如MiSLAS和ACE。方法RES-50ResX-50ResX-50 GFlops交叉熵47.949.04.29（1.0x）PC Softmax52.753.54.29（1.0x）LADE [15]-53.04.29（1.0x）MiSLAS [33]52.7-4.29（1.0x）SSD [19]-56.0-潜水[13]-53.1-[28]第二十八话54.956.44.69（1.1x）ACE [2]54.756.66.03（1.4x）我们57.759.56.12（1.4x）[6]第六话57.058.2-[18]第十八话59.560.512.86（3.0x）我们的59.460.86.12（1.4x）†不平衡比1050100交叉熵†BBN [34]LADE [15]MiSLAS [33]SSD [19]潜水[13][28]第二十八话59.061.259.161.763.262.362.058.0-45.549.547.050.552.350.551.151.950.741.045.342.645.447.046.045.448.049.4我们63.354.049.6交叉熵68.943.212.6PC Softmax†69.6PC Softmax64.850.631.9LADE [15]70.0LADE [15]65.148.933.4MiSLAS [33]71.6SSD [19]66.853.135.4SSD [19]71.5潜水[13]64.150.431.5潜水[13]71.7[28]第二十八话67.653.535.9ACE [2]72.9我们70.256.739.1我们74.92681∼方法独立相互表5：与独立学习网络的比较。报告了CIFAR 100-LT在不平衡比为100的情况下的Top-1精度。在两个专家的网络上训练相互学习模型，并评估每个模型的性能。“Feature” denotes the feature accuracy on the test4.2.3iNaturalist 2018为了评估所提出的方法在现实世界长尾情况下的有效性，我们在iNaturalist 2018上进行了实验。结果见表4。我们的方法优于其他方法与一个大的margin，证明了其有效性的细粒度数据集与高不平衡率。为了说明，我们可以观察到iNaturalist 2018上的ACE性能提高了2.0%，其不平衡率为500。4.3. 相互学习我们进一步评估了在长尾环境下，相互学习在获得高质量表征方面的有效性。为了研究它，我们独立地训练一个模型，以及一个模型与相互学习损失进行比较。在训练模型之后，我们考虑以下分类器来探测学习到的表示的质量：与表示（联合）、分类器再训练（cRT）、最近类均值分类器（NCM）、τ-归一化分类器（τ-normal）、可学习权重缩放（LWS）[17]、PCsoftmax和在测试数据集上训练的分类器联合学习的分类器。结果见表5。我们可以观察到，通过相互学习学习的表示比在各种分类器上独立学习的表示具有更高的准确性。特别地，在测试数据集线性分类中，性能提高这些结果表明，互学习对长尾识别中高质量表征的学习有积极的影响。通过相互学习提高表示的质量很容易适应其他方法。为了证明，我们将两个专家相互学习模型应用于基线方法，焦点损失 [20] ， LDAM [3] 和 MiS-LAS[33]。如表6所示，所有方法的准确度为了更好地理解长尾条件下相互学习的作用，我们演示了预学习中的差异是如何影响学习的方法许多Med.几所有Focal [20]65.035.18.037.4焦点+ML69.438.56.339.6（+2.2）LDAM [3]61.443.419.642.6LDAM+ML66.646.422.246.2（+3.6）MiSLAS [33]63.346.722.746.8MiSLAS+ML63.349.426.548.9（+2.1）表6：将相互学习应用于其他方法的效果。报告了CIFAR 100-LT在不平衡比为100的情况下的前1精度。“ML”表示相互学习。两个专家之间的措辞、训练和测试分类损失随着多镜头、中等镜头和少镜头类别子集的训练进展而改变。图3a显示，在独立学习的整个训练过程中，少镜头类比多镜头类表现出更高的预测差异。这表明尾类样本的训练结果是高度随机的，收敛到一个不太普遍的解决方案。在图3b和3c中，我们可以观察到独立学习收敛到比相互学习更低的训练分类损失，但更高的测试这意味着相互学习具有正则化效应，这导致更好的泛化。此外，独立学习和相互学习之间的训练分类损失以及测试分类损失的差异在尾类中显著大于头类。这表明相互学习的正则化效果在尾类样本中比头类样本更强我们猜想，相互学习允许专家交换二级概率，使他们不太可能下降，即使是尾部类样本的急剧专家们接收到相同的超视觉信号，但由于他们的初始状态不同，他们采取不同的学习路径，使他们能够转移超视觉信号，许多Med.几所有许多Med.几所有联合67.538.57.939.570.340.27.240.9（+1.4）cRT [17]61.043.519.942.663.246.922.445.2（+2.6）NCM [17]58.244.723.443.159.146.625.444.6（+1.5）τ-范数[17]64.042.217.942.567.743.915.943.8（+1.3）LWS [17]61.043.921.543.263.246.924.045.7（+2.5）2682(a)专家之间的预测差异（b）训练分类损失（c）测试分类损失图3：CIFAR 100-LT上两专家模型独立和相互学习的预测差异和分类损失轨迹。报告每个类别子集的平均损失。图4：CIFAR 100-LT上每个子集的不同采样策略的特征精度和PC softmax精度。“I”和“C”分别指实例平衡采样和类平衡采样。例如，他们以前从未见过的类之间的关系。在图1中，我们生成了尾类的t-SNE嵌入，以显示通过相互学习学习的特征与通过独立学习学习的特征我们可以看到，在少数情况下，通过相互学习学习的特征比其他特征更线性可分4.4. 抽样策略在独立训练中，已经证明使用实例平衡采样比使用类平衡采样产生更好的我们发现，它也适用于协作学习框架。为了说明这一点，我们对两个专家模型的协作学习进行了三种不同的采样策略实验：实例平衡采样+实例平衡采样（我们的设置，I+I），实例平衡采样+类平衡采样（I+C）[10]和类平衡采样+类平衡采样（C+C）。在图4中，我们测量了特征的准确性，以确定他们学习表示的程度。我们可以观察到，仅使用实例平衡采样的采样策略比使用类平衡采样的采样策略获得了更高的总体特征精度。特别是，仅使用类平衡采样器，其他抽样策略。PC softmax精度结果显示出类似的趋势。这些发现表明，即使在协作学习模式下，当学习线性可分表示时，实例平衡采样也优于类平衡采样。4.5. 较大的专家编号图5显示了所提出的方法如何与更多的专家进行扩展。我们可以观察到，随着专家数量的这表明，在长尾情况下，尾部类的泛化能力较差，可以通过与大量专家的互学习进一步增强我们还可以观察到，利用合奏教师进行相互学习产生了类似的结果，使用每个单独的队列作为教师。这与将相互学习应用于均匀分布的数据集相反;使用单个队列教师比使用集合教师产生更好的性能[32]。我们的推理是，对少数镜头类的预测更有可能是不准确的，所以合奏老师是一个更好的信息来源，在长尾设置比在统一设置。2683L图5：使用ResNeXt-50的ImageNet-LT上不同数量的专家的前1准确率。“Ensemble” denotes the ensemble 个别教师和全体教师代表了3.2节中描述的相互学习损失的两种变化。专家数量L分类L相互PC Softmax 许多医学。少数所有12.6 49.0✓64.850.631.953.5✓69.155.137.358.173.947.818.453.8表7：各组分有效性的消融研究报告了使用ResNeXt-50的 ImageNet-LT上的Top-1准确度4.6.消融研究方法许多Med.几所有我们提供了烧蚀模型投资-交叉熵68.741.810.347.9门的贡献，每个组成部分的交叉熵+PC64.150.329.052.7（+4.8）表7中的框架。表7显示PC softmax在-MiSLAS [33]61.751.335.852.7将基线模型的准确性提高了4.5%。嗯...利用三位专家的降维技术MiSLAS+PC43.345.952.345.8（-6.9）性能提高了4.7%，与其他竞争的多专家方法相当。通过应用Mutual，我们可以进一步提高模型这些结果表明，所提出的框架有一个优势，仅仅是一组专家。虽然PC softmax在这个框架中对模型性能有明显的影响，但将其应用于其他现有方法可能是无效的，因为它们已经使用了平衡分类器。表 8显示了将 PCsoftmax应用于基线方法的结果。由于其他方法已经使用了自己的平衡技术，因此将PC softmax应用于它们会过度补偿尾部类，同时惩罚头部类，从而导致性能降低5. 结论在本文中，我们重新审视了相互学习策略，以促进更好的表示长尾识别。我们表8：将PC softmax应用于其他方法。报告了使用ResNet-50 的 ImageNet-LT 的 Top- 1 准确度。 “PC”denotes PC经验表明，相互学习可以帮助我们学习比独立学习更多的概括性特征最后，我们强调了采样策略在相互学习中的重要性，证明了实例平衡采样的性能最好。我们在几个长尾识别基准上广泛评估了相互学习的效率，包括 CIFAR 100-LT ， ImageNet-LT 和 iNaturalist2018，并实现了最先进的性能。最后但并非最不重要的是，相互学习框架简单，易于适应其他尖端方法。1✓1✓2✓ ✓3✓ ✓3✓3✓ ✓✓70.054.837.258.2✓70.256.739.159.5[28]第二十八话66.251.734.954.9RIDE+PC59.751.745.353.9（-1.0）2684引用[1] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。对卷积神经网络中类不平衡问题的系统研究。神经网络，106：249-259，2018。[2] 蔡家瑞，王益州，黄正能。Ace：联合互补专家，一次性解决长尾识别问题。在IEEE/CVF计算机视觉国际会议（ICCV）中，第112-[3] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。In H.Wallach，H.拉罗谢尔A.B e ygelzime r 、 F.d'Alc he´-Buc ， E.Fox 和 R.Garnett ， editors ， Advances in Neural InformationProcessing Systems，第32卷。Curran Associates，Inc.2019年。[4] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，and W Philip Kegelmeyer. Smote：合成少数过采样技术。人工智能研究杂志，16：321[5] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页[6] 崔杰泉，钟智生，刘舒，俞蓓，贾继亚.参数对比学习。在IEEE/CVF计算机视觉，第715-724页[7] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在IEEE/CVF计算机视觉和模式识别会议论文集，第9268-9277页，2019年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] 克里斯·德拉蒙德和罗伯特·霍尔特C4.5、类别不平衡和成本敏感性：为什么欠采样胜过过采样。ICML'03不平衡数据集学习研讨会论文集[10] 郭昊和宋望。基于均匀和重新平衡采样的协作训练的长尾多标签视觉识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第15089-15098页[11] Han Hui，Wen-Yuan Wang，and Bing-Huan Mao.边缘打击：一种新的非平衡数据集学习的过采样方法。在智能计算国际会议上，第878-887页。Springer，2005年。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Yin-Yin He，Jianxin Wu，and Xiu-Shen Wei.提取长尾识别的虚拟示例。InProceedings ofIEEE/CVF计算机视觉国际会议（ICCV），第235-244页，2021年10月。[14] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识。在NIPS深度学习和表示学习研讨会，2015年。[15] Youngkyu Hong ， Seungju Han ， Kwanghee Choi ，Seokjun Seo，Beomsu Kim，and Buru Chang.用于长尾视觉识别的标签分布分解。在IEEE/CVF计算机视觉和模式识别会议论文集中，第6626-6636页，2021年[16] Justin M Johnson和Taghi M Khoshgoftaar。类不平衡的深度学习研究综述。Journal of Big Data，6（1）：1[17] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。在学习代表国际会议，2020年。[18] 李俊，谭子昌，万俊，雷震，郭国栋。用于长尾视觉识别的嵌套协作学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第6949- 6958页[19] 李天豪，王利民，吴刚山。自监督蒸馏长尾视觉识别。在IEEE/CVF计算机视觉国际会议论文集，第630-639页[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[22] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X Yu.开放世界中的大规模长尾识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第2537-2546页[23] Dhruv Mahajan，Ross Girshick，Vignesh Ramanathan，Kaiming He ， Manohar Paluri ， Yixuan Li ， AshwinBharambe，and Laurens Van Der Maaten.探索弱监督预训练的局限性在欧洲计算机视觉会议（ECCV）的会议记录中，第181-196页[24] Dragos Margineantu.什么时候不平衡的数据需要比成本敏感的学习更多。在AAAI'2000研讨会上从不平衡数据集学习的会议记录中[25] 威廉·里德帕累托、齐夫和其他幂律。生态经济学通讯，74（1）：15[26] 李申，林舟晨，黄清明。中继反向传播用于深度卷积神经网络的有效学习欧洲计算机视觉会议，第467-482页。施普林格，2016年。[27] Grant Van Horn，Oisin Mac Aodha，Yang Song，YinCui，Chen Sun，Alex Shepard，Hartwig Adam，PietroPerona，and2685塞尔日·贝隆吉自然物种分类和检测数据集。在IEEE计算机视觉和模式识别会议论文集，第8769-8778页，2018年。[28] Xudong Wang，Long Lian，Zhongqi Miao，Ziwei Liu，and Stella Yu.通过路由不同分布感知专家的长尾识别。2021年，在国际学术会议上发表[29] 吴桐，黄清秋，刘紫薇，王宇，林大华。长尾数据集中多标签分类的分布平衡损失。在欧洲计算机视觉会议上，第162-178页。Springer，2020年。[30] 柳玉香、丁贵光、韩军公。向多位专家学习：用于长尾分类的自定进度知识蒸馏。在欧洲计算机视觉会议上，第247-263页。Springer，2020年。[31] 谢赛宁、罗思思·吉希克、彼得·多尔·拉尔、朱奥文·图和何开明。深度神经网络的聚合残差变换。在IEEE计算机视觉和模式识别会议论文集，第1492-1500页，2017年。[32] Ying Zhang，Tao Xiang，Timothy M Hospedales，andHuchuan Lu.深度相互学习。在IEEE计算机视觉和模式识别会议集，第4320-4328页[33] Zhisheng Zhong，Jiequan Cui，Shu Liu，and Jiaya Jia.改进长尾识别的校准。在IEEE/CVF计算机视觉和模式识别会议论文集，第16489-16498页，2021年[34] Boyan Zhou，Quan Cui，Xiu-Shen Wei，and Zhao-MinChen. Bbn：用于长尾视觉识别的具有累积学习的双边分支网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第9719-9728页[35] Bolei Zhou，Agata Lapedriza，Jianxiong Xiao，AntonioTorralba，and Aude Oliva.使用地点数据库学习用于场景识别的深度特征。2014年

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

长尾识别：利用相互学习的框架提高长尾数据的表示质量

SEO如何运用长尾关键词

transformer 大模型 长尾算法

长尾分类python实现

百度 tomcat 的长尾词有哪些

长尾词seo排名优化

python的长尾分布函数库

谈谈你对长尾分布的看法

在语义分割方向上，数据存在什么难题？比如长尾分布问题，你还能举出三个例子吗？并详细说明。

alpha稳定噪声怎么抑制

长尾差分放大电路设计

以太网时延的长尾效应

实际应用中，当前的传统搜索引擎有哪些方面无法满足你们的需求？

拼多多关键词如何优化选取

序列推荐算法存在的问题

分类模型中长尾分布问题如何解决

Tackling Long-tailed Relations and Uncommon Entities in Knowledge Graph Completion

长尾式差动放大电路中Auc为什么不会是负的

请阐述长尾理论的概念。

国外近几年的推荐算法研究现状

最新资源

transformer 大模型长尾算法