训练多模态分类网络存在困难

7 浏览量更新于2023-10-23 收藏 721KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1是什么让训练多模态分类网络困难？Weiyao Wang，Du Tran，MattFeiszli Facebook AI{weiyaowang，trandu，mdf}@ fb.com摘要考虑多模式与具有多种输入模态的任务上的单模态网络：多模态网络接收更多信息，因此它应该匹配或优于其单模态对应网络。然而，在我们的实验中，我们观察到相反的情况：最好的该观察结果在不同的模态组合中以及在用于视频分类的不同任务和基准上是一致的本文确定了性能下降的两个主要原因：第一，多模网络由于容量增加，往往容易过度拟合。其次，不同的模态以不同的速率过拟合和泛化，因此用单个优化策略联合训练它们是次优的。我们用技术解决这两个问题数据集多模态V@1最佳单位V@1下降A + RGB71.4RGB72.6-1.2动力学RGB + OFA + OF71.358.3RGB的72.662.1-1.3-3.8A + RGB + OF70.0RGB72.6-2.6表1：单模态网络始终优于多模态网络。最好的单峰网络与后期融合多模态网络的动力学使用视频前1验证精度。单流模态包括视频剪辑（RGB）、光流（OF）和音频（A）。多模态网络使用与单模态相同的架构，在预测之前的最后一层通过级联进行后期融合RGB后接触预训练早停中途脱落我们称之为“顺从混合”，它计算一个操作，基于模态过拟合的模态时序融合。我们证明了梯度混合优于广泛使用的基线，以避免过拟合，并在各种任务上实现了最先进的准确性，包括人类动作识别，以自我为中心的动作识别和声学事件检测。1. 介绍考虑一个后期融合多模态网络，经过端到端训练来解决一个任务。单模态解是多模态网络可用解的严格子集;理论上，良好优化的多模态模型应该总是优于最佳的单模态模型。然而，我们在这里表明，目前的技术并不总是实现这一点。事实上，我们所观察到的与常识相反：在不同的模态（表1）和数据集（第3节中的详细信息）中，最好的单模态模型通常优于联合有趣的是，多输入流的性能下降似乎很常见，并在[24，3，38，44]中指出。这种（令人惊讶的）现象值得调查和解决。经检查，问题似乎是过拟合：71 71.5 72 72.5 73动力学准确度前1图1：标准正则化器在最好的单峰网络上没有提供很好的改进。最佳单模态网络（RGB）与多模态网络（RGB+音频）上的标准方法。避免过拟合的各种方法（橙色：预训练、提前停止和退出）不能解决问题。不同的融合架构（红色：中间级联融合、SE门和NL门）也没有帮助。Dropout 和 Mid-concatenation 融合方法提供了小的改进（+0.3%和+0.2%），而其他方法降低了准确性。多模态网络具有较高的训练精度和较低的验证精度。后期融合视听（A+RGB）网络的参数几乎是视觉网络的两倍，人们可能会怀疑过拟合是由参数数量增加引起的。有两种方法来解决这个问题。首先，可以考虑诸如dropout [43]，预训练或早期停止等解决方案来减少过拟合。另一方面，人们可能会推测这是一个体系结构上的缺陷。我们通过级联[37]和门控[31]进行中级融合实验，尝试挤压和激发（SE）[26]门和非本地（NL）[50]门。值得注意的是，这些都没有提供有效的解决方案-1269572.671.471.771.372.972.871.47212696MC1第对于每种方法，我们在图1中记录了动力学上的最佳视听结果。预培训未能- 错误的改进，和早期停止往往不适合RGB流。中concat和dropout只提供适度的改进RGB模型。我们注意到，dropout和mid-concat（与late-concat相比，参数减少了37%）比late-concat提高了1.5%和1.4%，证实了late-concat的过拟合问题详情请参阅补充资料我们如何将这些实验与以前的多模态成功相协调？多模态网络已经在包括声音定位[58]，图像-音频对齐[5]和视听同步[37，34]在内的任务上进行了联合训练。然而，这些任务不能用单一模态执行，因此没有单一模态基线，并且本文中发现的性能下降不适用。在其他工作中，联合训练完全避免使用预先训练的单峰特征。好的例子包括用于视频分类[41，48，19，12]和图像+文本分类[6，31]的双流网络。这些方法不联合训练多个模态，因此它们再次不可比较，并且由于独立训练，它们的精度可能是次优的。我们在本文中的贡献包括：• 我们实证证明了过拟合在多模态网络联合训练中的重要性，并确定了问题的两个原因我们发现问题是架构不可知的：不同的融合技术也可以遭受同样的过拟合问题。• 我们提出了一个度量来理解问题的量化：过度拟合泛化比（OGR），理论和实证证明。• 我们提出了一个新的培训计划，OGR通过多个监督信号的最佳混合（在某种意义上，我们在下面进行精确）。该梯度混合（G-Blend）方法在消融中获得显著增益，并通过结合音频和视觉信号，在包括Kinetics、EPIC-Kitchen和AudioSet在内的基准测试中实现了最先进的（SoTA）我们注意到，G-Blend是任务不可知的，架构不可知的，并且适用于其他场景（例如在[39]中用于将点云与RGB结合以进行3D对象检测）RGB+光流，创建双流融合网络[41，19，18，48，12]，通常使用预先训练的特征并专注于融合[27，19]或聚合架构[56]。相比之下，我们专注于整个网络的联合训练。而不是专注于架构问题，我们研究模型优化：如何联合学习和优化混合多模态信号。通过适当的优化，我们表明音频是有用的视频分类。多模态网络。我们的工作与以前对多模态网络[7]的研究有关，用于分类[41，48，19，21，12，6，10，31]，主要使用预训练，而不是我们的联合训练。另一方面，我们的工作与跨通道任务有关[53，20，42，4，57，24，9]，跨模态自监督学习[58，5，37，34]。这些任务或者采用一种模态作为输入，并且对另一种模态（例如，视觉&问答[4，57，24]，图像字幕[9]，视频中的声音定位[37，58]）或使用跨模态对应作为自我监督（例如，图像-音频对应[5]，视频-音频同步[34]）。相反，我们试图解决多模态网络分类的联合训练问题。多任务学习。我们提出的梯度混合训练方案与使用辅助损失的多任务学习中的先前工作有关[33，16，30，13]。这些方法要么使用统一/手动调整的权重，要么在训练期间学习权重作为参数（没有使用过拟合先验的概念），而我们的工作使用先验OGR重新校准超视信号。2. 基于梯度混合的多模态训练2.1. 背景单峰网络给定列车集合T={X1. n，y1... n}，其中Xi是第i个训练示例，yi是其真实标签，在单个模态m上训练（例如，RGB帧、音频或光流）意味着最小化经验损失：L（C（λm（X）），y）（1）其中m通常是具有参数Θm的深度网络，并且C是分类器，通常是具有参数Θc 的一个或多个全连接（FC）层。对于这里考虑的分类问题，L是交叉熵损失。最小化方程1给出一个解Θθ 和Θθ。图2a示出了独立的1.1. 相关工作视频分类。视频理解是近年来计算机视觉领域最活跃的研究方向之一。视频有两个独特的特征以前的作品m1和m2两种模式的dent训练。多式联运网络。我们在M个不同的模态（{mi}k）上训练后期融合模型。每个模态由具有参数Θ mi的不同深度网络处理，并且它们的特征被融合并传递到分类器C。为了-最重要的是，训练是通过最小化损失来完成的：在理解节奏[27，45，49，40，47，54，17]. 然而，在这方面，L多=L（C（μm1第二章···（2）视频也有多种形式：RGB帧、运动矢量（光流）和音频。利用多模态性质的以前的作品主要集中在其中表示融合操作（例如，连接）。图2b示出了两个模态m1和m2的联合训练的示例。等式中的多模态网络2是12697∆VNNNi=1NL1L2L多w1L1w多L多w2L2a)b）c）图2：单向阀与多模式联合训练。（a）两种不同模式的单一模式培训b）通过后期融合对两种模态进行初始联合训练c）具有监督信号的加权混合的两种模态的联合训练不同的深度网络编码器（白色）产生的特征（蓝色或粉红色矩形），其被连接并传递到分类器（黄色圆角矩形）。图3：过度拟合与泛化比率。在任意两个训练检查点之间，我们可以测量过拟合和泛化的变化。当BMO很小时，网络学习得很好，不会过度拟合。方程中的单模型网络的超集。1：对于方程的任何解，1在任何模态mi上，可以构造等式1的同样好的解。2通过选择使除mi之外的所有模态静音的参数Θc。在实践中，没有发现这种解决方案，我们接下来解释为什么。2.2. 泛化与过拟合过拟合通常被理解为学习模式非常好（对于欠拟合模型，训练损失和验证损失的差异非常小;换句话说，O很小）。因此，我们建议解决一个无穷小问题：给定梯度的几个估计，将它们混合以最小化无穷小OGR2。我们将此混合应用于我们的优化过程（例如，SGD与动量）。每个梯度步骤现在增加泛化误差尽可能少的每单位增益的验证损失，最大限度地减少过度拟合。在多模态设置中，这意味着我们将多个模态的梯度估计值组合在一起，并最小化OGR2，以确保每个梯度步长现在产生的增益不会比单个最佳模态的增益差。正如我们将在本文中看到的，这个L2问题有一个简单的封闭形式的解决方案，易于实现，并且在实践中效果很好。考虑单个参数更新步骤，其中估计梯度。由于两个检查点之间的距离很小（在保证梯度步长以减少火车损失的邻域中），我们使用一阶近似：GL，g和OLT−L，g。因此，对于单个向量g，.⟨∇LT−∇L∗,gˆ⟩Σ2在一个训练集中，不推广到目标分布。OGR2=⟨∇L∗,gˆ⟩（四）给定时期N处的模型参数，令LT为模型固定列车集上的平均损失，并且L是相对于假设目标分布的（在下文中，L近似为保留验证损失LV。）我们将在时期N处的过拟合定义为LT和L之间的间隙（在图3中近似为ON）。两个模型检查点之间的训练质量可以通过过拟合和泛化的变化（图中的ΔO，ΔG）来（3）第三章。在检查点N和N+n之间，我们可以定义过拟合泛化比（OGR）：..... n.. ON + n − ON。有关OGR的详细信息，请参见补充材料。2.3. 多个监控信号的混合OGR最小化我们可以通过将分类器附加到每个模态的特征和融合的特征来获得梯度的多个估计（参见图2 c）。Per-模态梯度{gi}k通过分别反向传播通过每个损失来获得（因此每模态梯度在网络的其他部分中包含许多零）。我们的下一个结果允许我们将它们全部混合到一个具有更好泛化行为的单一向量中。OGR. =..∗∗（三）. N，n.. LN − LN+n命题1（最佳梯度混合）。设{v}M为k0OGR 检查点之间的质量衡量学习信息（有交叉熵损失，它是比率一组估计，其过拟合满足ELT−L，vkLT−L，vj对于jk =0。不可推广的比特的比特）。我们建议在训练过程中尽量减少OGR。然而，opti-考虑到约束条件R代表问题kwk= 1最优权wk∈在全球范围内最大化OGR将是非常昂贵的（例如，变异，变异在整个优化轨迹上的逻辑方法）。InΣ。⟨∇LT − ∇L∗, Σkwkvk Σ2ΣΔ）=ΔVN*+ NON=V−TN NON*+ =V+−T+N* N*ΔO = ON*+ − ON时代V=4a5/6a7/201233损失12698此外，例如，非常不适合的模型仍然可以得分W = arg minEΣ你好，wv（五）焕光K K12699σKϕMii=1ni=1i=1i=1ZMi我i i=1ZOi2i=1给出1wk=2K（六）Σ∗接头头mk+1（图2c）。在实践中，我们可以使用训练集T′的子集来测量训练损失/准确性。为了计算从N训练n个epoch时的一致性混合权重，我们提供了一个一致性混合权重估计，其中σ2<$E[<$$> LT − <$L<$，v<$2]和Z=（L，vkKK是归一化常数。Σk2σ2Σ在算法1中。我们提出了两个版本的梯度-混合：1. 离线混合是一个简单的版本，假设E公司简介 − L，vkL T − L，vj 当两个模型的过拟合非常相关时，= 0为假。然而，如果是这种情况，那么通过混合它们的梯度可以获得非常少的效果。在非正式的实验中-我们确实观察到，这些交叉项相对于ELT−L，vk2通常很小。这可能是由于跨模态的互补信息，我们推测这是自然发生的，因为联合训练试图学习跨神经元的互补特征。命题1的证明见补充材料，包括相关情况下的公式。命题1可以与已知的混合多个估计量的结果进行比较;例如，对于平均值，通过混合具有与个体方差成反比的权重的不相关估计值来获得最小方差估计值（参见例如，[1]）。命题1是类似的，其中方差被O2代替，权重与个体O2成反比（现在有一个分子G）。梯度混合我们只计算一次权重，并使用一组固定的权重来训练整个时期。这很容易实现。参见算法2。2. 在线梯度混合是完整版本。我们定期重新计算权重（例如每n个时期-称为超级时期），并使用新的超级时代的权重。参见算法3。根据经验，离线表现非常好。我们在第3节中比较了两者，在线提供额外的收益。算法1：G-B权重估计：GB估计输入：N，在时期N n的模型检查点，时期的数量结果：得到了一组最优权值，损失为k+ 1对于i = 1，…， k +1do初始化单模态/朴素多模态网络N来自于RNN中的相应参数;在T上训练RNNn个时期，得到模型N+n;2.4. OGR和梯度混合在实践中的应用Mi计算过拟合量Oin =0，n，我们采用多任务架构来构建一个ap-上述优化的近似解（图2c）。通过损失重新加权实现最佳混合端根据等式Gi=GN，n，3用V和T′表示情态mi;在传播步骤中，针对mi的每模态梯度是mi，而来自融合损耗的梯度由等式（1）给出2（de-计算一组损失{w∈}k+1=1G;记为Lk+1）。取混合损耗算法2：离线顺从混合L混合物=k+1i=1（7）输入：100，初始化模型N，时期数结果：训练出多头模型CANN从而产生混合梯度Δk+1wΔ L。对于ap-计算每个模态权重{w}k=GB估计值（N =0，N）;这是一个很好的选择，补充渐变混合。直觉上，损失重新加权重新校准学习时间表，以平衡泛化-ii=1使用{wi}k训练100对于N个历元，以得到N/N;不同模态的过拟合率。在实践中测量OGR。实际上，L*是不可用的。为了测量OGR，我们保留训练集的子集V以近似真实分布（即，L VL）。我们发现，用准确度度量来计算G和O并从梯度混合估计最佳权重来替换损失度量同样有效。为了降低计算成本，我们注意到权重估计可以在数据的一小部分上进行，而不会太多地扰动权重（参见补充材料）。梯度混合算法采用训练算法3：在线自动混合输入：100，初始化模型N，时期数n，超历元长度对于i= 0，…，N−1do当前时期Ni=i<$n;计算每个模态权重{wi}k=GB估计值（Ni，Ni+n）;用{wi}k训练Nin个时期，以达到Ni+n;端数据T，验证集V，k输入模态{mi}k和127003. 消融实验3.1. 实验装置数据集。我们使用三个视频数据集进行消融：Kinet-ics、mini-Sports和mini-AudioSet。Kinetics是动作识别的标准基准，具有400个人类动作类的260k视频[28]。我们使用训练分割（240k）进行训练，使用验证分割（20k）进行测试。迷你体育是Sports-1 M [27]的子集，Sports-1 M是一个大规模分类数据集，包含487种不同细粒度体育的110万个视频。我们从训练分割中均匀地采样了240k视频，从测试分割中采样了20k视频。Mini-AudioSet是AudioSet [22]的子集，AudioSet是一个多标签数据集，由527个声学事件标记的2 M视频Au-dioSet是非常不平衡的类，所以我们删除微小的类，并对其余的类进行子采样（见补充）。均衡的mini-AudioSet有418个类，243 k视频。输入预处理增强。我们考虑三种模式：RGB、光流和音频。对于RGB和流，我们使用16×224×224的输入剪辑作为输入。我们遵循[46]进行视觉预处理和增强。为在音频中，我们使用具有100个时间帧和40个Mel滤波器的对数Mel音频和视频在时间上是一致的。方法夹V@1V@5幼稚训练仅RGB61.863.571.772.689.690.1离线G-Blend65.974.791.5在线G-Blend66.975.891.9表2：离线和在线梯度混合都优于朴素后期融合和仅RGB。离线G-Blend与在线版本的准确性稍差，但实现起来要简单得多3.3.梯度混合是一种有效的正则化方法在这个消融中，我们首先比较了在线和离线版本的G-Blend的性能然后，我们展示了G-Blend与不同类型的优化器一起工作，包括具有自适应学习率的优化器。接下来，我们展示了G-Blend在不同的多模态问题（不同的模态组合），不同的模型架构和不同的任务上提高了性能。在线G-Blend Works 我们从G-Blend的完整版本开始，在线G-Blend。我们使用初始超时期大小10（用于预热），5此后在带有RGB音频设置的Kinetics上，在线顺应性混合分别超过了单模态和朴素多模态基线的3.2%和4.1%的主干架构。我们使用ResNet 3D[47]作为我们的VI-RGB和流量的sual骨干和ResNet[25]作为我们的音频模型，都有50层。对于融合，我们使用两个FC层网络连接来自视觉和音频骨干的特征，然后是一个预测层。培训和测试。我们使用Caffe2 [11]在GPU集群上使用同步分布式SGD训练我们的模型，设置为[47]。我们提供了一小部分训练数据用于体重估计（Kinetics和mini-Sports为8%，mini-AudioSet为13%）。通过使用10个均匀采样剪辑的中心裁剪并对10个预测进行平均来进行最终视频预测。3.2. 朴素联合训练中的过拟合问题我们首先比较了朴素音频RGB联合训练与单峰音频和RGB训练。图4绘制了Kinetics（左）和mini-Sports（右）的训练曲线。在两个数据集上，音频模型过拟合最多，视频过拟合最少。与纯视频模型相比，朴素联合音频-RGB模型具有更低的训练误差和更高的验证误差;即，朴素音频-RGB联合训练增加了过拟合，解释了与单独视频相比准确度下降的原因。我们扩展的分析，并确认严重的过拟合其他多模态问题。我们考虑了三种模态（音频、RGB和光流）的所有4种可能组合。在每种情况下，朴素联合训练的验证准确度都明显低于最佳单流模型（表1），并且训练准确度几乎总是更高（参见补充材料）。在线的权重在图1中。5点一般来说，体重在开始时趋于稳定，稍微更注重视觉;然后，我们看到在第15个时期的过渡，其中模型对视觉主干进行“预训练”;在第20个时期，A/V主干获得所有权重以同步来自视觉主干的学习。之后，权重逐渐稳定下来，重点放在视觉学习上。我们认为，一般来说，神经网络学习的模式在训练的不同阶段是不同的[36]），因此过拟合/泛化行为在训练期间也会发生变化;这导致在训练的不同阶段具有不同的权重。此外，我们观察到G-Blend总是优于在线设置中的朴素训练（图1A）。5 b）。使用相同的初始化（在历元0、10、15、…40），我们比较了G-Blend模型和超时期（在时期10、15、20、…45），并且G-Blend模型总是优于朴素训练。这表明，G-Blend总是提供更普遍的训练信息，经验证明命题1。此外，它显示了最小化OGR的相关性，因为使用最小化OGR的权重提高了模型的性能。为了公平比较，我们修复了Naive A/V和G-Blend的主干并微调了分类器，在时期25，增益较小，因为G-Blend将几乎所有权重放在A/V头上，使得其与该超时期的朴素训练几乎无法区分。离线G-Blend也适用。虽然在线G-Blend提供了显着的收益和解决过拟合很好，但它实现起来更复杂，并且由于12701误差（%）动力学学习曲线1小型运动学习曲线10.90.90.80.80.70.60.70.50.60.40.30.50.40.20.10 5 1015202530354045时代0.30 5 1015202530354045时代图4：动力学和迷你运动上的原始音频-视频模型的严重过拟合。音频模型（A）、视频模型（B）和音频模型（C）的学习曲线（错误率）(V)，以及Kinetics（左）和mini-Sports（右）上的朴素联合音频-视频（AV）模型。实线表示验证误差，而虚线表示训练误差。音频-视频模型比视觉模型过拟合更多，并且在验证损失方面低于仅视频模型。10.80.60.40.2在线G-Blend权重0.80.750.70.650.60.55在线G-Blend：每步比较0051015202530354045时代（一）0.51015202530354045时代（b）第（1）款表3：不同优化器上的G-共混物。我们在两个额外的优化器上比较了G-Blend与Visual only和Naive AV：AdaGrad和Adam。G-Blend始终优于仅视觉和朴素AV基础-图5：在线G-Blend。 (a)每个头部的在线G-Blend权重。（b）在线G-Blend在每个超时期上都优于朴素训练。对于每个超时期（5个时期），我们使用模型的相同快照通过G-Blend学习，并在接下来的5个时期比较G-Blend和naive训练的模型的性能。G-Blend总是优于朴素训练。这证明了G-Blend总是在每一步水平上学习更多的泛化信息。额外的重量计算。正如我们现在看到的，Of- fline G-Blend可以很容易地被采用，并且在实践中工作得非常好。在Kinet-ics上的相同音频RGB设置下，离线G-Blend也比单峰基线和朴素联合训练的表现好得多，分别为2.1%和3.0%（表2），并且仅略差于在线（ -1.1%）。基于这种观察，我们选择在其余消融中使用离线我们推测，在线版本对于本文未涉及的某些情况特别有用，例如快速学习的低容量模型（可能使用一些冻结的预训练特征），与从头开始训练的高容量模型配对。自适应优化器。第2.2节介绍了无限小设置中的G-Blend：在单个优化步骤中混合不同的梯度估计，并假设相同的学习每个梯度估计器的速率。这对于许多流行的基于SGD的算法是正确的，例如具有动量的SGD然而，对于动态调整每个参数的学习速率的自适应优化方法，例如Adam [32]和AdaGrad [15]，假设可能不严格我们的经验表明，离线顺从混合（算法2）也适用于不同的优化。由于SGD在三个优化器中给出了最好的精度，我们选择在所有其他实验中使用SGD。不同的模式。在动力学方面，我们研究三种模式的所有组合：RGB、光流和音频。所有三个优化器上的行。表4呈现了我们的方法与朴素联合训练和最佳单流模型的比较在所有多模态问题上，与两个基线相比，我们观察到G-Blend的显著增益。值得注意的是，G-Blend足够通用，可以用于两种以上的模态。不同的建筑。我们对中间融合策略[37]进行了实验，该策略的过拟合程度较低，并且优于视觉基线（图1）。在视听设置上，顺应性混合提供了0.8%的改善（前1从72.8%到73.6%）。在具有低秩多模态融合（LMF）的不同融合架构上[35]，梯度混合给出4.2%的改进（top-1从69.3%到73.5%）。这表明，除了后融合和级联之外，其他融合策略和其他融合架构也可以采用级联混合。不同的任务/基准。我们选择了音频-RGB模型联合训练的问题，并在不同任务和基准测试上更深入地比较梯度混合与其他正则化方法：动作识别（ Kinet-ics ）、运动分类（ mini-Sports ）和声学事件检测（mini-AudioSet）。我们包括三个基线：在级联层添加dropout [43]，预训练单流骨干，然后微调融合模型，并将监督信号与相等的权重混合（这相当于具有两个辅助损失的朴素训练）。辅助损失被广泛用于多任务学习，我们扩展它作为多模态训练的基线。如表5中所示，梯度混合在动力学和迷你运动上以显著的裕度优于所有基线。在mini-AudioSet上，G-Blend改善了mAP的所有基线，在mAUC com上略差A列A列V列V列AV-TrainAV-Val一VAV重量原始A/VG混合误差（%）前1精度优化器方法夹V@1V@5视觉60.068.988.4AdaGrad原始AV56.465.286.5G-Blend62.171.389.8视觉60.169.388.7亚当原始AV57.966.486.8G-Blend63.072.190.512702模态RGB + ARGB + OFOF + ARGB + OF + A权重[RGB，A，Join]=[0.630，0.014，0.356][RGB，OF，Join]=[0.309，0.495，0.196][OF，A，Join]=[0.827，0.011，0.162][RGB，OF，A，Join]=[0.33，0.53，0.01，0.13]度量夹V@1V@5夹V@1V@5夹V@1V@5夹V@1V@5Uni天真63.561.872.671.490.189.363.562.272.671.390.189.649.246.262.158.382.679.963.561.072.670.090.188.7G-Blend65.974.791.564.373.190.854.466.386.066.174.991.8表4：梯度混合（G-Blend）对不同的多模态问题起作用。G-Blend与初始晚期融合和单一最佳模式之间的动力学比较。在不同模态的所有4种组合上，G-Blend的性能大大优于朴素晚期融合网络和最佳单峰网络，并且它也适用于具有两种以上模态的情况G-Blend结果在不同初始化的三次运行中取平均值差异很小，在补充与辅助损失基线相比。原因是梯度混合学习的权重与相等权重非常相似。动力学和迷你运动辅助损失的失败表明，G-Blend中使用的重量确实很重要。我们注意到，对于mini-AudioSet，即使天真训练的多模态基线比单模态基线更好，梯度混合仍然通过找到更广义的信息来改进。我们还尝试了其他不太明显的多任务技术，例如将权重视为可学习的参数[30]。然而，这种方法收敛到与朴素联合训练类似的结果。发生这种情况是因为它缺乏过拟合先验，因此可学习的权重偏向具有最低训练损失的头部，即音频RGB。图6：基于G-Blend到RGB模型的改进的Top-Bottom 10类。改进的类确实是音频相关的，而那些性能下降的类不是非常音频语义相关。图6显示了Kinet上的顶部和底部10个类-与仅使用RGB相比，G-Blend的改进最多和最少。我们观察到，改进的类通常有很强的音频相关性，如鼓掌和笑。对于发短信，虽然仅音频的准确率接近0，但当使用G-Blend与RGB结合时，仍然有显着的改进。在最后10个类中，我们确实发现音频似乎不是很语义相关（例如，卸载卡车）。更多定性分析见补充资料。4. 与最新技术水平比较在本节中，我们使用离线梯度混合训练具有更深骨干架构的多模态网络，并将其与最先进的方法进行关于 Kinetics ， EPIC 厨房 [14] ，和 AudioSet 。 EPIC-Kitchen是一个多类自我中心数据集，包含与352个名词和125个动词类相关的28 K训练视频。对于消融，按照[8]，我们构建了一个不可见的厨房环境的验证集G-Blend使用RGB和音频输入进行训练对于Kinetics和EPIC-Kitchen，我们使用ip- CSN [46]作为32帧的视觉骨干，使用ResNet作为音频骨干，两者都有152层。对于AudioSet，我们使用R（2+1）D用于视觉[47]，16帧，ResNet用于音频，两者都有101层。我们在第3节中使用相同的训练设置。对于EPIC-Kitchen，我们遵循与[29]相同的音频特征提取;视觉骨干在IG-65 M上进行预训练[23]。对于AudioSet和EPIC-Kitchen，我们使用与第3节相同的评估设置。对于动力学，我们遵循30作物评估设置[50]。我们在这些实验中的主要目的是：1）确认在高容量模型上使用G-Blend的好处; 2）在不同的大规模基准上将G-Blend与最先进的方法进行比较。结果表6列出了G-混合的结果，并将其与Kinetics的当前最新方法进行了比较。首先，当两个模型都从头开始训练时，G-Blend比具有相同骨干架构ip-CSN-152[46]的RGB模型（最佳单峰网络）提高了1.3%。这证实了G-Blend的优势仍然适用于高容量模型。其次，G-Blend比最先进的多模态基线转移注意力网络[10]的性能高出1.4%，同时使用更少的模态（不使用光流）并且没有预训练。它与慢速相当[17]，同时速度更快。G-Blend在视觉上从Sports-1 M进行微调，在音频上从AudioSet 进行微调时，分别比非本地 [50] 增强的SlowFast Network和SlowFast快1.5%和0.6%使用IG-65M [23]在视觉上进行弱监督预训练，G-Blend提供了不可否认的83.3% top-1准确率和96.0% top-5准确率。我们还注意到，有许多竞争性方法报告了动力学结果，由于篇幅限制，我们仅选择了几种代表性方法进行比较，包括Shift-Attention [10]，SlowFast [17]和ip-CSN [46]。Shift-Attention和SlowFast分别是使用多模态和单模态输入时具有最佳发布精度 ip-CSN被用作G的视觉骨干，12703数据集动力学迷你运动迷你音频集权重[RGB，A，Join]=[0.63，0.01，0.36][RGB，A，Join]=[0.65，0.06，0.29][RGB，A，Join]=[0.38，0.24，0.38]方法夹V@1V@5夹V@1V@5地图mAUC仅音频13.919.733.614.722.135.629.190.4仅RGB63.572.690.148.562.784.822.186.1预训练61.971.789.648.361.384.937.491.7天真61.871.789.347.160.283.336.592.2辍学63.872.990.647.461.484.336.792.3辅助损失60.570.888.648.962.184.037.792.3G-Blend65.974.791.549.762.885.537.892.2表5：G-Blend在不同基准和任务上优于所有基准方法。 G-blend与不同正则化基线的比较以及单模态网络上的动力学，迷你体育，和迷你音频集。G-Blend始终优于其他方法，除了与在mini-AudioSet上使用辅助损失相比，由于G-Blend和相等权重的学习权重的相似性。骨干预训练V@1V@5GFLOPS[10]第十话ImageNet77.793.2NA[第17话]没有一78.993.5213×30[17]第十七话没有一79.893.9234×30IP-CSN-152 [46]没有一77.892.8108.8×30G-Blend（我们的）没有一79.193.9110.1×30IP-CSN-152 [46]运动1M79.293.8108.8×30G-Blend（我们的）运动1M80.494.8110.1×30IP-CSN-152 [46]IG-65M82.595.3108.8×30G-Blend（我们的）IG-65M83.396.0110.1×30表6：与现有技术方法的动力学比较。 G-Blend使用音频和RGB作为输入模态;对于Sports 1 M和IG-65 M上的预训练模型，G-Blend通过在AudioSet上进行预训练来初始化音频网络。G-Blend优于当前最先进的多模态方法（转移注意力网络），尽管它使用较少的模态（G-Blend不使用光流）。G-Blend在使用相同的主干网络时，对RGB模型（最佳单峰网络）也有很好的改进，达到了最先进的水平。方法地图mAUC多级代理[55个]0.3600.970TAL-Net [52]0.3620.965音频：R2 D-1010.3240.961目视检查：R（2+1）D-1010.1880.918原始A/V：1010.4020.973G-Blend（我们的）：1010.4180.975表7：与AudioSet上的最新方法的比较。G-Blend的性能大大优于最先进的方法。因此，混合用作直接基线。表7显示了AudioSet上的G-混合结果由于Au- dioSet非常大（2 M），我们使用mini-AudioSet来估计权重。G-Blend比两个最先进的多级注意力网络[55]和TAL-Net[52]的表现高出5.8%，5.5%，尽管第一个使用强功能（在YouTube 100 M上预先训练），第二个每个视频使用100个剪辑，而G-Blend只使用10个。表8列出了G-混合物结果，并与已发布的SoTA结果和EPIC-Kitchild Action Recognition挑战的排行榜进行了比较在验证集上，G-Blend在名词、动词和动作上优于朴素A/V基线;它在名词上与视觉基线相当，在动词和动作上优于视觉基线。目前，G-Blend在挑战赛中排名Unknown Kitchen第二名，第四名方法名词动词行动V@1V@5V@1V@5V@1V@5验证集目视检查：ip-CSN-152 [46]原始A/V：15236.434.858.956.756.657.484.183.324.923.742.541.2G-Blend（我们的）36.158.559.284.525.643.5测试看不见的厨房（S2）电子邮件：info@bjcn.com38.163.860.082.027.445.2[51]第五十一话TBN单曲[29]TBN Envelope [29]目视检查：ip-CSN-15234.127.930.435.862.453.855.759.659.752.754.556.282.779.981.280.925.119.121.025.146.036.539.441.2G-Blend（我们的）36.760.358.381.326.643.6厨房（S1）百度-UTS（排行榜）TBN单TBN包围52.346.047.976.771.372.869.864.866.191.090.791.288.141.434.836.763.656.758.612704表8：与EPIC-Kitchen上的现有技术方法的比较。与排行榜上公布的结果相比，G-Blend在Seen Kitchen Challenge上获得了第二名，在Unseen上获得了第四名，尽管与模型集合相比，G-Blend使用了更少的模态，更少的骨干和单一模型看厨房的地方。与已发表的结果相比，G-Blend使用更少的模态（不使用光流作为 TBN Entrance[29]），更少的骨干（Baidu-UTS [51]使用三个3D-CNN 加上两个检测模型）和单个模型（ TBNEntrance [29]使用五个模型的集合）。5. 讨论在单峰网络中，诊断和校正过拟合通常涉及对学习曲线的手动检查。在这里，我们已经表明，对于多模态网络，必须以一种有原则的方式测量和纠正过拟合，我们提出了一个有用的和实用的过拟合措施我们提出的方法，顺应性混合，使用这种措施，以获得显着的改善基线，并优于或与国家的最先进的方法在多个任务和基准。该方法可能广泛应用于集成模型的端到端训练，我们期待将G-Blend扩展到需要校准多个损失的其他领域，例如多任务。12705引用[1] 结合相关无偏估计一个正态分布的平均值。https：//projecteuclid.org/download/pdf_1/euclid.lnms/1196285392。4[2] Epic-kitchen行动识别.ht

下载后可阅读完整内容，剩余1页未读，立即下载