多模态知识扩展：有效利用未标记的多模态数据进行知识蒸馏

75 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

854多模态知识扩展薛子辉1、2、任苏成1、3、高正奇1、4、赵航*5、1 1上海启智学院、2德州大学奥斯汀分校3华南理工4麻省理工学院，5清华大学摘要多模态传感器的普及和互联网的可访问性为我们带来了大量未标记的多模态数据。由于现有的数据集和经过良好训练的模型主要是单峰的，因此单峰网络和未标记的多模态数据之间的模态差距提出了一个有趣的问题：如何转移一个预先训练的单峰网络来执行相同的任务与额外的未标记的多模态数据？在这项工作中，我们提出了多模态知识扩展（MKE），一个基于知识蒸馏的框架，有效地利用多模态数据，而不需要标签。与传统的知识蒸馏相反，学生被设计成轻量级的，不如老师，我们观察到，多模态学生模型始终纠正伪标签，并比老师更好地概括。四个任务和不同的模式的广泛实验验证了这一发现。此外，我们将MKE的机制与半监督学习联系起来，并提供经验和理论解释来理解多模态学生的扩展11. 介绍深度神经网络和监督学习在计算机视觉[16，21，33]和计算机听觉[17，47]等领域取得了突出成就。随着多模态数据收集设备（例如，RGB-D相机和摄像机）和互联网的可访问性，大量未标记的多模态数据已经变得可用。图1中显示了几个示例：（a）以前已经为旧机器人收集的数据标注了单峰数据集;在使用附加传感器进行硬件升级后，机器人专家可以访问*对应于hangzhao@mail.tsinghua.edu.cn1代码可在：https://github.com/zihuixue/MKE标记单峰数据无标签多模态数据...图1：多模态数据收集设备和互联网的普及产生了大量未标记的多模态数据。我们展示了两个例子：（a）硬件升级后，新的传感器套件收集了大量未标注的多模态数据;（b）可以容易地从互联网获得大规模的未标记视频。一些新的未标记的多模态数据。（b）因特网视频内容丰富，容易获得。虽然存在用于图像识别等任务的现有单峰数据集和模型，但我们还希望对未标记的视频执行相同的任务。一个自然的问题出现了：如何将单峰网络转换为未标记的多峰数据？一种简单的解决方案是直接应用单峰网络，以使用未标记数据的相应模态进行推理但是，它忽略了其他模态所描述的信息。虽然与仅使用一种模态相比，使用多模态数据进行学习具有促进信息融合和诱导更鲁棒模型的优点，但开发具有监督学习的多模态网络需要大量的人工标记工作。在这项工作中，我们提出了多模态知识扩展（MKE），知识蒸馏为基础的框架，使未标记的多模态数据的最佳利用。MKE使多模态网络能够以最少的人力（即，最少的时间）在未标记的数据上学习。，没有注释的mul-855模态单峰教师蒸馏配对模态分析多模式学生图2：MKE的框架。在知识蒸馏中，一个轻量级的教师网络被认为是一个轻量级的学生网络的上界。与此相反，我们引入了一个单峰的教师和一个多模态的学生。多模态学生从单一模态教师那里获得知识扩展需要timodal数据）。如图2所示，在标记数据集上预先训练的单峰网络扮演教师的角色，并将信息提取到多模态网络，称为学生。我们观察到一种互扰现象：我们的多模态学生，仅在由单峰教师提供的伪标签上训练，在我们的训练框架下一致地优于教师。我们把这种观察称为知识扩展。也就是说，多模态学生能够细化伪标签。我们在各种任务和不同的方式进行实验结果，以验证这一观察。我们进一步提供实证和理论解释，以了解多模态学生的扩展能力。与我们密切相关的设置是半监督学习（SSL），其目标是通过利用相同来源的未标记数据（包括模态）来提高模型与SSL不同，我们的目标是在未标记的数据集上开发一个附加的多模态网络。尽管在形式上存在差异，但MKE在机制方面与SSL具有一些相似性我们提供了一个新的角度来解决确认偏见，传统上困扰SSL的问题。这种偏差源于对未标记数据使用不正确的预测进行训练，并导致原始教师网络的边际性能增益[3]。在SSL中，各种方法，即数据扩充[34，43]，注入噪声[44]，元学习[29]已经提出来解决它。这项工作提供了一个新的角度正交这些技术在减轻 confir-mation偏差，通过诉诸多模态信息。我们证明，多模态输入作为一个强大的regularization，这有助于纠正不准确的伪标签，克服单峰网络的局限性。2. 相关工作2.1. 半监督学习伪标记，也称为自训练，是SSL中一种简单而强大的技术，可以极大地改善图像分类[23，45，44，29]，语义分割[51，10]和域自适应[52，22]等任务伪标记的一个重要限制是确认偏差[3]。由于伪标签是不准确的，学生网络可能会学习这些错误。已经提出了各种工作来减轻这种偏见[52，3，44，29]，而他们的讨论仅限于单峰性。一致性正则化是SSL的另一个重要基于模型平滑性假设，模型预测被约束为对输入或模型隐藏状态的小扰动不变。已经提出了一系列关于产生随机扰动的工作，例如使用模型参数的指数移动平均[36]，数据增强[43，34]，丢弃[5，44]或对抗性扰动[27]。近期作品[7，6，34]将一致性正则化与伪标记结合在一起，并展示了巨大的好处。2.2. 交叉模态蒸馏知识蒸馏（KD）[18]是一种将信息从一个网络转移到另一个网络的有效技术。KD已被广泛应用于模型压缩，其中轻量级学生网络从累赘的教师网络学习[40，18，46，31，37]。KD的另一个重要应用是跨模态蒸馏，其中教师网络将知识从一种模态转移到从另一种模态学习的学生沿着这个方向已经提出了各种工作[15，19，4，28，2，50，49]。Gupta等人[15]提出了一种框架，该框架将超视从标记的RGB图像转移到未标记的深度和光流图像。SoundNet [4]使用未标记的视频从成熟的视觉识别模型中学习声音表示Zhao等人[50]介绍了一种使用具有视觉模型提供的交叉模态监督信号的无线电信号来估计人体姿势的方法。2.3. 多模式学习融合来自多个模态的数据的模型已经在各种应用中显示出优于单峰模型的性能，例如，情感分析[48，26]、情感识别[38，30]、语义分割[13，39]。12，41]和事件分类[1]。最近的一项工作[20]提供了多模态学习优于单模态学习的理论依据我们比较我们的问题设置与表1中的先前工作。SSL采用来自相同模态的数据。跨模态蒸馏与我们有相同的训练数据假设，而他们只专注于用单峰数据进行测试苏-856SMSLL不SθsMi=1我我不N我不我不我我 i=10，1}K E∈R使用教师模型θ，产生伪标记我不我我我我我我1Σ列车试验为了节省计算时间，我们用以下方法相关作品有标号的无标号的θ= argmin1ΣMlcls（y∈i，T（fs（xα，xβ;θs）），其中半监督学习✓跨模态蒸馏✓ ✓ ✓监督多模态学习算法MKE（我们的）✓表1：我们的数据假设与先前工作的比较。UM和MM分别表示单峰和多峰监督多模态学习不考虑未标记的数据。与此相反，这项工作讨论了一个新的和实际的情况下，只有标记的单峰和未标记的多峰数据。3. 方法3.1. 多模态知识扩展与等式（3）相同详细证明见补充材料。举个例子。我们考虑图3a中所示的2D-TwoMoon [3]问题的变体。位于上月球和下月球的数据具有真实的标号0和1，并分别用红色和蓝色着色。深蓝色或红色的大点组成标记的单峰数据集Dl，并且仅其X坐标是已知的。另一方面，Du由所有浅色的小点组成，X和Y坐标都可用。即，模态α和β分别被解释为从X轴和Y轴观察算法1多模态知识扩展（MKE）(1) 用标记的数据集训练一个单峰教师θ问题表述。不失一般性，我们限制αNt我们对α和β两种模态的讨论是有意义的。我们假设一个带标签的uni-模态数据DL ={（xα，y）}N给出了每个样品Dl={（xi，yi）}i=1：Nθ= argminlθ不i=1（y，f（xα;θ））（1）其中K是类的数量。是-我酷ii i=1在标记的数据集两侧，未标记的多模态数据集βtαβM数据集Du={（xα，x，yi）}M ：Du={（xi，xi）}i=1是可用的。我们的目标是训练一个网-i i i=1由θ参数化的功（即，f（x;θ）），当给定其特征x=（xα，xβ）时，该方法可以准确地预测标签y传递带标签的单峰数据集y~i=ft（xα;θ），（xα，xβ）∈Du（2）(3) TrainamultimodalstudentθwithD~u：一个未标记的多模态数据集，我们提出了一个θ= argmin（Lpl+γLreg）（3）Dl Dusθ一个简单有效的模型无关框架，名为mul-算法1中的单峰知识扩展（MKE）。我们不L=1微升（y〜，f（xα，xβ;θ））⑷首先在标记的数据集D1。接下来，获得的教师被雇用来生成-plMMi=1 CLS I siis为多模态数据集Du创建伪标签，得到D~.最后，我们基于uLreg=Σlreg[fs（xα，xβ;θs），T（fs（xα，xβ;θs））]（5）伪标记的D~u，其中损失项在等式（1）中描述（3）-（5）中所述的方法。为了防止学生对教师的预测（即，确认偏差[3]），等式（3）-（5）中的损失项已经被仔细设计。它结合了标准伪标签丢失（即，等式（4））和正则化损失（即，，等式（5））。直观地说，伪标签损失旨在最小化多模态学生和单峰教师之间的差异，而正则化损失强制学生对输入或隐藏状态的小扰动保持不变。在多模态学习的背景下，正则化项鼓励多模态学习者从额外模态β带来的信息中学习，同时确保学生不会过度拟合教师仅基于模态α的预测。注意，在我们的实现中，为了避免引入和调整一个额外的超参数γ和γ。l cls：硬y ~ i的交叉熵损失和软y~i的KL散度损失。Ireg：距离度量（例如，，L2范数）。γ：平衡的重量的常数pl和reg.：在学生模型上定义的变换，经由输入或模型扰动（即，、扩增、脱落）。我们首先用标记的单峰数据集Dl训练教师。学习的分类边界在图3b中示出。接下来，我们采用已学习的老师来生成Du的伪标签。如图3c所示，伪标签可能是不准确的，并且与地面实况不一致：在我们的玩具示例中，单峰教师仅产生68%的准确度。如图3f所示，提供这些不那么准确的伪标签，学生仍然可以在很大嗯MM嗯MM嗯 MMCLSi=1{S857程度上胜过老师（即，，大约13%更高的准确度）。它提出了我们工作中的一个关键发现：尽管没有858S不我L我不αββα不我∈不不我我pl我α⋆ αβ∈(a) 从X轴组合物Dl观察到的深着色的大点和从X轴组合物Dl观察到的浅着色的小点是相同的。(b) 在标记的数据点上训练单峰分类器由于Dl中的数据的仅X坐标是已知的，因此自然地，Dl中的数据的X坐标是已知的。由教师网络提供，产生fs（x;θ）类似于ft（x;θ），如果不相同。在TwoMoon示例中，我们观察到用等式（6）训练的单峰学生这在图3d中示出。为了解决这种偏差，我们遵循SSL [27，43，34]中一致性训练方法的思想，并引入一个通用正则化损失项来增强模型平滑性：XY平面合成Du。边界是垂直的′α ′ αLreg=Exα∈Du{lreg[fs（xi; θs），T（fs（xi;θs））]}（7）(c) 教师网络为未标记数据生成伪标签(e)一致性正则化稍微改善了一个单峰学生(d) 朴素伪标签过度拟合不准确的伪标签(f)MKE极大地提高了多模态学生也就是说，'reg鼓励模型对输入或模型的小扰动输出类似的′（fs（xα; θs））表示应用于单峰输入或模型隐藏状态的变换，其可以通过输入增强、噪声、丢弃等来实现。如图3e所示，用等式（6）-（7）的组合损失训练的单峰学生实现约69.50%的预测准确度。虽然它确实优于图3b中所示的68.00%准确度的教师，但一致性正则化下的单峰学生未能有效地利用未标记的数据，并且仅带来边际改进。虽然确认偏差通过等式（7）中的正则化项略微减小，但是它仍然严重约束单峰SSL方法的性能。因此，我们转向多模态作为解决方案，并诉诸于模态β所带来的信息。利用图3：（a）-（c）使用TwoMoon示例的MKE的问题描述和图示;（d）-（f）朴素伪标记、一致性训练方法和所提出的MKE的比较。右下角的值表示测试准确度（%）。通过访问地面实况，多模态学生能够纠正不准确的标签，并优于教师网络。实现了知识的扩展3.2. 纠正伪标签关于知识扩展的有些令人惊讶的发现进一步激发了我们的思考：多模式学生的扩展能力从何而来？在本节中，我们将用TwoM- oon例子来回答这个问题.首先，我们考虑直接采用单峰SSL来解决这个问题。也就是说，给定用标记数据Dl和未标记多模态数据集Du训练的教师网络，学生网络将xαDu作为输入。朴素伪标记[23]使用以下损失来最小化固定教师θ和学生网络θs之间的分歧：在Du中的两种模态，我们替换所示的单峰输入在等式（6）-（7）中使用多模态的损失项，并且导出用于训练多模态学生的Lpl=E{lcls[ft（xi; θt），fs（xi，xi;θs）]}（8）Lreg=E{lreg[fs（xi，xi; θs），T（fs（xi，xi; θs））]}（9）其中两个期望都是关于（xα，xβ）D u.事实上，当Di是包含M个多模态样本的有限集合时，等式（8）-（9）简化为等式（4）-（ 5 ）。如图 3f 所示，我们观察到多模态学生（即，，81.00%的准确度）超过教师（即，68.00%准确度）。这意味着，一个多模态的学生有效地减轻了确认偏差，并导致优于教师的表现为了理解这种现象背后的原理，我们在TwoM-oon数据上用等式（6）-（7）训练一个单峰学生，并用等式（8）-（9）训练一个多峰学生变换被定义在模型输入上，并被实现为加性高斯噪声。图4视觉-L′ =Exα∈D{lcls[ft（x;θ），fs（x;θs）]}（6）将一个数据样本A的变换空间伪标签和真标签都是“红色”。数据B为1859然而，由于确认偏差[3]，学生网络很可能过度拟合到不正确的伪标签。指出教师预测“蓝色”，而其真实标签是“红色”。数据C的伪标签和真标签为860{M}a¯{|∈}MML不β ββ=X×X预训练的教师网络f（xα;θ）细化伪标签。. 设f（x; θ），ft（x; θt），fs（x; θs）ααβX图4：一个数据样本A的变换空间的图示。X轴上的1-D红线对应于单峰学生的变换空间，而2-D红圈对应于多峰学生的变换空间。（θt）D u表示教师给出错误预测的多模态数据集，即，（θt）=（xα，xβ）ft（xα; θt）=f（xα;θ），（xα，xβ）D u. 1）A=A（（θt）是指在任何类别中被教师网络错误分类的数据的最大分数。首先，我们要求数据分布P满足以下扩展假设，即数据分布在输入空间中具有良好的连续性。假设1P满足（a′，c1）和（a′，c2）e扩展[42]分别在Xα和Xβ上，1 5。Pi（N（Vα））彡min{c1Pi（Vα），1}，在训练单峰学生时，我们只知道数据点的X坐标，而变换空间是i∈[K]，X与Pi（V）≤a<$（十）由X轴上的一维红线给出在这种情况下，最小化等式（7）中的reg′鼓励单峰学生预测数据的标签“红色Pi（N（Vβ））彡min{c2Pi（Vβ），1}，当Pi（V）≤a¯时，i ∈[K]，VX（十一）位于红线内的点。这是B的情况，但它也会推翻老师对C的预测，使其错误！其内在原因是受单峰输入的限制，学生网络不能沿Y轴进行区分，并错误地认为C位于A附近。相反，额外的模态β帮助我们看到A、B和C之间的真实距离。在多模态学生的情况下，数据A的变换空间由图4中的红色圆圈给出。多模态学生被引导到其中N（V）表示集合V的邻域，遵循与[42]中相同的定义。此外，我们在假设2中假设多模态数据的条件独立性，这在多模态学习的文献中被广泛采用[24，8，35]。假设2对地面真值标签的调节，Xα和Xβ是独立的。P（ Vα，Vβ）= P（ Vα）· P（ Vβ），对于落在圆圈内的数据预测为“红色”。此时B位于变换空间中，而C在那里-我我i∈[K]，我X，（十二）因此，由于等式（9）中的正则化约束，多模态学生可以校正数据B的错误伪标签，并且其决策边界被推得更接近地面实况。这个例子表明，多模态作为一个强大的正规化，使学生3.3. 理论分析在本节中，我们提供了一个理论分析的MKE。基于单峰自我训练[42]，我们证明了引理1上的数据分布P满足（a¯，c1c2）ex-扩展。引理1的证明在补充材料中提供。我们在下面陈述，多模态学生分类器的误差由其教师的误差上界。我们遵循[42]中的证明来证明定理1。定理1假设[42]的假设3.3成立，使等式（3）中的损失最小化的学习分类器fs（xα，xβ; θs）我们的多模态学生提高了伪标签α β 4·Err（ft（xα;θt））（十三）被老师错误（fs（x ，x;θs））≤c1c2+4µ-一个考虑K路分类问题，并且假设我们具有在标记数据Dl的集合上预训练的教师网络。我们进一步假设一组未标记的多-其中，μ出现在[42]的假设3.3中，并且预期是小的或可忽略的。定理1有助于解释关于知识扩展的经验发现训练一个多-单峰数据Du ={xi=（xα，xβ）∈ X}M是可用的，我我其中Xα βi=1a给出的伪标号上的单峰studentf（xα，xβ;θs）分别表示地面实况分类器、教师分类器和学生分类器。任意分类器f（x; θ）的误差定义为：Err（f（x;θ））=Ex[f（x; θ）=不此外，本发明还提供了一种方法，单峰Studentfs（xα; θs）只从模态α和伪标签中获取输入，由下式给出：f（x;θ）]。假设P是指未标记的sam的分布输入空间X上的多个。Pi表示类条件α4·Err（ft（xα;θt））f（x; θ）=i的x分布。我们使用错误（fs（x ;θs））≤+4µ（14）c1−1αααβ861∈∈ ∪∈不不不不不不不T {T T T}不通过比较等式（13）和（14），我们观察到多模态的作用是将扩展因子从cl增加到c1c2并提高准确度界限。这一观察结果进一步证实了我们的经验发现，并从理论的角度揭示了MKE在精炼伪标签中的作用4. 实验结果为了验证所提出的方法的效率和通用性，我们进行了彻底的测试MKE在各种任务中：（i）在合成的TwoMoon数据集上的二进制分类，（ii）在RAVDESS上的情感识别[25]数据集，（iii）NYU Depth V2上的语义分割[32]数据集，以及（iv）AudioSet [14]和VGGsound [9]数据集上的事件分类。我们强调，上述四项任务涵盖各种方式的广泛组合。例如，模态α和β表示（ii）中的图像和音频，其中图像被认为是比图像更弱的情感分类模态。在（iii）中，模态α和β分别指RGB和深度图像，其中RGB图像在语义分割中起核心作用，并且深度图像提供有用的线索。基线。我们用MKE训练的多模态学生（称为MM学生）与以下基线进行比较：• UM教师：接受培训的单峰教师网络（xα，yi）∈Dl.• UM student：在（xα，y~i）D~u（i. e. 由UM教师给出的单模态输入和伪标签）。• NOISY student [44]：在（ xα ，yi ）上训练Dl（xα，y~i）D~u，在训练期间注入噪声。• MM学生（无注册）：没有正则化训练的多模态学生网络（即，，在训练期间不应用等式（5• MM学生（sup）：一个多模态的学生在D u上训练，提供了真实的标签。这个监督版本可以被视为我们的多模态学生的上限。由于迭代训练[44]也可以应用于其他基线和我们的MM学生，因此NOISY学生的迭代次数设置为1，以确保公平比较。我们针对四个任务采用如等式（5）中的不同正则化技术来证明我们提出的方法的泛化能力。除MM student（无reg）外，正则化以相同方式应用于所有基线。此外，我们提出了一个消融研究的各种成分的MKE，即。、未标记数据大小、教师模型、硬与软标签，以及数据集和简单补充材料中的心理状态细节。4.1. 双月实验我们首先提供合成TwoMoon数据的结果。我们生成500个样本，形成两个交错的半圆，每个圆对应于一个类。将数据集随机分为30个标记样品、270个未标记样品和200个测试样品。数据的X和Y坐标分别解释为模态α和β。基线实施。我们将UM教师和UM学生网络实现为具有32个隐藏单元的3层MLP，而MM学生有16个隐藏单元。我们设计在等式（5）中使用的三种变换 =1、2、3：（i）1：将零均值高斯噪声添加到具有方差v 〇的输入，（ii）2：将零均值高斯噪声添加到具有方差v1的第一隐藏层的输出，以及（iii）3：添加具有等于r〇的丢失率的丢失层。通过调整v0，v1和r0的值，我们可以在无/弱/强正则化下测试所有方法。具体来说，值越高表示正则化越强。方法测试准确率（%）UM teacher68.001v0=0v0=1v0=2澳门大学学生68.00 69.90 72.80MM学生（我们的）68.85 80.7583.15MM学生（sup）88.05 87.35 86.952v1=0v1=5v1=10澳门大学学生68.00 68.95 70.05MM学生（我们的）68.85 80.0082.10MM学生（sup）88.05 87.40 86.403r0= 0r0= 0。4 r0= 0。8澳门大学学生68.00 68.40 68.95MM学生（我们的）68.85 73.6579.20MM学生（支持）88.05 87.35 86.90表2：TwoMoon实验的结果。MM学生显着优于UM学生和教师一致性正则化。结果表2表明，一致性正则化下的MM student在所有情况下都优于其单峰对立面。具体地，在强正则化下的MM student实现了与MM student（sup）接近的结果，如最后一列所示。MM学生（在伪标签上训练）和它的上限（在真实标签上训练）之间的小差距表明MKE的巨大扩展能力。此外，我们观察到随着正则化强度的增加，UM和MM学生的表现都更好，这表明一致性正则化在减轻确认偏差方面是必不可少的。862不˜4.2. 情感识别我们在RAVDESS [25]数据集上评估MKE以进行情感识别。数据集被随机分割为Dl和Du的2：8和Du的训练/验证/测试的8：1：1。图像和音频分别被认为是模态α和β。基线实施。对于MM学生，我们采用两个3层CNN分别提取图像和音频特征。这两个视觉和音频特征被连接成一个向量，然后通过一个3层MLP。UM教师、UM学生和NOISY学生与MM学生网络的图像分支相同，后面还跟着3层MLP。等式（5）被实现为速率为0.5的一个丢弃层。结果如表3所示，在标记数据和一致性正则化的帮助下，NOISY学生比UM教师和UM学生更好地泛化，达到83.09%的准确率，超过80.33%和77.79%。尽管如此，这种改善是微不足道的。相比之下，我们的MM学生网络比原始教师网络有了很大的改进，尽管没有获得地面真相，但测试准确率达到了91.38%。巨大的性能提升可以可以归因于由音频模态带来的附加信息。它表明，MKE可以插入到现有的SSL方法，如NOISY学生提高性能时，多模态数据可用。此外，正则化帮助我们的MM学生产生比MM学生更好的性能（无reg）。补充资料中提供了更多结果。RGB-D图像作为用于训练学生的Du。模态α和β表示RGB图像和深度图像。方法训练数据测试mIoU表4：NYU深度V2上的语义分割的结果rgb和d表示RGB图像和深度图像。基线实施。我们将MKE与SSL方法[10] [44]和交叉模态蒸馏[15] [49]进行比较。由于不同的问题设置，我们稍微修改了交叉模态蒸馏方法，使它们具有可比性。由于来自D u的RGB-D图像是未注释的，因此我们无法训练 MM 学生的监督版本（即，， MM student（ sup ））。我们采用 ResNet-101 [16] 作为主干，DeepLab V3+ [11]作为UM教师的解码器。在训练MM学生方面，深度图像首先被转换为HHA图像，然后与RGB图像一起传递到[12]我们设计的UM学生体系结构作为MM学生网络的RGB分支。对于正则化项，我们采用RGB图像的输入增强，即、随机水平翻转和标度[0.5，1.75]。方法训练数据准确度（%）模D值检验MM student（sup）i，a97.46 97.35结果表 4 报告了每种方法的平均交集大于并集（mIoU）。我们观察到，MM学生大大提高了UM老师，即。，实现了48.88%的mIoU，而它是在大约44.15%的mIoU的伪标签上训练的。此外，在没有地面实况的情况下，我们的MM学生的表现优于所有基线，具有相当大的性能增益。这表明MKE的有效性。我们也到达相同表3：RAVDESS上的情绪识别的结果mod、i和a分别表示模态、图像和音频。列出了用于训练每种方法的数据。表示MM学生（sup）是在D~u中的真标签而不是伪标签上训练的。4.3. 语义分割我们在NYU Depth V2上评估我们的方法[32]。它包含具有40个类别标签的1449个RGB-D图像，其中795个RGB图像被采用作为用于训练UM教师的DI除了标记的数据，NYU Depth V2还提供未注释的视频序列，我们随机提取1.5K帧我们的结论是正则化有助于提高MM学生，因为我们的MM学生比MM学生产生更高的准确性（无reg）。这表明，MKE和当前的SSL方法，专注于设计增强强调一致性正则化可以结合在一起，以提高性能。图5中的可视化结果表明，我们的MM学生细化伪标签，并实现知识扩展。虽然它接收到UM老师给出的嘈杂预测如图所示modDl Du（%）UM教师RGB✓44.15幼稚的学生[10][44]第四十四话RGBRGB✓✓ ✓46.1347.68Gupta等人[第十五条]rgb，d✓45.65[49]第四十九话rgb，d✓45.25MM学生（无注册）rgb，d✓46.14UM老师UM学生我我✓79.67 80.33✓79.0177.79[44]第四十四话我✓ ✓82.5483.09MM学生（无注册）我这个✓88.7389.28863(a)RGB图像（b）深度图像（c）地面实况（d）MM学生（我们的）（e）UM教师（f）NOISY学生图5：NYU Depth V2测试集的定性分割结果。在第三和第四行中，MM学生对照明变化是鲁棒的，而UM教师和NOISY学生容易混淆。深度模态帮助我们的MM学生更好地区分对象并纠正它收到的错误预测。更多定性的例子显示在补充材料。mAP为0.427，优于NOSIY student [44]和交叉模态蒸馏方法[28] [49]。值得注意的是，我们的MM学生和它的上限（即，MM student（sup））的最小值，显示了MKE在纠正伪标记方面的巨大潜力。4.4. 事件分类方法训练数据~测试映射modDl Du我们提出了一个现实世界的应用程序，事件分类的实验结果。将来自AudioSet [14]的3.7K音频和来自VGGSound [9]的3.7K音频-视频对分别作为标记的单峰数据集Dl和未标记的多峰数据集Du在这个任务中，模态α和β对应于音频和视频。基线实施。对于UM教师，我们将ResNet-18作为骨干，并将线性层作为分类层。对于MM学生，音频骨干与UM教师的音频骨干相同，视频骨干是具有3D卷积层的ResNet-18。来自音频和视频主干的特征在馈送到一个分类层之前被连接在一起。遵循[9]的相同正则化项，我们随机采样5秒的音频片段，并应用短时傅立叶变换。在训练过程中对257 × 500个频谱图进行自动化处理结果表5报告了每种方法的平均精密度（mAP）。基线模型是在Dl上训练的UM教师，其实现0.345mAP。受益于视频模式，我们的MM学生取得了最佳成绩UM教师a ✓0.345澳大学生A0.406噪音学生[44]a ✓ ✓ 0.411Owens等人[28]a，v = 0.371CMKD [49]a，v ✓ 0.372MM学生（无注册）a，v0.421MM学生（我们的）a，v ✓0.427MM student（sup）a，v0.434表5：AudioSet和VG-GSound上的事件分类结果。A和V表示音频和视频。5. 结论受多模态数据收集的最新进展的启发，我们提出了一个多模态知识扩展框架，以有效地利用丰富的未标记的多模态数据。我们提供了理论分析，并进行了广泛的实验，证明了一个多模态的学生纠正不准确的预测，并实现知识扩展从单峰教师。此外，与目前的半监督学习方法相比，MKE提供了一个新的角度来解决确认偏差。864引用[1] Mahdi Abavisani ， Liwei Wu ， Shengli Hu ， JoelTetreault，and Alejandro Jaimes.社交媒体中危机事件的多模态分类在CVPR中，第14679-14689页，2020年。2[2] Relja Arandjelovic和Andrew Zisserman。看，听，学。在ICCV，第609-617页，2017年。2[3] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差InIJCNN，pages 1IEEE，2020年。二、三、四[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示.NeurIPS，2016。2[5] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。在 Proceedings of the 27th InternationalConference on Neural Information Processing Systems-Volume 2，pages 3365-3373，2014中。2[6] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match：具有分布对齐和增强锚定的半监督学习ICLR，2020年。2[7] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。2[8] Avrim Blum和Tom Mitchell将标记和未标记的数据与联合训练相结合。在计算学习理论第十一届年会的会议记录中，第92-100页5[9] 陈洪烈，谢伟迪，安德烈·维达尔迪，安德鲁·齐斯瑟曼。 Vggsound ：一个大规模的视听数据集。在ICASSP，第721-725页中。IEEE，2020年。六、八[10] Liang-Chieh Chen ， Raphael Gontijo Lopes ， BowenCheng ， Maxwell D Collins ， Ekin D Cubuk ， BarretZoph，Hartwig Adam，and Jonathon Shlens.天真学生：在视频序列中利用半监督学习进行城市场景分割。在ECCV，第695-714页，2020中。二、七[11] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 7[12] Xiaokang Chen，Kwan-Yee Lin，Jingbo Wang，WayneWu，Chen Qian，Hongsheng Li，and Gang Zeng. rgb-d语义分割的分离-聚合门双向跨模态特征传播。ECCV，2020年。二、七[13] Di Feng 、Christian Haase-Schuetz、 Lars Rosenbaum、Heinz Hertlein 、 Claudius Glaeser 、 Fabian Timm 、Werner Wies-beck和Klaus Dietmayer。用于自动驾驶的深度多模态对象检测和语义分割：数据集、方法和挑战。 IEEE Transactions on Intelligent TransportationSystems，2020。2[14] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集：音频事件的本体和人类标记的数据集在ICASSP，第776IEEE，2017年。六、八865[15] Saurabh Gupta等人监督转移的交叉模态提取在CVPR，2016年。二、七[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。1、7[17] Shawn Hershey，Sourish Chaudhuri，Daniel PW Ellis，JortF Gemmeke ， Aren Jansen ， R Channing Moore ，Manoj Plakal ， Devin Platt ， Rif A Saurous ， BryanSeybold，et al.用于大规模音频分类的Cnn体系结构。在ICASSP，第131-135页中。IEEE，2017年。1[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。 arXiv 预印本 arXiv ： 1503.02531 ，2015。2[19] 朱迪·霍夫曼、索拉布·古普塔、梁健、塞尔吉奥·瓜达拉玛和特雷弗·达雷尔。用于rgb-d检测的交叉模态自适应。ICRA，第5032-5039页。IEEE，2016. 2[20] Yu Huang ， Chenzhuang Du ， Zihui Xue ， XuanyaoChen，Hang Zhao，and Longbo Huang.是什么让多模态学习比单模态学习更好（可证明的）。arXiv预印本arXiv：2106.04538，2021。2[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NeurIPS，25：1097-1105，2012。1[22] Ananya Kumar等人了解逐步适应领域的自我训练在ICML，2020。2[23] 李东贤伪标签：简单有效的深度神经网络半监督学习方法。在表征学习的挑战研讨会上，ICML，第3卷，2013年。二、四[24] 大卫·D·刘易斯。40岁时的朴素（贝叶斯）：信息检索中的独立性假设。在ECCV中，第4Springer，1998年。5[25] Steven R Livingstone和Frank A Russo。 Ryer-son情感语音和歌曲视听数据库（Ravdess）：北美英语中动态的、多模态的面部和语音表达。PloS one，13（5）：e0196391，2018. 六、七[26] Navonil Majumder ， Devamanyu Hazarika ， AlexanderGel-bukh，Erik Cambria，and Soujanya J.多模态信息分析使用上下文建模的分层融合。基于知识的系统，161：124-133，2018。2[27] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin Ishii。虚拟对抗训练：用于监督和

下载后可阅读完整内容，剩余1页未读，立即下载