OMNIVORE：一个用于多种视觉模态的单一模型

178 浏览量更新于2023-10-25 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16102OMNIVORE：一个单一的模型，用于许多视觉模态Rohit Girdhar、Mannat Singh、Nikhila Ravi、Laurens van der Maaten Armand Joulin Ishan Misra、Meta AIhttps://facebookresearch.github.io/omnivore图像（RGB）图1. OMNIVORE是一个单一的视觉模型，适用于许多不同的视觉形式。它学习构建跨视觉模态对齐的表示，而不需要指定这些模态之间的对应关系的训练数据。使用OMNIVORE的共享视觉表示，我们成功地识别了左侧的最近邻居：视觉数据集中的图像（ImageNet-1 K验证集），其中包含右侧：深度图（ImageNet-1 K训练集），单视图3D图像（ImageNet-1 K训练集）和视频（Kinetics-400验证集）。摘要先前的工作已经研究了不同的视觉模态，并开发了用于识别图像、视频和3D数据的单独架构。相反，在本文中，我们提出了一个单一的模型，它擅长使用完全相同的模型参数对图像，视频和单视图3D数据进行分类。我们的'OMNIVORE'模型利用了基于transformer的架构的灵活性，并在不同模态的分类任务上进行联合训练。OMNIVORE易于训练，使用现成的标准数据集，并且与相同大小的特定于模态的模型相比表现相当或更好。单个O MNIVORE模型在ImageNet上获得86.0%，在Kinetics上获得84.1%，在SUN RGB-D上获得67.1%。经过微调后，我们的模型在各种视觉任务上的表现优于先前的工作，并在各种模式上进行推广OMNIVORE的共享视觉表示自然地实现了跨模态识别，而无需访问模态之间的对应关系。我们希望我们的研究结果能够激励研究人员一起建模视觉模态同等技术贡献。1. 介绍计算机视觉研究涉及与我们对视觉世界的感知相关的多种形式，例如图像，视频和深度。一般来说，我们孤立地研究这些模式中的每一个虽然这些特定于模态的模型实现了令人印象深刻的性能，有时甚至在特定任务上超过了人类，但它们不具备类人视觉系统所具有的灵活性-跨模态工作的能力。我们认为，迈向真正通用视觉系统的第一步是构建跨模态无缝工作的模型，而不是为每种模态进行过度优化。除了它们的灵活性之外，这样的模态不可知模型与它们的传统的模态特定的对应物相比具有若干优点。首先，模态不可知模型可以执行跨模态泛化：它可以使用从一种模态中学到的东西来执行其他模态中的例如，它可以识别3D图像中的南瓜，即使它只看过南瓜的标记视频。反过来，这允许更多地使用现有的已标注数据集深度图（D）单视图3D（RGBD）视频（RGBT）16103线性有效地：可以在具有不同输入模式的视觉数据集的联合上训练模型其次，它节省了用于为特定模态优化模型的研究和工程工作。例如，图像和视频模型遵循类似的演化轨迹，从手工制作的描述符[47，55]到卷积网络[34，91]，最终是视觉变换器[5，21];然而，每一个都必须单独开发和调整。一个共同的架构将使科学进步随时可供任何视觉形式的用户使用。最后，在许多视觉模态上操作的模型自然是多模态的，并且可以在新的视觉传感器可用时容易地例如，在机器人上运行的模态不可知识别模型可以在其安装在该机器人上时容易地利用新的深度传感器输入补丁Omnivore模型图像线性视频尽管有这些明显的优势，模态不可知模型很少被研究，与模态特定模型相比，它们的性能令人失望。单视图3D嵌入ing. 有很多原因可以解释这种情况，例如需要一种灵活的架构，具有足够的能力来从不同的模态中学习特定于模态的线索;以及足够的计算能力来同时在视频，图像和单视图3D上训练它。本文开发了一个模态不可知的视觉模型，利用了视觉架构的最新进展[21，51]。我们开发的模型是"杂食性的”，因为它适用于三种不同的视觉形式：图像，视频和单视图3D。我们的OMNIVORE模型并不为每种视觉形式使用自定义架构。它使用相同的共享模型参数对所有三种模态进行识别。它的工作原理是将每个输入模态转换为时空补丁的嵌入，这些补丁由完全相同的Transformer [92]处理以产生输入的表示。我们在一组标准的、现成的分类数据集上训练OMNI-VORE，这些数据集具有不同的输入方式。与之前的工作不同[33，77]，我们的训练不使用不同输入模式之间的显我们的实验证明了我们的OM-NIVORE模型的优点。令人惊讶的是，我们发现OMNIVORE表示在视觉模态中具有很好的泛化能力（见图1），即使OMNIVORE没有被明确训练来模拟跨模态对应关系。这些能力的出现没有明确的跨模态监督，只是由于不同模态的模型之间的参数共享。在标准图像、视频和单视图3D基准测试中，OMNIVORE的性能与具有相同数量参数的特定模态视觉模型相当或更好。同样的OMNIVORE模型在ImageNet-1 K上获得了85.6%的top-1准确率，在Kinetics-400上获得了83.4%的top-1准确率，在SUN RGB上获得了67.4%的top-1准确率。D. OMNIVORE强大的泛化能力也倾向于迁移学习实验。 OMNIVORE执行图2. O MNIVORE模型中的多种视觉模态。我们将图像、视频和单视图3D模态转换为嵌入，并将其输入到Transformer模型中。图像被转换成块，视频被转换成时空管，并且单视图3D图像被转换成RGB块和深度块。使用线性层将补丁投影到嵌入中。我们对（图像或视频）RGB补丁使用相同的线性层，对深度补丁使用单独的线性层。与ImageNet-1 K上最近的大型transformers一样，它在动作识别基准测试（如EPIC-Kitchen-100，Something-v2）以及单视图3D分类和分割基准测试方面树立了新的最先进水平。我们相信，我们的工作提出了一个令人信服的论点，转向发展的视觉模型，可以在任何视觉模态。2. 相关工作我们建立在ConvNet架构，Trans-former，多模态学习和多任务学习的基础上。视觉中的ConvNet架构。 ConvNet架构[26，48]在图像、视频和3D识别中的许多计算机视觉任务中很受欢迎。2D卷积是ConvNets中用于图像的主要构建块[34，46，77，84]，而3D卷积用于3D数据[18，32]或与2D卷积结合用于识别视频[13，90，91]。I3D [13]引入了一种将2D图像卷积膨胀为3D卷积的方法由于视频和3D数据集相对较小，因此它们受益于膨胀的预训练图像网络。然而，虽然膨胀技术仅适用于模型微调，但OMNIVORE模型是在图像、视频和单视图3D数据上联合进行预训练的。线性+线性Transformer16104变形金刚在视野中最初为NLP任务提出的Transformer架构[92]已成功应用于图像上的计算机视觉[11，21，70，88，93，94]，视频[5，8，28，29，52，66]和3D数据[60，68，103]。ViT [21]、Swin [51]和MViT [24]等模型在图像分类、检测和视频识别等基准任务上具有竞争力例如，Swin [51，52]和MViT [24]需要在图像或视频识别任务中使用最小的更改类似地，Perceiver [38]可以对图像、点云、音频和视频输入进行建模。然而，所有这些研究都为每种视觉模态训练了单独的模型。相反，我们同时在多个输入模态上训练单个模型，这使我们的模型具有跨模态泛化能力。多模式学习。我们的工作使用多种视觉方式来训练模型。多模态学习架构可以涉及针对每种类型的输入模态训练单独的编码器。例如，一系列任务需要为图像和文本[15，30，41，57，59]，视频和音频[3，4，62，63，67，71]或视频和光流[77]训练单独的编码器。最近，变换器已被用于融合多种模态：变换器已被用于融合视觉和语言任务[2，17，37，40，49，56，83，86]和视频和音频任务[64]，视频和图像任务[7]，甚至涉及视频，音频和文本的任务[1]。与我们的工作不同，大多数先前的工作假设所有输入模态都是对应的并且同时可用，这限制了它们仅使用多模态数据集。在我们的工作中，我们在不同的视觉模态上训练单个模型，而不假设同时访问所有模态。这使我们能够利用标准的现成的单模态视觉数据集，我们表明使用单个共享编码器自然会导致跨模态泛化。多任务学习。我们的工作也与多任务学习的研究有关[14]，这些研究开发了在同一输入上输出多个任务预测的模型[23，27，44，58，61，102]。这种多任务学习器在目标任务表现出很强的相似性时工作得很好[61，99]。它们与OMNIVORE的不同之处在于它们在单一输入模态上操作，但被训练来执行多个任务。相比之下，我们的模型被训练来执行单一任务（即，分类）。其他多任务学习者操作多模态输入[39]，但他们使用手工设计的模型组件为每个模态。3. 方法我们的目标是学习一个单一的模型，可以在三个主要的视觉形式：图像，视频和单视图三维操作。由于模型的输入模态具有不同的大小和布局，因此视频具有时间轴，而单视图3D具有额外的深度通道，因此这设计模型的挑战。为了克服这一挑战，我们采用了Transformer [92]架构，因为自注意机制可以优雅地处理可变大小的输入。图2展示了我们的方法的概述3.1. OMNIVORE模型我们将所有的视觉模态转换成一个共同的格式，通过嵌入表示它们。然后，我们的模型使用一系列的时空注意力操作，以构建一个统一的表示不同的视觉模态。输入修补程序。我们将不同类型的视觉输入表示为4D张量X∈RT×H×W×C，其中T是时间维度的大小，H和W是空间维度的大小，C是通道维度的大小。因此，RGB图像I∈R1×H×W×3具有T=1帧，其中C=3个通道，RGB视频V∈RT×H×W×3具有T >1帧，并且单视点3D图像D∈R1×H×W×4具有T=1帧，其中三个RGB通道和一个深度通道。我们遵循[21，51，52]并将输入拆分为补丁集合。我们在图2中说明了这个过程。具体来说，我们将视觉输入X转换为一组大小为t×h×w×c的4D子张量x。图像I被分割成一组大小为1× h × w ×3的非重叠图像块。类似地，视频 V 被分割成形状为t×h×w×3的一组非重叠时空块对于单视图3D图像D，图像（RGB）和深度(D)通道分别转换为大小为1×h×w× 3和1×h×w× 1。模型架构。我们的模型f将所得的时空视觉块映射到图像、视频和单视图3D的共享表示Φ中。我们设计的模型，以使最大的参数共享视觉模态。模型的输入层独立地处理每个补丁x，并使用线性层将补丁投影到嵌入 e 中，然后使用 LayerNorm[6]（linear+LN）。每个形状为t×h×w×c的面片x都被转换成一个大小为d的嵌入。我们使用相同的层来嵌入所有的三通道RGB补丁，即，用于图像补丁、视频补丁和单视图3D图像的前三个通道的补丁。我们在一侧对单帧补丁进行零填充，以确保所有补丁具有相同的形状，t×h×w×3。我们使用单独的线性+LN层来嵌入深度通道补丁，并将其输出添加到相应的RGB补丁的嵌入。我们使用相同的模型（参数）来处理所有结果嵌入。虽然OMNIVORE可以使用任何视觉Transformer架构[21，24]来处理补丁嵌入，但鉴于其在图像和视频任务上的强大性能，我们使用Swin Transformer架构[51我们依赖于自我注意[92]操作来跨补丁嵌入进行时空建模，e.类似于[51]，自我注意涉及来自空间和时间上邻近的补丁的补丁嵌入。我们还使用16105两组相对位置编码：一组用于空间维度，另一组用于时间维度。3.2. 训练OMNIVORE模型OMNIVORE模型f为多种类型的视觉输入创建单个嵌入f（X）=Φ。我们使用一系列分类任务来训练我们的模型，这些任务支持数据集[105]美国加州大学洛杉矶分校[106]美国加州大学洛杉矶分校[20]第20话：一个人的世界（上[65]第65届中国国际音乐节[65]第65话：我的世界任务#cls #train #val细粒度cls。8142 437K 24K细粒度cls.373.6K 3.6K Scene cls.365 1.8M 36KAction cls.174 169K 25KAction cls.3806 67K 10K场景cls.10 794653细分40 794653vide inputs{（Xi，yi）}具有可视输入Xi和标签yi。例如，我们在用于图像分类的ImageNet-1 K数据集、用于动作识别的Kinetics-400数据集和用于单视图3D场景分类的SUN RGB-D数据集上联合训练大多数OMNIVORE模型这种方法类似于多任务学习[14]和跨模态对齐[15]，但有重要的区别。特别地，我们既不假设输入观测是对齐的（即，我们不假设访问图像、视频和3D数据之间的对应关系），也不假设这些数据集共享相同的标签空间。为了实现这一点，我们在模型产生的最终表示Φ之上采用特定于小行星的线性分类层样本的训练损失仅基于对应于该样本损失和优化。我们使用小批量SGD训练OMNIVORE以最小化训练数据集上的交叉熵损失。我们实验了SGD的两种不同的小批量构造策略。在我们的第一个策略中，我们分别从每个数据集（模态）构建小批量。这种策略很容易实现，但在数据集之间交替可能会导致训练不稳定。因此，我们实验了第二种策略，该策略构建了混合所有数据集样本的小批量。我们在§4.3中评估了两种小批量构造策略。4. 实验我们进行了一系列实验来评估OMNIVORE的有效性。具体来说，我们比较OMNI-VORE模型，他们的特定模态的同行和国家的最先进的模型上的各种识别任务。我们还消融了我们在OMNIVORE中做出的几个设计选择。预训练数据集。我们在来自ImageNet-1 K数据集的图像[75]，来自Kinet-ics数据集的视频[42]和来自SUN RGB-D数据集的单视图3D图像[79]上训练OMNIVORE。我们在各自的验证集上测量模型的前1和前5分类准确度。我们注意到，这三个数据集在视觉概念上的重叠可以忽略不计：ImageNet-1 K专注于以对象为中心的类，Kinetics-400专注于动作类，SUN RGB-D专注于室内场景类。图像. ImageNet-1 K（IN 1 K）数据集拥有1,000万个训练和 50 K 个验证图像，包括 1,000 个类。视频 .Kinetics-400（K400）数据集由240 K训练和20 K 10秒的验证视频剪辑组成表1. 用于评估IM上O MNIVORE的传输数据集-年龄、视频和单视图3D模式。该表报告了每个数据集的任务、类数（#cls）、训练样本数（#train）和验证样本数（#val）。长，并被标记为400个动作类之一。单视图3D。SUN RGB-D数据集包含19个场景类的15K训练和15K val RGBD图像。接下来[74]，我们将深度图转换为视差图。实作详细数据。我们使用Swin Transformer [51，52]架构作为OMNIVORE的主干，并为每个目标数据集附加线性头在训练时，我们使用224×224的分辨率，并在ImageNet上使用标准图像增强[88]进行训练对于Kinetics，我们在步幅2处采样32帧。SUN RGB-D的处理类似于ImageNet，但我们以0的概率随机丢弃RGB通道。5，以鼓励模型也使用深度通道进行识别。我们在附录A中提供了完整的实施细节。我们的模型使用AdamW [53]优化了500个epoch，其中单个epoch由ImageNet-1 K和Ki- netics的一个epoch和SUNRGB-D的10个epoch组成。传输数据集和指标。我们评估O MNIVORE 在对各种图像、视频和单视图3D任务的迁移学习实验中;见表1的总结。我们在附录B中提供了实验装置的详细信息。图像. 我们在iNaturalist-2018数据集[ 36 ]上评估了OMNIVORE的细粒度对象识别，在Oxford-IIIT Pets数据集[ 69 ]上评估了细粒度分类，在Places-365数据集[ 105 ]上评估了场景分类。视频. 我们使用Something-v2数据集，它特别强调动作识别的时间建模。我们还使用了EPIC-Kitchens-100数据集，其中包含100小时的无脚本自我中心视频。每个片段都标有一个动词和一个名词，它们共同构成一个动作。我们的模型被训练来识别所有3,806个动作，即，数据集中的动词-名词对。我们边缘化动词以获得名词预测，反之亦然。单视图3D。我们使用NYU-v2数据集进行单视图3D场景分类和分割。我们遵循[33]中的场景分类和[10，33]中的分段设置。对于分割，我们遵循[51]并使用UPerNet [95]头部和Swin主干。161066543210图 3.比较在 K400 上使用VideoSwin的 OMNIVORE 。OMNIVORE在 [42]中定义的所有38个类别组的F1得分上优于VideoSwin（为简洁起见，此处显示前15名）。表3.在对七个下游任务的模型进行微调后，将O MNIVORE与特定于模态的模型进行比较。提供了三种不同模型尺寸的结果：T、S和B。我们的图像特定模型是在IN1K上预训练的视频特定和单视图3D特定模型均使用来自预训练图像特定模型的膨胀进行初始化，并分别在K400和SUN RGB-D上进行微调 OMNIVORE模型在几乎所有下游任务上都与特定模态模型相当或优于特定模态模型。方法ImageNet-1KKinetics-400SUN首页-1首页-5首页-1首页-5top-1[51]第五十一话[52]第五十二话深度Swin-T81.2✗✗95.5✗✗✗78.8✗✗93.6✗✗✗63.1OMNIVORE（Swin-T）80.995.578.993.862.3[51]第五十一话[52]第五十二话DepthSwin-S83.2✗✗96.2✗✗✗80.6✗✗94.5✗✗✗64.9OMNIVORE（Swin-S）83.496.682.295.464.6[51]第五十一话[52]第五十二话深度Swin-B83.5✗✗96.5✗✗✗80.6✗✗94.6✗✗✗64.8OMNIVORE（Swin-B）84.096.883.395.865.4表2. OMNIVOREvs. 具有相同模型架构和参数数量的特定模态模型。OMNI-VORE是一个在IN 1 K、K400和SUN数据集上从头开始训练的单一模型，而特定于模态的模型是针对每个数据集（模态）专门训练的。ImageSwin模型是从头开始训练的，而VideoSwin和Depth-Swin模型是从ImageSwin模型中微调的。OMNI-VORE的性能达到标准或优于特定模式的模型。4.1. 与特定模态模型的我们将OMNIVORE与在特定视觉模态上训练的模型进行了比较。我们在IN1K，K400， Sun数据集我们的模态特定基线模型使用与OMNIVORE相同的Swin变换器架构;我们将它们称为ImageSwin、VideoSwin和DepthSwin。不包括补丁嵌入线性层，这些模型具有相同的参数作为OMNIVORE的伯。根据标准实践[51，52]，ImageSwin模型在IN1K上训练，而VideoSwin和DepthSwin模型通过膨胀ImageSwin模型进行微调。我们用三种模型尺寸进行实验：即。、Swin-T、Swin-S和Swin-B。1训练前表现。在表2中，我们比较OM-1关于这些模型尺寸的详细信息，我们参考[51NIVORE到预训练数据集上的特定模态模型。表中的结果表明，在不同的模型尺寸下，OMNIVORE模型的性能与其特定于模态的对应模型相匹配或超过其性能。这一观察结果支持了我们的假设，即学习一种跨视觉模态工作的单一视觉表征是可能的。MNIVORE使用相同的训练数据、相同的模型参数和相同的模型容量来学习与特定于模态的表示一样好的表示。这意味着OMNIVORE为通常用于部署特定模态模型的预训练然后微调范式提供了一种可行的替代方案：它可以用三分之一的参数提供相同或更好的识别准确性。从我们的研究结果中，我们还观察到，能力更高的模型从杂食训练中受益更多。使用较大Swin-B架构的OMNI-VORE模型在IN 1 K和K400上都优于其特定于模态的对应模型，而最小的Swin-T模型则没有。图3详细分析了K400数据集上OMNIVORE相对于VideoSwin 基线（均使用 Swin-B 架构）的改进。VideoSwin在IN 1 K上进行预训练，在K400上进行微调，而OMNIVORE在IN 1 K、K400和SUN RGB-D上进行联合训练。这两种型号都使用 Swin-B 架构。OMNIVORE特别提高了对需要推理人体部位（如手、手臂、头、嘴、头发等）的类的识别。我们推测这是因为图像上的联合训练有助于OMNIVORE学习零件空间配置的更好模型。迁移学习绩效。我们通过对各种下游任务进行微调，将OMNIVORE与特定模态模型进行表3给出了这些实验的结果。我们观察到，OMNIVORE传输优于模态特定的模型，几乎所有的下游任务。特别是，OMNIVORE在视频识别任务上提供了显着的增益，即使与基线相比，它在预训练期间没有得到任何额外的视频监督我们重申，OMNIVORE拥有相同的型号，Kinetics-400上的模型方法P365iNat18宠物SSv2EK100NYU NYU-seg首页>新闻中心>公司新闻>公司新闻>公司新闻上一页1下一页5下一页top-5top-1Miou具体57.987.369.787.693.799.662.288.741.862.872.547.9OMNIVORE58.287.469.087.794.299.764.489.742.763.177.349.7具体58.788.172.990.294.499.666.891.142.563.476.751.3OMNIVORE58.888.073.690.895.299.768.291.844.964.876.952.7具体58.988.373.290.994.299.765.890.642.864.076.451.1武术舞蹈球拍+球拍运动触摸人高度体操吃+喝手玩游戏机动性-水自动维护运动身体动作头 +嘴高尔夫16107方法P365iNat18宠物EfficientNet B6 [78，96]58.579.195.4EfficientNet B7 [78，96]58.780.6±EfficientNet B8 [78，96]58.681.3±[88]第88话±79.5±ViT-B/16 [21，78]↑58.279.8±ViT-L/16 [21，78]↑59.081.7±OMNIVORE（Swin-B）59.376.395.5OMNIVORE（Swin-B ↑）59.682.695.9OMNIVORE（Swin-L）59.478.095.7OMNIVORE（Swin-L↑）59.984.196.1表5. 比较 OMNIVORE与最先进的模型在三个数据集上的图像分类微调实验。MNIVORE表示很好地推广到场景分类（P365）和细粒度分类（iNat18，Pets）。↑表示在更高分辨率的图像上进行微调（384×384px;参见[89]）。表4.将OMNIVORE与用于预训练OMNIVORE的图像、视频和单视图3D分类数据集上的最先进模型进行比较。OMNIVORE在所有三个预训练任务上的表现与最先进的模型相当或更好，包括类似大小的特定模态模型。pacity作为特定模式的基线。这一观察结果强调了多模式训练的关键优势之一：由于OMNIVORE是在更多样化的训练数据上联合进行预训练的，因此它可以更好地推广分布外。如前所述，表3还显示，高容量模型从杂食训练中获益最多。4.2. 与最新技术接下来，我们进行实验比较OMNIVORE现有的国家的最先进的模型。在这些实验中，与许多最先进的特定于模态的方法一样，我们在预训练期间使用OMNIVORE Swin-B和Swin-L模型在IN 21 K、IN 1 K、K400和SUN上从头开始训练，其中单个epoch由IN 1K和K400各一个epoch、SUN的10个epoch和ImageNet-21 K的0.1个epoch组成。表4比较了OMNIVORE模型与最先进模型在三个基准测试中的性能。迁移学习绩效。我们通过对下游任务进行微调来比较OMNIVORE模型和特定于模态的模型在表5中，我们报告了图像分类的结果。OMNIVORE模型在Places-365上的场景分类以及iNaturalist-2018和Oxford-IIITPets上的细粒度分类方面优于现有技术。我们对OMNIVORE的视频分类进行了微调，并在表6中报告了结果。在EPIC-Kitchen-100数据集上，OMNIVORE Swin-B模型在动词、名词和动词-名词对（动作）分类上实现了绝对最佳性能。类似地，在SSv2数据集上，需要时间推理，OMNIVORE优于所有先前的工作。这表明OMNIVORE表示可以很好地转移到时间推理任务± OM。NIVORE设置了一个新的最先进的技术，同时优于专门用于这些视频任务的架构。最后，在表7中，我们报告了RGBD场景分类和分割的微调结果。虽然先前的工作依赖于专门的3D算子 [10] ，融合技术 [97] 或深度编码方案 [33] ，但OMNIVORE使用通用架构并直接对显示进行操作。OMNIVORE在场景分类和分割任务上都达到了最先进的性能。4.3. 消融研究我们取消了OMNIVORE的一些OMNIVORE的性能与特定模态的方法相当或超过特定模态的方法，尽管使用了不针对任何特定模态定制即使与具有类似参数数量的特定模态模型进行比较，OMNIVORE模型也能与IN1K上的最新技术水平相匹配，并通过实现84.1%的准确度± 1%的增益（以前只有使用额外的大型视频数据集才能实现）这证明了在图像、视频和单视图3D基准测试中使用相同的OMNIVORE在测试表8中。结果表明，在不同的设计方案下，OMNIVORE的性能相对稳定。为了在消融中获得更快的周转时间，我们对模型进行了300个epoch的训练。从头开始训练或微调。我们比较了在不同模态上从头开始训练OMNIVORE模型（顶行）与通过图像分类初始化模型，然后在所有模态上进行微调（第二行）。对于微调结果，我们使用预训练的ImageNet-21 K模型初始化OMNIVORE（Swin-B），然后在IN 1K，K400和SUN上进行联合微调100个epoch。的方法ImageNet-1KKinetics-400SUN首页-1首页-5首页-1首页-5top-1[24]第二十四话83.1-✗✗✗[21]第二十一话85.3-✗✗✗[51]第五十一话85.2 97.5✗✗✗[51]第五十一话86.3 97.9✗✗✗[66]第六十六话✗✗79.894.2✗美国[8]✗✗80.794.7✗ViViT-L/16x2 320 [5]✗✗81.394.7✗MViT-B 64×3[24]✗✗81.295.1✗[52]第五十二话✗✗82.795.5✗[52]第五十二话✗✗83.195.9✗[50]第五十话✗✗✗✗54.6G-L-SOOR [80]✗✗✗✗55.5TRecgNet [22]✗✗✗✗56.7CNN-RNN [9]✗✗✗✗60.7深度Swin-B✗✗✗✗69.1深度Swin-L✗✗✗✗68.7OMNIVORE（Swin-B）85.397.584.096.267.2OMNIVORE（Swin-L）86.097.784.196.367.116108（其在训练期间在数据集之间交替）不会导致训练期间的不稳定性。此外，由于它更容易实现，我们使用它来训练OMNIVORE。深度通道的面片嵌入模型。OMNIVORE使用单独的线性+LN层用于RGBD图像中的深度通道。我们将其与使用四通道卷积模型来嵌入深度补丁进行比较，并发现单独的层在SUN上具有更好的性能。我们还观察到，使用单独的层有助于OMNIVORE更好地转移到下游RGBD任务。表 6. 在两个数据集上的视频分类微调实验中比较OMNIVORE与最先进的模型。我们突出显示了显示先前工作中使用的两个主要分类指标的列MNIVORE模型在两个数据集上都获得了最先进的结果，甚至优于一些多模态方法。方法分类分割[50]第五十话65.4✗TRecgNet [22]69.2✗[第10话]✗51.3BCMFP + SA门[16]✗52.4中医药[97]✗53.1OMNIVORE（Swin-B）80.055.1OMNIVORE（Swin-L）80.356.8表7. 在NYU-v2数据集上的RGBD微调实验中比较OMNIVORE与最先进的模型。左列示出场景分类准确度，而右列示出语义分割的平均交并比。OMNIVORE在RGBD分类和分割方面优于现有技术。从头开始训练的模型在图像和视频分类中表现更好。数据比率。由于IN 1 K和K400数据集比SUN大得多，因此我们在训练OMNI-VORE时复制SUN。虽然复制有帮助，但更高的复制因子会损害SUN上的模型性能（这暗示了过拟合），而IN1K和K400上的性能则没有变化。基于相同的逻辑，我们对IN21K数据集进行欠采样，使其大小与IN1K相似。增加IN21K的比例对IN1K没有影响，降低K400的性能，提高SUN的性能。因此，我们使用0.1：1：1：10设置作为最终模型。批处理策略。我们评估了第3节中描述的两种不同的策略，并观察到它们的表现相似。我们还发现，5. 跨模态综合OMNIVORE相对于特定模态模型的一个关键优势是它可以跨视觉模态进行泛化。这种概括是自然出现的，因为我们对所有模态使用相同的模型。我们的模型既没有使用跨模态的相应数据进行训练，也没有任何跨模态的一致性损失。跨图像和深度检索。我们使用OMNI-VORE表示来检索给定RGB图像的深度图。为了创建深度图数据库，我们在ImageNet-1 K训练集上运行了一个单目深度预测模型[74]。我们注意到OMNIVORE没有在ImageNet-1K深度图上训练，也没有在预测深度上训练。我们使用ImageNet-1 K val set（RGB）图像作为查询。图4示出了检索到的地图的五个示例。这些结果表明，OMNIVORE构建了良好的深度图表示，即使它之前在训练期间没有观察到ImageNet-1 K深度图。我们强调，这种跨模态泛化能力不是明确学习视觉模态之间的对应关系的结果[33，77]。相反，它的出现是由于这些模态使用了几乎完全共享的编码器。IN1KK400孙基线85.283.265.5调优±0.7±0.9+0.9数据比0.1：1：1：1±0.1+0.3±0.7IN21K：IN1K：K400：SUN0.1：1：1：10+0分+0.1+0.60.1：1：1：20+0分+0.2+0.60.1：1：1：100±0.1±0.1±2.10.3：1：1：50+0.1±1.3+1.50.6：1：1：50±0.2±3.1+1.01.0：1：1：50±0.1±4.5+2.0配料混合±0.2±0.1±0.4补丁嵌入RGBD转换器±0.1+0.1±2.2表8.培训O MNIVORE时所做设计选择的消融研究。我们的基线设置使用0.1：1：1：50的数据比率，单独的嵌入策略，用于嵌入RGB和深度通道的线性层，以及300epoch训练。 OMNIVORE的性能在不同的决策下是稳健的。从头开始训练的MNIVORE（顶行）比联合微调的模型（第二行）表现稍好。EK100 SSv2方法动词名词行动top-1top-5仅RGB方法[25]第二十五话65.650.038.563.088.5时间变换器[8]±±±62.4±[24]第二十四话±±±68.791.5[76]第二十六话66.053.445.3±±VIMPAC [87]±±±68.1±ViViT-L[5]66.456.844.065.989.9MFormer-L [72]67.157.644.168.191.2ORVIT [35]68.458.745.769.591.5加拿大[100]±±±70.9±[52]第五十二话67.857.046.169.692.7O MNIVORE （Swin-B）69.561.749.971.493.5多模态方法MML[45]±±±69.192.116109查询807060501 2 4 8 16 32剪辑长度（帧数）图4.在ImageNet-1 K数据集上检索给定RGB图像的深度图。我们显示了从IN1K训练集（右）中检索到的深度图，用于从IN1K验证集（左）中进行RGB图像查询。虽然OMNIVORE没有在IN1K深度图上进行训练，但共享的视觉表示使其能够检索与查询语义相似的深度图。根据不同的模式进行分类。方法RGB D RGBDOMNIVORE（Swin-B）84.3 63.1 83.7为了定量地测量OMNIVORE在不同模态上的泛化性能，我们使用预测的深度图在ImageNet-1 K数据集上执行k -最近邻（k-NN，k = 20）分类实验。我们从val集上的RGB图像中提取OMNIVORE表示，并测量模型从训练集中检索图像，RGBD图像和仅深度图像的能力。我们观察到，OMNIVORE产生一个代表，允许成功的k-NN分类，这表明其强大的泛化性能。令人惊讶的是，我们观察到即使在检索深度图像时也能达到很高的准确度，深度图像提供的关于对象类的信息比RGB图像少。所有模态的检索。我们进一步探讨OMNIVORE视觉表示在检索实验中的图像，视频和深度图。我们使用ImageNet-1 K val集合中的RGB图像作为查询，并使用它们从ImageNet-1 K（预测深度）和Kinetics-400中检索类似的深度图。图1显示了结果检索的示例结果说明了 OMNIVORE 如何支持检索视觉概念的图像（RGB），单视图3D（RGBD），和视频（RGBT）使用其共享的表示空间。桥接基于帧和基于剪辑的视频模型。O MNIVORE的跨模态泛化能力也使其对要分类的视频长度的变化更鲁棒。我们在图5中演示了这一点，其中我们在推理时使用不同长度的剪辑对视频进行分类。该模型在步幅2处使用32帧进行训练，默认情况下使用4个长度和步幅相同的剪辑来覆盖图5. K400数据集上作为剪辑长度函数的准确度。模型在32帧剪辑上进行训练，但在不同长度的剪辑上进行评估（帧采样使用相同的fps）。O MNIVORE的性能比VideoSwin-B模型的性能下降得更温和，并且在进行帧级推断时仍然有效（即，，当夹子长度为1时）。完整的10秒视频在推理时间。在这个实验中，我们将剪辑长度从1变化到32，按比例增加剪辑的数量，以在每种情况下仍然覆盖整个视频。结果表明，随着视频长度的减少，O MNIVORE的性能下降得更平缓。值得注意的是，OMNIVORE在1帧的剪辑长度处优于基线18.5%（帧级推断）。这表明图像和视频的联合训练使模型能够有效地使用时间和空间线索。6. 讨论和限制虽然OMNIVORE提出了一个先进的交通方式的具体模型，它有几个限制。当前的OMNIVORE实现仅适用于单视图3D图像，并且不能推广到其他3D表示，例如体素、点云等。处理这样的输入的简单方法可以是从这样的输入渲染另一个警告是深度输入不是尺度不变的;我们使用归一化来缓解这个问题[74]。此外，OM-NIVORE仅关注视觉模态，因此不使用音频等共现模态。MNIVORE仅使用分类进行预训练;使用结构化预测任务（如分割）可能会产生更丰富的表示。我们将这种扩展留给今后的工作。伦理考量。我们的研究重点是视觉识别训练模型的技术创新。从伦理学的角度来看，这些创新本身似乎是中立的。然而，所有适用于其他视觉识别模型的伦理考虑同样

下载后可阅读完整内容，剩余1页未读，立即下载