函数对应问题：视觉任务的本质和泛化能力

46 浏览量更新于2023-10-13 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1函数对应问题卡耐基梅隆大学网址：https://agi-labs.github.io/FuncCorr摘要在视觉数据中找到对应关系的能力是大多数计算机视觉任务的本质。但什么是正确的视觉对应的任务被很好地定义为相同对象实例的两个不同图像。在属于同一类别的对象的两个图像的情况下，在大多数情况下，视觉对应是合理定义的。但是，完全不同类别的两个对象之间的对应关系呢？例如，一只鞋和一个瓶子是否存在任何通信？灵感来自人类的能力：（a）超越语义范畴进行概括;(b)推断功能启示，我们引入问题，本文中的函数对应。给定两个物体的图像，我们问一个简单的问题：对于给定的任务，这两个图像之间的对应关系集是什么？例如，对于敲打或倾倒的任务，瓶子和鞋子之间的对应关系是什么我们引入一个新的数据集：FunKPoint具有10个任务和20个对象类别的地面真实对应关系。我们还介绍了一个模块化的任务驱动的表示攻击这个问题，并证明我们学到的表示是有效的这项任务。但最重要的是，由于我们的监督信号不受语义的约束，我们表明我们学习的表示可以更好地推广少数分类问题。我们希望这篇论文能激励我们的社区超越语义，更多地关注机器人任务的跨类别泛化和学习表示。1. 介绍感知一个启示并不是对一个物体进行分类。石头是导弹这一事实并不意味着它不可能是其他东西。它可以是一个镇纸，一个书挡，一个锤子，或者一个摆锤。James J. 吉布森计算机视觉和视觉表征学习一直受到语义范畴的束缚。我们的训练数据是用语义类别构建的-ImageNet具有* 作者贡献相同图1：给定一对图像，功能对应在功能相同的点之间建立对应。在该示例中，我们在倾倒时握住瓶子的主体，但是在击打时握住颈部，因此我们可以建立用于倾倒的对应关系（瓶子主体、鞋前部）和用于击打的对应关系（瓶子颈部、鞋前部）。狗、猫和蘑菇的1000个种类。我们的监督是语义分类。而我们的评测任务是语义-图像分类、目标检测、图像分割等等.因此，我们的方法受到语义类别限制的束缚也就不足为奇了。我们的陈述在捕捉机器人任务的启示方面并不有效。我们的表示未能有效地推广到新的对象类别，由于专注于学习类内不变性。另一方面，人类有着超乎范畴的非凡思维能力我们可以用螺丝刀来打开螺丝，也可以用来清洁打印机、锤子和钉子等等。显然，我们目前的语义驱动的计算机视觉需要重新思考。在经典的计算机视觉中，语义并没有扮演如此重要的角色。相反，通信被认为是计算机视觉领域最重要的任务之一这也是视觉表征学习的根本目标–在关于计算机视觉中三个最重要的问题的轶事对话中，Takeo Kanade表示它们是“然而，视觉对应的这一基本任务是模糊和不明确的。什么是视觉对应？任何一对图像之间是否存在对应关系？视觉对应问题是1577215773在跟踪和多视图重建的背景下，其目标是在同一对象的两个图像之间创建对应关系[55]。它也已经在语义类别的上下文中进行了研究，其目标是在来自相同类别的对象实例的图像之间创建对应关系[29，39]。但它的-十停止在猫什么是正确的对应关系之间的两个看似不同的对象类别（例如，一个瓶子和一只鞋）？相比之下，我们人类可以识别语义不同对象之间的对应关系我们无意识地使用这种能力将我们的物体操作技能转移到新的物体上，以便有效地完成日常任务。具体来说，人类拥有三种有趣的能力：(a)在视觉上推断对象的示能表示的能力，（b）概括语义类别之外的能力，以及（c）针对不同任务调整示能表示的能力。为了便于探索这些能力，我们引入了功能对应的问题。给定两个对象的图像，我们问一个简单的问题：对于给定的任务，两个对象之间的对应集是什么？例如，图1中示出了用于倾倒任务的鞋和瓶子之间的对应关系。抓取位置以绿色显示，储存位置以橙色显示，倾倒口以红色关键点显示。另一方面，用于击打（用力击打）任务的鞋和瓶子之间的对应性是完全不同的，并且在图1中示出。请注意，两个对象之间的对应关系由3D形状和物理/材料属性驱动。我们还介绍了一个新的数据集，称为FunKPoint（第3节）。FunKPoint为20个对象类别的10个任务我们还提出了一个模块化的任务驱动架构。更具体地说，我们的模块化架构计算给定输入任务的图像表示。我们展示了我们的架构是非常有效的在模拟功能对应方面，尽管相对于人的表现仍然存在显著的差距。但最重要的是，在概念验证实验中，我们展示了学习功能对应的潜在承诺。因为我们的任务具有功能监督并且存在跨类别监督，所以我们的表示可以优于语义学习的表示以进行少量学习。1.1. 为什么是功能性通信？本文介绍了函数对应问题。我们相信这个任务构成了视觉学习的核心，原因如下：(a) 对象示能表示和功能表示：预测对象启示的能力是人类智能的基石，也是机器人任务的关键要求。功能对应的任务使我们能够学习对机器人任务有用的功能表示但更重要的是，除了预测主要的启示（螺丝刀是用来拧的），人类还很擅长预测次要的启示（我们如何使用新的物体来完成任务-例如，我们如何使用新的物体来完成任务）。用螺丝刀清理打印机中的卡纸）。在不同的对象类别的建模功能对应应有助于预测新的使用对象。(b) 超越语义范畴的泛化：不像其他视觉任务，如对象分类/检测，甚至从图像集合中学习3D，该任务跨越对象语义。它试图对不同类别的对象之间的共性进行建模，从而开辟了超越语义类别的泛化的可能性。(c) 任务驱动表示：最后，地面实况是以任务本身为条件的，一对对象之间的对应关系取决于你如何设想使用这些对象。这使我们能够制定一个任务驱动的表示（与当前现有的任务不可知的ConvNet表示不同）。2. 相关工作对应关系：对应关系问题一直是计算机视觉界关注的焦点，已经提出了许多子问题并提供了解决方案。经典的对应问题建立了同一对象的不同视图之间的对应关系。这种对应对于基于多视图几何的算法是至关重要的，并且通常通过匹配感兴趣点的局部描述符来解决[3，4，21，35，36]。最近，研究人员研究了类别级别的对应性[46，47，52，29，39]，这并没有将对应性限制在单个实例中。这样的方法通常在深特征空间中对对应性进行建模，并且依赖于用于训练的模拟变换。由于同一类别的对象通常执行类似的动作，我们的工作也可以在类别级别上建立对应关系然而，我们认为任何对象，不管它的对象类，可以对应，如果它们共享具有相似功能语义的部分。因此，我们的功能对应可以被认为是更一般的，因为我们还建立了跨类别对应。作为一个单独的问题，跨视频帧（光流）的像素之间的密集对应关系也进行了研究。传统上，光流估计问题被解决为基于颜色恒定性的能量最小化问题[23，5，44，50]。最近的光流估计算法利用神经网络[24，1，27，28]作为模型，并探索自我监督的培训方法[34，17]。另一行工作集中在中级光流问题[55，32，26]上，其中还考虑了像素周围区域之间的一致性。这样的方法通常利用视频的空间时间相干性质来提供自然的监督信号。15774然而，因为主要训练损失通常是照片度量损失，所以所学习的对应性不可避免地是局部的。在这项工作中，我们试图建立一个更高层次的功能对应。这种对应关系涉及对象示能表示的知识，这仍然难以从未标记的原始视频中学习。功能表示和示能：启示的核心思想是由詹姆斯J。Gibson [16].Gibson将对象启示描述为“交互的机会”。受Gibson的启示思想的启发[51，57]等方法使用手动定义的规则来预测启示。然而，这些方法过于脆弱，未能推广。近年来，随着3D场景理解的进步和交互数据的大规模可用性，也重新审视了示能性的概念[20，18，15，59，7]。诸如[20，59]的方法已经尝试使用3D理解，然后是示能表示估计。最近，一些方法试图收集大规模数据以进行示能估计[54]，并使用ConvNets来预测场景中的示能[14，53]。Affor- danceNet [10]同时本地化多个对象，并通过在具有启示标签的大规模数据集上进行训练来预测像素方面的启示。相比之下，我们的方法侧重于启示作为一种工具，以目标泛化超越语义类别和学习任务驱动的表示。更具体地，我们的目标是使用主要和次要对象示能表示来学习跨不同对象类别的视觉对应。我们的工作也与机器人领域最近的一些工作密切相关，这些工作专注于提取机器人任务的关键点[13，37]。然而，在大多数情况下，目标是学习预测相同类别的两个对象之间的密集关键点/对应关系在这项工作中，我们专注于更一般的问题，如何做跨多个对象类别的任务驱动的功能对应。任务驱动表示和模块化网络：深度学习中的分类模型在很大程度上被训练为判别模型[30，49，22]。最近，基于能量的模型[33]已经流行起来，并且在图像分类[19]、连续学习[12]、组合零激发学习[42，56]和文本的生成建模[2]方面取得了成功。在[42，56]中，关键思想是构建一个任务相关（或标签相关）神经网络，用于分类图像是否属于所考虑的标签。在[42]中，使用一系列神经网络模块计算图像x与标签y的兼容性，这些神经网络模块使用所考虑的标签y的函数重新加权。[42]中提出的模块化架构允许在不同标签之间共享学习的过滤器，这对于标签高度相关的领域至关重要。这些模块化神经网络也表现出了很大的在多任务强化学习中取得成功[9，58]，其中在相关任务之间共享模块以有效地学习策略。为了估计功能对应，我们需要根据所考虑的任务而变化的表示因此，我们采用类似的模块化任务驱动的体系结构来学习任务相关的表示，这也允许我们在相关任务之间共享神经网络模块。3. FunKPoint数据集为了探索功能对应的研究，我们提出了一个新的数据集：FunKPoint（功能关键点的缩写）。FunKPoint由2K个对象组成，涵盖20个对象类别。为了学习和评估图像对之间的功能对应关系，我们需要密集的人类注释这样的对应关系。然而，由于图像对和像素的二次方数量，这种方法是不可缩放的。相反，我们首先确定5个语义上有意义的点，这是每个任务必不可少的。对于每个任务，我们然后收集每个相关对象图像的5个关键点的注释。图2显示了数据集中的示例。注意，单个图像可以针对每个任务被不同地标记。总共获得大约24K个这样的标记的关键点。然后，可以用于执行动作的任何两个对象被用于建立对应关系（w.r.t.这一行动）。这种以特定动作为条件的两个图像之间的对应被称为功能对应。例如，在图1的左上图中。2.两个锤子都可以拔出钉子，因此可以在两个物体之间建立功能对应关系（由5对对应点组成）。同样，勺子和煎锅（图）。2顶-中）可以用来舀东西，所以我们也可以在它们之间生成函数对应数据收集首先，我们策划了一个行动词汇表consisting10个共同的任务（或行动）。我们的动作词汇受到TaskGrasp [38]数据集的启发，该数据集专注于任务相关的机器人抓握。因此，我们词汇表中的10个动作不仅很常见，而且作为机器人技术的基准也很有用对于每个动作，我们确定了5个对象类别，可用于执行该任务。请注意，许多对象类别可能与多个任务相关。这使得我们能够在执行不同任务的条件下为相同的对象生成不同的对应关系。例如，对象类别frying pan有2个可能的动作（以及其他动作）：Scoop and Mash/Pound.平底锅的边缘是一个功能关键点，对于舀起食物很重要，但是对于捣碎食物，平底锅的底部成为相关的功能关键点。有关20个对象及其相关任务的列表，请参见表1对于20个对象类别中的每一个，我们收集100个IM-15775我我∈ T--IFF类内对应类间对应动作：拔出钉子动作：铲操作：混合作用：刮擦动作：戳操作：捣碎/磅曲名：Lif t Something动作：翻转动作：倾倒图2：FunKPoint数据集：在这里，我们提出的数据集的例子。对于每个图像和相关任务，我们收集5个关键点的人类注释。关联图像之间的关键点为我们提供了许多类别内和类别间的功能对应关系。表1：FunKPoint中使用的10个操作类对应的对象类别动作对象倒瓶，煎锅，喷壶，杯子，簸箕勺子，篮子，杯子，煎锅，鞋子混合勺，餐叉，抹刀，钳子，搅拌器捣碎/磅瓶，煎锅，锤子，勺子，鞋勺子、餐叉、篮子、钳子、簸箕刮痧刮刀，餐叉，抹刀，泥铲，勺子例如：把钉子锤、长柄勺、剪刀、煎锅、餐叉、汤匙、餐叉、抹刀、长柄勺、大勺、钳子年龄从ImageNet数据集[8]，但补充了来自Google图像搜索的Creative Commons图像，以达到100。请注意，我们手动过滤掉包含多个对象实例、丢失部分或遮挡部分的图像。我们使用Amazon Mechanical Turk来收集关键点的人工注释。每个（图像，任务）对都标有5个功能关键点以及标签难度（在容易，中等或困难之间）的选择。在界面中，我们为每个点提供了一个简单的定义，当前动作，以及标记图像的示例。有关界面的可视化，请参见补充资料。如所解释的，每个对象可以与多个动作相关联统计）。从收集的数据中，我们创建了一个包含4044（图像，任务）对的训练分割，以及一个包含741（图像，任务）对的测试分割。4. 方法过去已经很好地研究了估计语义对应大多数方法[46，47，52，29，39]涉及学习像素或补丁级表示，其可以是用于匹配相似物体上的对应点。正如我们将通过实验证明的那样，对于函数对应的问题，这样的表示是不合适的。我们希望即使在语义不同的对象之间也能估计对应关系，第二，对应关系根据所执行的任务而变化。因此，我们提出了一种方法，产生任务驱动的representations，可以用来找到不同的对象之间的功能对应。首先，我们形式化的功能对应的问题设置考虑描绘对象〇和‘描绘对象〇’的两个图像，使得两个对象都可以用于执行任务t。给定对象o上的任何点p，函数对应问题的目标是估计对象o’上的函数对应位置p’。然而，如第3节所述，由于注释的成本过高，我们只能访问特定关键点的对应关系。因此，对于每个任务t我们有一组功能关键点pt1，pt2，...，p tK。然后，功能对应问题的目标可以被重新表述为关键点的功能对应位置的估计{p′t1，p′t2，.，p′tK}在对象o′上。最近，任务驱动的分类器在零次学习问题上得到了普及[42，56]。从这些方法中汲取灵感，我们采用类似的方法来学习任务驱动的表示。更正式地说，我们提出了一个模型θ参数θ作为输入的图像，任务t和输出表示f=θ（I，t）。为了使表示f对函数对应有用，我们建议使用第3节中给出的数据集。目标是确保在图像I的位置p处的表示f和位置p’15776普雷特我K我∈RNT−1 ×MT ×MT对于任务相关权重张量WW任务嵌入门控网络TTT图3：方法：我们使用任务驱动的模块化架构学习功能表示。我们表明，学习表示可以有效地用于识别对象之间的功能对应。请注意，我们在这里每层显示3个模块仅用于说明，请参阅补充材料以获得此超参数的选定值。只有当p，p′是函数对应时，图像′的值为了实现这一点，我们提出了一个对比学习目标[40]如下：除了包括单个模块的最后一层。模块可以是任何可微操作。在我们提出的架构中，我们使用具有批处理归一化[25]和ReLU激活函数的卷积层（参见sup.′Σexp（f[ptkk=1p']|f′[p′tk]）TK（一）补充内核大小、过滤器数量等的细节）。L（I，I，t，θ）=-logΣexp（f[p]|f′[p′]）我们将第i层的第j个模块表示为Tij。给定其中f=F（I，t），f′=F（I′，t）任务不，模块θ θtTij被计算为：f[p]是空间位置p处的索引特征f其中，ptk、p′tk是任务t的第k个功能关键点分别成像图像I、I’直观地说，最小化这个目标有效地最小化了fea-〇ij=TijMTk=1Wt[i，j，k]*o（i−1）kΣ（二）两个图像中功能上对应的点的图（分子）并最大化要素之间的距离ResNet-50W211W311➚11➚21➚3111瓦1616➚12➚22➚32W232¥12$1W$13➚13W233➚23W333➚33.Σ15777∈GG我×I×不T TI不ΣΣGF关键点和所有非对应位置处的特征函数p′（分母）。注意，位置p′包括所有关键点和非关键点位置。这种一般的对比学习公式可以适用于适用于任何卷积神经网络架构对图像和任务T进行联合编码。为了模拟不同功能关键点之间的依赖关系任务，我们建议使用模块化架构，让我们在任务之间共享过滤器。我们采用[42]中为了完整起见，我们在这里详细描述该体系结构。4.1. 实现细节图3显示了我们提出的模型的概述。对于一个图像，我们首先使用ResNet主干提取任务无关的特征，直到conv4_x层（在[22]中定义）r=R（）。对于尺寸为H/W的图像，表示r具有空间尺寸H/16W/16，在每个位置处具有C维特征表示r然后由模块化任务驱动的特征提取器处理以产生最终特征f=（，t）。模块化任务驱动特征提取器包括NT个层，其中每个层包括MT个模块，例如直观地说，模块的输入是前一层中的模块的输出。用于模块在第一层中，输入被视为任务不可知的之前生成的表示，即〇〇k= r。最后输出任务相关表示被作为最后一个模o（NT）1。注意，我们假设给定一个任务相关的权重张量WtRNT−1× MT× MT。这个重量十-使用被称为选通网络的单独的全连接神经网络来估计Sor（参数细节参见补充）。门控网络将任务嵌入t作为输入，并将权重张量输出为Wt=（t）。如[42]中所解释的，每个模块的输入权重（W[i，j，…]）需要使用softmax操作投影到总之，输出特性表示被计算为f=TR⑴，G⑴。4.2. 培训等式1中呈现的目标用于学习包括选通网络、模块ij和任务嵌入t（其针对每个任务随机初始化）的参数θ我们在ImageNet[8]上预训练ResNet模型R并固定其参数。我们使用SGD优化参数，学习率为0.01，权重15778衰变为0.00001，动量为0.9。每批由256对图像组成，这些图像是从FunKPoint数据集的训练分割中随机采样的。5. 实验对功能对应进行建模提供了许多实际益处。在本节中，我们通过在一系列任务上评估我们提出的模型来证明这一首先，我们表明，我们的模型可以有效地识别功能correspondences和优于许多基线方法。然后，我们证明了我们的学习表征对少数学习，抓握预测和ADROIT操作任务的有效性[43]。请注意，由于我们的训练数据的域，我们将实验集中在所有任务的操作相关数据集上。5.1. 函数对应我们首先评估我们的模型估计功能对应的任务上的性能。我们使用FunKPointdataset创建如前所述，每个图像与5个关键点注释相关联。目标是使用相关联的训练图像和任务来识别测试图像中的每个关键点的位置。给定训练图像和测试图像ftrain、ftest的表示，训练图像关键点ptrain的对应测试图像位置可以被识别为：ptest=argmax（ftrain[ptrain]|ftes t[p]）（3）p我们使用PCK度量来评估估计关键点的质量。如果测试图像中的估计关键点位于距地面实况注释的23个像素内，则该估计关键点被认为是正确的ImageNet 基线涉及使用来自预训练的 ResNet-50conv4_x层（与我们模型的主干我们还比较了[31]中提出的自监督语义对应估计模型和来自任务不可知的AF估计方法的特征[11]。最后，我们评估我们的模型的三个变体。我们的任务嵌入引用我们的完整模型。我们的没有任务嵌入（均匀）的模型是指Wt[i，j，k]= 1/MT的模型，即门控权重是恒定的、统一的，并且不依赖于任务嵌入t.我们的没有任务嵌入（学习）是指一个类似的任务独立的模型，其中一个单一的学习门控权重Wt是共享的所有任务。我们观察到，我们提出的模型大大优于ImageNet模型和自监督学习方法。这进一步说明了语义和功能对应的学习表示之间的差异。在我们的模型的消融，我们观察到，我们提出的模型优于其任务无关的变种大幅保证金。这强调了对任务相关特征的需要，因为功能对应关系与所考虑的任务密切相关。我们还通过从自监督学习方法DINO [6]初始化来训练我们的任务依赖模型的变体。我们观察到，虽然这低于从ImageNet初始化的模型，但它仍然明显优于所有基线方法。这表明使用FunKPoint数据集进行学习至关重要。最后，我们通过收集第二组人类注释来测量跨人类注释在功能对应中的一致性我们观察到，对应的新注释实现了82.5%的PCK。此外，在随机选择的200对图像的子集上，我们收集了来自4个人的注释。我们观察到估计的功能关键点之间的中值距离这些结果表明，在功能对应任务的歧义是最小的。在图4中，我们展示了五个任务的估计对应关系的可视化。我们观察到，我们的模型能够学习类别间的对应关系。例如，它能够学习用于倾倒的瓶头和平底锅喷口之间的对应关系。一些有趣的对应关系包括锤头与鞋底的对应关系以及壶嘴与园艺工具尖端的对应关系。虽然我们的模型被训练来估计关键点的对应关系，但我们的模型学习估计对象上所有点的对应关系。在图5中，我们可视化对象上的密集采样点及其在测试图像上的估计对应关系。虽然我们的模型在每个图像中的5个关键点上进行训练，但我们观察到该模型可以近似地将参考对象上的每个密集采样位置与目标对象上的功能上适当的位置相关联。例如，第一图像中的马克杯的边缘适当地与第二图像中的马克杯的边缘相关联。喷壶的喷口。5.2. 少炮综合对象的分类需要理解其外观和3D结构。然而，在许多情况下，从几个样本详尽地建模外观和3D属性是具有挑战性和模糊的。例如，观察白色圆锥形咖啡杯的图像可能导致认为所有杯子都是圆锥形的。我们需要的是一种方法来使用其他类别的数据，以帮助了解是什么让马克杯成为马克杯？由于在功能对应的任务中，我们已经标记了多个类别的对应关系，因此我们的学习模型可能具有更好的创建跨类别泛化的能力。这就是我们在这个实验中要检验的假设。首先，我们策划了一个由5个可操作对象（铲子、水壶、咖啡杯、炒锅和开信刀）组成的小数据集，每个对象有20张图像。我们通过包含1来创建训练测试拆分，15779倒混合醪起钉子戳图4：定性对应。我们证明了我们的算法产生的一些定性的对应关系。正方形指示第二图像中的预测的功能上对应的关键点，并且圆形指示两个图像中的地面实况关键点。注意输入任务的对应关系是如何不同的。例如，对于捣碎/捣碎的任务，瓶底对应于锤头。类似地，对于戳，喷壶的喷口对应于园艺工具的尖端。表2：对应定量评价：方法PCKImageNet（ResNet50）22.0MAST [31]（ResNet18）8.3[11]第十一话Ours without task-embedding（uniform）52.8我们的无任务嵌入（学习）52.5我们的任务嵌入58.4任务嵌入（+DINO Init.）43.5人类注释器82.5表3：Fewshot学习精度：我们观察到，与基线的基于ImageNet的表示（第1行）和被微调以分类FunKPoint数据集中的对象的ImageNet表示（第2行）相比，针对函数对应性学习的表示（第3行）在少数学习设置中表现出优异的泛化。方法准确度训练集中的每个对象有2或5个图像，测试集中的其余对象有2或5个图像。在每个设置中，我们为拆分生成3个不同的随机样本，总共产生9个独特的拆分。我们训练了一个线性分类器来对我们提出的模型中的特征进行分类。由于我们的模型提取任务相关的特征，对于每个图像，我们将为所有10个任务提取的特征连接起来，并执行空间平均池化以降低维度。作为基准，我们类似地，在ImageNet上预训练的ResNet-50conv4_x特征上训练线性分类器为了进行公平的比较，我们还微调了ImageNet表示来对我们呈现的FunKPoint数据集中的对象进行分类。我们将结果呈现在表3中。通过我们的模型学习的表示在所有三个设置上的表现都比基于ImageNet的表示好很多。我们还注意到，我们的模型优于为对FunKPoint数据集中的对象进行分类而优化的表示这表明，功能对应的任务导致更好地推广到新的可操作对象的表示。5.3. 抓取预测功能表示非常适合于facilitating下游机器人操作任务。在机器人操作中解决的一个常见挑战是抓取预测的任务。在[41]中，这被形式化为给定图像和假设抓取角度的抓取成功预测。对于这项任务，我们评估的功效的功能，通过执行功能对应。我们使用我们提出的模型提取特征，与假设的抓取角度（作为离散化的18路独热向量）连接，然后将提取的特征馈送到附加在模块化网络末端的2层神经网络特征提取器和分类器使用较小的学习率2e-4在基准的训练集上联合微调，直到模型收敛。作为基线，我们使用基于ImageNet的单次拍摄2-拍摄5次射击ImageNet44.6852.5254.63ImageNet FT FunKPoint45.0353.9155.55我们47.4655.6856.3215780倒勺混合醪戳图5：超出关键点对应：由我们提出的模型学习的表示可以有效地用于识别从参考图像（每对中的左侧）到目标图像（每对中的右侧）的密集功能对应。颜色表示匹配的点。观察到所识别的对应性（相同的色点）在功能方面是一致的。ResNet-50（与我们的第3层表4包含我们的模型在Grasp基准上的数值结果。我们的方法优于基线方法1。7%的准确率，证明了函数表示的优势。表4：Grasp数据集的分类准确度[41]：方法精度ImageNet88.17ImageNet FT FunKPoint88.64我们89.855.4. ADROIT操作任务最近的许多研究都集中在通过强化学习来学习机器人对物体的操作。在本节中，我们研究基于标准强化学习（RL）的方法是否可以利用函数表示。我们采用RRL [48]中提出的方法，这是一种简单的RL算法，使用预训练的ResNet [22]特征，可以很容易地被我们的100806040200工具使用（锤子）我们ResNet0 1 2 3 4样本（M）表示.我们在ADROIT操作套件[43]上评估了该算法，该套件由几个复杂的灵巧操作任务组成。在“工具使用”任务环境中，我们对钉钉子的任务进行评估。在图6中，我们展示了与基于ImageNet的基线特征相比，我们的表示的成功率。我们观察到，我们的代表性，导致提高采样效率和最终性能的收敛。我们相信，这些结果证明了机器人问题的功能表示的承诺我们希望这能激发图6：基于RL的操作：我们对[ 43 ]中介绍的髓内钉工具使用任务（顶部）进行了评估。我们观察到，我们的功能表示展示了改进的样本效率和成功率相比，基线的基于ImageNet的表示，不编码对象的功能方面。更详尽的调查功能表示及其在机器人中的作用。鸣谢：这项研究得到了ONR MURI，ONR青年研究者奖Abhinav Gupta和DAPRA MCS奖的资助。成功率15781引用[1] C. Bailer，K. Varanasi和D.斯特里克基于cnn的阈值铰链嵌入损失光流匹配算法。2017. 2[2] Anton Bakhtin、Yuntian Deng、Sam Gross、Myle Ott、Marc'Aurelio Ranzato和Arthur Szlam。基于剩余能量的文本模型。 Journal of Machine LearningResearch ， 22（40）：1 3[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。2[4] Alexander C Berg，Tamara L Berg，and Jitendra Malik.使用低失真对应的形状匹配和对象识别。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。2[5] T. 布罗克斯角Bregler和J.马利克大位移光流。2009. 2[6] Mathilde Caron ， Hugo Touvron ， Ishan Misra ， HervéJégou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。6[7] S.托多罗维奇·D Xie和S.C.竹从视频中推断“暗物质”和“暗能量”。InICCV，2013. 3[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页Ieee，2009年。四、五[9] Coline Devin、Abhishek Gupta、Trevor Darrell、PieterAbbeel和Sergey Levine。学习多任务和多机器人转移的模块化神经网络策略。2017年IEEE机器人与自动化国际会议（ICRA），第2169-2176页IEEE，2017年。3[10] Thanh-Toan Do、Anh Nguyen和Ian Reid。价格：用于对象示能表示检测的端到端深度学习方法。2018年国际机器人与自动化会议（ICRA）3[11] Thanh-Toan Do、Anh Nguyen和Ian Reid。价格：用于对象示能表示检测的端到端深度学习方法。2018年IEEE机器人与自动化国际会议（ ICRA ），第 5882-5889页IEEE，2018年。六、七[12] Yilun Du和Igor Mordatch。隐式生成和基于能量的模型建模。2019. 3[13] 彼得·佛罗伦斯卢卡斯·马努埃利和拉斯·泰德雷克密集对象网络：学习密集的视觉对象描述符和机器人操作。InCoRL，2018. 3[14] David Fouhey，Xiaolong Wang，and Abhinav Gupta.为启示的直接感知辩护。载于arXiv：1505.01085，2015。3[15] David F. 放大图片创作者： Michael A.Efros ， IvanLaptev，and Josef Sivic.观看的人：作为单视图几何学线索的人类行为ECCV，2012年。3[16] J·吉布森视觉感知的生态学方法。波士顿：霍顿·米夫林，1979年。3[17] Clément Godard，Oisin Mac Aodha，Michael Firman，and Gabriel J Brostow.深入研究自我监督的monocular深度估计。IEEE/CVF论文集国际计算机视觉会议，第3828- 3838页，2019年。2[18] Helmut Grabner，Juergen Gall，and Luc van Gool.是什么让椅子成为椅子？CVPR，2011。3[19] WillGrathwohl 、 Kuan-ChiehWang 、 Jörn-HenrikJacobsen、David Duvenaud、Mohammad Norouzi和KevinSwersky。你的分类器其实是一个基于能量的模型，你应该把它当作一个模型来对待。arXiv预印本arXiv：1912.03263，2019。3[20] A. 古普塔河Satkin，A.Efros，和M。赫伯特从3D场景几何到人类工作空间。2011. 3[21] Christopher G Harris，Mike Stephens，等.一种组合的角点和边缘检测器。Alvey视觉会议，第15卷，第10-5244页Citeseer，1988年。2[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集，第770-778页三、五、八[23] Berthold KP Horn 和 Brian G Schunck 。确定光流。Artificial intelligence，17（1-3）：185-203，1981. 2[24] E. Ilg，N.Mayer，T.Saikia、M.Keuper，A.Dosovitskiy和T.布洛克斯Flownet 2.0：深度网络光流估计的演变2017.2[25] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议，第448-456页。PMLR，2015. 5[26] Allan Jabri、Andrew Owens和Alexei A Efros。作为对比随机游走的时空对应arXiv预印本arXiv：2006.14613，2020。2[27] X.贾河，巴西-地Ranftl和V.科尔顿。通过直接成本体积处理实现精确光流。2017. 2[28] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Pe ter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习。在IEEE计算机视觉国际会议论文集，第66-75页2[29] S. Kim，D.敏湾，澳-地Ham，S.全，S。Lin和K.孙Fcss：用于密集语义对应的完全卷积自相似性。2017.二、四[30] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展，25：1097-1105，2012。3[31] Zihang Lai，Erika Lu，and Weidi Xie. MAST：记忆增强的自我监督跟踪器。在IEEE计算机视觉和模式识别会议上，2020。六、七[32] 赖梓航和谢伟迪视频通信流的自监督学习2019. 2[33] Yann LeCun ， Sumit Chopra ， Raia Hadsell ， MRanzato，and F Huang.关于能量学习的教程。预测结构化数据，1（0），2006年。3[34] Pengpeng Liu ， MichaelLyu ， IrwinKing ， JiaXu.Selflow：光流的自监督学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第4571-4580页215782[35] 大卫·G·洛基于局部尺度不变特征的目标识别第七届IEEE计算机视觉国际会议论文集，第2卷，第1150Ieee，1999年。2[36] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91-110，2004。2[37] Lucas Manuelli ， Wei Gao ， Peter Florence ， and RussTedrake.kpam：用于类别级别操作的关键点启示在ISRR，2019年。3[38] Adithyavairavan Murali，Weiyu Liu，Kenneth Marino，Sonia Chernova，and Abhinav Gupta.相同的对象，不同的把握：面向任务的数据和语义知识。2020年，机器人学习会议。3[39] D. Novotny，D.Larlus，和A.维达尔迪Anchornet：一种弱监督网络，用于学习语义匹配的几何敏感特征。2017.二、四[40] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018. 5[41] 勒瑞尔·平托和阿比纳夫·古普塔学习通过掌握来推动：使用多个任务进行有效学习。2017年IEEE机器人与自动化国际会议（ICRA），第2161-2168页IEEE，2017年。七、八[42] Senthil Purushwalkam 、 Maximilian Nickel 、 AbhinavGupta和Marc'Aurelio Ranzato 。任务驱动的模块化网络，用于零射击组合学习。在IEEE/CVF计算机视觉国际会议

下载后可阅读完整内容，剩余1页未读，立即下载