基于条件运动传播的自我学习视觉表示

66 浏览量更新于2023-10-17 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1881基于条件运动传播詹晓航1，潘新港1，刘紫薇1，林大华1，陈昌来21香港中文大学-商汤科技联合实验室2南洋理工大学1{zx017，px117，zwliu，dhlin}@ ie.cuhk.edu.hk2ccloy@ntu.edu.sg摘要智能代理自然地从运动中学习。各种自监督算法已经利用运动线索来学习有效的视觉表示。这里的障碍是，运动是模糊和复杂的，渲染以前的作品要么遭受降低的学习效率，或诉诸于对对象运动的强假设。在这项工作中，我们设计了一个新的从运动中学习的范例来弥合这些差距。而不是明确建模的运动概率，我们设计的借口任务作为一个条件运动传播问题。给定输入图像和其上的几个稀疏流引导向量，我们的框架寻求恢复全图像运动。与其他替代方案相比，我们的框架有几个吸引人的属性：（1）在训练过程中使用稀疏流引导解决了固有的运动模糊性，从而简化了特征学习。(2)解决连贯运动传播的借口任务鼓励了具有更大表达能力的运动学声音表征的出现。大量的实验表明，我们的框架学习结构和连贯的功能;并且在包括语义分割、实例分割和人工解析的若干下游任务上实现了最先进的自我监督性能。此外，我们的框架被成功地扩展到几个有用的应用程序，如半自动像素级注释。项目页面： http://mmlab.ie.cuhk 。edu.hk/projects/CMP/的网站。1. 介绍人类具有在没有直接监督的情况下获得有用知识的非凡能力。我们周围的视觉世界是高度结构化的，因此包含了丰富的自然监督。在日常航行中，我们（一）（b）第（1）款图1.我们的条件运动传播任务的说明。在训练中，目标是从稀疏运动指导条件下的静态图像预测光流。制导由稀疏速度组成，采用“分水岭”策略从目标光流在测试中，引导可以是任意的，并且该模型能够预测运动学上合理的结果。例如，如（b）所示，给定左脚的指导，模型预测胫骨正在旋转。光流是用Middlebury色轮可视化的，应该用彩色来观察。不断地执行视觉预测的任务，通过hallu来预测角落后面的东西。最近引入的自我监督学习旨在赋予机器类似的能力，在没有明确注释的情况下学习。通过仔细设计包含自然监督的借口任务，自监督学习学习可用于多个下游场景的有效表示。与着色[34，15]和修复[29]等静态借口任务相比，运动为我们提供了更丰富和更结构化的信息。运动物体的运动通常表明其运动学CMP培训CMP测试1882这进一步揭示了它的内部结构。先前的工作已经利用了来自两个方向的运动线索：第一个方向[31，30]是通过从静态图像预测运动来学习图像表示。例如，Walkeret al. [31，30]提出从静态图像预测密集光流，并使用学习的特征进行动作识别。然而，由于运动本身是模糊的，对未来运动的直接建模会产生很大的学习负担，有时会导致不稳定的训练。第二个方向[28，20]是利用运动和对象之间的关系来导出基于运动的约束损失。例如，Mahendranet al.[20]假设具有相似特征的像素应该具有相似的运动，并设计了跨像素流相似性损失来优化表示。虽然这些方法已经显示出有希望的结果，但它们对对象做了太强的假设，同一对象上的所有像素应当具有相似的运动。然而，大多数对象本质上具有高自由度。例如，一个人是一个铰接的对象，窗帘是可变形的。我们不能说他们仍然遵循这样简单的假设.运动的模糊性和复杂性对自监督算法提出了很大的挑战。在这项工作中，为了克服这些挑战，更好地利用运动线索，我们提出了一个新的范式，利用运动的表示学习。其关键思想是将借口任务定义为条件运动传播（CMP）问题。该框架由图像编码器、稀疏运动编码器和密集运动解码器组成。如图1所示，我们的任务是预测光流从一个单一的图像稀疏运动指导的条件。我们的方法有几个优点。首先，在训练过程中使用稀疏运动作为指导，避免了运动模糊问题，从而减轻了表示学习的压力。其次，为了从给定的稀疏运动中恢复密集光流，图像编码器必须对运动学声音属性进行编码，使得解码器能够根据属性从引导传播运动。因此，以这种方式，图像编码器可以从运动自动学习复杂的运动学特性，而不是预定义运动和对象之间的特定关系如图1（b）所示，在测试时间内，给定任意引导箭头，CMP模型产生运动学上合理的结果。利用这些特性，CMP还可以应用于引导视频生成和半自动像素级注释4.3。由于CMP学习到的运动学声音表示，我们的方法可以使几个下游任务受益，特别是对于分割任务。我们提出的CMP在无监督预训练的条件下，在几个基准测试中取得了最先进的性能，包括PASCAL VOC 2012语义分割，COCO实例分割和LIP人体分析。ing.我们总结我们的贡献如下：首先，我们提出了一个新的范式，以更好地利用运动在表示学习和实现各种基准有前途的性能其次，我们的CMP模型是能够捕捉各种对象的运动学特性，没有任何手动注释。第三，CMP模型可以应用于引导视频生成和半自动标注。2. 相关工作自监督学习可以分为两类，分别利用上下文和视频。从上下文中学习。基于上下文的自监督学习方法通常会扭曲或分解图像，然后学习恢复丢失的信息。因为在-Stance，Doersch等人[6]设计一个任务来预测补丁对的相对位置。Pathak等人[29]通过图像内绘学习表示。Noroozi等人[24]定义图像补丁的拼图游戏，并训练CNN来解决它们。Zhang等人[34]和Larssonet al. [15]通过对灰色图像着色来学习特征。Gidaris等人[8]旋转图像，然后使用CNN来预测旋转。学习时间一致性。对于基于视频的表示学习，监督来自于节奏信息，因此图像通常是不失真的。其中一些依赖于上下文的时间一致性Mobahi等人[22]作出时间相干性假设，即连续帧趋向于包含相似的内容。Jayaraman等人[12]用正则化器训练CNN，使特征随时间的变化应该是平滑的。Wang等人[32]通过视觉跟踪找到对应的对。其他作品[18，16，21，33]通过合成帧或预测正确的时间顺序来学习表示从运动中学习其他基于视频的方法专注于运动，以发现对象级信息。Pathak等人[28]使用从视频中提取的前景片段掩码作为监督。Mahendran等人[20]假设相似的特征应该具有相似的运动，并且设计交叉像素流相似性损失以优化表示。这些工作依赖于一个强有力的假设，即，同一对象上的所有像素应当具有相似的运动。如前所述，大多数对象本质上具有高自由度。即使是同一个物体，在不同的情况下也可能有例如，如果条移动，则条上的像素利用运动进行自监督学习的另一种方法是通过从静态图像执行光流Walker等人[31]提出从静态图像预测密集光流。后续工作[30]使用变分自动编码器对运动不确定性进行建模。然而，由于运动的不确定性，运动预测是一项艰巨的任务1883传播网融合网密集运动解码器稀疏运动+掩模静态图像光流图2.我们的条件运动传播框架主要包括三个模块：稀疏运动编码器，图像编码器和密集运动解码器。稀疏运动是从目标光流中采样的“分水岭”策略，如目标光流提取使用现成的方法。没有任何暗示，特别是当加上相机自我运动。回想一下，我们的目标是从稀疏运动指导条件下的静态图像预测运动。因此，运动预测是一个退化的情况下，我们的工作时，指导点的数量减少到零。在训练过程中使用稀疏运动作为指导，避免了运动模糊问题，从而减轻了表示学习的难度3. 条件运动传播我们的目标是通过将借口任务设计为条件运动传播问题来学习图像表示。具体来说，我们的训练框架旨在从以稀疏运动指导为条件的静态图像中恢复完整的图像运动。3.1. 框架如图2所示，该框架包含三个模块：图像编码器、稀疏运动编码器和密集运动解码器。图像编码器。图像编码器是一个标准的骨干卷积神经网络（CNN）。CMP训练完成后，它将作为后续任务的预训练模型。CMP不限制主干架构，尽管在我们的实验中，主干是AlexNet或ResNet-50，这取决于不同的目标任务。我们在图像编码器的顶部添加了一个额外的卷积层，以将特征编码为256个通道。稀疏运动编码器。它是一种浅层CNN，旨在将稀疏运动编码为紧凑的特征。它包含两个堆叠的Conv-BN-ReLU-Pooling块，并将稀疏运动编码为16个通道。空间步幅取决于图像编码器的步幅。稀疏运动编码器的输入包括：1）作为引导的双通道稀疏光流，其使用第3.2节中讨论的“分水岭”策略从目标光流采样流动未被采样的位置的值被设置为零。2)指示所选制导点位置的二进制掩码它用于区分具有零运动的采样位置和那些未采样位置。我们concate- nate稀疏运动和作为3通道输入到稀疏运动编码器的掩模运动和图像特征被连接并馈送到密集运动解码器中。密集运动解码器。解码器被设计为根据编码的运动学特性将运动传播到完整图像。解码器包含多个传播网和一个融合网。传播网络是具有不同空间步长的CNN。具有较大空间步幅的那些具有较大的感受野，因此它们导致较长的传播距离。而那些空间步幅较小的人则专注于较短的距离，从而产生细粒度的结果。每个传播网络由具有相应步幅的最大池化层和两个堆叠的Conv-BN-ReLU块组成。我们将传播网络设计得相当浅，以便迫使图像编码器学习更多有意义的信息。最后，传播网络的输出被上采样到相同的空间分辨率，并连接到融合网络，一个单一的卷积层，以产生预测。损失函数。光流预测通常被视为回归问题，如[7]所示，因为回归产生平均准确的速度值。然而，回归通常不能产生判别梯度，并且结果往往是平滑的。这个问题可能会阻止我们从头开始学习好的表示。幸运的是，CMP不需要输出流绝对准确。因此，我们对目标流进行分类，并将其作为一个分类任务进行计算。不同于Walkeret al。[31]在用聚类方法对光流进行分类时，我们采用了一种简单而有效的方法。我们在一个松散的边界内裁剪目标流，并将流分别在x和y坐标上线性地划分为C个bin然后，它们被两个线性分类器分类。我们用交叉熵损失稀疏运动编码器图像编码器1884C分别用于x和y流。其公式为：Lx=−1ΣN ΣC（n（Qx=c）logPix），Ni=1c=1C（一）Ly=−1ΣN ΣC（n（Qy=c）logPiy），Ni=1c=1其中，N是像素的总数，P是来自SoftMax层的概率，Q是量化标签，并且k是指示符函数。我们对Lx和Ly应用相同的权重。3.2. 指南选择从分水岭取样。从目标光流中采样稀疏运动引导。为了有效地传播，这些引导向量应该被放置在运动具有代表性的关键点处。我们采用基于分水岭[4]的方法对这些关键点进行采样。如图3所示，给定图像的光流，我们首先使用Sobel滤波器提取运动边缘。然后，我们为每个像素分配一个值，该值是到其最近边缘的距离，从而产生拓扑距离分水岭图。最后，我们在分水岭图上应用核大小为K的非最大值抑制（NMS）[5]来获得关键点。我们可以调整K来控制平均数的采样点。较大的K导致较稀疏的样本。图像边界上的点将被删除。采用分水岭采样策略，将所有关键点粗略地分布在运动目标上。由于背景运动实际上反映了相机的自我运动，为了避免学习中的模糊性网格步长G用于调整网格的密度。在我们的实验中，平均有13个。384×384图像中的5个采样引导点。异常值处理。在某些情况下，光流可能不理想，如图3的第三行所示。那个...有序的流边创建断开的流域，这导致选择大量关键点。但这并不影响学习。这些图像示例实际上是简单的案例，因为丰富的指导减轻了学习那些无意义运动的压力。换句话说，这些具有折叠流的示例在某种程度上被忽略。因此，我们的框架是强大的光流的质量。4. 实验训练集。CMP不依赖于特定的光流估计方法。考虑到我们的数据集是百万级的，我们选择 LiteFlowNet[11]，这是一种非常快速的光流估计工具来计算光流。这样，我们为CMP训练准备了4个训练集。(a) YFCC 100m-Videos. YFCC 100m包含约70万个野外视频。我们使用采样帧的集合，图像流边缘分水岭图3.该图显示了我们如何从光流中采样制导。我们首先提取运动边缘，然后创建一个分水岭地图的基础上的边缘。最后，利用网络管理系统，得到了系统的关键点.如第三行所示的低质量流导致大量的关键点，这反而减轻了从这些无意义的运动中学习的压力。由[28]提供，最初包含来自205k视频剪辑的160万图像。我们使用间隔小于10帧的图像对例如，给定包含5帧的视频剪辑，并且帧ID为1，4，10，21，28，我们得到3个图像对，{1，4}，{4，10}，{21，28}。我们使用一对和所计算的流以创建图像流对。从这些帧中，我们创建约1。26M图像流对以形成训练集（以下称为(b) YouTube9K. 为了展示更多未标记数据的好处，我们从YouTube-8 M [1]中抽取了约9，000个包含常见对象的视频我们使用包括“鸟”、“猫”、“狗”等关键词对视频进行采样在视觉世界中普遍存在。由于CMP是一种无监督的方法，因此我们在训练中不使用标签以同样的方式，我们从这些视频中创建了196万个图像流对(c) VIP和MPII。除了上述具有一般对象的数据集外，我们还使用视频实例级解析（VIP）数据集[9]和MPII人体姿势数据集[3]中的视频。它们主要包含多个人在不同的事件。前者产生0.377 M图像流对，后者产生0.976 M图像流对。我们创建了两个数据集，旨在训练以人为中心的CMP模型，以证明其在理解人体运动学特性方面的有效性。当然，我们不使用这两个数据集的任何注释。培训详情。我们用Py-Torch实现我们的框架[27]。我们调整图像和流的大小，使短边为416，随机裁剪为384×384。在引导采样中，对于YFCC和YouTube9K，我们将NMS内核大小K设置为81，网格步长G设置为200像素，平均结果为9。5个流域点，我我18854 每个图像的网格点。对于VIP和MPII，当图像主要包含自由度高的多个人时，K为15，G为80。我们还分析了导引点的数量在秒的影响。四点二。训练CMP模型是有效的。例如，ResNet-50 CMP模型（除了用于人类解析的模型）被训练了42K次迭代，大约5次。使用YFCC的3个时期。它值7美元。在16 GTX-1080-Ti GPU上运行5小时。AlexNet CMP模型使用YFCC+YouTube9K进行了140K次迭代训练。LIP人类解析的CMP模型在所有4个数据集上进行了70K次迭代训练，大约二、1个纪元。收敛速度很快，因此我们没有以训练CMP用于过多数量的时期。对于所有情况，我们使用学习率为0的SGD。1，动量0。9，重量衰减1e−4。我们把学习时间减少了10倍，迭代2I和3I，其中I是总迭代。表1. PASCAL VOC 2012语义分割基准，使用AlexNet。我们的方法达到了最先进的水平，并大大超过了基线标记为†的方法在其论文中没有报告结果，因此我们重新实现它们以获得结果。3 .第三章。5个3. 54.1. 表征学习的评价使用CMP模型作为预训练模型，我们通过在包括语义分割、实例分割和人类解析的几个下游任务上对其进行微调来展示其在特征学习中的有效性大多数成功的作品都在AlexNet上报告了他们的迁移学习结果。然而，AlexNet被认为是过时的。为了建立最新的自监督学习基线，除了AlexNet之外，我们还使用因此，我们采用四个基准进行评估，即，PASCAL VOC 2012Semantic Segmentation （ AlexNet ）、 PASCAL VOC2012 Semantic Segmentation （ ResNet50 ）、 COCO2017 Instance Segmentation（ResNet50）和LIP HumanParsing（ResNet50）。微调细节可以在补充材料中找到基线。对于AlexNet，大多数以前的作品都报告了PASCAL VOC 2012语义分割的结果。然而，以前的研究不支持ResNet-50，因此我们必须重新实现它们。为了比较，我们还介绍了最近一些以运动为监督的作品，并取得了令人印象深刻的结果。这些方法包括Pathaket al. [28] Walkeret al. [31 ] 第 30 段。其中，Walkeret al. [31]是CMP的一种特殊情况，当引导点数目为零时。我们优化他们的超参数，以达到他们在这些基准测试中的最佳表现。VOC2012语义分割（AlexNet）。根据以前的工作，我们在AlexNet上微调了PASCAL VOC 2012语义分割任务的预训练权重，其中FCN-32 s [19]作为头部。如表1所示，我们使用mIoU 44实现了最先进的性能。5%，大幅超过基准线。VOC 2012语义分割（ResNet-50）。如表2所示，我们实现了59。0%的mlou，16。比随机初始化模型提高6%。性能也比基准模型高得多。表2. PASCAL VOC 2012语义分割验证集和COCO 2017实例分割验证集的结果，使用ResNet-50。方法（ResNet-50）VOC 12段% mIoUCOCO 17（%mAP）Det.隔离区ImageNet [14]69.037.234.1随机帕塔克[28]沃克[31]42.454.654.519.727.731.518.825.829.2CMP（我们的）59.032.329.8COCO实例分割（ResNet-50）。我们构造了COCO实例分割自监督学习的新基线和上界我们使用ResNet- 50作为主干，Mask R-CNN [10]和FPN [17]作为头部。如表2所示，我们实现了32。3%的边界框mAP和29。8%掩蔽mAP。这表明CMP是一种有效的实例分割预训练方法。LIP Human Parsing（ResNet-50）. 人类解析的目的是将人类图像分割成预定义的部分，头，胳膊，腿。Look-Into-Person（LIP）[9]是一个大规模的人工解析基准。我们对两个子任务的验证集进行了比较，包括LIP单人句法分析和LIP多人句法分析。如表3所示，我们在两个子任务上都超过了基线方法我们进一步将我们的模型与ImageNet上预训练的模型组装在一起，并观察到比它们任何一个都更高的性能。这表明CMP预训练与ImageNet预训练是互补的。方法（AlexNet）监督VOC 12段% mIoUKrizhevsky等人[14个] ImageNet标签48.0随机-19.8Pathak等人[29日]图像修补29.7Zhang等人[34个]彩色化35.6Zhang等人[35]第三十五届裂脑36.0Noroozi等人[25日]计数36.6Noroozi等人[24日]拼图37.6Noroozi等人[26日]拼图++38.1Jenni等人[13个国家]斑点伪影38.1Larsson等人[第十五条]彩色化38.4Gidaris等人[八]《中国日报》旋转39.1Pathak等人[28]视频片段39.7Walker等人[31]注流预测40.4Mundhenk等人[23日]上下文40.6188648464442403836ImageNet我们Mahendran沃克蒙亨克PathakGidarisJenni，拉尔森张表3.使用ResNet-50对验证集进行LIP人工解析。报告的指标是mIoU。标记为“0”的结果是从我们的模型和在ImageNet上预训练的模型的集合中获得的44.5044.2544.0043.7543.5043.25VOC12语义分割（AlexNet）0.5 1.0 1.5 2.0 2.53.0传播网络的步幅未标记数据VOC12语义分割（AlexNet）4644424038013.5 50 100 150 200每个图像的平均引导次数图4.指导数的影响4.2. 进一步分析指导数的影响。引导点的数量用于调整文本前CMP任务的难度。适当数量的引导点将允许从图像进行更有效的CMP学习。在本实验中，我们调整NMS内核大小K和网格步长G以控制引导点的数量，并使用AlexNet对VOC 2012语义分割任务进行评估。如图4所示，当制导次数为零时，性能较低，这正是[31]中的情况。峰值出现在平均制导点数为13时。五、随着更多指导点的加入，CMP任务变得更加容易。然后，所需的信息，以恢复运动主要来自指导，而不是图像。因此，图像编码器被削弱以从图像捕获必要信息，并且性能下降。注意，引导点的最佳数量与对象的数量以及图像中每个对象的自由度有关。当物体数目增加或自由度增大时，导引点的数目也应相应增加。传播网络的影响。回想一下，传播网络是具有不同空间步长的几个CNN的组合我们研究了不同的传播网络组合的影响。我们实施4个宣传-图5.传播网络的组合和未标记数据量的影响空间步长为1，2，4，8的网络，并构造4个组件。binations、{1}、{1，2}、{1，2，4}和{1，2，4，8}。我们在PASCAL VOC 2012语义分割上测试了它们，AlexNet如图5所示，最佳组合出现在{1，2，4}处。结果表明，不同步长的传播网络组成一个协作组，可以有效地解决CMP问题。然而，具有过大步幅的附加传播网络导致空间信息的丢失，同时增加解码器中的参数计数，因此{1，2，4，8}步幅的组合更差。尽管如此，性能仍然比基线方法好得多。未标记数据量的影响。我们使用1/4、1/2YFCC、完整YFCC和YFCC+ YouTube 9 K创建了5个训练集。数据量范围从0。32米到3. 22米。我们在PASCAL VOC2012语义分割任务上测试了这些训练集上如图5所示，随着未标记数据量的增加，CMP实现了稳定的改进。在相当数量的未标记数据中，性能比基线好得多。CMP的特点。给定一个训练集的测试图像，我们通过给定任意的指导向量来测试训练好的CMP模型。如图6所示，给定越来越多的引导矢量，CMP相应地推断出更完整的运动。结果清楚地反映了物体的结构，即使是高自由度的从结果中，我们观察到CMP的三个有趣特征：1) 刚性感知。给定刚性部件上的单个引导矢量，例如，头部、前臂或大腿，CMP在整个部位上传播运动。2) 运动学连贯性给定零件上的引导矢量，CMP能够推断零件是否应该移动或旋转。如图6中的第一组所示，身体应该是移动的，那么它预测身体上的匀速运动，左腿应该是旋转的，因此运动正在减弱。3) 物理上可行。例如，在% mIoU% mIoU% mIoU方法（ResNet-50）LIP-SingleLIP-多重ImageNet [14]42.555.4随机帕塔克[28]沃克[31]32.536.636.735.050.952.5CMP（我们的）CMP（我们的）40.242.952.955.81887图6中的第二组，在左大腿上给定单个引导这是由于观察到左腿在悬停。然而，在最后一列中，在右腿上给定一个引导向量，右脚保持静止，因为它在地面上。运动，虽然粗糙和嘈杂，是运动学和物理学的表现为了在复杂环境中实现合理的运动传播，我们的模型必须学会从静态图像中想象内在的运动学特性和它体现了这三个特点。4.3. 应用CMP在捕捉物体的结构运动学特性方面表现出了很好的效果利用这些特性，可以从训练的CMP模型扩展若干应用。用于这些应用的图像编码器采用ResNet-50实现。用于引导视频生成的CMP。CMP的一个有趣的应用是引导视频生成。使用CMP，这个应用程序让人想起牵线木偶控制。给定一个图像和来自用户的引导箭头，我们首先使用CMP模型预测光流，然后扭曲原始图像以产生未来帧。通过这种方式，我们可以通过提供连续的指导来创建一系列帧。由于CMP在从单个图像感知对象的刚性部分方面很强，因此我们可以对图像执行sophisticated marionette控制。演示视频可以在项目页面1中找到。用于半自动像素级注释的CMP。我们表明，CMP也可以帮助像素级注释。图7（a）显示了其工作流程。用户只需要点击对象上的几个积极的点。我们做个假人向导-在不同方向上的这些点上的光矢量，然后CMP模型预测每个方向上的光流。最后，我们融合结果以获得掩模。如果遮罩覆盖了一些错误的区域，那么用户在错误的区域上单击负点。对于CMP，负点用作具有零运动的静态引导点因此，在这些负面点周围不会有任何反应。这样，面具就变得精致了。这种交互式注释模式允许用户通过添加或删除两种类型的点来自由地细化掩模由于CMP是一种无监督的方法，它不像其他半自动标注工具那样预先定义特定的类别集。相反，它捕捉对象的空间结构。因此，我们可以用它来注释任何看不见或不常见的对象，例如，纸箱、后视镜和机器人，如图7（b）的第二行所示。我们将我们的方法与最先进的监督半自动标注方法Polygon进行了1项目页面：http://mmlab.ie.cuhk.edu.hk/projects/CMP/旋转移位悬停固定图6.CMP测试结果。在每组中，第一行包括原始图像和用户给出的引导箭头，第二行显示预测的运动。结果表明CMP的三个特征：1. CMP在整个刚性部分上传播运动。2. CMP可以推断零件是在移动还是在旋转（如果移动，则运动均匀，如果旋转，则褪色），如第一组所示3.第三章。结果在物理上是可行的。例如，在第二组中，给定左大腿上的单个引导向量，左小腿和脚上也有响应。这是由于观察到左腿在悬停。然而，在最后一列中，尽管在右腿上给出了引导向量，但右脚保持静止，因为它在地面上。RNN++ [2]. 为了进行公平的比较，我们对 PolygonRNN++的Web演示中的图像进行了测试。如图7（c）所示，Polygon RNN++要求用户首先绘制一个然而，初始掩码通常是不完美的。用户需要拖动顶点来优化遮罩。相比之下，我们的方法只需点击几下就可以生成强大的掩码。改进也是简单和直观的，通过交互式点击来添加或删除点。1888正积分负分点击点（按用户）引导设置流量预测融合结果(a) 工作流(b) 更多结果（第一行：常见，第二行：不常见）（c）比较图7. CMP用于半自动像素级注释。(a)显示了其工作流程，用户只需单击对象上的几个正点（绿色），然后蒙版就会自动生成。如果遮罩覆盖了一些错误的区域，那么用户在错误的区域上单击负点（红色），遮罩就会被细化。（b）显示单个CMP模型能够帮助用户注释任何类别中的对象，甚至是模型从未见过的类别我们将我们的方法与（c）中的Polygon RNN++进行了为了进行公平的比较，我们使用Polygon RNN++的Web演示中的图像。它要求用户首先绘制一个边界框，然后拖动生成的顶点进行细化。在某些情况下，它无法捕获目标对象（第二行）。而我们的方法不需要繁琐的拖动。它只需点击几下就能生成强大的蒙版。正常断开多连通图8.该图说明了Polygon RNN++的局限性，以及CMP如何解决这些情况。此外，Polygon RNN++还有一些局限性，如图8所示：1）在某些情况下，它无法捕获目标对象。2)它不能正确地分割具有断开区域的对象（例如，一辆车在树后面）。3)它不能处理多连接对象（例如，甜甜圈）。而我们的方法可以通过点击正负点来处理所有这些情况。比较结果总结见表4。请注意，PolygonRNN++依赖于监督模型，而我们的方法是无监督的，没有任何手动注释。表4.与Polygon RNN++比较。“sup”和“un- sup”分别代表“受监督”和“不受监督”。“MC” and 每个实例的时间在COCO数据集随机选择的子集上进行测试方法模型速度失败MCDC多边形[2]我们sup联合国粮食计划署17.6s10.2s25/1700/170✘✔✘✔5. 结论总之，我们提出了一种新的自监督学习范式，条件运动传播（CMP）。它学习有效的视觉表征结构预测。我们在标准的自监督表示学习基准测试中实现了最先进的性能。我们还使用ResNet-50建立了新的基准，而不仅仅是AlexNet。CMP在利用无标记数据捕捉各种物体的运动学特性方面显示出了很好的特性。当测试CMP模型时，我们观察到运动学上的声音结果此外，CMP可以扩展到几个有用的应用。对于半自动像素级注释，与最先进的监督方法相比，我们实现了令人鼓舞的可用性鸣谢：本研究部分由商汤科技集团的合作研究资助（中大协议编号：TS1712093），早期职业生涯香港雇员补偿计划（第24204215）、香港基因研究基金（编号： 14241716 ， 14224316 。 14209217 、14236516 、 14203518 ）和新加坡 MoE AcRF Tier 1（M4012082.020）。多边形RNN++draw 1 box drag 15 times结果draw 1 box drag 10 times结果draw 1 box drag 10 times结果我们7次点击结果5次点击结果5次点击结果多边形RNN++我们7次点击结果8点击结果5次点击结果1889引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。4[2] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR，2018年。七、八[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在CVPR，2014年6月。4[4] 塞尔日·博彻在轮廓检测中使用分水岭。图像处理国际研讨会论文集。CCETT，1979年。4[5] 约翰·坎尼。边缘检测的计算方法。TPAMI，（6）：679-698，1986. 4[6] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，2015年。2[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，2015年。3[8] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。二、五[9] Ke Gong ， Xiaodan Liang ， Dongyu Zhang ， XiaohuiShen，and Liang Lin.看人：自我监督结构敏感学习和人类解析的新基准。在CVPR，2017年。四、五[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在ICCV。IEEE，2017年。5[11] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-FlowNet：一种用于光流估计的轻量级卷积神经网络。在CVPR，2018年。4[12] Dinesh Jayaraman和Kristen Grauman缓稳特性分析：视频中的高阶时间相干性。在CVPR，2016年。2[13] 西蒙·詹尼和保罗·法瓦罗通过学习发现伪影的自我监督特征在CVPR，2018年。5[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS，2012. 五、六[15] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在CVPR，2017年。一、二、五[16] 李欣颖，黄嘉斌，Maneesh Singh，杨铭轩。通过排序序列的无监督表示学习。在ICCV。IEEE，2017年。2[17] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。5[18] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。InICCV，2017. 2[19] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。5[20] A. Mahendran，J. Thewlis和A.维达尔迪用于自监督学习的跨像素光流相似性。在ACCV，2018年。二、五[21] Ishan Misra ， C Lawrence Zitnick ， and Martial Hebert.Shuf- fle 和学习：使用时序验证的无监督学习。在ECCV。施普林格，2016年。2[22] Hossein Mobahi，Ronan Collobert，and Jason Weston. 从视频中的时间相干性进行深度学习。在ICML 中。ACM，2009年。2[23] T Nathan Mundhenk，Daniel Ho，and Barry Y Chen.基于上下文的自我监督学习的改进。CVPR，2018年。5[24] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV。施普林格，2016年。二、五[25] Mehdi Noroozi，Hamed Pirsiavash和Paolo Favaro。通过学习数数来学习表象. InICCV，2017. 5[26] Mehdi Noroozi 、 Ananth Vinjimoor 、 Paolo Favaro 和Hamed Pirsiavash。通过知识转移促进自我监督学习。在CVPR，2018年。5[27] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 4[28] Deepa kPathak，RossBGirshick，PiotrDolla'r，TrevorDar-rell和Bharath Hariharan。通过观察物体移动来学习特征。在CVPR，2017年。二、四、五、六[29] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。一、二、五[30] Jacob Walker ， Carl Doersch ， Abhinav Gupta ， andMartial Hebert.不确定的未来：使用变分自动编码器从静态图像进行预测。在ECCV。施普林格，2016年。2[31] Jacob Walker Abhinav Gupta和Martial Hebert从静态图像进行密集光流预测。在ICCV，2015年。二三五六[32] 王小龙和阿比纳夫古普塔。使用视频的视觉表示的无监督学习。在ICCV，2015年。2[33] Wei Donglai ， Joseph Lim ， Andrew Zisserman ， andWilliam T Freeman. 学习和使用时间之箭。在CVPR，2018年。2[34] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。在ECCV。施

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于条件运动传播的自我学习视觉表示

随机平均曲率运动在计算机视觉随机主动轮廓.doc

深度学习计算机视觉pdf

Detectslam中为什么加入运动概率传播的方式进行运动分割

图表示学习与图深度学习

深度学习与计算机视觉分类

深度学习入门基于pythonde pdf

基于改进的反向传播解码

为什么基于SIR模型的ER随机网络信息传播节点影响力比基于SEIR模型的ER随机网络信息传播节点影响力大

基于深度学习的手势识别算法 csdn

基于MapReduce 的大规模微博传播分析

深度神经网络的学习过程都是基于梯度来学习吗？

写与《基于概率传播模型的复杂网络关键节点识别方法》发明最接近的已有方法的说明及步骤

一维杆中线弹性波传播的运动方程

深度学习与计算机视觉大作业

基于YOLOv8的运动目标检测系统开发

能帮我规划一下具体的学习步骤吗 我有基本的的python基础，但是没有学过深度学习，计算机视觉等较高级的处理

深度学习梯度下降和反向传播

基于声传播的智能定位系统

基于matlab求解kb冲击波传播理论

最新资源

能帮我规划一下具体的学习步骤吗我有基本的的python基础，但是没有学过深度学习，计算机视觉等较高级的处理