无监督移动物体检测中的上下文信息分离模型

153 浏览量更新于2023-10-20 收藏 13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8790通过上下文信息分离实现无监督移动物体检测0Yanchao Yang* UCLA Vision Lab Antonio Loquercio* University of Zurich DavideScaramuzza University of Zurich Stefano Soatto UCLA Vision Lab0摘要0我们提出了一种对抗性上下文模型来检测图像中的移动物体。通过使用除该区域（上下文）之外的所有其他位置的信息，训练一个深度神经网络来预测该区域的光流，同时另一个网络试图使该上下文尽可能无信息。结果是一个模型，其中假设自然地竞争，无需显式的正则化或超参数调整。尽管我们的方法完全不需要监督，但它胜过了许多在大型注释数据集上预训练的方法。我们的模型可以被看作是经典的变分生成基于区域的分割的一种推广，但避免了在运行时显式正则化或解决偏微分方程的问题。我们公开发布了所有的代码和训练好的网络。101. 引言0考虑图1：即使是相对简单的物体在场景中移动时，也会引起图像中复杂的不连续变化。能够从图像中快速检测出独立移动的物体对于动物和自主车辆的生存都是有益的。我们希望赋予人工系统类似的能力，而无需预先条件或学习类似的背景。这个问题涉及到运动分割、前景/背景分离、视觉注意、视频对象分割，我们在第3节中讨论。目前，我们使用“对象”或“前景”这些词在非正式的情况下来表示图像域中的（可能是多个）连通区域，以区别于它们的周围环境，我们称之为“背景”或“上下文”，根据某些标准。由于对象存在于场景中，而不是图像中，从后者推断出它们的方法依赖于一种操作性的01 http://rpg.ifi.uzh.ch/unsupervised_detection.html*这两位作者贡献相同。通信作者：yanchao.yang@cs.ucla.edu和loquercio@ifi.uzh.ch 2 这些术语的确切含义将在第2节中形式化。0图1：鹰和无人机的相遇（顶部）。后者如果没有意识到攻击就无法生存。检测移动物体对于动物和人工系统的生存都至关重要。请注意，鹰投射的区域内的光流（中间行）在空间和时间上都发生了很大的变化。我们的目标是将其归为一个移动物体（底部行）。请注意，我们的算法可以在多个尺度、视点的部分遮挡和复杂边界下检测到物体。0基于可测量图像相关性的定义。我们将图像中的移动对象称为其周围环境无法解释其运动的图像区域。换句话说，背景的运动对前景的运动没有信息，反之亦然。这种“信息分离”可以通过两者之间的信息减少率（IRR）来量化，如第2节所定义。这自然地转化为一种对抗性推理准则，与经典的变分基于区域的分割有密切联系，但有一个变化：我们的方法不是学习一个能够尽可能好地解释该区域内图像的区域生成模型，而是通过使用来自该区域以外的所有其他位置的测量来尽可能糟糕地解释它。在基于生成模型的分割中，可以始终使用一个平凡的模型（图像本身）来解释图像。为了避免这种情况，必须施加模型复杂性限制、瓶颈或正则化。我们的模型没有访问平凡解决方案的能力，因为它被迫在不查看该区域的情况下预测一个区域。相反，我们学到的是一种上下文对抗模型，无需显式的正则化，其中前景和背景的假设γpx|y; Iq “ Ipux, uy|IqHpux|Iq“ 1 ´ Hpux|uy, IqHpux|Iq(2)where H denotes (Shannon) entropy. It is zero when thetwo variables are independent, but the normalization pre-vents the trivial solution (empty set).3 As proven in the ap-pendix [40], objects as we deﬁned them are the regions thatminimize the following loss functionLpΩ; Iq “ γpΩ|Ωc; Iq ` γpΩc|Ω; Iq.(3)Note that L does not have a complexity term, or regular-izer, as one would expect in most region-based segmenta-tion methods. This is a key strength of our approach, thatinvolves no modeling hyperparameters, as we elaborate onin Sect. 3.Tame as it may look, (3) is intractable in general. Forsimplicity we indicate the ﬂow inside the region(s) Ω (fore-ground) with uin “ tui, i P Ωu, and similarly for uout, theﬂow in the background Ωc. The only term that matters inthe IRR is the ratio Hpuin|uout, Iq{Hpuin|Iq, which isşlog Ppuin|uout, IqdPpuin|uout, Iqşlog Ppuin|IqdPpuin|Iq(4)that measures the information transfer from the backgroundto the foreground. This is minimized when knowledge of3A small constant 0 ă ǫ ! 1 is added to the denominator to avoidsingularities, and whenever x ‰ H, Hpux|Iq " ǫ, thus we will omit ǫfrom now on.8800在没有预训练和（超）参数选择的情况下，我们的方法与对抗学习和自监督有关（见第3节）。结果是一种完全无监督的方法，不同于许多最近的无监督方法，这些方法仍然需要在大规模标记数据集上进行监督预训练，并且在训练集中不好表示的情况下可能表现不佳。尽管完全没有监督，我们的方法在性能上甚至与使用监督预训练的方法相媲美（第4节）。0贡献总结0我们的方法具备变分基于区域的分割的理想特性：鲁棒性、无需阈值或可调参数、无需训练。然而，它不需要在运行时求解偏微分方程（PDE），也不需要选择正则化项或拉格朗日乘子，也不需要将模型限制为可以在解析上处理的简单模型。它还利用了现代深度学习方法的优势：将深度神经网络用作模型类，使用随机梯度下降（SGD）进行高效优化，并且可以在运行时高效计算。然而，它完全不需要监督。虽然我们的方法与经典的基于区域的变分分割、生成模型以及现代基于深度学习的自监督方法有密切关系（详见第3节），但据我们所知，它是第一个在图像中检测运动物体的对抗性上下文模型。在三个最常见的基准测试中，它比无监督方法表现更好或相似，并且甚至超过依赖于监督预训练的方法（第4节）。在其中一个考虑的基准测试中，它超过了所有使用监督的方法，这说明了我们方法的泛化能力。在第5节中，我们描述了典型的失败模式，并讨论了我们方法的局限性。02. 方法0我们将“运动物体”或“前景”定义为图像中任何运动无法从上下文中解释的区域。图像的“区域”Ω是图像定义域的一个紧凑且多连通的子集，离散化为格点D。“上下文”或“背景”是图像定义域中前景的补集，Ωc=DzΩ。给定测量图像I和/或其到下一个（或上一个）图像的光流u，前景和背景是不确定的，因此被视为随机变量。如果一个随机变量u1从另一个u2中“无法解释”，则它们的互信息I(u1;u2)为零，即它们的联合分布等于边缘分布的乘积，P(u1,u2)=P(u1)P(u2)。0更具体地说，光流u：D1→R2将图像I1：D1→R3的定义域映射到I2的定义域D2上，因此如果xi∈D1，则xi'∈D2，其中ui=up(xi)（离散化为格点并裁剪边界）。理想情况下，如果满足定义光流的亮度恒定约束方程，我们将有I1≈I2+u（逐点）。如果我们考虑两个位置i、j的流，我们可以将前景的概念形式化为一个由背景未知的区域Ω：#Ip(ui,uj|I)≠0，i、j∈Ω，Ip(ui,uj|I)=0，i∈Ω，j∈DzΩ。（1）0根据这个定义，如果一个对象的定义域包含在另一个对象中，那么它们会相互影响（见附录[40]）。02.1. 损失函数0我们现在将前景的定义操作化为推断的标准。我们使用信息减少率（IRR）γ，它以两个子集x、y�D作为输入，并返回一个非负标量：Figure 2: During training, our method entails two modules. One is the generator (G) which produces a mask of the object by looking atthe image and the associated optical ﬂow. The other module is the inpainter (I) which tries to inpaint back the optical ﬂow masked out bythe corresponding mask. Both modules employ the encoder-decoder structure with skip connections. However, the inpainter (I) is equippedwith two separate encoding branches. See Sect. 4.1 for network details.Let me have a try foreground path background path Part of the dog/background is observed. Easy! Good reconstruction! tNow I know how to do it! foreground path background path Have no clue where the dog/bkgd moves. Difficult… Bad reconstruction! t+1 Figure 3: The two diagrams illustrate the learning process of the mask generator (G), after the inpainter (I) has learned how to accuratelyinpaint a masked ﬂow. The upper diagram shows a poorly trained mask generator which does not precisely detect the object. Due to theimprecise detection, the inpainter can observe part of the object’s ﬂow, and perform an accurate reconstruction. At the same time, theinpainter partially observes the background’s ﬂow in the complementary mask. Consequently, it can precisely predict missing parts of thebackground’s ﬂow. In contrast, the lower diagram shows a fully trained mask generator which can precisely tell apart the object from thebackground. In this case, the inpainter observes the ﬂow only outside the object and has no information to predict the ﬂow inside it. Atinitialization time the inpainter does not know the conditionals to inpaint masked ﬂows. Therefore, we propose to train both the generatorand the inpainter jointly in an adversarial manner (see Sect. 2).the background ﬂow is sufﬁcient to predict the foreground.To enable computation, we have to make draconian, yetcommon, assumptions on the underlying probability model,namely thatPpuin “ x|Iq9expˆ´}x}2σ2˙(5)Ppuin “ x|uout “ y, Iq9expˆ´}x ´ φpΩ, y, Iq}2σ2˙ş}uin ´ φpΩ, uout, Iq}2dPpuin|uout, Iqş}uin}2dPpuin|Iq««řNi“1 }uiin ´ φpΩ, uiout, Iq}2řNi“1 }uiin}2(6)8810其中 φ p Ω , y, I q “ ş u in dP p u in | u out , I q是条件均值，给定图像和补充观察。在这些假设下，（4）可以简化为0在给定图像和补充观察的情况下，我们假设 φ p Ω , H , I q“ 0，因为给定单个图像，对于流的最可能的猜测是零。在这些假设下，（4）可以简化为LpΩ; Iq “ 1 ´řNi“1 }uiin ´ φpΩ, uiout, Iq}2řNi“1 }uiin}2 ` ǫ` 1 ´řNi“1 }uiout ´ φpΩc, uiin, Iq}2Ni“1 }uiout}2 ` ǫ.(7)χ : DÑt0, 1uiÞÑ1 if i P Ω; 0 otherwise(8)Lpw1, w2; Iq “ři}χw2pui ´ φw1pχw2, uiout, Iqq}2ři}uiin}2`ři}p1 ´ χw2qpui ´ φw1p1 ´ χw2, uiin, Iq}2i}uiout}2(9)ˆw “ arg minw1 maxw2 Lpw1, w2; Iq.(10)LpΩ, ci, coq “Ω|uinpxq´ci|2dx`Ωc |uoutpxq´co|2dxx.8820其中 N “ | D | 是 D的基数，或者是可用的流样本数量。最后，我们要最小化的损失（3）可以近似为0为了最小化这个损失，我们必须选择未知区域 Ω的表示和函数 φ 。02.2. 函数类0最小化（7）的区域 Ω 属于 D的幂集，即图像域的所有可能子集的集合，具有指数复杂度。我们用指示函数表示它0因此，区域 Ω 内的流可以写成 u i in “ χu i，区域外的流可以写成 u i out “ p 1 ´ χ q u i。同样，函数 φ是非线性的、非局部的和高维的，因为它必须预测图像中一个大小和形状不同的区域的流，给定不同区域的流。换句话说，φ必须捕捉到一个区域的上下文来恢复其流。作为时代的特点，我们选择将 φ 和 χ都作为深度卷积神经网络的参数化函数类来表示，如图2所示，其具体细节在第4.1节中。我们用 w 表示参数，用 φ w1 和 χ w 2表示相应的函数。因此，在丢弃常数后，负损失（7）可以写成参数的函数0φ w 1 被称为 inpainter网络，必须选择使上述损失最小化的 φ。同时，由其指示函数 χ w 2 的参数 w 2 表示的区域 Ω应该被选择为使 u out 尽可能不包含 u in的信息，因此相同的损失对于 w 2来说是最大化的。这自然地引出了一个极小极大问题：0在连续情况下，它属于单位正方形的紧致且多重连通区域的无限维集合。0这个损失与经典的基于区域的分割有着有趣的联系，但有了一些变化，我们将在下面讨论。03. 相关工作0为了理解我们的方法与经典方法的关系，考虑基于区域的分割的最简单模型[8]0(11) 通常与一个正则化项结合，例如边界的长度Ω。这是一个凸的无限维优化问题，可以通过数值积分偏微分方程（PDE）来解决。结果对噪声具有显著的鲁棒性，前提是底层场景具有分段常数辐射度，并且由图像辐照度测量，与之相关的是一个简单的“信号加噪声”模型。并不是所有感兴趣的场景都具有分段常数辐射度，尽管这种方法在医学图像分析中有着悠久的历史。如果我们通过用平滑函数替换常数 c i ，φ i p x q，来丰富模型，我们就得到了著名的Mumford-Shah泛函[25]，也可以通过积分PDE来优化。由于平滑函数是一个无限维空间，需要正则化，这就打开了正则化准则的潘多拉盒子，更不用说超参数了：过多的正则化会丢失细节；太少会使模型陷入噪声引起的极小值。这个程序的现代版本将φ p xq 替换为一个参数化模型 φ w p x q ，例如一个在数据集 D上预训练的带有权重 w的深度神经网络。在这种情况下，损失是 w的函数，具有自然的模型复杂度界限。在点 x P Ω 处评估 φw 需要对整个函数 u 在 Ω 内的知识，我们用 φ w p x, u inq 表示： ż0Ω | u在p x q´ φ w p x, u inq| 2 dx ` ż0（12）在这里，网络只需将φ w p x, u in q映射为uin，从而提供一个平凡解决方案，通过引入（架构或信息）瓶颈来避免。我们将内部和外部互换，用外部预测内部，反之亦然： ż0Ω | u在p x q´ φ w p x, u outq| 2 dx ` ż0Ω c | u out p x q´ φ w p x, u0（13）归一化和离散化后，得到我们的损失函数（7）。两个区域相互竞争：一个区域增长，另一个区域就必须收缩。在这个意义上，我们的方法与区域竞争方法以及特定的运动竞争[12]方法相关，但也与对抗训练相关，因为我们可以4.1. Implementation and Networks DetailsGenerator, G: Depicted on the left of Fig. 3, the gener-ator architecture is a shrunk version of SegNet [2]. Its en-coder part consists of 5 convolutional layers each followedby batch normalization, reducing the input image to 14 of itsoriginal dimensions. The encoder is followed by a set of 4atrous convolutions with increasing radius (2,4,8,16). Thedecoder part consists of 5 convolutional layers, that, withupsampling, generate an output with the same size of theinput image. As in SegNet [2], a ﬁnal softmax layer gen-erates the probabilities for each pixel to be foreground orbackground. The generator input consists of an RGB imageIt and the optical ﬂow ut:t`δT between It and It`δT , to in-troduce more variations in the optical ﬂows conditioned onimage It. At training time, δT is randomly sampled fromthe uniform distribution U “ r´5, 5s, with δT ‰ 0. The op-tical ﬂow ut:t`δT is generated with the pretrained PWC net-work [33], given its state-of-the-art accuracy and efﬁciency.The generator network has a total of 3.4M parameters.Inpainter, I: We adapt the architecture of CPN [41] tobuild our inpainter network. Its structure is depicted on theright of Fig. 3. The input to this network consists of the in-put image It and the ﬂow masked according to the generatoroutput, χu, the latter concatenated with χ, to make the in-painter aware of the region to look for context. Differentlyfrom the CPN, these two branches are balanced, and havethe same number of parameters. The encoded features arethen concatenated and passed to the CPN decoder, that out-puts an optical ﬂow ˆu “ φpχ, p1´χqu, Itq of the same sizeof the input image, whose inside is going to be used for thedifference between uin and the recovered ﬂow inside. Sim-ilarly, we can run the same procedure for the complementpart. Our inpainter network has a total of 1.5M parameters.At test time, only the generator G is used.Given It8830将φ视为分类问题中的“鉴别器”（GAN[1]）与我们使用的损失函数相关。这也与所谓的“自监督学习”有关，这是一个错误的称呼，因为它没有监督，只有一个不涉及外部注释数据的损失函数。我们可以通过使用不同的范数或相应的不同的联合和边缘分布模型（5）构建我们方法的几个变体。更广泛地说，独立检测运动物体的能力是原始的，因此有着悠久的基于运动的分割或移动物体检测历史。早期对显式建模遮挡的尝试包括具有分段仿射区域的层模型[38]，使用基于图的方法[30]和变分推断[11, 6, 32,43]改进计算复杂性，以共同优化运动估计和分割；[26]使用长期时间一致性和颜色恒定性，但这使得优化更加困难并对参数选择敏感。类似的思想被应用于人群中的运动检测[5]，交通监控[4]和医学图像分析[14]。我们的工作还与视觉注意力的文献[16, 7]相关。更近期的数据驱动方法[36, 35, 9,31]学习了有区别的时空特征，主要区别在于输入类型和架构。输入可以是图像对[31, 9]或图像加密集光流[36,35]。架构可以是独立于时间的[35]，也可以是带有循环记忆[36, 31]的。总的来说，这些方法在基准数据集[26,29]上优于传统方法，但代价是需要大量标记的训练数据，并且对以前未见过的数据的泛化能力差。值得注意的是，与机器学习的广泛用途不同，在视频对象分割中，习惯上将“无监督”方法称为不需要在运行时进行手动注释的大量手动注释数据，只要它们不需要在运行时进行手动注释。我们采用了更广泛的术语使用，其中无监督意味着在训练和测试时都没有任何形式的监督。与经典的变分方法一样，我们的方法不需要任何注释的训练数据。然而，与现代学习方法一样，我们的方法学习了一个上下文模型，鉴于图像形成和场景动态的复杂性，这是不可能工程化的。04. 实验0我们将我们的方法与一组最先进的基线方法在视频对象分割任务上进行比较，以评估检测的准确性。我们首先在一个受控的玩具示例上进行实验，其中我们模型的假设完全满足。这个实验的目的是在理想条件下了解所提出方法的能力。在第二组实验中，我们进行了评估0在三个公开广泛使用的数据集上评估了所提出模型的有效性：密集注释视频分割（DAVIS）[29]，弗莱堡-伯克利运动分割（FBMS59）[26]和SegTrackV2[37]。由于它们之间的外观和分辨率差异较大，这些数据集对于任何移动物体分割方法来说都是一个具有挑战性的基准。虽然DAVIS数据集每个场景始终只有一个对象，但FBMS和SegTrackV2场景每帧可能包含多个对象。我们展示了我们的方法不仅优于无监督方法，甚至超过了其他有监督算法，这些算法与我们的算法相比，在训练时可以访问大量带有精确手动分割的标记数据。对于定量评估，我们使用了视频对象分割的最常见指标，即平均Jaccard分数，也称为交并比分数J。由于空间限制，我们在附录中添加了其他评估指标[40]。DAVIS [29]FBMS59 [26]SegTrackV2 [37]J Ò92.588.592.1Table 1: Performance under ideal conditions: When theassumptions made by our model are fully satisﬁed, our ap-proach can successfully detect moving objects.. Indeed, ourmodel reaches near maximum Jaccard score in all consid-ered datasets.and ut:t`δT , it outputs a probability for each pixel to beforeground or background, PtpδTq. To encourage temporalconsistency, we compute the temporal average:Pt “δT “5ÿδT “´5,‰0PtpδTq(14)The ﬁnal mask χ is generated with a CRF [21] post-processing step on the ﬁnal Pt. More details about the post-processing can be found in the appendix.4.2. Experiments in Ideal ConditionsOur method relies on basic, fundamental assumptions:The optical ﬂow of the foreground and of the back-ground are independent.To get a sense of the capa-bilities of our approach in ideal conditions, we artiﬁ-cially produce datasets where this assumption is fully sat-isﬁed.The datasets are generated as a modiﬁcation ofDAVIS2016 [29], FMBS [26], and SegTrackV2 [37]. Whileimages are kept unchanged, ground truth masks are used toartiﬁcially perturb the optical ﬂow generated by PWC [33]such that foreground and background are statistically inde-pendent. More speciﬁcally, a different (constant) opticalﬂow ﬁeld is sampled from a uniform distribution indepen-dently at each frame, and associated to the foreground andthe background, respectively. More details about the gener-ation of those datasets and the visual results can be foundin the Appendix. As it is possible to observe in Table 1,our method reaches very high performance in all consid-ered datasets. This conﬁrms the validity of our algorithmand that our loss function (10) is a valid and tractable ap-proximation of the functional (3).88404.3. 视频对象分割性能0如前所述，我们在视频对象分割的文献中对术语“无监督”有不同的定义。在我们的定义和随后的内容中，监督是指算法在训练时使用地面真实对象注释。相反，文献通常将方法定义为半监督方法，如果在测试时假设已知第一帧的地面真实分割[ 3 , 24 ]。这可以被视为跟踪问题[ 42]，因为检测的是0目标是人类生成的。相反，我们在这里专注于移动物体检测，因此我们将我们的方法与通常在视频对象分割领域被称为“无监督”的方法进行比较。然而，我们在训练期间进一步区分是否需要地面真实对象分割（有监督）或不需要（真正无监督）。在本节中，我们将我们的方法与其他8种代表移动物体分割技术的方法进行比较。为了比较，我们使用上述定义的相似度指标Jaccard分数J，即真实和预测掩码之间的相似度。表2显示了我们的方法和基线方法在三个流行数据集DAVIS2016 [ 29 ]，FBMS59 [ 26 ]和SegTrackV2 [ 37]上的性能。我们的方法在每个考虑的数据集中都排名前两位，甚至超过了需要大量标记数据的基线方法，即FSEG [ 17]。从表2可以观察到，无监督基线方法通常在一个数据集上表现良好，但在其他数据集上表现显著较差。例如，尽管ARP [ 20]是DAVIS2016上表现最好的无监督方法，但其在FBMS59 [26 ]和SegTrackV2 [ 26]数据集上的性能显著下降。ARP在DAVIS上的性能超过我们6.5%，然而，我们的方法在FBMS59和SegTrackV2上分别超过ARP 6.3%和8.4%。类似地，NLC [ 15 ]和SAGE [ 39]在Segtrack和FBMS59基准测试中非常有竞争力，但在其他基准测试中则不是。NLC在SegTrackV2上的性能超过我们8.4%，然而，我们在DAVIS和FBMS上分别超过NLC29.8%和24.7%。已经确定在多个基准测试中排名第二更能表明鲁棒性能，而不是在一个基准测试中排名第一。事实上，现有的移动物体分割无监督方法通常是高度工程化的流水线方法，它们在一个数据集上进行调优，但不一定适用于其他数据集。此外，由于包含几个计算密集的步骤，现有的无监督方法通常比我们的方法慢几个数量级（表3）。有趣的是，监督方法也呈现类似的模式。这在SegTrackV2数据集 [37]上尤为明显，因为其中几个帧的分辨率非常低且模糊。事实上，由于训练和测试数据之间的分布变化，监督方法在协变量转移方面存在困难。通常，监督方法通过在图像分割数据集上进行预训练来缓解这个问题，但这个解决方案显然无法适用于每种可能的情况。相反，我们的方法可以在任何数据上进行微调，而不需要后者进行注释。因此，我们的方法在大多数无监督方法以及所有监督方法中表现优异。DAVIS2016 [29] J Ò77.270.775.976.255.855.142.655.271.5FBMS59 [26] J Ò74.068.465.159.847.751.561.257.263.6SegTrackV2 [37] J Ò60.961.457.357.247.867.257.654.362.08850PDB [ 31 ] FSEG [ 17 ] LVO [ 36 ] ARP [ 20 ] FTS [ 28 ] NLC [ 15 ] SAGE [ 39 ] CUT [ 18 ] 我们0基于DNN 是是是否否否否否是预训练要求是是是否否否否否否0表2：移动对象分割基准：我们将我们的方法与8种不同的基准方法在移动对象分割任务上进行比较。为此，我们使用了三个流行的数据集，即DAVIS2016 [29]，FBMS59 [26]和SegTrackV2[37]。蓝色的方法在训练时需要地面真值注释，并且在图像分割数据集上进行了预训练。相反，红色的方法是无监督的，不需要任何地面真值注释。我们的方法在所有考虑的基准中都排名前两位，与其他无监督方法相比。粗体表示所有方法中最好的，而粗体红色和红色分别表示无监督方法中最好和第二好的。0在分割质量和训练效率方面。04.4.定性实验和失败案例0在图4中，我们展示了我们的方法和其他方法在DAVIS数据集上生成的检测结果的定性比较。我们的算法可以精确地分割移动对象，无论背景杂乱、遮挡还是大的深度不连续性。我们方法的典型失败案例是将由主要对象引起的运动的对象检测为前景。图4的最后一行给出了一个例子，冲浪者移动的水也被我们的算法分类为前景。04.5.训练和运行时分析0生成器和修复网络的参数通过最小化函数（10）同时进行训练。优化时间在单个GPU Nvidia Titan XP1080i上约为6小时。由于我们的生成器和修复网络相对较小，我们可以承受非常快速的训练/微调时间。这与较大的模块（例如PDB[31]）相反，后者需要长达40小时的训练时间。在测试时，预测P t （在公式14中定义）以3.15FPS的速度生成，或者每帧平均320毫秒，包括使用PWC[33]计算光流的时间。不包括生成光流的时间，我们的模型可以以10.2FPS的速度生成预测，或者每帧98毫秒。所有先前的时间都不包括CRF后处理步骤。表3将我们的方法与其他无监督方法的推理时间进行了比较。由于我们的方法在测试时只需要通过一个相对较浅的网络，因此比其他无监督方法快几个数量级。05.讨论0我们对对象的定义及其结果的推理标准与基于生成模型的分割和基于区域的方法有关，这些方法在九十年代很受欢迎。然而，0有一个重要的区别：我们不是使用区域内的证据来推断该

下载后可阅读完整内容，剩余1页未读，立即下载