强化学习融合演员-评论家模型的实例分割方法

153 浏览量更新于2023-10-19 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8237Actor-Critic实例分割NikitaAraslanov，Constantin A. Rothkopf，§Stefan Roth，§*部门达姆施塔特工业大学认知科学中心（Centre for Cognitive Science）摘要视觉场景分析的大多数方法都强调图像元素的并行处理。然而，视觉的顺序性质出现的一个领域是分割场景中的多个潜在相似且部分被遮挡的对象。在这项工作中，我们在强化学习的背景下重新审视了这个具有挑战性的问题的经常性表述。出于对经常性状态的地面实况片段的全局最大匹配分配的限制，我们开发了一种演员-评论家方法，在该方法中，演员一次递归地预测一个实例掩码，并利用来自同时训练的评论家网络的梯度。我们制定的状态，行动，和奖励，如让批评家模型的长期影响，目前的预测，并在公司的梯度信号的信息。然而，为了在实例掩码的固有高维动作空间中进行有效探索，我们使用条件变分自动编码器学习了一个紧凑的表示。我们表明，我们的演员-评论家模型consistently提供了准确性的好处，在标准的实例分割基准的经常性1. 介绍例如，分割方法在很大程度上依赖于图像元素和图像内特征的并行处理的思想[13]。然而，以前的工作[31，32]表明，实例分割可以制定为一个顺序的视觉任务，类似于对于人类视觉，大量证据已经揭示了许多超越眼球运动的视觉任务是顺序解决的[36]。虽然前馈流水线的分割精度取决于大量的对象建议，但无建议的递归模型对于实例分割具有特殊的吸引力，其中实例的数量是未知的。此外，时间上下文可以促进特定的预测顺序：分割“难”实例可以通过调节首先分割的“容易”实例的掩码来改进（例如，由于闭塞，空间语境中的歧义等; [20]）。递归公式（例如分割）的一个关键问题是将地面实况片段分配给时间步，因为它们必须被预测的顺序是未知的。以前，这是使用Kuhn-Munkres算法[18]解决的，计算最大匹配分配。然而，我们提供了一些见解，即最终的预测排序取决于初始分配。此外，每个时间步的损失在其对未来预测的影响方面直观地说，考虑到早期预测的未来损失应该会提高后期时间步的分割准确度。虽然这可以通过展开梯度反向传播的递归状态来实现，但由于高内存需求，这种方法很快就不适用于分割网络。在过去的几年里，强化学习（RL）在解决日益复杂的任务方面表现出了希望[23，26，27]。然而，相对较少的工作探索了RL在其常规领域之外的应用，我们将其归因于两个主要因素：（1）计算机视觉问题往往缺乏环境的概念，环境为交互主体提供了奖励反馈;（2）图像空间中的动作通常是高维度的，这导致了艰难的计算挑战。在这里，我们使用了一个演员-评论家（AC）模型[5]，在实例分割的经常性方法的两个技术问题上取得了进展。我们使用探索噪声来减少初始分配对分割顺序的影响。此外，我们设计了一个奖励函数，该函数考虑了每个时间步的目标函数中的未来奖励。我们的模型不使用边界框-经常批评，由于其粗糙的表示对象的形状。相反，我们构建了一个编码器-解码器基线，直接在输入图像的尺度上进行像素预测。为了使RL能够用于具有其相关联的高维输出空间的实例分割，我们提出通过条件变分自动编码器的潜变量来学习紧凑的动作空间表示[16]，我们将其集成到递归预测流水线中。8238我们的实验表明，我们的actor-critic模型提高了预测质量，特别是在后面的时间步，并在标准的实例分割基准上表现良好2. 相关工作实例分割在最近的文献中受到越来越多的关注。一系列方法侧重于学习显式实例编码[4，9，17，24，35]，然后使用后处理将其聚类到单独的实例掩码中。另一种常见的端到端方法是首先使用动态池化来预测每个实例的边界框，然后使用单独的分割网络来产生框内主要对象的掩码[13，22]。这些方法目前是最佳实践，这可以归因于基于深度网络的对象检测管道的成熟。然而，这种策略最终受到检测性能、建议集以及考虑像素级上下文的额外处理需求的限制[2，8]。按顺序进行预测是一种另类的工作. Romera-ParedesTorr [32]使用具有空间softmax的卷积LSTM [39]，它适用于各向同性对象形状和适度的尺度变化。在每个时间步，Ren Zemel [31]的递归模型预测一个实例的框位置和尺度。然而，用于子帧分割的可用上下文的范围时间和空间背景的一些好处也在对象检测任务[7，21]以及更早的图像生成[12]和识别[19]中得到了重申。与这些工作相比，我们的方法避免了对中间边界框表示的需要，并直接在图像分辨率下预测掩码。我们将问题转化为一个连续的决策过程，正如强化学习（RL;[34]）。使用演员-评论家框架[5]，我们将演员定义为顺序产生实例掩码的模型，而评论家学习提供表征演员表现的分数。利用这个分数，演员可以被训练来提高其预测的质量。这让人想起了最近的生成对抗网络-图1.实例分割的最大匹配分配的说明。考虑一个具有地面实况实例a和b的图像，以及做出预测1和2的递归模型。在构造的二分图中，每个边被分配一个权重，该权重对应于具有连接的地面真值的预测的IoU。最大匹配从由或范围和灰色边缘描绘的可能分配的集合中找到使IoU的总和最大化的分配。然后针对每个时间步长w.r.t.独立地计算损失。这个任务的真实性年龄分辨率为H×W。这是显着高于行动空间的标准问题研究的重新-非线性学习（通常在1到20之间），甚至是它在自然语言处理中的应用[3，30]。为了解决这个问题，我们建议使用变分自动编码器学习一个紧凑的表示[16]，以使问题从高维离散到低维连续动作空间的关键减少。3. 动机如上所述，我们遵循先前的工作，将实例分割建模为顺序决策问题[31，32]，每个时间步t产生一个实例。为了激励我们的工作，我们重新审视了使用Kuhn-Munkres算法[18]将地面实况实例分配给递归模型的预测的标准实践。令θ参数化模型，并且Uθ∈Rn×n表示测量模型得分的元素uij的矩阵第i个预测w.r.t.第j个地面实况（例如，IOU）。Kuhn-Munkres算法找到置换矩阵作为最大匹配问题arg max tr（Uθ P），（1）P∈P其中P是n维置换n阶矩阵的集合I.E. 使得对于所有P∈ P，我们有jPij=1，iPij=1，Pij∈{0，1}。给定可微损失函数lθ（i，j）（例如，二进制交叉项r∈op y），模型参数θ为”[11]，其中，一种是“一个”，一种是“一个”。然后更新以最小化ij，Pij =1 lθ（i，j）.犯罪分子改善。特别是，我们的模型与对于Wasserstein GANs [1]，因为它是在回归类损失上训练的，而对于SeqGAN [40]，因为生成器一个障碍是动作维度，因为探索所需的采样复杂度随着动作的大小呈指数增长对于密集像素预测，朴素的动作表示将导致一个维数为O（2H×W）的动作空间，用于实现。考虑两个地面实况片段的简单情况a和b，如图所示。1.一、不失一般性，假设初始（随机）模型参数产生u1a+u2bu1b+u2a，即<用于分段实例A第一和B第二的分数之和低于相反次序中的分数这意味着最大匹配将执行梯度更新步骤，使第二和最大化，即，u1b+u2a，但不是第一个。因此，对于更新的参数，排序b→a的得分也可能占主导8239在训练的后期迭代中。1以前的工作[20，37]表明，顺序模-国家过渡。正如上面的状态和动作定义所暗示的，状态转换ELS对于包括对象段在内的预测顺序不是不变的（参见，补充材料）。暗示-.ΣT（ I，Mt），at=.ΣI，max（Mt，D（at））（三）上面例子中的阳离子是superu1a+u2b使用前一个掩码的像素最大值，supu1b+u2a（sup是w.r.t.θ）。一个可以想象的雷姆-减轻初始转让影响的方法是：将噪声引入到得分矩阵U（例如，I. I. D. Gaussian），因此Eq.（1）成为行动，即将所述当前预测的实例掩码整合到所述先前累积的预测中。奖励我们设计了奖励函数来衡量arg maxtrP∈P.（Uθ+θ）PΣ.（二）国家过渡的进展，以优化某些分割标准奖励的构建块是状态势[28]，我们基于最大匹配然而，损失函数中的噪声不会解释递归模型中时间背景的内在因果关系：一个预测的扰动会影响连续的预测，将当前预测分配给地面实况片段，即，Σt动的一个。在这项工作中，我们考虑了一种更有原则的方法，φt：= maxk∈P（N）i=1F（Si，Tki），（4）鼓励探索不同的排序。我们在演员网络做出的个人预测水平上注入探索噪声，而联合训练的评论家网络跟踪早期预测的长期结果。这允许在对参与者的梯度中不仅包括即时损失，还包括当前预测对未来损失的贡献我们通过在RL框架中重新定义实例分割问题来实现这一点，我们将在下面简要介绍。4. 符号和定义在下文中，我们在实例分割的上下文中定义马尔可夫决策过程（MDP）的关键概念。对于更一般的介绍，我们参考[34]。我们考虑由元组（S，A，T，r）定义的有限时域MDP，其中状态空间S，动作空间A，状态转移T：S×A→S，以及奖励r：S×A→R定义如下。状态递归系统的状态st∈S是输入图像（及其特定于任务的表示）和聚合掩码的元组，即 s t=（I，M t）. 掩模Mt简单地累积先前的实例预测，这促使模型聚焦于尚未分配的像素。包括I使得能够在每个时间步访问原始输入。行动上为了限制作用空间的维数，我们用紧掩码表示来定义作用at∈A.为了实现这一点，我们预先训练一个条件变量-传统的自动编码器（cVAE;[16]）来重现分割掩码。结果，动作a t∈ A = Rl是二进制掩码的连续潜在表示，并且具有维数lH·W，而解码器D：Rl→RH×W将潜在代码“扩展”为全分辨率掩码。1注意，由于训练的随机性质，形式证明可能是不平凡的。其中 Ti和S1≤i≤t是N个真实掩码和t个预测掩码; P（N）是集合{1，2，.， N}个。F（·，·）表示预测与地面实况掩模之间的距离关于特定基准所使用的性能度量（例如，IoU、Dice等）。我们在实验部分详细阐述了这些选择。Eq中的状态势。（4）允许我们将报酬定义为后续状态之间的电位差r t ： =φ （ s t+1 ） − φ （ s t ）。（五）请注意，由于第（t+1）次预测可能会对最优分配进行重新排序（使用Kuhn-Munkres算法计算），因此我们对奖励的定义相对于第（t +1）次预测的限制较少。与以前的工作[31，32]相比，预测顺序强制执行一定的分配来计算梯度。相反，我们的即时奖励允许我们推理一组预测相对于另一组预测的相对改进。5. 演员-评论家方法5.1. 概述演员模型的核心块，如图所示。2是一种条件变分自动编码器（cVAE;[16]）。编码器计算潜在变量的紧凑向量，对全分辨率实例掩码进行编码。解码器从潜码中恢复这样的掩码。使用由Eq.（3）最新的预测更新状态，并且该过程重复直到终止。参与者依赖于两种具有复杂属性的上下文类型。如上所述，掩码Mt是状态st的分量，其累积在先前步骤中产生的掩码。它提供了高分辨率线索的置换不变时间上下文，鼓励网络关注尚未标记的像素。的8240时间状态stht+1行动编码器解码器评论家StConcatenate面膜MTmax（Mt−1，mt−1）演员Q（ st，国家金字塔at<$N（ µ，σ）LSTM图2. 用于实例分割的演员-评论家模型。该模型依赖于两种类型的上下文：空间置换不变状态st累积掩码，而隐藏的LSTM状态ht对预测排序敏感的时间上下文进行建模。状态金字塔将多个尺度的高分辨率信息传播到解码器，以补偿瓶颈部分的分辨率损失。演员ht的隐藏状态由LSTM [14]在瓶颈部分实现，并且对评论家来说是未知的。与状态st相反，隐藏状态的表示是学习的，并且由于LSTM状态的非交换更新而对预测排序敏感。隐藏状态，因此，有助于时间的背景下，并被证明是特别有帮助的消融研究计数。我们按照下面描述的两个阶段训练我们的模型5.2. 预培训我们预训练演员cVAE来重建目标片段的掩码。网络的输入由图像和随机选择的地面真实实例的二进制掩码组成。考虑到潜在级别的高分辨率信息的丢失，解码器以输入图像和以多个尺度提供的实例相关表示的辅助通道为条件，我们称之为状态金字塔。一个通道包含前景预测，而其他8个通道对[35]的实例角度量化进行编码，从而将对象片段的像素这些功能有助于实例检测和disam- biguation，因为正交量化矢量的邻域表示遮挡边界和对象质心。继Ren Zemel [31]之后，我们用一个在独立训练的预处理网络[25]来5.3. 培训在训练过程中，我们学习一个新的编码器来顺序预测分割掩码。除了图像之外，编码器还接收在预训练期间使用的辅助通道。然而，相比之下，编码器被鼓励学习实例敏感的特征，因为解码器期望地面实况掩码的潜在代码。算法1提供了训练过程的概述。从在剧集执行步骤中积累的经验的缓冲器中与评论家联合训练演员在策略评估中，评论家被更新以最小化近似期望奖励的误差，而在策略迭代中，演员从评论家接收梯度以最大化Q值。情节执行。对于具有N个实例的图像，我们将情节定义为N个预测的序列。该算法随机选择一小批图像而不进行替换，并将其作为输入提供给演员。使用重新参数化技巧[16]，演员对与实例掩码的下一个预测相对应的预测结果和相应的奖励保存在缓冲区中。在每个情节结束时，可以针对每个时间步长t计算目标Q值作为即时奖励的总和。政策评价。由φ参数化的批评者网络维护Q值的估计，该Q值定义为由策略μ引导的状态和动作的函数：时尚.自动编码器使用二进制交叉熵（BCE）ΣΣNQφ（st，at）=Eaµ（s），j>tγi−t ri（ si，ai）Σ.（六）作为重建损失。对于潜在表示，我们使用具有零均值和单位方差的高斯先验相应的损失函数被视为Kullback-Leibler散度[16]。J JI=t请注意，由于图像中的实例数量有限，因此期望中的有限和批评家8241时间步长t被定义为具有折扣奖励总和的平方L2算法一：演员-评论家培训从预训练和评论家Qφ（s，a）初始化演员μθ（s）¨¨¨L=Q（s，a）−¨ΣN¨γi−t r<$，（7）forepoch= 1，NumEpochsdoforeachminibatchdo评论家，t¨φ tt¨i¨¨i=t2//在缓存区中进行回放buffer←[]foreach（Image，{T}1，.，N）在小批量中其中γ∈（0，1）是控制时间的折扣因子地平线，即未来的奖励应该在多大程度占了超参数γ允许在时间范围内权衡奖励近似的难度：当γ→1时，时间范围扩展到所有状态，但批评者必须仅基于一个遥远的未来奖励来近似目前的状态和行动。我们更新的参数的批评，以尽量减少方程。（7）使用缓冲器中的状态动作和奖励的样本，并设置γ = 0。9端初始化掩码M1←空初始化状态s1←（图像，M1）episode←[]对于t= 1，N做示例动作atµθ（st）用等式1获得下一个状态st+1=T（st，at）（三）将（st，at，st+1）添加到事件端用Eq计算情节的奖励。（五）将有奖励的剧集添加到缓冲区在我们的实验中。//从buffer批量更新criticforeach（st，at，rt，st+1）inbuffer doφ←φ−α。Q（s，a）−<$Nγi−tr政策迭代。行动者对一个动作at∈A进行采样，由当前策略提供的分布μθ：S→A，端评论家φφt ti=ti由θ参数化，并观察由等式计算的奖励rt。（五）、给定初始状态s1，参与者为了找到期望的最大化策略，//使用critic从缓冲区初始化状态s1对于t= 1，N做示例动作atµθ（st）θ=arg maxENγi r（s，a），approx-θ←θ+αact<$atQφ（st，at）<$θµθ（st）−βact<$θLKLθaj<$µθ（sj）i=1我我我使用等式2获得下一状态st+1=T（st，at）（三）评论家的评论为了实现这一点，状态st=（I，Mt）以及演员其产生相应的Q值。通过反向传播计算使Q值最大化的梯度，并将其返回给执行器以进行参数更新。端端端我们发现，在训练过程中固定解码器会导致更快的收敛。由于critic仅近似真实损失，因此其梯度是有偏的，这在实践中可以打破我们在训练期间保持的假设-潜在空间我们修复解码器，并保持KL-发散损失LKL，同时采样新的行动，从而鼓励探索的行动空间。在我们的消融研究中，我们验证了这种探索可以提高分割质量。请注意，我们没有预先定义的行动，但只保持高斯先验。为了进一步提高演员-评论家联合训练的稳定性，我们为评论家使用了一个热身阶段：情节执行和评论家的更新在多个时期内不更新演员的情况下发生。这给了批评者一个机会去适应演员当前的动作和状态空间。我们可以在实验中证实，预先训练解码器是至关重要的;省略这一步骤导致几乎为零的奖励，由此证明即使在热身阶段也难以训练批评者。终止。我们将隐藏状态h_t和它之前的最后一层（通过跳过连接）连接到单个单元，预测推理。我们循环运行演员网络，直到终止预测。为了获得掩模，我们丢弃偏差部分，仅取编码器预测的动作的平均分量我们在推理时不使用评论家网络。实作详细数据。2我们使用一个类似于[32]的简单架构，用于使用Adam [15]训练的评论家和演员网络，直到验证数据的训练损失没有改善（c.f.补充材料）。5.4. 讨论在行动者-批评者模型中，批评者扮演的角色是在给定状态st的情况下为状态si>t建模随后的奖励。因此，如果评论家w.r.t. 评论家已经预测的未来回报该属性的含义是，即使在长序列的情况下，也可以使用截断的BPTT和critic来有效地训练需要内存的网络，例如用于密集预测的网络此外，使用评论家专门为任务量身定制的连续函数。终端状态使用实例的地面实况数，我们用BCE的损失来2代码可在www.example.com上获得https://github.com/visinf/acis/。282426. 实验在我们的实验中，我们首先定量验证了模型中不同成分的重要性，并研究了演员-评论家在基线上的准确性优势的来源。然后，我们使用两个标准的自然图像数据集的实例分割的挑战性任务，并比较的最先进的。6.1. 消融研究我们设计了一组实验来研究模型SBD↑| ↓|↓BL80.01.08BL-截断79.41.32AC骰子80.50.88AC-Dice-NoKL75.41.36AC-Dice-NoSP61.31.52表1. CVPPP价值评估我们比较了我们的基线与完全展开（BL）和截断BPTT（BL-Trunc）与基于骰子的奖励，（AC-Dice）和没有（AC-Dice-NoKL）探索，以及没有状态金字塔（AC-Dice-NoSP）的演员-评论家。模型的各个方面使用的A1基准，植物表型分析中的计算机视觉问题（CVPPP）数据集[33]。它包括128幅图像，ModelLSTM + MaskMask onlyLSTM onlyDice |DIC |↓骰子↓↑ |DIC |↓骰子↓↑| DIC |↓224×224大小的三个作物用于训练。出于消融研究的目的，我们从CVPPP A1基准中随机选择103张图像进行训练，并将结果报告在剩下的25张图片为了计算我们的行动者-批评者模型的奖励（E q。4），我们使用计算为F（S，T）=2iSiTi用最大匹配和地面真值停止法的最小值表2.用Dice和计数绝对差度量重复状态对掩模质量的贡献|DIC|在CVPPP值上。ΣΣiSi+iTi . 潜在行动空间固定为16。在实验的第一部分中，我们研究了损失中的不同项如何影响分割质量，以对称最佳骰子（SBD）和计数中的绝对差异（|DIC|）.具体来说，我们训练了五个模型：BL是一个只训练参与者的循环模型，BPTT通过所有国家。我们使用BCE损失和基于Dice的最大匹配作为启发式方法，用于将基础事实分配给预测，类似于[31，32]。BL-Trunc类似于BL，但使用截断的一步BPTT进行训练。我们训练我们的演员-评论家模型AC-Dice，其中评论家的梯度 AC-Dice-NoKL与AC-Dice模型类似，即：演员是与评论家共同训练的，但我们从演员的损失中删除了鼓励探索的KL发散项。最后，我们验证了国家金字塔的好处，提供给解码器的多分辨率空间信息，通过比较没有它的基线（AC骰子NoSP）。表1中汇总的这些模型的并排比较显示，AC-骰子在骰子和计数方面都表现出在损失中使用KL-发散项改进了行动者，这表明了在一致行动空间中行动探索的价值。我们还观察到，训练AC-Dice-NoKL有时会出现分歧，需要重新启动临界预热。此外，状态金字塔有助于解码器，因为删除它会导致掩码质量显著下降。令人惊讶的是，BL-Trunc仅比BL略差，但到目前为止，图3. 我们的演员-评论家模型（AC-Dice）与我们的基线是CVPPP值上的截短BPTT（BL-Trunc），每个时间步平均。我们观察到我们的演员-评论家模型在稍后的时间步的优势，这是一个预期的好处，包括在早期时间步的损失的预期回报的估计。请注意，很少有图像包含20个实例，因此该时间步长的方差很大。内存需求高于AC-Dice和BL-Trunc在设置长序列和高分辨率。为了进一步研究演员-评论家模型的准确性增益，我们报告了平均Dice分数w.r.t.图中预测的相应时间步长。3.第三章。histogram证实了我们的直觉，即将未来的奖励纳入每个时间步的损失函数中，正如评论家所模拟的那样，应该可以提高预测后期的分割质量：演员的Dice得分从顶部视图拍摄的植物，叶子注释作为地面，BL78.61.0476.64.366.53.96真理的面具我们缩小了原来的128 im-BL-截断77.91.7277.56.246.04.8年龄在训练集的一个因素的两个，并使用了一个中心，AC骰子78.40.8878.51.925.84.368243模型MWCov↑MUCov↑平均FP↓平均FN↓[42]第四十二话70.952.20.5970.736DenseCRF [41]74.155.20.4170.833[35]第三十五话79.775.80.2010.159E2E [31]80.066.90.7640.201我们的（BL-Trunc）72.250.70.3930.432我们的（AC-IoU）75.657.30.3380.309表3.在CVPPP测试中，我们的演员-评论家模型的分割质量与基于骰子的奖励（AC-Dice）在对称最佳骰子（SBD）和计数绝对差（|DIC|）.评论家模型倾向于明显更高，特别是在后面的时间步。请注意，该益处对整个数据集的平均分数的贡献并不受数据集中具有许多实例的所有图像的影响。在实验的下一部分，我们感兴趣的是模型对递归状态的依赖。回想一下，我们的模型维护了积累先前预测的掩码以及隐藏的LSTM状态。我们通过在每个时间步提供零张量来交替地“阻止”任何一个状态。我们只考虑前n个预测来计算Dice得分，其中n是地面真实掩码的数量。如果在21个时间步之后没有预测到终止，则我们停止迭代，因为我们的验证集中的最大实例数表2中的结果表明，LSTM在计数（或终止预测）方面发挥着重要作用，而对掩码质量几乎没有影响。该网络已经学会了一种序列预测策略，只给出了错误预测像素的二进制掩码请注意，与基线模型相比，actor-critic训练减少了对LSTM状态计数（AC-Dice）的依赖，这表明actor更好地利用状态掩码进行下一次预测。6.2. 实例分割我们比较我们的方法与其他方法在两个标准的实例分割基准，每个包含- ING各种各样的小片段以及闭塞。CVPPP数据集。对于我们消融研究中使用的CVPPP数据集，这次我们对官方33张测试图像进行评估，并仅对训练集中的128张图像训练我们的演员-评论家模型（AC-Dice）。表3中的测试集的结果表明，我们的方法在计数方面与最先进的方法不相上下，同时保持有竞争力的分割精度。从定性分析，见图中的例子 4a，我们观察到预测的顺序遵循一致的、可解释的模式：首先分割大的叶子，而稍后分割小的和被遮挡的叶子。后发表以上内容(a) KITTI测试装置模型MWCov↑MUCov↑平均FP↓平均FN↓E2E（Iter-1）64.154.80.2000.375E2E（Iter-3）71.363.40.4170.308E2E（Iter-5）75.164.60.3750.283我们的（BL-Trunc）70.455.80.3130.339我们的（AC-IoU）71.959.50.2620.253(b) KITTI验证集表4.KITTI上的分割质量。我们使用截断BPTT（BL-Trunc）和基于IoU奖励（AC-IoU）的演员-评论家评估我们的基线，包括平均加权（MWCov）和未加权（MUWCov）覆盖率，平均假阳性（AvgFP）和假阴性（AvgFN）率。应该首先预测更显著的实例以减轻对“较难”实例的连续预测。然而，我们也注意到，遮罩会遗漏一些细节，例如叶子的茎，这限制了背景对被遮挡实例的好处。我们认为，这是因为批评者网络的能力有限，无法近似一个相当复杂的奖励函数。KITTI基准。我们使用KITTI数据集[10]中汽车的实例级注释来测试我们的方法对交通场景的可扩展性。我们使用了与以前的工作相同的数据分割[31，35]，提供了3712张图像用于训练，144张图像用于验证，120张图像用于测试。虽然验证集和测试集具有高质量的注释[6，41]，但训练集中的地面真实掩码在很大程度上（>95%）粗糙或不完整[6]。因此，从训练数据的良好概括将指示该算法可以很好地应对不准确的地面实况注释。该数据集的评价标准为：平均加权覆盖损失（MWCov）、平均未加权覆盖损失（MUCov）、平均假阳性率（AvgFP）和平均假阴性率（AvgFN）。MUCov是具有预测掩模的地面实况的最大IoU，在图像中的所有地面实况片段上平均MWCov还通过地面实况掩码的面积对IoU进行加权AvgFP是不与地面实况片段重叠相反，AvgFN测量不与预测重叠的地面实况片段的分数。我们使用一个基于IoU的评分函数来计算重新排序，我们对最佳处理顺序的直觉病房，即F（S，T）=ΣiSiTiΣ. 以显示iSi+iTi−iSiTi模型SBD↑| ↓|↓[32]第三十二话66.61.1密歇根州立大学[33]66.72.3诺丁汉[33]68.33.8IPK [29]74.42.6Dloss [9]84.21.0E2E [31]84.90.8我们的（AC骰子）79.11.128244输入地面实况我们的最后(a) CVPPP验证集第一(b) 我们的模型在KITTI验证集图4. 我们的AC模型对CVPPP（a）和KITTI数据集（b）的预测。颜色映射（中间）编码预测顺序，范围从蓝色（第一个预测）到红色（最后一个预测）。注意预测顺序如何遵循一致的模式：大的未被遮挡的片段往往首先被分割，而小的和被遮挡的片段通常最后被预测。除了我们的Actor-Critic模型（AC-IoU）在更高分辨率下进行结构化预测的好处之外，我们还训练并报告了基线的结果，即使用一步BPTT（BL-Trunc）训练的仅演员模型。考虑到与CVPPP相比数据集的可变性增加，我们为动作空间使用了64个潜在维度。试验结果见表4a。鉴于测试集的规模相对较小，我们还在表4b中报告了验证集的结果，并使用最先进方法[31]等效评价的可用结果作为参考。结果表明，我们的方法可以很好地扩展到更大的分辨率和动作空间，并显示出竞争力的准确性，尽管没有使用边界框表示。与我们在CVPPP上的结果类似，我们的模型没有完全达到使用边界框[31]和非循环管道的循环模型的准确性。我们认为，分割准确性目前受到评论家的奖励近似程度和演员模型所使用的网络架构的代表性能力的限制在图1B中的一些示例中可以看出，如图4b所示，在没有后处理的情况下，掩模并不总是与对象和遮挡边界很好地对准。然而，我们注意到预测顺序也遵循一致的、可解释的模式：首先分割附近的实例，而最后分割远处的实例。在没有对这些约束进行硬编码的情况下，网络似乎已经学会了一种与人类直觉一致的策略，即首先分割较大的、靠近的对象，并利用由此产生的上下文以增加难度的顺序进行预测。7. 结论在当前的研究中，我们在强化学习的框架中正式定义了实例分割的任务。我们提出的演员-评论家模型利用探索噪声来减轻预测排序的初始化偏差考虑到像素级动作的高维性，我们通过条件变分自动编码器学习低维表示来实现动作空间中的探索。此外，评论家近似一个奖励信号，该信号也解释了在任何给定时间步的未来预测。在我们的实验中，它在已建立的实例分割基准上获得了有竞争力的结果我们的模型以输入图像的全分辨率直接预测实例掩码，并且不需要中间边界框预测，这与基于提议的架构[13]或仅提供用于进一步后处理的初步表示的模型形成对比，例如。[9，35]。这些令人鼓舞的结果表明，actor-critic模型有可能具有更广泛的应用范围，因为critic网络能够学习相当复杂的损失函数，达到相当程度的近似。在未来的工作中，我们的目标是改进我们的演员网络的基线模型，目前限制了可达到的准确性。鸣谢。作者感谢StephanR. Richter进行了有益的讨论。预测顺序8245引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在ICML，第214-223页2[2] Anurag Arnab和Philip H.S. 乇使用深度高阶CRF的自底向上实例在BMVC，2016年。2[3] Dzmitry Bahdanau ， Philemon Brakel ， Kelvin Xu ，Anirudh Goyal ，Ryan Lowe，Joelle Pineau，Aaron C.Courville和Yoshua Bengio。一种用于序列预测的演员-评论家算法。在ICLR，2017。2[4] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR中，第2858-2866页，2017年。2[5] Andrew G.作者：Richard S.Sutton和Charles W.安德-儿子。类神经元自适应元件，可以解决困难的学习控制问题。 IEEE Trans. Systems ， Man ， and Cybernetics ，SMC-13（5）：834-846，1983. 一、二[6] 放大图片作者：Chen Liang-chieh，Sanja Fidler，Alan L.Yuille和Raquel Urtasun击败MTurkers：从弱3D监督自动图像标记在CVPR，第3198-3205页，2014年。7[7] 陈新蕾和Abhinav Gupta。用于对象检测中上下文推理的空间记忆在ICCV，第4106-4116页，2017年。2[8] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，第3150-3158页，2016年。2[9] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。CVPR机器人视觉深度学习研讨会，2017年。二七八[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？ KITTI 视觉基准套件。在CVPR，第3354-3361页，2012中。7[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。参见NIPS*2014，第2672-2680页。2[12] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。DRAW：用于图像生成的递归神经网络。在ICML，第1462-1471页，2015中。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在ICCV，第2980-2988页，2017年。一、二、八[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。4[15] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[16] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。一、二、三、四[17] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.InstanceCut：使用MultiCut从边到实例。在CVPR中，第7322- 7331页，2017年。2[18] 哈罗德·W库恩分配问题的匈牙利方法Naval ResearchLogistics，2（1）：83-98，1955. 一、二[19] Hugo Larochelle和Geoffrey E.辛顿学习结合中央凹的一瞥与三阶玻尔兹曼机。NIPS*2010，第1243-1251页。2[20] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的难度感知语义分割。在CVPR中，第6459-6468页第1、3条[21] 李耀，林国胜，庄博涵，刘灵桥，沈春华，安东·范登亨格尔.基于递归网络的相册中的顺序人物识别。在CVPR中，第5660-5668页，2017年。2[22] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR中，第4438-4446页，2017年。2[23] 放大图片作者：Timothy P. Hunt，Alexander Pritzel，Nicolas Heess，Tom Erez，Yuval Tassa，David Silver，and Daan Wierstra.通过深度强化学习实现持续控制。ICLR，2016年。1[24] Shu Liu，Jiaya Jia，Sanja Fidler，and Raquel Urtasun.SGN：用于实例分段的顺序分组网络。在ICCV，第3516-3524页，2017年。2[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页，2015年。4[26] Volodymyr Mnih，Koray Kavukcuoglu，David Silver，Alex Graves，Ioannis Antonoglou，Daan Wierstra，andMartin Riedmiller.用深度强化学习在NIPS深度学习研讨会，2013年。1[27] VolodymyrMnih，Adria `Puigdomene`chBadia，MehdiMirza ， Alex Graves ， Timothy Lillicrap ， TimHarley，David Silver和Koray Kavukcuoglu。深度强化学习的异步方法。在ICML，第1928-1937页1[28] 安德鲁·Y Ng，Daishi Harada，and Stuart Russell.奖励变换下的策略不变性：奖励形成理论与应用。ICML，第278-287页，1999年。3[29] Jean-Michel Pape和Christian Klukas。基于三维直方图的莲座状植物叶片分割与检测。在ECCV研讨会上，第61-74页，2014年。7[30] Marc'Aurelio Ranzato ， Sumit Chopra ， Michael Auli，and Wojciech Zaremba. 递归神经网络序列级训练。ICLR，2016年。2[31] 任梦叶和Richa

下载后可阅读完整内容，剩余1页未读，立即下载