弱监督概率一致性的弱监督语义对应方法

179 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8708→→→弱监督语义对应的概率Warp一致性Prune Truong Martin Danelljan Fisher Yu Luc Van Gool计算机视觉实验室，瑞士{prune.truong，martin.danelljan，vangoolvision.ee.ethz.chi@yf.io摘要我们提出了一个弱监督的语义匹配学习目标--概率偏差一致性.我们的方法直接监督网络预测的密集匹配分数，编码为条件概率分布。我们首先构建一个图像三元组，通过应用一个已知的扭曲到一对描绘相同对象类的不同实例的图像之一。我们的概率学习目标，然后使用产生的图像三元组产生的我们进一步考虑到遮挡和背景杂波存在于真实图像对通过扩展我们的概率输出空间与可学习的不匹配状态。为了监督它，我们设计了一个目标之间的图像对描绘不同的对象类。我们验证我们的方法，通过应用，ING四个最近的语义匹配架构。我们的弱监督方法在四个具有挑战性的语义匹配基准上设置了一个新的最先进的状态。最后，我们证明了我们的目标也带来了实质性的改进，在强监督制度，当结合关键点注释。1. 介绍语义匹配问题需要找到描绘对象或场景的相同语义类别的实例（诸如“猫”或“鸟”）的图像之间的逐像素对应。由于其在例如，语义分割[35，38]和图像编辑[1，6，9，22]。然而，由于大的类内外观和形状变化、视点变化和背景杂波，该任务仍然非常具有挑战性。这些问题由于获得地面实况注释的固有困难而进一步复杂化虽然一些当前的数据集[10，11，30]提供了人工注释的关键点匹配，但这些关键点通常定义不清，模糊不清且稀缺。因此，依赖于这种注释的强监督方法匹配图像（同一对象类）不匹配图像（不同对象类）图1.从表示相同对象类的真实图像对（I，J），我们通过根据随机采样变换扭曲I来生成新图像I ′。我们进一步扩展图像三元组与一个额外的图像A，它描绘了一个不同的对象类。对于I ′中的每个像素，我们通过强制从合成I′J I或直接通过I′I获得的条件概率分布等于已知的翘曲分布来引入两个一致性目标。我们通过引入一个可学习的不匹配状态来进一步对遮挡和不匹配区域进行它是通过将非匹配图像（I′，A）之间的预测分布映射到所有像素的不匹配状态来训练的在数据集之间进行泛化，正如最近的作品[4，31]所证明的那样。作为一个突出的替代方案，无监督方法[27，31-虽然受益于直接监督，但缺乏真实图像对往往导致对真实数据的泛化能力差。因此，弱监督方法[13，16，31，33，34]作为一种有吸引力的范例出现，通过仅利用图像级类别标签来利用来自真实图像对的监督，与关键点注释相比，这是廉价的。先前的弱监督替代方案在预测的密集对应体积上引入对象，其封装图像对之间的所有成对匹配的匹配置信度。最常见的策略是最大化同类图像之间计算的对应体积的最大得分[13，34]或负熵[31]，同时最小化组成w. 边缘化估计概率映射已知概率映射直接非匹配状态预测已知翘曲分布已知非匹配分布8709不同类别的图像的数量相同。然而，这些策略由于其微弱的间接学习信号，只能提供非常有限的监督.虽然这些方法直接作用于预测的密集对应体积，但Truonget al. [42]最近引入了Warp Consistency，这是一种用于稠密流回归的弱监督学习目标。该目标是来自流量限制时，引入第三个图像，通过随机扭曲的原始对中的图像之一。虽然它取得了令人印象深刻的结果，翘曲一致性目标是有限的学习流回归。由于这种方法在没有任何置信度测量的情况下预测每个像素的单个匹配，因此它难以处理遮挡和背景杂波，这在语义匹配任务中是我们提出了一个弱监督的语义匹配学习目标--概率偏差一致性.在[4，13，34]之后，与[42]不同的是，我们采用预测密集对应的概率映射表示，对从一个图像中的每个像素到另一个图像中的每个像素从一个真实的图像对（I，J）开始，我们考虑在[ 42 ]中引入的图像三元组，其中合成图像I'通过随机采样的扭曲与I相关（图1）。1）。我们推导出我们的概率一致性目标的基础上预测已知的概率映射，通过图像J的组成与I'到I。该合成是通过对将图像I′中的像素连接到I中的像素直到图像J的所有中间路径进行边缘化来获得的。由于用于导出我们的目标的约束仅在相互可见的对象区域中有效，因此我们进一步解决了识别可以匹配的像素的问题。这在存在背景混乱和遮挡的情况下尤其具有挑战性，这在语义匹配中很常见。我们明确的模型遮挡和不匹配的区域，通过引入一个可学习的不匹配的状态到我们的概率映射公式。为了训练模型来检测不匹配的区域，我们设计了一个额外的概率损失，应用于描绘不同对象类的图像对，如图所示1.一、此外，我们还采用了可见性掩模，这将我们引入的一致性损失限制在可见对象区域。我们广泛地评估和分析我们的方法，将其应用到四个最近的语义匹配架构，在四个基准数据集。特别是，我们用我们的弱监督Probably Warp Consistency目标训练SF-Net [21]和NC-Net [34]。我们的方法带来的相对收益为4. 3%和5。对于SF-Net，PF-Pascal [11]和PF-Willow [10]分别为8%和+22。6%和+14。SPair-71 K[30]和TSS [38]上的NC-Net分别为8%。这导致了所有四个数据集上的新的最先进技术。最后，我们将我们的方法扩展到强监督制度，通过结合我们的概率对象，具有关键点监督的活动当集成到SF-Net，NC-Net，DHPF [31]和CAT [4]中时，它会在数据集之间产生更好的泛化特性，在三个基准上设置新的最先进水平代码可在github.com/PruneTruong/DenseMatching2. 相关工作语义匹配架构：大多数语义匹配流程包括3个主要步骤，即特征提取、代价体构造和位移估计。多项工作关注后者，通过预测全局几何变换参数[2，16，18，32，33，37]或直接回归与图像对相关的流场[19，39然而，大多数方法都将成本量预测为最终的网络输出，并通过argmax或soft-argmax [21]操作进一步转换为点对点对应。因此，最近的方法专注于改进成本量聚合阶段，通过将语义匹配任务制定为最优运输问题[26]或利用多分辨率特征和成本量[4，21，29，31，45]。另一个工作线涉及细化成本量，使用4D [13，23，24，34]或6D [28]卷积，基于在线优化的模块[39]，编码器-解码器风格架构[17]或Transformer模块[4]。无监督和弱监督语义匹配：用于语义对应的无监督学习的常见技术是依赖于图像的合成扭曲版本[2，17，32，37，41]。然而，它的代价是对真实数据的泛化能力较差。一些方法使用真实图像对，通过以3D CAD模型[44，46]，分割掩码[3，21]的形式标记附加注释，或通过联合学习语义匹配与属性转移[19]。与我们的工作最相关的是在真实图像对之间构建的成本体积上使用代理损失的方法，其中图像标签作为唯一的监督[13，16，18，33，34]。Jeon等人[16]从前后一致性中识别正确的匹配。NC-Net [34]和DCC-Net [13]通过最大化来自成本量的所有硬签名匹配的平均匹配得分来训练。Min等人[31]而是分别鼓励描绘相同或不同类别的图像对的低相关熵和高相关在这项工作中，我们通过用已知的扭曲来扭曲其中一个原始图像来构建图像三元组，从中我们得出我们的概率损失。从视频中进行无监督学习我们的方法也与[14]有关，[14 ]提出了一种用于学习特征的自监督方法，通过将匹配投射为从视频构建的时空图中最近的作品[8，15，43]进一步利用视频中的时间一致性来学习特征匹配的表示。8710^×|联系我们·|∈∈∈∈∈◦◦3. 背景：翘曲一致性我们基于[42]引入的翘曲一致性约束推导出我们的方法。他们提出了一种弱监督损失，称为翘曲一致性，用于学习对应回归网络.因此，我们首先回顾相关背景并介绍我们使用的符号我们定义了映射M：R2→R2，为概率映射设计一个弱监督学习目标，应用于语义匹配任务。4.1. 概率公式在本节中，我们首先介绍我们的概率表示，并定义一个典型的基础预测架构。我们让j∈R2表示网格中的2D像素位置，编码绝对位置I←JMI←J（j）∈R2在I 对应-尺寸hJ到×wJ ，对应于图像J。我们指在图像J中的像素位置j∈R2。我们一直使用帽子·来表示估计或预测的数量。WarpConsistency graph ：Truong et al. [42]首先构建图像三元组，其用于导出约束。从一个实图像对（I，J）出发，通过用一个随机采样映射M W对I进行扭曲来产生 I ′ ，从而构造一个图像三元组（I，I′，J），即I′=IM W.在这里，去注释函数组合.由此产生的三元组（I，I′，J）产生了一个经线一致性图（图11）。2a），从其中导出映射一致性约束族映射一致性约束：Truonget al.[42]分析由三元组产生的可能的映射一致性约束，并在为密集对应回归设计弱监督学习特别地，所提出的目标是基于W-双径约束，其中映射MW是通过合成I′→J→I通过图像J，公式化为，jR作为索引j=1，...，当空间维度h Jw J被向量化为一维h J w J时，对应于j的h J w J。在[4，31，34]之后，我们的目标是预测 J 到 I 的概率映射PI<$J∈RhIwI×hJwJ。给定坐标系J中的位置j，P I← J（i j）给出了j被映射到Im中的位置i的概率。阿格岛PI←J（j）因此，RhIwI编码其中j被映射在图像I中的enti re离散条件概率分布。我们可以将PI<$J看作一个矩阵，其中indexj处的每一列都封装了分布PI<$J（·|j）。还要注意，概率映射P I← J是不对称的。概率映射预测：我们在此描述了预测与图像配对相关的概率映射P的标准架构。我们让DIRhIwI×d和DJRhJwJ× d分别表示从图像I和J中获得的d通道特征图。AcostvoliviaCI←JRhIwI×hJwJ其编码两个特征图中所有位置之间的成对深度特征相似性，如，MW=MI<$J<$MJ<$I′。（一）它进一步与翘曲监督约束相结合CI←J（i，j）= D I（i）TD J（j）。（三）MW=MI←I′，（2）从图中通过直接路径I′→ I导出。成本量最终转换为概率映射PI←JRhIwI×hJwJ通过简单地在第一维上应用SoftMax操作，在[42]中，这些约束被用来导出弱-exp（CI←J（i，j））（四）对应回归的监督目标。怎么-曾经，回归映射向量M（j）就每项职位而言─P I← J（i|j）=exp（C（k，j））tionI←Jj只检索匹配的位置，没有任何请注意，这种基本方法的扩展也可以是con.关于其不确定性或多重假设的信息。相反，我们的目标是预测每个位置j的匹配条件概率分布。该分布表示关于该位置j的匹配能力的更丰富的信息，诸如置信度、唯一性和对应性的存在。在这项工作中，我们因此推广映射约束（1）-（2）提取的翘曲consideration图的条件概率分布。4. 方法我们解决的问题，估计有关的图像对（J，I），描绘se-mantically相似的对象的像素对应。密集匹配以条件概率矩阵的形式封装，称为概率映射。这项工作的目标是KI←J8711^例如，添加后处理卷积层[13，34]或Transformer模块[4]。这项工作的目标是设计一个弱监督学习目标来训练一个神经网络f θ，参数θ，预测J到I的概率映射P I<$J= f θ（J，I）。4.2. 概率扭曲一致性约束我们开始设计一个弱监督损失的概率映射。为此，我们考虑了[42]中引入的一致性图，并将映射约束（1）-（2）推广到它们相应的概率形式。概率W-双径约束：我们从从Warp一致性图Fig.中提取的W-双路径约束（1）开始。2a的概率矩阵，并将其推广到概率矩阵的对偶部分，记为PW-双路。它指出，我们8712联系我们我→Σ⊗∈·|^ ^您的位置：联系我们^^^HH PI←I′（·|i），PW（·|（一）i′(a) Warp一致性图[42]（b）我们的概率PW-双路径（6）和PWarp-监督约束，以及相应的损失（7）-（8）图2.从图像（I，I′，J）之间的经向一致性图导出映射和概率映射约束。 I′是通过根据随机采样映射MW（黑色箭头）扭曲I而生成的。（a）W-bipath（1）和Warp-supervision（2）映射约束[42]分别通过合成I′→ J → I和直接通过I′→ I预测MW。（b）我们的概率PW-双路径和PWarp-监督约束是通过强制预测分布的合成P IJI′和直接预测P^I<$I ′等于已知的Warping分布PW而导出的。通过路径I′的前进获得相同的条件概率分布I，其由随机采样的翘曲MW确定，或者通过绕过图像J来确定。在后一种情况下，结果概率通过在将I′中的像素链接到I中的像素到J中的像素的中间路径上边缘化来导出分布概率矩阵形式为PW=PI<$I′。在此基础上，利用PW已知的事实，导出了相应的训练目标，Σ。 ^“”PW（i|i′）=PI←J（i|j）·PJ←I′（j|i′）。（五）J上述等式以矩阵形式表示为，PW=PI<$J<$PJ<$I′。（六）哪里表示矩阵乘法。这一约束在图中示意性地表示。2b.PW-双路径训练目标：我们的目标是基于PW-双路径约束（6）制定目标。至关重要的是，在我们的设置中，映射MI←I′ =MW是已知的构造，从中我们可以导出地面真实概率映射 PI←I′=PWRhIwI×hI′wI′。为了测量（6）的右侧和左侧之间的距离，KL散度似乎是一个自然的选择。由于PW是一个常数，它简化为熟悉的交叉熵，PW-双径约束（6）及其损失（7）假设图像I′的所有像素在I和J中都匹配。然而，由于在语义匹配任务中由三元组创建和图像的非匹配背景引入的遮挡，该假设部分地失效。4.3. 不匹配区域语义匹配任务旨在估计同一对象类的不同图像实例之间的对应性。然而，即使在这种情况下，每个图像的背景也不匹配。因此，常见的可见区域仅代表图像的一小部分（见图1中的鸟类）。2）。然而，分布Pl←J（j）不能对像素j的无匹配情况进行建模。此外，我们的图像三元组（I，I′，J）的构造引入了遮挡区域，对于该遮挡区域，约束（6）未定义。事实上，它只在非遮挡对象区域有效。然而，在我们的设置中，OB的位置LP W-bi=ΔH。[P^I←J伊^J←I’]（·|i′），PW（·|（7）真实图像对（I，J）中的像素是未知的。在本节中，我们推导出我们的能力感知学习目标。我们还介绍了明确的建模闭塞这是交叉熵损失。为了简化符号，我们有时将边缘化称为P IJI′=PI←JPJ←I′. 监督带有标记PW的PI<$J<$I′为预测的中间分布PI <$J<$I′和PI<$J提供了内隐学习信号。PWarp-监督约束和目标：类似地，我们将翘曲监督约束（2）推广到其和无法匹配的区域纳入我们的概率公式。可视性感知培训目标：通常，PW-双径约束（6）仅在I′的在图像J和I两者中可见的区域中有效。也就是说，仅在未被遮挡的对象区域中，如图1B所示。3.第三章。将损失（7）应用于非匹配区域，例如背景区域或被遮挡对象区域（LP-warp-sup=（八）871310,80,60,40,20^^∈^^|^^^^|^|∈^^|∈|V㈠HPI<$J<$I′（·|i），PW（·|（一）避免了在训练过程中对β参数进行繁琐的连续调整，这是跟踪概率演变所必需的。LPNeg=B（P A← I（P|（i），p阴性）（10）1图3.用于训练的三组图像，以及可见性掩模V（黄色为V=1）。I′上的蓝色阴影区域表示在I′和I中可见的对象像素，但在J中被遮挡，因此我们的PW双径损耗（7）无效。它只在所有三幅图像中可见的对象区域有效，即。橙色阴影区域。解释性建模遮挡进一步有助于识别它们。图3），通过在非匹配区域中强制匹配来承担混淆网络的风险因此，我们通过进一步积分可见性掩模V来扩展引入的损失（7[0，1]wI′hI′. 对于属于未被遮挡的公共对象的任何像素i′，掩模V设定值V（i′）=1（大致为图1中的橙色区域）。 3）和V（i′）= 0。（7）损失，Lvis-PW-bi=（九）0,80,60,40,20图4.非匹配图像上的学习目标（I，A）。匹配或闭塞状态，即，在图像I中没有匹配。我们进一步指定了匹配分布在给定的非匹配状态下，总是被映射到非匹配状态。具体地说，我们用一个固定的列来增加P，强制给定一个不匹配状态的分布为P（n|1）=1.阻塞感知PW双路：我们对给定不匹配状态的不匹配状态的建模，因为P I← J（π）= 1，自然确保遵守以下方案。如果图像I ′中的像素i′在图像J中被预测为不匹配，例如PJ←I′（P|i′）=1，也将被预测为非-在图像I中匹配，即， P^I<$J<$I′（P^I<$J<$I′）|i′）=1. 这是因为“不”。 ^“”对图像I′的像素P^I<$J<$I′执行由于我们不知道真实的V，我们的目标是找到一个估计V，也在图中可视化。3.第三章。我们考虑预测概率值PI<$J<$I′（MW（i′）i′）[0，1]的像素i ′的像素i′被映射到I中的位置MW（i′）。我们假设这个值在匹配区域中应该更高，即。对象比在非匹配区域中，即，背景，约束（6）不成立的地方。因此，我们通过在I′的所有i′上取PI<$J<$I′（MW（i′）i′）的最高γ百分比来计算可见性掩模。标量γ是控制掩模估计的灵敏度的超参数。虽然我们不知道图像中对象的实际覆盖率，这可能在训练图像中有所不同，但我们发现，在实践中对γ进行高估计是足够的，因为它简单地去除了明显的不匹配区域。此外，虽然我们可以相反，通过对概率进行阈值化来计算状态PI<$J<$I′（Pi′）都用于识别I ′中的遮挡和非匹配区域i′。它进一步确保这些区域不在V中选择，因此不受（9）的监督。不匹配状态的监督：我们引入的目标（8）-（9）不影响不匹配状态的监督。因此，我们建议增加一项监督损失。特别地，我们旨在鼓励描绘相同对象类的图像（I，I′，J）中的背景和被遮挡对象区域被预测为不可匹配的。然而，由于对象在（I，J）中的位置在训练过程中是未知的，我们不能得到直接的监督。为了克服这一点，我们引入了一个图像A，描绘了一个不同的语义内容比三元组。然后，我们通过引导A和I之间的分布模式对于图像的所有像素处于不匹配状态来监督不匹配状态关于非匹配图像对（I，A）的相应学习目标定义如下，并在图1中示出4、当V^（i′）=1时P^I<$J<$I′（MW（i′）|i′）>β，我们的方法^关系的虽然它是有效的，但估计的准确性可以B表示二进制交叉熵，我们设置pneg =0。9 .第九条。通过显式遮挡建模进一步改进。闭塞建模：为了明确建模occlu-将像素和非匹配区域映射到我们的概率映射P I<$J中，我们预测一个像素在一个图像中被包含或不匹配的概率，假设它在另一个图像中可见。例如，这可以通过用不匹配的bin [7，36]k来增加（3）中的成本量C来实现，例如C（k，j）=zR，其中z是单个可学习参数。在通过（4）将成本量C转换为概率映射P之后，PI ← J（j）编码图像J的像素j的概率以映射到非概率映射。4.4. 最终培训目标最后，我们介绍了我们最终的弱监督目标，概率扭曲一致性，作为我们之前介绍的PW-双路径（9），PWarp-监督（8）和PNeg（10）目标的组合。我们还提出了一种强监督的方法，从我们的损失中受益，同时也利用了关键点注释。监管不力：在这个设置中，我们假设只给出图像级别的类标签，这样每个图像对要么是正的，即，描绘相同的对象类，或不发生建模i？i′在I中可见，但在图像J中被遮挡（图中的蓝色区域）。（3）第三章。此外，预测闭塞的高概率我Σ8714××·SS负的，即，代表不同的类，以下[13，31，34]。我们通过将应用于正图像对的PW-双路径（9）和PWarp-监督（8）损失与负图像对的负概率目标（10L weak = L vis-PW-bi +λ P-warp-sup L P-warp-sup +λ PNeg LPNeg（11）这里，λP-warp-sup和λPNeg是加权因子。强监管：我们将我们的方法扩展到强监督机制，其中为每个训练图像对给出关键点匹配注释。先前的方法[4，24，28]通过用关键点目标Lkp训练语义网络来利用这些注释。我们的最终强监督目标被定义为关键点丢失与我们的PW-双路径（9）和PWarp-监督（8）目标的请注意，我们不包括我们明确的遮挡建模，即。负像对上的不匹配状态及其相应的损失（10）。这是为了确保与以前的强监督方法进行公平比较，这些方法仅依赖于关键点注释，而不是图像级标签，这是我们损失所需的（10）。L strong = L vis-PW-bi + λ P-warp-sup L P-warp-sup + λ kp L kp（12）这里，λvis-PW-bi和λkp也是加权因子。5. 实验结果我们评估了两个语义网络的弱监督学习方法。我们的概率损失与关键点的符号相结合所带来的好处也证明了最近的网络。我们广泛地分析了我们的方法，并将其与以前的方法进行了比较，在多个具有挑战性的数据集上建立了一个新的最先进的方法。5.1. 网络和实施细节对于弱监管，我们将我们的方法（11）整合到基线SF-Net [21]和NC-Net [34]中。它分别导致了我们的弱监督PWarpC-SF-Net和PWarpC-NC- Net。我们还将强监督损失（12）应用于基线SF-Net，NC-Net，DHPF[31] 和 CAT [4] ，分别产生 PWarpC-SF-Net* ，PWarpC-NC-Net* ， PWarpC-DHPF 和 PWarpC-CAT 。为了公平比较，我们还为SF-Net和NC-Net训练了一个强监督的基线，称为SF-Net* 和NC-Net*。请注意，对于所有方法，强监督基线仅使用Lkp进行训练，L kp定义为SF-Net*，NC-Net* 和DHPF的交叉熵损失，以及对CAT应用soft-argmax [21]后的终点误差目标。为了将预测的概率映射转换为点对点匹配以进行评估，所有使用我们的PWarpC目标训练的网络都采用argmax操作，除了PWarpC-CAT，其中(a) [34]第三十四话（下）(c)[21]第21话（一）图5.基线NC-Net [34]和SF- Net [21]的示例预测，与我们的弱监督PWarpC-NC-Net和PWarpC-SF-Net相比。绿线和红线分别表示相对于地面实况的正确和错误预测我们采用与基线CAT中相同的soft-argmax [4]。附录第二节中提供了关于每个体系结构的目标集成的更多细节。A-F我们在PF-Pascal [11]上训练所有网络，使用[12]的分裂。在SPair-71 K上进行训练的结果进一步在附录第11节中列出。G.1.5.2. 实验设置我们在四个标准的基准数据集上评估我们的网络进行语义匹配，即 PF-Pascal [11] ， PF- Willow [10] ，SPair-71 K [30]和TSS [38]。Caltech-101的结果[20]进一步显示在附录H.6中。数据集：PF-Pascal，PF-Willow和SPair-71 K是关键点数据集，分别包含来自20，4和18个类别的1341，900和70958个图像对图像尺寸从102300至500五百块TSS是唯一的数据集提供密集的流场注释的前景对象在每对。它包含400个图像对，分为三组：FG3DCAR，JODS和PASCAL，根据图像的来源。我们采用标准度量，正确关键点百分比（PCK），像素阈值为ατmax（hτ，wτ）。这里，hs和ws是源图像的维度或源图像中的对象边界框的维度，诸如τ∈{img， bbox}。5.3. 结果我们目前的结果PF-Pascal，PF-Willow，SPair-71 K和TSS表。1.一、以前的一些方法在将注释转换为与原始分辨率不同的分辨率后计算PCK度量然而，我们发现，在实践中，注释分辨率可能导致结果的显著变化，如表1中的DHPF或CAT所示1.一、为了公平比较，我们因此计算标准设置上的度量，即。原始图像大小，并在此设置中重新计算基线工程的PCK（如有必要）。我们还指出了所使用的注释大小，无论是作者报告的还是在其公共实现中提供的。8715方法ResoPF-Pascal PF-Willow Spair-71K TSSPCK@ α imgPCK @ α bbox PCK @ α bboxPCK@ α img，α=0。050的情况。050的情况。100的情况。150的情况。050的情况。100的情况。150的情况。050的情况。10FG3D汽车JODS Pascal Avg.SUCNres101 [5]--75.1-----17.7----SCNetVGG 16 [12]-36.272.282.0---------[29]第二十九话最大30060.184.892.745.974.485.6--93.679.757.376.9[26]第二十六话最大30063.185.492.747.876.087.1--95.381.357.778.1[24]第二十四话--86.1-----28.7----[28]第二十八话24080.191.6----------[25]第二十五话--90.7--75.6-------PMNCres101 [23]-82.490.6-----28.8----[45]第四十五话[31]第三十一话224 ×32024077.775.789.190.794.395.0-41.4†-67.4†-81.8†-15.4†-27.4--------CATsres101 [4]25667.589.194.937.4†65.8†79.7†10.9†22.4†----CATs-ft-featuresres101 [4]25675.492.696.440.9†69.5†83.2†13.6†27.0†----CATsres101 [4]奥里67.388.694.641.668.981.910.822.189.576.058.874.8PWarpC-CATsres101ori67.188.593.844.271.283.512.223.393.283.470.782.4CATs-ft-featuresres101 [4]奥里76.892.796.545.273.285.213.726.892.178.964.278.4PWarpC-CATs-ft-featuresres101ori79.892.696.448.175.186.615.427.995.585.085.588.7[31]第三十一话ori77.391.795.544.870.683.215.327.588.271.956.672.2PWarpC-DHPFres101ori79.191.396.148.574.485.416.428.689.174.159.774.3NC-Net*res101ori78.691.795.343.070.983.917.332.492.376.957.175.3PWarpC-NC-Net*res101ori79.292.195.648.076.286.821.537.197.587.888.491.2SF-Net*res101ori78.792.996.043.272.585.913.327.988.075.158.473.8PWarpC-SF-Net*res101ori78.392.296.247.577.788.817.332.594.983.474.384.2U [32]第三十二话ori41.069.580.436.969.277.8-18.190.176.456.374.4PARNres101 [16]ori--------89.575.971.278.8[41]第四十一话ori42.269.183.130.457.772.9--93.273.371.179.2Semantic-GLU-Netvgg16 [41，42] ori48.372.585.139.767.582.17.616.595.382.278.285.2A2Netres101 [37]-42.870.883.336.368.884.4-20.1----[25]第二十五话--80.5--73.4-------M [21]第二十一话小行星288/ori53.681.990.646.374.084.2------[21]第二十一话奥里59.084.092.046.374.084.211.224.090.878.658.075.8WPWarpC-SF-Netres101ori65.787.693.147.578.389.017.633.595.184.776.885.5WarpC-SF-Netres101 [21，42][33]第三十三话RTNsres101 [18][13]第十三话[19]第十九话[31]第三十一话[31]第三十一话GSFres101 [17][25]第二十五话[42]第四十二话NC-Netres101 [34]WarpC-NC-Netres101 [34，42]NC-Netres101 [34]PWarpC-NC-Netres101oriori/ ori /--240/ ori /--240奥里--ori240/ ori / -ori奥里ori64.986.192.246.976.687.913.126.695.782.368.882.249.075.884.038.271.285.8-21.190.376.456.574.455.275.985.241.371.986.2--90.178.263.377.255.682.390.543.673.886.5-26.793.582.657.677.960.180.286.9-----96.182.267.281.856.182.191.140.5†70.6†83.8†14.7†28.5----61.284.192.445.173.685.014.727.8----62.884.593.747.075.888.9-33.5-----81.2--74.7--26.5----62.181.789.749.075.186.913.4†23.8†97.184.779.787.254.378.986.044.072.785.4-26.4----59.175.081.244.670.181.318.035.095.887.579.387.060.582.387.944.072.785.413.928.894.581.457.177.764.284.490.545.075.987.918.235.395.988.882.989.2表1.在PF-Pascal [11]、PF-Willow [10]、SPair-71 K [30]和TSS [38]数据集上通过不同的最新方法获得的PCK [%]。所有方法都是在PF Pascal的训练集上训练的，除了[41]。S表示使用关键点匹配注释的强监督，M表示使用地面实况对象分割掩码，U表示仅需要单个图像的完全无监督，W表示具有图像级类别标签的弱监督。每种方法都使用调整为特定分辨率的地面实况注释进行评估。然而，使用不同的地面实况分辨率会导致略有不同的结果。因此，我们使用原始分辨率（ori）的标准设置进行评估，并对使用不同大小的地面实况注释计算的结果进行灰色处理。当需要时，我们使用提供的预先训练的权重重新计算基线的度量，由†表示。对于我们的每个PWarpC网络，我们将其与虚线内的相应基线进行比较。为了完整性，我们还使用弱监督基于映射的变形一致性目标[42]，用表示。最好的和第二好的结果分别用红色和蓝色表示监督不力（W）：在选项卡中。1、下半部分，我们以图像标签的形式来比较弱监督训练的方法。在这种情况下，我们的PWarpC网络在（11）中使用Lweak进行在对PF-Pascal数据集本身进行改进的同时，我们的方法PWarpC-NC-Net最显着地实现了更好的泛化性能。令人印象深刻的4。百分之四（上升3. （2）、22. 百分之六（上升6. 5）和14。百分之八（上升11. 5）与PF-Willow上的基线NC-Net相比的相对（和绝对）增益（α=0. 1），SPair-71K（α=0. 1）和TSS（α=0. 05）分别。因此，我们的PWarpC-NC- Net在PF Pascal上训练的弱监督方法中，在SPair-71 K和TSS上设置了一个8716新的最先进的状态。8717尽管它使用了较低程度的监督，但我们的方法PWarpC-SF-Net在所有数据集上的性能也明显优于使用掩码监督（M）训练的基线SF-Net。特别是，它显示了相对（和绝对）增益为4。百分之三（上升3.（6）、5. 百分之八（上升4. （3）39。百分之六（上升9. 5）分别在PF-Pascal，PF-Willow和SPair-71 K上，α=0. 1，和10。百分之九（上升8. （3）α = 0时TSS上。05.这使得我们的PWarpC-SF-Net成为所有无监督（U）、弱监督（U(W)以及PF-Pascal和PF-Willow上的掩模监督（M）方法示例预测如图所示。5强监管（S）：在Tab的顶部。1，我们评估了经过强监督训练的网络，以关键点注释的形式。我们的强监督PWarpC方法是用我们的Lstrong（12）训练的。对于所有网络，虽然结果与PF- Pascal上的基线相当因此，PWarpC-SF-Net* 和 PWarpC-NC-Net * 分别在 PF-Willow、SPair-71 K和TSS数据集上建立了一个新的最先进的技术，最后，虽然大多数作品都集中在设计新颖的语义架构，但我们在这里展示了正确的训练策略可以弥合架构之间的差距。5.4. 方法分析我们在这里执行一个全面的分析，我们的方法在表。二、我们采用SF-Net作为基础架构。消融研究：在Tab的顶部。第二，我们分析了我们方法的关键组成部分。表示为（II）的版本使用我们的PW-双路径目标（7）进行训练，没有可见性掩模。在（III）中进一步引入我们的可见性掩模（9）显著地提高了结果，因为它使得仅在公共可见区域中进行监督成为可能。请注意，这个版本（III）已经优于基线SF-Net （ I ），同时使用更少的注释（ class 而不是mask）。在（IV）中，我们添加了我们的概率扭曲监督（8），导致所有阈值和所有数据集的小改进。从（IV）到（V），我们进一步介绍了与我们的负损失（10）相关的显式遮挡模型，这导致了更好的性能。这个ver-方法PF-PαIMascalPF-柳树Spair-71Kgα bboxα bboxTSSαIMG0的情况。050的情况。100的情况。050的情况。100的情况。100的情况。05我SF-Net基线59.084.046.374.024.075.8IIPW双路（7）59.182.344.974.328.083.4III+ 可视性遮罩（9）61.283.746.175.828.578.4IV+ PWarp-监督（8）63.084.947.076.930.783.5V+ PNeg（10）（PWarpC-SF-Net）65.787.647.578.333.585.5VPWarpC-SF-Net（我们的）65.787.647.578.333.585.5VI[42]第四十二话64.986.146.976.626.682.2VII仅PWarp-监督（8）52.974.338.066.627.979.4VIII 最高评分[34]52.476.731.259.524.674.8IX最小熵[31]44.774.425.457.820.669.6表2.

下载后可阅读完整内容，剩余1页未读，立即下载