没有合适的资源?快使用搜索试试~ 我知道了~
16010一学习ABC:在弱监督下隔离变异因素基兰A.宾夕法尼亚大学University ofPennsylvaniakieranm@†谷歌研究varunjampani@jujujuSrikumarRamalingam谷歌研究rsrikumar@soul谷歌研究makadia@jujujuju摘要代表性学习是大多数深度学习应用的支柱,而学习的代表性的价值与其关于不同变异因素的信息内容密切相关找到好的表示依赖于监督的性质和学习算法。我们提出了一种新的算法,利用了一个弱形式的监督,其中的数据被划分成集,根据某些不活跃的(共同的)因素的变化,这是不变的每个集合的元素。我们的关键见解是,通过寻求不同集合的元素之间的对应关系,我们学习了强表示,排除了非活动的变化因素,并隔离了所有集合中变化的活动因素。由于专注于活跃因素,我们的方法可以利用集合监督和完全无监督数据的混合,这些数据甚至可以属于不同的领域。我们解决了具有挑战性的问题,合成到真实对象的姿态转移,没有任何构成的注释,通过隔离的姿态信息,概括到类别级别,并跨越合成/真实域的差距。该方法还可以通过加强中间表示来提高监督设置中的性能,以及在具有集合监督自然图像的实际可实现的场景中操作代码可以在github上找到。1. 介绍一个好的表示是关于它所排除的内容和它所包括的内容,就数据集的变异因素而言[52]。对学习表征的信息内容的控制取决于可用监督的性质和用于利用它的算法例如,对期望的变化因素的全面监督提供了最大的*作为Google AI Residency计划的一部分完成的工作。†seas.upenn.edu‡google.com最大的灵活性,完全解开表示,作为一个可解释的映射是直接获得元素和因素之间[3,19]。然而,这种监督通常是不现实的,因为许多常见的变化因素另一方面,无监督学习对数据的限制性解释最少,但不允许控制发现的因素[30]。无论是极端的,完全监督或无监督,对于许多现实世界的任务都是不切实际的。作为替代方案,我们考虑以集合成员的形式[9,24]的弱监督,在以前的工作中使用,但通常只是非正式定义。具体地说,我们假设访问训练数据的子集,其中一些非活性变化因子具有固定值,其余活性因子对于子集的不同元素自由变化例如,考虑图1的集合中的合成汽车的图像。该集合中的所有图像共享与特定汽车实例相关的变化因素的共同值,并且唯一主动变化的因素是汽车集合成员资格是唯一的信息;没有关于任何变化因素的注释。 在许多复杂的在超出分类范围的任务中,集合监督用作对数据集上的变化因子进行操作的更灵活的信息源。许多设计用于利用集合监督的技术在数据之间展开对应关系,这些数据在期望的变化因子中匹配[7,54]。例如,如果将具有相同3D姿态的汽车图像分组在一起(即每组中的非活动因素是姿态),则将组内的图像映射到相似嵌入以及将来自不同组的图像映射到不同嵌入的直接训练目标将具有成功隔离的姿态。然而,在这种情况下,更一般地说,这种集合监督的变体通常是禁止获得的:在我们的示例中,它需要从完全相同的视角识别不同汽车的图像。一种更容易获得的集合监督形式是在每个集合中所需的因素都是活跃的。继续该示例,可以通过从多个视点简单地对每辆车进行成像来获得这种监督(如在图1中的集合A1)。16011A AaBBABAB一一B图1. 近似双射对应(ABC)。 利用弱集监督-仅仅是数据的分组,其中某些变化因素是不变的-ABC隔离的变化因素,这些因素在不同的集之间积极变化。set(左)中的图像仅随渲染汽车的方向而我们主张,如果可以在和之间找到一一对应,则对于所有可能的对和,它必须利用定向。 我们发现这是真的,即使在每对中只有一个集是集监督的。 重要的是,这允许在没有任何监督的情况下合并域外数据,例如真实汽车的图像。通过训练具有损失的神经网络,该损失通过(黑色箭头)中的点的最近邻居与(绿色箭头)中的相同点或(红色箭头,中间)中的不同点配对的程度来测量表示空间中的对应性,代表(右)隔离变异的活跃因素,方向。这不需要对象实例之间的视点的对应性,也不需要附加到图像的任何姿势值然而,将活动因子(在该示例中为姿势)与集合监督隔离要困难得多,因为在期望因子中没有明确的对应关系(即,没有具有相同姿态信息的匹配图像)。在这项工作中,我们的目标是在这个更实际的集合监督设置中操作,但是在所需的活动因子中缺乏对应性使得解决方案变得困难。为此,我们提出了一种新的方法,近似双射对应(ABC),它通过寻找不同集合的元素之间的对应关系的过程中隔离的积极因素。为了一致地产生跨集合的对应关系,学习的表征必须忽略集合内的不变信息(非活动因子),并专注于所有集合共有的活动一个强大的结果是能够将集合与外部活动因子结合起来,包括完全无监督甚至域外数据(例如,图1中的集合),只要其中一个集合更受约束(图1中的集合)。在图1的例子中,ABC学习的嵌入隔离了方向,即共同的活跃因素,在训练过程中的每一对。在我们的方法中,一个集合中的每个元素都与另一个集合中的对应代理元素配对,该集合由最近邻的可微形式构造[10,14,34,40,46]。这两者作为标准对比(InfoNCE)损失中使用的正对[53]。我们发现,在明确提供的正对上优化信息的学习表示的相同的期望属性,即对齐,其中忽略正对内的差异,以及均匀性,其中最大剩余信息保留[54,57]-可以用来引导网络自己找到有用的对应关系。ABC的主要优势如下:• 隔离相关方法无法访问的因子。ABC分离了集监督数据中的活跃变异因子,抑制了非活跃变异因子。• 混合域学习。 将非监督数据与外部变化因素相结合的能力使ABC能够学习表示,这些表示可以用来自一个域的完全非监督数据来弥合域差距。• 更快的训练。ABC比从集合监督数据中隔离活动因子的其他方法快得多,所有这些方法都需要学习非活动因子。我们通过在一系列图像数据集(包括Shapes3D [4]和MNIST [25])上的实验分析了该方法及其优势。在其最完整的形式,ABC解决了具有挑战性的任务,在真实图像的姿态估计,这意味着- ingfully利用完全无监督的真实图像与集监督合成图像,弥合域的差距,从合成到真实。我们的实验表明,ABC提供了一条可行的路径来学习看不见的对象的真实图像的3D姿态嵌入,而无需在训练期间访问任何姿态注释。最后,我们用集合监督的真实图像训练ABC,包括一个场景,该场景与从多个视角拍摄的汽车图像的假设示例相匹配。ABC成功地从自然图像常见的许多讨厌的变化因素中分离出变化的活跃因素,所有这些因素都只能访问有限数量的训练示例。16012×一XZ∼X →2. 相关工作分离变异因素 最近的工作[30]表明,如果不结合某种监督或归纳偏见,潜在因素的无监督解缠是不可能的,这促使研究采用不同形式的监督[29,44,45,54]。一个更现实的目标是隔离变异因素的子集,其中学习的表示是关于这些因素而不是其他因素的信息,不能保证这些因素在潜在空间中的结构。设置监督。通常,数据很容易根据某些变化因素分组,而不需要对这些因素进行明确的注释。通常,利用这种分组中存在的信息的方法(i)学习所有因子并划分表示,使得一部分在集合中不变,其余部分捕获集合内(活动)变化[8,12,21,24,32,41],或者(ii)学习跨集合不变(不活动)的因子[7,51,52,55]。(i)的方法几乎总是使用生成模型,除了[41],它比[21]的基于VAE的方法快6倍;缺点是[41]的方法需要七个网络和两个阶段的对抗训练过程来首先学习表示的非活动分区,然后学习表示的活动分区。(ii)的方法通常通过增强[7,16,59]或预训练任务[33]创建数据子集,或者利用同一场景的多个视图[43,51],其中语义信息是训练的目标,并且在集合中保持不变。相比之下,ABC直接学习跨集合的变化的活跃因子,为(i)中的方法提供了更快,更简单的替代方法,并解决了(ii)中的方法目前无法解决的问题。视频、图像和点云是常见的数据形式,自然提供了集合监督。找到相关视频帧之间对应关系的方法,首先使用离散形式的周期一致性[1],然后使用可微形式[10],有助于激发这项工作。循环一致性也用于在图像[37,63]和3D点云[35,36,60]中建立点对应。与专注于特定应用(如视频中的动作进展[10,15]或机器人模拟[62])的方法相比,我们提出了一种适用于广泛类别问题的通用方法。位姿估计和域转移。尽 管 真实图像中的对象的3D姿态估计是一个积极研究的主题[27,28,31,64],但由于难以获得精确的3D姿态标签以及对象对称性引起的注释模糊性,监督姿态估计难以在实际场景中部署。鉴于对象对称性带来的挑战,有几种方法尝试对姿势感知嵌入进行无监督学习而不是直接回归绝对姿势[48,49]。为了评估所学习的表示,查找具有已知姿态的图像的码本授予对每个测试图像的估计。其他人已经提出解决在合成上训练但应用于真实数据的模型的主要转移[22,39,56];然而,这些方法在受约束的设置中操作,诸如其中相同的对象实例在测试和训练时间(基于实例)两者都可用,或者利用深度图像或3D模型进行推断。相反,我们的集合监督方法在不使用任何姿势注释或在训练时看到相同对象实例的情况下恢复真实图像3. 方法ABC使用集合监督数据,使得集合成员资格基于某些非活动因素来定义;例如,数据被分组为组,使得任何给定组中的所有图像具有相同的对象类,使得对象类成为非活动因素。ABC的基本思想是考虑所有这样的集合对(它们具有不同的变化的非活动因子值),并通过学习的表示来寻求它们的元素之间的近似对应。指导性的直觉是,只有当表征使用关于存在于每个集合中的变异的活跃因子的信息并且排除所有其他信息时,才能实现这一点。更具体地说,让我们考虑前面介绍的姿势隔离任务。假设图1中每个图像的潜在描述包括汽车的品牌和型号、与外观相关的所有细节以及图像中汽车的姿态。对于集合监督数据,其中汽车实例细节是每个集合内的非活动因素,并且唯一的活动因素是姿势(例如,集合(如图1所示),ABC将在两个具有相似姿势的集合中配对元素。3.1. ABC算法设置和符号:我们遵循[54]中的设置和符号,其中使用潜变量模型进行自监督学习方法的让我们将输入图像表示为来自观察空间的x,并且将相关联的潜码表示为来自表示空间的z. 根据潜变量模型,可以使用可逆函数x=f(z)从潜代码生成观测值,其中z pz。在不失一般性的情况下,我们假设潜在向量z可以被划分为非活动分量zi和活动分量za,使得在z i和z a内的所有元素每个集合共享相同的z1。设f(x):RE是将输入向量映射到E维空间中的嵌入u的函数 我们的目标是学习该函数,使得u可以关于真实潜在代码z的活动分区za提供信息。形成成对的训练集:我们要么利用图像的自然分组,要么通过控制迷你训练期间的某些变化因素来16013ABABΣBu在集合V中的k由uk=ΣIkJ我我(2)(一)nexp(s(u,uui=Mj=1 αjvj。之间的软双射对应n我nexp(s(uj,ui)/τ)ABC方法可以扩展到包含a B C图2. ABC在广泛的监管场景中隔离活跃因素。我们展示了一对集合的示例,它们可能出现在Shapes3D数据集上的三个集合监督场景中[4]。(a)在每组有五个非活动因子的情况下,只有一个因子可以分离并用于找到对应关系:物体色调。(b)这些集合的限制可以少得多,这里只由一个单一的不活跃因素来界定。与(a)相反,可能不需要所有的有效因子来找到每对集合和之间的对应关系。(c)一组可以有外来的积极因素,甚至可以完全不受约束。在这种情况下,只有通过两个集合共有的活动因素才能找到对应关系,这意味着地板色调和形状不会被孤立。在所有这三种情况下,ABC隔离的因素,积极变化,在两个集,即使没有对应关系是已知的先验图像与匹配的活动因素。批处理构造,其中每个小批处理由两个这样的集合组成。例如,我们展示了图中Shapes3D数据集[4]中二、非活动因素的值是随机抽样的2a、b)。方法:让一对特定的小批量双重增强:我们引入了一个修改的对应损失,允许抑制的因素,可以增加的变化。我们假设已知一组变换H保持期望的变差因子不变[6,7,19]。我们在每个训练步骤中对每个图像随机采样两个变换h(1),h(2)∈H让u(1)=n(h(1)ai,w),u(2)也是如此。最近的软我我由A ={a1,. - 是的- 是的 ,an}和B ={b1,. - 是的-是的,bm},re-使用u(1)找到邻居,然后对应分别为。让我们将相关的嵌入表示为U=我(二){u1,. - 是的- 是的 ,un}且V ={v1,. - 是的- 是的 ,vm},其中ui= n(ai,w)使用ui计算. 通信损失成为1Σnexp(s(u(2),u∈(1))/τ)对于A和A,使用相同的神经网络(权重为w)j j i为了使表示u(1)和u(2)对. 令s(u,v)表示嵌入空间中的点之间的相似性度量,其中s(u,v)=s(v,u)。为了创建端到端的可微分损耗,我们使用软最近邻,bor [10,14,34,40,46]建立对应关系。定义1(软最近邻)给定一个点u和一组点V ={v1,.- 是的- 是的,vm},软最近邻我我增加变异因素。总之,我们对每个小批量的集合进行采样,并学习一个嵌入网络,该网络产生嵌入,通过集合中元素之间的对应关系最小化ABC损失对于集合中的每个元素,软最近邻充当Mj=1ex p(s(ui,vj)/τ)αjvj,其中αj=相反的设置。 两个集合度量对应关系与双射的接近程度mk=1exp(s(u,v)/τ),τ是温度参数。我们首先计算每个ui∈U的软最近邻为:3.2. 扩展这两个集合是通过InfoNCE损失量化的[53],对每个集合中的每个元素求平均定义2(近似双射对应损失)的 对应 损失 从 U到 V是 给出完全无监督和有监督的数据。ABC-X用于合并无监督数据:只有两个集合共有的活跃变异因子才有助于建立对应关系。关于一组的信息L(U,V)=−1<$nlogexp(s(ui,ui)/τ). 全部损失是不活跃变异因素不能帮助区分这一系列的元素,因此不能帮助形成核心-和,L=L(U,V)+L(V,U)。温度参数τ在嵌入空间中设置了一个长度尺度作为损耗的自然单位。当使用诸如负欧几里德距离(Supp.)的无界相似性度量时,它通常是不重要的。相比之下,像余弦相似性这样的度量受益于调谐τ。第二组中的因子变化很大,但第二组中的因子变化很大。这就产生了一个强有力的结果,即当每一对中的一个集合完全不受约束时,ABC也可以工作得很好,如图2和3所示。1和2C。完全无监督,甚至域外数据与额外的积极因素,可以利用。我 们 表示和v=n(b,w). 在功能上,我们参数化L( U,V)= −日志我. 效果我n我)/τ)16014Na BC d图3. 即使是一个无监督的集合,也可以进行因子隔离;在训练过程中,更大的集合规模可以隔离更多的因子。我们使用MINE[ 2 ]估计学习的表示和每个生成因子之间的互信息I(U; G)。误差条显示十个随机种子的标准差。训练期间的非活动因素用阴影表示。(a-c)我们发现,当使用两个无监督集合(ABC-X)中的一个进行训练时,活跃因子的隔离是不变的(d)增加集合的大小隔离了更多的变化的活跃因素,因为找到对应关系需要更高的辨别能力。这个版本的方法ABC-Extransaneous,或ABC-X。用于合并注释数据ABC-S:ABC可以通过对ABC和其他损失的加权和进行训练,在对特定变异因子进行全面监督的情况下训练的网络中有机地应用于中间表示空间如果在受监督因子处于活动状态时集合监督可用,ABC可以通过隔离某些因子并抑制其他因子来调节中间表示空间,并合并无监督数据。我们将这个版本的方法称为ABC-监督或ABC-S。3.3. 对比学习虽然ABC和自监督学习(SSL)方法(如Simplified[7])都在正负对上使用InfoNCE损失,但从如何获取对上产生了根本差异在SSL中,表示空间是围绕明确提供的正对学习的,通过已知影响某些因素而使其他因素不变的增强来 在ABC中,表示空间这也产生了正对,因为它们是先验未知的,并且必须通过针对每个损失评估的集合匹配附近的嵌入来ABC找到产生好的正对的表示,并通过隔离活跃因子来做到这一点,即,样式,这将是不可访问的一般SSL方法。因此,ABC可以被视为对常见SSL方法的补充。4. 实验我们在四个领域探索该方法。首先,我们利用人工Shapes3D数据集[4]中生成因子的完整知识来改变集合监督的细节,并通过以下方式精确说明ABC因子隔离:测量学习表征的信息内容第二,我们通过将风格与MNIST数字类隔离开来,证明了ABC速度的一个显著的实际优势[25]。第三,我们解决了在真实图像上进行姿态估计的挑战,没有使用ABC-X进行姿态注释,仅利用合成图像上的集合监督。最后,有限数量的集监督的真实图像,ABC被证明成功地隔离活跃因素的变化中的许多具有挑战性的滋扰因素。实施细节和扩展实验可以在Supp.4.1. Shapes3D的系统评估Shapes3D数据集的图像由具有地板和背景墙的几何图元组成(图2)。数据集中有六个变化因素:三个颜色因素(墙壁,物体和地板色调)和三个几何因素(比例,形状和方向)。在图3中,图像被分组,其中某些生成因子对于许多不同的训练场景中的每一个都保持不活动;没有使用增强。我们通过表示U和已知潜在因子G之间的互信息I(U;G)来探测ABC学习的表示,使用MINE [2]估计,并且平均每次运行超过10次。确定性网络通常保留输入和输出之间的所有信息,因此对于有意义的量I(U+η;G)添加了噪声,η(0,σ2)[11,42].在s(u,v)是负欧几里德距离的情况下,τ用作该距离的自然长度尺度。因此我们使用σ=τ(补充)。我们讨论以下是学习表示的值得注意的方面所有不活跃的因素都被抑制;活跃因素的子集被隔离:在图中。3关于所有非活性因子的信息被抑制,并且活性因子的子集-不一定全部-被隔离。只有当三种颜色16015一不活跃的因素(图3c)是学习表征中存在的几何因素。据推测,色调因素更容易学习,并作为快捷方式[52],允许表示忽略其他因素。半监督ABC-X同样有效:通过两个集合共有的活跃因子找到对应关系,这意味着如果一个集合始终具有额外的活跃因子,则它们对优化ABC损失没有用处。在半监督场景中,每个小批量有一个集合监督集合,另一个由整个数据集上的随机样本组成图2c),ABC-X执行以及ABC与全套监督(图2 c)。3a-c)。增加集合的大小会隔离出更多的活跃因子:直觉上,在具有更多元素的集合之间找到一对一的对应关系在图3d中,学习到的关于所有活跃因子的表示中的集合大小有效地用作InfoNCE损失中的负样本数量,并且已经发现更多的负样本有利于对比学习[20]。4.2. 快速数字式隔离手写数字,例如来自MNIST [25]的数字,具有将变化因素自然划分为数字类(例如,2或8)和风格(笔画宽度,倾斜,形状等)。我们的目标是学习跨数字类概括的样式信息,而不访问与匹配样式分组的样式注释或图像将图像按类别分组为大小为64的集合,并嵌入到R8中;未使用增强ABC学习的数字9的嵌入-在训练期间被扣留-根据笔画粗细和倾斜组织(图10)。图4a),展示了跨数字类的孤立样式信息的泛化在图4b-d中,我们检索了每个类别中与一组测试数字最相似的数字。无需学习数据的完整描述,ABC产生了数量比相关方法快。4.3. 从合成图像到真实图像的接下来,我们利用ABC-X在训练时没有姿态注释的情况下在真实图像中进行对象姿态估计。目标是从集合监督合成图像中有效地隔离姿态信息,这推广到类别级别并弥合合成/真实域差距。ABC-X在一个集合中处理变化的外来活性因子的能力这大大扩展了ABC-X在SEC。4.1通过引入在合成域中不存在的变化的活跃因素所学习的表示隔离姿态,作为在每个训练对中的两个集合中积极变化的唯一因素,同时抑制额外的特定于域的因素。我们使用ShapeNet模型的图像[5]从视点BC d图4. 从MNIST数字快速风格隔离。ABC隔离式教学模式以数字类为非积极因素进行教学。(a)数字9的嵌入-在训练期间被扣留-按厚度和倾斜度散开,所有数字类别共有的活跃因素。(b)沿对角线的方框图像是用于从测试集中检索的查询;每行中的其他图像是每个类的最近嵌入。ABC分离风格信息的速度比(c)[41]的判别方法和(d)[21]的VAE方法快一个数量级以上随机分布在上半球[50]。图像被分组为集合,其源3D模型不活动(如图1中的集合)。我们逐渐将来自CompCars [61]和Cars 196 [23]数据集的非监督真实图像用于汽车类别,并将来自Pas-cal 3D + [58]训练分割的1000个图像我们在Pascal 3D+的测试分割上进行了评估。所有图像都经过裁剪。增加损失(Sec. 3.2)通过消除可能缩短通过姿势找到对应关系的任务的讨厌的变化因素,帮助弥合主要差 距 [52] 。 图 像 随 机 增 强 , 裁 剪 , 装 饰 , 并 从ImageNet-A [18]的图像中随机裁剪绘制背景,然后在[48,49]中用于弥合合成/真实域差距使用ImageNet预训练的ResNet50上的几层将图像嵌入到R64中[17]。我们使用温度τ = 0的余弦相似性。1例(补充中的消融)。4.3.1混合域位姿隔离在第一个实验中,对于真实图像或合成图像,没有姿势注释。学习的表示没有绝对姿态的意义,但如果姿态信息是完全孤立的,那么类似的表示将具有一16016@30天↑@30天↑B汽车座椅Dim(RN)Med(M)↓ Acc.Acc.Acc.Med(中)↓ Acc.Acc.Acc.@10哩↑@15哩↑@30哩↑@10天↑@15天↑@30天↑CCVAE [21] 256 54.9 0.03 0.07 0.27 81.5 0.04 0.07 0.18ML-VAE [12]3275.60.050.100.2780.60.030.070.19主[13]12871.30.090.150.3289.80.030.050.15ResNet204885.30.070.140.2880.70.040.070.19ResNet中间体16,38415.80.300.490.6447.70.080.150.37带TCC损失的机组监控[10]6423.10.140.290.5958.30.090.160.40单独增强(与[7])6480.20.160.240.3384.40.040.090.21ABC6415.10.340.500.6522.10.170.330.60ABC-X6413.00.370.560.7316.80.270.450.74表1. 在训练时没有姿态注释的姿态估计,在合成图像上设置监督。Pascal3D+汽车和椅子测试集的中位误差和准确度(优于阈值的误差分数)。通过最近邻查找到1800个合成图像的“码本”中获得姿态估计,该码本完整的ABC-X方法能够抑制可增加的干扰因素的变化,并在训练过程中利用未注释的真实图像,优于其他任何方法,特别是在困难的椅子类别中。汽车座椅Med(中)↓Acc.Med(中)↓Acc.Liao等人[28]12.3零点八五30.8 0.49表2. 利用合成图像上的姿势注释,完全无监督的真实图像。当数据由带注释的合成图像和未注释的真实图像组成时,ABC-X作为附加损失项是有效的。它提供了一种将后者合并的方法,这有助于弥合域差距。类似的姿势,而不管图像的实例特定的细节或为了给测试集的每个图像分配一个姿态估计,我们从1800个池中找到了最相似的合成图像我们将ABC与[21]和[12]的基于VAE的方法,[13]的潜在优化方法以及预训练ResNet的特征向量进行了比较(表1)。我们发现,中间输出(ResNet-Intermediate)虽然由于其高维性而不切实际,但却是一个令人惊讶的有效基线。虽然所有方法在合成域中测试时都是有效的(补充),大多数没有利用无监督的真实图像来桥接域间隙的手段,因此当在真实图像上测试时表现很差。烧蚀比较说明了ABC-X组分的协同作用。仅应用[10](TCC)在视频对齐的有限设置中使用的对应损失,我们发现汽车类别的合理性能,但未能隔离椅子上的姿势。通过增强而不寻求对应来抑制表征中的不相关因素,并没有隔离任何类别的姿势。图 5. 从 ABC-X 和 ResNet-Intermediate 检 索 。 给 定 来 自Pascal3D+测试集的查询图像,我们显示嵌入空间中的最近邻居,来自1800个ShapeNet图像和Pascal3D+火车分裂。ABC-X检索的准确性和视觉多样性说明了跨类别和合成/真实域间隙概括的姿态信息的有效隔离。血淋淋的在ABC-X中加入真实图像,在训练结束时线性上升到每组平均10%,提高了ABC的性能检索示例(图5)定性地说明了跨实例和特定于域的变异因素的泛化4.3.2增强跨域姿态回归接下来,我们寻求仅在合成域中+ ABC-S十一点零0.7928.1 0.52+ ABC-SX9.30.8726.0 0.5516017图6.只有真实图像的主动因素隔离。 我们在只有28个不同身份的扩展YaleB人脸数据集(左)和只有20个不同汽车实例的EPFLMulti-View Car数据集(右)上训练了ABC。我们与ResNet特征向量进行比较,并显示数据集剩余部分中查询图像最近的三个邻居(每种方法)。YaleB的橙色轮廓表示所有活动因子完全匹配查询图像。假设合成图像可以按实例分组,如在Sec.4.3.1. 从[28]的球形回归框架开始,我们结合了ABC-SX来调节中间表示空间,如第2节所述3.2. 我们在合成图像的姿态注释上的回归损失的加权和上进行训练,并且用于Sec的ABC-SX损失。4.3.1(尽管有一部分扩增)。原则上,任何典型的监督姿态回归网络都可以与ABC-S集成。我们特别使用[28],因为它在监督姿势基准测试中表现出 卓 越 的 性 能 , 特 别 是 使 用 合 成 数 据 ( 由RenderForCNN [47]创建)与真实图像混合进行训练。即使在训练过程中没有真实图像,ABC-S也通过更好地调节中间潜在空间来提高性能(表2)。这两个类别的进一步提升是由于少量的真实图像(2%)在训练过程中逐渐折叠到ABC-SX中。因此,ABC-SX在存在比集合监督更多的监督可用的场景中可以是有利的,这里用于通过鼓励抑制与姿态估计无关的变化因素来帮助桥接4.4. 在野外我们的结论与实验表明,积极因素与ABC的隔离,从真正的图像。与训练数据可以包含大量合成示例的情况相比,数据在数量上更加有限,并且受到滋扰因素(例如复杂背景)的困扰。扩展的YaleB Face数据集[26]有三个主要的变化因素:面部身份(其中只有28个),面部姿势和照明方向。我们训练了ABC的增强变体,其中照明作为唯一的活动因素,并且照明和面部姿势 都作为活动因 素,并将检 索结果与图 中的ResNet特征向量进行六、因为这两个因子都有一组离散的可能值,所以检索结果可以匹配查询的活跃因素。我们用橙色突出显示了完美的检索结果; ABC非常成功,因为它可以忽略人的身份来找到与活跃因子匹配的图像,这是ResNet表示法未能做到的。我们还在EPFL Multi-View Car数据集[38]上训练了ABC,该数据集由转盘上20辆汽车的图像组成,具有不同的旋转速度,背景,相机焦距和旋转范围:引言中的假设示例。图6中ABC检索图像的视觉差异与ResNet嵌入图像的视觉差异相比,证明了ABC在抑制这个具有挑战性的数据集中的许多非活性变异因素方面的成功。5. 讨论对双射对应的追求为研究习得表征中的变异因素提供了一个ABC比相关方法快得多,因为不需要对数据进行完整描述;事实上,甚至不需要隔离所有活跃的变异因素在训练和增强过程中,集合的大小可以作为对哪些变异因素被隔离的辅助控制。ABC非常适合于域转移场景,其中大量未注释的真实数据伴随着相关的合成数据。通过找到自己的正对用于对比学习损失,ABC通过隔离集监督数据中的活跃因子来局限性:寻找对应关系的任务不需要用有限的集合大小隔离所有活跃的变异因素,这使得它容易受到不期望的“容易”因素的影响。如果可能的话,应该加入对讨厌因素的增强,并仔细分析学习到的表征。社会影响:这项工作有意扩大其范围,我们强调直觉和洞察力,以提高这项研究的可及性。16018引用[1] Yusuf Aytar , Tobias Pfaff , David Budden , Tom LePaine , Ziyu Wang , and Nando de Freitas. 通 过 观 看YouTube玩硬探索3[2] Mohamed Ishmael Belghazi , Aristide Baratin , SaiRajeshwar , Sherjil Ozair , Yoontim Bengio , AaronCourville,and Devon Hjelm.互信息神经估计。JenniferDy 和Andreas Krause ,编 辑,Proceedings of the 35 thInternationalConferenceonMachineLearning,Proceedings of Machine Learning Research 第 80 卷 , 第531- 540页。PMLR,2018年7月10日至15日。5[3] Yoshua Bengio Aaron Courville和Pascal Vincent表征学习:回顾与新视角. IEEE Trans. 模式分析马赫内特尔,35(8):17981[4] Chris Burgess和Hyunjik Kim 3D形状数据集。https://github.com/deepmind/3dshapes-dataset/,2018.二、四、五[5] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Manolis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息 丰 富 的 3D 模 型 库 。 技 术 报 告 arXiv : 1512.03012[cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田6[6] Shuxiao Chen,Edgar Dobriban,and Jane H.李你数据扩充的群论框架. Journal of Machine Learning Research,21(245):1-71,2020. 4[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐和杰夫·弗雷·辛顿.视觉表征对比学习的简单框架,2020。一、三、四、五、七[8] 塔可S科恩和马克斯·威林。学习的视觉表征的变换国际学习代表大会(ICLR),2015年。3[9] 艾米丽·丹顿和维格内什·比罗德卡从视频中分离表示的无监督神经信息处理系统的进展,第4414-4423页,2017年。1[10] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.时间周期一致性学习。CoRR,2019。二、三、四、七[11] Adar Elad , Doron Haviv , Yochai Blau , and TomerMichaeli. 深 度 网 络 信 息 瓶 颈 原 理 的 直 接 验 证 。 在IEEE/CVF计算机视觉国际会议(ICCV)研讨,2019年10月5[12] Bouchacourt等人多级变分自动编码器:从分组观测中学习解纠缠表示。在AAAI,2018。三、七[13] Aviv Gabbay和Yedid Hoshen。揭秘阶级间的分离。在国际会议上学习表示(ICLR),2020年。7[14] Jacob Goldberger、Sam Roweis、Geoff Hinton和RuslanSalakhutdinov。邻域成分分析第17届神经信息处理系统国际会议论文集,NIPS'04,美国马萨诸塞州剑桥,2004年。麻省理工学院出版社. 二、四[15] 放大图片作者:Sanjay Haresh,Sateesh Kumar,HuseyinCoskun , Shahram N.Syed , Andrey Konin , ZeeshanZia,and Quoc-Huy Tran.通过及时调整视频来学习。 InProceedings ofIEEE/CVF计算机视觉和模式识别会议(CVPR),第5548-5558页,2021年6月。3[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议录(CVPR)中,2020年6月。3[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 arXiv 预 印 本arXiv:1512.03385,2015。6[18] Dan Hendrycks , Kevin Zhao , Steven Basart , JacobSteinhardt和Dawn Song。自然对抗的例子。arXiv预印本arXiv:1907.07174,2019。6[19] Irina Higgins , David Amos , David Pfau , SébastienRacanière , Loïc Matthey , Danilo J. Rezegli , andAlexander Lerchner.关于解纠缠表象的定义。CoRR,abs/1812.02230,2018。1、4[20] DevonHjelm , AlexFedorov , SamuelLavoie-Marchildon , Karan Grewal , Philip Bachman , AdamTrischler,and Yoonne Bengio.通过互信息估计和最大化来学习深度表示在ICLR 2019。ICLR,2019年4月。6[21] Ananya Harsh Jha,Saket Anand,Maneesh Singh,andV.S. R.维拉瓦萨拉普使用周期一致的变分自动编码器解开变化因素三六七[22] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobo- dan Ilic,and Nassir Navab. SSD-6D:使基于rgb的3d检测和6d姿态估计再次变得强大。在IEEE国际计算机视觉会议,ICCV 2017,第1530-1538页3[23] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会,澳大利亚悉尼,2013年。6[24] Tejas D Kulkarni,William F Whitney,Pushmeet Kohli,and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理系统的进展,第2539-2547页,2015年第1、3条[25] 扬·勒昆和科琳娜·科尔特斯mnist手写数字数据库。http://yann.lecun.com/exdb/mnist/,1998年。二、五、六[26] Kuang-Chih Lee,Jeffrey Ho,and David J Kriegman.可变光 照 下 人 脸 识 别 中 线 性 子 空 间 的 获 取 。 IEEETransacti
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功