没有合适的资源?快使用搜索试试~ 我知道了~
3267基于attention和soft-argmax的无监督多目标分割Bruno Sauvalle Arnaud de La Fortelle Centre deRobotique,Mines ParisTech PSL University{bruno.sauvalle,arnaud.de la fortelle}@ mines-paristech.fr摘要我们引入了一种新的架构,用于无监督的以对象为中心的表示学习和多对象检测和分割,它使用一种自适应等变注意力机制来预测场景中存在的对象的坐标,并将特征向量与每个对象相关联。Transformer编码器处理遮挡和冗余检测,卷积自动编码器负责背景重建。我们表明,这种体系结构显着优于复杂的合成基准的最先进的。1. 介绍在本文中,我们考虑了以对象为中心的表示学习和无监督对象检测和分割的任务:从显示各种场景的图像数据集开始,我们的目标是构建这些场景的结构化对象中心表示,即,将场景中存在的每个对象映射到表示该对象的矢量,并允许恢复其外观和分割掩模。这个任务是非常具有挑战性的,因为图像中出现的对象可能具有不同的形状、位置、颜色或纹理,可以彼此遮挡,并且我们不假设图像共享相同的然而,以对象为中心的表示的回报可能是显著的,因为它们允许对图像或视频执行复杂的推理[11,42],并在涉及对象操纵或定位的下游任务上学习更好的策略[45,49]。然而,当今对象表征学习的主要问题是,现有模型能够处理具有简单纹理和背景的合成玩具场景,但无法处理更复杂或真实世界的场景[29]。我们建议通过引入一种用于无监督对象检测的修正等变和基于注意力的方法来改善这种情况,使得输入图像的平移导致检测到的对象的坐标的类似平移,这要归功于注意力图,该注意力图不仅用于将特征向量与每个特征向量相关联,对象存在于场景中,而且预测这些对象的坐标。本文的主要贡献如下:• 我们提出了一个理论上的理由使用at-tension地图和软argmax的对象定位。• 本文提出了一种新的基于等变和注意力的目标检测和分割算法,该算法不依赖于任何空间先验。• 我们表明,所提出的模型大大提高了最先进的无监督对象分割复杂的合成基准。本文的组织结构如下:在第2节中,我们提供了使用注意力地图和soft-argmax进行对象定位的一些理论动机。在第3节中,我们回顾了无监督对象实例分割的相关工作。在第4节中,我们描述了所提出的模型。实验结果见第5节。2. 使用注意力地图和soft-argmax进行对象定位人们广泛认识到,卷积神经网络的成功与卷积层相对于平移组的动作是等变的这一事实相关联,这使得这些层对于检测自然具有该属性的特征是也很容易证明,线性卷积算子是唯一的线性算子,它与特征映射上平移群的自然作用是等变的。我们引入以下符号来描述平移群的作用:我们认为灰度图像是定义在Z2上的标量值函数φ(i,j),而el-1是定义在Z 2上的标量值函数φ(i,j)在Z2中将平移群元素作为向量(u,v)。本文讨论了平移群在非线性系统上的自然作用T年龄可以用公式T u,v(φ)(i,j)=φ(i-u,j-v).(1)模型层L被称为关于平移等变,如果它满足L(Tu,v φ)= Tu,v(L(φ)).(二)3268ΣΣΣ一ΣΣΣΣq∈Z2e<$(q)iαiφi)=iαi M(φi).ΣΣ现在=(δφ(q))M(δ)+δφ(q)q(8)作为输出,存在于该IM-QQ中的对象的坐标年龄 这样的模型不产生特征图,所以先前的平移等方差定义不能用于该模型。然而,我们注意到平移群通过作用Tu′,v(i,j)=i+u,j+v自然地作用在Z2上,并且模型M应该具有等方差性质=M(δ)+φ(q)q,(9)Q证明了这个命题,因为M(δ)是一个常数。命题2.1可以解释为,为了得到一个等变的局部化算子,M(Tu,vφ)=Tu′,v(M(φ))。(三)一种简单的方法是从输入图像构建归一化注意力图φ,并计算坐标事实上,如果整个图像由一个向量平移,(u,v),则存在于该图像中的对象也被平移,使得相关联的坐标必须根据矢量(u,v)被移位。不难看出,同样的道理,对合算子是唯一的关于平移等变的线性算子,也可以完全描述哪些初等算子遵循这种特定的等变性质。然而,我们首先注意到,我们必须限制可能的输入映射φ的空间:使用注意力机制,以φ作为注意力图,像素坐标作为目标值,对检测到的对象进行定位。有人说,这正是soft-argmax运算符所做的:它将一个未规范化的标量映射作为输入,使用softmax运算符对其进行规范化,然后使用与2中相同的公式执行本地化。一曰:soft-argmax(p)= softmax(p)pp∈Z2常数函数,它在函数的作用下不会改变平移群,使得等方差性质3不能满足这样的函数。我们假设φ=e(p)p(十)满足pφ(p)=1,并考虑算子M的定义域是相应的仿射空间。我们也将线性条件替换为以下亲和性条件:对于所有的αi∈R,φi∈ A,使得iαi=1,我们有M(于是我们有了以下命题:命题2.1满足等方差性质3的仿射算子M必须具有以下形式:M ( φ ) = C +φ ( p ) p(4)p∈Z2对于R2证明:我们将输入映射φ写为函数δ∈ A的空间移位版本之和,其中对于p=(0,0)满足δ(p)=1,对于p∈A =(0,0)满足δ(p)=0:φ ( p ) =φ ( q ) δ ( p-q )(5)q∈Z2然后,我们使用M的仿射性质和等价性质3:M(φ)=M( φ(q)δ(p-q))(6)Q=<$φ(q)M(δ(p-q))=<$φ(q)(M(δ)+q)(7)QQp∈Z23269这个操作被称为soft-argmax,因为它允许以可微的方式计算输入映射的最大值的坐标的估计。使用soft-argmax似乎是获得等变定位算子的最自然的方法。3. 相关工作无监督对象检测和分割无监督对象检测和分割模型通常是重建模型:它们试图使用特定的图像渲染过程来重建输入图像,该过程引入所需的以对象为中心的结构。为了确保正确检测对象,定义并实现了各种对象性先验:• 像素相似性先验。一些模型将对象分割的任务视为聚类问题,可以使用确定性[23,33]或概率[15,20,44]方法来解决:如果与图像的两个不同像素相关联的特征向量非常相似,则认为这些像素都应该属于同一对象或背景。• 有独立前科一些模型假设图像是从一个分布中采样的,该分布遵循一个概率模型,该模型具有对象和背景之间的一些独立先验,并使用变分[19,16]或对抗[7,3]方法来学习这些分布。3270×××−−−A*∗KKΣAAKΣKKK• 外观和位置的分离。出现在给定数据集的场景中的前地对象可以具有相似的形状和外观,但是尺度和位置非常不同对象发现是通过将对象外观生成过程与场景中出现的对象的平移和缩放分离来执行的,该过程由卷积瞥见生成器[1,30,10,40,26,25]或学习词典[35,39]执行,该过程通常通过在模型中包括空间Transformer网络[24]来完成。本文中描述的模型属于这一类,并使用卷积一瞥生成器。图像使用空间Transformer网络。前景编码和重构过程可以描述如下:首先,高分辨率特征图生成器将大小为h w的彩色图像 作为输入,并产生维度为dΦ的高分辨率特征图Φ和若干标量注意力logit图A1,.,肺炎克雷在本文中,我们将使用基于transformer的Segformer模型[48],它可以生成大小为h的特征图。w=h/4w/4。超参数K被设置为数据集中场景中对象的最大标量注意力逻辑图A1,...,将一个K转换为一个归一化的注意力地图A1,...,使用softmax运算符的K:无空间先验的目标检测与分割Ak(i,j)=0(i,j)i′,j′eAk(i′,j′)(十一)现有技术的监督检测和分割模型通常依赖于根据周期性网格结构在空间上组织的周期性网格的使用也被提议用于无监督对象检测[32,26,25,39]。替代检测方法依赖于由U-网[37]或堆叠U-网[36]网络产生的热图,其预测每个像素在该像素上存在一个对象的概率已经在监督设置中实现[31,13]。对于某些特定的应用程序,如hu-我 们 从 范 围 [1 , . , w] 和 [1 , .. , h] 到 空间Transformer网络所需的范围[1,1],使用公式x(i)=2i−11(12)w−1y(j)=2j−11,(13)h−1并预测的坐标的初始估计x0,y0,人体姿势估计或解剖学标志定位kk[43]一些监督模型预测每个对象一个热图。使用soft-argmax将热图转换为将检测到的对象作为注意力图k的质心:w,h对象坐标已经在监督的[41,34,6]、半监督的[22]和无监督的设置[18,17]中实现,但从未被提出用于无监督的对象检测或分割。最近,基于Transformer的[?]使用对象[5,50,12]或掩码[9,8]查询的模型已经被提出,它们不显式地依赖于x0=y0=i=1,j=1w,hi=1,j=1Ak(i,j)x(i)(14)Ak(i,j)y(j)(15)空间网格。 这些模型表明,transformers是有效的。我们还建立了K个对象查询特征向量, ϕ01K在监督设置中有效,以避免对同一对象的多次使用相同的注意力图1,...,K作为权重,特征图Φ作为目标值:4. 拟议模型4.1. 模型架构0=w, hi=1,j=1Ak(i,j)Φ(i,j)(16)该模型的整体架构如图1.一 Transformer 编码器 然后 需要 的 K三联体(x0,x0,y0)1≤k≤K作为输入,并产生一个改进的版本该模型由前景模型和背景模型组成。背景模型是确定性卷积自动编码器:我们依赖于经典假设[46],(k,xk,yk)1≤k≤K,考虑可能的检测冗余和对象遮挡。更准确地说,我们使用学习的线性嵌入来将三元组(x0,x0,y0)的维度从dΦ+2增加到输入维度dTK KK背景图像位于低维流形上,并使用自动编码器来学习该流形。前景模型也是确定性的,并且将用于产生对象的一瞥的外观向量z与场景中的每个对象相关联,然后在上的正确位置缩放和平移3271以及学习的线性投影,以将变换器编码器的输出的维度从dT减小回到dΦ+2。Transformer编码器不采用任何位置编码作为输入,必须执行的变换不应取决于检测的顺序。 我们强迫3272−KK--∈KKKΣ联系我们背景模型背景图像层输入图像空间Transformer网络坐标网格格但斯克,格但斯克对象坐标克对象缩放值全图像重建K注意力地图⊗联系我们KK个前景图像图层和蒙版瞬时信号发生器分割图SegFormerTransformer编码器克模型特征图Φ对象激活值图1.拟议模型概述。训练高分辨率特征图生成器(Segformer模型)以产生高分辨率特征图Φ和K标量注意力图(每个对象查询一个)。这些地图用于预测检测到的对象的坐标和尺度卷积自动编码器负责背景重建。使用箝位,x k和y k的最终值保持在范围[1,1]内。然后,每个变换后的特征向量k被分成三项:k =(sk,α k,z what)。• 第一项sk是逆缩放因子。是如果数据集中的对象具有相似的宽度和高度(各向同性缩放),则为标量,或者如果不是这种情况,则为一对标量sx,xy(各向异性缩放)。我们现在必须为每个像素决定这个像素应该显示背景层还是K个对象层之一 为了以可微的方式做到这一点,我们将预测的对象掩模M k与相关的对象激活水平α k相乘,并将结果归一化以获得每个像素的归一化权重分布(w k)0≤k≤K:k kαk Mk(i,j)ing)。 我们强迫s k的值保持在一个固定的使用sigmoid函数。 最大值确保非零梯度将wk(i,j)=、α′M′(i,j)(十七)available.最小值设置为大于1,以确保瞥见生成器不会尝试生成完整的图像层。• 第二项是一个标量,假设它预测对象的激活水平αk,这将考虑到与背景相关联的掩模M0在任何地方都被设置为1,并且它具有固定的学习激活因子α0。然后,最终重建的图像X等于使用权重wk的各个图像层的加权和:可以用来预测它是否可见。我们强迫使用指数图将该激活值设为正• 其余的坐标形成一个矢量z,它编码对象的外观。然后,我们使用卷积的一瞥生成器来构建相关对象的彩色图像o k以及相关的标量掩码m k,使用z what作为输入。这些图像和掩模被平移到位置(x k,yk),并使用空间Transformer网络根据逆缩放因子s k进行缩放。我们注意到对于k1,...,K是对应的对象图像层和蒙版,L0是背景模型产生的背景图像,这样我们总共有K +1个图像层。KX(i,j)= wk(i,j)Lk(i,j)(18)k=0在推断期间,通过向每个像素分配层索引k 0,..,K,其中w k(i,j)是最大值。在推理过程中,不需要背景模型来获得分割图4.2. 模型训练4.2.1损失函数为了训练所提出的模型,我们使用主重构损失函数和辅助损失:k′ ∈0..K3273ΣΣKΣ与像素(i,j)相关的局部L1重构误差为3li,j=|x<$c,i,j−xc,i,j|、(十九)c=1其中,xc,i,j和x∈c,i,j是输入图像和重构图像中位置(i,j)处的颜色通道c的值。重建损失被定义为该重建误差的均方。w,h• 基线训练(BT):背景模型和前景模型随机初始化,并进行相似性训练.• 课程培训(CT):模型的训练分为三个阶段:1. 使用[38]中描述的方法和鲁棒损失函数,仅对背景模型进行预训练2. 然后,背景模型的权重被冻结,并且前景模型被训练,L记录1= HWi=1,j=12i、j(二十)冻结的背景模型3. 然后,背景和前景模型同时进行微调。像素熵损失对于给定的像素(i,j),我们期望权重w0(i,j),.., wK(i,j)是独热的,因为我们假设对象是不透明的。我们观察到一个离散分布是独热的当且仅当它的熵为零,所以最小化这个分布的熵将是一个合理的方式来执行一个棒断裂过程。然而,考虑到熵函数在单热分布附近具有奇异梯度,我们使用熵函数的平方来建立损失函数。然后,我们将像素熵损失定义为5. 实验结果5.1. 公共基准我们在以下数据集上对所提出的模型进行了定量评估:[29][2我们在ShapeStacks,ObjectsRoom和CLEVR上实现了与[15]相同的预处理我们在这些数据集上使用相同的超参数值,除了hy-1周,小时L=(n =w(i,j)log(w(i,j)+n))2,perparameterK与对象查询的数量有关,它被设置为每个查询中的最大对象数量。像素hwki=1,j=1,k=0K(二十一)数据集(即3个在ObjectsRoom上,6个在ShapeStacks上,10个在CLEVRTEX和CLEVR上)。我们使用各向同性缩放,其中,引入=10−20是为了避免对数函数的任何数值问题。该辅助损失在被添加到重建损失之前使用权重λpixel进行加权。在我们的实验中,我们观察到像素熵损失可能会在训练开始时阻止定位过程的成功初始化因此,我们在初始化过程中使用权重的二次预热来平滑地激活这种辅助损失完整的损失函数等于CLEVR和ShapeStacks以及其他数据集上的各向异性缩放。我们使用Segformer模型的B3版本,并依赖于该模型的Hugging Face实现,对于分层Transformer骨干,在ImageNet-1 k上预训练权重,但对于用作特征图生成器的MLP解码器进行我们使用Transformer编码器的标准Pytorch实现背景模型自动编码器的架构与[38]中相同。该瞥见发生器是转置卷积层的序列,组归一化,L= Lrec步骤+ min(1,N个像素)2λ像素L像素、(二十二)[47]层和CELU [2]非线性,并在补充材料中描述。其中,step是当前训练迭代索引,N像素是一个固定的超参数4.2.2课程培训背景重建模型和前景模型在训练过程中的相互作用是一个非常具有挑战性的问题,因为它们之间的竞争来重建图像。我们通过实施课程培训来处理这个问题,如[25]所述然后,我们将评估两种方法来训练所提出的模型:我们使用亚当作为优化器。训练过程包括学习速率的二次预热,因为模型包含Transformer编码器。当训练步数达到总训练步数的90%时,我们还将学习率降低基线训练(BT)场景的训练步骤总数为125 000。在课程训练(CT)场景中,背景模型预训练(第1阶段)的训练步骤数在CLEVRTEX、ShapeS- tacks 和ObjectsRoom上为500 000,但在CLEVR上为2500,显示固定背景,如[38]中所建议。数量L3274阶段2(使用冻结的预训练背景模型进行训练)的训练步骤的数量是30000,并且最终微调阶段(阶段3)的训练步骤的数量是95000。完整的实现细节和超参数值在补充材料中提供,模型代码将在Github平台上提供。5.2. 消融研究和其他实验我们在表4中提供了使用模型架构或损失函数的各种消融或修改获得的结果,其表明:• 如果通过设置(x,x,y)=删除Transformer编码器,则模型仍具有竞争力。为了将我们的结果与已发表的模型进行比较,0 0 0K Kk1≤k≤K我们计算以下评估指标:联合上的平均交截(mIoU)和限制于前景对象的调整的随机索引(ARI-FG)。我们还提供了重建图像和输入图像之间的均方误差(MSE),这提供了对学习表示的准确性的估计。对于这些指标,我们使用与[29]相同的我们提供了平均分割覆盖(在[16]中定义),仅限于ObjectsRoom和ShapeStacks上的前景对象(MSC-FG),其中mIoU基线值不可用。我 们 称 AST-Seg ( Attention and Soft-argmax withTransformer using Segformer)为所提出的模型,AST-Seg-B3-BT、AST-Seg-B3-CT分别为使用在基线训练或课程训练场景下训练的Segformer B3特征图生成器的模型。表1和表2提供了在这些数据集上获得的结果,并与已发表的结果进行了比较。在基线训练场景下训练的拟议模型比CLEVR和CLEVRTEX数据集上的现有模型获得了更好的平均结果,但显示出非常高的方差。例如,在CLEVR数据集上,模型在训练期间可能会落在背景模型试图预测前景对象的坏的最小值中。使用课程培训可以避免这个问题,在所有数据集上获得根 据 [29] 中 提 出 的 方 法 , 我 们 还 评 估 了 在CLEVRTEX上训练的模型在应用于包含分布图像的数据集时的泛化能力,这些图像显示了不可见的纹理和形状或隐藏的对象(OOD和CAMO数据集[29])。表3中提供了该评估的结果,并且表明所提出的模型具有良好的泛化性,尽管它是确定性的并且不使用任何特定的正则化方案。图2中提供了一些分割预测样本。该模型的主要局限性是阴影的管理,阴影可能被模型视为单独的对象或集成到对象分割中。(k,x k,y k)1≤k≤K。通过此方法,ShapeStacks和ObjectsRoom数据集上的结果甚至得到了改进简化的架构,在Shapestacks数据集上具有令人惊讶的强大改进,这显示了注意力和软argmax机制的效率。然而,Transformer编码器在更复杂的CLEVR和CLEVRTEX数据集上是必要的。• 使用略高于最大对象数量的槽数进行训练不会导致结果发生显著变化。然而,由于对象的碎片增加,槽的数量的更大增加导致具有复杂纹理的场景的效果不佳。这与在基于查询的监督检测模型(如DETR)上观察到的情况非常不同,在这种模型中,查询的数量与对象的数量相比必须非常高• 可以用任何其他生成器替换Segformer高分辨率特征图生成器。所提出的模型最初是用自定义Unet特征图生成器设计的,它在CLEVR、ShapeStacks和ObjectsRoom上得到了与Segformer模型类似的结果,但在更复杂的CLEVRTEX数据集上表现不佳。补充材料中介绍了该Unet的结构。• 使用预训练的骨干是必要的,以获得良好的性能与Segformer特征图生成器。• 我们测试了另一种训练场景,其中背景模型在前景模型的完整训练期间保持冻结这种情况的主要优点是它明显更快并且需要更少的存储器,因为训练图像的背景可以预先计算和记忆。然而,除了ObjectsRoom数据集之外,结果的准确性• 在各向同性缩放和各向异性缩放之间切换不会产生太大差异,除了ShapeStacks数据集,如果启用各向异性缩放,则所提出的模型可以将每个块塔视为单个对象。3275表1.在CLEVR和C LEVR T EX上标记结果。显示了3次运行计算的结果(±σ)。[29]第二十九话型号CLEVR CLEVR TEX↑mIoU(%)↑ARI-FG(%)↓MSE↑mIoU(%)↑ARI-FG(%)↓MSESPAIR[10]65.95 ±4.02 77.13± 1.9255 ± 100.00 ±0.000.00 ±0.00 1101±2空间[32]26.31 ±12.93 22.75± 14.0463 ± 39.14 ±3.46 17.53 ±4.13298±80国民总收入[25] 59.92 ±3.72 65.05 ± 4.1943 ±342.25 ±0.18 53.37 ±0.67383±2[39]2019 - 05 - 190.40 72.12± 0.6475 ±110.46 ±0.10 38.31 ±0.70335±1DTI[35]48.74 ±2.17 89.54 ± 1.4477 ±1233.79 ±1.30 79.90 ±1.37438±22Gen-V2[15]9.48 ±0.55 57.90 ±20.38 158 ± 27.93 ±1.53 31.19 ±12.41315±106eMORL[14]50.19 ±22.56 93.25 ± 3.2433 ±812.58 ±2.39 45.00 ±7.77318±43MONet[4]30.66 ±14.87 54.47 ± 11.4158 ± 1219.78 ±1.02 36.66 ±0.87146±7SA[33]36.61 ±24.83 95.89 ± 2.3723 ±322.58 ±2.07 62.40 ±2.23254±8碘[19]45.14 ±17.85 93.81 ± 0.7644 ±929.17 ±0.75 59.52 ±2.20340±3AST-Seg-B3-BT 71.92 ±32.94 76.05 ± 36.1351 ± 6357.30 ±15.72 71.79 ±22.88152±39AST-Seg-B3-CT 90.27±0.2098.26 ± 0.0716±179.58±0.54 94.77±0.51139±7表2. ObjectsRoom和ShapeStacks上的基准测试结果。来源:[15]。模型对象房间形状堆栈↑ARI-FG(%) ↑MSC-FG(%)↑mIoU(%)↓MSE↑ARI-FG(%)↑MSC-FG(%)↑mIoU(%)↓MSEMONet-g[4,15]54 ± 033 ±1不适用70 ± 457 ± 12不适用Gen-v2[15]84 ± 158 ±3无无81 ± 068 ±1不适用SA [33]79 ± 264 ± 13不适用不适用76 ± 170 ±5不适用AST-Seg-B3-BT74.96 ±10.0274.50 ±8.6111.7± 2.173.77 ± 7.5674.12 ± 8.6370.18±12.6811.8±7.0AST-Seg-B3-CT87.23±0.8882.22±0.9685.02±0.796.7±0.979.34±0.7377.65±1.378.84±0.214.5±0.2输入图像真实分割图像重建预测分割输入图像真实分割图像重建预测分割CLEVRTEXCLEVR形状堆栈ObjectsRoom OOD CAMO图2. CLEVRTEX、CLEVR、ShapeStacks、ObjectsRoom、OOD和CAMO测试数据集上的分割预测示例(OOD和CAMO数据集上的结果仅使用在CLEVRTEX上训练的模型获得)5.3. 计算时间所有实验都是使用Nvidia RTX 3090 GPU和AMD7402 EPYC CPU进行的。一些火车-表5中提供了测试持续时间。3276±表3. CAMO上的基准泛化结果,以及在CLEVRTEX上训练的模型的OOD。显示了3次运行计算的结果(σ)。来源:[29]型号OOD CAMO↑mIoU(%)↑ARI-FG(%)↓MSE↑mIoU(%)↑ARI-FG(%)↓MSESPAIR[10]0.00 ±0.000.00 ±0.00 1166 ± 50.00 ±0.000.00 ±0.00668±3空间[32]6.87 ±3.32 12.71 ±3.44387 ± 668.67 ±3.50 10.55 ±2.09251±61[25]20.84 ±0.30 48.43 ±0.86626 ±517.56 ±0.74 15.73 ±0.89353±1[39]2019 - 10 - 130.19 37.29 ±1.04 409 ± 38.79 ±0.15 31.52 ±0.87265±1DTI[35]32.55 ±1.08 73.67 ±0.98590 ±427.54 ±1.55 72.90 ±1.89377±17Gen-V2[15]8.74 ±1.64 29.04 ± 11.23539 ±1477.49 ±1.67 29.60 ±12.84278±75[14]第14话2.58 43.13 ±9.28471 ±5111.56 ±2.09 42.34 ±7.19269±31MONet[4]19.30 ±0.37 32.97 ±1.00231±710.52 ±0.38 12.44 ±0.73112±7[33]20.98 ±1.59 58.45 ±1.87487 ±1619.83 ±1.41 57.54 ±1.01215±7碘[19]26.28 ±0.85 53.20 ±2.55504 ±317.52 ±0.75 36.31 ±2.57315±3AST-Seg-B3-CT 67.50±0.7583.14±0.75832 ±2473.07±0.65 87.27±3.78145±6表4. 消融研究和附加实验的结果(1次运行的结果,除星号值外,其为3次运行的平均值)Dataset CLEVRTEXCLEVR Shape Stacks ObjectsRoom使用Unet而不是Segformer特征生成器128 ×128对象房间64×64500000 14小时57分钟125000 6小时31分钟ShapeStacks64×64500000 14小时20分钟125000 6小时22分钟6. 结论在本文中,我们描述了一种新的架构,用于无监督的以对象为中心的表示学习和对象检测和分割,它依赖于注意力和软argmax,并表明这种新架构在现有的基准测试上大大提高了现有技术的水平,显示了具有复杂形状和纹理的合成场景我们希望这项工作可以帮助扩展范围的结构化对象为中心的表示学习从研究到实际应用。致谢我们感谢Sascha Hornauer对本文初稿提出的有益意见。引用[1] S. M.阿里·埃斯拉米、尼古拉斯·赫斯、西奥芬尼·韦伯、尤瓦尔·塔萨、大卫·塞普斯瓦里、科雷·卡武库奥卢和格offrey E.辛顿注意,推断,重复:快速场景理解与生成模型. 神经信息处理系统进展,第3233-3241页,2016年3月[2] 乔纳森·T.巴伦连续可微指数线性单位。arXiv,(3):1[3] Adam Bielski和Paolo Favaro扰动生成模型中对象分割的出现。神经信息处理系统的进展,32(NeurIPS):1[4] 克 里 斯 托 弗 ·P Burgess 、 Loic Matthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。Monet:无监督场景分解和表示。arxiv预印本,2019年1月。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。端到端的目标检测与变压器。计算机科学讲义(包括全模型AST-Seg-B3-CT(参考)mIoU79.58*ARI-FG94.77mIoU90.27*ARI-FG98.26mIoU78.84*ARI-FG79.34*mIoU85.02*ARI-FG87.23不带Transformer编码器的75.6994.4177.1693.0982.99美元 *82.29美元 *85.51美元 *88.49美元*K = 1 +最大对象79.11美元*94.78美元 *91.03*98.17*78.8780.0582.9086.45K = 2×最大对象Segformer骨干训练的随机初始化,而没有像素熵损失62.1066.8261.7470.1889.9688.2580.2291.8190.5690.7088.9485.5498.2998.1797.7796.0954.8875.5162.7352.1765.1677.7868.4060.0866.7885.5977.7184.2178.5887.9379.2386.19使用冻结预训练背景模型各向同性缩放的各向异性缩放75.3078.6895.3194.7881.4687.2198.2998.5355.0645.4766.2436.4385.8284.9187.7887.20表5.使用一个Nvidia RTX 3090 GPU训练计算时间(课程训练)迭代次数训练时间迭代次数训练时间CLEVRTEXClevr128 ×128500000250057小时47分钟20 MN125000 16小时00分钟125000 12时03分3277人工智能和生物信息学讲义),12346 LNCS:213[6] Prashanth Chandran,Derek Bradley,Markus Gross,andThabo Beeler.用于非常高分辨率的面部标志检测的注意力驱动的裁剪。IEEE计算机协会计算机视觉和模式识别会议论文集,第5860-5869页[7] Mick aeülChen,ThierryArt ie`res,andLudo vicDen o ye r.通过重绘实现无监督对象分割。神经信息处理系统的进展,32,2019。[8] 作 者 : David G.Schwing , Alexan- der Kirillov , andRohit Girdhar.一种用于通用图像分割的掩蔽注意掩蔽Transformer。2021年。[9] 作者:Alexander G. Schwing,and Alexander Kir- illov.逐 像 素 分 类 并 不 是 语 义 分 割 所 需 的 全 部 。(NeurIPS):1[10] 埃里克·克劳福德和乔埃尔·皮诺。用卷积神经网络实现空间不变的非监督目标检测。在AAAI人工智能会议论文集,第33卷,第3412-3420页[11] David Ding , Felix Hill , Adam Santoro , MalcolmReynolds和Matt Botvinick。学习对象嵌入的注意力使复杂的视觉推理成为可能。神经信息处理系统进展,第11卷,第9112-9124页,2021年[12] Bin Dong , Fangao Zeng , Tiancai Wang , XiangyuZhang,and Yichen Wei. SOLQ:通过学习分割对象。(2017):1[13] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.CenterNet:用于对象检测的关键点三元组。IEEE计算机视觉国际会议论文集,2019年-EWB:6568-6577,2019年。[14] PatrickEmami , Pan He , Sanjay Ranka , and AnandRangara-jan.学习对称和非纠缠多对象表示的有效迭代摊销推理。2021.[15] Martin Engelcke,Oiwi Parker Jones,and Ingmar Posner.GENESIS-V2:无需迭代细化即可推断无序对象表示。2021年。[16] 放大图片作者:Adam R.Kosiorek,Oiwi Parker Jones,and Ingmar Posner.GENESIS:Generative Scene Inferenceand Sampling with Object-Centric Latent Representations.技术报告,2019年。[17] Chelsea Finn、Xin Yu Tan、Yan Duan、Trevor Darrell、Sergey Levine和Pieter Abbeel。深度空间自动编码器用于 可 视 化 学 习 。 Proceedings - IEEE InternationalConference on Robotics and Automation , 2016-June :512-519,2016.[18] Ross Goroshin,Michael Mathieu,and Yann Lecun.学习在不确定性下线性化。神经信息处理系统的进展,2015年1月:1234[19] Klaus Greff、Raphael Lopez Kaufman、Rishabh Kabra、Nick Watters 、 Chris Burgess 、 Daniel Zoran 、 LoieMatthey、Matthew Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。在第36届机器学习国际会议上,ICML 2019,第2019卷-6月,第4317-4343页,2019年3月。[20] Klaus Greff , Antti Rasmus , Mathias Berglund , TeleHotloo Hao,JürgenSchmidhube r,andHarriValpola. Tagger:深 度 无 监 督 感 知 分 组 。 神 经 信 息 处 理 系 统 进 展(Nips):4491[21] 作者:Oliver Groth,Fabian B. Fuchs,Ingmar Posner,and Andrea Vedaldi. ShapeStacks:学习基于视觉的物理直觉广义对象堆叠。计算机科学讲义(包括人工智能子系列讲义和生物信息学讲义),11205 LNCS:724[22] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位。在IEEE计算机协会计算机视觉和模式识别会议的论文集中,第1546-1555页,2018年[23] Jyh Jing Hwang , Stella Yu , Jianbo Shi , MaxwellCollins,Tien Ju Yang,Xiao Zhang,and Liang ChiehChen. SegSort:通过对片段进行区分排序进行分割。IEEE计算机视觉国际会议主席,2019年-ENUB:7333[24] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。Advances inNeural Information Processing Systems , 2015- Janua :2017[25] Jindong Jiang和Sungjin Ahn。神经符号生成机器。神经信息处理系统的进展,2020年12月(NeurIPS),2020年。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功