没有合适的资源?快使用搜索试试~ 我知道了~
自动识别精灵板材的关节部分
11635APES:Sprite板材的关节部分提取詹旭1、2马修·费舍尔2杨舟2迪帕利·阿内贾2鲁希凯什·杜德哈特1李毅3埃万杰洛斯·卡洛杰拉基斯11马萨诸塞大学阿默斯特分校2奥多比研究院3清华大学摘要操纵木偶是最流行的表示之一,以创建2D角色动画。创建这些木偶需要将角色划分为独立移动的部分。在这项工作中,我们提出了一种方法来自动识别这样的关节部位,从一个精灵表,这是一个lustration的字符,艺术家经常画木偶创作前显示的一小组字符姿势。我们的方法被训练来推断关节部位,例如头部、躯干和四肢,这些部位可以被重新组装以最好地重建给定的姿势。我们的结果表明,显着更好的性能比 替 代 定 性 和 定 量 。 我 们 的 项 目 页 面 https :xu.github.io/parts/包含我们的代码和数据。1. 介绍创建丰富的动画角色传统上是通过独立绘制角色的每个帧来完成的。为了加速这一过程,已经开发了工具,以允许通过操纵装备以不同的姿势容易地呈现精确装备的2D角色。为了创建这些装备,艺术家通常首先在精灵表或周转表中绘制完整角色的几个不同姿势和配置然后,他们手动分割出这些图纸中的公共部分,并将它们缝合在一起以创建最终的角色装备,然后可以将其连接起来以重建原始角色绘图[23]。从不同的精灵表中获得的部件也可以用作资产,并自由组装以创建新的角色装备1。创建一个装备良好的2D角色需要大量的专业知识,而自动装备方法有几个独特的挑战。动画角色可以有各种不同的肢体、附件和视角,这使得单个模板无法适用于所有角色。此外,与可以通过运动捕获或其他技术获取的真实数据集相比,操纵的动画角色的可用示例量相对较小这种有限的数据尤其具有挑战性,因为字符1https://pages.adobe.com/character/en/puppet-maker图1.给定子画面表作为输入(a),APES产生可以最好地表达子画面表中的姿势的关节部分(b)。所获得的部分可以进一步扭曲以生成新的姿势(c),或者自由操纵以创建新的木偶。通常以不同的风格绘制和动画。最后,子画面中显示的姿势既有关节变化又有非刚性变形。提取表达给定姿势的关节部位需要对精灵表中演示的运动进行有效分析。我们提出了一种方法来自动构建一个2D字符钻机从精灵表包含几个例子的字符在不同的姿势。我们的装备被表示为一组可变形层[50],每个层捕获一个关节部分。我们假设所有的角色都可以通过对每个puppet层应用不同的变形来重建,然后将这些层合成在一起。我们首先学习一个深度网络,它计算所有精灵对之间的对应关系。然后,我们使用这些对应关系来计算每个子画面的可能分割最后,我们尝试使用可能的木偶分割来重建精灵表中的其他精灵,选择具有最小总体重建误差的集合。我们评估我们的方法在几个测试精灵表。我们表明,我们的方法可以成功地产生艺术化的部分,并显着优于其他代表性的外观和运动为基础的共同部分分割工作[16,37]。我们的贡献如下:• 一种用于分析子画面表并创建可用作角色动画的木偶的相应关节式角色• 一个神经架构来预测像素运动和clus-11636将像素划分为铰接的移动部分,而不依赖于已知的字符模板。• 一种最佳化算法,用以选择能最佳地重建给定精灵姿态的角色部分。2. 相关工作刚性运动分割。已经提出了几种方法[38,41一条工作线[41,42]通过从2D光流中发现不同的运动模式来识别刚性组。这些方法通常在平滑视频序列上工作良好,但不能推广到彼此之间具有大姿态变化的图像。它们还针对对象级分割,并且经常错过每个对象内的artic- ulated部分。其他作品采用3D几何约束和特征来推断用于聚类的像素的潜在运动[38,43,46,55,58]。这些方法也假设小的运动,并且需要多视图输入来执行3D几何推断,因此不适用于艺术精灵。共部分分割。几个作品专注于从一组图像或视频帧中分割常见的前景对象或部分[7,8,16,18,24,44,45,59]。它们通常利用ImageNet上预训练网络的特征[34],因此更适合自然图像,而不是非真实感图像,如精灵。最重要的是,它们的分割更多地依赖于外观和语义的一致性,而不是部分运动。因此,即使在我们的数据集上训练,它们也会错过关节部分,正如我们在SCOPS [16]的实验中所示。其他共同部分分割工作依赖于运动,以更好地提取关节部分。早期的方法使用关键点跟踪和各种策略进行轨迹恢复和建模[6,9,28,47,54]。然而,它们是手动调整的,并且容易产生噪声跟踪和大的姿势变形。最近,深度学习方法已经显示出基于运动的共同分割的有希望的结果[35,37,52]。然而,它们严重依赖于预测良好的光流。当输入图像具有明显且大的姿态变化时,光流变得不可靠。它们也更适合于来自单一类别的对象的自然图像。当在具有不同articulation结构的子画面上进行训练时,它们产生的结果并不令人满意,正如我们最近的方法[37]的实验所示。3D移动分割。在最近的工作中也研究了3D点云的基于移动性的分割[21,22,49,51]。Yi等人。 [56]预测了不同对象清晰度状态下的一对实例的Hayden等人[12]提出了一种非监督部件模型,用于推断3D运动序列中的部件。MultiBodySync [15]实现了多个关节状态的一致对应和分割。通过光谱同步的相同对象。所有这些方法都是为三维点云或网格而设计的。尽管我们受到这些处理大姿态变化的方法的启发,但我们的方法结合了几种用于处理2D子画面的自适应方法,包括用于像素对应的卷积对应模块,用于处理超像素空间中刚性运动的有效聚类的神经投票策略,以及用于找到导致子画面最佳重建的共同部分的优化策略。傀儡操纵和变形。关于木偶变形的先前作品[13,30]假设给出了部件及其铰接部分已经由艺术家指定。我们的方法是对这些方法的补充,旨在自动化部分提取有用的输入。最近,Xuet al.[53]提出了一个神经网络来推断一个层次钻机的关节字符。然而,它只依赖于模型的3D几何形状,而不像我们一样考虑运动线索。3. 方法我们的方法的目标是推断关节部分的2D卡通人物只给出了几个姿势由艺术家根据不同的关节。姿势的数量可以针对每个角色而变化,例如,在我们的数据集里有6到10个输入是P个子画面RGB光栅图像Ii和它们的伴随前景二进制掩码Mi,i=[1,..., 其中P是姿势的总数。输出是一组关节化的身体部位,艺术家随后可以基于标准的部分装配方法和软件[2,5,23](参见图1的示例)制作动画我们的方法的流水线如图2所示。首先,给定来自输入的任何一对图像(姿势),我们的方法的第一模块,即对应模块,(第二节)。3.1)推断像素对应关系,其捕获图像之间的像素的可能运动。然后,通过聚类模块处理这些3.2),其试图找到具有相似运动模式的像素,并将它们分组为一组候选的关节部分作为输出。这种模块化架构具有从外观中分离运动和仅使用运动模式进行聚类的优点。最后,我们从所有对中收集候选零件,并选择最终的一组零件来代表目标木偶(第二节)。3.3)。所选择的部分需要彼此具有最小的重叠,并且还重建具有尽可能刚性的变形的所有姿势对应和聚类模块具有神经网络的形式,我们都以超监督的方式联合训练(第二节)。4)基于公开可用的小狗-宠物数据集(第二节)。 5.1)。 我们观察到,网络仍然可以推广到真实的,艺术家制作的卡通人物和姿势。零件选择解决了无参数优化问题,11637∈××- ××输入图像超像素像素对应旋转翻译预测聚类集群1集群2...选择图像对% s聚类的提取部分(a) (b)整个管道图2.管道概述。(a)给定任何一对图像,对应模块(Sec. 3.1)预测它们之间的候选像素对应关系。集群模块(Sec. 3.2)然后将具有相似刚性变换的超像素分组在一起。(b)在将对应和聚类模块应用于所有图像对之后,我们收集了分散在所有姿势中的部分。我们通过优化选择一个子集,可以最好地重建给定的姿态,同时它们之间的重叠最小。不需要训练的问题。3.1. 对应模块给定来自输入集合的一对图像Is、It和对应的二进制前景掩模Ms、Mt,对应模块预测两个为了实现这一点,该模块首先将每个输入图像和掩码连接起来,然后使用convnet将它们转换为特征映射FsRH×W×64。该网络采用U-Net架构[33]在其编码器中由十个卷积层组成,在其解码器中由另外十个卷积层编码器中的卷积层实现门控卷积[57],其门控机制防止由掩码指示的背景像素影响前景像素对应。每个像素的特征向量根据其L2范数被归一化,使得其为单位长度(即,它位于单位超球面上[48])。接下来,给定源图像Is中的每个前景像素x=(x,y),其在目标图像Is中的对应像素x′=(x′,y′)被发现为在余弦相似性方面具有最相似特征向量的像素相反,我们从单个像素中收集对来自成对的对应点(x1,x'1)和(x2,x'2)的变换的投票,其中x1,x2是源像素,x'1,x'2是它们在目标图像中的对应。然后,我们对这些投票进行聚类,以发现主要的刚性运动变换和相关部分,类似于Hough投票[4]。投票配对。从所有可能的像素对x1、x2的对应中收集投票即使对于中等图像分辨率也将是计算上昂贵的。另外,远处的像素通常属于不同的部分,因此,它们的投票将倾向于不相关。为了加快计算速度,我们采用超像素分割方法SLIC[1]到我们的输入图像,并假设一个超像素内的所有像素共享相同的运动变换。旋转提取。为了从对应对中提取旋转,一种流行的方法是使用正交Procrustes分析[14]。然而,通过我们的实验,这种方法被证明不是鲁棒的-即使是轻微的噪音对应也会显着扭曲投票。相反,我们遵循一种convnet方法,该方法学习从近似对应中估计变换。我们网络的输入是一个存储投票的地图x′=arg maxu∈It,Mt(u)=1.Fs(x)·Ft(u)(1)对. 具体地,对于每个源像素x1,我们存储表示其相对于我们尝试了其他方法来提取相应的-像RAFT [40]和COTR [17]这样的数据集在与我们相同的数据集上训练。两者都导致了更差的结果(参见我们的实验部分进行比较和讨论)。3.2. 聚类模块给定源图像和目标图像Is、It之间的像素对应关系,我们的聚类模块旨在通过对具有相似运动变换的像素进行分组来发现字符铰接部分。由于无法估计变换,即2D旋转和平移到其超像素质心xc,以及对应的2D向量x′1x′c. 这导致H W4输入投票图。没有任何对应关系的像素由附加的二进制掩码指示。投票和掩码映射是通过一个U-Net主干和门卷积处理的,类似于我们的通信模块的convnet。输出是表示源图像中每个像素的运动特征的HW64然后,我们在每个超像素区域上应用空间平均池化,以获取所有Ks超像素的运动特征RKs×64最后,应用MLP层来映射图像对1图像对2…11638--Σ∈∈||∈在spondence和分割模块中,我们获得了源姿态Is的一组部分。处理所有姿势对Σx,x′u∈Utexp. Fs(x)·Ft(u)/τ分散在所有姿势中,其中C=ΣsCs是它们的总和将特征映射到RKs×2空间,表示Ks超像素的旋转角度的(残差)正弦和余弦。翻译提取。直接预测平移和旋转是可能的,但是我们发现首先预测旋转,然后基于旋转更新运动特征,最后预测平移(也参见我们的消融)更准确。通过这种方式,我们不鼓励网络仅将任何小的旋转表示为平移。平移预测网络共享旋转提取网络的相同架构。集群。给定提取的超像素的旋转和平移,我们继续表征它们的运动相似性,或者换句话说亲和度。该亲和度是基于受[15]启发的运动残差我们应用每个超像素的估计旋转和平移来变换所有其他超像素,并计算变换后的超像素与其对应的超像素之间的位置差。具体来说,给定一个超像素零件.尽管在前一节中使用了刚性来近似模拟部件的运动,但并非所有的精灵表字符都完全刚性变形。在每个零件内及其边界周围通常存在小的非刚性变形。因此,我们采用尽可能刚性(ARAP)变形[39],以便更忠实地使用所选部分重建姿势。为了满足上述标准,我们用公式表示在我们的情况下是部分)覆盖了“元素”的全域P=pi(即,所有姿势上的所有超像素)。具体地说,通过引入一个二进制变量zc,无论部分Qc是否属于最优集合(“集合覆盖”),我们用公式最小zcqc∈QS.T.zc≥1,对所有pi∈ P(3)p与提取的旋转矩阵R[i]和平移t[i],qc:pi∈qc我是超像素Pj的运动残差被计算为:<$x∈pj(Rs[i]·x+ts[i] −x′)我们通过松弛来解决上述的非线性规划问题。这就产生了一个连续的线性规划问题,用内点法求解Ds(i,j)=|pj|(二)方法[11]。最后,我们应用随机舍入算法[32]将连续结果转换为我们的解,其中Pj是超像素Pj中的像素的数量。通过更多的MLP层处理运动残差矩阵DsRKs×Ks×2以计算超像素亲和矩阵AsRKs×Ks。有关架构的更多详细信息,请参见补充资料。给定预测的亲和矩阵As,通过使用谱聚类来实现分组[27]。在这里,我们遵循差分聚类方法[3,15],其导致矩阵GsRKs×Cs表示超像素到Cs聚类的软隶属关系。 我们遵循[15],根据从大于阈值的谱聚类中提取的特征值的数量来设置聚类的数量。这里我们将阈值设置为前10个特征值之和的1%通过将软隶属度转换为硬隶属度,结果聚类基于其配对的目标姿态揭示源姿态的铰接部分3.3. 零件选择二元预测随机路由可以给我们多种可能的解决方案。我们通过变形每个解决方案中的选定部分来衡量它们的质量,以最好地重建所有给定的姿势。变形基于ARAP [39]。我们选择具有最小重建误差的最佳解决方案(详见补充资料)。4. 培训在训练过程中,我们使用了对应和聚类模块通信模块监督。我们通过对比学习方法使用成对像素对应的监督来训练对应模块。具体来说,给定一对输入图像Is,It,我们最小化了对应损失[26,29],这鼓励地面实况对应像素对(x,x′)的表示比非对应像素对更相似:通过传递每一对姿势,我通过我们的对应-L(corr)= − logexp. Fs(x)·Ft(x′)/τ(四)产生候选部分Q={q1,q2,.,qC}其中Ut是预定义的像素数,我们随机地从图像Itindi的前景区域采样number.显然,这些部件中的许多是冗余的,例如,在不同姿势下提取的同一手臂。我们的部分选择过程选择了一组紧凑的部分,(a)可以重建所有的姿势,误差最小,而且(b)彼此重叠最小。为了重建姿势,一种可能性是使用候选的刚性变换。由其掩码Mt表示。在我们的实验中,我们将这个数字设置为1024。温度τ用于缩放余弦相似之处它最初设置为0.07,并且在我们训练对应模块时同时学习[31]。在所有训练对应像素对上平均总对应损失Lc11639USS−Σ·SΣSHuκ∈U(x)S不 κx′=uκ∈ U(x).·Σ·Ss.cΣ在训练过程中,我们交替地替换等式的argmax。1与软版本,以保持可微性,并使反向传播的损失从聚类模型。具体来说,我们将其替换为与每个源图像像素最接近的前k个目标图像前景像素的加权平均值(在我们的实现中k=35.1. 数据集为了监督我们的神经模块,我们使用了两个公开的数据集。OkaySamurai数据集。首先,我们使用公开可用的木偶从OkaySamurai网站2.该数据集由57个艺术家创建和操纵的角色组成,expFs(x)Ft(uκ)/τuκexp. F(x)·F(u)/τ(五)不同数量的关节部分和跨越不同的类别,例如全身或半身的人形机器人,玩偶,机器人,通常有衣服和手等配件,其中(x)表示前k个最相似的目标姿态pixels像素tox使用cosine余弦similarity相似.最接近的像素是在每次通过我们的网络后更新。群集模块监督。我们用二进制交叉熵(BCE)损失训练聚类模块,监督地面实况亲和矩阵Agt(i,j)。L(aff)=BCE(As,Agt)(6)类似于[15],我们在运动残差矩阵Ds上引入额外的损失,以鼓励一致的刚性变换预测,即等式中的Rs,ts2、跨同一部分的超像素:[Agt(i,j)=1]·S持有的物品。这个数据集的优点是,操纵的字符已经被分割成部分,可以用来训练我们的神经模块,并允许数值评估。评估我们将数据分割为30个傀儡用于训练,7个用于保持验证,20个用于测试。对于每个训练和验证木偶,我们生成200个运行-DOM姿态并采样100个姿态对以训练对应和聚类模块。通过指定范围[ 0. 3π,0。3π]到他们的骨骼关节。我们还在每个身体部位上应用小的、附加的非刚性变形,以提高姿势多样性(详细信息见补充材料)。Creative Flow+ 数 据 集 。 尽 管 增 加 了 姿 势 , 但OkaySamurai中的训练木偶的数量仍然存在L(运动)=i、j[Agt(i,j)= 1]i、j(七)有限公司因为我们的通信模块是外表-敏感,我们可以在更大的数据集上单独预训练它其中[ ]是指示函数。最后,我们采用软IoU损失[19]来推动俱乐部。将矩阵G中的超像素的隶属度排序为与地面实况相符一个这样的例子是最近的CreativeFlow+数据集[36]。该数据集包含动画序列尽可能地与地面实况相似SGgt.以及地面实况像素对应。 的数据集不包含关节部分的分割C(gt)S.g,ggtGT然而,它仍然是一个有用的来源,以预训练我们的通信L()=Sc=1CgcH(c)∥1 −g,ggtH(c)(八)module.动画序列是从不同的生成,我们的3D网格。我们把那些没有关节的姿态结构,例如,由ShapeNet mod生成的其中gc和ggt表示Gs和Ggt元素的列。由于我们也对姿势对的训练感兴趣,C s分别Cgt是地面实况中的部件总数。(c)表示基于Hungarian匹配的预测聚类与地面实况聚类的匹配列索引c[20]。我们注意到ILP解决方案不参与我们的网络培训实施。端到端训练需要区分ILP的方法[10,25],但这些方法会使训练在计算上过于昂贵。实施详情。使用Adam优化器使用所有上述损失的总和来我们建议读者参考补充资料以获得更多细节,也可以参考我们的项目页面以获得源代码(链接包含在我们的摘要中)。5. 实验在本节中,我们将讨论我们的数据集和结果。我们还展示了定性和定量的比较。H(c)11640对于大的运动变化,我们在其间至少采样30帧的姿势。总的来说,我们挑选了8058对Creative- Flow+卡通渲染用于训练,1165对用于验证,1078对用于评估我们与替代品的对应关系。SPRITES数据集。我们使用另一个数据集来评估我们的方法如何推广到我们训练中不涉及的其他数据我们得到了10个精灵表手工cree- ated艺术家 3。我们将此数据集称为“SPRITES”。对于每个精灵表,我们收集了6-10个角色的姿势,都是艺术家绘制的。该数据集的特征没有被操纵,也没有被分割成部分,因此我们使用该数据集进行定性评估。培训战略。我们首先使用等式的InfoNCE损失来4、创意--https://www.okaysamurai.com/puppets/3我们获得许可出版它们11641−图3. 左:每个OkaySamurai测试木偶的第一行显示了精灵表的输入姿势。最下面一行显示了我们重建的姿势。右(方框):APES预测的关节部分Flow+数据集。从预训练的correspondence模块开始,我们然后在OkaySamurai数据集的训练分割上训练两个神经模块。这种策略提供了最佳性能。我们还发现将颜色抖动增强应用于每个训练对很有帮助。评估指标。CreativeFlow+数据集的测试分割可用于评估对应准确性。我们使用端点误差(EPE)作为我们的评估协议,它测量预测和地面实况对应像素之间的平均距离。OkaySamurai的测试分割用于评价部件提取。对于每个测试木偶,我们生成10个不同的200个测试姿势。我们处理所有可能的对(每个木偶45对),通过我们训练的对应关系,聚类模块和部分选择程序,为每个木偶输出选定的关节部分。我们还通过ARAP对选定的部分进行变形,以最好地重建每个输入姿势(参见第二节)。3.3)。为了评估输出零件,我们首先基于交集对并集(IoU)在地面实况和重建零件之间执行匈牙利匹配,其中1IoU用作成本。由此产生的平均部分IoU被用作我们的主要评估指标。作为额外的评估指标,我们还使用MSE、PNSR和11642图4.从艺术家创建的精灵表单(“SPRITES”数据集)中提取部件在方框中,我们显示了预测的铰接部件。LPIPS[60].高重建误差表明在变形中使用了不合理的部件。5.2. 从Sprite Sheets中图3显示了我们从OkaySamurai数据集的特征子画面表中提取关节部分的结果。我们还包括重建结果的基础上的变形过程中所描述的第3.3节对每个例子的第二行。我们的方法在大多数情况下成功地恢复了铰接部件,尽管部件的边界并不总是准确的(例如,见最后一个例子中的肩膀和臀部)。图4显示了SPRITES数据集的我们的方法能够在这些艺术家绘制的姿势中检测直观的铰接部件,尽管靠近部件边界的区域(例如,腿,鸟的尾巴)稍微分组。我们的补充材料包括CreativeFlow+数据集的其他定性结果此外,补充视频显示了我们的方法的应用程序,自动木偶创作和自动合成的动画骨架的基础上,我们确定的部分。5.3. 比较关节部分提取。我们的方法(APES)是作为SCOPS-s的版本变量。我们注意到,SCOPS不使用光流或外部对应,因此APES仍然比SCOPS-s使用更多的监督。尽管如此,我们认为显示这种比较是有用的,因为SCOPS是不考虑运动提示的方法的典型示例。我们还注意到,SCOPS使用语义一致性损失,使分割在同一类别的对象之间更加一致。我们测试了有和 没 有 这 种 损 失 的SCOPS-s; 我 们 将 这 些 变 量 称 为SCOPS-s(sc)和SCOPS-s(nosc)。我们反复测试了损耗权重,以找到最佳配置,并选择最佳输出部件数量(12个部件)。我们注意到,SCOPS的输出分割图包含一个背景区域-我们在评估中忽略它。所得到的部分 区 域 可 以 用 相 同 的 指 标 进 行 评 估 , 平 均 在OkaySamurai的测试木偶的所有姿势最后,我们注意到SCOPS无法执行重建,因此,我们仅报告OkaySamurai测试数据集中的分割性能。表1显示了OkaySamu-rai测试集的平均部件IoU请注意,我们还包括原始自监督SCOPS方法的性能,仅供参考。所有SCOPS变体都具有低性能,例如,APES结果表明,外观-首先要处理的是铰接式用于真实感图像中的部分共分割的OPT可以应用于我们的问题。方法IoU表1.OkaySamurai测试集的结果。基于共部分分割的方法在提取子画面中的有纹理的部分时不是有效的。另一种共同分割方法是Siarohin等人 [37]的方法,该方法依赖于运动提示。我们把它命名为MoCoSeg。像SCOPS一样,它是自我监督和视频训练的。同样,为了进行公平的比较,我们在与我们相同的训练源上重新训练该方法,并且还使用我们的聚类损失和流输出上的对应损失我们将这种监督变体称为MoCoSeg-s。我们调整了他们的损失有人可能会说,外观线索可能足以检测出角色不同姿势的共同部分。为了检验这一假设,我们与SCOPS[16]进行了比较,SCOPS是一种最先进的共部分分割方法。该方法是自我监督的,并且自我监督被应用于真实世界的图像。我们使用我们的方法(CreativeFlow+和OkaySamurai)在相同的训练源上训练SCOPS,并且我们还使用我们的聚类损失添加监督信号我们称之为超级-重量和输出部件数量,以实现最佳性能,验证分割中的mance。表1示出了MoCoSeg-s和Mo-CoSeg的性能,两者都是低的。我们怀疑MoCoSeg推断的运动与它们的部分分割相关,这更适合于具有一致的articulation结构的对象。这表明这种基于运动的分割方法不适合我们的设置。图5显示了上述部分 提取 关于Sprite[第16话]百分之二十七点四薄膜.不存在先前SCOPS-s(sc)33.1%已经被采用的方法-SCOPS-s(nosc)百分之三十五点八11643输入图像SCOPSSCOPS-s(sc)SCOPS-s(nosc)MoCoSegMoCoSeg-s我们的图5.从OkaySamurai数据集的特征姿势上使用不同方法识别部件请注意,不同的颜色表示不同的部分(颜色没有语义对应)。APES更成功地识别铰接部件。[17]第四十话:一个人的世界EPE(终点误差)28.07 31.9322.90表3.我们变体的消融研究(OkaySamurai数据集)。分割模块与Eq.6和Eq。8,而不对运动残差矩阵进行监督 无Eq. 6:我们用Eq. 7、Eq.仅8个,不对亲和矩阵进行监督。RAFT corr:而不是我们基于UNet的通信模块,我们使用RAFT来表2. Creative Flow测试的定量结果基于EPE指标进行划分。我们的方法实现了最低的EPE。SCOPS和MoCoSeg变体和APES。与竞争方法相比,我们的方法可以更准确地从输入姿势中推断关节部位,更好地与底层关节运动对齐通信。我们还评估我们的对应模块对替代品。首先,我们将我们的方法与光流法RAFT[40]进行比较。对于RAFT,我们移除其在线生成的掩模以允许较长范围的光流,并在相关操作中并入前景掩模,使得仅前景像素具有正相关性。此外,我们将预测的对应像素移动到它们最近的前景像素。我们注意到,我们在与我们相同的训练数据集上微调了RAFT这比在我们的数据集上从头开始训练它,或者使用未经微调的预训练模型更好。表2显示了我们对CreativeFlow+的测试分割的定量结果。与RAFT相比,我们的对应模块产生更准确的对应。我们还比较了基于变压器的像素对应方法,称为COTR[17]。我们在与我们相同的训练分割上微调了COTR,并将预测的对应像素移动到最近的前景像素。尽管如此,COTR的结果还是不如APES。关于我们的方法和其他方法的对应结果的可视化,请参见我们的补充材料。5.4. 消融研究我们在OkaySamurai数据集上进行了一组消融实验,因为它包括用于评估的地面真实人工部分。我们与我们的方法的以下变体进行比较:RT simult:我们同时预测每个超像素的旋转和平移,而不是像我们原始的方法那样依次预测 无Eq. 第七章:我们训练预测以下步骤中使用的对应关系COTR corr:我们使用COTR来生成对应关系。我们在表3中报告了我们的所有评估指标,包括重建指标,因为所有上述变体都采用相同的部件选择和重建阶段。我们观察到,劣质的结果,从所有减少的变种。6. 结论我们提出了APES,一种方法,提取关节部位从一个稀疏的一组字符构成的精灵表。据我们所知,APES是第一个能够从未分割的角色姿态中自动提取可变形木偶的方法。我们相信,能够解析角色艺术品和生成钻机的方法有可能显着自动化的角色动画工作流程。局限性。虽然我们可以处理各种字符样式和部件配置,但仍有一些限制。具有非刚性或细微运动的零件不能很好地提取。例如,考虑到饮食-如右侧所示的支柱姿势,我们的方法提取了头部、手臂和身体块,但它没有分割细腿和单个腹部段,因为这些似乎相对于身体的其余部分没有明显的旋转正如我们在实验中所讨论的,零件的边界并不总是准确的。我们的方法选择零件,使它们在零件选择过程中最小限度地重叠因此,小的铰接部件可能会被遗漏,并被较大的部件所取代。更明确地处理强烈重叠的部分,精灵之间的层顺序变化(例如角色转身)和大的遮挡将使我们的方法适用于更广泛的精灵表情况。鸣谢。我们的研究部分由NSF(EAGER-1942069)和Adobe资助。方法IOUMSEPNSR LPIPS实时同步百分之六十九点五741.58 20.190.10无Eq.7百分之七十点一749.58 20.140.1011644引用[1] Radhakrishna Achanta , Appu Shaji , Kevin Smith ,Aurelien Lucchi,Pascal Fua和Sabine Susstrunk。切片超像素与最先进的超像素方法的比较。IEEE TPAMI,34(11),2012年。3[2] Adobe角色动画师,版本。2021. https://www.土坯。 com/products/character-animator.html. 2[3] Federica Arrigoni和Tomas Pajdla。通过同步进行运动分割。在ICCV研讨会,2019年。4[4] 达纳·H·巴拉德。推广霍夫变换检测任意形状。PR,13(2),1981. 3[5] Pe'terBorosa' n,MingJin,DougDeCarlo,YotamGingold和Andrew Nealen。基于零件的形状建模和变形的自动装配. ACM TOG,31(6),2012. 2[6] 张亨进和扬尼斯·德米里斯结合运动信息和运动学信息的高清晰度运动学结构估计.IEEE TPAMI,40(9),2017年。2[7] Subhabrata Choudhury,Iro Laina,Christian Rupprecht,and Andrea Vedaldi.从对比重建中发现无监督的零件。在NeurIPS,2021年。2[8] Edo Collins Radhakrishna Achanta和Sabine Susstrunk。用于概念发现的深度特征分解。在ECCV,2018。2[9] 卢卡·德尔·佩罗,苏珊娜·里科,拉胡尔·苏克坦卡尔,还有维托里奥·法拉利.从多个视频中发现一个铰接对象类的物理部分在CVPR,2016年。2[10] Aaron Ferber,Bryan Wilder,Bistra Dilkina,and MilindTambe. Mipaal:混合整数程序作为一个层。在AAAI,2020年。5[11] 罗伯特·弗罗因德。基于牛顿法的线性规划的原对偶邻域点法麻省理工学院,2004年。4[12] 大卫·S·海登,杰森·帕切科,约翰·W·费舍尔。用李群动力学进行非参数化物体和零件建模。在CVPR,2020年。2[13] 托拜厄斯·欣茨,马修·费舍尔,奥利弗·王,伊莱·谢克特曼,斯特凡·韦姆特.动画:少镜头的关键点角色动画和休息。arXiv预印本arXiv:2102.03141,2021。2[14] Berthold KP Horn使用单位四元数的绝对定向的封闭形式解。Josa,4(4),1987年。3[15] Jiahui Huang , He Wang , Tolga Birdal , MinhyukSung , Federica Arrigoni , Shi-Min Hu , and LeonidasGuibas.多体同步:通过3D扫描同步进行多体分割和运动估计。在CVPR,2021年。二、四、五[16] Wei-Chih Hung , Varun Jampani , Sifei Liu , PavloMolchanov,Ming-Hsuan Yang,and Jan Kautz. Scops:自我监督的共同部分分割。在CVPR,2019年。一、二、七[17] Wei Jiang , Eduard Trulls , Jan Hosang , AndreaTagliasacchi,and Kwang Moo Yi.Cotr:用于图像间匹配的对应Transformer。ICCV,2021。三、八[18] 阿曼德·儒林,弗朗西斯·巴赫,让·庞塞。多类共分割。CVPR,2012。2[19] Phil i ppK raühenbuühlandVladlenKoltun. 稠密随机场的参数学习与收敛推理 在Int.Conf. Machine Learning,2013. 5[20] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊,2(1-2),1955。5[21] Hao Li,Guowei Wan,Honghua Li,Andrei Sharf,KaiXu , and Baoquan Chen. 使 用 4d ransac 移 动 配 件 。Computer Graphics Forum,35(5),2016. 2[22] Ting Li,Vinutha Kallem,Dheeraj Singaraju,and Rene'Vidal.多刚体运动的射影分解。CVPR,2007。2[23] Songrun Liu,Alec Jacobson,and Yotam Gingold.蒙皮三次贝塞尔样条和catmull-clark子曲面。ACM TOG,33(6),2014. 一、二[24] Xiankai Lu , Wenguan Wang , Jianbing Shen , DavidCrandall,and Jiebo Luo.基于共同注意连体网络的零镜头视频对象分割IEEE TPAMI,2020。2[25] 贾扬塔·曼迪和提亚斯·冈斯基于线性规划的预测+优化的内点求解。在NeurIPS,2020年。5[26] Natalia Neverova 、 David Novotny 、 Vasil Khalidov 、Marc Szafraniec、Patrick Labatut和Andrea Vedaldi。连续的表面嵌入。在NeurIPS,2020年。4[27] Andrew Y Ng、Michael I Jordan和Yair Weiss。关于谱聚类:分析和算法。InNeurIPS,2002. 4[28] Peter Ochs 和 Thomas Brox 。 视 频 中 的 对 象 分 割 见ICCV,2011年。2[29] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码 的 表 示 学 习 。 arXiv 预 印 本 arXiv :1807.03748,2018. 4[30] Omid Poursaeed 、 Vladimir Kim 、 Eli Shechtman 、 JunSaito和Serge Belongie。神经木偶:生成分层卡通人物.在WACV,2020年。2[31] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , Sandhini Agarwal , GirishSastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al. Learn- ing transferable visual models from naturallanguage super- vision. InInt. Conf. Machine Learning ,2021. 4[32] Prabhakar Raghavan和Clark D Tompson。随机舍入:一种 可 证 明 良 好 算 法 和 算 法 证 明 的 技 术 。Combinatorica,7(4),1987. 4[33] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页,2015年。3[34] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. Imagenet large scale visual recognitionchallenge.IJCV,115(3),2015. 2[35] 萨拉·萨布尔,安德里亚·塔利亚萨奇,索罗什·亚兹达尼,杰夫·弗雷·辛顿,大卫·J·弗利特.用流动胶囊表示无监督的零件。InInt. Con
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功