动画Transformer：学习动画线段对应的视觉关系

66 浏览量更新于2023-10-14 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11323动画Transformer：通过片段匹配实现视觉对应Ev anCasey1V´ıctorPe´ rez1ZhuoruLi21Cdmium2项目HAT图1：（右）我们的模型在线图像中的线封闭段水平上学习视觉对应。（左）使用学习到的片段对应关系，我们的模型通过将颜色从参考图像传播到一系列灰度线图像来执行着色。摘要视觉对应是构建手绘动画辅助工具的基本构建块。然而，虽然大量的工作集中于学习像素级的视觉对应，但是很少出现学习在手绘动画中自然发生的线包围（线段）级的对应的方法在动画中利用这种结构有许多好处：它避免了高分辨率图像上的像素注意力的存储器复杂性，并且能够使用包含每段颜色级别的对应信息的真实世界动画数据集为此，我们提出了动画Transformer（AnT），它使用一个基于转换器的架构来学习的空间和视觉之间的关系段在一系列的图像。通过利用前向匹配损失和循环一致性损失，我们的方法在来自真实动画制作的缺乏地面实况对应标签的具有挑战性的数据集上获得了与最先进的像素方法相比优异的结果1. 介绍手绘动画已经有100多年的历史了，是最受欢迎的数字媒体之一。今天娱乐聊天尽管绘图板和数字软件的出现使cre-尽管手绘动画变得更加容易，但它仍然是一个高度手动的过程，涉及绘制和编辑每个单独的帧。这些任务中的许多任务位于重复算法过程和艺术选择之间的灰色区域，为增强艺术家工作流程的新辅助工具打开了大门现有的商业工具已经在该领域中应用了启发式算法，结果有限，通常要求艺术家以矢量格式工作或使用复杂的字符操纵，这消除了最终产品的手绘感觉。另一方面，深度学习方法可以直接作用于原始像素输入之上，但是不能容易地缩放到HD分辨率，并且不能适当地利用手绘动画图的结构一一具体地在本文中，我们专注于学习的任务，跨序列的光栅动画线条画的视觉对应。这是构建辅助动画工具的基本构建块，这些辅助动画工具用于诸如着色、中间插入和纹理等任务，这些任务构成了动画管道中的大部分乏味的非创造性工作。有了相应的信息，动画师可以对序列中的几帧进行着色或纹理处理，并将颜色传播到其余的图像中，从而节省了数小时的手工劳动。可以通过变形生成新的中间帧-11324- 使用对应信息对相邻帧进行编码，这可以减少进行平滑运动所需的线条绘制的量。尽管需要数据驱动的解决方案来解决对应问题，但由于设计要求困难和缺乏具有对应标签的可用数据，几乎没有取得进展。合适的方法应（i）在光栅输入上操作并缩放到HD（1920×1080）及以上分辨率;（ii）在片段水平上产生对应;（iii）能够处理复杂的真实世界动画;（iv）可使用彩色图像作为监督来训练;（v）对于交互式应用来说足够快。在本文中，我们提出了动画Transformer（AnT）来解决这些问题。与基于像素的视频跟踪方法不同，基于像素的视频跟踪方法在大量像素上难以计算注意力，AnT在线图像中的线封闭段（见图2）上操作，并使用基于Transformer的架构来学习段之间的空间和视觉关系通过对该表示进行操作，AnT避免了直接处理整个HD图像的需要，并且计算和存储器效率都很高，可以扩展到4K图像及更高。我们用前向匹配损失和循环一致性损失来优化AnT，这使得它能够在没有完全真实对应标签的情况下在真实世界的动画数据集图2：给定输入图像I，通过在I的每个包围体的中心周围放置边界框并将其大小调整为公共大小来获得每个裁剪Ci我们进行了广泛的实验，以显示我们的模型在各种设置的有效性。当在从3D渲染软件生成的地面实况对应标签上进行训练时，AnT即使在将领域特定改进添加到基线之后也展示出超过基于强像素的基线的大的改进。当AnT仅在来自真实世界动画数据集的彩色图像上训练时虽然AnT在动画中具有广泛的适用性，但我们通过展示参考图像的引导着色结果来突出其作为创意工具的潜力2. 相关工作通信匹配：我们的论文建立在越来越多的研究基础上，这些研究通过匹配从图像中的深度神经网络提取的特征来学习对应关系。一种常见的方法是从图像中提取高级激活图，并在特征空间中匹配相应的区域。该框架已应用于照片逼真域中的视频跟踪[26，11]和基于示例的着色[15，31]以及线图像动画域中的基于示例的着色[21，34]。然而，以这种方式学习的表示即使使用多尺度技术[12]或局部注意力[11]，将这些技术用于HD及以上分辨率在计算上也是相比之下，我们的方法计算的关注线封闭的片段在图像中，这使得注意力操作的限制的片段的数量，而不是在输入图像中的像素。研究还探索了使用特征匹配框架结合表示图像区域的不同方式，例如补丁[9，2]和局部描述符[18，13]。对我们的方法特别感兴趣的是学习具有局部描述符的草图图像之间的多视图对应关系的研究路线[16，30]。然而，我们的领域需要我们在片段级别学习对应关系，以便我们可以在具有片段级别颜色标签的真实世界动画数据集上进行训练，并使用学习的对应关系作为着色的辅助工具。基于段的方法：分段提供了一种自然的方式来将线条图像分解为有用的表示，以用于学习任务，例如通信。与我们的方法相关的是Zhu等人的工作。[36]，其将图像序列上的片段级对应匹配公式化为网络流图问题，并使用具有Shape Context [1]特征的k-最短路径算法求解全局最优值。该方向的其他工作采用类似的图匹配方法，并在非学习片段特征之上应用谱匹配[14]和二次规划[19Dang et al.的最新研究[5]提出使用U-Net来提取局部特征并优化具有三元组损失的对应匹配，该三元组损失最小化匹配片段之间的距离并惩罚非对应片段之间的低距离。类似于这些方法，AnT使用跨段的全局特征聚合来学习对应关系。然而，我们是第一个探索使用Transformer来聚合分段特征，并且不需要地面真实对应或硬示例挖掘作为输入数据。变压器：Transformer已经被证明在学习领域中的广泛任务方面非常有效，例如语言建模[25]，图像识别[6]，ob-11325∈A{}B{}∈∈目标检测[3]和蛋白质折叠[20]。Transformers引入了自注意层，类似于非局部神经网络[27]，扫描序列的每个元素，并通过聚合整个序列的信息来更新它。变形金刚在计算机视觉中的最新应用使用图像补丁[6，3，2]来打破将图像放大到易于处理的序列长度，这避免了在每个像素上计算注意力的二次复杂性Sarlin等人[18]提出使用基于变换器的体系结构来匹配局部特征描述符的集合，其中通过求解可区分的最优传输问题来估计匹配分配。我们以类似的方式设计我们的Trans-former架构，但是使用不同的匹配和损失公式来处理一对零和一对多对应可以在我们的域中发生循环一致性：循环一致性已被用作3D形状匹配、图像对齐、深度估计和图像到图像转换的学习目标[37]。在时域的背景下，它可以是学习信号的丰富来源，因为视觉世界是连续的和平滑变化的。最近的工作表明，循环一致性对于通过学习以向前-向后的方式传播标签来学习照片逼真域[11，9]我们的工作将这一想法应用于片段标签的上下文中，这允许我们在没有地面真实对应标签的数据集上进行面向草图的深度学习：我们的工作也与更广泛的面向草图的深度学习领域密切相关。研究调查了各种任务的方法，例如来自提示的单图像着色[33，29，4]，草图清理[22，23]，草图生成[8，7]，草图阴影[35]和矢量图形合成[17]。辅助动画工具：最后，我们从各种旨在增强模拟管道的创意工具中获得灵感。 LazyBrushbySy´koraetal. [24]从不精确的颜色笔画中绘制Jamrisˇka等人的EBSynth[10]使用基于块的合成来从具有纹理连贯性、对比度和高频细节的示例图像绘制照片级逼真的视频。BetweenIT作者：Whited et al.[28]使用来自关键帧的笔划内插来平滑矢量化动画的中间插入。Zhang等人[34]提出了一种用于使用深度神经网络对来自线帧和彩色关键帧的中间帧进行彩色化的系统。这项工作与AnT共享类似的目标，但在像素而不是分段的水平上操作。3. 方法动机：我们的目标是估计在一系列的动画帧的水平线封闭段的线图像的视觉对应。通过使用这种自然出现的结构（见图2），我们学习了片段之间的空间和位置关系;例如手将具有用于每个手指的节段，这些节段全部连接到用于手掌的节段。当角色在整个序列中移动时，我们可以预期结构会保持不变;如果我们看到几个手指形状的片段，我们知道我们将看到附近的圆形手掌片段或小指甲片段（见图3）。然而，由于遮挡和运动，片段可能完全离开帧或在下一帧中被分割成更小的子部分，这两者都对应于较早帧中的相同片段（参见图3）。因此，我们将AnT公式化为片段匹配问题，其中片段可以与其他帧中的0、1或多个片段匹配。数据：AnT的架构受其操作的数据结构以及两种类型标签的可用性的影响：对应标签，其在整个序列中为每个片段分配一致的唯一ID;以及颜色标签，其为每个片段分配一致的但可能非唯一的颜色。对应标签为我们的任务提供了最干净、最直接的监督形式;但代价是它们在现实世界中不存在-另一方面，彩色动画在现实世界中是丰富的，但为我们的任务提供了一种较弱的监督形式;多个片段通常在整个序列中共享相同的颜色，因此颜色标签仅告诉模型一个帧中的片段对应于另一帧中共享相同颜色的片段集合中的某个片段。我们的架构能够有效地操作和学习这两种形式的监督。配方：考虑两个线图像ARH×W×1和B RH×W×1，它们具有M和N个段，并且由以下索引：M和：=1，…N。我们使用陷球填充算法从线图像中提取线段，其中每条线封闭的区域是一个单独的线段。我们使用每个片段的边界框坐标将图像分成一组较小的裁剪图像，然后将每个裁剪图像调整为较小的分辨率H c，W c。每个分段具有以其边界框坐标形式的位置信息pi=（xi，yi，hi，wi）和以连接的线图像和二进制分段掩码裁剪形式的视觉信息di R H c ×W c ×2。我们将这些特征X1共同称为局部分段特征。11326×个图3：AnT架构。给定参考线图像和目标线图像，主干模块提取每个段的视觉和位置信息。每段特征通过多路转换器架构，该多路转换器架构跨段和帧聚集信息，产生参考段和目标段之间的相似性矩阵。最终的颜色预测是经由参考帧中的颜色标签的线性组合来计算的。3.1. AnT架构如图3所示，我们的模型由三个主要模块组成：CNN骨干网络提取每个片段的视觉特征，边界框编码器提取每个片段的位置嵌入，以及多路Transformer，其学习跨片段和帧的全局结构并预测最终匹配矩阵。多路Transformer架构的灵感来自于[18]我们鼓励读者参考原始的Su- perGlue论文以了解更多细节。虽然位置和视觉特征是用于估计段对应的重要基础，但通常存在视觉模糊。出现的错误不能通过单独查看局部特征来解决例如，在图4中，我们看到了将使得仅在局部特征上进行匹配是不可能的情况的示例：遮挡或变形可以破坏单独的分段，或者可能存在多个分段，诸如如果孤立地观看则无法彼此区分的眼睛。此外，动画线条画通常包含属于相同语义部分的相邻段的组，但是由于艺术家已经在前景中绘制了对象，其轮廓线与其后面的对象相交，所以被分成多个段（参见图5）。这些挑战激发了对一种体系结构的需求，该体系结构可以在各个图像内跨片段聚合全局特征信息，以及跨图像集成我们将在以下章节中对此进行更详细的描述。CNN骨干网：从裁剪的图像RHc×Wc×2开始，常规CNN主干为每个片段裁剪生成高级激活图。11卷积压缩了高级卷积的空间维度。图4：我们的评估数据中的遮挡示例。我们在中间一行显示了模型在此序列上的性能结果图5：动画中的分组示例：如果你放大左边的图像，你会看到从阴影过程中产生的许多较小的片段，它们属于同一个语义组。激活图产生D维特征向量。在我们的实验中，我们使用D=256和Hc，Wc=32。位置编码器：我们将来自CNN主干的视觉特征与来自边界框坐标的位置信息相结合，以获得每个片段的最终局部特征xi。我们用多层感知器将包围盒坐标嵌入到一个D维向量11327ΣSizf∈RjΣΣAB我(MLP)并将这些添加到视觉功能中：xi= CNN enc（di）+MLP enc（pi）。（一）与[18]不同，我们使用多路Transformer端到端地训练CNN主干和Multiplex Transformer：与[ 18 ]中一样，我们采用了一种多路复用Transformer架构，它具有两种信息聚合模式：它将片段连接到同一图像内的所有其他片段（自关注），并将片段连接到其他图像中的所有片段（交叉关注）。在自我注意中，特征在每个单独图像内的段的水平上聚合，产生fea-分别针对输入图像A、B的结构z、z 交叉-attentioAnopB在最后一个自我注意步骤的输出上进行运算，但是跨图像聚合信息，产生一个新的特征集z+1，z+1。在查询中，我们的注意力功能可以被描述为经典公式的变体：QKTAttention（Q，K，V）= softmax（√D）V（2）其中，在交叉注意层中，关键字和值源自目标图像的聚集特征zj，并且查询源自源自参考图像zi的聚集特征。在自注意层中，查询、键和值都源自相同的源特征zi。重要的是要注意，参考和目标是相对的术语-图6：a）中的蓝色和紫色圆圈表示每个线条图像中的线段中心。b）中的自我注意和交叉注意块示出了如何在来自相同图像或跨图像的分段特征之间计算注意在我们的架构中，我们已经使用了自注意和交叉注意的交织方法，结合每个Transformer块之间的跳过连接，如c）中所述。.其中ij是目标帧和参考帧之间的相似性矩阵，使得行总和为1。与[32]一样，我们使用softmax归一化的内积相似度：exp.fTfjΣ我相对于参考图像的年龄在我们的建筑中，两个方向的交叉注意力同时发生-是的从图像A的角度来看，图像B是哪里Sij=DMi=1 exp.fTfj（四）从图像B的角度来看，A是目标。fi∈R是对应于获取. 自我和交叉注意块的概述是如图6所示。与原始Transformer实现类似，多路复用变压器由堆叠的变压器块组成，每个变压器块由多头注意层和逐点全连接层组成。我们在Transformer块中的自我和交叉注意之间交替，并在每个块之间添加残余连接。最后的匹配特征由最后一个匹配特征的输出来计算。Transformer块和最终线性投影层，产生最终特征ZL∈RM×D和ZL∈RN×D。3.2. 匹配AnT从多重变换器学习聚合的参考和目标特征之间的相似性矩阵，然后用参考帧中的所有标签的加权和来我们计算预测的tar得到标签（cj∈RN）作为参考系中的标签（ci∈RM）的线性组合M（cj=Sijci（3）i=1索引段其中L和D是特征向量对应于zL中的indexj处的片段。B3.3. 损失为了能够从对应性和颜色标签中学习，AnT采用两个损失函数，这两个损失函数可以独立使用或根据标签源一起平均使用。前向匹配损失：为了鼓励模型直接使用对应性或颜色标签，我们使用预测的目标标签和来自数据集的cj真实目标标签之间的分类交叉条目损失。在具有对应标签的情况下，用作加权平均计算的输入的目标标签和参考标签都是唯一的，因此模型直接最小化不正确的对应。然而，在颜色标签的情况下，ci和cj是非唯一的，并且模型仅最小化不正确的颜色分配。这导致模型学习捷径并找到产生正确颜色分配但不正确对应的匹配（参见图7）。11328ΣΣ∈LLΣj=1i=1J整个周期。我们的最终损失期限为：NQL=ΣLfwd（cj，cj）+αΣLcyc（ri，ri）（8）图7：循环一致性损失允许模型利用真实世界动画数据而没有地面实况对应。示出了示例场景，其中第二目标分段在前向传播中被不正确地匹配，但是模型没有受到颜色匹配损失的惩罚，因为预测的分段颜色标签和地面实况颜色标签两者具有相同的颜色。为了解决这个问题，我们通过前向传递传播唯一的片段ID，然后再次返回到参考图像片段，使我们的循环一致性损失能够根据传播的ID是否匹配其原始值来惩罚模型。循环一致性损失：为了解决前面提到的问题，我们采用了循环一致性损失，防止模型在具有非唯一颜色标签的情况下学习捷径。我们不使用数据集中的引用标签，而是初始化一个唯一段IDri并且使用这些代替用于加权标签聚合的ciMrj=Sijri（5）i=1然后，我们在向后方向上传播预测的tar_ get_labels（r_jNri=Tijj=1其中T是通过下式计算的后向相关矩阵：exp. fTfiΣJ其中fwd是前向匹配损失，cyc是循环一致性损失，α是对循环一致性损失进行加权的超参数在我们的实验中，我们使用α=0的两种损失。二十五4. 实验4.1. 数据集详细信息合成数据集：为了用地面实况片段对应标签训练AnT，我们使用免费可用的3D模型在Cinema4D中生成合成数据集。我们使用卡通着色器渲染逼真的线条图像，并通过为各个网格分配唯一的ID来生成段对应标签。角色被操纵不同的运动、变形和旋转来模拟实际的动画。我们使用TurboSquid的11个3D角色模型，并为每个角色生成1000帧1500x1500像素的分辨率，总共产生11000帧。在训练过程中，我们应用随机跳帧和其他增强技术，如裁剪，抖动和剪切。字符的复杂性范围从一些字符少至10段到其他字符高达50段。我们通过随机选择总共1100帧（数据集的10%）的序列来创建我们的评估集，这些序列均匀地分布在每个字符上。真实数据集：作为一种媒介，手绘动画比3D动画更加多样化和富有表现力。由于动画师不局限于3D程序的限制，手绘动画包含了更广泛的动画风格和角色设计。对于在各种动画风格上工作的任何视觉对应模型，它不能仅在来自3D程序的合成数据上进行训练。为了解决这个问题，我们收集了一个数据集的高分辨率手绘动画从17个不同的现实世界的动画制作，共3578帧。每部作品的动画风格差异很大，尽管风格更接近美国。欧洲动画数据集是非常多样化的，有数百个不同的字符。重要的是，真实数据集没有唯一的对应标签;我们使用彩色图像中的分段颜色来提取标签。相比Tij=Σ Nj=1 exp. fTfi（七）合成数据集，这产生非唯一的数字段。部件标签。我们通过随机选择来创建评估集-选择序列25可变长度序列均匀与前向匹配损失一样，我们使用分类交叉-随机初始化的分段IDri和预测片段ID每一个生产。对于评价集合，则不存在在训练场上11329OOO4.2. 实现细节培训详情：我们使用AdamW优化器训练AnT，学习率为5e-4，权重衰减为1 e- 4，梯度裁剪为全局范数1。我们使用1K步的学习AnT是使用4批16个图像对的梯度累积以64的Transformer的输入和注意力丢弃为0.1，我们发现这对正则化很有帮助。除非另有说明，否则我们训练AnT，其中L=9层交替的多头自我注意和交叉注意，每层4个头，D=256维局部特征。时间和内存复杂度：在Nvidia Tesla V100 GPU上，AnT的单次向前传递平均需要76ms（13 FPS）。使用M和N来表示参考和目标片段的数量，每个交叉注意层AnT必须进行（MN）次比较，并且每个自注意层AnT必须进行（M2+N2）次比较。通过比较，DEVC的正向传递平均花费147ms（6FPS）。在存储器方面，DEVC必须进行（（HW）2）比较，其中H、W是CNN特征的空间维度。对于DEVC，我们只能使用3个批次大小，而对于AnT，我们可以使用64个批次大小，从而产生更快的训练。我们在OpenGL中实现的防漏填充方法在相同的硬件上平均需要1.4s，产生的总推理速度为2.16s的AnT或2.87s的DEVC。4.3. 比较基线：我们将 AnT 的性能与深度示例视频编码（DEVC）[32]的普通实现以及具有特定于域的修改的DEVC的变体进行比较。DEVC是一种最先进的视频彩色化网络，它在像素级上运行，并将特征与深度神经网络相匹配。为了在我们的任务中使用DEVC，我们仅使用对应子网并在彩色扭曲图像上使用分类交叉熵损失。然后，我们通过非学习的后处理步骤为每个片段生成预测的片段标签：我们在扭曲图像上的每个片段位置中取最大出现的颜色。由于DEVC是一种基于像素的方法，我们创建了两个变体，具有特定于领域的增强功能，可以利用问题结构。由于小的片段是最难预测的，因此我们将扭曲图像输出中每个像素的损失与对应于该像素位置的片段的大小成反比地加权。这有助于防止网络在不知情的情况下专注于大的分段区域而忽略较小的分段区域。我们将这个网络称为DEVC（加权损失）。我们还观察到高分辨率对于性能是重要的。我们引入局部注意机制在[11]中使用，代替全局关注，以实现更高分辨率的训练。这个模型被称为DEVC（Local Attention）。我们以512x512像素分辨率训练DEVC和DEVC（加权损失），批次大小为2，直到收敛。我们以640x640像素分辨率训练DEVC（局部注意力）图8：从参考颜色和线图像（即，c_ref和l_ref）开始，我们递归地传播每个所生成的图像的颜色以使每个传入的线图像l_i+1着色。度量：为了测量序列之间的对应性，我们递归地在10个帧上传播片段标签，如图8所示，使用单个地面实况参考帧来为其余预测播种颜色。我们使用每段标签的准确性和平均交叉-超过联盟平均超过标签类作为我们的评估指标。结果：我们在图9中示出了定性结果，并且在表1中示出了在合成和真实数据集两者上比较AnT与DEVC的结果合成列在地面实况片段对应标签上进行评估，而真实数据集在非唯一颜色标签上进行评估。合成实数精度平均IoU精度平均IoUDEVC 66.19 43.17 42.86DEVC（加权亏损）79.92 55.98 61.86 38.05DEVC（本地关注）84.11 62.60 57.34 32.98安踏（我们的）92.17 72.90 79.38 45.38表1：一致性（合成）和着色（真实）评价。 AnT严格优于所有基线，即使在添加区段特异性修饰之后。真实数据集包含移动到DEVC（局部注意力）4.4. 模型消融研究我们将AnT的几个关键组件分开，以显示当这些组件被移除时性能如何变化（参见表2）。Transformer与性能高度相关，这表明全局特征聚合有助于学习有效的表示。类似地，空间信息也是必要的AnT有效地reason约段结构。当循环-11330图9：AnT在对具有遮挡、小片段和复杂变形的复杂场景进行着色时是有效的。在左下示例中，AnT未能对黄色套筒着色，因为它不存在于参考线图像中。我们鼓励读者查看附录中的其他结果。在真实数据集上训练的模型中去除了一致性，该模型避免了学习可推广的对应性-它通过将非对应的片段与相同的颜色匹配来合成实数模拟数据在实际中评价，存在较大的性能我们假设这是因为合成数据集缺乏多样性和挑战性。合成实数准确度平均IoU准确度平均IoU精度平均IoU精度平均IoU无Transformer无位置嵌入78.5681.8867.8267.2365.9168.2339.5340.20合成房92.1789.4672.9070.2072.5579.3839.9345.38无周期一致性更小（3层）91.4988.0371.0169.9068.4876.0941.1044.02混合94.2577.2779.8451.64全（9层）92.17 72.90 79.38 45.38表2：模型消融研究。AnT中不同模型变体的比较4.5. 培训数据消融研究为了评估AnT在与前面的部分一样，合成列和真实列使用与前面相同的度量来表示评估集值得注意的是，我们看到，当在真实数据集上训练AnT时，其在合成对应数据集上的性能接近其在训练时访问对应时的性能。真实的数据集更具挑战性和多样性，从而导致更强大的模型，可以预测挑战性较低的合成数据集上的对应关系。相反的是不正确的;当模型只在syn上训练时表3：训练数据消融研究。虽然合成的最佳结果来自混合训练集，但当AnT仅在真实数据集上训练时，其性能接近在对应标签上训练的模型的性能。5. 结论在本文中，我们已经表明，段是一个有效的结构学习视觉对应手绘图像。我们的研究结果表明，我们的方法的能力，利用现实世界的动画数据集，是学习各种各样的动画风格的准确对应关系的关键。我们希望这项工作鼓励更多的研究到实用的，数据驱动的动画创作工具。虽然我们专注于平面填充动画在这项工作中，我们的方法可以扩展到其他任务，如传播阴影和纹理或预测光流。11331引用[1] Serge Belongie Jitendra Malik和Jan Puzicha。形状上下文：一种用于形状匹配和目标识别的新描述子。于T.Leen ， T. Dietterich 和 V. Tresp ， editors ， Advances inNeural Information Processing Systems，第13卷。麻省理工学院出版社，2001年。二个[2] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？、2021. 二、三[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端物体检测，2020。三个[4] 元正词、马新柱、Z.王浩杰，李浩杰，罗忠轩.使用条件对抗网络的用户引导的深度动画线条艺术着色。2018.三个[5] 中洞Q. Dang、Thien Do、Anh Nguyen、Van Pham、Quoc Nguyen、Bach Hoang和Giao Nguyen。对应神经网络用于线条艺术彩色化。ACM SIGGRAPH 2020海报，SIGGRAPH'20，纽约，美国，2020年计算机协会。二个[6] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：大规模图像识别的变形金刚，2020年。二、三[7] Songwei Ge，Vedanuj Goswami，C.劳伦斯·齐特尼克和德维·帕里克创意素描世代，2021年。三个[8] David Ha和Douglas Eck。草图的神经表示，2017年。三个[9] Allan Jabri、Andrew Owens和Alexei A.埃夫罗斯时空对应作为对比随机游走，2020年。二、三[10] On dˇrejJamr isˇ ka、Sˇa´rkaSochor o v a´、On dˇrejTexle r、Michal Luk a´cˇ 、 JakubFi sˇ e r 、 Jing w anLu 、EliShechtman和DanielS y´k ora。风格化的视频由e的例子。ACMTransactionsonGraphics，38（4），2019。三个[11] Z. Lai和W.谢视频通信流的自监督学习。在BMVC，2019。二、三、七[12] 李树达，韩凯， Theo W. Costain ， Henry Howard-Jenkins，and Victor Prisacariu.具有自适应邻域共识的对应网络，2020年。二个[13] Zixin Luo ，Tianwei Shen ，Lei Zhou ，Jiahui Zhang，Yao Yao，Shiwei Li，Tian Fang，and Long Quan.上下文描述：跨模态上下文的局部描述符增强，2019年。2[14] Akinobu Maejima、Hiroyuki Kubo、Takuya Funatomi、TatsuoYotsukura 、 SatoshiNakamura 和 YasuhiroMukaigawa。基于图匹配的多参照动画着色。在ACMSIGGRAPH 2019海报，SIG- GRAPH计算机协会。二个[15] SimoneMeyer，，VictorCornille`re，AbdelazizDjelouah ， Christopher Schroers ， and MarkusGross. 深度视频色彩传播。在英国机器视觉会议BMVC，2018年的会议记录中。二个11332[16] Pablo Navarro ，J. Ignacio Orlando Claudio Delrieux 和Emmanuel Iarussi。草图缩放：用于匹配线图的深度多视图描述符。计算机图形论坛，40（1）：410-423，2021。二个[17] Pradyumna Reddy ， Michael Gharbi ， Michal Lukac ，and Niloy J.米特拉Im2vec：合成矢量图形，无需矢量监督，2021年。三个[18] PaulEdouardSarlin ， DanielDeTone ， TomaszMalisiewicz ， and Andrew Rabinovich. Superglue ：Learning feature matching with graph neural networks，2020。二三四五[19] Kazuhiro Sato，Yusuke Matsui，Toshihiko Yamasaki，and Kiyoharu Aizawa.基于参考的漫画彩色化的图形对应使用二次规划。在SIG-GRAPH Asia 2014 TechnicalBriefs，SIGGRAPH ASIA计算机协会。二个[20] AndrewW Senior，Richard Evans，John Jumper，JamesKirk- patrick ， Laurent Sifre ， Tim Green ， ChongliQin ， Augustin Zˇ´ıdek ， Al e xanderWRNelson ， Al exBridgland，etal. 我-使用深度学习的潜力进行蛋白质结构预测。Nature，577（7792）：706-710，2020. 三个[21] Min Shi，Jia-Qi Zhang，Shu-Yu Chen，Lin Gao，Yu-Kun Lai，and Fang-Lue Zhang.深线艺术视频着色与一些参考。arXiv预印本arXiv：2003.10685，2020。二个[22] Edgar Simo-Serra，Satoshi Iizuka，Hiroshi Ishikawa.实时数据驱动的交互式草图着墨。ACM Transactions onGraphics（TOG），37（4）：98，2018。三个[23] Edgar Simo-Serra，Satoshi Iizuka，Kazuma Sasaki，andHi-roshi Ishikawa.学习简化：用于粗略草图清理的全卷积网络。ACM Transactions on Graphics（TOG），35（4）：121，2016。三个[24] D. Sy'kora，J. Dingliana和S. 柯林斯Lazybrush：用于手绘卡通的灵活计算机图形论坛，2009年28日。三个[25] 作者：Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszko-reit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力是你所需要的，2017年。二个[26] Carl Vondrick 、 Abhinav Shrivastava 、 Alireza Fathi、Sergio Guadarrama和Kevin Murphy。通过对视频进行着色来实现跟踪。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。二个[27] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络，2018。三个[28] 作者： Brian Whited ， Gioacchino Noris ， MaryannSimmons，Robert W.Sumner，Markus Gross，and JarekRossignac.之间：一个交互式工具，用于紧密的中间插入。计算机图形论坛，29（2）：605-614，2010。三个[29] 太赞米次Paintschainer2017年。https://paintschainer.preferred.tech/的网站。三个[30] D. 于湖，加-地Li，Y.Zheng，M.，中国科学院昆虫研究所所长。 Lau ， Y. 宋角，澳 - 地 Tai 和 H.Fu.Sketchdesc：学习多视图对应的本地草图描述符IEEETransactionsonCircuitsandSystemsforVideoTechnology，第1-1页，2020年。二个[31] Bo Zhang，Mingming He，Jing Liao，Pedro V Sander，Lu Yuan，Amine Bermak，and Dong Chen.基于深度样本的视频彩色化。在IEEE计算机视觉和模式识别会议论文集，第8052-8061页二个11333[32] 张波，何明明，廖静，Pedro V.桑德、陆远、阿明·贝尔马克、陈冬。基于深度样本的视频着色，2019年。五、七[33] Lvmin Zhang，Chengze Li，Tien-Tsin Wong，Yi Ji，and Chunping Liu.两阶段草图着色。ACM Trans.Graph. ，37（6），Dec. 2018. 三个[34] Qian Zhang，Bo Wang，Wei Wen，Hai Li，and JunhuiLiu.用于自动动画着色的线条艺术相关匹配特征传递网络。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第3872-3881页，2021年1月。二、三[35] Zheng Qingyuan，Zhuoru Li，Adam Bargteil.学习阴影手绘草图。在IEEE计算机视觉和模式识别会议，2020年。三个[36] Haichao Zhu ， Xueting Liu ， Tien-Tsin Wong ， andPheng-Ann Heng. 全球最佳的卡通跟踪。 ACMTransactions on Graphics（SIGGRAPH 2016 issue），35（4）：75：1-75：10，July 2016. 二个[37] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在计算机视觉（ICCV），2017年IEEE国际会议上，2017年。三个

下载后可阅读完整内容，剩余1页未读，立即下载