CreativeFlow数据集：多风格艺术视频数据集

13 浏览量更新于2023-10-19 收藏 3.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Creative Flow+数据集Maria Shugrina玛丽亚·舒格里纳1，2，3www.shumash.com刘良1，4zhliang@cs.ubc.caAngad SinghAngad Singh1，5Amlan Kar阿姆兰·卡尔1，2amlan@cs.toronto.eduKaran Singh1Jiaman Li李嘉曼1，2ljm@cs.toronto.eduangad. alum.utoronto.caSanja Fidler1，2，3karan@dgp.toronto.edufidler@cs.toronto.edu1多伦多大学2Vector Institute3 NVIDIA4不列颠哥伦比亚大学5Evertz Microsystems摘要我们提出了Creative Flow+ Dataset，这是第一个多样化的多风格艺术视频数据集，它丰富地标记了每像素光流、遮挡、对应、分割标签、法线和深度。我们的数据集包括3000个动画序列，这些序列使用从40种纹理线条样式和38种着色样式中随机选择的样式呈现，这些样式跨越了平面卡通填充和疯狂粗略着色之间的范围。我们的数据集包括以1500x1500分辨率渲染的124K+训练集帧和10K测试集帧，远远超过了最大的光流数据集。虽然用于光流估计等任务的现代技术在逼真的图像和视频上实现了令人印象深刻的性能，但今天没有办法衡量它们在非真实感图像上的性能。Creative Flow+提出了一个新的挑战，将现实世界的计算机视觉推广到混乱的风格化内容。我们表明，基于学习的光流方法无法推广到这些数据，并努力与经典方法竞争我们的数据集和新的光流基准将在以下网站公开：www.cs.toronto.edu/creativeflow/。我们进一步发布了完整的数据集创建管道，允许社区按需生成和创建自己的数据1. 介绍几千年来，人类一直使用素描、绘画、草图和图表来展示他们的想法，计划工程设计和讲故事。人类视觉对于抽象和缺乏细节的情况具有惊人的鲁棒性。在没有任何事先训练的情况下，一个人可以很容易地识别出物体。图1：Creative Flow+ Dataset包含以24种着色样式和40种线条样式渲染的帧的大量每像素地面实况数据，这些数据来自各种3D动画序列。153845385图2：超越摄影现实主义：虽然人类发现很容易在草图中可视化3D形状（A），找到不同风格/视图之间的对应关系（B），遵循风格化的信息视频（C），享受没有时间连贯性的手绘卡通（D），但这些任务对计算机视觉仍然具有挑战性。2粗略的草图，可视化其近似的3D形状，在风格和观点截然不同的绘画之间找到对应关系，并享受手绘卡通中没有时间连贯性的运动（图）。2）。今天然而，他们这样做的能力可以改变所有设计和通信领域的数字创意工具，包括教育，工业设计，电影业和建筑。例如，对应关系可以在动画工作流中用于自动完成[47]或内插帧[41，44，3]。此外，程式化内容分析的进展将为自动信息检索和摘要开辟新的领域我们的数据集和基准的目标是在这一领域进行更多的研究。特别是，我们的目标是使研究计算机视觉任务相关的运动，对应和三维形状估计。在自然照片和视频领域，计算机视觉技术在光流估计、分割、跟踪、对应查找和来自单个图像的形状估计方面取得了令人印象深刻的进步，部分原因是大型代表性基准的可用性，例如KITTI [22]、MPI Sintel [11]和各种RGB-D数据集[17]。然而，这些方法对一般风格化内容的鲁棒性是未知的，因为现有的非真实感数据集都不包括地面真实光流或覆盖全面的风格集。同样，专门针对卡通内容[44，47，50]的少数对应和跟踪算法尚未在风格的广度上进行评估，并且通常对输入进行强烈假设，这使得它们在实践中变得简单。我们建立了一个大型的，多样化的数据集，使研究的风格化图像的鲁棒跟踪。在本文中，我们介绍了Creative Flow+ Dataset，这是迄今为止最大的（ 124K 帧）高分辨率（1500×1500）合成光流数据集，具有挑战性的运动，广泛的每像素地面实况注释和一组不同的艺术风格（图1）。1）。我们使用了一个10K帧的测试集，以表明现有的光流方法，1图片来源：第5行背景是由karen sanchez alvarado裁剪的图片，来源于BAM！[45]并在cc by-nc下获得许可。2图片来源：A，C由Freepik.com，B由Rawpixel.comFreepik.com，D -框架从“翅膀，腿和尾巴”的工作室Ekran。不要很好地概括这一具有挑战性的内容，并将发布一个公共基准提出这一新的挑战。我们在§ 3中给出了数据的概述，在§ 4中给出了详细的样式。与其他数据集的比较见§5，光流法评价见§6。2. 相关工作2.1. 现有的运动和形状数据集跟踪、光流和形状估计的核心任务有许多已建立的数据集和基准[17，11，26]。光流具有较小的真实世界基准，如Middlebury [4]和KITTI [22]，以及可用于训练的较大合成数据集，包括MPI Sintel [11]和更大的Flying Chairs [15]和Flying Things 3D [31]数据集。使用合成数据集来训练深度学习（DL）模型以在现实世界中表现已经有了一些详细的研究[30]。然而，现代计算机视觉方法如何推广到理解风格化的、非真实感内容的问题仍然没有答案。人类视觉系统从现实世界适应卡通等抽象再现没有问题，但由于缺乏数据，对自动算法的这一主题进行深入调查一直是不可能的。就像现有的大型光流数据集一样，我们的数据集是合成构建的，但目标相反。我们的新光流基准测试不是为了在现实世界中获得更好的性能而此外，我们的训练集和测试集使开发跨视觉风格泛化的方法成为可能。2.2. 风格化数据集虽然非真实感内容在野外很普遍，但注释数据集是有限的。BAM数据集包含250万张不同艺术风格的图像[45]，但仅包含有限的图像级注释。Photo-Art- 50包含50个类别的手动标签，用于更小的艺术和摄影收藏[46]。其他数据集，特别是那些标签比图像级类别更丰富的数据集，通常局限于特定的绘图样式或内容域。例如，已经收集了几个肖像画数据集[43，29]，其中一些包括各种抽象层次[6]，建模艺术家有许多标记的手绘草图数据集，包括TU-Berlin 20，000 [16]，具有照片-草图对的草图数据库[36]以及鞋和椅子的基于细粒度草图的图像检索数据集[49]。每个数据集中的草图都有一个特定的笔画样式，限制了它们对野外一般草图理解的适用性。5386在特定领域训练的深度神经网络的脆弱性是众所周知的，例如Simo-Sierra等人。观察它的任务草图简化，而不是提出一个无监督的方法[37]。然而，未监督的方法可能不适合所有任务。另一个方向是监督或无监督域自适应。Li等人将现有的程式化数据集合并到PACS中，PACS是一个包含7个类别和4个领域的领域适应基准[28]。不存在具有更细粒度的注释的类似数据集2.2.1合成风格化获得地面实况注释可能很困难，许多监督方法依赖于合成数据。例如，合成线绘制已被用于训练网络，用于3D对象[14，27]和面[23]的基于草图的建模。如果在测试时，训练好的模型对使用相同介质在特定用户界面中绘制的草图做出响应，则这种方法工作良好，但如果输入草图来自不受约束的外部域，则会崩溃。像大多数其他包含光流地面实况的数据集一样，我们的数据集是通过渲染3D场景来合成创建的。与现有的包含图纸和照片或3D信息的语料库不同[36，49，14，27]，我们特别努力使我们的数据集在许多绘画风格上多样化。有许多技术用于3D模型的非真实感渲染，我们参考了B e 'nard和Hertz-mann [5]以及[18]中的相关工作，以了解线条绘制，风格化和风格转移技术。我们使用集成到Blender中的Freestyle引擎[9]来绘制轮廓，并依赖Blender和Stylit照明引导风格转移由Fis Baglier et al.艺术家[18]3. Creative Flow+数据集概述据我们所知，我们提出了第一个丰富的注释多风格的非真实感视频数据集，其中包括地面真实光流和空间对应。此外，我们的数据集是唯一的多风格艺术图像数据集，其中包含正常，深度和对象分割的每像素地面真实标签。为了获得每像素的地面真值标签（§3.2），我们通过配置动画3D场景（§3.1）与许多风格化的渲染风格（§3.3）来合成构建我们的数据集（§3.4）。我们的数据集被分成一个火车，测试集，来自测试集的基础事实保持私有，用于基准测试（§3.5）。单独的章节详细介绍了我们的风格选择（§4）和数据集统计（§5）。3.1. 动画来源开源电影（如Sintel [8]）中的场景包含复杂的自定义渲染效果，这需要人工操作。如Butler等人详细描述的，确保正确呈现地面实况的交互处理。[11]，他在MPI Sintel数据集中手动策划了35个动画场景。对自动风格化内容的需要进一步使该过程复杂化。相反，我们在很大程度上自动处理了更多的2,968个简单的动画序列：• 51动画来自[42，19，7，38]• 1647个角色动作序列，每个重定向到Mixamo的53个角色之一[2]• 1270个独特的ShapeNet [12]对象序列，随机刚体模拟Mixamo场景的运动重定向、ShapeNet刚体模拟设置和相机设置都是自动完成的。对于ShapeNet序列，从随机位置发射一个独特的物体，并在具有不同物理参数的随机点处撞击随机倾斜的地板。在50%的序列中，允许物体断裂，导致多个部分的复杂运动。50%的ShapeNet序列包含摄像机跟踪，20%的Mixamo序列包含摄像机运动。我们做了很大的努力，以确保地面实况渲染是正确的输入混合的范围，并在我们的数据集中的最终序列已被过滤，以包含合理的运动范围。详见§5。3.2. 地面实况信息每个动画序列中的每个连续帧对（f0，f1）都标有以下像素级信息，分辨率为1500 x 1500（图1）。1、Ground Truth）：• 前后向光流• 遮挡图• 对象id• 表面法线• 阿尔法掩模• 深度• 对应关系光流场包含f0中像素的每像素（u，v）速度向量，并且遮挡图包括在f1中被遮挡的f0中的像素。曲面法线被渲染为相对于摄影机的RGB通道，G对应于图像平面中的上方向，R对应于右侧，B对应于摄影机;值为0。5对应于该组分的零法线对象ID将在禁用抗锯齿的情况下渲染为唯一的RGB颜色，每个颜色都指定给输入动画中的唯一3D对象。在动画角色的情况下（§3.1），对象id也可以对应于唯一的顶点组，例如鞋子或手。我们没有提供这些对象ID的正式分类，但包括颜色到对象/顶点组映射的字典文件。最后，每个对象或顶点组被嵌入到一个边界框，分配一个唯一的RGB颜色的对象上的每个位置使用其XY Z位置的边界框内。这些颜色被渲染成对应的图像。-5387图3：野外风格：动画电影风格的细分在动画节目（ASoS）系列[1]。这些对应图像与对象ID图一起提供了一种为序列中的任何一对帧（fi，fi+k）这使得有可能创建训练集的稀疏对应任务跨越许多帧和非常大的运动，而无需跟踪跨场景的流。此外，即使在存在遮挡的情况下，也可以找到跨帧的最接近的对应点，遮挡会使光流跟踪无效。未定义区域：与现实世界不同，在现实世界中，每个像素都来自一个物理位置，风格化图像可能包括未定义信息的区域，第例如，一个角色跳舞的场景平坦背景不提供确定背景流的信息。我们数据集中的objectid掩码将对象分为三类：透明，对于地板/背景对象为黑色，对于前景对象为颜色标签。光流和其他地面实况仅对这些前景物体有明确的定义。3.3. 风格化框架帧fi的每个风格化渲染包括：• 合成帧，有些带有背景和许可证• 着色图像• 着色Alpha通道• 轮廓图像• 轮廓阿尔法通道最终合成的帧包括阴影、轮廓和背景。在Blender着色样式的情况下，背景保持透明，我们从BAM数据集中选择随机图像[45]，这些图像具有合适的许可条款3。所有这些图像都需要传播许可证信息;因此，我们将许可文件与包含图像背景的所有风格化序列一起包括。除了完整的合成帧，我们还包括单独的阴影和轮廓图像，以及每个图像的alpha分量。这可以创建自定义合成数据集。例如，人们可以使用我们的数据集创建一个不同的轮廓集合，包括不同的背景，线条颜色和纹理，通过使用轮廓阿尔法通道。有关样式的详细信息，请参见§ 4。3BAM的作者很友好地与我们分享了许可信息。3.4. 数据集构建管道我们的数据集构建管道使用 Blender 2.79 pythonAPI、各种命令行实用程序和Stylit 3D渲染样式化算法的实现来实现[18]。管道自动处理混合文件格式的动画。除了多个地面实况通道之外，每个混合都自动处理为以一个或多个风格化渲染（§4）。除了Stylit [18]的实现，这是由作者善意提供的，我们的数据集查询管道将在发布时开源，以便能够构建自定义数据集。3.5. 基准我们数据集中的10K帧被保留用于测试，保留了地面实况我们将在这个测试集上发布一个公共光流基准。在未来，我们计划使用我们测试集中的序列发布其他挑战。有关试验/列车拆分的详细信息，请参见§5。4. 款式4.1. 野生风格我们的目标是使这个基准适用于广泛的视觉领域，但视觉风格的选择并不明显。据我们所知，目前还没有对动画内容中使用的人类生成的图像样式进行全面的分类作为替代，我们对自 1998 年以来由 TheAnimation Show of Shows [1我们排除了37部使用标准3D渲染的电影（已在[11]中介绍）和16部混合风格的电影。剩下的109部电影沿着4个轴分类：A）使用的主要视觉媒介，B）轮廓的类型，C）整体配色方案，以及D）纹理和轮廓的帧到帧的时间相干性（图（3）第三章。在109部电影中，有70部对应于这4个特征的独特虽然没有理由在[1]中争取风格的具体分布，但我们的目标是涵盖类似的多样性。5388图4：Stylit风格化：顶行-从志愿者收集的示例2-颜色样式，底行-使用[ 18 ]将样式的随机化版本应用于新渲染（插图）。4.2. Creative Flow+数据集中的样式在渲染时，我们随机选择一个阴影和一个线条样式的合成帧。所有样式都分为测试集和训练集，如图所示。五、着色：我们已经配置了Blender管道，允许在平面和卡通（卡通）着色中渲染，以及纹理着色，模仿静态纸张纹理，即使对象移动也保持固定（在我们的分析中观察到的效果）。这包括3A，但很明显，针对一般动画内容的基准也必须涵盖一系列手绘风格和纹理。虽然存在[21]开创的深度学习风格化技术，但我们担心它们可能会给我们的风格化数据的纹理带来强烈的相反，我们选择使用Stylit [18]，这是一种更经典的照明引导风格转移技术，直接从提供的风格示例中借用纹理。我们组织了一次风格收集活动，11名志愿者使用各种物理媒体创建了24个风格示例。每个示例都需要绘制一个与3D渲染精确对齐的球体（图11）。4，第一行），每种风格都是用一种或两种颜色绘制的。此外，为了避免在每一帧上都粘贴来自同一图像的纹理，每种风格的每种颜色都绘制了两次。给定一个新的渲染，用法线和对象id注释，Stylit将样式范例应用于新的渲染（图10）。4，第二行）。将Stylit应用于每一帧消除了时间上的连贯性，就像在真正的手绘序列中一样（图1）。3D）。我们会自动配置Blender来渲染一个红色的材质，它的亮度与每个混合的球体完全一样。所有样式示例都在Photoshop中进行了广泛的处理，并进行了测试，以最大限度地减少渲染瑕疵。轮廓：我们手动收集了各种纹理，如墨水和铅笔，并使用Blender Freestyle引擎[9]，覆盖图。3B.虽然自动风格化很难模仿一系列有表现力的轮廓风格，如过度绘制和不精确的笔画，但我们努力引入了一些线条调制和各种纹理来增加多样性。颜色：对于平面和卡通阴影，对象的颜色是随机的。我们发现真正随机的颜色并不代表-并且可以通过提供更多的对比度来使跟踪因此，对于20%的序列，颜色是从[13]收集的3570个训练或1500个离散颜色主题测试集中随机挑选的为了增加Stylit样式的多样性，我们使用0. 60的概率，并使用此来增加颜色的数量（每个样式示例最多有2种颜色）。允许的调制范围是针对每种风格手动确定的（例如，如果其值设置得太高，则模糊样式可能变为白色）。线的颜色是随机的，确保它保持黑暗的概率为0。8，在观察到野生的大多数品系是深色的并且不是随机着色的之后。5. 数据集统计数据我们的训练集有2，559个序列（124，390帧），包括1，379个Mixamo序列（82，913帧），1，146个ShapeNet序列（35，570帧）和34个Web序列，每个序列在2个相机角度（5，907帧）。Mixamo序列是通过将1,379个独特的动作重定向到38个字符来构建的，每个字符平均出现在36个序列中。ShapeNet序列由55个ShapeNet类中的43个生成。每个火车序列是渲染使用2个阴影和2线风格的火车风格图。5，并合成为2个程式化的动画序列。我们的测试集有409个序列（10，031帧），包括268个Mixamo序列（6，559帧）、124个ShapeNet序列（2，732帧）和17个Web序列每个在2个摄像机角度（740帧）。Mixamo序列是通过将268个动作中的每一个重新定位到15个角色中的一个来构建的。ShapeNet序列使用来自12个ShapeNet类的独特对象生成。每个火车序列只使用一个阴影和图中测试样式中的一个线条样式渲染。5，并合成为单个动画序列。当应用时，背景来自BAM的一个子集[45]。比较：我们将我们的数据集与图中其他广泛使用的通用光流数据集进行了比较。6、省略了针对特定现实场景的数据集，如用于驾驶的 Virtual Kitty [20] 和SceneNet RGB-D[32] 用于室内场景导航。参见[30]以获得更全面的比较。除了SceneNet RGB-D数据集以320 x240的低得多的分辨率提供500万真实室内帧的光流之外，我们的数据集在大小上远远超过其他现有的光流我们还提供更高分辨率的图像。MPI Sintel [11]和Monkaa [30]都基于3D电影的渲染，类似于我们的合成渲染数据，但不提供视觉风格的多样性。MPI Sin- tel确实包含了3种不同渲染通道的图像，分别是Rendado、Clean和Final，但这些仅涵盖了非常有限的风格化图像范围。我们的数据集中的流量大小分布，仅在定义明确5389(a) 使用Blender和Stylit渲染测试和训练着色样式(b)测试和训练使用Blender Freestyle渲染的轮廓样式图5：Creative Flow+数据集中的样式。5390(a) 流量大小分布数据集款式帧场景Res.MPI Sintel [8]测试火车31564106412231024×436FlyingChrs. [第十五条]火车122,87222,872960×540FlyingThgs。[三十一]测试火车114,24821,8182,247960×540蒙卡[31]火车18,5918960×540创意流程+测试火车13岁以上25岁以上10,031124,3904092,5591500×1500(b) 尺寸图6：光流数据集：大型通用光流数据集和Creative Flow+的比较.前景区域（见§3.2），与其他数据集（图3.2）相当6a）。在某种程度上，我们的数据集中大量的帧是出于充分代表许多风格中的每一种以使学习可行的需求实际事项：由于数据大小，即使是较小的数据集也会带来技术挑战。例如，下载 Flying Things 3D 的311GB光流可能需要几天时间[31]。因为我们的数据集更大，我们对不同类型的数据采用了各种压缩策略。大多数基于图像的序列（渲染，法线等）被编码为视频，我们将提供解压工具。昂贵的组件将被分成单独的下载。我们的训练集的光流已压缩到570GB，并将在拆分下载中提供。6. 流方法我们使用我们的10K测试集来衡量几种光流方法在风格化内容上的性能我们的分析包括Horn-Schunck [24]在[39]中实现的经典方法，[39]中的经典+NL快速方法，以及Brox等人。大位移光流[10]。我们还评估了Epic Flow，它将经典技术与深度匹配相结合[35]，以及几个预先训练的深度学习网络，包括DC Flow [48]，在FlyingChairs [15]和MPI Sintel [11]上训练的PWC-Net[39]，以及LiteFlow Net[25]第二十五话参照图7 .第一次会议。我们在Creative Flow+上评估预先训练好的网络的动机是确定这些学习方法推广到新的、看不见的风格的效果如何我们发现，虽然三种经典方法中有两种的平均终点误差在我们的数据上甚至比在Sintel上更低，但所有涉及预训练网络的方法都表现出非常高的平均误差和中等偏高的错误率。由于这可能是由于背景区域中的光流定义不清（见3.2），我们通过仅在前景区域中进行评估来进一步分解误差（图3.2）。图7a中，插图中的黑色区域不包括在FG误差计算中虽然前景区域的平均端点误差显著低于总体误差率，但它仍然远高于现代光流方法的可接受水平（例如，与Sintel上的性能相比）。为了更好地理解跨样式的网络泛化，我们将前景错误分解为平面，卡通，纹理和Stylit样式。总体而言，学习方法在卡通阴影上表现得更好（图1）。7a，第2行），也许是因为它是最接近MPI Sintel数据集的风格，用于训练许多这些模型。正如预期的那样，最粗略和最不连贯的风格（图。第71章最难的证明纹理样式，其中静态纹理可能会减损对象的运动，也挑战经典和基于学习的方法。除了一般趋势外，很明显，即使在相同的数据上训练，不同的网络也会倾向于不同的风格。例如，PWC-Net在平面阴影上的表现非常差，无论是在Sintel还是在Flying Chairs上训练，但在相同数据上训练的LiteFlowNet表现良好（见图1）。7a，用于平面阴影的行3）。这些网络在Sintel上的表现并没有表明它们可以推广到其他风格。我们从大部分分析中省略了背景误差，但不能忽视现有方法处理噪声背景的能力即使是FG误差相对较低的示例（图7a，第3行）在背景中表现出疯狂的预测，无论是经典的还是基于学习的方法。当前景注释不可用时，这将妨碍它们在实践中有用。从结果的视觉分析来看，PWC-Net似乎对嘈杂的背景产生了最疯狂的此外，由粘贴的纹理补丁组成的Stylit背景可能会混淆匹配算法，并导致糟糕的Epic Flow和DCFlow预测（图2）。7a，第1行）。综上所述，现有的光流方法对风格化内容的鲁棒性严重不足，需要新的研究。虽然进一步的调查超出了我们的论文范围，但Creative Flow+数据集为这一研究方向打开了大门。7. 结论我们介绍了Creative Flow+数据集，这是最大的高分辨率光流数据集，也是第一个多风格的非真实感数据集，其中包含了地面真实光流、深度、法线等。我们表明，需要提高现有的光流应用程序的通用性，5391(a) 定性示例，包括FG错误。Sintel创意流程+所有中值所有FG款式速度FG：平坦FG：卡通FG：tex。FG：造型FG：1%FG：1-3%FG：3%horn-Schunck[24日]9.648.093.3911.9311.7810.7513.6711.863.5117.1960.07经典+NLfast[39]第三十九届10.1213.126.749.119.196.8411.239.415.5811.0629.97Brox2011[10个国家]9.158.773.038.177.416.1311.508.164.0311.1930.76EpicFlow[35]第三十五届6.2963.5010.0014.429.446.6611.3422.9410.8215.9136.98直流潮流[48个]5.1240.683.1510.937.689.0212.4212.963.9317.7844.50PWC（chrs.）[第四十届]-66.4440.4121.9839.8210.4315.7422.8922.0417.7432.71PWC（snt.）[第四十届]4.6074.2033.0017.5724.086.8517.0720.8616.6515.0830.90LiteFlowNet[25日]5.0635.0612.6910.946.886.2713.5214.468.1512.5527.27(b) 定量结果。图7：光流算法性能：在我们的10K集上进行评估。除标记中位数的列外，所有数字均为平均终点误差。Creative Flow+的表现分为All（全帧）和FG（前景），以及风格和速度（1%- 地面实况小于帧大小的1%或15像素，15和45像素之间的1-3%， 45像素以上的3%仅为前景区域计算样式和速度接近程式化的领域，并希望我们的数据将使许多新的研究，在计算机视觉的非真实感的内容。致谢5392我们衷心感谢Vector Insti- tute和NVIDIA对GPU捐赠的支持。这项工作的一部分得到了亚马逊网络服务（AWS）慷慨捐赠给矢量机构的云计算资源的支持。Sanja Fidler承认Vector Institute的加拿大CIFAR AI主席奖，Maria Shugrina承认CGS-D NSERC奖。这项工作的一部分也得到了NSERC发现基金的支持我们感谢Stylit [18]的作者分享了一个可执行文件，并感谢11名志愿者贡献了他们的时间来绘制样式范例。我们也感谢陈可凡和李代青的贡献。引用[1] ACME电影公司。动画秀的表演。https：//www.animationshowofshows.com/，2018年。4[2] AdobeSystems.mixamo。https://www.mixamo.com，2018年。3[3] Y. Bai ，白氏 D. M. 考夫曼角，澳 - 地 K. Liu 和 J.Popovic 。艺术家指导的 2D 动画动态。 ACMTransactions on Graphics，35（4）：1-10，2016年7月。2[4] S. Baker、D. Scharstein，J. P. Lewis，S.罗斯，M。J.Black 和 R. 塞利斯基光流场数据库及评价方法。International Journal of Computer Vision，92（1）：1-31，2011。2[5] P. B enard和A. 赫茨曼线博士从3d模型的翅膀。arXiv预印本arXiv：1810.01175，2018。3[6] I.伯杰，A. Shamir，M. Mahler，E. Carter和J.哈金斯肖像素描的风格和抽象。ACM Transactions on Graphics（TOG），32（4）：55，2013. 2[7] Blend Swap LLC. 混合交换。网址： //www.blendswap.com，2018年。35393[8] Blender 基金会。辛特尔 https ： //durian.blender.org，2010年。三、七[9] Blender基金会。FreeStyle渲染引擎。https://docs.blender.org/manual/en/latest/render/freestyle/index.html，2018.三、五[10] T.布洛克斯和J·马利克大位移光流：变分运动估计中的描述符匹配。IEEE transactions on pattern analysis andmachine intelligence，33（3）：500-513，2011。七、八[11] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。在欧洲会议中计算机视觉（ECCV），第611- 625页，10月。2012. 二三四五七[12] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。3[13] 色彩爱好者。 COLOURLovers CC. http ： //www.colourlovers.com，2018年。5[14] J. Delanoy，M.Aubry，P.Isola，A.Efros和A.布索使用多视图深度体积预测的3d草图绘制计算机图形学与交互技术国际会议（ACM on Computer Graphics，1999）. 3[15] A.DosovitskiyP.Fischer ， E.Ilg ， P.Hausser ，C.Hazzirbassoul，诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流。IEEEInternationalConference on Computer Vision （ ICCV ）， 2015 年。二、七[16] M. Eitz、J. Hays和M. Alexa人类是如何描绘物体的？ACM事务处理图表（Proc. SIGGRAPH），31（4）：44：1- 44：10，2012。2[17] M.菲尔曼RGBD数据集：过去现在和未来。在IEEE计算机视觉和模式识别研讨会会议上，第19-31页，2016年。2[18] J.Fi séer ， O.Jamri sReplika ， M.Luk a'c ， E.Shechtman，P. 阿森特，J. Lu 和D.是的。Stylit：照明引导的基于示例ACMTransactions on Graphics（TOG），35（4）：92，2016.三、四、五、八[19] Free3D。免费3D。https://free3d.com，2018年。3[20] A. 盖东，Q.Wang，Y.Cabon和E.维格虚拟世界作为多目标跟踪分析的代理。在IEEE计算机视觉和模式识别会议论文集，第4340-4349页，2016年。5[21] L. A. Gatys，A.S. Ecker和M.贝丝艺术风格的神经arXiv预印本arXiv：1508.06576，2015。5[22] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议（CVPR），2012。2[23] X. 汉角，澳-地Gao和Y.Yu. Deepsketch2face：一个基于深度学习的素描系统，用于3d人脸和漫画建模。ACM Transactions on Graphics（TOG），36（4）：126，2017。3[24] B. K. Horn和B.G. Schunck 确定光流。Artificial intelligence，17（1-3）：185-203，1981. 七、八5394[25] T.- W. Hui，X. Tang和C. C.洛伊Liteflownet：一种用于光流估计的轻量级卷积神经网络。在CVPR中，第8981-8989页，2018年。七、八[26] L. Leal-Taix e′，A. 米兰岛Reid，S. Roth和K. 申德尔河MOTChallenge 2015：多目标跟踪的基准。arXiv：1504.01942 [cs]，2015年4月。arXiv：1504.01942。2[27] C.李鹏说，H.PAN，Y.刘先生，X.唐A.谢弗，以及W.王.基于草图的自由曲面建模的鲁棒流引导神经预测。ACM Transactions on Graphics（TOG），37（5）.3[28] D. Li，Y.杨玉Z. Song和T.医院更深、更广、更艺术的领域概括。2017年计算机视觉国际会议。3[29] A. Limpaecher，N. Feltman，A. Treuille和M.科恩通过众包提供实时绘图帮助。 ACM Transactions onGraphics（TOG），32（4）：54，2013. 2[30] N. 迈耶，E. Ilg，P. Fischer，C. Hazirbas，D. 克雷默斯A. Dosovitskiy和T.布洛克斯是什么让好的合成训练数据学习差距和光流估计？国际计算机视觉杂志，第1二、五[31] N. 迈尔E. Ilg，P.豪塞尔，P. Fischer，D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练用于视差、光流和场景流估计的卷积网络。在IEEE计算机视觉和模式识别会议上，2016年6月。二、七[32] J. McCormac，A.汉达，S。Leutenegger和A. J.Davison.场景网rgb-d：500万张合成图像能否在室内分割上击败通用的图像预训练？2017. 5[33] A.米什拉河N. Rai、A. Mishra，和C.贾瓦哈 Iiit- cfw：一个野外卡通脸的基准数据库。欧洲计算机视觉会议，第35施普林格，2016年。2[34] S.欧阳，T. M. Hospedales，Y.- Z.歌，还有X。李For-getmenot：记忆感知的法医面部素描匹配在IEEE计算机视觉和模式识别会议论文集，第5571-5579页2[35] J. Revaud，P. Weinzaepfel，Z. Harchaoui和C.施密特Epicflow：光流对应的边缘保持插值。在CVPR中，第1164-1172页，2015年。七、八[36] P. Sangkloy，N.伯内尔角Ham和J. Hays。 sketchy数据库：学习如何找回画得不好的小圆面包。 ACM图形汇刊（会议录）GRAPH），2016. 二、三[37] E. Simo-Serra，S. Iizuka和H.石川掌握草图：结构化预测的对抗性增强。 ACM Transactions on Graphics（TOG），37（1）：11，2018。3[38] 素描工厂素描工厂https://sketchfab.com，2018年。3[39] D.孙习Roth和M. J.布莱克。光流估计的秘密及其原理。在CVPR中，第2432IEEE，2010。七、八[40] D.太阳，X.杨，M. Y. Liu和J. Kautz. Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集，第8934-8943页85395[41] D. Sy 'k ora，J. Dingliana和S. 柯林斯为手绘卡通动画提供尽可能刚性的图像配准。美国纽约州纽约市，ACM，8月。2009. 2[42] 涡轮鱿鱼。涡轮乌贼。网址： //www.turbosquid.com，2018年。3[43] X. Wang 和 X. 唐人脸照片素描合成与识别。 IEEETransactionsonPatternAnalysisandMachineIntelligence，31（11）：1955-1967，2009. 2[44] B.怀特，G。Noris，M.西蒙斯河W. Sumner，M. H.Gross和J.罗西尼亚克BetweenIT：一个用于紧密插入的交互式工具Comput. Graph.

下载后可阅读完整内容，剩余1页未读，立即下载