无监督视频重定向：内容与风格转换的创新方法

174 浏览量更新于2024-06-20 收藏 2.27MB PDF 举报

无监督视频重定向的数据驱动方法是一种新兴的计算机视觉技术，旨在实现视频内容在不同领域之间的转换，如从一个人的面部或身体动作转移到另一个人，或者从一种自然场景转换到另一种。这种方法的独特之处在于它能够在无需任何手动标记或对齐的情况下，通过学习和利用空间和时间信息，保留原始内容的静态特性，并适应目标领域的视觉风格。 Recycle-GAN（再生生成对抗网络）是实现这一目标的关键框架，它结合了对抗性训练策略，这种策略有助于内容转换的同时保持风格一致。Aayush Bansal、Shugao Ma、Deva Ramanan和Yaser Sheikh等人，作为卡内基梅隆大学Facebook现实实验室的研究者，提出了这个方法。他们强调时空约束在确保有效重定向中的作用，比如在人脸转译、实时场景转换（如面对面交流到花朵场景）以及视觉效果的合成（如日出日落）等任务中。传统的方法可以大致分为三类：针对特定领域如人脸的专门设计，虽然在理想情况下效果较好，但在面对遮挡或其他非典型场景时效果受限；配对图像翻译工作试图进行跨域泛化，但依赖于人工标注和对齐，这对大规模的无监督应用构成挑战；最后，无监督和非配对图像翻译试图通过循环一致性学习，但局限于二维图像处理。 Recycle-GAN的优势在于其对复杂场景的适应性和灵活性，它能够处理动态变化的内容，而不仅仅是像素级别的转换，而是朝着更语义化和抽象化的方向发展，为未来与人类合作的智能系统提供了可能。这种技术潜在的应用广泛，包括虚拟现实中的个人化体验，以及自动驾驶汽车的夜间数据增强等。然而，尽管取得了显著的进步，无监督视频重定向仍然面临一些开放问题，如如何提高鲁棒性、解决遮挡问题以及进一步提升内容和风格的自然融合，这些将是未来研究的重点。

A. Bansal，S.Ma，D.Ramanan，Y.谢

赫

这对于生成用于训练监督的输入-输出对是重要的。最近，朱等。[53]

提出在对抗学习框架中使用循环一致性约束[51]来处理这种不成对数

据的问题，并证明了各种任务的有效结果。循环一致性[26，53]使许多

图像到图像的翻译任务，而无需任何昂贵的手动标记。类似的想法也

应用于以无监督方式学习深度线索[14]，机器翻译[47]，形状对应

[20]，逐点对应[51，52]或域自适应[18]。

Cycle-GAN [53]的变体已应用于各种时域[14，18]。然而，这些

工作只考虑二维图像中的空间信息，而忽略了时间信息的优化。

我们观察到两个主要限制：（一）.感知模式崩溃：不能保证循环

一致性将产生输入的感知上唯一的数据。在图2中，我们展示了为唐

纳德·特朗普和巴拉克·奥巴马训练的模型的输出，以及image2labels

和labels2image的示例我们发现，对于唐纳德·特朗普的不同输入，

我们得到了巴拉克·奥巴马的感知相似的输出然而，我们观察到这

些输出具有一些独特的编码，使得能够重建与输入类似的图像我

们在图2-（

）;（2）中看到了image 2labels和labels 2 image的类似行

为在空间上与输入关联：由于输入本身的重建损失，优化被迫学习

与输入紧密相关的解决方案。虽然这对于只有空间变换重要的问

题是合理的（例如马到斑马，苹果到橘子，或绘画等），这对于

需

要时间和风格信息进行综合（主要是面对面

翻译）的问题是重要的

在这项工作中，我们提出了一个新的配方，利用空间和时间的限

制，以及对抗性的损失，以克服这两个问题。图2-（

，

）中示出

了克服上述问题的所提出的方法的输出我们假设这是由于更多的

约束下约束优化。

GANs [15]和变分自动编码器[27]的使用也找到了一种合成视频和时

间信息的方法。Walker等人[45]使用时间信息从单个图像预测未来轨

迹。最近的工作[16，44，46]使用时间模型来预测来自单个2D图像的

长期未来姿势。MoCoGAN [43]分解运动和内容以控制视频生成。类似

地，Temporal GAN [39]采用分别生成一组潜在变量和图像序列的时间

生成器和虽然相关，但先前的工作主要集中在从测试时间的单个图像

预测未来意图或从随机噪声生成视频。同时，MoCoGAN [43]显示了使

用其公式的图像到视频转换的示例然而，我们的重点是一般的视频到

视频的翻译，其中输入视频可以控制输出的精神类似于图像到图像的

翻译。为此，我们可以从我们的方法中生成任意长度的高分辨率视

频，而之前的工作[39，43]仅生成16帧64 × 64。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督视频重定向：内容与风格转换的创新方法

ChatGPT算法详解：RNN与注意力机制驱动的NLP突破与挑战

【HAR文件使用秘籍】：揭开正确解读和利用HAR数据的面纱

动态加载概述与原理.docx

LOL_params_0900000.pt

分群用户详情_7_2024-09-06 09_49_58.xlsx

动态加载的高级主题：懒加载与按需加载.docx

【超强组合】基于VMD-开普勒优化算法KOA-Transformer-LSTM的光伏预测算研究Matlab实现.rar

Minecraft 1.20.1 Paper Plugin-基于Towny Flagwar 为其实现中立国家

resnet模型-基于图像分类算法对度假胜地识别-不含数据集图片-含逐行注释和说明文档.zip

基于Java的订餐系统设计与实现：涵盖系统架构、前端交互与数据库管理

最新资源