自监督的顺序VAE用于表示解纠缠和数据生成

122 浏览量更新于2023-10-23 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自我监督和规范化F或ED或不S3VAE：自监督顺序VAE用于表示解纠缠和数据生成Yizhe Zhu1，2，Martin Renqiang Min1，Asim Kadav1，Hans PeterGraf1yizhe. rutgers.edu， { renqiang，asim，hpg} @ nec-labs.com1美国NEC实验室，2罗格斯大学摘要我们提出了一个顺序变分自动编码器来学习顺序数据的解纠缠表示（例如，视频和音频）在自我监督下。具体来说，我们利用了一些容易从输入数据本身或一些现成的功能模型中获得的监督信号的好处，并相应地设计了辅助任务，顺序数据潜变量重构数据我们的模型来利用这些信号通过对信号的监督，我们的模型可以很容易地将输入序列的表示分解为静态因素和动态因素（即，时不变和时变部分）。跨视频和音频的综合实验验证了我们的模型在表示解纠缠和生成序列数据方面的有效性，并表明，我们的具有自我监督的模型与具有地面真实标签的完全监督模型相当，如果不是更好的话，并且大大优于最先进的无监督模型。1. 介绍表示学习是机器学习和计算机视觉的基本研究问题之一[5]。诸如视频、图像和音频的真实世界的传感数据通常是高维的形式。表征学习旨在将这些数据映射到低维空间中，以便更容易地为下游任务（如分类和检测）提取语义上有意义的信息。近年来，人们对非纠缠表征学习的兴趣日益高涨，它试图将观察到的数据变化的潜在因素分离开来，使每个因素都能专门解释感觉数据的一种语义属性。序列数据的表示有望被分解为时变因子和时不变因子。对于视频数据，视频中运动对象的身份被视为时不变因素，而每帧中的运动被视为时变因素[36]。对于语音数据，图1.自我监督和规范化加强了潜在的我们的顺序VAE变量被分解为静态表示zf和动态表示zt。说话者的音色和语言内容的表征有望被解开[27]。学习非纠缠表示有几个好处。首先，产生解纠缠表征的模型更易于解释。其次，解纠缠表示使操纵数据生成变得更容易和更有效，这在娱乐业、训练数据合成[53，54]和几个下游任务[32，19，18，43，55]中具有潜在应用。尽管大量的作品[24，33，6，15，16，7，30]对静态数据（主要是图像数据）的解纠缠表示，很少有作品[27，36，23，46]探索了顺序数据生成的表示解纠缠。对于无监督模型，FHVAE [27]和DSVAE [36]精心设计了模型架构，并将潜在变量分解为静态和动态部分。这些模型可以很好地处理简单的数据形式，如合成模拟数据，但在处理现实数据时失败，我们将在后面展示。此外，正如[37]中所指出的，没有归纳偏差，不受监督的表示解纠缠是不可能的在没有任何监督的情况下，解纠缠的性能很难得到保证，并且在很大程度上取决于模型中的随机种子和潜向量集的维数。另一方面，一些作品[23，46]诉诸于利用标签信息或属性注释作为对分离的强监督。例如，VideoVAE[23]利用整体属性来约束潜在变量。但65386539昂贵的数据注释对于这些模型是必不可少的，并且阻止了它们被部署到大多数真实世界的应用中，在这些应用中大量的未标记数据是可用的。为了减轻上述无监督和监督模型的缺点，这项工作解决了利用自我监督的顺序数据生成的在自我监督学习中，各种容易获得的监督信号已经被探索用于图像和视频的表示学习，采用辅助数据，例如视频中的环境声音[41，3]，相机的自运动[1，29]，3D电影中的几何提示[20]，以及用于视觉跟踪的现成功能模型[51]和光流[42，50]。然而，自我监督学习如何有利于序列数据的表示解纠缠几乎没有被探索。本文提出了一种用于序列生成的序列变分自动编码器（VAE），它是VAE的递归形式在潜空间中，表示被分解为时不变和时变因子。我们通过探索内在的监督信号来解决表征解纠缠问题，这些信号可以很容易地从数据本身和现成的方法中获得，并相应地设计了一系列辅助任务。具体而言，一方面，为了从时不变变量中排除动态信息，我们利用顺序数据的时间顺序，并期望时间混洗数据的时不变变量与原始数据的时不变变量接近（如果不相同的话）。另一方面，期望时变变量包含不同模态的动态信息。对于视频数据，我们允许它预测每帧中最大运动的位置，这可以很容易地从光流中推断出来。对于音频数据，作为固有标签的每个段中的音量被用作监控信号。为了进一步鼓励表示解纠缠，静态和动态变量之间的互信息被最小化作为额外的正则化。据我们所知，本文是第一个明确使用辅助监督，以改善表示的顺序数据的解纠缠的工作。关于表示解纠缠和序列数据生成的大量实验表明，有了这些多个可自由访问的监督，我们的模型大大优于基于无监督学习的方法，甚至优于基于全监督学习的方法。在几个案例中，2. 相关工作随着深度生成模型的发展，最近的作品[24，33，6，7，30]诉诸于变分自编码器（VAE）[34]和生成对抗网络（GAN）[22]来学习一个分布式数据。纠缠表示相应地设计了正规化。β-VAE [24]对KL发散项施加了更重的惩罚，以获得更好的解纠缠学习。后续研究[33，6]从KL项中推导出总相关性（TC），并强调TC项是解开表征学习的关键因素。在Info-GAN[7]中，通过最大化c与生成的样本x之间的互信息下限来实现潜在码c的解纠缠。已经提出了几个工程，涉及解纠缠表示的视频预测。Villegas等人 [48]和Denton等人[12]设计了两个网络，在每个时间步分别对姿势和内容进行编码。与视频预测不同，我们在这项工作中执行的先验视频生成为了处理视频生成，VAE被扩展到重新当前版本[17，4，10]。然而，这些模型并没有明确考虑静态和动态表示disentanglement和无法执行可操作的数据生成。最近，一些作品提出了VAE与因子化的潜变量。FHVAE [27]提出了一种因子化分层图形模型，该模型将序列相关先验和序列无关先验强加给语音数据背景下的不同潜在变量集，但没有利用序列先验。结合复发性VAE和FHVAE的优点[36]能够通过将潜在因素分解为时不变和时变部分来解开虽然这些模型在设计复杂的体系结构时只能对简单数据进行表示解纠缠，但当数据复杂度增加时，解纠缠性能会迅速下降。相比之下，我们的工作探索模型和正则化设计表示解纠缠和顺序数据生成。我们的模型将潜变量完全分解为时不变和时变部分，并且时变变量的后验和先验都由LSTM建模以实现动态一致性。辅助任务与容易访问的监督信号的设计，以regularize和鼓励代表解开。自监督学习的概念可以追溯到自动编码器[25]，它使用输入本身作为监督来学习表示。去噪自动编码器[49]通过向输入添加噪声，使学习的表示对噪声和输入模式的部分损坏具有鲁棒性近年来，人们对自我监督学习的兴趣日益浓厚。监控信号的来源可以大致分为三类。（a）内在标签：Doersch et al. [13]探索6540t=1Rx，tF1：Txe1：T图2.我们提出的模型在视频数据的背景下的框架视频x1：T的每一帧都被送入编码器以产生一系列视觉特征，然后通过LSTM模块获得动态潜变量的流形后验{q（zt|x≤t）}T 与静态潜变量q（zf）的后验|x1：T）。对静态和动态表示zf和z1：T进行采样从相应的后验子中提取并级联以被馈送到解码器中以生成重构的序列x∈1：T。三个调节器施加在动态和静态潜变量上，以鼓励表示解纠缠。图像中空间背景的使用，以及Noroozi et al. [40]训练了一个模型来解决拼图作为一个借口任务。一些作品[52，35]表明，对灰度照片进行着色可以作为视觉理解的有力借口。视频的时间信息是一种-变量z1：T。先验z f的先验被定义为标准高斯分布：zf<$N（0，1）.时变潜变量z1：T遵循顺序先验zt|z

下载后可阅读完整内容，剩余1页未读，立即下载