高维图像响应的变分自动编码回归方法

61 浏览量更新于2023-10-15 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

：1变分自动编码回归：复流形上视觉数据的高维回归YoungJoon Yoo1 Sangdoo Yun2 Hyung Jin Chang3 Yiannis Demiris3 Jin Young Choi21韩国首尔国立大学融合科学技术研究生院2ASRI，部门电气与计算机工程系韩国首尔国立大学3英国伦敦帝国理工学院电气与电子工程系个人机器人实验室1yjyoo3312@gmail.com2{yunsd101，jychoi}@ snu.ac.kr3{hj.chang，y.demiris}@ imperial.ac.uk摘要本文提出了一种新的高维回归方法，它将高斯过程回归合并到一个可变的自动编码器框架中。与其他回归方法相比，该方法侧重于输出响应位于复杂高维流形（如图像）上的情况我们的贡献总结如下：（i）提出了一种新的估计高维图像响应的回归方法，这是现有回归算法所不能处理的。(ii)所提出的回归方法引入了一种学习潜在空间以及编码器和解码器的策略，使得潜在空间中的回归响应的结果与数据空间中的相应响应（iii）将所提出的回归嵌入到生成模型中，并且整个过程由变分自动编码器框架开发我们证明了我们的方法的鲁棒性和有效性，通过一些实验上的各种视觉数据回归问题。1. 介绍具有未知关系的成对输入和输出数据的回归是数据分析中最关键的挑战之一。在不同的研究领域，如轨迹分析，机器人，股票市场等。[15，44，44，28，22]，目标现象被解释为成对输入/输出数据的形式在这些应用中，回归算法通常用于通过使用从观测数据对获得的信息来估计给定输入的未知响应。许多视觉应用也可以表示为这样的输入/输出数据对。例如图在图1（a）中，运动图像的序列可以通过输入/输出配对数据来描述，其中输入可以被定义为相对顺序，并且输出响应被定义为(a) 图像序列李：？？：总人数：0 1(b) 乔特-波塞·加塔№？？：：图1. 视觉应用中的配对数据示例。(a)对于图像序列，可以通过表示图像序列的相对顺序的空间来定义域（b）对于联合姿态数据对，联合向量空间可以是可能的域。对应的图像。运动捕捉数据及其对应的图像在图。1（b）是另一个例子。输入数据是3D关节位置，其响应将是相应的姿态图像。如果我们可以通过回归对表示给定图像数据对的隐函数进行建模，我们就可以估计与输入数据相对应的未观察图像然而，将现有的多输出回归算法[1，3，2，39]应用于这些类型的视觉数据应用并不简单，因为视觉数据通常在高维空间中表示。一般来说，高维视觉数据（如图像序列）很难用经典的概率方法进行分析，因为它们的建模能力有限[17，18]。因此，回归视觉数据估计视觉反应需要一种新的方法。在处理高维复杂数据时，最近在-36743675尝试[12，27，37，24，36]使用深度生成网络，例如变分自动编码器（VAE）[24]，在重建图像方面取得了显著的成功。在VAE中，定义一个隐变量来嵌入数据的压缩信息，并训练编码器将数据空间映射到其对应的隐空间。解码器也被训练为从潜在空间中的采样点重建图像。将输入数据投影到潜在空间中（经由编码器）捕获数据的基本特征，并允许使用低得多的维度空间执行回归任务。潜在空间中的然而，回归和VAE的简单组合不是特别有效，因为解码器和潜在空间不是以允许潜在空间中的回归响应的结果和数据空间中的对应响应一致的方式设计的。因此，需要一种新的方法来同时训练潜在空间和编码器/解码器，以实现回归的潜在向量和重构图像之间的一致性。在本文中，我们通过结合VAE [24]和高斯过程回归[35]来解决这个问题。该方法的核心思想是在潜空间中进行回归，而不是在高维图像空间中进行回归。该算法利用VAE生成压缩域信息和输出图像信息的隐空间然后，对潜在空间中的投影数据对进行据我们所知，这是第一次尝试应用VAE框架来解决回归问题。整个过程，包括损失函数，被设计为生成模型，并提出了一种新的小批量合成方法来训练解码器，以满足我们的目的。编码器/解码器的所有连接参数都是通过[23]中描述的端到端随机梯度下降方法来推断的。用两个不同的例子验证了所提出的回归方法：体育序列和具有骨架的运动图像序列。第一个例子给出了一个简单域到复杂余域的回归情况，第二个例子给出了复杂域到复杂余域的情况。2. 相关工作深度生成网络：经典的概率生成模型[34，8，42，19，29，40，5]已证明，成功理解各种无监督数据，但其描述能力不足以完全解释图像等复杂数据[18]。最近，与视觉领域的其他作品一样[16，31]，深层架构已成功应用于解决此问题强大的数据生成性能。在这些架构中，生成对抗网络（GAN）[12]和生成矩匹配网络（GMMN）[27]直接学习将潜在空间映射到数据空间的生成器。同时，受限玻尔兹曼机（RBM）[17，18，38，37]和概率自动编码器[24，30，11]的变体学习定义从数据到潜在空间的映射的编码器和生成器（解码器）。据报道，前一种方法，特别是GAN的变体[12，9，33然而，这些方法的适用性受到限制，由于难以发现数据和潜在空间之间的关系。这种固有的性质使得很难使用对抗网络来设计回归。因此，本文采用变分自编码器框架[24]，它也比RBM族更适合于扩展回归模型。可变自动编码器：自从Kingmaet al. [24日]首先发表了变分自动编码器（VAE），已经提出了许多应用[32，43]来解决各种问题。Yan等人[43]提出了条件VAE，以生成以句子形式给出的评价为条件的图像。此外，最近的工作[14，25，13]已经证明，潜在空间中的序列将映射回数据序列因此，这些方法将动态模型（如递归神经网络[14]和卡尔曼滤波器[25，21]）嵌入到VAE框架中这些算法[14，25，25，13]成功地展示了潜在空间中动态模型捕捉图像中相对简单对象的时间变化的能力在本文中，我们应用VAE的回归任务在一个相对复杂的流形。回归：配对数据的回归在理论上已经很好地建立起来，并且在上个世纪已经推导出了基函数[4，35在非参数情况下，高斯过程[35，26]通过使用核度量和高斯过程先验扩展贝叶斯线性回归提供了一般解决方案。利用该方法，我们可以将输出数据估计为由给定数据对和输入数据组成的高斯后验估计。然而，由于核度量对复杂的高维数据的表达能力有限，使得该算法在高维输出数据上的应用提出了多输出回归算法的变体[2，3，1，39然而，这些算法集中于处理相对低维的输出响应，并且不能充分描述复杂的数据，例如图像的数据。在本文中，我们构造了一个回归的潜在空间，通过使用变分自编码器来处理复杂的数据。3676ݕ（D№我的天D№D№…'（）（ݖ∗ݔ∗（GP回归∈Y∈X···|∈ Y|？ݕݕ∗图2.提出的方法的总体方案对于观察到的数据对x ={x1，x2，...，xN}和y ={y1，y2，...，yN}，所提出的自动编码器重建如右上角所示的y = 1，y 2，...，y N。对于未观察到的v edytog iv enx，不可能通过使用具有W E的编码器来获得z，因为我们没有关于y的信息。因此，为了估计y，我们使用x，z和x的回归来获得z，并从z估计响应y。3. 该方法3.1. 总体方案给定目标数据对（xi，yi），i=1，. . .，N，xi∈X，yi∈ Y，我们的目标是找到新输入x ∈N的未知响应y∈ N。本文定义了响应y作为图像，并且相应的输入x基于如图1所示的应用被相应地定义。1.一、如图对于观测数据对（xi，yi），i = 1，···，N，编码器/解码器产生y_i，其是观测图像y_i的重构。对于所观察的数据，编码网络E（·）产生潜在向量z i的一部分的均值和方差，即[mi，y，σ i，y]=E（yi;W E），其将yi压缩为具有高斯均值mi，y和方差σ i，y的潜在变量。z i的剩余部分通过[m i，x，σ i，x]= f（x i，W x）建模，其表示zi的均值和方差。因此，zi的高斯分布由m i=[m i，y，m i，x]和σ i= diag[σ i，y，σ i，x]描述。对于一个新的given x的未观察到的图像y，所提出的方法产生y，这是y的估计。使用从N（mi，σi）采样的zi，解码网络重构输出响应yi，即yi=编码器σ k=E′（y，W G）;其中σ k=[σ k，1，，，σ k，N]。在本文中，为了计算简单，我们将该内核编码器与编码器网络E（y;W E）相结合，并将输出变为[m i，y，σ i，y，σ i，k]=E（y i，W E）。在估计z之后，通过使用解码网络D（z;W D）从z重构响应y。注意，D（z;WD）不仅应该从N（mi，σ i）采样的z i重建y，而且应该从z重建y，z是从x，x和y获得的回归结果。整个过程被设计为具有联合分布p（x∈，y∈，x，y，WE，Wx，WD）的生成框架，因此可以通过VAE算法导出。3.2. 变分自编码回归所提出的方案（图中所示）2）是从图中的有向图模型3 .第三章。图中的图图3（a）表示描述典型重构问题的生成模型，图3（a）中的图表示描述典型重构问题的生成模型。3（b）是变分模型，它不仅近似图中的生成模型。3（a），而且还通过利用与y相关的信息变量x来执行用于估计未观察到的y的回归。联合分布pθ（y，z）可以是由似然函数p θ（y）表示|z）和先验D（zi;WD）.注意，如果（WE，Wx，WD）是经过良好训练的，根据3.4节中的训练方案，yi应与yi相似。然而，对于一个未观测到的y∈x∈，不可能从E（·;WE）得到z∈，因为我们没有关于y∈的任何信息。为了估计y，我们通过使用回归从x={x1，x2，· · ·，xN}，z={z1 ，z2 ， · · · ，zN} 和xN 。对于该回归，zi从N（mi，σi）中采样，用于每个观察到的响应yi∈y={y1，y2，··· ，yN}。然后，我们使用高斯过程（GP）回归zR（x;x，z，σk）估计z，如第3.2节所述，其中σk是GP回归，它可以由一个额外的分布pθ（z），其中θ是指所有参数的集合与响应y的生成相关的参数，潜在变量z。在我们的方法中，z的先验分布被定义为零均值高斯分布，如VAE的典型变体[43，24]。同时，似然函数pθ（yz）描述了该方案的译码过程.下面，示出了θ由解码网络的参数WD一旦定义了联合分布pθ（y，z），就可以从贝叶斯定理理论上导出后向分布pθ（z，y），但计算是困难的。因此，变分分布q φ（z|x，y）被引入到近似-3677||∼|∈a，j||||我 J我J我J(a) 通用电气公司（GE）（b）Variationalmodellel（a）|（陈德铭）图3.所提出的方法的有向图模型(a) y和潜变量z的生成模型。（b）近似后验pθ（z）的变分分布|（一）生成模型。对于新给定的输入x = x，y不被观察到。拟合真后验分布p θ（z|y）。与p θ（z|y），x被引入变分分布q φ（z|x，y）到采样z<$$> R（x<$; x，z，σk），这是GP的结果图4. 所提出方法的训练策略。从采样的训练数据序列生成小批量。观察到的和未观察到的图像，q φ（z x，y）由高斯分布定义，如（2）中所示，并且它使我们能够解析地求解KL-发散项D KL（q φ（z|x，y）||p θ（z））在[ 24 ]的（1）中：回归未知的y？qφ（z x，y）表示整个编码过程从输入数据对（x，y）生成潜在变量z，相应地，变化参数φ由3.1节中描述的参数W_E，W_x实现。重要的是，q φ（z|x，y）应该能够解释两种情况：1）观察到的图像yi，q φ（z|x，y）= N（z|m（x，y），σ（x，y））。（二）变分参数φ由高斯均值函数m（x，y）和方差函数σ（x，y）组成。m（x，y）和σ（x，y）根据输入数据以不同的方式产生当输入数据由下式给出时，以及2）需要回归的未观察图像y如前所述。对于第一种情况，变分x=xi∈x，编码器产生m（x，y）=[mi，y ，mi，x]及分布定义为z iq φ（z x=x i，y=y i）.对于后一种情况，变分分布被定义为zq φ（z|x = x，y ∈），它表示用于估计输入x的潜在z的GP回归过程。为了估计参数θ和φσ（x，y）=diag[σi，y，σi，x]，其中diag[·]是指对角线，nal矩阵当输入数据由x=x，jx，m（x，y）和σ（x，y）给出时，由z，x和x，j的GP回归估计的均值和方差（m，j，σ，j）确定，其中这尽量减少的距离在p θ（z|y）和q φ（z|x，y），我们尽量减少的库尔贝克-莱布勒迪-m，j=K，jK−1Z，σG=（K，j−K，jK−1KT）I.（三）聚散度DKL（pθ（z y）qφ（z x，y））.后推导在[6，24]中，最小化程序{θθ，φθ} =arg min{θ，φ}D KL（p θ（z|y）||q φ（z|x，y））是Z表示矩阵[z1;z2;···;zN]∈RN×D，I∈RD×D是单位矩阵，其中D是z∈ Z。矩阵K、K和K被定义为：转换为{θ，φ}=arg min{θ，φ}L（θ，φ），其中2004年，ja，jL（θ，φ）= − D（q（z|x，y）||p（z））k（x1，x1）··· k（x1，xN）KLφ θΣNΣM（一）K= 0。. . ..（4）+i=1logp θ（y i|zi）+j=1logpθ（yj|zj）。k（xN，x1）· ··k（xN，xN）K，j=k（x，j，x，j），（5）z，j和y，j表示M个潜码，并且对于x，j，j=1，···，M，输出响应。K，j=[k（x，j，x1），k（x，j，x2），···，k（x，j，x N）].（六）对于核k（·，·），我们使用SE的简化版本Dz）Dz）Dz）ݖݖƒݖEx，y）Ex，y）Ex，y）Dz）ݖݕƒݔƒݔݕݔݔݕݕ3678||2从z，j，j，通过如图1所示的解码网络二、的核[35]，其中k（x，x）=<$σ σexp||x−x||.参数θ和φ由具有q φ（z）回归的编码网络的连接参数实现|x，y）和p θ（z，y）的解码网络（见3.3节）。为了最小化（1）中的损失，我们提出了一种方法，批量学习（见3.4节）。亚当优化器[23]最后，变分参数φ由编码器网络的权重矩阵（Wx，WE）。总之，对于给定的数据x，y和x∈，（2）中的qφ（z x，y）给出为：.用于随机梯度下降训练。3.3. 模型描述q φ（z|x，y）=N（m i，σ i）x =xi，y = yi.N（m，j，σ，j）x=x∈ N，j，y∈ N.（七）对于编码部分，我们定义q φ（z|x，y），其将数据对（x，y）映射到潜在空间Z中。为对于解码过程，我们定义了似然函数p θ（y|z）=p（y|D（z; W D）），其中p（y|D（z; W D））3679编号：？浏览次数：0我的爱我的爱？12···−······−···N+1个LMMMM我我1N1NMnnnKK{··· }{···}联系我们···−∈Y定义为平均值为D（z;WD）的高斯分布固定方差。因为z的先验定义为零平均高斯和单位协方差矩阵，权重WD表示生成模型参数θ。因为相应地，（1）中的第二术语和第三术语的含义解释如下。由于负对数似然（−log（p θ（y|z）定义为l2距离||在我们的算法中，第二项表示-||in our algorithm, the second term repre-发送给定数据对（xi，yi）的重建误差，第三项表示对于yi，j通过从给定的输入数据xi，j和观测数据（x i，yi）回归，i = 1，. . . 、N.3.4. 培训为了训练所提出的模型的参数，需要足够数量的训练数据集。在我们的算法中，总共有V个不同的训练序列（x v，y v），v=1，. . .，V，i=1。. .，N v，如图所示，特里·伊·德·伊·贝·伊·贝·伊图5.用于微调的批量生成该批次由观察数据对（红色）和训练数据集中的采样数据对组成。WE，Wx和WD使用来自训练数据集的批次，我们进一步用观察到的数据对（xi，yi），i=1，，N以与以前的回归技术相同的方式微调参数[35，26]。请注意，回归部分的训练没有完成，因为地面真值我我见图4。这些训练数据对共享与目标（测试）数据对（xi，yi）相似的语义。如果目标数据对是高尔夫挥杆序列，则训练数据对将是在不同情况下获得的不同高尔夫挥杆序列。一旦不可用于测试数据集。为了微调小批量由观察到的测试数据对（x i，y i）和从训练集中随机选择的（K1）数据序列（x k，y k）组成，如图1所示。5的该方法利用高尔夫挥杆动作的训练数据集对参数进行训练，可以从一次挥杆动作的不完整测试序列中在用小批量训练模型之后，我们用目标回归中的观测数据对参数进行微调。小批量培训：[7 ]中的工作报告说，当使用随机梯度下降方法[23，10]的变量来训练参数时，小批量的组成是至关重要的。为了生成批量序列，本文从总共V个序列中随机选取K个序列对于每个选择的训练序列k=1K，我们随机挑选L个数据对（x k，y k），l=1，.，L，其中L=（M +i=1，... ，N ，k且k=1，...，（K①的人。当总数量-当观测到的测试数据对的误码率N小于L时，允许重复的样本数量。然后，通过50次迭代对参数进行微调。补充材料中介绍了详细的实施情况。4. 实验在实验中，我们通过两个由图像数据组成的应用程序来评估所提出的方法的回归能力：（1）具有简单时域和复杂余域的问题和（2）具有复杂域和余域的问题。对于第一个应用程序，我们llkk使用从YouTube获得的体育数据序列。人类N）。对于较早的N个数据对（xn，yn），n=1，N，我们从编码器func得到潜在空间向量zk对给定骨架的姿势重建进行了测试，k kn第二应用。tionE（yn;WE）和f（xn;Wx）来训练WE、Wx和WD。或者，对于后面的M个数据对（xk，yk），m=KMm4.1。体育数据序列（N+1），，L，我们通过回归（Sec-1）获得潜在的zm。（3.3）从 zk，，zk 、 xk，，xkxk。的响应 y、，y假设在编码过程中是未知的。该数据集用于训练解码器网络D（z;WD），以不仅针对来自数据对（xk，yk）的zk，而且针对从回归获得的zk的评估场景：在这个场景中，我们为三个运动序列创建了数据集：棒球挥杆、高尔夫挥杆和举重。该数据集包括236个棒球挥杆，YouTube上的232个高尔夫挥杆动作和129个举重动作在数据集中，1000包含2000张图片每个动作序列，并给出了它们的相对顺序根据估计的yk和实际的yk计算相应的损失定义域被定义为X：[0，1]，并且X中的点被定义为-是指（1）中的第三项。我们注意到，计算损失项，因为yk可以用作地面真实回归响应。在构建批次之后，计算批次的随机梯度[23]以训练所有参数。参数微调：训练参数对于每个图像y，符号为x根据其相对在整个序列中。为了测试，高尔夫和棒球挥杆训练与200随机选择的序列和测试与那些剩下的。举重场景是用100个序列训练的。我们对每个测试序列执行了回归，观察到20…3680（一）(1)（c）第（1）款（一）（（c）第（1）款（一）(2)（c）第（1）款（一）（（c）第（1）款（一）(3)（c）第（1）款（一）（（c）第（1）款图6.体育数据集回归的定性结果（最佳颜色）。每项运动中的行（a）表示所提出的回归结果。行（b）中的图像来自R-VAE回归行（c）是MOGP [2]的结果右侧的结果表示观测图像的重构结果的样本。（一）（b）第（1）款图7.实验结果与神经网络方法进行了比较（一）拟采用的方法。(b)NN与VAE的潜在空间。在每个序列的所有图像内的图像，并将结果与多输出GP回归（MOGP）[2]和GP回归结合香草VAE [24]（从这里开始称为R-VAE）进行比较。对于R-VAE，我们以与所提出的方法相同的方式进行微调过程对于MOGP，我们用给定序列中三分之二的图像训练了内核定性分析：图6示出了图像生成结果的定性比较。图1中的序列6显示了从范围[0，1]内100个均匀划分的点的回归响应中均匀选取的样本。如（a）所示，与其他方法相比，所提出的方法产生了最准确的响应。R-VAE还成功地捕捉到了背景的生硬特征和动作的运动。然而，在（b）中生成的图像遭受大量噪声，对于某些图像，难以识别运动（以红色圈出）。还展示了图像顺序不匹配的实例（蓝色圆圈）和图像背景不匹配的实例（绿色圆圈）。框中的图像显示了给定图像对的重建结果样本。所提出的方法和R-VAE都成功地重建了图像，但回归性能有很大不同。与（c）一样，MOGP在描述图像中的运动变化方面并不成功，图8. 微调效果分析。(a)（b）：所提出的方法的回归结果示于第一行，R-VAE的回归结果示于第二行。(c)方框中的图像表示观察图像的重建结果的样本回归收敛到训练图像的平均值我们还进行了实验比较最近邻（NN）方法的结果，提出的方法。我们研究了VAE学习后将神经网络应用于潜在空间然而，由vanilla VAE编码的潜在空间并不足以使用NN执行回归（见图1）。（七）.这是因为与运动区域相比，背景区域的编码在NN中起主导作用。这个问题在图中的右下顺序处清楚地看到。7.第一次会议。虽然背景（绿色和天空）区域与观察结果相对相似，但摆动的人体区域没有正确回归。这清楚地表明，所提出的在潜在空间中的回归执行得很好，在图像空间中实现了预期的编码器和解码器被训练为将潜在空间中的回归结果直接链接到图像空间中的回归结果，这不是微不足道的，如图1所示第7（b）段。这是所提出的方法（摘要-ii）的第二个贡献。图图8示出了微调过程的效果的（a）未经微调（b）经微调（c）重建观测3681(a) 拟定回归（b）R-VAE+0S5+1S0+1S5图9. 结果是+0。5σ，1. 0σ和1。5σ潜在样本。表1.测量有/无背景的结果第一列和第二列示出了进行和不进行微调的结果。所提出的方法的结果在第一行中示出，R-VAE的结果在第二行中示出。在微调之前，两种方法都产生噪声输出，但所提出的方法捕获了背景的大量特征在R-VAE中，背景信息的准确性低于所提出的方法（红色圆圈）。在微调过程之后然而，方法之间的回归性能差异显著，如（b）所示。图9表示不同标准偏差的图像生成结果。与原始GP回归一样，所提出的方法以均值和方差的形式估计输出响应，因为用于重构图像的潜在z是从高斯分布采样的，如（7）中所示。如（a）中所见，所提出的算法捕获了每个图像中的运动的核心语义，尽管存在偏差变化。在R-VAE中，当采样的潜在z接近平均值时，回归结果是合理的，但是当添加大量噪声（高达1.0σ）时，图像中的运动被完全不同的动作回归从这个结果中，我们可以看到，R-VAE也有能力根据它们的顺序在潜在空间中对齐图像，如在以前的作品中所报道的那样[24，13]。然而，研究结果也表明，学习的方差R-VAE不能很好地代表所需的运动语义回归，这是必不可少的GP回归在图像空间中的实现。定量分析：使用结构相似性指数测量（SSIM）[ 41 ]测量定量性能，该测量捕获两个图像之间的结构相似性。我们仅使用测试集中的100幅图像的领域信息来估计它们，并比较地面真实图像与回归结果之间的相似性。表1显示了性能指标。表2. 从+ 0开始测量图像。5σ，+1。0σ和+1。5σ。不同标准差的SSIM结果体育方法+0.5σ+1.0σ+1.5σ棒球提出0.64530.59800.5307R-VAE [24]0.49930.44020.3825高尔夫提出0.72030.48390.4422R-VAE0.56420.40260.2417抢夺提出0.40420.36560.3629R-VAE0.27000.16450.0770确保生成的回归图像。对于三种不同的运动序列，与R-VAE相比，所提出的方法生成了与地面实况（GT）更相似的图像。有趣的是，当包括背景时，MOGP [2]的结果（收敛到图像的平均值）被测量为在测试方法中最相似。这是因为当GT的背景固定时，平均图像的背景几乎与GT的背景相同在没有背景区域的情况下进行相似度度量时，MOGP算法并不成功，而所提出的算法取得了最高的性能。此外，与图1A所示的结果一样。7、神经网络方法的定量表现不理想。表2和图9显示了改变标准差时的性能。我们证实，所提出的方法产生更合理的输出比R-VAE的所有情况下。4.2.人体姿态重建评估场景：在这个实验中，我们使用了人类360万（H3.6m）[20]数据集来生成给定关节位置的适当人类外观。数据集提供32个关节位置，因此输入数据位于96维空间中。该数据集包括不同的动作，并且每个动作由不同的参与者重复执行。我们的目标是通过利用观察到的关节位置和图像对来估计新骨架的适当图像。在实验中，我们使用了H3.6m数据集的每个演员的场景在8个不同的视点中被捕获，从而导致每个演员总共有16个人体姿势序列。我们用4个不同演员的动作训练模型，每个演员使用12个序列。然后，我们从剩下的四个序列中选取观测值并进行回归。回归的联合向量从选择观测值的序列中选择。对其他电机的联合矢量为了进行比较，我们使用了最近的条件VAE（C-VAE）[43]方法，该方法根据给定的属性以及采样的潜在代码生成在这个实验中，联合向量被用作属性。定性分析：图10（A）示出了所提出的算法和C-VAE的姿态生成结果。为结构相似性指数测量[41]体育提出R-VAE [24]MIGP [2]NN棒球0.610 /0.6070.492 /0.4890.803 / 0.2470.215 / 0.210高尔夫0.752 /0.7070.578 /0.5430.845 / 0.1140.244 / 0.213抢夺0.377 /0.3690.207 /0.2050.626 / 0.0190.206 / 0.1983682实验（A）实验（B）（一）(b)(c)(d)GT拟议C-VAE（2）图10. 人体姿势估计结果来自关节（最佳颜色）。行（a）中的图像表示C-VAE（1）结果。行（b）中的图像来自CVAE（2）。行（c）是所提出的方法的结果行（d）示出了地面实况。表3.生成的人体姿态图像的相似性度量用于人体姿态生成行为者建议（A）CVAE（A）建议（B）CVAE（B）#10.74020.48490.52270.4059#20.67430.42650.47750.3580#30.72950.50940.50130.4268#40.76710.49540.52240.4198C-VAE（1），我们使用随机样本潜码zy，如[43]所示。对于C-VAE（2），潜在代码由图2中提出的回归块给出。二、如（c）中所示，通过所提出的方法回归的图像成功地描述了每个人体姿势的整体运动。此外，请注意，每个图像的背景是根据观察数据对的视点正确生成的。C-VAE（2）生成的图像包含大量噪声，但它们捕捉到了演员的粗略轮廓这个结果是值得注意的，因为C-VAE通常处理的情况下，属性是离散的。C-VAE（2）的结果比C-VAE（1）的结果更清楚，但差异无显著性。图中的结果10(B)显示了给定其他参与者的联合向量时的输出响应。蓝框中的图像指的是地面实况姿态，而红框中的图像是通过所提出的方法的回归结果。该结果表明，所提出的方法生成的姿态与输入关节向量的姿态相同，同时通过回归保留给定数据对的外观。具体地，当给定对涉及穿着白色衣服的男人时，所生成的图像示出了穿着相同衣服的男人，其具有与GT图像相似的姿势。C-VAE(2)在从其他参与者生成给定关节的对应姿势时不成功。定量分析：表3示出了所生成的图像与地面实况图像之间的相似性。由（A）表示的前两列表示图1的实验（A）中的定量结果。10个。在实验中，所提出的方法取得了更高的分数比 C-VAE （ 2 ）。对于实验（B），我们比较了回归图像和原始图像的联合向量（图中的绿色框）。第10段）。在那里，我们的方法也获得了比C-VAE更高的分数（2）。实验中，输入数据位于高维空间，目标关节向量的选择不考虑时间信息。尽管复杂和非顺序的输入域，所提出的回归方法实现了合理的输出响应，描述了输入中给出的语义和观察对中包含的身份信息。这意味着该方法不仅适用于时态输入，而且可以处理更复杂的非时序输入。5. 结论在本文中，我们提出了一种新的回归方法，高维视觉输出。为了解决这一问题，本文提出的回归方法被设计为使得潜在空间中的回归响应的结果与数据空间中的相应响应一致。通过定性和定量的分析，证明了该方法能正确地估计图像响应，并能近似地反映复杂的输入输出关系。本文在回归领域中发现了有意义的进展，我们的工作介绍了一种将深层架构与概率框架中的回归方法相结合的方法。6. 确认这项工作得到了 MSIP/IITP 的 ICT 研发计划（No.B0101-15-0552，预测视觉智能技术的开发），首尔国立大学三星智能校园研究中心，欧盟FP 7项目WYSIWYD under Grant 612139和BK 21 Plus项目的部分支持。我们感谢NVIDIA公司的GPU捐赠。3683引用[1] M. Alvarez和N. D.劳伦斯多输出回归的稀疏卷积高斯过程神经信息处理系统的进展，第57-64页，2009年一、二[2] M. A. Alvarez和N. D.劳伦斯计算效率高的卷积多输出高斯过程。 Journal of Machine Learning Research ， 12（May）：1459-1500，2011。一、二、六、七[3] M. A.阿尔瓦雷斯D. Luengo，M. K. Titsias和N. D.劳伦斯基于变分诱导核的高效多输出高斯过程。在AISTATS，第9卷，第25-32页，2010中。一、二[4] Y.安仔模式识别机器学习。Else-vier，2012. 2[5] L. E. Baum和T.皮特里有限状态马尔可夫链概率函数数学统计年鉴，37（6）：1554-1563，1966年。2[6] M. J. 比尔近似贝叶斯推理的变分算法。伦敦大学，2003年。4[7] Y. Bengio，J. Collobert和J.韦斯顿当前学习。第26届国际机器学习年会论文集，第41-48页。ACM，2009年。5[8] D. M. Blei、A.Y. Ng和M.I. 约旦. 潜在的狄利克雷异源。Journal of Machine Learning Research，3（Jan）：993 2[9] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展，第1486-1494页，2015年2[10] J. Duchi，E. Hazan和Y.歌手. 在线学习和随机优化的自适应子梯度方法。 Journal of Machine LearningResearch，12（Jul）：21215[11] M. Germain ， K. 格雷戈尔岛 Murray 和 H. 拉罗谢尔Made：用于分布估计的掩蔽自动编码器。国际机器学习会议，第881-889页，2015年2[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年。2[13] R. Goroshin，M. F. Mathieu和Y.乐存。学会在不确定的情况下保持线性神经信息处理系统的进展，第1234-1242页，2015年二、七[14] K. 格雷戈尔 I. 丹妮赫卡 A. 格拉夫D. Rezkirk，以及D.维尔斯特拉Draw：用于图像生成的递归神经网络。第32届国际机器学习会议（ICML-15）集，第1462-1471页，2015年2[15] H.他和W。C.萧基于高斯过程回归的单幅图像超分辨率。在计算机视觉和模式识别（CVPR），2011 IEEE会议上，第449IEEE，2011年。1[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE会议的会议记录中-计算机视觉和模式识别，第770-778页，2016年。2[17] G. E.辛顿通过最小化对比差异来训练专家的产品。神经计算，14（8）：1771 一、二[18] G. E. Hinton，S. Osindero和Y.- W.茶一种深度信念网的快速学习算法。神经计算，18（7）：1527-1554，2006。一、二[19] P. W. Holland和S.莱恩哈特有向图的概率分布的指数族。美国统计协会杂志，76（373）：33-50，1981。2[20] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325 7[21] R. E. 卡尔曼线性滤波和预测问题的一种新方法基础工程学报，82（1）：35 2[22] T. Kimoto，K. Asakawa，M. Yoda和M.竹冈基于模块化神经网络的股市预测系统。在神经网络，1990年，1990年IJCNN国际联合会议，第1-6页。IEEE，1990年。1[23] D. Kingma和J. BA. Adam：一种随机优化的方法. 2014年第三届学习表征国际会议。二、四、五[24] D. P.Kingma和M.威林自动编码变分贝叶斯。2013年第二届学习表征国际会议论文集。二三四六七[25] R. G.克里希南U. Shalit和D.桑塔格深度卡尔曼滤波器。arXiv预印本arXiv：1511.05121，2015。2[26] N. D. 劳伦斯高维数据可视化的高斯过程潜变量模型神经信息处理系统进展，16（3）：329-336，2004。二、五[27] Y. Li，K. Swersky和R.泽梅尔生成矩匹配网络。国际机器学习会议，第1718-1727页，2015年2[28] A. W. Lo和A. C.麦金利股票市场价格并不遵循随机游走：来自简单规范测试的证据。Review of FinancialStudies，1（1）：41-66，1988. 1[29] S. N. MacEachern和P. 穆勒河 Dirichlet过程模型的混合估计Journal of Computational and Graphical Statistics，7（2）：223-238，1998. 2[30] A. 马赫扎尼J.Shlens，N.杰特利和我古德费罗对抗性自动编码器。arXiv预印本arXiv：1511.05644，2015。2[31] H. Nam和B.韩视觉跟踪的多域卷积神经网络学习。在IEEE计算机视觉和模式识别会议集，第4293-4302页，2016年。2[32] Y. Pu，Z.甘河，巴西-地Henao，X.袁角，澳-地Li，长穗条锈菌A.史蒂文斯和L.卡琳用于图像、标签和标题深度学习的可变自动编码器。神经信息处理系统的进展，第2352-2360页，2016年2[33] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。23684[34] C. E. 拉斯穆森无限高斯混合模型。在NIPS，第12卷，第554-560页，1999年。2[35] C. E.拉斯穆森机器学习的高斯过程。2006. 二、四、五[36] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。第31届机器学习国际会议论文集，第1278-1286页，2014年。2[37] R.萨拉赫季诺夫学习深度生成模型。博士论文，多伦多大学，2009年。2[38] R. Salakhutdinov和G. E.辛顿深层玻尔兹曼机器。在AISTATS，第1卷，第3页，

下载后可阅读完整内容，剩余1页未读，立即下载