基于CTrGAN的步态转移及识别模型

17 浏览量更新于2023-10-16 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

371CTrGAN：用于步态转移的Shahar Mahpod Noam Gaash Hay Hoffman Gil Ben-Artzi Ariel大学*以色列http://gil-ba.com摘要我们介绍了一种新的方法，步态转移从无约束的视频在野外。与运动转移相反，这里的目标不是通过目标来模仿源我们的方法可以使用多个源只训练一次，并且能够从看不见的源转移目标的步态，从而无需独立地对每个新的源进行再训练。此外，我们提出了一种新的度量步态转移的基础上的步态识别模型，使转移步态的质量进行量化，并表明，现有的技术产生的差异，可以很容易地检测到。我们介绍循环变换器GAN（CTrGAN），它包括一个解码器和编码器，两个变换器，其中的注意力是在完整的图像之间的时间域，而不是补丁之间的空间域使用广泛使用的步态识别数据集，我们证明了我们的方法能够产生比现有方法更逼真的个性化步态作为我们解决方案的一部分，我们提出了一个检测器，它可以确定视频是真实的还是由我们的模型生成的。1. 介绍本文的目标是提供一种新的方法和检测机制的步态转移从视频在野外。目标是用不同行走的人（目标）的真实感图像替换视频序列中的行走的人（源），使得所得步态可识别为目标我们的方法直接从未配对的不受约束的视频集合中学习，*这项研究得到了Ariel Cyber Innovation Center的支持。对人。我们避免了对成对数据的需要以及将行走模式分解为不同表示的需要，并直接从2D帧中学习。我们训练我们的模型将多个源转换为单个目标，因此在推理时，它可以推广到看不见的源，而无需重新训练。运动转移方法的目的是合成一个视频，其中一个人的行为与一个人的行为一致。一个不同的人在一个给定的真实视频。越来越多的研究已经在这个主题上进行，这导致了先进的检测[33，27，10]和增强的运动转移技术[44，10]的发展。由于它们之间相互增强的关系，运动传输技术可以通过基于深度学习的操作产生令人信服的逼真图像和视频使用直接作用于不受约束的视频[10]的全身运动转移方法进行步态转移具有以下关键限制：它试图复制源的精确运动;相反，步态转换的目标是将源的典型运动和外观转换成目标的运动和外观，针对不同的角度、步伐和形状进行调整。为了解决这一局限性，我们介绍了CTrGAN步态转移。它将一系列姿势从源传递到目标，同时保持目标的自然运动。来源可能在观点、形状和速度上有所不同。它基于Transformers [41]，已被证明在翻译任务中是成功的。类似于NLP因此，我们可以成功地在源和目标的姿态序列之间进行转换。我们的Transformer模型在时间而不是图像空间中执行自我和交叉注意，捕捉对象的动态。为了生成目标的不可见自然姿态，我们的模型以无监督的方式在未配对的数据上进行训练。这与需要成对数据（例如，[43]）。图1显示了我们的方法。全身运动传输的质量通常以监督的方式进行评估，其基于在运动过程中接近未被看到的目标的姿势和外观的能力。372(a)（b）（c）（d）（e）图1：CTrGAN将源的姿态传输到目标，同时保持目标的自然步态。从左至右：（a）源图像转换为（b）DensePose的[20] IUV格式。(c)我们的模型通过合成一个新的姿态将源的IUV转换为目标的相应的最自然的IUV姿态（d）所生成的姿态与数据集中现有的真实姿态非常相似（但不相同）。(e)所生成的姿态被渲染到目标的对应RGB图像。训练但在测试集中可用。在我们的情况下，除了外观之外，目标是测量步态模式的平移（即，动态）从源到目标的典型步态模式。在许多情况下，在新生成的目标动态中的每个帧与已经包括在数据集中的现有帧之间没有一一对应关系，因此不能以监督的方式直接对其进行评估。我们建议采用最先进的步态识别算法[38]来评估步态转移的质量质量由新生成的姿势被识别为目标步态的准确性确定为了在所有情况下提供准确的测量，我们使用几种不同的算法[11，16，28]。作为评估不可见姿势的外观的一种方式，使用Chamfer我们的模型包括两个网络：（a）CTrGAN，其将源的姿态转换为目标的姿态，以及（b）姿态到外观，其渲染每个姿态的外观。对于后一种网络，我们部署了一种独立的最先进的现有方法。本文的贡献在于：（a）介绍了一种从野外无约束视频中进行步态转移的方法，以及评估指标;（b）呈现具有时间注意力的周期变换器GAN，其可以生成目标的真实步态模式和相应的检测器;以及（c）基于标准步态识别数据集证明我们的方法的有效性，表明它可以生成未知输入源，产生比以前方法多一个数量级的期望步态。2. 相关工作姿势到姿势/外观已经引入了多种方法用于基于语义输入生成目标的视频序列，包括面部运动和面部表情。[35，26，4，40]和全身运动转移，[10，12，43，44，32，48]。这些方法基于准确估计姿态的能力[20，8]以及图像到图像的平移模型[45，51]。它们要么是针对每个源明确训练的[10]，要么只能像我们的方法那样训练与以前的工作相比，我们的目标是生成目标的个性化步态模式，以最好地匹配源的步态，而不是准确地模仿源的原始运动。基于最近的进展，我们采用[10，44]作为我们的姿势到外观网络，其中输入是目标的生成姿势而不是源的姿势。我们的实验证明了CTrGAN优于直接使用[10，44]进行步态转移的益处。在计算机动画的背景下，[1]介绍了运动风格转移。然而，它们需要在行走风格与其内容和3D关节位置之间进行分离，而我们直接从包含行走的人的图像中学习，而不需要分解表示。步态识别。近年来，已经提出了使用神经网络模型来根据步态识别人的各种工作[11，16，39，13]。GaitSet [11]将步态视为由独立帧组成的集合，并基于一系列轮廓图像对其进行识别。GaitGL [28]依赖全局视觉信息和局部区域细节，并在相邻帧之间引入注意力。GaitPart [16]使用一种新的基于部件的模型来表征步态。我们使用GaitSet、GaitGL和Gait-Part模型来评估生成的视频序列的质量。当视频序列中的源与目标重新放置时，识别的步态也应该被我们表明，对于以前的方法，步态仍然很容易与其源，而使用我们的方法，它被认为是属于目标。373不Kj=1j=1J∈FFDH HFJ6464不MJkpk视觉变形金刚。Transformer [41]是自然语言处理领域[7]中经过验证的[41]中所示的Transformer模型由两个主要组件组成：编码器和解码器，其基于自注意机制联合处理输入序列。早期作品[30]将变形金刚改编为图像域。尽管这项工作仅在非常小的图像上展示了其能力，但它为更广泛的工作铺平了道路，这些工作解决了诸如对象检测[9]和分类[14]等常见挑战最近，已经提出了几项工作[23，49，24]，这些工作表明变压器也可以被纳入GAN架构中用于图像生成任务。与以前的方法不同，我们的方法使用未配对的数据[51，5]循环地在域之间转移运动，并且基于时间域中的注意力。3. 方法CTrGAN 在以下方面与 CycleGAN 和标准的基于transformer的架构不同。首先，与CycleGAN不同，它通过使用一系列图像而不是单个图像在域之间循环。其次，与Cy cleGAN和Transformers不同，注意力集中在连续图像之间的时间域上，而不是同一图像的补丁之间。这使我们能够将目标的步态模式纳入源的步态模式转换过程。第三，由于步态的近似循环模式，我们不使用位置编码。图2描绘了我们的自然步态重定向方法的示意图。3.1. CTrGAN架构循环转换器GAN（CTrGAN）由三个主要成分组成：特征提取器，转换器和循环过程。我们将I={Ij}表示为解码器被设计为处理连续的信息流。编码器和解码器由几个链接的注意力块组成，每个注意力块接收三种类型的数据作为输入：键、值和键（以下称为K、V和Q）。3.1.2键目标的关键字是从图像的集合中选择的，其特征向量是最接近的聚类中心。令Uj表示图像j的特征向量：{U，j}= PCA（V，GG，16（{P，j}，j=1.N），d），（1）其中VGG16[37]是预训练VGG1 [37，31]的最后一层（分类器）的特征，d是PCA维度（d=100）。Ck表示通过以下方法获得的聚类的中心：K-means聚类：{Ck}= K表示（{Uj}，m），（2）其中m是质心的数目（m = 18）。最后，键{Kt}定义为：Kt={Pt}，p k={argmin <$Uj−Ck<$2}。（3）被用于其中一个子系统的密钥的在图4a中可以看到这一点。3.1.3查询给定输入序列Pt，查询是lw个连续帧（lw=3）的滑动窗口。我们首先并每次前进一个样本。在训练过程中，我们随机选择一个长度为L的子序列，并从它的第一帧开始。我们在推理过程中从头到尾处理整个序列。RGBA图像和P={Pj}N作为IUV的集合图像[20]。Isi、Psi和It、Pt表示相应的3.1.4特性编码器和解码器j j j j第j个图像的源和目标，分别从相应的集合。在下文中，我们描述关于目标的细节。的详情源以类似方式导出下面，给定一幅IUVA图像PtR4×H×W，其中IUVA是一幅带有附加alpha层的IUV图像，我们生成一个特征张量Ut∈R256×H×W.特征编码器F括号表示我们在实现中使用括号。3.1.1变压器。变形金刚遵循与 [41] 中所示相同的架构最初，Transformer被设计用于处理序列，由两个组件组成，编码器和解码器。编码器设计用于处理在整个系列中保持不变的信息，而是一个5层CNN，后面是4步最大池化（参见更多细节补充）。CTrGAN模型包括两对编码器（T和S），其中每对编码器共享权重。所有四个特征编码器（如图3所示）具有相同的结构。T和S解码器与T编码器相同，除了它们在另一个方向上操作鉴别器Dt→s和t→s（图3）是5层CNN（更多细节见补充1在ImageNet-1 K374，，，。.ΣΣGG~GGGΣ图2：CTrGAN的发电机基于变压器。每个发生器的输入是来自训练集和密钥的IUVA步态图像。输出是自然步态姿势。详情请参阅正文。，P_ t，=Gs→t. {Kt}，{Psi}，（4）Psi=Gt→s{Ksi}，Pt.（五）为了简洁起见，省略了图像的索引。利用源的步态模式的位姿图像这种域自适应通过以如下所示的循环方式组合s→t和t→sPsi=Gt→s。Ksi，Gs→t。Kt，Psi，（6）Pt=Gs→t。Kt，Gt→s。Ksi，Pt.（七）图3：CTrGAN由两个分支组成，它们是循环连接的，功能编码器和解码器以及跨输出姿态图像Pt（即，s→t（Kt，Psi））用于通过姿态到外观生成所请求的外观在特征之间执行自我注意和交叉注意的形成者。网络GM：It=GM。t.（八）3.1.5循环Transformer GAN图3显示了CTrGAN的架构。我们将源图像集合表示为 Φsi={Isi，Psi}i=1. N，并且目标图像集合为It={It，Pt}。我们定义了两个网络s→t和t→s. 第一个网络将来自各种源的姿态图像调整为目标的姿态图像，而第二个网络则相反。我们将Pt和Ps表示为网络工作的输出：P3753.1.6自我和交叉注意attention块中的attention层是Transformer的核心组件之一。关于自我注意力、交叉注意力和视觉化的详细解释可以在补充材料中找到。图4b显示了注意力机制。3.1.7步态周期由于步态的周期性模式，我们不使用位置编码[36]。步态周期可以定义为376KDDDLSt(a) 键(b) 关注图4：（a）使用的键（质心）Kt的样本。(b)我们注意力机制的视觉演示。运动的重复阶段之一的两次连续出现之间的间隔[2]。在这里，我们展示了运动的周期性，如由钥匙的交叉注意模式所表达的那样。图5示出图5：注意力与时间在CycleGAN [51]和ReCycleGAN [5]之后，我们使用相同的对抗性损失Rightadv，其中两个Rightadv网络s→t和s→t是作为训练过程的一部分学习的。以与GAN [19]架构相同的方式，我们使用生成器和生成器Gs→t，Gt→sDs→t和t→s。在我们的训练过程中，我们使用2作为对象-对抗性损失函数L2（Ds→t（Gs→t（P）），0）+L2. Ds→t。P，1关键0（顶部）和关键1（底部）随时间的交叉关注。可以看出，步态周期是明显的。+L2.Dt→s.Gt→s. P t =0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000377DG+L1（Gt→s（P），P）.（十）0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000（Dt→s（Ps），1），（十一）3.2. 优化和损失函数我们在训练中使用以下损失函数循环周期=λidtidt+λadvadv+λcyccyc+λperper，（9）其中0和1是0和1的矩阵，具有与Ds→t（Gs→t（Ps））相同的维数，t→s（t→s（Pt））。循环损失函数是循环损失函数的主要核心，其中λIDT，λadv，λcyc和λ每的权重循环GAN过程被定义为：损失使用恒等损失函数fiddt来确保循环映射保留来自姿态im的映射。周期=L2（Gt→s（Gs→t（Ps）），Ps）+ L2. Gs→t。Gt→s。Pt，Pt。（十二）年龄本身。我们使用L1损失函数.感知损失区别在于，..tt ss每将真实图像的特征向量与生成的特征向量进行补间：Lidt=L1Gs→t P得双曲余切值.378.ΣΣDD−我M我--GGG图6：预处理过程-从左到右：1.原始图像。2.裁剪并居中的图像。3.姿势图像（IUV - DensePose格式）。4.掩蔽图像，由IUV图像L1 （ V GG16 （ Gt→s （ Gs→t （ Ps ）， V GG16（Ps））更多时代所有型号（FT、FS、HT、HS、ES、DS、ET、DT和s→t、t→s）使用相同的配置和参数为了更有效地表示时间关系，我们使用三个连续的帧作为一个小批量。我们的增强包括一个小的放大倍数（从256到272）和随机裁剪。我们的架构的详细描述可以在补充材料中找到。4.3. 基线基线是用于运动重定向的最先进方法，V2V [44]和EDN [10]。这些模型也适于包括阿尔法通道。EDN已调整为与IUVA（IUV + alpha通道）配合使用，而V2V模型已经针对DensePose图像进行了优化，因此只需要多一个通道。我们训练V2V和EDN根据他们的协议与默认参数。我们评估以下方法来评估CTr-GAN的贡献：（a）直接-使用经训练的基线直接从姿势映射到外观。（b）我们的-我们使用CTrGAN来生成姿态图像，然后使用基础-+L1.VGG16.Gs→t.Gt→s. Pt，V GG16Pt.（十三）行来呈现外观。4.4. 度量我们使用预训练的VGG模型[37，31]来提取特征向量。VGG模型在RGB的三层上进行预训练，而我们使用四层（IUVA），因此我们分别测量了IUV和alpha通道的感知损失4. 实验4.1. 数据集我们使用CASIA-A [42]，这是一个广泛使用的步态识别数据集[25，15，3，18]。它包括20个子系统。每个对象具有从三个不同视点捕获的十二个图像序列，导致每个视点的四个实例（由001、002、003和004表示）。总体而言，共有240个视频序列，分辨率为352x240，图像为19，139。我们通过使用DensePose [20]从原始CASIA-A图像中移除背景。我们模型的输入是四通道图像（RGBA）。在每一帧中，我们提取主体的二进制掩码，并将其作为alpha通道附加到RGB图像。图像被裁剪并以对象为中心，以创建256x256画布。示例参见图64.2. 实现细节这些网络使用Pytorch [31]实现，并在单个NVidia2080Ti GPU上进行训练。我们使用Adam优化器训练模型，β1 = 0。5β2 = 0。20个纪元999次。初始学习率设置为2e4，持续5个时期，然后在15个时期内线性衰减到零步态质量。我们通过步态识别模型GaitSet [11]，GaitGL [28]和GaitPart [16]评估了我们的结果，这些模型由OpenGait [17]包实现。我们报告目标准确度-步态识别模型将生成的步态识别为目标步态的次数百分比给定一组参考视频Isi和生成的视频Ig，目标是找到步态模式最相似的参考视频。为此，参考视频根据它们与Ig的距离进行排名：Ds，g=<$M（Isi）− M（Ig）<$2，（14）具体型号在哪里。最相似的参考视频被认为是具有最高的前3（最小距离）频率Isin的视频。所识别的步态是受试者的步态，并且所恢复的距离是D sm，g。在我们的情况下，生成的视频Ig是M（s→t（P g）），其中M是正在使用的姿态到外观模型（例如，V2V）。我们在所有主题和一半的CASIA-A视频上训练模型。外观质量。我们使用以下指标来评估我们的外观质量：初始分数（IS）[34]，结构相似性（SSIM）[46]，感知图像块相似性（LPIPS）[50]和Frechet初始距离（FID）[22]。FID和IS度量测量图像集之间的统计差异，而不是直接测量单个图像之间的统计差异。然而，SSIM和379LPIPS评估生成的380假设在我们的测试集中生成的合成图像I可以是我K↑KS2CDNK我1ΣKR（A，B）= N（S（P），S（P））.基于单个地面实况图像的图像由于这样的事实我不是从一个看不见的来源它并不总是可用的。因此，我们使用倒角距离[6]来从参考视频序列{Ir}恢复最近的地面实况图像：NE=最小Q（ΔIt，Ir），（15）i=1方法模型步态部件步态设置GaitGL-EDNV2v16.943.8929.443.6116.674.17我们EDNV2v18.8984.7262.7856.6736.3968.06表1：目标准确度。顶行是在应用CTrGAN生成姿势之前，底行是在应用CTrGAN生成姿势之后。我们的方法显著提高了生成目标的步态，最高可其中Q代表我们的质量指标，SSIM或LPIPS。所有的方法进行了比较，使用ECD，我们的和别人。姿势重定目标质量。为了估计源的基本运动被传递到目标的程度，使用源和目标的二进制银-帧k中的对象A的houette（PA）是从其IUVA图像I α的alpha通道生成的，阈值为max（Iα）-min（Iα）。给定分别具有M帧和N帧的两个序列A和B，我们根据以下公式计算它们之间的平均IoU：模拟方法（GaitPart+V2V）。(a)（b）之后图7：在应用我们的方法之前和之后，训练集中主体三（目标）的GaitSetM颜色越深，值越低。可以看出1A B（16）MNj kJK我们报告R，其中A是生成的目标，B是源，当A是生成的目标，B是其原始序列时。4.5. 实验4.5.1CTrGAN成功地生成了目标的步态。我们在13个主题上训练我们的模型，并使用剩下的7个进行测试。对于每个主题，训练集和测试集都包括两个视频序列。通过这种方式，我们可以在我们的评估案例中包括在培训期间不可用的源。对于测试集，我们为训练的主题生成视频序列。我们将数据集中的所有主题作为源，包括那些未包含在训练集中的主题。我们测试的能力，以确定所产生的步态作为目标我们的研究结果表明，我们的方法可以产生一个更真实的步态的目标由一个数量级比以前的方法。表1列出了我们的主要结果，V2V和EDN的目标精度在所有表格中，粗体表示最佳结果。表格的顶部显示了直接应用于源姿态的基线。在表格的底部，CTrGAN在应用在部署我们的模型之前，GaitSet很容易区分生成的步态和真实步态，并可以识别真正的在应用我们的方法后，GaitSet在大多数情况下将生成的步态识别为主体三的真实步态。基线方法。可以看出，对于所有方法，CTrGAN显著提高了生成目标的自然步态的能力。所有的模型都未能识别步态的V2V的情况下，没有CTrGAN的目标。这意味着V2V确实可以根据其原始目标准确地模仿目标的源的运动。平均而言，当使用我们的方法时，由V2V渲染的生成步态与目标步态匹配的可能性大约是17图7显示了3号受试者（目标）相对于数据集中所有20个子对象（源）的步态集距离。深色表示低值，浅色表示高值。距离越低，参考序列中的步态与生成序列中的步态越相似。图7a显示了直接方法中V2V方法的距离矩阵。可以看出，GaitSet能够准确地识别所有生成序列的源图7b呈现了在应用我们的CTrGAN来生成姿态之后的V2V的结果。对于绝大多数序列，GaitSet将目标（受试者3）的生成步态识别为真实步态。381模型特征目标精度↑关注机制编码器self-attention解码器self-attention仅循环+关注+时间-注意✗✓✓✗✓✓✗✗✓5.2866.2169.82表2：几种CTrGAN配置的目标精度方法模型SSIM[CD]↑LPIPS[CD]↓FID↓IS↓-EDNV2V0.8900.9010.0720.06355.7953.1310.00250.0010我们EDNV2v0.8700.9090.1010.05583.6752.890.00300.0009表3：外观质量。表3显示了在部署姿态到外观网络时，使用和不使用CTrGAN的不同方法的外观质量。在没有CTrGAN的情况下，不同方法的外观度量是相似的。CTr-GAN略微提高了V2 V的外观质量，但总体上指标相当。CTrGAN的主要贡献是生成可以自然归因于目标的姿态对于这种轻微的改进，一个可能的解释可能是CTrGAN生成的姿势更自然地匹配需要渲染的目标平均姿态重定向质量通过应用等式。(16)与所有生成目标序列及其对应源序列的相关系数为0.8677。平均姿态重定向质量通过应用等式。(16)在应用CTrGAN之前，对所生成的目标的所有序列及其原始序列的预测值为0.6325。很明显，CTrGAN将目标的姿势的轮廓变换在补充材料中，我们表明，现有的运动转移方法保留了源的步态模式4.5.2时间注意力提高了准确性。表2显示了CTr-GAN的不同组分对最终结果的影响我们采用V2 V作为我们的姿势-外观网络，并评估所有步态识别模型的平均目标准确度。可以看出，CycleGAN架构本身不足以生成目标的自然姿态在图像序列之间加入编码器自注意和交叉注意并且使用解码器的键产生明显更自然的姿势。当添加解码器自注意时，获得了进一步的改进，这利用了序列内的时间关系。其他详细比较见补充材料。5. 检测步态转移必须仔细考虑我们的方法的含义，特别是考虑到最近发生的事件，其中错误信息被系统地使用在介绍步态转移问题，我们希望提高认识这一重要问题。我们调查的方法检测生成的步态转移视频作为第一步，以防止误用我们的方法。为了识别由我们的模型创建的视频，我们训练了一个基于外观的检测器。选择一个基于外观的检测器是实用的，因为我们的方法的关键贡献是自然的步态模式的生成，而外观质量是现有的运动传输方法相媲美。我们的检测器将视频分类为真实的或生成的。该数据集包括户外环境中行走的人的原始图像和生成的我们将75%的受试者用于培训，25%用于测试。部署的模型是ResNet152[21]。使用迁移学习，在ImageNet上训练的模型的最后一个FC层被替换为适用于两个类的FC层，该FC层在训练数据上进行了微调我们实现了96.2%的平均检测准确率为持有的目标科目。6. 结论我们介绍了一种新的方法，步态转移的基础上无约束的视频在野外。我们提出了可量化的指标，以更好地评估质量的转移。我们提出了CTrGAN，一种新的基于transformer的架构。我们的模型通过使用一系列图像在域之间循环我们介绍了一种基于外观的检测器，并表明它可以是高度准确的。使用我们的方法，我们获得了最先进的结果。382引用[1] Kfir Aberman ， Yijia Weng ， Dani Lischinski ， DanielCohen- Or，and Baoquan Chen.从视频到动画的不配对运动样式转换ACM Transactions on Graphics（TOG），39（4）：64，2020。[2] Aliakbar Alamdari和Venkat N Krovi。人类下肢肌肉骨骼计算分析的综述。 Human Modeling for Bio-InspiredRobotics，第37[3] 米琳·阿兰特斯和艾迪尔森·贡扎加基于全局运动特征提取与融合的步态识别。多媒体工具和应用，55：655[4] Hadar Averbuch-Elor ， Daniel Cohen-Or ， JohannesKopf，and Michael F Cohen.将肖像画带入生活。ACMTransactions on Graphics（TOG），36（6）：1[5] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。再生甘：无监督视频重定向。在 VittorioFerrari ， Martial Hebert ， Cristian Sminchisescu 和 YairWeiss，编辑，计算机视觉- ECCV 2018 -第15届欧洲会议，德国慕尼黑，2018年9月8日至14日，会议记录，第五部分，计算机科学讲义第11209卷，第122-138页。Springer，2018.[6] Harry G.作者：Jay M.作者声明：Robert C. Bolles，andHelen C.狼参数对应和倒角匹配：两种新的图像匹配技术。在IJ-CAI，第659-663页[7] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Balcan 和 H.Lin ， editors ， Advances in NeuralInformation Processing Systems ， Volume 33 ， pages1877Curran Associates，Inc. 2020年。[8] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页[9] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm编辑，计算机视觉-ECCV 2020-第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第一，计算机科学讲义第12346卷，第213-229页Springer，2020年。[10] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 大家跳舞吧在IEEE国际计算机视觉会议（ICCV），2019年。[11] Hanqing Chao，Yiwei He，Junping Zhang，and JianfengFeng. 步态集：将步态视为交叉视图步态集383识别.在第三十三届AAAI人工智能会议，AAAI 2019，第三十一届人工智能创新应用会议，IAAI 2019，第九届AAAI人工智能教育进展研讨会，EAAI 2019，檀香山，夏威夷，美国，2019年1月27日至2月1日，第8126AAAI出版社，2019年。[12] Mickael Corp. ， Houraalsadat Mortazavi Moshkenan ，FranzL oürch，J uür genMetzle r，andJuürgenB e yere r.像我们这样做在第四届IEEE多媒体信息处理和检索国际会议，MIPR 2021，日本东京，2021年9月8日日，第84-90页。IEEE，2021。[13] 艾德里安·科斯马和扬·艾米利安·拉多伊。Wildgait：从原始监控流中学习步态表示。传感器，21（24）：8387，2021。[14] AlexeyDosovitskiy 、 LucasBeyer 、 AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在第九届国际会议上学习代表，ICLR 2021，虚拟活动，奥地利，2021年5月3日至7日。OpenReview.net，2021年。[15] 穆拉特·艾金奇和穆拉特·艾库特使用步态进行人体识别。2006年IEEE第1 - 4届信号处理和通信应用，第1-4页[16] Chao Fan ， Yunjie Peng ， Chunshui Cao ， Xu Liu ，Saihui Hou，Jianan Chi，Yongzhen Huang，Qing Li，and Zhiqiang He.Gaitpart：用于步态识别的基于时间部分的模型。2020年IEEE/CVF计算机视觉和模式识别会议，CVPR 2020，美国华盛顿州西雅图，2020年6月13日至19日，第14213计算机视觉基金会/ IEEE，2020年。[17] Chao Fan，Chuanfu Shen，and Junhao Liang. 奥彭盖特https://github.com/ShiqiYu/OpenGait，2022年。[18] 我是一个菲律宾人，我是多斯桑托斯，我是索萨的儿子，莱安德罗 ·A 。 Passos ， Raf aelGoncalv esPires，Daniel Felipe Silva Santos ， Lucas Pascotti Valem ，Thierry放大图片作者：Marcos Cleison S.桑塔纳，马特乌斯·罗德，乔·保罗·帕帕和达尼洛·科伦坡。基于深度学习的步态识别：一个调查。ACM计算监视器，55（2），2022年1月。[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani，M.威灵角Cortes，N.Lawrence和K.Q. 温伯格，编辑，神经信息处理系统的进展，第27卷。CurranAssociates，Inc. 2014年[20] Ri z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.密度：野外密集的人体姿势估计。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月日，第7297-7306页。计算机视觉基金会/ IEEE计算机协会，2018年。[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-384IEEE计算机视觉和模式识别会议的论文集，第770-778页[22] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。作者：Isabelle Guyon，Ulrike von Luxburg，Samy Ben- gio，Hanna M.放大图片作者：S.诉N. Vishwanathan和RomanGarnett，编辑，神经信息处理系统进展30：2017年神经信息处理系统年会，2017年12月4日至9日，美国加利福尼亚州长滩，第6626-6637页，2017年。[23] 德鲁哈德森和拉里·齐特尼克。生成的敌对变压器。Marina Meila和Tong Zhang编辑，第38届机器学习国际会议论文集，ICML 2021，2021年7月18日至24日，虚拟事件，机器学习研究论文集第139卷，第4487-4499页。PMLR，2021年。[24] Yifan Jiang ， Shiyu Chang ， and Zhangyang Wang.Transgan：两个纯粹的变压器可以使一个强大的gan，这可以扩大规模。神经信息处理系统进展，34，2021。[25] MuhammadHassanKhan，Fre'de'ricLi，MuhammadShahidFarid和Marcin Grzegorzek。基于运动轨迹分析的步态识别。在Marek Kurzynski ， MichalWozniak和Robert Burduk，编辑，2017年第10届计算机识别系统国际会议论文集，Polanica Zdroj，波兰，2017年5月22日至24日，智能系统和计算第578卷，第73-82页[26] Hyeongwoo Kim ， Pablo Garrido ， Ayush Tewari ，Weipeng Xu ， JustusThies ， MatthiasNiessne r ， PatrickPe'rez ， Chris-tianRichardt ， MichaelZollh o'fer ，andChristianTheobalt. 深度视频肖像。ACM Transactionson Graphics（TOG），37（4）：1[27] Yuezun Li，Ming-Ching Chang，and Siwei Lyu.眼前一亮：曝光人工智能通过检测眨眼生成的假脸视频，2018年。[28] 林贝贝，张顺利，于欣。通过有效的全局-局部特征表示和局部时间聚合进行步态识别。在IEEE/CVF国际计算机视觉会议（ICCV）的会议记录中，第14648-14656页[29] 丹尼尔·内马克，奥姆里·巴尔，玛雅·佐哈尔，和多坦·阿斯尔曼.视频Transformer网络。在IEEE/CVF计算机视觉国际会议（ICCV）研讨会论文集，第3163-3172页[30] Niki J. Parmar ， Ashis

下载后可阅读完整内容，剩余1页未读，立即下载