没有合适的资源?快使用搜索试试~ 我知道了~
8256受试者之间姿势偏差的无监督放大MichaelDork enwaldBu?chler?Bj?rnOmmerHCI / IWR,海德堡大学,德国摘要分析人体姿势并在不同主题之间进行精确比较对于准确理解行为和许多视觉应用(如医疗诊断或体育)至关重要。运动放大技术有助于看到甚至是肉眼看不见的姿势的微小偏差然而,当比较不同外貌的个体之间细微的姿势差异时,他们就失败了基于关键点的姿态估计和分类技术可以处理大的姿态变化我们提出了一种方法,尽管在外观上有很大的偏差,但在无监督的情况下放大个体之间的姿势差异。我们不需要关键点注释,并在子身体部位级别上可视化偏差。为了将受试者的外观转移到放大的姿势上,我们提出了一种新的损失,用于在自动编码器中投影放大会产生与训练集不同的放大图像。因此,我们已经将放大率纳入了自动编码器的训练中,并在没有监督的情况下学习真实数据和合成放大率。实验证实,我们的方法提高了国家的最先进的放大倍数和应用程序发现姿势偏差,由于损害。1. 介绍对人体姿势、运动和行为的自动分析是计算机视觉的一个关键问题,具有许多应用,如自动驾驶[37,57,39,20,42]、监控[11,30,47,56]和医疗保健[7、32、54、2]。一个主要的挑战是比较不同受试者之间的相关性,尽管在外观上存在巨大差异。行为理解的典型方法包括动作分类[8,38,18,9,3],位置-真实估计[1,29,44,6,5,45]和跟踪[25,10,1]。然而,由于对外观变化不变,这些方法忽略了*表示平等贡献图1.受试者之间姿势偏差的放大。我们通过放大姿势编码中的差异,在视觉上强调查询xq和参考系xrxq走路时两腿分开,红线与绿线xr的对比突出显示。 我们首先将姿势与外观分开(蓝色方框显示了Eπ,Eα的可视化)。然后,我们在姿态编码中外推x r和x q在x q方向上的距离。放大图像(右下)是通过组合xq的外观编码和使用不同放大强度λ的放大姿势编码生成的。所生成的图像允许用户更容易地看到差异。姿势在另一端是运动放大技术[35,55,16,52,53,50,58,43],比较相同视频的帧,以在视觉上放大它们的细微差异。即使是最近的基于学习的方法[43]也被设计成放大同一主题的视频内差异。经过对合成外观变化的不变性训练,它们可以处理视频内外观变化,但无法处理主题和视频之间的差异我们缺少的是两个世界中最好的:这是一种显微镜,可以选择性地放大不同受试者之间细微的姿势差异,同时抑制他们在外观上的巨大差异。显然,人类视觉很容易被主体间的外观差异所淹没,因此无法发现不同个体之间的细微姿势从运动(比较和识别次优运动)到医学(发现运动神经功能障碍),因此,这种详细的分析将对审计署的工作有所帮助。8257我们提出了一种无监督的方法来放大不同主题之间的微妙姿势差异,不需要关键点注释。由于没有标记,我们的方法可以真正发现偏差,并将其定位在子身体部位的水平上,而不必事先确定相关的为了将个体的外观转移到放大的姿势差异的合成图像上,我们在自动编码器中明确地解开姿势和外观。与[43]相比,我们还提出了一种新的损失,尽管存在较大的外观偏差,但它可以更好地执行解纠缠。放大通常旨在生成新的、夸张的姿势,这些姿势不在训练集中,因此难以合成。因此,我们需要将放大过程集成到自动编码器的训练与[43]在合成数据上进行训练相比,我们的方法可以直接在真实数据的推断放大率上进行训练,而无需监督。实验表明,我们的方法导致更详细,更逼真的放大。它还在质量和发现由于损伤导致的姿势偏差的下游任务方面定量地提高了最先进的性能我们工作的主要贡献如下:(1)我们介绍了放大跨对象姿势偏差的新应用场景;(2)我们提出了一种非监督的方法,该方法将姿态与其余图像分量分离,并使我们能够直接在真实数据上训练放大;(3)介绍了三个新的数据集,并对模型进行了应用评价。2. 相关工作倍率放大是一种有价值的工具,可以增强图像或一组图像的差异,以便自动检测和可视化小变形。Tali等人[12]和Tlustyet al. [49]可视化单个图像或多个视图中重复结构之间的非局部变化。 Wadhwa等人[51]夸大感兴趣的物体和理想几何形状之间的几何偏差。视频运动放大技术[35,55,16,52,53,50,58,43]放大了同一视频中物体的细微运动运动放大的第一次尝试[35]计算视频帧之间的光流以下作品[55,52,16,53,58,43]不直接改变像素,但它们将视频分解为替代表示,例如,通过使用频率域。然后选择期望的运动并用于生成图像。Oh等人[43]提出了第一种使用编码器-解码器架构的基于深度学习的视频运动放大方法。放大由使用合成数据集训练的我们也放大了不同的-然而,使用视频帧作为输入的情况下,我们放大了个人和视频之间的姿势偏差。此外,我们的方法直接在目标数据集上以无监督的方式进行训练解开解开图像中的变化因素已经提出了二十多年[21,15,19]。 最近的工作表明,成功的结果,深度生成神经网络[23,24,48,33,27,17,40,14、36、28、34、46]。Hu等人[27]提出了一种无监督的方法,该方法将编码向量分成多个块,并使用不变性目标迫使每个部分具有有意义的信息。然而,不存在对由每个块提取的图像的特征的控制,这对于放大姿势偏差是必要的。Denton等人[13]通过利用视频的时间信息来训练姿势和内容姿态编码器通过使用对抗性损失欺骗内容搜索器来训练。给定来自同一视频的两个帧,内容编码器最小化它们之间的距离。我们的外观编码器还利用视频对姿势保持不变,但我们不需要内容和姿势损失。此外,我们提出了一种新的解纠缠损失,这使得两种编码对生成的贡献相等。3. 方法首先,我们定义了放大姿态偏差的问题。然后,我们提出了我们的无监督的方法分离姿态和外观,以确保放大只改变姿态,而不是外观。最后,我们描述了我们的方法,使我们能够直接训练真实数据的放大率。3.1. 问题定义给定示出执行特定动作的主体的查询视频的帧xq,目标是放大xq与参考帧xr的差异并生成放大图像x m= m(x q|x r,λ)(1)其中m是放大函数,λ是放大强度,并且Xr是来自不同视频和对象的帧。这个问题需要比像素空间更详细的表示事实上,我们需要一个模型,它显式地学习以输入图像为条件的编码空间,并能够将编码解码回图像空间。因此,自动编码器(AE)是首选的架构。AE由编码器E和解码器D组成。E提取输入图像x q的较低维表示,并且D通过生成重建图像x q将表示转换回输入空间。我们需要一个明确区分姿态8258E(x q)|RQ图2.解缠放大。A:通过使用颜色变换图像τ(xq)作为姿态编码器的输入和随机帧xq′(与xq相同的视频)作为外观编码器的输入来重建输入图像xq重建损失使xq和重建xq 之 间 的 距 离 最 小 化。B和C:为了在两个编码器中强制执行有意义的信息,我们强制网络工作以在仅使用两种编码中的一种时产生缺陷图像。我们用高斯噪声交换两种编码之一,产生“假”图像,并要求原始图像和假图像之间的距离为t ·。因为我们只想放大姿势上的差异。因此,我们使用带有两个编码器的自动编码器,Eπ用于提取姿势,Eα用于外观(见图1)。第2 A段)。然后如下重建查询图像xqQ.qq通过从与xq相同的视频中选择随机帧xq′(xq′包含与xq相同的外观,但姿势不同)。我们将τ(xq)输入到姿态编码器,将xq′输入到外观编码器并生成重建与解码器(见图)。第2 A段)。只有当AE提取姿态信息时,才有可能xπ=DEπ(x),Eα(x).(二)我们对xr应用同样的分离。从τ(xq)和从xq′的外观信息。我们通过最小化重建损失来给定具有两个编码器的AE,我们现在可以通过仅在姿势编码中放大来相对于xr放大xq。然后从外观编码生成xmL记录=d(x<$q,xq)(4)Eα(xq)和放大的姿态编码mπ编码器D.当量1更新如下:以德,其中x<$q=D(Eπ(τ(xq)),Eα(xq′))重建,d(·,·)感知距离[31]。Oh等人[43]所以,. -是的xm=D mπΣΣπEπ(x),λ,Eα(x)(三)利用重建损失,但需要额外的regu-larization目标,以加强不变性。尽管进行了颜色变换,但到在下一节中,我们将介绍我们的无监督方法来理清姿势和外表。3.2. 解缠放大放大姿势偏差涉及具有不同外观的对象的比较。为了将姿势从xr转换为xq,获得不包含任何对象特定信息的姿势编码Eπ至关重要。此外,我们需要xq的纯外观表示Eα来生成放大标架。如果姿态编码对于外观变化是不变的,则姿态和外观编码器被认为是解缠的,反之亦然。最先进的运动放大[43]通过引入正则化损失来诱导这种不变性,该正则化损失强制颜色扰动帧的姿态表示与原始帧相同。我们还将颜色变换τ应用于输入图像xq,但我们另外改变了姿势姿态编码器包含外观信息,例如背景场景或主体所穿衣服的类型。这将允许解码器通过主要利用Eπ来尽可能好地重构xq而不考虑外观编码Eα(xq)来找到懒惰解决方案。与单个物体的运动放大相比,姿势偏差的放大在具有不同外观的受试者之间传递姿势。因此,它需要更强的姿势和外观的分离。出于这个原因,我们引入了一种新的损失,如果两种编码中的一种被忽略,则会阻止我们的模型正确地再现图像在实践中,我们通过将外观或姿势的编码与随机高斯噪声进行交换来生成然后,我们告诉网络,没有两种编码之一的图像重建(假图像)缺乏重要的组成部分,因此不应该能够完全表示原始输入图像。我们用假姿势来定义重建8259αππααπαπααπαπ作为x<$q′=D. N(0,σ),E(xq′)<$(5)αα和虚假的外表,Q.qΣx∈π=DEπ(τ(x)),N(0,σ).(六)在图1中直观地示出了利用假图像的生成。2 B和C。我们在输入和输出之间并且伪图像接近目标值tα,tπ>0。这些值表示在训练期间如何接近xq′和xq都必须接近原始输入xq的下界我们使用损失来L显示=d(xq,x<$q)−tπ+d(xq,x<$q′)−t<$(七)图3.学习放大。我们的放大率损失迫使解码器精确地将放大率mπ转 换为m π,其中d(·,·)是感知距离。注意,对于到x的距离<$q′与xq比较,因为xq和xq′包含因此x<$q′应该等于x<$q年龄空间通过重新编码放大的图像xm和最小化原始放大的姿势之间的距离(黄色填充点)及其重新编码的姿态(橙色填充点)。的α优化网络后。α这同样适用于外观编码(橙色空点此时,L_dis的两个项彼此独立地优化,并且一个项可能比另一个项更容易最小化。然而,为了成功地生成x_q,我们需要姿势和外观编码同样先进。因此,我们通过将目标值tα和tπ与重建相相反项的质量,红色的空点)。最后,一个对抗性的强制产生看起来逼真的放大图像。通过这种方式,我们的模型产生了更细粒度和更真实的结果,如实验部分所示。如Eq. 3,我们生成一个放大的帧xmt=d(xq,x<$q′)+γ、(8)通过将放大的姿势编码mπ与外观编码Eα(xq)相结合。为了计算mπ,我们首先tα=d(xq,x<$q)+γα.(九)计算xq和xr之间的差值编码. 然后,我们放大了姿势偏差,其中γπ和γα是固定边界。例如,如果xq′的重建质量增加(因此到xq的距离减小),则tπ也根据等式减小9,因此力d(xq,x<$q)在方程。 7比x<$q′小γπ。Eπ(xq)的方向。该过程实际上可以通过外推姿势差异来实现,m π(E π(x q)|E π(x r),λ)= E π(x r)+ λ(E π(x q)− E π(x r))(十)在下一节中,我们将介绍我们的方法,使我们能够在数据上直接训练姿势偏差的放大3.3. 学习放大姿势空间中的放大通常导致新颖的姿势。然而,生成模型很难产生在训练期间从未见过的有效姿势特别地,我们需要一个模型,该模型(i)能够精确地将放大的姿态mπ转移到图像域中,并且(ii)对小的编码差异敏感。因此,需要将放大直接纳入培训过程。由于地面实况放大率不可用,我们不能简单地采用重建损失。Oh等人[43]通过创建一个合成数据集来模拟运动的放大来解决这个问题。 我们提出了一个al-其中λ >1是放大因子。图1和图3直观地描述了该过程。在训练期间,我们需要包含与xq略微不同的姿势的参考系xr,因为我们的目标是放大细微的姿势差异。这可以通过使用xq的第k个最近邻(NN)(不包括来自同一视频的帧)自动选择,其中k从范围[10,20]中随机选择。我们现在可以为每个xq生成相对于采样参考帧xr的放大帧xm。姿态偏差的放大要求解码器能够将放大的姿态编码mπ精确地传送到像素空间,而不失真或丢失关于新姿态的任何信息。特别地,我们的模型应该达到关于mπ的不动点,即mπ应该等于重新编码的解码的mπ,替代方法,允许我们直接在真实数据上训练放大,而不需要地面实况图像。mπ=!Eπ.ΣD(m π,·)。(十118260一)82612为了满足这一要求,我们引入了一个固定点损失,最小化距离b。在重新编码的放大帧E π(x m)之间=E π D(m π,E α(x q))和起源,最终放大率mπ(见图3)。 我们还最小化相应的外观编码Eα(xm)和Eα(xq)之间的距离,以确保一致的外观解码。然后,我们的模型更新为以下固定点损失数据集显示了针对放大受试者之间姿势偏差的特定任务的三种不同动作特别重要的是,数据集包含具有不同外观的主体,以分析将姿势从一个主体转移到另一个主体的能力我们的数据集涵盖以下操作:(1)在跑步机上行走,(2)挥动高尔夫球杆和(3)移动人的眼睛的瞳孔。人类步态数据集研究功能障碍行为-L=E.(xm)−mE(xq)|r2ior(HG2DB)。与来自Uni的临床医生合作,固定π+β-Eαπ π Eπ(x),λ2(十二)(x m)−E α(x q)<$2。在苏黎世大学医院,我们介绍了一个医疗数据集,用于比较在跑步机上行走的人类受试者之间的姿势。记录的患者受到不同的我们只使用Lfix更新解码器,因为它的目的是改进放大图像的生成。为了鼓励解码器产生逼真的图像,我们引入了对抗性损失。训练判别器C,通过最大化对抗损失来区分真实图像xq和放大图像xmLA(C,D)由[22]提出,LA(C,D)=Expdata(x)[logC(x)]使他们的行走运动技能衰弱的疾病。该数据集还包含健康受试者的视频,这些视频用作参考,并已在相同的设置中记录。视频显示了受试者的腿该数据集包含59名受损受试者和10名健康受试者,每个受试者有多个记录,产生229个视频,每个视频约700帧,总计172,288帧。高尔夫挥杆我们从Youtube上收集了视频来自不同锦标赛的高尔夫球手录像被记录下来了+Expmag(x)(十三)[log(1−C(x)]在慢动作使他们适合我们的情况下,因为许多微妙的差异姿态表示。我们其中p数据是数据分布,pmag是放大图像。然后通过另外最小化LA来训练解码器。对抗性损失使我们能够用更高的放大倍数来可视化姿势的差异,而不会产生伪影或不切实际的图像。我们将本节中描述的损失总结为数据集与Guha等人收集的视频有重叠。[4]主要区别在于我们使用高帧率的纯总的来说,我们使用了48个视频,总数为7000帧。高尔夫挥杆比HG2DB更有挑战性,因为视频是从不同的比赛记录的(即,不同的背景,闪电其中β=2。L磁=LA +βL 修复(十四)等等)。并且它们包含人的整个身体(即,关于姿势改变的更多自由度)。近距离人眼数据集(CUEye)。 即使然后,我们的模型被更新为以下最终损失:L=Lrec+Ldis+γLmag(15)其中γ=0。5并且Lmag仅用于更新解码器。4. 实验我 们 评 估 了 我 们 的 方 法 在 三 个 数 据 集 和 com-concerning我们的结果与以前的工作,运动magnifica-tion。首先,我们介绍了数据集,进行定性和定量评估,并证明了我们的模型在医疗场景上的适用性。最后,我们表明,我们的模型的每一个组成部分是重要的,通过消融研究产生有意义的放大补充材料中提供了实施细节4.1. 数据集放大姿态偏差是一项具有挑战性的新任务,以前从未解决过。我们提出了三眼睛似乎是静止的,如果没有直接的运动被触发,人的瞳孔仍然以一种非常微妙的方式移动,通常被称为“摆动”。放大姿势偏差是一个很好的工具,以增加这种运动的可见性。我们收集了10个视频,这些视频显示了10个不同受试者(每个受试者一个视频)的眼睛特写,这些受试者有三种不同的眼睛颜色(棕色,蓝色,绿色)。受试者首先移动他们的眼睛,以允许生成模型区分姿势和外观。接下来是几秒钟的主演,用于评估我们的方法是否能够放大4.2. 定性比较图4、5和6显示了我们的模型为所有三个数据集生成的放大图像。我们还在补充材料和项目第1页中提供了视频,以进一步展示我们的放大倍数的好处。图4展示了我们在给定参考和查询框架(第一行)的情况下在HG 2DB(第五行;黄色边界)我们显示输出1https://compvis.github.io/magnify-posture-deviations/8262图4.HG2DB的定性比较 我们显示了放大的参考和查询帧(第一行)之间的姿势偏差使用的方法,哦等。[43](第2行),我们的模型没有Ldis和没有Lmag(第3行),我们的模型没有Lmag(第4行)和我们的最终模型(第5行)。我们手动叠加红色标记,以便于感知放大图像中的微小差异和变化标记表示查询主题的姿势,并且在整个特定示例中是相同的。左:查询主题保持其腿比引用主题更平行我们的模型夸大了这种行为,直到查询主题的腿中:查询主体没有正确抬起左脚。我们的放大图像显示的差异,直到左脚完全接触跑步机。右:查询主题执行更大的步骤,我们的模型进一步增加了距离。具有三种不同的放大强度λ。我们的模型能够检测姿势的差异,并代表现实的图像放大。在图5中,我们显示了我们对高尔夫挥杆的结果(第3行)。尽管由于手臂和腿部可能的姿势变化,数据集非常具有挑战性,但我们的模型能够放大参考框架和查询框架之间的差异特别是,中间的例子表明,我们的模型甚至可以同时放大手臂和腿图6显示了当眼睛处于空闲状态时瞳孔的细微移动的放大。我们不是比较不同受试者之间的姿势偏差,而是首先计算查询受试者(左上)的瞳孔运动,并将此运动转移到具有不同外观的几个目标受试者(右)。我们的模型能够准确地检测到查询主题的非常细微的运动并且能够将这种运动转移到其他物体上。与以前的工作比较。据我们所知,这是解决个体之间姿势偏差放大的第一种方法。先前的工作处理放大同一视频内的细微运动的任务[35,55,16,52,53,50,58,43],但不是在具有不同外观的受试者考虑到所有的运动放大方法,[43]具有解决更复杂场景的最大潜力,因为它们使用了具有形状和纹理表示的生成模型sentation.因此,我们定性地比较了我们在图中的结果。4和图5(并在表中定量)。1)[43]关于放大姿势差异的任务。我们使用他们的仓库中[43]的官方实现。这两个数字表明,Ohet al.[43]并不专门用于放大受试者之间的姿势偏差。他们的模型还修改了主题的背景和外观,因此生成了非常模糊和不真实的图像。相比之下,我们的方法是能够精确地放大poture差异,而不改变外观。4.3. 定量分析减值的分类。我们的模型生成了给定数据集中不存在的新的放大姿势。因此,由于缺少地面实况放大率,我们无法直接评估放大的图像。作为替代方案,我们引入了基于HG2DB患者健康状况的定量评估。我们训练了两个线性(二进制)分类器,都是在健康和不健康的样本上。一个分类器是用原始图像(原始)训练的,第二个是用mag-代数(我们的)训练的。我们的目标是评估放大率是否改善了损伤的分类,从而我们的模型是否可以在分析患者病情期间支持医生分类应独立于受试者,8263图5.高尔夫挥杆的定性比较。 我们展示了我们的模型产生的放大率,并与以前的工作进行[43](最好通过放大数字版本来查看)。红色标记表示查询主题的姿势,并且在整个特定示例中都是相同的。左:查询主题的腿分开更远,手臂保持较低。我们的模型在生成的图像上进一步增加了腿的距离并降低了手臂。中间:查询的右膝向内扭转,手臂保持较高。我们的方法通过进一步扭转膝盖和举起手臂来放大两者。右:参考主体的手臂比查询主体的手臂更居中我们的模型通过缓慢地向左移动查询主题的手臂来放大偏差图6. CUEye上的放大结果。在给定查询移动(左上)和目标外观(右)的情况下,检测瞳孔中的细微姿势差异左下角显示了瞳孔的特写,以蓝色网格为指导。缩放显示从左到右的微小给定右侧显示的目标外观之一,我们的模型可以将查询的左右移动转移到目标外观。仅仅基于姿势信息。对于这个特定的实验,我们采用关键点来表示姿势,因为这些最符合人类如何感知姿势。特别是,我们使用DeepLabCut [41]检测以下8个关键点:左/右臀部、左/右膝盖、左/右脚趾和左/右脚跟。该检测器是用HG2DB的手动注释帧训练的。关键点使用“左髋”作为原点进行标准化我们从一个完整的步行周期序列中抽取10个不同的线性间隔姿势,并对每个姿势独立进行定量分析。我们提供了一个直观的例子,在补充马的姿态材料。对于每个姿势和受试者,我们收集10个最近邻,得到10×受试者样本数图7.作为医疗工具的放大概率偏差。健康(第一行)和受损(第二行)之间的偏差在生成的图像(第三行)中被放大,以便更好地分析疾病状态。病人只在正确的步骤中表现出困难。增加λ强调偏差。我们手动叠加标记,以促进差异的感知。每个姿势用于训练和测试(总共6900帧)。不同的姿势需要不同的放大强度,以呈现健康受试者和受损受试者之间的可见姿势差异因此,我们使用总共25种不同的放大因子(λ),其中λ∈[1. 2,6],步长为0。2,并且每个λ和姿势训练一个分类器使用交叉验证和Tab找到了每个姿势的最佳λ1报告测试集的准确度我们并不期望准确度达到100%,因为并非所有受损患者在每个姿势上都有问题,即,对于特定姿势-受试者对,与健康受试者无差异应该被检测到。这种行为也可以在图中观察到。7.第一次会议。患者(第2排)仅在正确步骤中出现困难我们的模型检测到一个健康的偏差8264分类器的培训姿势平均值±标准12345678910原始58.961.363.253.355.951.758.350.350.761.256.5 ±4.5Oh等人[四十三]60.261.564.153.556.152.059.452.851.261.457.2 ±4.4我们70.466.772.068.371.867.669.665.359.565.767.7±3.5表1.减值的分类。 我们报告了二元分类器(健康与受损)训练和测试的关键点(i)原始数据,(ii)由以前的工作产生的运动放大的放大图像姿势1至10的直观示例可以在补充材料中找到。200150100500Oh等人我们的w/o无磁显示器我们的,不带弹匣我们1 2 3 4 5 6λ我们的最终模型实现了最佳结果,即使λ更高,质量也只会略有下降。请注意,该实验评估的是生成质量,而不是放大倍数是否对应于姿势偏差的实际放大4.4. 消融研究在图4和图8中,我们评估了我们提出的损失的重要性。我们将完整模型产生的放大图像与我们模型的几代人进行比较-图8.可视化质量-FID。我们展示绝对的对于不同强度值λ,FID相对于λ= 1增加,使用Oh等人的生成。[43](深蓝色),我们的模型,出Lmag和/或没有Ldis。图4显示,我们的模型没有Ldis和Lmag,类似于[43],模糊和看起来不真实的图像。 我们的模型使用L dis和不带L mag的模型(浅蓝色),不带L mag的模型(紫色)和最终模型(橙色)。与我们最终的模型相比,解缠损失Ldis 一代又一代,Oh等的世代质量。随着λ的增大,我们的不完全模型显著减小(FID增大)。受试者(第1行),只放大正确步骤期间的不准确姿势。我们还比较了我们的定量结果与以前的工作运动放大。我们使用Oh等人的放大代进行了上述相同的实验。[43]并在Tab中报告准确度。1.一、大多数在原始数据上训练的分类器保持接近随机性能,并且无法区分健康与受损。与[43]的方法相比,我们的放大图像可以显著提高准确性。特别是对于姿势4、5和8,我们显示出较大的提升,并且平均将分类精度提高了10%以上。本实验表明,我们的模型是一个有价值的工具,发现运动员的行为障碍。验证质量-FI D。 Fre 'chet起始距离(FID)最初由Heusel等人提出。[26]并且旨在评估所生成的图像的质量。它测量真实图像和生成图像的多变量高斯之间的距离我们根据经验发现,通过放大作用引起的分布变化是可以忽略的.因此,FID允许我们使用不同的放大强度来评估放大图像的生成质量,而不需要地面实况放大。在图8中,我们显示了相对于λ=1的绝对FID增加。 实验表明,随着对于较小的λ,但未能产生有价值的磁场。对于较大的λ,相反,我们的最终模型能够在生成的图像上精确显示姿势偏差的放大倍数,即使λ很大。从图中可以得出类似的结论。8.对于λ >3的不完整模型,放大图像的质量会降低,但对于我们的最终模型,放大图像的质量几乎保持不变。这表明我们模型的每个组成部分都很重要。5. 结论在本文中,我们已经介绍了问题的放大跨主体的姿态偏差,并提出了一种方法来解决具有挑战性的任务。我们的无监督解开允许我们只放大姿势差异,同时保持外观不变。此外,我们的方法使我们能够将放大率集成到训练中,并在没有监督的情况下学习真实数据我们已经在三个数据集上表明,我们的方法产生了有价值的放大率,并大大提高了运动放大中最先进的性能。最后,消融研究已经证明了我们模型中每个组件的重要性确认这项工作得到了DFG赠款421703927、德国联邦部BMWi在“KI Absicherung”项目中的部分支持,以及NVIDIA公司的硬件捐赠。作者感谢Linard Filli提供HG2DB中使用的录音。FID增加8265引用[1] Mykhaylo Andriluka,Umar Iqbal,Eldar Insafutdinov,Leonid Pishchulin , Anton Milan , Juergen Gall , andBernt Schiele. Posetrack:人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集,第5167-5176页[2] Borisl a vAntic , UtaB üchler , Anna-SophiaWahl ,MartinESch w ab,andB joürnOmme r. 运动员运动学的时空分析用于评估中风恢复。在医学图像计算和计算机辅助干预国际会议上,第467-475页施普林格,2015年。[3] Borislav Antic,Timo Milbich,and Bjorn Ommer.少即是多:视频修剪动作识别。在IEEE计算机视觉国际会议(ICCV)工作室,2013年6月。[4] 放大图片作者:GuhaBalakrishnan,AmyZhao,AdrianV.Dalca、Fre´doDu-rand和John V.Guttag. 合成人类在看不见的姿势的图像CoRR,abs/1804.07739,2018。[5] 米格尔·A鲍蒂斯塔,阿特西姆·萨纳科约,比约恩·奥姆梅尔.使用偏序集的深度无监督相似性学习。在IEEE计算机视觉和模式识别会议(CVPR),2017年7月。[6] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn:深度无监督范例学习。神经信息处理系统进展,第3846-3854页,2016年[7] BiagioBrattoli , UtaB uüchler , Anna-SophiaWahl ,MartinESch w ab,andB joürnOmme r. 用于详细行为分析的Lstm自我监督在IEEE计算机视觉和模式识别会议论文集,第6466-6475页[8] UtaBuüchler,BiagioBrattoli,andB joürnOmme r. 通过深度强化学习改进时空自我监督在欧洲计算机视觉会议(ECCV)的会议记录中,第770-786页[9] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页[10] 崔元君用聚集局部流描述符的近在线多目标跟踪。在IEEE计算机视觉国际会议论文集,第3029- 3037页[11] 安库尔·达塔、穆巴拉克·沙阿和N·达·维多利亚·洛博。视频数据中的人对人暴力检测。在服务机器人的用户交互支持的对象识别中,第1卷,第433-438页。IEEE,2002年。[12] Tali Dekel,Tomer Michaeli,Michal Irani,and WilliamT.弗里曼。揭示和修改单个图像中的非局部变化。ACMTransactions on Graphics(Proc. SIG-GRAPH Asia),2015年。[13] 艾米丽·丹顿和维格内什·比罗德卡无监督学习- ing从视频中分离表示。CoRR,abs/1705.10915,2017。[14] Emily L Denton和Vighnesh Birodkar。从视频中分离表示的无监督学习。在Ad-神经信息处理系统,第4414-4423页,2017年。[15] Ahmed Elgammal和Chan-Su Lee。非线性流形上的分离式与内容。2004年IEEE计算机协会计算机视觉和模式识别会议论文集,2004年。CVPR 2004。,第1卷,第1I. IEEE,2004年。[16] Mohamed Elgharib,Mohamed Hefeeda,Fredo Durand,and William T Freeman.存在大运动时的视频放大。InProceedings of the IEEE Conference计算机视觉和模式识别,第4119- 4127页,2015年。[17] Patr i ckEsse r,EkaterinaSutte r,andBjo nOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集,第8857-8866页[18] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集,第6202-6211页[19] 劳埃德A.弗莱彻和兰加查尔·卡斯图里。一种从混合文本/图形图像中分离文本串IEEE模式分析与机器智能学报,10(6):910[20] Patrick Gebert,Alina Roitberg,Monica Haurilet,andRainer Stiefelders.利用3d卷积神经网络进行驾驶员意图的端到端预测2019年IEEE智能车辆研讨会(IV),第969-974页。IEEE,2019。[21] 祖宾·格拉马尼析因学习与EM算法。神经信息处理系统进展,第617-624页,1995年[22] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani , M. 威 灵 角 Cortes , N. D. Lawrence 和 K. Q.Weinberger , 编 辑 , Advances in Neural InformationProcessing Systems 27 , 第 2672-2680 页 。 CurranAssociates,Inc. 2014年[23] Naama Hadad Lior Wolf和Moni Shahar。两步解缠法。在IEEE计算机视觉和模式识别会议论文集,第772-780页[24] Ananya Harsh Jha、Saket Anand、Maneesh Singh和VSRVeeravasarapu。用周期一致的变分自动编码器解开变化因素在欧洲计算机视觉会议(ECCV)的会议记录中,第805-820页[25] Roberto Henschel,Yunzhe Zou和Bodo Rosenhahn。使用身体和关节检测的多人在IEEE计算机视觉和模式识别研讨会会议上,第0-0页[26] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,第6626-6637页,2017年[27] QiyangHu,AttilaSzabo',TizianoPortenier,PaoloFavaro,and Matthias Zwicker.解开变异因素8266通过混合它们。在IEEE计算机视觉和模式识别会议论文集,第3399- 3407页[28] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页[29] Eldar Insafutdinov、Leonid Pishchulin、Bjoern Andres、Mykhaylo Andriluka和Bernt Schiele。Deepercut:更深、更强、更快的多人姿势估计模型。欧洲计算机视觉会议,第34-50页。施普林格,2016年。[30] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence,35(1):221[31] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[32] 作者:Mayank Kabra 1,Alice A. Robie1,Marta Rivera-Alba1,Steven Branson和Kristin Branson。Jaaba:用于动 物 行 为 自 动 注 释 的 交 互 式 机 器 学 习 。 NatureMethods,10,2012.[33] Guillaume Lample,Neil Zeghidour,Nicolas Usunier,Antoine Bordes,Ludovic Denoyer,et al.衰减器网络:通过滑动属性操作图像。神经信息处理系统的进展,第5967-5976页,2017年。[34] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页,2018年[35] 刘策,安东尼奥·托拉尔巴,威廉·弗里曼,杜兰德和爱德华 ·H· 阿 德 尔 森 。 动 作 放 大 。 在 ACM 图 形 交 易(TOG),第24卷,第519ACM,2005年。[36] Dominik Lorenz,Leonard Bereska,Timo Milbich,andBjorn Ommer.对象形状和外观的无监督的基于部分的解开。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月[37] Manuel Martin , Alina Roitberg , Monica Haurilet ,Matthias Horne , Simon Reidens , Michael Voit , andRainer Stiefelders. Drive act:用于自动驾驶汽车中细粒度驾驶员识别的多模态数据集在IEEE计算机视觉国际会议论文集,第2801-2810页[38] Brais Martinez,David
下载后可阅读完整内容,剩余1页未读,立即下载




















cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
