没有合适的资源?快使用搜索试试~ 我知道了~
会话手势与言语之间的关系
1学习会话手势Shiry Ginosar加州大学伯克利分校AmirBar ZebraMedical Vision安德鲁·欧文斯加州大学伯克利分校加州大学伯克利分校Jitendra Malik加州大学伯克利分校Caroline ChanMIT图1:语音到手势翻译示例。 本文主要研究会话手势与言语之间的关系。 在这里,我们展示了从音频预测手势的模型的结果。 从下往上 :我们 的模型预 测的输 入音频, 手臂和 手部姿势 ,以及 使用[ 10 ] 从姿 势预测合 成的视 频帧。(Seehttp://people.eecs.berkeley。edu/gestures.html的视频结果。)摘要人类的语言通常伴随着手和手臂的手势。我们提出了一种跨模态翻译的方法,从“在野外”的独白讲话的一个单一的发言者,他们的会话手势运动。我们在未标记的视频上进行训练,对于这些视频,我们只有来自自动姿态检测系统的噪声伪地面实况。我们提出的模型显着优于基线方法在定量比较。为了支持对手势和语音之间关系的计算理解的研究,我们发布了一个人特定手势的大型视频数据集。1. 介绍当我们说话时,我们通过两个平行的沟通渠道来传达思想这些对话或共同语言的手势是我们说话时自发发出的手部和手臂运动[30]。它们补充了语言,并添加了非语言信息,*表示平等捐款。我们所讲的话,都是听得懂的。Kendon [22]将会话手势置于连续体的一端,而手语,一种真正的语言,则处于另一端。在这两个极端之间的是哑剧和ememerald一样的手势可以被细分为描述其从说话者的静止位置通过手势准备、划动、保持和缩回回到静止的进展的言语和手势所传达的信息是否相关?这是一个持续辩论的主题。手拉手假说声称,当说话者提到场景中的主体和对象时,手势对语音来说是多余的[38]。相反,根据权衡假设,语音和手势是互补的,因为人们在说话时使用手势需要更多的努力,反之亦然[15]。我们从数据驱动学习的角度来处理这个问题,并询问我们在多大程度上可以从语音的原始音频信号预测手势运动。我们提出了一种时间跨模态翻译的方法。给定口头陈述的输入音频片段(图1底部),我们生成说话者的手臂和手的对应运动34973498Almaram Angelica Kubinec科瓦赫卡根柯南奥利弗斯图尔特Meyers埃伦图2:特定于说话者的手势数据集。我们在数据集中为每个发言者展示了一个代表性的视频帧。在每一个下面是一个热图,描绘了他们的手臂和手出现在不同空间位置的频率(使用图1所示的手势骨架表示)。这个可视化显示了演讲者请注意,一些说话者,如卡根、柯南和艾伦,会在坐着和站着之间交替,因此他们的手臂位置分布是双峰的。尽管我们在训练中从未见过或听过这个人说这句话(图1中)。然后,我们使用现有的视频合成方法来可视化说话者在说这些话时的样子(图1顶部)。为了从语音中生成运动,我们必须学习音频和姿势之间的映射。虽然这可以被公式化为翻译,但在实践中,在这种设置中使用视听数据的自然配对存在两个固有的挑战。首先,手势和语音是异步的,因为手势可以出现在相应的话语之前,之后或期间[4]。其次,这是多模态预测任务,因为说话者在不同场合说同一件事的同时可能会执行不同的手势。此外,获取大量视频的人类注释是不可行的。因此,我们需要从未标记视频上的2D人体姿势检测的伪地面实况中然而,我们能够以端到端的方式将语音转换为手势,从原始音频转换为一系列姿势。为了克服时间性问题,我们使用一个大的时间背景(过去和未来)进行预测。时间上下文还允许平滑的手势预测,而不管有噪声的自动注释的伪地面实况。由于多模态,我们不希望我们的预测运动与地面实况相同然而,由于这是我们唯一的训练信号,我们仍然使用自动姿态检测来通过回归进行学习。为了避免回归到所有模式的平均值,我们对预测的运动应用了一个逆函数[18]。这确保了我们产生的运动相对于当前说话者是手势是独特的[30],因为不同的发言者倾向于使用不同的运动风格(见图2)。因此,重要的是为每个说话者学习个性化的手势模型。为了解决这个问题,我们提出了一个大型的,144小时的个人特定的视频数据集的10个扬声器,我们公开提供1。我们故意选择一组扬声器,我们可以找到几个小时的干净的单扬声器镜头。我们的演讲者来自不同的背景:电视节目主持人,大学讲师和电视布道者。他们跨越至少三个宗教,讨论了广泛的主题,从时事评论到死亡哲学,化学和摇滚音乐的历史,再到圣经和古兰经1http://people.eecs.berkeley.edu/gestures.html34992. 相关工作McNeill [30]将手势分为几类[30]:符号具有特定的传统意义(例如:“竖起大拇指!”)。图标传达物理形状或运动方向隐喻用具体的动作来描述抽象的内容。指示语是指手势,节拍是重复的快速手部动作,为语音提供时间框架。许多心理学家研究了与共同言语手势相关的问题[30,22](参见[41]的评论)。这一庞大的研究主体主要依赖于在实验室环境中使用录制的编排好的故事复述来研究少数个体受试者。这些研究中的分析是一个手动过程。相反,我们的目标是使用数据驱动的方法研究野外的会话手势。将手势预测条件化到语音上可以说是一个模糊的任务,因为手势和语音可能不是同步的。McNeill [30]认为手势和言语起源于一个共同的来源,因此应该根据明确定义的规则在时间上共同出现,而Kendon [22]认为手势在相应的言语之前开始。其他人甚至认为,言语和手势之间的时间关系尚不清楚,手势可以出现在话语之前,之后或期间[4]。手语和象征性语言手势 识别已经有大量的计算机视觉工作处理从视频中识别手语手势。这包括使用视频转录作为弱监督源的方法[3],以及最近基于CNN[33,24]和RNN [13]的方法。还有一些工作可以识别象征性的手部和面部手势[16,14],头部手势[31]和共同语音手势[34]。相比之下,我们的目标是从音频中预测协同语音手势。会话代理研究人员已经提出了许多用于生成合理手势的方法,特别是对于具有会话代理的应用[8]。在早期的工作中,Cassellet al. [7]提出了一种基于手动定义的规则引导手臂/手部运动的系统。基于子规则的系统[25]提出了通过注释来表达手势的新方法。与我们的方法更密切相关的是从语音和文本中学习手势的方法,而不需要作者手动指定规则。值得注意的是,[9]使用口语文本的自然语言处理来合成手势,Neff [32]提出了一个制作个人特定手势的系统。Levine等人[28]学会了使用HMM将声学韵律特征映射到运动后来的工作[27]将这种方法扩展到使用强化学习和语音识别,将声学分析与文本相结合[29],创建了基于混合规则的系统[36],并使用受限玻尔兹曼机进行推理[11]。自从目标这些方法是为虚拟代理生成动作,它们使用实验室记录的音频、文本和动作捕捉。这使得他们可以使用简化的假设,为像我们这样的野外视频分析带来挑战:例如,[28]需要精确的3D姿势,并假设运动发生在音节边界上,[11]假设手势由手腕的向上运动发起。与这些方法相比,我们的方法在训练过程中没有明确使用任何文本或语言信息-它从原始的视听对应中学习手势-也没有使用手动定义的手势类别:直接从音频预测手臂/手姿势。可视化预测手势可视化手势的最常见方式之一是使用它们来制作3D化身[40,27,19]。由于我们的工作研究了在野外视频中的个人化手势,其中3D数据不可用,因此我们使用受Bregler等人启发的数据驱动的合成方法。[2]的文件。为此,我们使用Chan等人的姿势到 视 频 方 法 。 [10] , 它 使 用 条 件 生 成 对 抗 网 络(GAN)从姿势合成人体视频。Sound and visionAytaret al. [1]使用自然现象中视觉和音频信号的同步,通过从视觉域中训练的判别模型中转移知识,从未标记的野外视频中学习声音表示音频和视觉特征的同步也可以用于合成。Langlois等人[26]试图通过产生物体下落或翻滚的刚体动画来优化这种同步事件,所述刚体动画在时间上匹配期望的接触事件序列的输入声波与地平面。最近,Shlizermanet al.[37]根据输入的音乐动画3D化身的手。然而,他们的重点是音乐表演,而不是手势,因此可能的运动空间是有限的(例如,小提琴弓的之字形运动此外,虽然音乐是由产生它的运动唯一定义的(并且与它同步),但手势既不是语音话语所独有的,也不与语音话语同步。几个作品集中在特定的任务,合成视频的人说话,给定的音频输入。Chung等人[12]通过学习面部和音频的联合嵌入,从说话者的静止图像和输入语音段生成说话面部的图像。类似地,[39]通过使用递归神经网络将语音音频映射到嘴巴形状,然后将合成的嘴唇嵌入地面真实面部视频中,来合成奥巴马说新单词的视频虽然这两种方法都可以通过生成说不同人的话的面孔来创建假内容,但我们专注于为同一说话者的话语动画化而优化的单人模型。最重要的是,生成手势,而不是3500由于手势与语音异步、多模态和个人特定,因此来自语音的嘴唇运动更多地涉及。3. 特定于说话人的手势数据集我们引入了一个大型的144小时的视频数据集,专门用于以数据驱动的方式研究单个说话者的语音和手势如图2所示,我们的音频G频率G(t1),. . . ,G(tT)L1回归损失真的还是假的动作序列?数据集包含最初为电视节目或大学讲座记录的10个手势发言者的野外视频。我们收集每个演讲者几个小时的视频,这样我们就可以单独为每个人建模。我们选择的演讲者涵盖了广泛的主题和演讲风格。我们的数据集包含:5名脱口秀主持人,3名讲师和2名电视布道者。有关数据收集和处理的详细信息以及对手势的个人风格的分析可以在补充材料中找到。姿势表示和注释我们使用我们使用OpenPose[ 5 ]获得的2D骨架关键点的时间堆栈来表示扬声器从OpenPose检测到的完整关键点集合中,我们使用对应于颈部、肩部、肘部、手腕和手部的49个点来表示手势。与视频片段一起,我们以15fps的速度为每帧数据提供骨架关键点。然而,请注意,这些不是地面实况注释,而是来自最先进姿态检测系统的地面实况的代理。数据集注释的质量真理,无论是来自人类观察者还是其他人,都伴随着错误。我们使用自动姿态检测收集的伪地面实况可能比人类注释具有更大的误差,但它使我们能够在更大的量图3:语音到手势翻译模型。卷积音频编码器对2D频谱图进行下采样并将其转换为1D信号。然后,平移模型G预测2D姿态的相应时间堆叠。对地面真实姿态的L1回归提供了训练信号,而对抗性判别器D确保预测的运动在时间上是相干的并且是说话者的风格。4.1. 语音到手势翻译任何真实的手势运动必须是时间上连贯和平滑的。我们通过学习作为整个语音的表示的音频编码,考虑输入语音s的整个时间范围,并且立即(而不是递归地)预测对应姿态p的整个时间我们的全卷积网络由一个音频编码器和一个1DUNet[35,21]翻译架构组成,如图3所示。音频编码器将2D对数梅尔频谱图作为输入,并通过一系列卷积对其进行下采样,从而产生与我们的视频具有相同采样率(15Hz)的1D然后,UNet transla- tion架构学习通过L1回归损失将此信号映射到姿势向量的时间堆栈(有关我们的手势表示的详细信息,请参见第3的数据.尽管如此,我们必须估计伪地面实况的准确性是否足以支持我们的定量。LL1(G)=Es,p[||p − G(s)||(1)的结论。我们将自动姿态检测与从人类观察者在我们的训练数据的子集上获得的标签进行比较,发现伪地面真值接近人类标签,并且伪地面真值中的误差对于我们的任务来说足够小。完整的实验在我们的补充材料中有详细说明。4. 方法给定原始语音音频,我们的目标是生成说话者相应的手臂和手势运动。我们分两个阶段来完成这项任务-首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的时间堆栈来学习从语音到手势的映射。其次,为了避免回归到所有可能的手势模式的平均值,我们采用了一个对抗性的判别器,以确保我们产生的运动相对于说话者的典型运动是合理的。我们使用UNet架构进行翻译,因为其瓶颈为网络提供了过去和未来的时间背景,而跳过连接允许高频时间信息流过,从而能够预测快速动作。4.2. 预测似然运动虽然L1回归到关键点是我们可以从数据中提取训练信号的唯一方法,但它存在已知的回归到平均值的问题,这会产生过度平滑的运动,如我们的补充视频结果所示。为了解决这个问题并确保我们产生真实的运动,我们添加了一个对抗性的[21,10]D,条件是预测的姿势序列的差异也就是说,输入到ADC的是矢量m=[p2-p1,. . . 其中pi是2D姿态关键点,并且T是输入音频的时间范围,并且预测的姿势序列。该公司试图最大-时间D3501最小化下面的目标,而生成器G(翻译架构,第4.1节)试图最小化它。LGAN(G,D)=Em[logD(m)]+Es[log(1-G(s))](2)其中s是输入音频语音段,并且m是预测的姿态堆栈的运动导数。因此,生成器学习产生看起来真实的说话者运动,而发声器学习分类给定的运动序列是否真实。因此,我们的全部目标是minmaxLGAN(G,D)+ λLL1(G).(三)最近的邻居我们可以使用音频作为相似性提示,而不是从同一个说话者那里选择一个完全随机的手势序列。对于一个输入音轨,我们使用预先训练的音频特征为说话者找到它的最近邻居,并传输其相应的运动。为了表示音频,我们使用最先进的VGGish特征嵌入[20]在AudioSet [17]上预训练,并在归一化特征上使用余弦距离。基于RNN的模型[37]我们进一步将我们的运动预测与Shlizerman等人提出的RNN架构进行了比较。与我们相似,Shlizermanet al. 从2D骨架关键点空间中的音频预测手臂和手部运动。怎么-G D4.3. 实现细节我们通过从我们的伪地面实况手势表示(第3节)中的所有其他关键点中减去(每帧)颈部关键点位置来获得平移不变性。然后我们将每个关键点(例如左手腕)通过减去每个扬声器的平均值并除以标准偏差来计算。在训练期间,我们将对应于约4秒音频的频谱图作为输入,并预测64个姿态向量,其对应于15Hz帧速率下的约4在测试时,我们可以在任意音频持续时间上运行网络。我们使用Adam [23]进行优化,批量大小为32,学习率为10−4。我们分别在有和没有对抗性损失的情况下训练300K/90K迭代,并在验证集上选择最佳执行5. 实验我们表明,我们的方法产生的运动,quanti,quanti优于几个基线,以及以前的方法,我们适应的问题。5.1. 设置我们描述了我们的实验设置,包括我们的基线比较和评估指标。5.1.1基线我们将我们的方法与其他几种模型进行比较。始终预测中间姿势发言者大部分时间都处于休息位置[22],因此预测发言者对于每个扬声器的休息位置的预测随机选择的手势在这个基线中,我们从同一说话者的训练集中随机选择一个不同的手势序列(与输入话语不对应),并将其用作我们的预测。虽然我们不期望这种方法在定量上表现良好,但有理由认为它会产生定性上吸引人的运动:这些是真实的说话者手势-判断它们是假的唯一方法是评估它们与音频的对应程度。虽然我们的模型是一个具有log-mel谱图输入的卷积神经网络,但他们使用的是一个1层LSTM模型,该模型将MFCC特征(一种低维、手工制作的音频特征表示)作为输入。我们评估两种特征类型,并发现对于[37],MFCC特征在所有说话者上优于对数梅尔频谱图特征。因此,我们在我们的实验中使用他们原来的MFCC功能。为了与我们自己的模型保持一致,我们不像他们那样在PCA特征上测量L2距离,而是添加一个额外的隐藏层并使用L1距离。我们的,没有GAN最后,作为一种消融,我们将我们的完整模型与单独的翻译架构预测进行比较,而没有对抗性的预测。5.1.2评估指标我们主要的定量评价指标是比较不同模型的L1我们根据正确关键点百分比(PCK)[42]报告结果,这是一种广泛接受的姿势检测指标这里,如果预测的关键点落在地面实况关键点的αmax(h,w)像素内,则该预测的关键点被定义为正确的,其中h和w分别是人物边界框的高度和宽度我们对PCK值持保留态度,因为它的设计并没有考虑到部分可见扬声器的手势预测。首先,与L1不同,PCK不是线性的,并且正确性分数在硬阈值之外降至零由于我们的目标不是预测地面真实运动,而是将其用作训练信号,因此L1更适合于衡量我们的平均表现。第二,PCK对大的手势运动敏感,因为正确性半径取决于说话者手臂的跨度的宽度。第三,对人物边界框的依赖性引入了对在帧中显示了多少人物以及他们是坐着还是站着的人为敏感性。而[42]建议α=0。1表示全人数据,α=0。2对于只有一半人可见的数据,我们取α=0的平均值。1,0。2,并在补充资料中显示全部结果。35025.2. 定量评价我们使用我们的定量指标将我们的方法的结果与基线进行比较。为了评估我们的结果是否在感知上令人信服,我们进行了用户研究。最后,我们问我们预测的手势是否是个人特定的,以及输入的语音是否确实是一个更好的运动预测比手势的初始姿势。5.2.1数值比较我们将每个说话者随机选择的2048个测试集间隔与所有基线进行比较,并将结果显示在表1中。我们看到,在大多数扬声器上,我们的模型优于所有其他模型,其中我们的无GAN条件略好于GAN条件。这是预期的,因为对抗性判别器推动生成器捕捉到数据的单一模式,这通常比通过单独优化L1我们的模型在大多数扬声器上的性能优于基于RNN的模型。定性地,我们发现这个基线预测我们的数据上相对较小的运动,这可能是由于与我们的UNet模型相比,它具有相对较低的容量。5.2.2人体研究为了深入了解合成手势在感知上与真实运动的比较,我们进行了一个小规模的真实与真实的对比。亚马逊土耳其机器人的虚假感知研究。我们使用了一个演讲者,奥利弗,他总是从同一个摄像机的角度拍摄,他的手势相对动态。我们可视化手势运动使用视频的骨架线帧。为了向参与者提供额外的背景,我们在视频中包括了发言者的真实嘴巴和面部关键点我们在视频教程材料中展示参与者观看了一系列视频。在每一对中,一个视频是从一个真实的姿势序列中产生的;另一个是由算法生成的-我们的模型或基线。然后,参与者被要求识别包含与语音对应的运动的视频(我们没有验证他们在回答问题时实际上听了演讲)。视频约12秒每个分辨率为400×226(从910×512为了在不同的屏幕上并排播放两个视频,尺寸),在每一对之后,参与者有无限的时间来回答。我们随机抽取了100个输入音频间隔,并使用每种方法从它们预测2D每个任务由20对视频组成,由200名不同的参与者执行。在任务开始前,每个参与者都得到了一个由10个视频对组成的简短训练集图4:我们的训练模型是针对个人的。对于每个扬声器音频输入(行),我们应用所有其他单独训练的扬声器模型(列)。颜色梯度对应于L1损失值在一个举行了测试集(越低越好)。对于每一行,对角线上的条目是最轻的,因为模型使用他们训练的人的输入语音工作得最好。并被给予反馈,指示他们是否正确地识别了地面实况运动。我们比较了所有的手势预测模型(第5.1.1节),并使用其输出欺骗参与者的比率评估了每种方法的质量。有趣的是,我们发现所有产生逼真运动的方法都以相似的速度欺骗了人类。如表2所示,我们的结果与真实运动序列相当,无论是通过基于音频的最近邻方法选择还是随机选择。虽然这些基线在数量上的准确性要低得多(表1),但它们在感知上是令人信服的,因为它们的组成部分是现实的。5.2.3预测的手势是个人特定的对于每个说话者我们发现,平均而言,使用我们在不同扬声器上训练的模型进行预测比预测随机运动更好,但比总是预测输入扬声器的中值姿势要差得多(并且比在输入扬声器上训练的模型的预测差得多)。图4中混淆矩阵的对角结构说明了这一点。5.2.4语音是手势的良好预测器看到我们的翻译模型的成功,我们问当手势序列的初始姿势,音频信号有多大帮助。换句话说,声音能告诉我们多少东西,而不是运动动力学所能预测的为了研究这一点,我们通过提供说话者直接在他们的语音之前的姿势来增强我们的模型,我们将其纳入UNet的瓶颈(图3)。我们考虑以下条件:预测我的姿势,如上面的基线。预测输入初始值3503模型Meyers奥利弗柯南斯图尔特埃伦卡根库比内茨科瓦赫当归阿尔马拉姆Avg. L1 Avg. PCK中值0的情况。660的情况。690的情况。790的情况。630的情况。750的情况。800的情况。800的情况。700的情况。740的情况。760的情况。73三十八岁。11随机0的情况。931 .一、001 .一、100的情况。941 .一、071 .一、111 .一、121 .一、001 .一、041 .一、081 .一、04二十六岁55[第20话]0的情况。880的情况。961 .一、050的情况。931 .一、021 .一、111 .一、100的情况。991 .一、011 .一、061 .一、01二十七岁92RNN [37]0的情况。610的情况。660的情况。760的情况。620的情况。710的情况。740的情况。730的情况。720的情况。720的情况。750的情况。7039岁69我们的,没有GAN0的情况。570的情况。600的情况。630的情况。610的情况。710的情况。720的情况。680的情况。690的情况。750的情况。7644. 62 五十四50我们的,甘0的情况。770的情况。630的情况。640的情况。680的情况。810的情况。740的情况。700的情况。720的情况。780的情况。830的情况。7341岁95表1:在测试中使用L1损失(越低越好)的语音到手势翻译任务的定量结果。最右边的一列是所有说话者的平均PCK值(越高越好),α= 0。1,0。2(见补充资料中的完整结果)。模型愚弄百分比中位数6。9% ±1。8随机24.6% ±3.0NN [20]23.6% ±2.915.第15章. 0%±2。5我们的,GAN23.0% ±2.9模型平均值L1 Avg. PCK预测中位数姿势0. 7338. 11预测输入初始姿势0。536050语音输入0. 6744. 62初始姿势输入0。4961. 24语音&初始姿态输入0. 4762. 39表2:针对单个说话者的12秒视频剪辑的语音到手势翻译任务的人类研究作为一个衡量标准,我们使用的百分比生成的运动序列,参与者标记为真实的。我们发现,人类对语言和手势的对齐并不具有真实动作的手势--无论是从同一说话者的另一个视频中随机选择的,还是由我们基于GAN的模型生成的--都以相同的速度欺骗了人类(粗体数字之间没有统计学上的显著差异)。姿态,一种简单地重复输入的初始地面实况姿态作为其预测的模型。语音输入,我们的模型。初始姿态输入,我们的模型的变体,其中音频输入被消融,并且网络仅根据初始地面实况姿态输入来预测未来姿态,以及语音初始姿态输入,其中我们将语音和初始姿态两者作为预测的条件。表3显示了我们在没有对抗性训练(没有GAN)的情况下训练的模型的比较结果。当比较初始姿势输入和语音初始姿势输入条件时,我们发现,当我们对所有说话者的损失进行平均时,语音的添加显着提高了准确性(使用双侧t检验的p10−3有趣的是,我们发现大部分的收益来自于少数说话者(例如,奥利弗)在演讲中做大动作。5.3. 定性结果我们定性地将我们的语音到手势转换结果与图5中的基线和地面实况手势序列进行比较。请参阅我们的补充视频结果,更好地传达时间信息。Pred.输入3504表3:一旦我们知道说话者的初始姿势,声音提供了多少信息?我们看到,手势序列的初始姿势是4秒运动序列的其余部分(倒数第二行)的良好预测器,但添加音频可以改善预测(最后一行)。我们使用所有说话者的平均L1损失(越低越好)和平均PCK,α= 0。1,0。2(越高越好)作为比较指标。我们讨论了两个基线和三种输入条件。6. 结论人类通过视觉和声音进行交流,但这些方式之间的联系仍然不清楚[22]。在本文中,我们提出了从“在野外”语音中预测个人特定手势的任务我们创建了一个大型的特定于人的视频数据集,并用它来训练一个模型,用于从语音中预测手势。我们的模型优于其他方法在实验评估。尽管在这些任务上表现出色,但我们的模型存在局限性,可以通过结合其他工作的见解来解决。例如,使用音频作为输入具有其益处,因为音频是包含关于韵律、音高、语调、音色、节奏、音调等的信息的丰富表示。然而,音频并不直接编码高级语言语义,这可能使我们能够预测某些类型的手势(例如,隐喻),也不把说话者的讲话从其他声音中分离出来亲切的笑声)。第二,我们将姿态估计视为地面实况,这会引入大量噪声,特别是在说话者的手指上我们认为我们的工作是朝着计算分析迈出的一步-3505图5:语音到手势翻译的定性结果。我们将输入的音频频谱图和预测的姿势叠加在地面实况视频上。Kubinec(讲师)和ConanO'Brien(节目主持人)。请参阅我们的补充材料了解更多结果。会话手势的分析,并提出了三个可能的研究方向。第一个是使用手势作为视频分析的表示:共同语音的手和手臂运动成为视频预测任务的自然目标。第二种是使用野外手势作为训练会话代理的一种方式:我们提出了一种基于GAN的可视化手势预测的方法[10],但是,遵循经典工作[8],这些预测也可以用于驱动虚拟代理的运动。最后,我们的方法是仅有的几个从音频预测运动的初步尝试之一。这一跨模态翻译任务是进一步研究的沃土。鸣谢:这项工作得到了AWS Cloud Credits for Research和DARPA MediFor计划以及加州大学伯克利分校长期网络安全中心的部分支持。引用[1] Y. 艾塔尔角Vondrick和A.托拉尔巴Soundnet:从未标记的视频中学习声音表示。神经信息处理系统进展,2016。3[2] C. Bregler,M. Covell和M.斯兰尼视频重写:以音频驱动视觉语言。计算机图形学和交互技术,SIGGRAPH,第353ACM,1997年。3[3] P. Buehler,A. Zisserman和M. Everingham通过看电视学习手语(使用弱排列的微妙符号)。计算机视觉和模式识别(CVPR),第2961-2968页。IEEE,2009年。3[4] B. Butterworth和U.哈达尔手势、语音和计算阶段:给McNeill的回复Psychological Review,96:168-74,Feb.1989. 二、三[5] Z. Cao,T.Simon,S.-E. Wei和Y.酋长利用局部仿射场进行实时计算机视觉与模式识别(CVPR)。IEEE,2017年。4[6] J. Cassell,D. McNeill和K.- E.麦卡洛语音-手势不匹配: 语言 和非 语言 信息 的一种 潜在 表征 的证 据。Pragmatics and Cognition,7(1):1-34,1999. 1[7] J.卡塞尔C.佩拉绍,N.巴德勒,M. 斯蒂德曼,B. Achorn,T.贝克特湾Douville,S.Prevost和M.史东.动画对话:基于规则的面部表情生成3506压力、手势、多个会话代理的口语语调在计算机图形和交互技术,SIGGRAPH,第413-420页。ACM,1994年。3[8] J. Cassell,J. Sullivan,E. Churchill和S.普雷沃嵌入式会话代理。麻省理工学院出版社,2000年。三、八[9] J. 卡塞尔,H。H. Vilh ja'lmsson和T. 比克莫尔Beat:行为表达动画工具包。见《类生命特征》,第163-185页。Springer,2004. 3[10] C.陈,S. Ginosar,T. Zhou和A. A.埃夫罗斯现在大家跳舞。ArXiv电子打印,2018年8月。一二三四八[11] C.- C. Chiu和S.玛塞拉如何训练你的Avatar:手势生成的数据驱动方法。在关于智能虚拟代理的国际研讨会上,第127140. Springer,2011. 3[12] J. S. Chung,A.Jamaludin和A.齐瑟曼。你这么说的2017年英国机器视觉会议。3[13] N. Cihan Camgoz,S. 哈德菲尔德岛 Koller,H. 奈,R. 鲍 登 神 经 手 语 翻 译 。 计 算 机 视 觉 与 模 式 识 别(CVPR)IEEE,2018年6月3[14] T.达雷尔岛A. Essa和A. P.彭特兰。使用内插视图进行任务特定的实时手势分析。IEEE Transactions on PatternAnalysis and MachineIntelligence , 18 ( 12 ) : 1236-1242,Dec. 1996. 3[15] J. P. de Ruiter,A. Bangerter和P.丁斯。手势和言语在指称 表 达 中 的 相 互 作 用 : 研 究 权 衡 假 设 。 Topics inCognitive Science,4(2):232-248,Mar. 2012. 1[16] W. T. Freeman和M.罗斯用于手势识别的方向直方图在自动人脸和手势识别研讨会上。IEEE,1995年6月。3[17] J. F. 格梅克 D. P·埃利斯, D. 弗里德曼 A. 詹森W.劳伦斯河C. Moore,M. Plakal和M.里特音频设置:音频事件的本体和人类标记数据集。在声学、语音和信号处理国际会议上,第776-780页,3月。2017. 5[18] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展,第2672-2680页,2014年。2[19] A. Hartholt,D. Traum,S. C. Marsella、黑腹拟步行虫A.夏皮罗湾Stra- tou,A.莱乌斯基湖P. Moglobin,和J.格拉奇现在一起:介绍虚拟人工具包。在第13届智能虚拟代理国际会议上,爱丁堡,英国,8月。2013. 3[20]S. Hershey,S. Chaudhuri,D. P. W.埃利斯,J.F. 格梅克A. 詹森角Moore,M. Plakal,D.普拉特河A. 索鲁斯B. Seybold,M.斯拉尼河Weiss和K.威尔逊用于大规模音频分类的CNN架构。在国际声学、语音和信号处理会议上。2017. 五、七[21] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在计算机视觉和模式识别(CVPR),2017年。4[22] A.肯顿手势:作为言语的可见动作。剑桥大学出版社,2004。一、三、五、七[23] D. P. Kingma和 J. BA. Adam :随机最佳化的方法。CoRR,abs/1412.6980,2014。5[24] O. Koller,H.Ney和R.鲍登Deep Hand:How to Train aCNN on 100万hand images when your data is continuousand weakly labeled.计算机视觉和模式识别(CVPR),第3793-3802页。IEEE,2016. 3[25]S. 科普B. 克伦,S. 玛塞拉A. N. 马歇尔C.佩拉绍湾Pir k e r,K.R.Tho' risson,以及H. 我会的。为了实现用于多模态生成的通用框架:行为标记语言。在智能虚拟代理的国际研讨会上,第205-217页。Springer,2006年。3[26] T. R. Langlois和D. L. James.反向Foley动画:将刚体运动 与 声 音 同 步 。 ACM Transactions on Graphics , 33(4):41:1-41:11,2014年7月。3[27] S. L e vine,P. Kr aühenbuühl ,S. Thrun和V. 科尔顿手势控制器。《ACM图形学报》第29卷第124页。ACM,2010年。3[28] S.莱文角Theobalt和V.科尔顿。实时韵律驱动的肢体语言合成。《ACM图形》第28卷第172页。ACM,2009年。3[29] S. 马塞拉岛Xu,M.Lhommet,A.Feng,S.Scherer,和A.夏皮罗 从语音虚拟人物的表现。计算机动画研讨会,SCA,第25ACM,2013年。3[30] D.麦克尼尔手与心:什么姿势揭示了思想。芝加哥大学出版社,芝加哥,1992年。一、二、三[31] L- P. Mogloba,A. Quattoni和T.达雷尔。用于连续手势识别的潜在动态判别模型在计算机视觉和模式识别(CVPR),第1IEEE,2007年。3[32] M. Neff,M.基普岛Albrecht和H.- P. Seidel基于说话者风格概率再现的手势建模和动画。 ACM图形交易,27(1):5:1- 5:24,3月。2008. 3[33] T. Pfister,K. Simonyan,J. Charles和A.齐瑟曼。深度卷积神经网络用于手势视频中的有效姿势估计。在亚洲计算机视觉上,第538-552页。Springer,2014. 3[34] F. Quek,D.麦克尼尔河Bryll,S.邓肯,X.-F. 马角,澳-地Kir- bas,K. E. McCullough,R.安萨里多模态人类话语:手势和言语。 ACM Transactions计算机-人交互(TOCHI),9(3):171-193,2002。3[35] O. Ronneberger,P.Fischer,and T.布洛克斯U-net:用于生 物 医 学 图 像 分 割 的 卷 积 网 络 在 Medical ImageComputingandComputer-AssistedIntervention(MICCAI),LNCS的第9351卷,第234施普林格,2015年。4[36] N. Sadoughi和C.布索检索目标手势以实现具有有意义行为 的 语 音 驱 动 动 画 在 2015 年 ACM 多 模 态 交 互 ,ICMIACM,2015. 3[37] E.什利泽曼湖Dery,H. Schoen和我。克梅尔马赫-施利泽曼。音频到身体动力学。计算机视觉与模式识别(CVPR)IEEE,2018年。三、五、七[38] W. C.那么S Kita和S.戈尔丁-梅多用手来识别谁对谁做了什么:手势和语音去3507手拉手认知科学,33(1):1152009年1[39] S. Suwajanakorn,S. M.塞茨和我克梅尔马赫-施利泽曼 。 合 成 奥 巴 马 : 从 音 频 学 习 唇 同 步 。 ACMTransactions on Graphics,36(4):95:12017年7月。3[40] M. Thiebaux,S. Marsella、黑腹拟步行虫A. N.马歇尔和M。卡曼。Smartbody:行为实现具体的concentional代理。在国际联合会议上的黄金代理商和多代理系统,第1卷,第151-158页。国际自治代理和多代理系统基金会,2008年。3[41] P. Wagner,Z. Malisz和S.科普互动中的手势和语音:概述。Speech Communication,57:209- 232,2014. 3[42] Y. Yang和D.Ramanan 具有部件的灵活混合的铰接式人体 检 测 IEEE Transactions on Pattern Analysis andMachine Intelligence,35(12):28785
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功