语义感知的手势生成方法SEEG的研究及其在语义表达中的优越性

56 浏览量更新于2023-10-25 收藏 984KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10473SEEG：语义赋能的协同语音手势生成梁远志*1、2、冯倩玉3、朱林超2、李虎1、潘攀1、杨毅31阿里巴巴集团达摩院2ReLER Lab，AAII，悉尼科技大学3浙江大学liangyzh18@outlook.comqianyufeng718@gmail.comlinchao. uts.edu.auhooks.alibaba-inc.companpan. alibaba-inc.comyangyics@zju.edu.cn摘要说话手势生成是一项实用而艰巨的任务，旨在合成符合语音的手势有意义的手势能更好地传达有用的信息，引起观众的共鸣。目前的研究主要集中在手势与语音节奏的匹配上，这使得手势语义挖掘和语义建模变得困难提出了一种新的语义感知手势生成方法SEEG（SEmanticEnergizedGeneration我们的方法包括两个部分：解耦挖掘模块（ DEM ）和语义能量化模块（SEM）。DEM从输入中提取SEM进行语义学习并产生语义手势。除了表征相似性之外，SEM还要求预测表达与地面事实相同的语义。此外，在SEM中设计了语义预测器，以利用语义感知监督进行预测。这促进了网络学习和生成语义手势。实验结果表明，SEEG算法能够有效地挖掘语义线索，生成语义手势。SEEG在不同数据集上的所有语义感知评估中均优于其他方法。定性评价也表明SEEG在语义表达上的优越性。代码可通过https://github.com/akira-l/SEEG.1. 介绍最近，在合成数字人时，生动的手势可以主要提高真实性，自然性和效率-*这项工作是在阿里巴巴集团的阿里巴巴达摩院完成的。展开·········大调查(a)多样而富有表现力的语义手势知道···我们·····(b)直观和语义无关的节拍手势图1.共语手势包括语义无关节拍和语义多样手势。SEEG探索手势和产生更好的语义手势。形成表达式。特别是，说话的手势提供了语义表达的非语言线索，并强调了我们日常交流中的亮点和态度。与数字操作技术一起，语音驱动的手势是一种新兴的应用，数字真人动画，影视配音，在线服务，教育。目标是模拟人工智能代理执行与语音内容一致的和谐手势[14，21，29，34]。语音驱动的手势自动生成通过探索语音之间的关系来10474和肢体语言它为虚拟平台中真实的人与人的交互提供了新的机会。对于生动的语音驱动的手势，直观的期望是产生与语音内容相对应的手势。人类自然地回应他们的讲话，并产生手势来传递特定的语义，就像人类行为学一样。如图1所示，大多数协同语音手势由节拍和语义手势复合[8，15]。节拍手势与词汇语义无关。它独立于演讲的内容，更喜欢对声音的节奏做出反应。例如，说话快的人往往在说话手势中移动得更频繁。语义手势1倾向于用肢体语言表达一定的言语内容，包括象似手势、隐喻手势和指示手势[8]。例如，说话者可以举起他们的手来强调他们的态度，对应于“清楚地”、“肯定地”等。生成语义手势将导致生动且合理的基于内容的手势，而不是简单地跟随节拍。然而，协同语音手势合成的现有工作[20，29，34，35]没有明确地产生语义手势，并且未能对语音和手势之间的词汇语义相关性进行例如，当仅仅用语义无关的线索学习时，即，音频的节奏和说话者这表明现有的方法很难显式地学习语义并产生语义感知的手势。由于以下两个原因，生成语义手势具有挑战性。首先，生成语义手势的语义线索很难被挖掘。语义手势的形式和动作因内容的不同而有很大的与此同时，节拍手势倾向于对声音线索做出直观和直接的反应，这通常发生并且更容易被网络挖掘。这种差异导致语义线索难以挖掘。该网络可能相对倾向于击败手势，并放松调查语义线索。第二，语义手势与其对应的文本在时间上并不一致。如图2所示，一些手势可以在它们传达的语义之前或之后执行。这导致网络不利地学习语义手势，因为很难通过给定的数据接收语义相关的明确提示。这两个挑战阻碍了手势语义的生成和表达。本文介绍了一种新的方法来实现语义感知的协同语音手势生成称为SEEG（智能赋能生成）。SEEG有效地挖掘语义和节拍线索，分别进行语义感知的手势生成。具体而言，SEEG[1]我们将这三种手势统称为语义手势，以区别于节拍手势。包含两种成分，即，解耦合挖掘模块（DEM）和语义赋能模块（SEM）。DE耦合挖掘模块将语音输入线索分为语义相关线索（与语音内容紧密耦合）和语义无关线索（仅节拍信息）。然后，DEM中的两个单独的编码器处理语义相关的线索和语义无关的线索，以理解语义和节拍手势的信息。在输入分解之后，一个编码器专注于节拍手势的表示，而另一个编码器利用语义手势的不同语义这个过程简化了语义和节拍手势的学习，但差异很大该网络能够显式地挖掘节拍和语义手势的差异信息如果我们期望网络学习语义，DEM避免了强迫网络从不包含语义表示的节拍手势中学习语义。语义赋能模块旨在避免生成降级到节拍手势。SEM通过限制两种相似性来激发语义学习：表征相似性和语义相似性。再现相似性要求生成在外观上与地面真实相似。更重要的是，DEM追求语义相似性，并鼓励结果与地面事实相比呈现相似的语义在DEM中，我们还引入了一个语义提示图库和一个语义查询器网络。该识别器由画廊训练，并在手势生成中修复。手势网络负责在语义视图中表示手势。通过在编译器的视图下产生类似的表示，所生成的手势被正则化以对齐从地面实况传达的语义。SEM不是直接将语音内容连接到可能不对齐的手势，而是通过限制表征相似性和语义相似性来激励语义学习。我们的主要贡献可概括如下：1.我们提出了一个新的 SEmantic 能量生成（SEEG）框架的共同语音手势生成。SEEG是一种语义感知的手势生成方法，擅长于生成具有更好语义表达性的手势。2. 我们提出了解耦合挖掘（DEM）和语义赋能模块（SEM）。DEM将语义无关的线索整合到输入中，简化了对不同语义和节拍手势的学习。DEM鼓励网络学习语义并产生语义手势。3. 在生成语义手势时，我们的方法的效率和优势通过不同数据集上的三个主观度量和客观的人类评价来揭示。我们还发现，节拍手势可能占主导地位的协同语音手势生成。可视化结果表明，SEEG实现了显着的语义表达。10475我的书上写着什么· · ······我的书架上写着我并没有选择那些让你哭泣什么个人图2.语义和手势之间不一致的示例说话者可以在目标内容之前（左）或之后（右）执行语义手势这导致语义手势很难与文本或音频暂时匹配。我们用橙色阴影突出了重要的手势。2. 相关工作语音驱动的手势生成是一个新兴的问题，其目的是根据给定的语音数据生成生动的手势。一般来说，这个问题的方法采取语音数据[34，35]（音频，文本等）。作为输入并产生相应的手势来模拟真实的说话者。这需要各种知识的理解[33]，如人类行为学[7，22，28，32]，语言学[19，27，30]，机器人[11，25]，图形[3，17，34]，视觉[20，29，34]等。提出的方法应该理解多模态和多样化的信息（来自音频的语音节奏，文本语义，来自说话者身份的个人风格然后做出合理的、有表现力的手势。为了克服上述挑战，提出了各种工作进行探索。为了理解音频数据并将音频输入连接到手势，Taras等人[20]研究了将语音声学和语义特征映射到3D手势特征空间此外，Alexanderson等人[3]借鉴了一种高效的可控3D运动合成建模方法MoGlow，提出了基于MoGlow的风格可控的几何生成模型。提出的方法可以生成像真实人一样的各种各样的、逼真的手势. Ahuja等人[1]提出了Mix-Stage，它将风格特征与手势特征分开，并将手势特征编码到风格空间中。Mix-StAGE克服了风格保存的挑战，为不同的人生成不同风格的手势作为语音驱动手势中涉及的多模态，Yoon等人。[34]探索了用于手势生成的多模态的嵌入和表示。他们考虑到三模态上下文，并为所有数据构建整体建模。本文进一步研究了语义感知的手势生成方法，生成的手势具有更好的语义表达能力.此外，用于评估生成的几何图形的度量也是重要且具有挑战性的。由于人类行为的不确定性，与真实人类相比，评估生成的手势的逼真程度仍然是一个悬而未决的问题。一些作品[1，3，14]依赖于用户研究-来衡量生成的手势的质量。一些作品[1，14，29，34]计算了生成的手势和地面实况之间的距离，而不是来自实际人类的主观评价。在我们的工作中，除了上述的评价，我们进一步提供了一个测量的语义视图。本文提出了一个新的测试集 -- 语义感知测试集（SatTED）和一个新的度量标准--语义感知准确度（SAA）。这些提供了更好的评价结果的语义方面。3. SEmantic通电发电我们提出SEEG（SEmantic Energized Generation），以增强协同语音手势生成中语义的学习能力。如图3所示，SEEG包含两个部分：解耦挖掘模块（DEM）和语义赋能模块（SEM）。DEM从输入中提取语义，并相应地包含两个用于不同输入的编码器。这两个解码器负责显式地挖掘节拍和语义手势的信息。此外，SEM涉及语义解码器和手势解码器。解码器提供用于手势生成的最终输出。然后，手势识别器网络利用手势的对齐损失，这缓解了语义的不对齐。3.1. 初步协同语音手势生成的目的是根据语音数据生成逼真的手势。一些作品[21，24，29]通过将音频，文本和说话者身份作为预处理输入来合成身体姿势，手势，嘴唇或面部关键点。在这项工作中，我们专注于通过顺序输出[34，35]之后的关键点来生成上身手势。以语音和文本作为输入，需要方法来产生像真实说话者一样的生动的语音手势。通常，本主题中的方法还引入了人员ID并将ID编码到功能中。此外，文本经过预处理，并由预训练的单词向量表示[6，10，26]。因此，存在三个部分的输入：音频数据xa、文本数据xw和IDxi。然后，最终输出是表示为y的顺序手势数据。它包含在每个时间步的手势的关键点的位置此外，还从视频中提取地面实况手势y10476一AOΣ不不文字说明：语音数据“ clearly at the beginning ofDEMSEM音频：陈伟霆解耦体积：节拍：语义无关数据图3.我们的语义感知手势生成概述。它包括两个部分：解耦合采矿模块（DEM）和硒赋能模块（SEM）。设计了两个编码器网络（Es，Eb）和一个解码器网络（D另一个更快的网络（P）鼓励网络学习和生成语义手势。预处理[34，35]。所有xa、xw、y和yx都对应于时间步长t。此外，我们在这项工作中注重赋予手势更好的而不是生成类似于地面实况的手势，我们强调生成传达类似语义的语义手势，其中xa是音频数据的幅度，t是时间步长，T是总长度。如果振幅大于平均值，我们设置（xa，t）= 1这是因为音频数据包含噪声和背景声音。振幅大于平均值表明说话者开始明显说话。此外，仅使用音量信号难以捕捉说话者的声音或速度的变化。我们引入起始强度包络[12，13，23]来表示搏动信息。起始点[12，13]指的是声音的起始点。强度包络[5]可以指示在音频信号中检测到的开始的概率。这可以表示语音音频的节拍我们跟着-low [5，23]来提取起始强度包络，并在我们的工作中将其表示为O（xa）在DEM中，提出了两种编码器Es和Eb来挖掘分别用于语义和节拍的信息。详细地，对于节拍手势，Eb利用（xa，t）和（xa）作为输入。对于语义手势，Es被设计为从xw和xa学习。此外，作为[1，34]中的标准设置，我们还添加了人IDxi作为编码器的输入。离散元法的计算过程可以表述为：地面真相3.2. 解耦合挖掘模块zs=Es（xw，xa，xi），zb=Eb（O（xa），A（xa），xi）（二）在语音手势[4，8，15，18]中，节拍手势是直观的并且相对简单。闪族的手势是多样的，需要语义理解。这说明节拍线索更容易被研究，而语义手势在生成过程中可能被忽略然后，该方法可能被捕获在节拍手势中。在我们的工作中，我们首先提出了解耦挖掘模块（DEM）学习信息的语义手势和节拍手势分开和解释。在语音数据中，文本对应于语音内容，并且与语义相关。同时，音频数据反映了语音、情感、口音、节拍、音量等，音频中的一些因素只支持语义表达，并不传达特定的语义。具体而言，音频的节拍和音量对应于语音的节奏和速度。它们是语义无关的，听者不能仅仅通过节拍和音量来实现语义因此，我们将这些因素解耦为语义无关的信息，这导致了节拍手势。具体而言，如图3所示，我们将由音频幅度和音频起始组成的输入解耦，它们分别代表音量和节拍。对于音量信息，具有大幅度值的音频数据具有大音量。我们将体积函数定义为：.1xa（t）≥1<$Txa（t）0xa（t）1Txa（t）其中zs和zb是用于语义和节拍的特征。此外，这两种编码器具有相似的网络结构。它们都包含三个完全连接的层来处理输入。然后，利用两个附加的全连接层和级联操作合并三种输入.接下来，设计了一个四层GRU有关网络的更多详细信息，请参见补充资料。3.3. 语义赋能模块在DEM中挖掘语义和节拍手势信息后，我们设计了一个语义激励模块（SEM），以进一步激励语义学习，以解决错位问题。首先，我们从TED数据集引入一个语义提示库[35]。然后，我们提出了一个语义学习器来单独学习图库。该系统可以为图形制定语义表示。通过预测器，我们进一步利用监督进行预测。这鼓励网络通过简化器来追求语义的相似表示，从而避免网络直接学习不一致的语义。语义提示库：语义提示库是一个小的文本手势收藏.它包含来自[4，8，9，15，18]的五个一般类。我们采用三种明显的语义（Listing，emphasize，指示语）转达从手势和两类A（xa，t）=Tt（1）10477--CC|∗|LLLLL（否定的，肯定的）反映说话人画廊表示为G为{CListing g，CEmphasi ze，CDeictic s，CNe gati ve，CP ositi ve}，其中，i是文本手势集合，并且i =[v1，v2，. - 是的- 是的，vM];[g1，g2，. - 是的- 是的，g N]。vi和gi表示分别是单词和手势序列。此外，我们应用[4，8，9，15，18]中的M个词来构建每个类的文本集作为v。此外，[18]提出了一种通用的收集和收集语义一致的手势的方法。在[18]之后，我们从TED数据集[35]中为每个类收集N个手势序列以公式化g。更多细节将在补充报告中介绍。语义学习器：我们提出了一个语义学习器来独立地学习上面的图库。如图4所示，语义分类器P采用姿势数据作为输入，并学习将姿势分类为图库中的五个一般P由两个全连接层和一个四层GRU网络组成，其中全连接层用于处理输入和输出。GRU的目标是模拟以下方面的顺序互连：语义提示器语义提示库…上市强调指示语否定肯定：：…0第一��很明显，很棒，很极端，��ℎ��FCGRUConcatFC图4.语义识别器的构建与训练语义提示器是从语义提示库中学习的。FC、Concat和GRU分别表示全连接层、关联操作和GRU网络。t表示手势数据的时间步长。语义识别器从语义提示和桥梁手势和语义之间的一般对应。哪里平滑L1归一化。由于P在训练中是固定的，为了解决上述损失函数，输出几何体y应该用手势总之，该翻译器可以反映手势并在语义视图中表示手势在P.L对齐不代表-语义赋能学习：如图3所示，提出了手势解码器D，以聚合来自Es和Eb的两个特征，并产生手势作为最终输出，其可以被描述为y=D（zs，zb），其中y=表示最终预测。D的目标是解码手势同时考虑节拍和语义的信息。它由一个完全连接的网络构成。然后，为了激励语义学习，SEM利用两种监督进行预测：表示相似性和语义相似性。对于代表性相似性，我们直接将P约束为与地面实况相似回归损失reg和对抗损失adv应用reg[34]包含平滑的L1损失，以减少y和y之间的距离。同时，在reg中包含Kullback-Leibler（KL）偏差以约束人员ID。此外，添加与[34]相同的参数来对生成的手势执行对抗学习。这也针对预测和地面事实的代表性相似性[34]。更重要的是，对于语义相似度，我们进一步提出了语义对齐的损失对齐。考虑到语义不对齐，指示或注释特定单词的语义可能是不适当的。在我们的工作中，我们建议调整手势传达的语义换句为此，我们应用手势P来表示手势的预测和地面实况，并提出语义对齐的损失L对齐来正则化：Lali gn（y，y）=|P（y）−P（y）|（三）将预测与地面实况或特定手势相同，并且它需要类似的语义。总而言之，最终损失函数L可以用公式表示为：L=Lreg+Ladv+Lalign（4）4. 实验在本节中，我们将讨论SEEG的详细信息，并使用不同数据集中的各种指标评估SEEG。实现细节：我们的网络设计遵循[34]中生成器的结构，只改变一些全连接层来适应输入。为了进行公平的比较，所有其他设置，如优化器，学习率等，与[34]相同。此外，为了训练手势识别器网络，我们利用随机剪切、随机剪切和剪切混合[36]来增加图库中的手势。我们用SDG优化器和学习率0训练了100个epoch的神经网络。001。此外，我们收集了M= 25和N= 5的语义库。值得注意的是，在我们的语义库和以前的工作中的词姿势词典之间有两个显著的区别[21]。1）。只定义了用于语义的通用类。没有特定的词语映射特定的手势。此属性可避免库中的单词和手势2）。该画廊仅适用于列车P。收集一本综合性的词典进行培训是不现实的，也是不必要的手势识别器网络不负责识别手势中所有可能的语义。它只需要在库中反映一些通常可能的语义。数据集：我们基于TED数据集[35]测试我们的方法，TED数据集是目前最大的标准数据集，10478L语音驱动的手势[34，35]。与[34]一样，它是基于TED视频构建的，包含来自视频的3D姿态数据。该数据集还包括语音音频和转录的语音文本[34]。此外，TED数据集中的一些手势不具有表达性，可能无法传达明确的语义。同时，一些内向的说话者可能不倾向于在言语中提供明显的动作为了反映语义方面的改进，我们在[34]中提供了基于上述数据集的语义感知测试具体来说，我们基于P的置信度对TED数据集的测试集进行重新排名，并收集大约前50%的数据作为Sat- TED。[34]中的原始测试集包含25，930个样本。我们的SatTED包括12，000个样本和超过7.5小时。我们对SatTED中的方法进行了比较，并进一步讨论了我们的方法在语义方面的优越性。评估方法：我们根据三个指标评估我们的方法：1) FGD：评估预测特征与地面实况之间的距离。它有力地反映了手势之间的相似性。2) 多样性度量[16]：多样性和灵活性的度量。由于表达性说话者倾向于提供各种手势来支持他们的表达[15，18]，因此该度量可以在一定程度上反映自然度和语义相关性3) 语义感知准确度（SAA）：我们还提出了语义感知准确度（SAA）作为语义表达能力的衡量标准。使用语义分类器，我们可以将预测的手势标记为语义类。同时，对于语音内容，可以通过投票来分配语义标签。对于演讲句子中的每个单词，我们搜索最相似的描述v，并将相应的类C指定为该单词的标签。每一个字投票后，我们看到-选择具有最高投票值的类作为当前句子的标签。然后，与手势和句子的标签，我们计算的准确率为SAA。值得注意的是，align监督预测手势的语义表达和地面真实手势，这避免了不对齐的问题。它并不监督手势应该与文本相对应。同时，SAA描述了文本手势表示。这是一个更高的要求，因为地面实况也可能不密切反映语义。SAA在所有手势都是语义手势的理想条件下对语义表达进行度量。主观评估：我们通过实际的人类进行用户研究，以评估手势。我们随机抽取了20段语音音频、文字和手势，方法烟气脱硫（↓）[35]第三十五话18.154[第14话]19.254[2]第二次世界大战22.083[34]第三十四话3.729我们的（仅Eb+D）3.751总体SEEG6.244表1.TED数据集中不同方法的协同语音我们采用FGD作为评价指标。在我们的方法中，即使只使用编码器Eb和解码器D注意，FGD可能不能很好地反映手势语义。对几何语义的评价见其他表格。手势相关性和手势频率。这些因素通常用于手势评估，如[31]中所述。等级的范围是从0到10。在实验中我们收集了所有的问卷并计算了平均分。4.1. 定量评价与最先进模型的比较：我们首先比较基于TED数据集的FGD值。我们分别训练编码器E和解码器D，在没有解码器网络的情况下，基于语义无关的数据生成手势。这对应于节拍手势的生成。如表1所示，仅使用Es+D，我们的结果与FGD中的最新方法相比是有利的，该方法利用来自语音的综合数据这表明该网络可以实现与最近方法类似的FGD，而无需挖掘任何语义线索。只有通过挖掘语义无关的数据，网络才能“假装”产生有意义的手势。虽然我们期望网络学习语义并产生富有表现力的语义手势，但网络也可以在不学习任何语义的情况下表现良好这揭示了当前研究的两个失败：1）。节拍手势可以支配数据集。同时，语义线索很难被挖掘的综合输入。因此，解耦学习是有价值的。DEM分别学习节拍和语义的线索，这些线索引导网络不被节拍手势所困。此外，而不是方法侧，一个新的子集具有更大的比例的语义手势也需要揭示结果的语义表达。2）。FGD可以通过仅考虑节拍手势在当前数据集中可解。仅仅测量预测与地面实况之间的距离是不够的。应该引入更多的语义感知度量.为了解决上述问题，我们提出了SatTED数据集和SAA。同时，我们的整体方法在FGD中也优于实际的人类，三模态语境[34]，和我们的。然后，我们发布了50个不同的人的问卷，根据三个因素对手势进行评分：自然度，语音-以前的方法有很大的差距。虽然略低于Es+D，我们的整体方法也取得了竞争力的结果比目前的国家的最先进的。自SEEG10479LLL数据集方法烟气脱硫（↓）多样性（↑）SAA（↑）强调上市指示语积极负平均Ted真实姿态-1.405±0.05852.13541.02865.51519.38827.25537.688[34]第三十四话3.7290.759±0.02932.49643.20351.64717.02129.60030.286SEEG6.2441.059±0.04540.43844.46566.11619.00427.24636.851SatTED真实姿态-1.271±0.05654.70964.16982.58722.52229.05243.904[34]第三十四话4.5050.782±0.03732.92855.61261.84412.83321.49630.956SEEG7.4511.118±0.04944.51852.32270.46121.32227.76338.457表2. TED数据集和SatTED数据集中所有指标的比较。我们的方法在一些语义相关的度量（如多样性和SAA）方面表现出更好的性能。Real Gestures表示地面实况中真实人类的手势。±表示95%置信区间。↑表示值越高越好，↓表示值越低越好。方法是由SEM激发的，并且倾向于更有表现力和多样性，它可能不完全遵循地面事实并专注于语义。语义感知评估：我们比较了两个数据集中的所有指标，如表2所示。我们还展示所有的语义感知的准确性在每一个类从画廊。结果表明，我们的方法在多样性和SAA方面比三模态上下文[34]有显著的改进，三模态上下文是当前最先进的协同语音生成方法。具体来说，尽管FGD的值略低，但我们结果的多样性远远优于[34]。对于SatTED数据集，我们方法的多样性甚至接近地面实况的真实姿态。同时，我们的结果所传达的语义更可识别和重要。几乎所有的SAA值在每个类和平均值都优于三峰上下文[34]。所有这些结果表明，SEEG是可比的，在刺激实际的人的手势和能够理解的语义。此外，SEEG在SAA的某些类别中获得了比地面真值更高的结果，因为地面真值可能是节拍手势并且不响应相应的语义。此外，SatTED具有较大比例的手势，难以用现有方法求解。如表2所示，我们的方法在该数据集中呈现了更显著的改进。结果表明，我们的方法有效地提高了手势的语义学习，并进行了更好的语义感知生成。语义解耦的效果：在我们的工作中，我们从输入中解耦语义，并强制网络分别挖掘语义和节拍手势的信息在方法设计中，我们希望用Es+ SEM实现语义手势，仅用Eb+D实现节拍手势，并考虑双方的总输出（总体）。在本节中，我们对表3中的三个部分进行了实验和验证。具体来说，我们只使用reg和adv训练Eb+D。Es+ SEM是用Es+D训练的。然后，为了显示整个管道中Es和Eb之间的相互作用，我们从头开始进行整个SEEG训练数据集方法烟气脱硫（↓）多样性（↑）SAA（↑）Ted仅Eb+D3.7510.984±0.04430.022Es+ SEM7.8051.113±0.05137.259整体Eb+D5.4720.901±0.04530.597Es+D7.3201.127±0.04739.981SatTED仅Eb+D5.1140.922±0.38433.986Es+ SEM9.2911.164±0.04944.218整体Eb+D5.4900.990±0.32634.344Es+D6.7971.128±0.04946.533表3.不同训练方式的比较 Eb+ D仅表示单独训练有Es和D而无P。 Es+ SEM表示仅训练而没有编码器Eb。全面意味着用完整的方法进行训练。同时，Eb+D指示从Eb推断具有填充特征的整体方法为0。Es+ D是从E s推断填充特征。并分别测试每个模块。如表3所示，对于Eb+D整体，我们通过用零填充来自Eb的特征zb来测试结果。类似地，整个焊盘中的Es+D的特征在于zs为零。如表3所示，Eb+D仅在FDG度量中实现了更高的性能，但显示出多样性和SAA的显著降低，因为它不可用于学习具有语义解耦输入的语义。同时，使用Es和D的隔离训练倾向于仅学习语义，并且可能无法与地面实况类似地执行。这导致结果，以获得显着改善SAA，但变得更糟的FGD。此外，在整体管道中，与单独训练相比，也会发生类似的错误.相比之下，两个部分的学习不会太激进。作为整个管道的一部分，Eb和Es都得到了改进。语义识别器的消融研究：SEM依赖于语义识别器来学习手势中的语义。本节探讨了语义学习的语义网络的影响。我们分别在有或没有语义过滤器的情况下对SEM和整体管道进行了实验。如表4所示，如果没有语义过滤器，像多样性和SAA这样的语义感知性能都会下降。同时，去除过滤器网络有助于FGD的改进。单个Es+D在没有滤波器网络的情况下执行类似于10480·我们· · · · · · ···· · ···· ·在·· ·· ·依然· · · ······ ··· · · · · ··三模态语境· ··我们· ··• 容易· · ···· · · · ····开发·········三模态语境· ··我们· ··找到但不一定装几明确图5.生成的手势示例该方法具有较好的语义表达能力和显著合理的对应词响应。我们分别用蓝色和橙色阴影突出显示[34]和我们的重要手势方法度量烟气脱硫（↓）多样性（↑）SAA（↑）总体（不含T）Es+D w/oTs4.9373.9151.004±0.0370.854±0.03730.92030.216表4.语义干扰效应的消融研究在没有语义过滤器的情况下，多样性和SAA的的方法[34]。4.2. 定性评价用户主观评价：我们收集了不同志愿者的问卷，并计算了不同因素的平均得分。这些因素均为常规问卷项目，如[31]所示。统计结果如图6所示。为了研究我们的方法中部分的性能，我们分别训练Eb+D作为我们的方法的节拍手势（Beat），Eb+ SEM作为我们的方法的语义手势（Semantic）和整个方法（Overall）。我们将我们的方法与当前最先进的方法和地面实况进行比较。相比之下，我们的方法在所有三个因素上都有显着的改善此外，语义手势在自然度和频率上表现较差，但在言语-手势关联上具有显著这对应于SEM的设计，其专注于语义学习并且可能偏离地面实况。可视化：我们展示了我们方法的结果，并将其与当前最先进的方法进行比较[34]。在所生成的手势的示例中，如图5所示，显著响应对应于一些单词（例如，876543210Ground truth Trimodal Ours（Beat）Ours（语义）Ours（整体）自然度语音-手势相关性手势-频率图6.合成手势的用户研究。根据三个评估因素，地面真相，目前的国家的最先进的，我们的方法进行比较。清楚地，在开始时，退出一个，可用的，容易的，第一步）。实验结果表明，该方法能够更好地学习语义，生成具有语义表达能力的生动手势.5. 结论提出了一种新的基于语义的手势生成方法该方法包括两个部分：解耦挖掘模块（DEM）和语义增强模块（SEM）。DEM从输入中提取语义，并迫使网络挖掘语义和节拍手势的信息SEM包含一个语义检查器，用于利用基于语义的网络监督并产生语义手势。通过多种测试、用户学习和可视化实验证明，该方法能够更好地学习语义，生成与语音内容相对应的语义手势。10481引用[1] Chaitanya Ahuja，Dong Won Lee，Yukiko I Nakano，and Louis-Philippe Morency.共同语音手势动画的风格转换在欧洲计算机视觉会议上，第248- 249265. Springer，2020年。三、四[2] Chaitanya Ahuja和Louis-Philippe Morency语言2pose：自然语言基础的姿势预测。在2019年3D视觉国际会议（3DV）上，第719IEEE，2019。6[3] SimonAlexanderson ， GustavEjeHenter ， TarasKucherenko，and Jonas Beskow.使用规范化流程的风格可控语音驱动在Computer Graphics Forum，第39卷，第487-496页。Wiley在线图书馆，2020年。3[4] Zeynep Azar，Ad Backus，and Asljahzyürek.语言接触不会驱动手势转移：遗产说话-ER在每种语言中保持语言特定的手势模式。双语：语言和认知，23（2）：414四、五[5] 塞巴斯蒂安·博克和格哈德·威德默最大滤波器振动抑制的发病检测。第 16 届国际数字音频效果大会（DAFx）。Maynooth，Ire-land（Sept 2013），volume7，2013. 4[6] Rishi Bommasani Kelly Davis 和Claire Cardie 伯特戴手套：从预先训练的上下文表示中提取静态嵌入。2019. 3[7] 戴安娜·博克瑟。社会距离和言语行为：间接投诉的情况。Journal of Pragmatics，19（2）：103 3[8] 贾斯汀·卡塞尔。一个手势生成和解释的框架. 人机交互中的计算机视觉，第191-215页，1998年。二、四、五[9] Lisette De Jonge-Hoekstra，Ralf FA Cox，Stefie Van derSteen和James A Dixon。说起来容易做起来难任务难度齿轮科学，45（6）：e12989，2021。四、五[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[11] Masrur Doostdar，Stefan Schiffer，Gerhard Lakemeyer.服务机器人应用的鲁棒语音识别系统。机器人足球世界杯，第1Springer，2008. 3[12] 丹尼尔·埃利斯。通过动态规划进行节拍跟踪。新音乐研究杂志，36（1）：51-60，2007。4[13] 作者声明：Daniel PW Ellis，Graham E Poliner.基于色度特征和动态规划节拍跟踪的翻唱歌曲在2007年IEEE关于声学、语音和信号处理的国际会议-ICASSPIEEE，2007年。4[14] Shiry Ginosar ， Amir Bar ， Gefen Kohavi ， CarolineChan，An- drew Owens和Jitendra Malik。学习个人风格的会话手势。IEEE/CVF论文集计算机视觉和模式识别会议，第3497-3506页，2019年。一、三、六[15] 苏珊·戈尔丁·梅朵和玛莎·瓦格纳·阿里巴利。Ges-ture在说、学和创造语言中的作用。心理学年鉴，64：257-283，2013。二、四、五、六[16] Chuan Guo ， Xinxin Zuo ， Sen Wang ， Shihao Zou ，Qingyao Sun ， Annan Deng ， Minglun Gong ， and LiCheng.动作2motion：三维人体运动的条件生成。第28届ACM国际多媒体会议论文集，第2021-2029页，2020年。6[17] GustavEjeHenter 、 SimonAlexanderson 和 JonasBeskow。Moglow：使用归一化流的概率和可控运动合成。 ACM Transactions on Graphics （ TOG ）， 39（6）：1-14，2020。3[18] Sarah S Hughes-Berheim ， Laura M Morett 和 RaymondBulger。对语音和文本，表征性手势及其词汇附属物之间的语义关系心理学前沿，11：2808，2020。四五六[19] William A Kretzschmar Jr，William A Kretzschmar，andWilliam A Kretzschmar Jr. 言语的语言学剑桥大学出版社，2009年。3[20] Taras Kucherenko，Patrik Jonell，Sanne van Waveren，Gustav Eje Henter ， Simon Alexandersson ， IolandaLeite，and Hedvig Kampström. Gesticulator：一个语义感知语音驱动手势生成的框架。在2020年多模态相互作用国际会议论文集，第242-250页，2020年。二、三[21] Miao Liao，Sibo Zhang，Peng Wang，Hao Zhu，XinxinZuo，and Ruigang Yang.具有3d骨架规则化和富有表现力的身体姿势的语音2video合成2020年亚洲计算机视觉会议论文集。一、三、五[22] Joseph D Matarazzo ， Arthur N Wiens ， Russell HJackson，and Thomas S Manaugh.被访者在内源存在和外源诱发动机状态下的言语行为。临床心理学杂志，1970年。3[23] Brian McFee、Colin Raffel、Dawen Liang、Daniel PWEllis 、 Matt McVicar 、 Eric Battenberg 和 Oriol Nieto 。librosa ： Python 中的音频和音乐信号分析。在Proceedings of the 14 th python in science conference，第8卷，第18-25页。Citeseer，2015. 4[24] Evonne Ng ， Shiry Ginosar ， Trevor Darrell 和 HanbyulJoo。Body2hands：学习从会话手势身体动态推断3d手在IEEE/CVF计算机视觉和模式识别会议论文集，第11865-11874页，2021年。3[25] Stanislav Ondán ， Jozef Juhár ， Matún Pleva ， MartinLojka ， Ev aKikto vá ， Ma

下载后可阅读完整内容，剩余1页未读，立即下载