手语翻译中的字幕对齐任务

69 浏览量更新于2023-10-15 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11552Saudio被一座叫做豹的岩石为了让她的幼崽在这个危险的地区活下来，母熊必须确保他们就藏起来了Sgt俯瞰着一座被称为豹岩的小山母亲必须确保它们被藏起来为了让她的幼崽们在这个危险的地方活下来，时间十四点十二分十四点十四分十四点十六分十四点十八分十四点二十分十四点二十二分十四点二十四分十四点二十六分十四点二十八分14点半在手语视频HannahBull1*TriantafyllosAfouras2*Gu¨ lVarol2，3Samuel Albanie2，4 Liliane Momeni2AndrewZisserman21 LISN，Univ Paris-Saclay，CNRS，France2英国牛津大学视觉几何组3LIGM，E´cole des Ponts，Uni v Gustav e Eif fel，CNRS，法国4英国剑桥大学工程系hannah. lisn.upsaclay.fr;{afourast，gul，albanie，liliane，az}@ robots.ox.ac.ukhttps://www.robots.ox.ac.uk/~vgg/research/bslalign/图1：字幕对齐：我们研究了在手语翻译的电视广播数据中将字幕与连续签名对齐的任务。这种设置中的字幕通常对应于音频内容并与音频内容对齐（顶部：音频字幕，S音频），但未与随附的签名对齐（底部：对应于副标题的签名的地面实况注释，Sgt）。这是非常具有挑战性的任务，因为（i）字幕的顺序在口语和手语之间变化，（ii）字幕的持续时间在手语和语音之间显著不同，以及（iii）手语对应于语音的翻译而不是转录。摘要这项工作的目标是在时间上对齐手语视频中的异步字幕。特别地，我们关注手语解释的TV广播数据，其包括（i）连续手语的视频，以及（ii）与音频内容相对应的字幕。以前的工作，利用这种弱对齐的数据只考虑找到关键字符号对应，而我们的目标是本地化一个完整的字幕文本在连续签名。我们提出了一个为这项任务量身定制的Transformer架构，我们在手动注释的对齐上进行训练，覆盖了15K的字幕，跨越了17.7小时的视频。我们使用BERT微妙的嵌入和CNN视频表示学习的标志识别编码的两个信号，通过一系列的注意层进行交互。我们的模型输出帧级预测，即，对于每个视频帧，无论其是否属于所查询的字幕。通过广泛的评估，我们显示了对现有对齐基线的实质性改进，这些基线不使用字幕文本*同等贡献嵌入学习。我们的自动对齐模型通过提供连续同步的视频文本数据，为推进手语的机器翻译开辟了可能性。1. 介绍手语是聋人社区沟通的一种重要形式[50]。在本文中，我们的目标是在时间上本地化字幕连续签名视频。字幕文本与签名内容的自动对齐对于广泛的应用具有巨大的潜力，包括用于教育和翻译的辅助工具、手语视频语料库的索引、用于签名vlogger的高效字幕技术1以及支持计算机视觉和语言学研究的大规模手语数据集的自动构建。尽管最近在计算机视觉方面取得了进展，机器1与YouTube等网站上受益于自动隐藏字幕的口语vlog不同，希望提供书面字幕的签约vlog创作者必须手动翻译和对齐字幕。11553连续签名和书面语言之间的翻译仍然在很大程度上没有解决[6]。最近的作品[11，12]已经显示出有希望的翻译结果，但是迄今为止，这些仅在受限的设置中实现，其中连续签名被手动地预先分割成片段，每个片段与来自有限词汇的书面句子相关联。将翻译扩展到描绘不受约束词汇的连续手语的两个关键瓶颈是（i）将手语分割成句子状单元，以及（ii）大规模手语训练数据的可用性将字幕与手语视频手动对准是乏味的-手语流利的专家花费大约10-15小时来将字幕与1小时的连续手语视频对准。在这项工作中，我们专注于在给定的临时签名窗口内对齐特定已知字幕的任务。我们在手语翻译的电视广播片段的背景下探索这个任务字幕对齐到连续签名仍然是一项非常具有挑战性的任务。首先，手语的语法结构与口语的语法结构有很大的不同[50]，因此，字幕中的单词顺序以及字幕本身通常不会在手语中保持（见图1）。①的人。其次，由于速度和语法的差异，字幕的持续时间在手语和语音之间变化很大。第三，签名对应于出现在字幕中的讲话的翻译，而不是转录：在字幕词和由翻译器产生的符号之间没有直接的一对一映射，并且整个字幕可能不被签名。利用这种弱对齐数据的先前工作主要集中在寻找字幕中的关键字和单个符号之间的稀疏对应关系[3，39，53]，而不是在连续签名中定位完整字幕文本尽管如此，正如我们所展示的，通过关键字识别识别的局部化孤立标志永远是一个有用的预训练任务，用于完全字幕对齐。与我们的工作最密切相关的是Bull etal.[9]考虑纯粹基于主体关键点将连续签名视频分割成字幕单元的任务。事实上，类似于可以基于韵律线索（诸如停顿）进行分段的语音，符号句子边界可以在一定程度上通过视觉线索（诸如放下手、头部移动、停顿和面部表情）来检测[24]。然而，正如我们在SEC中的评估所示。4，这种基于韵律的方法在我们的设置中表现不佳，其中字幕不一定对应于具有清晰视觉边界的完整符号句子。在本文中，我们建议使用字幕文本作为更好的对齐的附加信号。我们做出以下三项贡献：（1）我们示出了将字幕文本编码为对准模型的输入显著地改善了时间定位质量，这与仅依赖于视觉线索来将连续手语视频分割成字幕单元相反;（2）我们设计了一个新的公式的字幕对齐任务的基础上的转换器;（3）我们提出了一个全面的研究消融我们的设计选择，并提供了有前途的结果，这个新的任务时，评估看不见的签名者和内容。2. 相关工作有关手语识别和翻译的最新综合调查，请参见[32]。在这里，我们回顾了相关的工作时间本地化的水平，个人的迹象和序列，除了更一般的时间对齐方法从文献中。个体体征的时间定位。一个丰富的机构的工作已经考虑了本地化的任务，稀疏的迹象实例在连续签署，通常被称为“标志发现”。使用签名手套[37]的早期努力之后是采用手工制作的视觉特征来表示与CRF [58，59]，HMM [46]和HSP树[42]集成的手，面部和运动的方法几项研究试图使用字幕作为弱监督，使用先验挖掘[18]和多实例学习[7，8，43]来学习定位和分类标志最近的工作利用了诸如mouthings [3]和视觉词典[39]等线索，并通过使用具有滑动窗口分类器的深度神经网络特征[36]和通过代理翻译任务学习的注意力[53]。与这些作品不同，我们的目标是本地化完整的字幕单元，而不是单个的标志。符号序列的时间定位。在创造性的早期工作中，通过组合来自多个稀疏对应的线索[23]，考虑了字幕与连续签名的对齐在文献中受到关注的其他序列级手语时间定位任务包括类别不可知的符号分割[22，44]，主动签名者检测[5，17，40，49]和日记[2，26，27]-每个都考虑与字幕单元不同的时间与我们的工作最密切相关的是Bull et al.[9]采用基于关键点的模型将连续签名分割成句子状单元，而无需在推理期间了解书面字幕。我们的方法放宽了这一假设，而是考虑实际情况下，我们假设访问的书面字幕对齐。我们将我们的方法与他们的方法进行比较。4.第一章11554图2：SAT模型概述：我们向我们的模型输入（i）我们希望对齐的字幕文本的令牌嵌入，（ii）从连续手语视频片段提取的视频特征序列，以及（iii）音频对齐的字幕的移位的时间边界，S先验。使用这些输入，模型输出长度为T的0和1之间的值的向量。其高于阈值τ的第一个和最后一个值界定查询字幕的预测时间边界。字幕相对于窗口的位置用黄色虚线表示。连续手语识别。已经研究了将CNN与HMM [33，34]，注意力机制[31]和CTC损失[10，16]耦合的混合模型用于连续手语识别，最近扩展到序列到序列模型[11]和变换器[12，35]以解决手语翻译的任务。这些模型在对应于句子的签名序列上产生隐式或显式然而，这些方法仅被证明适用于预分割的签名句子[11]。将文本主体与视频对齐。动态时间规整（DTW）算法[41]已应用于使用字符识别和字幕内容等线索将电影序列与转录[21，45]和情节概要[51它也被成功地完全应用于针对未修剪视频对齐通用文本描述的问题[4]。虽然有效，但这些方法需要保留跨模态的序列顺序，这在我们的问题设置中不成立。但我们在SEC中显示。图3示出了DTW如何可以用作经由全局目标解决重新排序的字幕预测定时上的冲突局部对准的处理的次级阶段。[52]的工作放宽了固定顺序的假设，将书籍章节与视频场景对齐。然而，他们的方法，通过匹配稀疏字符identifica- tions对特定的镜头，是不适用于我们的设置，镜头边界不提供一个自然的segmenta-tion的签名内容。视频中的自然语言基础。我们的工作也涉及到自然语言接地的任务，其目的是找到一个时间段内的未修剪的视频序列对应于一个给定的自然语言查询。现有的方法已经考虑了两阶段的提议和排名方法[25，30，38，56]，用强化学习训练的迭代接地代理[29，55]和单阶段回归模型[15，28，60，61]。我们提出的字幕对齐任务在三个方面不同于自然语言基础：（i）签名内容更细粒度-签名序列的视觉外观在帧之间保持非常相似，需要对身体动态的细微差别的识别;（ii）与语言基础不同，要对齐的每个字幕具有其自己的参考位置，在开始时间和持续时间上提供实例特定的先验。正如我们在SEC中所展示的那样。4，我们有效地使用这个参考是很重要的，以实现良好的性能，我们的模型是专门设计的，以利用这个线索;（iii）字幕占据相互排斥的时间区域，我们进一步利用，以提高对齐质量的属性，但一般不适用于自然语言的基础。3. 方法在本节中，我们描述了在单个字幕和短视频片段上操作的基于Transformer的字幕对齐模型（第二节）。3.1），我们对稀疏符号点的预训练（第3.1节）。3.2），以及我们的最后一步，即使用DTW在长视频中全局调整多个字幕（Sec. 3.3）。问题表述。作为模型的输入，我们提供了（i）我们希望与签名对齐的字幕文本的令牌嵌入，（ii）从连续手语视频片段中提取的视频特征序列，以及(iii)给定查询的时间边界的先验估计，我们称之为S先验。后者被提供为签名对齐字幕的近似位置和持续时间提示使用这些输入，我们预测与视频特征相同长度的二进制向量，其中1的连续序列表示字幕的时间位置字幕文本Transformer编码器帧不在字幕/字幕中的帧连续签约视频/////////SgtT帧事先/////////////T帧+Transformer解码器///////////T帧S预测PE“The souffle is just a little bit线性i3D线性伯特线性线性乙状11555不--GTpredGTpred1Σt t t t tt3.1. 副标题校准器Transformer我们的模型的核心是一个Transformer [54]，如图所示。2，我们称之为字幕对齐器Transformer（SAT）。与将视频帧作为输入馈送到编码器[13，19]的常见方法相比，我们将视频帧输入到解码器侧，以便模型学习帧级特征与相同持续时间的输出向量之间的关联我们首先描述了Transformer的结构，然后对文本和视频特征进行了分析。牵引中提供了其他实现细节线性投影到相同的维度。融合输出最终被投影到d模型，以便输入到Transformer解码器。培训目标。利用预测向量与视频片段内的签名对准字幕的地面实况Sgt之间的二进制交叉熵损失来训练模型：不L= −S log S+（1 − S）log（1 − S）。t=1应用安全B.编码器。编码器的输入是与我们希望对齐的字幕相对应的文本嵌入序列。在Transformer的编码器端不使用位置编码，因为文本嵌入（见下文）已经包含位置信息。编码器是Transformer层的堆栈，每个Transformer层包含一个多头注意力机制，然后是前馈网络和大小为d的模型的嵌入维度。译码器解码器是一个 Transformer 层的堆栈，这些Transformer层参与编码序列。2解码器的输入包括编码来自视频的视觉签名信息的视频特征序列，以及表示签名对齐字幕的位置的先验估计（S先验）的位置编码被添加到解码器输入，以便模型利用签名的时间排序模型的最后一层是具有S形激活的线性层，其针对每个视频帧输出范围[0，1]中的T个高于阈值τ的该输出向量Spred的值对应于所查询的字幕文本的预测时间位置。文本特征。每个字幕都使用BERT [20]模型进行编码，该模型在大型文本语料库上进行了预训练，并进行了掩蔽语言建模任务，以产生一个768维向量序列，每个向量对应于句子中的每个标记。为了匹配编码器Transformer的输入维度，这些嵌入首先被线性投影到d模型。视频功能。视觉特征是从[53]的作者公开提供的I3D[14]符号分类模型中提取的1024维嵌入。在手语视频片段上预提取特征。长度为T的视觉特征序列被用作模型的输入。先前位置编码。除了视频特征之外，到解码器的输入还包括作为先前位置和持续时间线索的字幕定时估计。该先验估计被编码为长度为T的二进制向量，其中1指示相关联的视频帧在字幕的时间边界内，否则为0。视频和先前输入在作为输入被传递到解码器之前经由级联被融合。在串联两个输入2注意：没有自回归。3.2. 使用单个符号位置的单词预训练SAT是专为对准字幕视频签名- ING流。然而，可以在没有任何改变的情况下使用相同的架构来对齐较小的文本单元，例如，单个单词。考虑到我们可以从mouthings [3]和字典范例[39]中访问稀疏符号注释，我们可以使用这些来初始化模型权重，并通过可能更容易的单符号定位任务来整合这些知识。我们获得的稀疏字级注释的时间，并假设一个固定的单秒宽度作为精确的符号边界是不可用的。然后训练模型以在大小为T的视频窗口内发现单个标志出现。在我们的实验中，我们证明了这样的预训练策略的优势。3.3. 与DTW保持我们的模型不考虑来自视频长度的全局信息（例如，1小时）内，而是在短时间窗口T（例如，20秒）内寻找与给定字幕相关联的签名。因此，在针对不同字幕的预测之间可能存在重叠;我们使用DTW [ 41 ]重新解决这些重叠冲突。我们找到从视频帧序列的所有元素到字幕序列的所有元素的保序全局对齐，从而最大化每个字幕查询的成本函数中的我们的模型的S形输出的总和。当DTW将视频序列中的所有帧与字幕对齐时，我们选择可能与字幕查询相关联的签名视频的所有帧。具体地，我们选择与τdtw上的输出分数相关联的所有帧。在我们的模型针对特定字幕仅输出低于τdtw的值的情况下，我们替代地选择先前位置Sprior内的所有帧。我们通过其预测的时间位置的中点来对字幕进行排序这允许预测的字幕遵循与原始字幕不同的顺序，因为手语翻译中的短语的顺序不一定遵循书面英语字幕的短语的顺序（参见App.秒C了解更多详情）。我们构造维度为（i）帧的数量乘以（ii）字幕的数量的成本矩阵，并且具有1其中，Pij是对应于帧i的S形输出，其中字幕j作为编码器输入。我们应用11556\\音频音频DTW算法以此为代价矩阵将视频帧对齐这在DTW的排序和分配约束下最大化了模型如果没有另外提到，我们的完整SAT模型使用DTW后处理。4. 实验在本节中，我们首先给出实现细节（第4.1）并描述数据集和评价指标Sgt_startSaudio_start（一）Sgt_durS audio_dur（b）第（1）款在这项工作中使用（第二。4.2）。然后，我们将建议的SAT模型的结果与强基线进行比较（第二节）。4.3），并提出了一系列消融研究（第4.4）。接下来，我们展示了我们的模型在其他数据集上的性能4.5）。最后，我们提供了定性结果并讨论了局限性（Sec.4.6）。4.1. 实现细节图3：Sgt 与S音频：我们画出了速度的分布- 通过示出字幕（a）开始时间和（b）持续时间的差异，在BSL-1 K对准数据集的训练分割上的地面实况（S gt）和音频对准（S音频）字幕之间的真实移位。我们观察字幕对齐任务的难度：（i）在地面实况和音频对准的字幕定时之间没有固定的偏移，以及（ii）字幕持续时间在口语和手语之间变化。架构对于编码器和解码器，我们使用2个相同的Transformer层，具有2个头和尺寸d模型=各512。骨干预训练。 I3D模型经过预训练以使用mouthings [3]和字典范例[39]在符号定位实例中执行1064路分类（更多细节可以在[53]中找到）。然后冻结模型并用于在数据集的剪辑上以步幅1密集地预提取视觉特征。先前输入选择。作为先验估计输入S_prior，我们使用偏移+3.2秒的音频对准字幕S_audio的时间位置。这个值，我们去-#vids. #hours #subs #inst. Vocab.OOVBSL-1 K对齐 20列14.4 13.8K 128.1K8.6K测试4 3.32.0K18.6K2.8K 0.7KBSL语料库列车191 22.9 33.7K 261.5K 7.5KVal 15 1.52.6K18.1K1.8K 0.2K测试21 2.63.8K27.3K2.4K 0.4KBOBSL测试36 30.1 28.5K 248.9K 14.3K 8.9K表1：数据集：视频的数量、小时、字幕、单词实例、词汇大小和词汇表外（OOV）单词的数量。注：S+对应于平均时间偏移在我们的训练数据中的音频对准的字幕S_audio和地面实况字幕S_gt（见第3a段）。搜索窗口。在训练期间，我们在地面实况字幕Sgt的位置周围随机选择20秒的搜索窗口，选择针对该窗口的密集提取的视频特征，并且以因子4对它们进行时间子采样。所有视频以25FPS采样，因此这导致T=125帧。在测试期间，我们选择以移位的字幕位置S+为中心的相同长度的搜索窗口。。关于窗口尺寸的消融研究可参见应用程序。秒D.文本增强。在训练过程中，我们随机增加文本查询输入以减少过拟合。对于50%的样本，我们打乱了词序，并添加或删除了两个单词。超参数。我们将阈值τ设置为0。5，τ dtw为0。4.第一章更多详情见App。秒B.4.2. 数据和评价指标关于我们每个训练和评估数据集的视频数量，小时数，字幕和词汇的统计数据在Tab中提供1.一、我们简要介绍了每个数据集，并在App中提供了更多细节。秒A.频率11557BSL-1 Kaligned是BSL-1 K的子集[3]，涵盖24个不同的电视节目（食品，自然，旅游和生活方式纪录片）。字幕最初与音频对齐，但我们已手动将其与签名对齐。未对齐的字幕（即与音轨而不是正负号同步的那些）在开始时间和持续时间上都不同于正负号对准的字幕。特别是图图3示出了不存在可以一致地应用于将音频同步的字幕变换为它们的签名对齐的对应物的固定移位或时间缩放。我们注意到，除了图1中0处的突出峰之外，差异呈现近似高斯分布。3b;我们将其归因于这样一个事实，即如果字幕的持续时间大致正确，注释者倾向于不进一步细化边界。BSL语料库[47，48]是一个公共数据集，收集了来自英国几个地区的聋人签名者的视频，并附有各种语言注释。与BSL-1 K不同，该数据集中的字幕与手语对齐，翻译方向是从手语到英语。因此，我们模拟未对齐的数据，在我们的实验中，通过扰动字幕位置。11558联系我们音频音频音频音频音频BOBSL是一个类似于BSL-1 K的数据集，在样式和内容上保持一致对于BOBSL的测试集的子集，我们manu-方法帧访问F1@.10F1@.25F1@.50S音频44.67 45.82 30.51 12.57将原始音频对齐字幕与签名对齐。+音频60.76 71.69 60.74度量：（i）帧级准确度，以及（ii）F1分数。对于F1-分数，在三个时间上对字幕对准到手语视频的命中和未命中进行计数。重叠阈值（IoU0. 1，0。25，0。50），分别表示为F1@.10、F1@.25、F1@.50。4.3. 与基线的不含DTW的SAT 65.81 74.32 64.69 41.27沙特68.72 77.80 69.29 48.15表2：与基线的比较我们通过在几个基线上训练字幕对齐器Transformer（SAT）来显示显著的此外，提供随机字幕作为文本输入导致性能不佳，这表明我们的模型确实依赖于令牌嵌入，而不是简单地学习韵律线索来对齐字幕。我们获得了进一步的推动简单时间偏移基线（S+）. 作为第一基线+使用DTW校正我们预测的字幕的重叠我们使用移位的音频对齐的字幕S音频。只有三分之一的移位音频字幕S+与地面实况对准字幕具有超过50%的重叠（IoU）。韵律线索基线（Bull etal.[9]）。我们比较的最先进的字幕单元分割，这是一个基于2D身体关键点的模型。与我们的框架相比，该方法只使用视觉韵律线索，不使用查询字幕的语义信息。它已经在具有对齐字幕的大规模手语语料库上进行了训练，并且预训练模型是公开的。该模型由ST-GCN [57]和BiLSTM层组成，并将手语视频分割成字幕单元。然而，这是与对准不同的任务，即。片段与字幕没有对应关系。为了获得从每个预测片段到字幕的关联，我们使用DTW将移位的字幕S+对准到[9]的字幕单元分段，其中对准的成本是时间距离。基于稀疏符号定位的启发式基线。受先前通过稀疏对应关系接近对准任务的工作的启发[23]，我们实现了一种启发式方法，使用符号识别和主动签名者检测的组合来对准字幕。由[3，39]执行的符号定位，在每个音频同步字幕的时间附近进行搜索（搜索窗口为以从左到右的顺序局部地缩放字幕（对每个字幕应用单个缩放因子），使得它们最大地填充由第一阶段预测的活动签名段。我们注意到，在我们的测试集中只有15%的字幕可以确信地与标志定位相关联，因此仅依赖于标志定位预计不足以进行字幕对准。我们的模型与上述基线的比较见表1。二、简单的时间移位基线和基于稀疏符号定位的启发式基线执行类似，但是相对于未移位的字幕S音频是显著的改进。通过[9]的模型使用韵律线索导致这两个基线的轻微改善。我们的模型显着优于所有基线，利用字幕文本找到相关的视频片段。事实上，当在训练过程中提供随机字幕文本时，我们的模型被迫依赖于韵律线索，并且未能优于基线F1分数。使用DTW来解决预测字幕中的重叠，提高了我们的模型性能。4.4. 消融研究我们消除了输入先验估计通过将原始字幕填充四秒来构建S先验=S+到模型，修改文本输入在每一端），用于对应于出现在字幕中的单词的各个符号实例。从这些稀疏的标志定位，我们执行字幕对齐在四个阶段。首先，我们将情节分割成包含主动签名的序列，遵循[2]。其次，对于任何包含在签名中被发现的单词的字幕（由[39]的模型分配的后验概率为0.8或更大第三，我们通过仿射变换来变换没有斑点的所有子标题，使得它们落在包含斑点符号的那些子标题之间的到编码器，对符号定位进行预训练，以及改变模型公式。一些其他消融见应用程序。秒D.S先验知识。我们实验了几个版本的输入作为对齐任务的附加信息。选项卡. 3总结了结果。我们首先观察到当不提供S先验时30.66F1@.50），这表明对应音频内容的位置和持续时间允许近似的本地化提示，使得模型能够经由一系列注意力层来细化这一点。输入3.2秒偏移的细微定时（Sprior=S+）比输入的这种每间隙的变换最后，我们扩展硬脑膜-音频对齐的字幕定时（S先验=S音频）。不-S我们发布这些注释用于研究目的。更符号识别启发法61.7169.2359.6036.04详情见App。秒A.Bull等人[9]第一章62.1473.9364.2538.16评估指标。我们考虑两个主要的评估SAT（随机字幕）65.5270.3060.3640.0411559音频音频音频附加输入帧访问F1@.10F1@.25F1@.50w/out Saudio61.37 59.03 49.35 30.66带音频67.81 74.69 66.53 45.10预训练帧访问F1@.10F1@.25F1@.50w/o word pretraining 67.26 76.18 66.19 42.47带单词预训练68.72 77.80 69.29 48.15+音频3.2秒移位68.72 77.80 69.29 48.15带S音频中心位置61.40 58.07 51.13 35.01表5：用于标志定位的预训练：通过预先训练我们的+音频随机的持续时间68.61 75.10 66.84 46.72模型在给定的时间窗口内定位单个单词，我们提高了字幕对齐的性能。表3：输入S先验变量：没有关于字幕的大致位置和持续时间的信息，我们的模型失败改进我们的基本方法特别地，当将输入S设置为系统地位于搜索窗口的中心之前并且具有S音频的持续时间时，模型性能是扶贫当在搜索窗口中的正确位置使用S+时dow，但是随机地改变持续时间达2s，则性能相对较高。这表明，位置是一个比持续时间更强的线索方法帧访问F1@.10F1@.25 F1@.50表6：模型制剂：我们提出了一个消融，我们用DETR风格的Transformer 模型进行实验 [13] 。视频特征被输入到Transformer编码器，并且字幕查询被馈送到Transformer解码器。此外，在解码器端，我们输入开始和结束时间或移位和缩放不含增强装置- 相对于时间窗口移位的字幕S+的值，以及使用增强装置w/ aug. + positional enc.68.21 74.89 67.14w/aug. 句子嵌入66.18 72.99 63.71表4：文本消融：我们最好的模型使用没有位置编码的词嵌入以及训练过程中的文本增强（在50%的字幕中洗牌，添加和删除最多2个词）。然而，当平均字幕延迟未知并且使用音频对齐的字幕定时时，我们的模型仍然表现良好。此外，我们进行了两个额外的实验，调查是否这个线索是更重要的提供一个位置之前或持续时间之前。首先，我们总是输入相对于搜索窗口居中的字幕定时。该模型的性能不佳表明了该位置的重要性。其次，我们保留移位的位置，但在训练时间随机改变输入字幕持续时间，最多2s。这稍微降低了性能，因此我们推断，持续时间的线索是不太重要的模型比位置线索。文本输入到编码器的效果。我们对文本编码执行一系列消融，包括：没有文本增强，向BERT文本特征添加额外的位置编码（如应用程序中所述）。秒B.），并且仅使用句子嵌入（输出嵌入对应于BERT选项卡. 4显示了与这些文本消融一致的增加字幕文本可以提高性能，而添加额外的位置编码或使用句子嵌入会降低性能。标志定位预训练的效果。正如在第二节中所解释的。3.2中，我们最初在一个大的单词-视频训练对集合上预训练我们的模型以用于个体标志的时间定位。在选项卡中。5，我们测量了这种预训练的效果，并得出结论，它提供了一个很好的初始化使用回归模型来预测真实值。这个模型不能产生令人满意的结果。通过预测长度为T的二进制向量（如SAT模型）将回归模型改为分类模型，会导致小幅改善;然而，SAT以较大的幅度优于所有替代模型用于微调长字幕。模型制定。我们考虑Transformer模型的替代版本，其灵感来自[13]中的DETR模型，该模型将图像特征输入到 Transformer 编码器中，并将文本查询输入到Transformer解码器中。同样，我们输入的标志语言的视频功能到Transformer编码器。在解码器侧，我们输入字幕文本特征以及（i）开始和结束时间或（ii）移位字幕S+相对于时间窗口的移位和缩放然后，我们将字幕对齐的问题视为回归问题，并且旨在预测（i）开始和结束时间或（ii）字幕相对于时间窗口的移位和缩放。作为进一步的消融，我们还考虑相同的模型架构（具有字幕特征以及作为解码器输入的开始和结束时间），但是输出长度为T的固定二进制向量，我们利用二进制分类目标（如在SAT中）训练该二Tab中的结果6表明，我们提出的方法与视频特征作为输入到Transformer解码器，使能显著更好的学习，也许通过提供视频输入和逐帧输出之间的一对一映射。我们提出的模型4.5. 不同数据集我们在另外两个数据集上展示了我们模型的性能：[47]和BOBSL [1]。W/SW/S在先的输入损失帧访问F1@.10F1@.25F1@.50移位/标度移位/标度回归。59.2370.5559.0033.71开始/结束开始/结束回归。60.0472.2060.4134.33开始/结束二进制分类60.4874.0562.7535.07二进制二进制分类（SAT）68.7277.8069.2948.1511560音频音频音频音频字幕：“我要切半个柠檬。我IoU：0.91字幕：“他们也用了很多芝麻。IoU：0.00S+音频S+音频启发式Bull等人Bull等人2019 - 05 - 15 01：01：01SGTSPred三十SGT三十一点五十九分32点整32：0132时02分三十二点零三分35：46三十五分四十七秒三十五分四十八秒三十五分四十九秒三十五分五十秒35：51SPred三十35分53秒三十五分五十四秒35：55图4：定性结果：该图示出了具有移位的音频对齐字幕的9秒的短时间窗口（S+1）。）、启发式和Bull等[9]基线，地面实况签名对齐字幕（Sgt）和我们预测的签名对齐字幕（Spred）。请注意，在实践中，我们在训练和测试期间输入20秒的视频作为我们的搜索窗口。我们在这里描绘了更短的右图显示了一个失败案例。随机的扰乱方法帧-acc F1@.10 F1@.25 F1@.50（σpos，σdur）方法框架-accc F1@.10 F1@.25 F1@.50(3.5s，1.5s）兰德。移位标度63.24 37.13 26.54 12.47S音频23.93 32.94 20.23 7.39SAT无预训练。73.73 51.5143.33SAT预训练。75.77 55.55 47.4532.57+音频50.05 65.48 54.80 33.71SAT w/word pretrain。76.29 57.65 50.35 34.54(4.5s，1.5s）随机的移位标度SAT预训练。60.1873.6929.5248.4120.6141.3410.0028.06SAT w/word pretrain。74.2951.3344.3730.13(3.5s，2s）随机。移位标度62.62 37.47 26.82 11.87SAT预训练。75.79 55.31 47.24 32.89SAT w/word pretrain。76.00 57.86 50.43 33.79表7：BSL语料库：我们随机移位和缩放BSL语料库中正确对齐的字幕以模拟未对齐的数据，然后使用我们的SAT模型来恢复原始的正确对齐。BSL语料库这个数据集中的字幕与手语对齐，因此我们随机移动和缩放字幕，以便创建人工训练数据。然后，我们训练我们的SAT模型来学习BSL语料库中字幕与视频的正确对齐我们训练模型（i）没有任何预训练，（ii）只有单词预训练（在BSL上）。沙特55.62 70.95 61.55 41.46表8：BOBSL数据集：我们在该测试集上证明了SAT模型的强大性能在App中进一步定性分析。秒C.4.6. 定性分析图4示出了BSL-1 K对齐的几个测试示例。时间轴示出了地面实况对齐（Sgt）、我们的预测（Spred）以及S+基线，以及视频帧的样本和查询字幕文本。虽然偏移的基线S+提供了近似位置，但它在很大程度上是未对准的。我们的模型effec- tively学习参加视觉和文本线索。一1 K）和（iii）在BSL-1 K上进行SAT预训练，结果见表1。7 .第一次会议。对齐。我们典型的失效模式发生在前一位置en-编码是显着远离地面真相（见图）。4右）。有关BSL语料库在每个副标题处，我们应用随机移位，跟随具有标准偏差σpos的正态分布，并且字幕的持续时间的随机变化也遵循具有标准偏差σdur的正态分布。选项卡.7表明我们的模型能够部分恢复正确的原始对齐。较大的偏移使我们的模型更难以恢复正确的原始对齐，但字幕持续时间的随机变化似乎影响较小。这与Tab中的结果一致。3，其中改变S+的持续时间不会极大地影响结果。BSL-1 K上的单词预训练对模型有帮助，但BSL-1 K上的SAT预训练对模型没有帮助。单词预训练可以帮助SAT模型识别BSL中的某些符号，但是BSL语料库和BSL-1 K对齐的子条目之间的域差异可以解释为什么BSL-1 K对齐的SAT预训练不会导致BSL语料库上的任何显著增益。鲍勃BOBSL测试集允许我们在比BSL-1 K对齐测试集更大、更多样化的视频集上评估我们的模型。我们在Tab中报告结果8和显示和BOBSL，我们指的是App。秒C.5. 结论我们提出了一种基于Transformer的方法来将字幕与解释数据中的手语视频内容同步。我们表明，字幕内容的知识是必不可少的，有效地调整字幕签署。我们希望，我们的工作将是一个垫脚石，以获得视频字幕对，允许无约束的机器翻译系统的训练手语。此外，我们的方法是潜在的适用于其他领域，如时间接地的句子。我们指的是App。秒E讨论对社区的更广泛影响。鸣谢。这项工作得到了EPSRC赠款ExTol和皇家学会研究教授的支持。我们感谢Tom Monnier、HimelChowdhury、Abhishek Dutta、Ashish Thandavan、Annelies Braffort、Mich e`leGoui ff` s和IgorGar buz的帮助。S11561引用[1] BBC牛津英国签署语言数据集https：//www.robots.ox.ac.uk/~vgg/data/bobsl/，2021年。七个[2] SamuelAlbanie、Gu¨lVarol、LilianeMomeni、Triantafyl-losAfouras 、 Andrew Brown 、 Chuhan Zhang 、 ErnestoCoto、NecatiCihanCamg¨z、BenSaunders、AbhishekDutta、NeilFox、Richard Bowden、Bencie Woll和Andrew Zisserman。在野外签名日记。技术报告，2021年。二、六[3] SamuelAlbanie、Gu¨lVarol、LilianeMomeni、TriantafyllosAfouras 、 Joon Son Chung 、 Neil Fox 和Andrew Zisserman。BSL-1 K：使用口型提示扩展共同表达的手语识别。 Proc. ECCV，2020。二、四、五、六[4] P. Bojano wski，Re' mi Lajugie，E.Grav e，Francis R.巴赫岛Laptev、J. Ponce和C.施密特视频与文本的弱监督对齐。在ICCV，2015年。三个[5] M. Borg和K.P. 卡米莱里手语检测野生”与循环神经网络。ICASSP，2019年。二个[6] Danielle Bragg，Oscar Koller，等.手语识别、生成和翻译：一个跨学科的视角。在ACM SIGACCESS，2019年。二个[7] Patrick Buehler Mark Everingham和Andrew Zisser伙计通过看电视学习手语（使用弱对齐的字幕）。在Proc.CVPR，2009中。二个[8] Patrick Buehler，Mark Everingham，and AndrewZisserman.采用签署的电视广播自动学习英国手语。2010年，在手语的表示和处理研讨会上。二个[9] HannahBull ， Mich e`leGoui ffe` s ，和 AnneliesBra f fort.Au-手语自动分割成字幕单元。在ECCVW，手语识别，翻译和生产（SLRTP），2020年。二、六、八[10] Necati Cihan Camgoz、Simon Hadfield、Oscar Koller和理查德·鲍登SubUNets：端到端手形和连续手语识别。InICCV，2017. 三个[11] Nec

下载后可阅读完整内容，剩余1页未读，立即下载