手语视频检索中的自由形式文本查询

199 浏览量更新于2023-10-25 收藏 14.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

……140940使用自由形式文本查询进行手语视频检索0Amanda Duarte 1 , 2 Samuel Albanie 3 Xavier Gir´o-i-Nieto 1 , 4 G¨ul Varol 501 Universitat Polit`ecnica de Catalunya, Spain 2 Barcelona Supercomputing Center,Spain 3 Department of Engineering, University of Cambridge, UK 4 Institut deRob`otica i Inform`atica Industrial, CSIC-UPC, Spain 5 LIGM, ´Ecole des Ponts, UnivGustave Eiffel, CNRS, France0https://imatge-upc.github.io/sl_retrieval/0摘要0高效搜索手语视频集合的系统已被视为手语技术的有用应用。然而，在文献中，超越单个关键词搜索视频的问题受到了有限的关注。为了填补这一空白，我们在这项工作中引入了使用自由形式文本查询进行手语检索的任务：给定一个书面查询（例如一个句子）和一个大规模的手语视频集合，目标是找到最符合书面查询的手语视频。我们提出通过在最近引入的大规模How2Sign美国手语（ASL）数据集上学习跨模态嵌入来解决这个任务。我们确定系统性能的一个关键瓶颈是手语视频嵌入的质量，这受到标记训练数据的稀缺性的影响。因此，我们提出了S POT -ALIGN框架，用于交错进行手语定位和特征对齐的迭代轮次，以扩大可用训练数据的范围和规模。我们通过改进手语识别和提出的视频检索任务来验证S POT -ALIGN学习强大的手语视频嵌入的有效性。01. 引言0手语是聋人社区之间的主要交流方式。它们是视觉上复杂的演化语言，使用手、脸部和身体的运动等手势和非手势标记来传达信息[56]。最近在口语语言的自动语音识别（ASR）方面的发展[14,15,65,70]已经实现了大量视频内容的自动字幕。01术语“自然语言查询”通常用于描述口语语言中的无约束文本查询。然而，由于手语也是一种自然语言，我们改用“自由形式文本查询”这个术语。0手语视频数据库0在训练过程中看到的视频字幕对0如何梳理猫0文本查询0联合嵌入空间0我将教你如何...0跨模态0检索0视频表示0文本表示0文本编码器0视频编码器0手语视频0书面翻译0图1.基于文本的手语视频检索：在这项工作中，我们引入了使用自由形式文本查询进行手语视频检索的任务，即搜索手语视频集合以找到与自由形式文本查询最匹配的视频，超越了单个关键词搜索。0在YouTube等平台上，字幕可以使视频更易于理解，此外，字幕还有一个重要的好处：它可以使视频的内容被索引并通过文本查询进行高效搜索。相比之下，对于手语内容，同样的自动字幕功能（以及可搜索性）并不存在。事实上，最近的研究已经引起了人们对开发能够索引手语视频存档以使其可搜索的系统的迫切需求的关注[6]。如果没有这些工具，手语视频创作者必须输入其内容的口语翻译，以便达到与口语视频相同的可发现性。0一种解决方案可能是使用手语翻译系统执行视频字幕生成，类似于口语内容检索中的ASR级联[34]。不幸的是，尽管在受限制的话语领域（如天气预报）中展示了有希望的翻译结果，但这些系统无法在多个话语领域中实现功能性能，这是开放词汇视频索引所需的。140950天气预报）[9, 10,37]，广泛观察到这些系统无法在多个话语领域[6, 29,62]中实现功能性能，这是开放词汇视频索引所需的。一种替代方案是使用现有的“标志点”方法来执行关键字搜索。然而，这种方法基本上是脆弱的——当用户确切地知道视频中使用了哪些感兴趣的标志时，它们才能发挥最佳作用。此外，使用最近的标志点技术[1, 26,46]构建这些标志的准确索引需要一个适当的查询候选列表，迄今为止，这些列表通常是从与翻译的语音转录对应的字幕中获得的，例如来自ASR引擎。我们专注于由手语使用者制作和为手语使用者制作的手语视频，这些视频可能不包含任何语音轨道，因此无法生成这样的语音转录。在这项工作中，我们通过学习文本和视频之间的联合嵌入空间来解决使用自由形式文本查询的手语视频检索任务，如图1所示。跨模态嵌入仅针对实现搜索所需的任务（即对有限数量的手语视频进行排序），而不是更复杂的手语翻译任务。正如我们通过实验证明的那样，这使得它们在多个主题上的实际应用成为可能。此外，跨模态嵌入使得搜索变得非常高效（借助于成熟的嵌入空间的近似最近邻算法，可以扩展到数十亿个视频的集合[27]）。手语视频检索任务由于以下几个原因而极具挑战性：（1）手语和口语之间的翻译映射非常复杂[57]，具有不同的模态和语法结构（例如，手语和口语之间的顺序通常不保留）；（2）与用于训练文本-视频检索模型的数据集（数百万个具有相应句子的视频示例[5,41]）相比，手语数据集的规模要小得多；（3）除了缺乏配对数据之外，用于学习稳健手语嵌入的注释数据也极为稀缺（例如，与动作识别的对应数据集相比，手语识别数据集也要小得多[11,25]）。在这项工作中，我们提议在最近发布的How2Sign美国手语（ASL）数据集[20]上研究手语视频检索任务。据我们所知，该数据集是具有对齐字幕的最大公开手语视频资源。为了解决上述第一和第二个挑战，我们构建了跨模态嵌入，利用预训练的语言模型来减少学习手语序列和句子之间映射所需的数据负担。为了解决第三个注释稀缺挑战，我们提出了自动注释框架S POT -ALIGN，并展示了它在生成更稳健的手语嵌入方面的有效性；（4）我们为How2Sign基准测试贡献了一个新的手动注释测试集。0集成多个标志点方法，自动注释How2Sign数据集的重要部分。通过在生成的注释上进行训练，我们获得了更稳健的手语嵌入，用于下游检索任务。总之，我们的贡献如下：（1）我们引入了使用自由形式文本查询的手语视频检索任务；（2）我们为这个任务提供了几个基准，展示了跨模态嵌入的价值，并展示了在How2Sign和PHOENIX2014T数据集上结合额外的检索线索（基于手语识别方法的预测，为基于文本的相似性搜索提供基础）的好处；（3）我们提出了自动注释框架S POT -ALIGN，并展示了它在生成更稳健的手语嵌入方面的有效性；（4）我们为How2Sign基准测试贡献了一个新的手动注释测试集。02. 相关工作0我们的工作主要与现有的文本-视频嵌入用于视频检索、手语视频检索和使用辅助线索自动注释手语视频的研究相关，下面进行讨论。文本-视频嵌入用于视频检索。最近，通过跨模态嵌入实现文本查询的视频内容搜索引起了广泛的研究兴趣。继具有示例性的DeViSE模型[23]展示了该方法在图像和文本中的强大性能后，已经探索了大量的文本-视频嵌入[5, 17, 19, 24, 39, 40, 43, 44, 48, 64,67]。与这些针对可描述事件的工作不同，我们的工作侧重于检索与以文本形式表达的口语查询相匹配的手语内容。正如在第1节中指出的，这种区别带来的一个关键挑战是相对缺乏用于学习强大的手语视频嵌入的训练数据。在本文中，我们提出了SPOT-ALIGN（在第3节中介绍）来明确解决这个挑战。手语视频检索。手语视频检索的任务主要在受限的领域和小规模数据集下进行研究。在这个任务中，用户的查询由感兴趣手语的示例组成，类似于大多数基于关键词的搜索引擎处理文本数据库的方式。对于手语视频检索，已经研究了两个特定的变体：搜索独立手语词典的视觉词典和搜索连续手语数据集，下面进行讨论。手语词典是包含适用于学习者的单个手势录制的视频存储库。为了搜索这样的视频，Athitsos等人[4]将手部运动线索与动态时间规整（DTW）相结合，实现了一个包含3k个手势和921个查询的美国手语（ASL）词典的独立于签名者的搜索。对于连续手语数据集，目标是检索...i̸j[ηij − ηii + m]+ + [ηji − ηii + m]+(1)140960在目标视频中检测示例查询标记的所有出现。为此，已经提出了不同的技术，包括使用CRFs的手部特征[66]，使用序列匹配的手部运动[69]，使用手部和头部质心[35]，将逐帧几何特征与HMMs相结合[68]，以及非面部皮肤分布匹配[63]。作为查询示例的替代方法，许多研究探讨了使用学习分类器进行标记识别。Ong等人[47]使用基于顺序区间模式的HSP-Trees解决了这个问题。后续工作将人体姿势估计与时间注意机制相结合，以检测（但不定位）一组手语序列中的手势[60]。该工作后来扩展到搜索单个单词[58]，并进一步扩展以额外包含手形特征，提高性能[59]。最近，Jiang等人[26]展示了变压器架构在手势识别任务中的有效性，在BSL-CORPUS[53]和Phoenix2014[31]数据集上取得了有希望的结果。然而，据我们所知，以往的手语检索文献没有考虑到我们在本文中提出的任务，即使用自由文本查询检索手语视频。辅助线索下的手语自动注释。广播数据中配有手语口译员的音频对齐字幕的丰富性激发了大量工作，这些工作试图使用它们作为辅助线索来注释手语。Cooper和Bowden[16]提出使用先验挖掘来建立新闻广播中字幕和手语之间的对应关系。其他方法研究了使用多实例学习[7, 28,49]。最近的其他贡献利用音频对齐字幕中的单词，结合基于口型线索的关键词检测方法[1]、字典[46]和变压器生成的注意力图[62]来注释大量手势，以及通过联合训练学习改进手势识别的领域不变特征[38]。与这些工作类似，我们也旨在通过使用音频对齐字幕来自动注释手语视频。为此，我们使用先前的关键词检测方法[1,46]。然而，与上述所有其他方法不同，我们提出了一种迭代方法SPOT-ALIGN，它在重复的手势检测（以获得更多注释）和与字典示例一起的联合训练之间交替进行，以获得更好的用于检测的特征。我们注意到，迭代标注框架在稠密序列重新对齐方法的背景下以前取得了成功[30, 32,50]（不同的是，我们针对的是稀疏注释问题）。我们展示了我们的方法显著增加了自动注释的产出，并通过使用这些额外的注释来证明它们对下游任务的价值。03.手语检索0在本节中，我们首先对自由形式文本查询的手语视频检索任务进行了定义（第3.1节）。接下来，我们描述了本文中考虑的跨模态（CM）学习公式（第3.2节），然后介绍了我们的S POT -ALIGN框架用于注释增强（第3.3节）。最后，我们通过我们的手势识别（SR）模型介绍了基于文本的检索（第3.4节）。附录B中提供了更多的实现细节。03.1.检索任务定义0设 V 表示感兴趣的手语视频数据集，t表示自由形式的文本用户查询。手语视频检索与文本查询任务的目标是找到最匹配查询 t 的手势视频 v ∈V。我们使用文本到手势视频（T2V）来表示这个任务。类似于现有的跨模态检索文献[18,40]中考虑的对称形式，我们还考虑了反向的手势视频到文本（V2T）任务，其中使用手势视频 v 查询一组文本 T。03.2.跨模态检索嵌入0为了解决上述定义的检索任务，我们假设可以访问一组平行的手势视频和相应的书面翻译。我们的目标是学习一对编码器 ϕ V 和 ϕ T，将每个手势视频 v 和文本 t映射到一个共同的实值嵌入空间 ϕ V ( v )，ϕ T ( t ) ∈ RC，使得当且仅当 t 对应于 v 中的手势内容时，ϕ V ( v ) 和ϕ T ( t ) 接近。这里 C表示共同嵌入空间的维度。为了学习编码器，我们采用了Socher等人提出的跨模态排序学习目标[54]。具体来说，给定配对样本{(v n , t n )} N n=1，我们优化一个最大间隔排序损失：0L = 10B0B �0其中 m 表示边界超参数，[∙]+表示铰链函数max(∙,0)，B表示训练期间采样的小批量大小，η ij 表示手势视频 vi 和文本 t j之间的余弦相似度。一旦学习到嵌入，可以直接应用于 T2V和 V2T 任务。对于前者，推断仅涉及计算文本查询 t与每个索引的手势视频 v ∈ V之间的余弦相似度，以产生一个排名（对于 V2T任务也是如此）。编码器架构。手势视频编码器 ϕ V首先由一个初始手势视频嵌入 ψ v组成，我们将其实例化为一个16帧的I3D神经网络[12]（受到其在手势识别中的有效性的启发）。…Would you need to improve your computer skills?ψv ϕv휙T ψ vAB/HicbVBNS8NAEN34WetXtEcvwSJ4sSRV0GPVi8eK9gPaUDbTbt0sxt2J2I9a948aCIV3+IN/+N2zYHbX0w8Hhvhpl5QcyZBtf9tpaWV1bX1gsbxc2t7Z1de2+/qWiCG0QyaVqB1hTzgRtANO27GiOAo4bQWj64nfeqBKMynuIY2pH+GBYCEjGIzUs0tdoI+gSXYXSzi5Gwgxj27FbcKZxF4uWkjHLUe/ZXty9JElEBhGOtO54bg59hBYxwOi52E01jTEZ4QDuGChxR7WfT48fOkVH6TiVKQHOVP09keFI6zQKTGeEYajnvYn4n9dJILzwMybiBKgs0Vhwh2QziQJp8UJcBTQzBRzNzqkCFWmIDJq2hC8OZfXiTNasU7rVRvz8q1qzyOAjpAh+gYegc1dANqMGIihFz+gVvVlP1ov1bn3MWpesfKaE/sD6/AEsE5Ua140970手势0识别0字幕（ t ）0手势视频（ v ）0视频文本对0手势视频嵌入0语言0模型0文本0编码器0视频编码器0滑动窗口0汇聚0跨模态检索0嵌入相似度0单个手势0自动注释0词典示例0与 D i-1一起训练0词典示例0与手势一起训练0识别0计算机0文本0相似度阈值0基于文本的检索0D L M0D i M0使用视频-文本对进行训练0(b) 手语视频检索 (a) 注释的迭代增强0Spot-Align0图2. 方法概述：(a) 我们提出了S POT -ALIGN框架，用于迭代地增加注释产量，以获得良好的手语视频嵌入。在每次迭代i中，当前的手语视频嵌入ψ'v与来自第i-1次迭代的How2Sign注释和WLASL [36]和MSASL[61]数据集的词典示例一起进行分类训练。然后，使用改进的嵌入来通过重新查询How2Sign视频与词典示例获得一组新的手语定位。我们的最终手语视频嵌入ψv通过与最后一次字典手语定位DL（不进行词典示例之间的联合训练）一起训练的口型定位（M）来获得。我们在附录B.1中详细介绍了这个流程的草图。(b)为了进行跨模态检索，我们使用ψv和语言模型来生成视频和文本的嵌入。这些嵌入分别传递给视频编码器和文本编码器，它们被训练成将它们投影到一个联合空间中，只有当文本与视频匹配时它们才会接近。由ψv产生的嵌入还传递给手语识别模型，为基于文本的相似性搜索提供基础。0任务[1, 36,61]）。ψv的输出在时间上被聚合为一个固定大小的向量，然后投影到C维的跨模态嵌入空间ϕV(v)∈RC。为了实现ϕT，首先将每个文本样本t通过在大规模书面文本语料库上预训练的语言模型进行嵌入。然后，通过NetVLAD[3]将得到的单词嵌入序列组合起来，并通过GatedEmbedding Unit[40]的公式进行投影，以产生一个固定大小的向量ϕT(t)∈RC。在这项工作中，我们特别关注初始的手语视频嵌入ψs，正如我们在第4节的实验中所展示的，它对性能有着关键的影响。在第4节中，我们还进行了实验，评估了ϕV的时间聚合机制和ϕT所采用的语言模型的合适候选者。03.3. 视频嵌入的迭代增强0如上所述，我们的任务需要一个有效的跨模态嵌入来获得良好的手语视频嵌入。获得这样的嵌入的一个关键挑战是相对缺乏用于训练的手语注释数据。例如，据我们所知，目前没有大规模的公开数据集提供连续的手语视频和相应的ASL手语注释。为了解决这个挑战，我们提出了S POT -ALIGN框架（图2a），用于在How2Sign数据集上获得大量的自动手语注释。该数据集提供了与书面英文翻译相对应的视频，但目前缺乏手语注释。总之，我们首先使用[1]中提出的基于口型的手语定位方法，识别与How2Sign翻译中出现的单词相对应的手语位置。这种方法依赖于观察到手语有时除了头部动作和手势外还使用口型的现象，使用[55]中提出的关键词定位架构和Momeni等人提出的改进的P2G音素到字形关键词编码器[45]。我们从初始候选词列表中搜索12K个单词的关键词，该列表是通过对How2Sign翻译中出现的单词进行文本归一化[22]（以确保将数字和日期转换为书面形式，例如“7”变为“seven”）并过滤以保留至少包含四个音素的单词而得到的。每当关键词定位模型以大于0.5（满分为1）的置信度定位到一个口型时，我们记录一个注释。通过这种方法，我们从一个包含5K个单词的词汇表中获得了约37K个训练注释。我们将这些单词过滤为出现在WLASL [36]或MSASL[61]词汇数据集中的单词。得到的9K个训练注释涵盖了一个由1079个单词组成的词汇表，这是我们训练手语识别模型的初始词汇表。0我们通过重新训练手语视频嵌入并重新查询字典示例，迭代地增加基于字典的注释数量，以补充这些稀疏的注释。接下来，我们将描述每个步骤。0基于口型的手语定位[1]。首先，我们使用[1]中的基于口型的手语定位框架，识别与How2Sign翻译中出现的单词相对应的手语位置。这种方法依赖于观察到手语有时除了头部动作和手势外还使用口型的现象，使用[55]中提出的关键词定位架构和Momeni等人提出的改进的P2G音素到字形关键词编码器[45]。我们从初始候选词列表中搜索12K个单词的关键词，该列表是通过对How2Sign翻译中出现的单词进行文本归一化[22]（以确保将数字和日期转换为书面形式，例如“7”变为“seven”）并过滤以保留至少包含四个音素的单词而得到的。每当关键词定位模型以大于0.5（满分为1）的置信度定位到一个口型时，我们记录一个注释。通过这种方法，我们从一个包含5K个单词的词汇表中获得了约37K个训练注释。我们将这些单词过滤为出现在WLASL[36]或MSASL[61]词汇数据集中的单词。得到的9K个训练注释涵盖了一个由1079个单词组成的词汇表，这是我们训练手语识别模型的初始词汇表。0基于词典的手势检测[46]。接下来，我们采用类似于[46]的基于示例的手势检测方法。该方法考虑每个手势的少量视频示例。D1D2D3MTime140980这些示例用作视觉查询，与连续测试视频进行比较。当相似度达到最大值时，将查询手势的位置记录为自动注释。这种查询和测试视频之间的相似度度量需要一个联合空间。在[46]中，提出了一种复杂的两阶段对比训练策略。在本工作中，我们选择了一种更简单的机制，即在查询视频集合（通常来自词典等孤立领域）和我们的搜索领域（即基于口型检测的How2Sign稀疏注释的前一步骤获得的手势注释视频）上联合训练手势识别模型，该模型具有I3D骨干，表示为 ψ ′ v。然后使用这个分类模型的潜在特征（现在在两个领域之间近似对齐）来计算余弦相似度。与口型方法类似，我们根据字幕为每个视频选择候选查询词。然而，在使用词典检测时，我们同时寻找单词的原始形式和词形还原形式（去除屈折变化），因为我们使用的手语词典通常只包含每个单词的一个版本（例如，‘run’而不是‘running’）。作为构建查询的手势示例的来源，我们利用了WLASL [36]和MSASL[61]的训练集，这是两个孤立ASL手势的数据集，分别具有2K和1K个词汇量。对于联合训练，我们从它们的训练子集中选择在我们之前的口型注释中的1079个手势词汇中出现的样本。然而，我们使用完整的训练集进行查询，使我们能够自动注释初始1079个手势之外的手势。我们记录所有最大相似度（对于每个手势的所有示例）大于0.75（满分1）的注释，从而得到来自扩展词汇表的59K个训练注释。我们从[62]的预训练BSL识别模型初始化I3D分类。通过S POT -ALIGN进行迭代增强。从前两种方法中，我们获得了一组初始的自动注释。然而，基于词典的检测方法的产出受到How2Sign视频和用于获取示例的数据集之间的领域差距的严重限制。因此，自然而然地问是否可以通过在词典示例和How2Sign领域之间实现更好的特征对齐来提高基于词典的检测的产出。为此，我们引入了一个重新训练和重新查询的框架，称为S POT -ALIGN，下面将对其进行描述。在第i次迭代中，我们使用通过WLASL-MSASL词典和第i-1次迭代提供的How2Sign自动注释之间的联合训练获得的I3D潜在特征。尽管使用相同的示例和相同的字幕构建查询，但我们观察到产出量显著增加（例如，在D 1 中有59K个注释，而在D 2中有160K个注释）。关键的区别在于我们比较示例和测试视频的更好对齐的嵌入。在图3中，我们说明了在连续时间线上的样本视频的稀疏注释，观察到注释的密度随着S POT-A LIGN的迭代显著增加。我们用D i表示应用第i次迭代后的自动训练注释集。图2a显示了这个过程的概述。根据这个过程的最后一次迭代的注释，我们训练一个新的手势识别模型（仅在连续数据集How2Sign上训练），从中获得我们的最终视频手势嵌入 ψ v，使用1887个手势的分类层之前的（1024维）潜在表示。如图2b所示，这个嵌入支撑了我们的跨模态嵌入的手势视频编码器 ϕ V，并且还用于对单个手势进行分类以实现基于文本的检索，下面将对此进行描述。0图3. 自动注释的迭代增强:我们在固定持续时间为50秒的每个视频片段（x轴）上，通过S POT-A LIGN框架的不同迭代生成稀疏注释（行）进行说明。0在我们比较示例和测试视频时，我们使用更好对齐的嵌入。在图3中，我们说明了在连续时间线上的样本视频的稀疏注释，观察到注释的密度随着S POT -ALIGN的迭代显著增加。我们用D i表示应用第i次迭代后的自动训练注释集。图2a显示了这个过程的概述。根据这个过程的最后一次迭代的注释，我们训练一个新的手势识别模型（仅在连续数据集How2Sign上训练），从中获得我们的最终视频手势嵌入 ψ v，使用1887个手势的分类层之前的（1024维）潜在表示。如图2b所示，这个嵌入支撑了我们的跨模态嵌入的手势视频编码器 ϕ V，并且还用于对单个手势进行分类以实现基于文本的检索，下面将对此进行描述。03.4. 基于文本的手势识别检索0用于训练手势视频嵌入ψv的个体手势识别模型可以自然地用于从v的长手势视频上以滑动窗口的方式获取一系列手势。尽管由于缺乏连续注释而导致缺乏时间建模，这个模型的性能预计不会很高，但预测的手势类别输出列表给出了一组候选词，可以用来检查与查询文本的重叠。这类似于用于口语内容检索的级联ASR[34]，只是手势识别比语音识别困难得多（部分原因是缺乏训练数据[6]）。由于手势的顺序不一定遵循翻译文本中的词序，我们只需计算交并比（IoU）来衡量查询文本和识别到的手势之间的相似性。在计算IoU之前，我们对查询词和预测词进行词形还原。我们通过删除重复项和删除概率低于某个阈值（在我们的实验中为0.5）的分类来限制识别到的手势集合。在第4节中，我们展示了这种基于文本的检索方法虽然比跨模态检索方法表现差，但是它是互补的，并且可以显著提高整体性能。实现细节在附录B中描述。1.00.14.40.46.90.6296.812.5BOBSL [2]-----17.20.6 32.50.7 39.51.330.52.2M10790.62.34.41174.5 16.41.2 31.10.8 38.20.832.73.1M+D1107910.221.226.5136.320.61.1 36.70.6 43.30.922.02.6M+D2107915.629.033.992.021.80.4 38.00.6 44.60.818.22.0M+D3107916.729.133.395.321.91.2 38.20.7 44.80.518.70.6M+D1188714.126.131.488.020.40.6 36.40.3 43.50.720.01.0M+D2188718.331.335.869.823.70.5 40.80.1 47.10.2 14.70.6M+D3188718.432.236.668.024.50.2 40.71.1 46.70.715.71.51409904. 实验0我们首先介绍在我们的实验中使用的数据集、注释和评估协议（第4.1节）。接下来，我们在How2Sign数据集上提供检索结果，并进行消融研究以评估我们方法的不同组成部分的影响（第4.2节）。然后，我们在PHOENIX2014T数据集上建立基线检索性能（第4.3节）。最后，我们讨论限制条件以及定性分析和社会影响（第4.4节）。04.1. 数据、注释和评估协议0数据集。在这项工作中，我们主要关注最近发布的How2Sign数据集[20]，这是一个多模态的开放词汇和字幕数据集，包含约80小时的连续手语视频，用于美国手语翻译教学视频。录制的视频涵盖了各种各样的主题。我们使用这些视频及其时间对齐的字幕来训练和评估检索模型，将字幕作为文本查询。训练集、验证集和测试集分别包含31075、1739和2348个视频-字幕对。请注意，我们从原始拆分中删除了一小部分视频，其中检测到字幕对齐超出视频持续时间（更多细节可以在附录C中找到）。我们使用验证集来调整参数（即训练时期），并在测试集上报告所有结果。我们还评估我们的手语检索方法，以在PHOENIX2014T数据集上提供基线（尽管这不是我们的主要关注点，因为其领域限制）。PHOENIX2014T包含描述天气预报的德国手语（DGS）视频。该数据集包含7096、519和642个训练、验证和测试视频-文本对。该基准主要用于手语翻译，由于德语词汇量限制在3K个词以内，可以获得有希望的结果。在这里，我们重新利用它进行检索，使用我们的跨模态嵌入方法和基于文本的手语翻译检索提供基线[10]。注释。对于手势识别，我们使用SPOT-ALIGN框架生成的自动稀疏注释进行训练。通过多次手势定位的摘要统计结果如图4（左）所示，我们观察到连续迭代中产量显著增加。为了评估手势识别性能，我们构建了一个经过手动验证的测试集。我们使用熟练掌握ASL的注释者使用VIA注释工具[21]提供手势定位候选项，从而得到一个包含2,212个个体手势视频-类别对的识别测试集，可在我们的项目页面上获得。评估指标。为了评估检索性能，我们遵循现有的检索文献[24, 39,40]，报告标准指标R@K（排名为K的召回率，越高越好）和MedR（中位数排名，越低越好）。对于手势识别0图4.逐步增加手语注释：从一小组口型注释开始，我们通过多次使用字典进行手语定位，通过在先前的自动注释集上重新训练我们的I3D骨干来应用手语定位。左图展示了注释数量的显著增加，分别针对受限制的（1079）和完整的（1887）类别集。右图报告了手动验证的测试集上的单个手语识别（1079路分类）结果。0表1.手语视频嵌入的影响：通过口型（M）和基于字典（D）的定位的迭代增加手语注释，改善了手语识别和跨模态嵌入的检索任务的性能。最后七行的嵌入是通过How2Sign训练获得的，预训练于BOBSL（第二行），而BOBSL本身是在Kinetics（第一行）上预训练的。0手语识别跨模态嵌入手语视频嵌入词汇 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓ R@1 ↑ R@5 ↑R@10 ↑ MedR ↓0对于重新训练 ψ v所需的时间更长的手语识别基准，我们报告了单个模型的结果。对于交叉模态嵌入消融（其中手语视频嵌入 ψ v被冻结，只有文本编码器 ϕ T 和视频编码器 ϕ V被训练），我们报告了三次随机种子运行的均值和标准差。04.2. How2Sign上的检索结果0在本节中，我们进行了消融研究，包括：（i）不同的手语视频嵌入，（ii）视频嵌入聚合机制，以及（iii）文本嵌入。我们进一步研究了（iv）基于手语识别的文本检索的概率阈值超参数的重要性。我们还通过使用由[20]提供的原始语音对齐时间来实验，突出了（v）拥有与手语对齐的字幕数据的重要性。最后，我们通过手语识别演示了（vi）将我们的交叉模态嵌入相似性与基于文本的相似性相结合的优势。（i）比较手语视频嵌入。我们的主要研究"I hope you're having fun."(GT rank: 3)Similarity 0.28Similarity 0.27“Cheers!”“So just be relaxed and have, just do whatever you need to do to make your guest have a good time.”"OK, we're going to make some lidded jars today and first thing you want to start off with obviously is your clay."(GT rank: 1)Similarity 0.36Similarity 0.34“It's first off books I bought a quite of few books I've gotten toy books...”"OK, we're going to make some lidded jars today and first thing..."15.40.430.50.437.60.430.21.3GPT-2-xl [52]17.00.332.50.439.60.425.71.2Albert-XL [33]19.70.336.70.343.80.419.20.8W2V [42]24.20.440.00.446.70.214.80.3GrOVLE [8]24.50.240.71.146.70.715.71.5141000文本查询手语视频检索0图5.文本到手语检索的定性结果：对于每个查询，我们展示排名前两个视频的帧以及它们对应的句子（这些句子在检索过程中不使用，仅用于可视化目的）。顶部一行展示了一个成功的案例。底部一行展示了一个失败的案例，检索模型在一个较少详细的查询上遇到困难。更多示例可以在附录A中看到。0在表1中总结了手语检索的结果。在这里，我们评估了我们的端到端视频分类模型的质量，以获取来自I3D模型的最后一层的手语视频嵌入。我们报告了左侧的手语检索结果（使用文本到文本匹配，如第3.4节所述）和右侧的学习的跨模态嵌入（文本到视频匹配）。我们首先观察到，我们的跨模态嵌入（可以潜在地捕捉到超出手语识别模型有限类别的线索）比它们基于文本的对应物表现显著更好。接下来，我们比较了各种选择的骨干手语视频嵌入，以评估我们提出的SPOT - ALIGN框架的有效性。作为第一个基准，我们尝试使用标准的Kinetics [12]训练 -我们观察到这会产生对我们的任务表现不佳的视频嵌入（正如预期的那样）。我们还将[2]中的模型（在BOBSL数据上预训练）作为基准模型，用于初始化我们的I3D手语视频嵌入。我们的模型对不同初始化的敏感性在附录D中有所展示。虽然BOBSL特征的性能优于Kinetics特征，但仍然明显弱于由S POT - ALIGN在How2Sign上进行的端到端ASL手语识别训练。我们观察到，我们的S POT - ALIGN迭代的每个迭代都有所改进，首先是从仅口型（M）注释开始，然后在相同词汇量（1079）的注释数量上扩展，然后在手语类别数量上扩展为1887路分类。训练大小的相应统计数据在图4（左）中说明，相应模型在经过手动验证的测试集上的手语识别性能在图4（右）中可以看到。鉴于其优越的性能，我们在How2Sign上使用从1887个大词汇的M+D3注释训练的手语视频嵌入进行后续实验。0表2.手势视频嵌入聚合策略的影响：我们在How2Sign检索基准上比较了时间池化策略。性能指标以三次随机种子运行的均值和标准差报告。0聚合方法 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0最大池化 23 . 3 0 . 3 39 . 7 0 . 5 46 . 3 0 . 6 15 . 3 0 . 6 平均池化 24 . 5 0 . 2 40 . 7 1 . 1 46 .7 0 . 7 15 . 7 1 . 50表3.文本嵌入的影响：我们在How2Sign检索基准上比较了多种文本嵌入。性能指标以三次随机种子运行的均值和标准差报告。0文本嵌入 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0(ii)视频嵌入聚合。接下来，我们比较在给定手语视频的一系列手势视频嵌入上使用不同的时间池化策略。虽然更复杂的时间聚合方法是可能的，但在这项工作中，我们选择了一种简单高效的平均池化机制，这在文本-视频检索任务中已被广泛证明是有效的[17,40]。在表2中，我们比较了每个特征维度上的平均池化和最大池化。我们观察到平均池化的性能最好。(iii)文本嵌入。然后，我们比较了几种用于训练跨模态嵌入的文本嵌入选择。我们在表3中报告了结果。我们观察到word2vec [42]和GrOVLE[8]获得了竞争性能，优于更高容量的替代方案[33, 51,52]。这种现象也在[17]中观察到，作者表明对于一些源文本分布，更简单的词嵌入可以胜过它们的“重量级”对应物。我们将将语言模型与手语翻译进行端到端的微调留给未来的工作，这可能会进一步提高性能，并在其余的实验中使用GrOVLE嵌入。(iv)手势识别概率。在这里，我们消除了基于文本的检索方法，该方法采用手势识别分类器。由于滑动窗口在每个帧上密集应用，我们获得每帧的一个手势预测（可能非常嘈杂）。因此，该方法的一个重要超参数是选择要在我们的预测词集中考虑哪些分类输出（这将进一步指导基于文本的检索）。具体而言，我们变化的超参数是将预测包含为文本标记的置信度阈值。我们在表4中探索了几个阈值，并报告了检索性能。我们观察到0.5的效果最好-我们采用这个值进行后续实验。0.1013.426.432.474.00.2517.530.935.456.50.5018.432.236.668.00.7515.027.932.491.05.90.613.60.618.00.2483.517.9Signing18.432.236.668.024.50.240.71.146.70.715.71.5141010表4.手势识别概率的阈值化：我们研究了置信度阈值超参数对How2Sign检索性能的影响，并观察到0.5的效果最好。0阈值 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0表5.字幕对齐的影响：我们报告了在How2Sign上使用对齐到语音和对齐到手语的模型的检索性能。我们观察到使用对齐到语音的字幕时性能显著下降。0手势识别跨模态嵌入对齐 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓ R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0表6.模型组合：我们报告了基于手势识别（SR）和跨模态（CM）嵌入的How2Sign检索模型的最终基准性能。我们观察到这两种方法具有很高的互补性。0T 2 V V 2 T 模型 R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓ R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0SR 18.4 32.2 36.5 68.0 11.5 27.9 33.3 66.0 CM 24.7 39.6 46.0 17.0 17.9 40.8 46.6 15.0 SR+ CM 32.8 47.7 52.9 7.0 23.3 48.5 53.7 7.00（v）对齐的影响。接下

下载后可阅读完整内容，剩余1页未读，立即下载