可学习的PIN：跨模态的身份嵌入

176 浏览量更新于2023-10-13 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可学习的PIN：跨模态的身份嵌入阿尔沙·纳格拉尼塞缪尔·阿尔巴尼？[0000 - 0003 - 1732 - 9198]和AndrewZisserman[0000 - 0002 - 8945 - 8573]牛津大学工程科学系{arsha，albanie，az}@ robots.ox.ac.uk抽象。我们提出并研究了一种身份敏感的人脸和语音的联合嵌入。这样的嵌入使得能够从语音到面部以及从面部到语音的跨模态我们做出以下四点贡献：首先，我们证明了嵌入可以从说话的面孔的视频中学习，而不需要任何身份标签，使用一种形式的跨模态自我监督;第二，我们开发了一个课程学习计划，针对这一任务，是必不可少的学习进行成功的硬负挖掘;第三，我们展示和评估跨模态检索的身份看不见和听不见的训练过程中在一些情况下，并建立一个基准，为这个新的任务;最后，我们展示了一个应用程序，使用联合嵌入自动检索和标记的电视剧字符。关键词：联合嵌入，跨模态，多模态，自监督，人脸识别，说话人识别，度量学习1介绍人脸和语音识别，无论是非侵入性的和易于访问的生物识别，是各种任务的首选工具。用于面部识别的现有技术方法使用由深度卷积神经网络[38，40，45]生成的面部嵌入，该深度卷积神经网络在标记面部的大规模数据集[9，18，23]上训练用于生成语音嵌入的类似路径在用于说话人识别的音频通信中遵循[13，32，34，52]。然而，即使一个人可以通过面部或视觉来识别，这两种模式也是非常独立的 - -它们不能一起考虑吗？为此，本文的目标是学习一个联合嵌入，面孔和声音，并且在跨模态自我监督的应用中，使用几乎免费和无限的人类说话面孔的不受限制的训练资源来这样做。关键思想是一个子网用于面部的子网络和用于语音片段的子网络可以被联合训练以预测面部是否对应于语音，并且用于该任务的训练数据s平等贡献2A. Nagrani et. al.免费提供：肯定的是从视频中的相同说话面部获取的面部和语音片段。在视频中，所述面部和语音片段是来自不同视频的面部和语音片段。学习这种联合嵌入的动机是什么？首先，由可识别的现代化视频的联合片段可以检索无脸语音片段，并且他们的第二，这可能是人类内化身份的方式。由于心理学家Bruce和You n g（1986）[ 6]提出了一个非常有影响力的认知模型，即“per s on identitynodes”或“P I N”是一种联想记忆，它包含可以通过面部，声音或其他方式访问的特定于身份的语义代码：因此完全从输入模态中抽象出来。值得首先考虑的是联合嵌入是否可能。当然，如果我们让一个网络学习联合嵌入，那么它很可能在训练数据上取得成功-因为甚至可以从不相关的数据中学习任意关联[51]。然而，如果面部和语音之间的关系是完全随机的，并且所述面部和语音之间的关系已经被更好地识别，则现在我们将预期在训练期间不可见和不可听的身份的跨模态检索的机会行为。脸和声音之间的关系不太可能是完全任意的，因为我们会期望性别和脸/声音之间以及年龄和脸/声音之间存在一些依赖性[33]。有些令人惊讶的是，实验表明，采用跨模态检索的联合嵌入的unseen-unheard的身份实现了超越性别和年龄的匹配。在本文中，我们做了以下四个贡献。首先，在Sec。3，我们提出了一个网络架构，用于联合嵌入人脸和语音，以及从YouTube的未标记视频中学习的训练损失第二，在SEC。4、提出了一种课程学习的方法，该方法使用单个参数来控制批内硬否定的难度安排底片的难度被证明是以无监督方式学习联合嵌入的关键因素第三，在Sec。7，我们评估了在许多情况下的unseen-unheard身份这些包括使用针对cros-模型检索而创建的面和卷，以及在N'cros-模型检索中，我们击败了最后，在第8，我们展示了一个应用程序的学习嵌入一次性学习的身份在电视剧中的字符标签。这再次评估了未见-未听身份的嵌入。2相关工作跨模态嵌入：视觉内容和音频之间的关系已经在几个不同的上下文中进行了研究，常见的应用是生成、匹配和检索[25，28，30]。然而，这项工作的主要重点是构建一个共享的表示，或联合嵌入的两种方式。虽然联合嵌入已经被深入研究用于IM-可学习PIN3年龄和文本，[5，16，17，27，48]，他们也开始获得牵引力的音频和视觉[1，4，36，43]。有几种方法可以学习这种嵌入-我们从一系列利用视听对应作为自我监督学习形式的作品中获得灵感也可以通过交叉模态蒸馏[1，4，20]来学习嵌入，其中训练的模型（“教师”）将其知识以一种模态转移到第二模型（“学生”），而不是以另一种方式进行校准。特别相关的是最近的一项工作[3]，它学习了视觉框架和乐器，歌唱和工具的声音片段我们的问题与他们的不同之处在于，我们的问题是一个细粒度的识别：我们必须学习成对的面孔或成对的声音之间的细微差别我们还注意到另一个挑战;人类语音表现出相当大的可变性，其不仅由诸如背景振动、音乐和混响之类的外在因素引起，而且还由内在因素引起，所述内在因素是来自同一说话者的语音的变化，诸如语音的词汇内容（所讲的确切单词）、情感和语调[34]。一个人的身份敏感的嵌入必须实现两组因素的不变性。使用面孔和声音的跨模态学习：在生物识别中，一个活跃的研究领域是多模态识别系统的开发，该系统试图利用面部图像和语音的互补信号分量[7，24]，以便实现比使用单一模态的系统更好的性能，通常通过使用特征融合。与此相反，我们的目标是利用冗余的信号，这是共同的两个模态- ities，以促进跨模态检索的任务。Le和Odobez [29]试图从面部嵌入中灌输知识，以改善说话者的diarisation结果，但他们的重点只是实现更好的音频嵌入。在我们早期的工作中[33]，我们通过使用强制匹配任务建立了属于同一身份的面孔和声音之间存在强相关性。这些发生是由于跨模态生物识别，如性别，年龄，国籍和其他人，这会影响面部外观和声音的结果。本文在两个关键方面与[33]不同。首先，虽然[33]使用身份标签来训练用于匹配的判别模型，但我们以无监督的方式处理这个问题，直接从没有标签的视频中学习。其次，我们不是训练一个仅限于匹配任务的模型，而是学习人脸和声音之间的联合嵌入。与[33]不同，我们学习的表示不再限于强制匹配，而是可以用于其他任务，如跨模态验证和检索。3学习关节嵌入我们的目标函数是f✓（xf）：Rf-RE和gφ（xv）：RV-RE，它们分别将Rf和RV中相同身份的面孔和声音映射到在一个特定空间RE 中的一个特定角色上。为此，我们将ef✓（xf）和gφ（xv）作为卷积神经网络，并将它们组合以形成一个两个卷积神经网络。4A. Nagrani et. al.��ƒ“（��嵌入提取帧256 x 13s提取语音特征使用课程挖掘进行配对选择}面子网络演讲视频吉夫256 x 1话音子网%（v）��Fig. 1.学习人脸和声音之间的联合嵌入。从语音视频中提取肯定的面部-语音对，并将其馈送到具有面部subnet_w〇rk（xf）和语音subnet_w〇rk（xv）的双流架构中，这需要256个维度。一个基于课程的挖掘时间表是用来选择适当的负对，然后使用对比损失进行训练。流体系结构包括面部子网和语音子网（见图1）。①的人。为了学习f✓和gφ的参数，我们对训练对的集合P进行{xf，xv}，每个由面部图像xf和语音片段xv组成，并且将相关联的标签y∈{0， 1}附加到每个对，其中如果xf和xv属于不同的身份（此后为负对），则y=0，并且如果两者属于相同的身份（正对），则y=我们在a{（xfi，xvj，yi，j）}处的对d上采用对比损失[11，19]，其中可以使用ks来结合f✓和gφ来最小化正对的嵌入之间的距离，并且由于小于边缘参数α而惩罚负对距离。具体来说，成本函数定义为：1L=|P|X（i，j）∈pyi，j2i、j+（1−yi、j）max{ 0，α−D2i，j+（一）其中（i，j）∈pi用于icate（xfi，xvj，yi，j）∈ P且Di，j不等于Eu-归一化嵌入之间的Clidean距离，Di、j为||fθ（xfi）||2||2-gφ（xvj）||2||2||2.每个子网的体系结构的详细信息见第2节。6.1.3.1生成人脸-语音对获得说话面部轨迹：与寻求利用自然同步数据的先前视听自监督作品[2，4]相比，简单地同时提取音频和视频帧不足以获得训练等式1中描述的对比损失所需的（相同身份的）面部和语音样本对。1.一、即使对于被标记为可能包含说话的人的内容的给定视频，来自相关联的音频的短样本也可能不包含任何语音，并且在存在语音的情况下，不存在语音对比损失D可学习PIN5面轨1面轨2同一磁道中的正对不同磁道中的负对图二.生成正面和负面的面部/语音对（第二节）第3.1节）。为了防止嵌入学习对同步干扰因素进行编码，正面的帧在时间上不与语音的序列对齐。确保音频的扬声器在帧中可见（例如，在“重新加载”的情况下，F1作为V_id_eos的缓冲和复制[ 35]）。此外，即使在扬声器的面部存在的情况下，也可以有多于一个面部占据帧。我们通过使用SyncNet [12]来解决这些问题，SyncNet是一种自动从视频中获取说话面部轨迹的无监督方法SyncNet由一个双流卷积神经网络组成这使得视频可以被准确地分割成说话人面部轨迹-来自说话人视频的面部检测的连续分组。选择面孔-语音对：给定说话面部轨迹的集合，然后我们可以使用以下简单的标记算法构建标记的训练对的集合。我们将从相同面部轨迹中提取的面部和语音片段定义为正对，并将从不同面部轨迹中提取的面部和语音片段定义为负对（这种方法也适用于[14]中的单一模态）。由于我们的目标是学习将身份放置在一起的嵌入，而不是捕获同步的内在因素（例如情感表达或词汇内容），因此我们不将与正对相关联的面部相反，它是从说话的面部轨迹中均匀采样的，从而防止模型学习使用同步线索来对齐嵌入（参见图1B）。2）的情况。我们接下来描述在训练期间用于对选择的程序。4基于课程的挖掘与通过对比损失学习嵌入相关的关键挑战之一是，随着数据集变得越来越大，可能对的数量呈二次增长。在这种情况下，网络快速学习正确映射简单的例子，但很难积极和消极的挖掘[12，21，42，44，49]以进一步提高性能。在我们的任务的上下文中，具有足够容量的神经网络快速学习嵌入不同的面部和声音，以从不同的面部和声音中提取6A. Nagrani et. al.负对。由于性别只是构成身份的众多组成部分之一然而，由于我们不知道说话者面部轨迹的先验身份，因此我们不能强制对性别匹配的阴性对进行采样。我们用一种硬否定挖掘方法来解决这个问题，这种方法不需要在训练过程中了解身份。当在无监督环境中使用时，硬否定选择是一个非常微妙的过程，特别是当网络从头开始训练时。如果负样本太难，网络将不成比例地关注离群值，并且可能难以学习有意义的嵌入。在我们的设置中，最难的否定是特别危险的，因为它们实际上可能对应于假否定标签（其中同一身份的声音和面部偶然地从不同的说话面部轨迹中采样）。4.1控制挖掘底片标准的在线硬示例挖掘（OHEM）技术[21，41]在小批量中对最难的正和负对进行采样。然而，在我们的设置硬积极挖掘可能是有限的价值，因为我们不希望视频数据表现出显着的变化内说话的脸跟踪。如果选择每个小批次内的最难否定示例，则使用大批次进行训练会导致异常值或假否定的风险增加（即，被标记为负的对实际上是正的），这两者都将导致差的学习动态。因此，我们设计了一个简单的基于课程的挖掘系统，我们下面描述。每个小批次包括K个随机采样的面部轨迹。对于每个面部轨迹，我们通过均匀地采样单个帧xf和均匀地采样三秒音频段xv来构造正对。该采样过程可以被看作是一种简单的数据增强的形式，并且很好地利用了可用的数据，产生了一组K个正的人脸-语音对。接下来，我们将这些对中的每个面部输入Xf视为锚面部，并从小批量中选择适当的硬负样本。这是通过计算其对应的人脸嵌入和所有语音嵌入之间的距离来实现的，除了其直接配对的语音之外，这导致总共K-1个潜在的否定。然后，基于潜在底片到锚面的距离以降序对潜在底片进行排序（最后一个元素是批次中最难的底片），并且适当的底片被选择为CC或D，以避免不同的底片。该部分基本上对应于经排名的否定的百分位数：τ=1是最难的负数，τ=0。5是中值，τ=0是最容易的。该参数τ可以像学习速率一样被调谐。在实践中，我们发现，在训练的早期阶段选择更容易的否定，在后期阶段选择更难的否定的时间表特别有效。在选择合适的底片时，我们还1 对于从不同的说话面部轨迹采样的给定面部图像和语音，可以确定假阴性。标记的速率随着视频中表示的身份的数量的增长而减小2 很难仅根据损耗来调整此参数，因为停滞的损耗曲线不是这必然表明缺乏进展。当网络在某个时间点上提高其性能时可学习PIN7确保锚面到临界负面之间的距离大于锚面和正面之间的距离（遵循[40]中概述的半硬负面开采程序）。附录A中提供了挖掘过程的伪代码，并且在消融分析（附录B.1）中更详细地检查了我们的课程挖掘过程对训练的影响，表明它在实现良好性能方面起着重要作用5数据集我们学习VoxCeleb[34]上的联合面部-语音嵌入，VoxCeleb [34]是一个大规模的audio-visualhumanspee chvide oextra t t r at ted'in the w il d ' om You T ub e。该数据集包含超过100，000个使用SyncNet[12]从超过20，000个具有挑战性的视频中获得的分段说话面部轨迹语音音频随着背景噪声、笑声和变化的室内声学而自然地降级，而面部图像跨越一系列照明条件、图像质量和姿势变化（参见图1B）。5中存在的面部图像的示例）。VoxCeleb还包含名人身份的标签，我们强调，在学习联合嵌入时不我们使用标签仅用于分析学习到的表示的目的-它们允许我们用数字评估它们的属性并可视化它们的结构（例如见图4）。我们使用两个训练/测试拆分来完成此任务。第一分割与数据集一起提供，并且由来自同一组说话者的不相交视频组成这可以用于评估来自在训练期间看到和听到的身份的数据我们还创建了第二个分裂，其中包括100个随机选择的不相交的身份进行验证，和250个不相交的身份进行测试。我们使用两个训练集的交集来训练模型，使我们能够在两个测试集上进行评估，第一个测试集用于看到-听到的身份，第二个测试集用于看不到-听不到的身份。数据集的统计数据在表1中给出。火车供试品（S-H）Val（US-UH）试验（US-UH）#说话的脸跟踪105,7514,50512,73430,496#身份901901100250表1.数据集统计。注意，在训练期间的任何点都不使用标识标签。承宪：耳闻目睹。US-UH：Unseen-unheard.看不见-听不到测试集中的身份与训练集中的身份是不相交的。困难，它将与更困难的对，并继续招致高损失。因此，我们观察了小批量中正对之间的平均距离，小批量中负对之间的平均距离，以及小批量中活动对（对损失项有贡献的那些）之间的平均距离，并发现每两个时期增加10%是有效的，从30%开始直到80%，此后保持恒定8A. Nagrani et. al.6实验我们实验了两种初始化技术，从头开始训练（其中两个子网络的参数都是随机初始化的）和使用预先训练的子网络。在后一种公式中，两个子网络都使用训练用于在单个模态内识别的权重来我们还使用教师-学生风格的架构进行了实验，其中人脸子网络使用在训练期间冻结的预训练权重进行初始化（教师），语音子网络从头开始训练（学生），但我们发现这会导致性能下降（附录B.2中提供了分析）。我们使用的权重预训练的VGG-face数据集的人脸子网络的身份，和权重预训练的VoxCeleb数据集的语音子网络的扬声器识别。6.1网络体系结构和实施细节面子网：人脸子网络使用VGG-M [10]架构实现，在每个卷积层之后添加批规范层[22]。人脸子网络的输入是一个RGB图像，从源帧裁剪为仅包括人脸区域，并将大小调整为224 ×224。使用随机水平翻转、亮度和饱和度抖动来增强图像VGG-M架构的最终全连接层被减少以针对每个面部输入产生单个256-D嵌入然后，嵌入在被传递到对选择层进行负面挖掘之前进行L2归一化4）.语音子网：音频子网络使用VGG-Vox架构[34]来实现，VGG-Vox架构[34]是适合于说话人识别的VGG-M的修改版本，也包含批处理范数。输入是一个短期振幅频谱图，使用512点FFT从3秒的原始音频中提取（遵循[34]中的方法），给出大小为512× 300的频谱图在训练时间，从整个音频段中随机选择音频的三秒段对频谱图的每个频率仓执行均值和方差归一化与人脸子网络类似，最终全连接层的维度被降低到256，并且256-D语音嵌入是L2归一化的。在测试时，以与[34]相同的方式使用平均池化来评估整个音频段上面描述的轻量级VGG-M启发架构具有计算效率的优点，并且在实践中，我们发现它们对于我们的任务表现得相当好。我们注意到，任何一个子网都可以替换为计算量更大的主干架构，而无需修改我们的方法。培训程序：这些网络在三个Titan X GPU上进行训练，用于50个epoch，使用256的批量大小我们使用SGD和动量（0. 9）、体重decay（5E−4）andalogarithicalydecaygleararate（inialisedto10−2anddecayigto10−8）. 我们对对比损失的幅度差值（0. 2、0. 4、0. 6、0. 8）进行了比较分析，发现0 . 5、0. 6、0. 8、0. 8、0. 6、0. 8、0. 7、0. 8、0. 8、0. 9、0. 9、6是最佳的。可学习PIN97评价7.1跨模态验证我们评估我们的网络的跨模态验证的任务，其目标是确定是否两个输入从不同的模态是se-mantically对齐。更具体地，给定面部输入和语音片段，目标是确定它们是否属于相同的身份。由于这项任务没有可用的基准，我们为VoxCeleb数据集创建了两个评估协议，一个用于看到-听到的身份，一个用于看不见-听不见的身份。对于每个评估基准测试对，使用VoxCeleb提供的身份标签随机抽样，30，496对来自未看到-未听到的身份，18， 020对来自看到-听到的身份（评估协议的描述在附录C中）：阳性是相同身份的面孔和声音，阴性对来自不同身份。AUC %EER %看见-听到随机50.349.8划痕73.834.1预训练87.021.4看不见的-闻所未闻随机50.149.9划痕63.539.2预训练78.529.6表2.交叉模态验证：报告了未经训练的模型（随机权重）的结果，以及第2节中描述的两个初始化的结果。六、图三. N路强制匹配：我们将我们的联合嵌入与 SVHF-Net [33] 进行比较。我们的方法轻松地击败了所有N值的现有技术。交叉模态验证的结果如表2所示我们使用标准度量进行验证，即ROC曲线下面积（AUC）和等误差率（EER）。从表中可以看出，从头开始学习的模型的表现明显高于随机，即使对于看不见-听不见的身份，也提供了证据来支持它实际上可以学习的假设在没有显式身份监督的情况下对面部和语音进行联合嵌入。嵌入的可视化提供在图1中。4，其中我们观察到嵌入基于身份形成松散的集群组。用两个预先训练的子网络初始化模型带来了预期的性能增益，并且对于看不见的身份也表现得令人惊讶，这是一项人类甚至难以执行的任务先前的研究表明，在挑战性较小的强制匹配任务（从两个给定声音的面孔中选择）中，人类的表现约为80%[33]。10A. Nagrani et. al.随机权重r = 0.3见图4。t-SNE [31]仅从VoxCeleb看到听到的测试集的15个身份中学习到的面部嵌入的可视化。该模型完全从零开始训练。为了可视化的目的，嵌入用（左）性别标签和（右）身份标签着色（在训练期间没有使用标签）。嵌入显示为三个阶段，从上到下;一个未训练的网络（随机权重），一个用τ = 0训练的模型。3和使用我们的课程学习时间表训练的最终模型，τ从0增加。三比零。8.最好用颜色看。跨模态生物识别的效果：在本节中，我们将研究影响面部和声音的特定潜在属性（年龄，性别和国籍）的效果。我们通过对阴性测试对进行采样来评估模型，同时保持以下人口统计学标准中的每一个不变：性别（G），国籍（N）和年龄（A）。性别和国籍标签来自维基百科。由于说话者的年龄在不同的视频中可能会有所不同，因此我们将年龄分类器[39]应用于面部帧（以1fps提取），并对每个视频的年龄预测进行平均（更多细节请参见附录D）。人口统计标准随机GN一GNA未见-未听（AUC %）78.561.177.274岁9五十八8耳闻目睹（AUC %）87.074.285.986岁。674岁0表3.在不同人口统计学下的跨模态生物测定的分析：使用AUC：曲线下面积报告了可见-听见和不可见-不可听鉴别的结果。概率性能为50%。我们发现，性别是最有影响力的人口因素。生物学和进化感知的研究较低的音调与较强的下颌线相关。然而，由于这些因素难以量化，我们将此分析留给未来的工作。男女r = 0.8亚历山大·罗奇·莉莉·柯林斯约翰·特里约翰·科贝特杰克·阿贝尔多特-玛丽·琼斯MattBomerHilarieBurtonGemmaAtkinsonZachBraffKristenJohnstonCindyWilliamsKentonDutyDebraJoRupp可学习PIN11搜索捷径（偏差）：由于其高建模能力，CNN因学习利用偏差而臭名昭著，这些偏差使它们能够用微不足道的解决方案最小化学习目标（参见[15]在无监督学习的背景下进行有趣的讨论虽然我们很小心地避免由于词汇内容和情感导致的相关性，但在音频和视频数据中可能存在网络已经学会利用的其他低级别相关性。为了探测学习模型的偏差，我们构建了两个额外的评估集。在这两个集合中，按照与原始评估集合相同的策略选择负对（它们是不同身份的面孔和声音然而，我们现在对偏倚评估测试集的阳性对进行采样，如下所示。对于第一个测试集，我们从相同的说话面部轨迹中采样阳性对，而不是从所有视频和说话面部轨迹中的相同身份中采样对（如在我们的原始评估集中所做的那样），并且对于第二个测试集，我们从相同的视频中采样阳性对。然后，我们评估了从头开始训练的模型在跨模态验证任务上的性能当阳性对总是来自同一视频时，我们获得的结果稍好（AUC：74.5，EER：33。8）vs（AUC：73. 8，EER：34。1，表2），但是当它们被约束为属于相同的轨道时具有最小的进一步改善（AUC：74岁6，EER：33。（六）。这表明，从同一视频中获取的音频和人脸除了拥有网络已经学会利用的相同身份之外，还有很小的额外相关性例如它模糊的低质量视频通常伴随有低质量音频，并且来自专业拍摄的演播室采访的面部通常伴随有高质量音频。虽然这些信号是与“在预期中”收集的数据一起工作的不可避免的伪像，但是这种区分是很轻的，提供7.2不同图库大小学习的联合嵌入还实现了跨模态检索。给定来自一个模态的单个查询，目标是从另一模态检索所有语义匹配的模板（这里，所有可能模板的集合被称为图库集合）。这可以针对F-V公式化（使用面部来检索相同身份的语音）和V-F公式化（使用语音片段来检索匹配的面部）两者来完成由于此任务可用的基线有限，因此我们执行了一种跨模态检索的变体，以使我们能够与以前的工作[33]（我们将其称为SVHF-Net）进行比较，该工作代表了匹配面部和声音的当前技术水平。在[33]中，使用强制匹配任务从另一模态的N个选项中选择单个语义匹配模板，并且直接训练SVHF-Net来执行该任务。与我们学习联合嵌入的这项工作不同，SVHF-Net由级联层组成，该级联层允许比较两种模态，即每个模态中的学习表示不对齐。为了将我们的方法与SVHF-Net进行比较，使用特定模态中的所有可用测试样本进行查询集。例如，对于V-F公式（用于[33]），我们12A. Nagrani et. al.查询图库查询图库v-FF-V图五.跨模态强制匹配的定性结果（从N个样本中选择匹配模板）。我们显示了N= 10的结果。左侧显示了来自一种模态的查询样本，右侧显示了来自另一种模态的10个模板对于每个公式，我们显示了四个成功的预测，其中匹配模板以绿色突出显示（每组中的顶部四行），一个失败案例（每组中的底部行）以绿色突出显示基础事实，模型预测以红色突出显示。最佳观看放大和彩色。使用我们看不见听不见测试集中的所有声音片段。然后为每个查询创建大小为N的图库-图库我们采用了一种简单的方法来执行任务：查询嵌入直接比较使用欧氏距离的画廊中的所有面孔的嵌入我们直接在我们的测试集上与SVHF-Net进行比较，值N= 2到10。结果的比较在图中给出。3.第三章。我们观察到，学习联合嵌入并直接使用该嵌入来匹配面部和声音，对于所有N值，都优于以前的工作[33]。此外，请注意，与SVHF-Net [33]相比，如果图库集中有多个匹配样本，则无法使用SVHF-Net[33]，我们的联合嵌入可以直接用于提供排名。除了V-F公式（这是[33]使用的公式）的数值结果外，我们还在图中给出五、8电视节目字符检索电视节目中的一个镜头检索是一项极具挑战性的任务，即识别电视节目或故事片中角色的所有外观，只有一张人脸图像作为查询。这是困难的，因为由姿势、照明、大小、表情和遮挡引起的电视节目中的角色外观的显著视觉变化，其通常可以超过由于身份引起的视觉变化。最近，人们对使用音轨来帮助识别[8，35，46]的兴趣越来越大，这是多媒体视频免费提供的然而，由于面部和语音表示通常不对齐，在先前的工作中，查询面部不能直接与音轨进行比较，需要使用复杂的融合系统来组合来自两个模态的信息可学习PIN13例如，[8]在一轮人类注释之后对面部轨迹和日记说话者片段进行聚类，[35]使用来自一种模态的置信度标签来为另一种模态提供监督，[46]将面部识别模型和服装模型的输出与基于GMM的说话者模型融合。然而，通过联合嵌入，查询面部图像可以直接与音频轨道进行比较，从而得到我们在下面描述的非常简单的解决方案。方法：对于该评价，我们使用[35]提供的轨迹和标签用于TV序列“S h e r l oc k”的第1个片段。为了说明使用语音信息的效果，我们仅使用来自剧集的336个说话面部轨迹，由于头部姿势的大变化，这些面部轨迹我们展示了我们的方法检索的两个最频繁出现的字符，夏洛克和约翰，从所有其他17个类中的情节（16个主要人物和一个类的所有背景字符）。为Sherlock和John随机选择单个查询面部，并且使用我们的面部表示为查询计算嵌入。然后将来自总轨迹集的每个面部轨迹分成帧，并使用我们学习的面部表示来计算每个面部检测的嵌入，为每个面部提供256- D矢量然后在所有帧上对矢量进行平均，从而导致针对每个轨道的单个256-D嵌入还为每个音轨提取音频片段，并使用我们学习的语音表示计算嵌入，以类似的方式为每个音轨提供256-D向量。因为我们的表示是对齐的，对于每个轨道，我们可以使用L2欧氏距离将视觉轨道和音频轨道嵌入直接与查询图像然后根据最终得分对曲目进行排名我们报告了3种情况下的结果，单独使用视觉嵌入检索，单独使用音频嵌入检索，以及一种简单的融合方法，其中我们将两者中的最大得分（即我们选取距离查询图像最近的模态的得分请注意，本集中的身份都不在VoxCeleb训练集中，此测试针对的是看不见的身份。从表4可以看出，使用来自两种模态的信息Sherlock（AUC %）John（AUC %）只面临35.044.6仅语音28.737.2最大融合37.545.4表4.一次性检索结果：从17个类别中检索，16个主要字符和所有背景字符的1个类。AUC越高越好。提供了比单独使用面部或语音的轻微改进。这样的融合方法对于当一种模态是远更强的线索时的情况是有用的，例如当脸太小或太黑，或极端的姿势，声音仍然可以14A. Nagrani et. al.查询排名前5的帧仅FFVmax仅FFV max图六、从TV系列中提取“Sh e r- l o c k”的备份数据的恢复。一个简单的问题是，备份的结果是。对于查询，我们示出仅使用轨道的面部嵌入（仅F）并且使用面部和语音嵌入（FV_max）两者检索的轨道。显示每个检索到的轨迹的中间帧。注意FV融合如何允许检索更多的轮廓面-第2行，第二和第四帧，以及第4行，第三排名帧。人脸检测对于正确检索的人脸为绿色，否则为红色最好用颜色看明确[35]。另一方面，当语音段被串扰、背景效果、音乐、笑声或其他噪声破坏时，面部外观分数可以更高我们注意到，可以应用优越的融合策略，以便更好地利用来自两种模态的这种互补信息（例如，基于注意力的策略），我们将其留给未来的工作。9结论我们已经证明了有点违反直觉的结果-我们还展示了这种联合嵌入在电视节目中的字符检索中的应用其他可能的应用包括生物识别安全，例如，视频片段中的面部可以直接与处于另一模态的现有数据集进行比较，例如。仅存储语音数据的情况，因为它是从电话交谈中获得的联合嵌入还可以用于检查视频中的面部是否实际上与视频匹配，作为系统检测的一部分（例如，视频检测）。G.dettecting‘Dee p f ak e s’[ 26]）。身份不仅仅是脸。除了声音之外，身份也是个人的一种获得，表现形式包括说话的方式（附录E中提供了一个具体的解释因此，这项工作可以扩展到包括更多的线索鸣谢。作者感谢EP- SRC CDT AIMS赠款EP/L015897/1和计划赠款（见EP/M013774/1）的支持。作者还要感谢Judith Albanie的帮助建议.书目[1] Albanie，S.，Nagrani，A.，Vedaldi，A.，齐瑟曼，A.：情感识别在语音中使用跨模态转移。2018年ACM多媒体会议论文集。ACM（2018）[2] 阿兰杰洛维奇河齐瑟曼，A.：看，听，学。In：ICCV. pp. 609- 617IEEE（2017）[3] Arandjelovi'c ， R. ，Zisseerman ， A.： Objectttthatsound.arXivpreprintarXiv：1712.06651（2017）[4] Aytar，Y.冯德里克角Torralba，A.：Soundnet：从未标记的视频中学习声音表示。在：国家实施计划中。pp. 892[5] Barnard ， K. ， Duygulu ， P. ， Forsyth ， D. ， Freitas ， N.d. Blei ，D.M.，Jordan，M.I.：匹配文字和图片。Journal of Machine LearningResearch 3（Feb），1107[6] 布鲁斯，V Young，A.：了解人脸识别。英国心理学杂志77（3），305[7] 布鲁内利河Falavigna，D.：使用多个线索的人IEEE Transactions onPattern Analysis and Machine Intelligence 17（10），955[8] Budnik，M.， P〇ignan nt，J.， B es ac ier，L. ，Q'enot，G. 本发明提供了一种用于电视节目中的多模态人物识别的手动注释的方法。基于内容的多媒体索引（CBMI），2014年第12届国际研讨会。pp. 1-4. IEEE（2014）[9] 曹Q. Shen，L.，Xie，W.，帕克希O.M.齐瑟曼，A.：Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。输入：程序输入准备好了。面部和手势识别（2018年）[10] Chatfield，K.，Lempitsky，V.Vedaldi，A.，齐瑟曼，A.：魔鬼在细节中：对最近特征编码方法的评估In：Proc.BMVC。（2011年）[11] Chopra，S.，哈德塞尔河LeCun，Y.：区别性地学习相似性度量，并应用于人脸验证。In：Proc. CVPR.第1卷，第100页。539-546. IEEE（2005年）[12] Chung，J.S.，齐瑟曼，A.：超时：自动对口型In：Workshop onMulti-view Lip-reading，ACCV（2016）[13] Chung，J.S.，Nagrani，A.，齐瑟曼，A.：Voxceleb2：深度说话人识别。电影Interspeech（2018）[14] Cinbis，R.G.，Verbeek，J.，Schmid，C.：无监督度量学习用于电视视频中的人脸识别。在：计算机视觉（ICCV），2011年IEEE国际会议上。pp. 1559-1566. IEEE（2011）[15] Doersch，C. Gupta，A.，Efros，A.A.：通过上下文预测的无监督视觉表示学习。在：IEEE计算机视觉国际会议论文集。pp. 142216A. Nagrani et. al.[16] Duygulu，P.，Barnard，K.，de Freitas，J.F.，福赛斯，D.A.：对象识别作为机器翻译：学习固定图像词汇的词典。在：欧洲计算机视觉会议。pp. 97-112. 02 The Dog（2002）[17] 戈多A Larlus，D.：超越实例级图像检索：利用字幕学习语义检索的全局视觉表示。IEEE计算机视觉与模式识别会议（CVPR）（2017）[18] Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，高杰：Ms-celeb-1m：在现实世界中识别一百万名人的挑战。电子成像2016（11），1[19] 哈德塞尔河Chopra，S.，LeCun，Y.：通过学习不变映射来降维。在：CVPR中。卷第2页。1735-1742年。IEEE（2006年）[20] Harwath，D.，Torralba，A.，Glass，J.：具有视觉上下文的口语无监督学习。在：神经信息处理系统的进展。pp. 1858[21] Hermans，A.拜尔湖莱贝B：为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737（2017）[22] Ioffe，S.，Szegedy，C.：批量归一化：通过减少内部协变量偏移来加速深度网络arXiv预印本arXiv：1502.03167（2015）[23] Kemelmacher-Shlizerman岛Seitz，S.M.，Miller，D.，Brossard，E.：megeface基准：100万张人脸用于大规模识别。在：Proceedings的IEEE会议上的计算机视觉和模式识别。pp. 4873[24] K houry，E.， E.S. 、Mc C 〇ol、C. 你呢M Marcel，S. ：在具有挑战性的条件下对移动电话进行生物特征认证。Image and VisionComputing 32（12），1147[25] Kidron，E.，Schechner，Y. Y.，Elad，M.：像素的声音。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议。第1卷，第100页。88-95. IEEE（2005年）[26] K im，H. ，Garrido，P.， Te wari，A. ，Xu，W.，这是J 你好，M.， P'erez，P.，Richardt，C.， Zollhüofer，M.，结果表明，C. ：Deepvideoportr ai ts. 我的宝贝（2018）[27] 基罗斯河Salakhutdinov河Zemel，R.S.：统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539（2014）[28] Lampert，C. H. ，Kréomer，O. ：用于多模态降维和迁移学习的Weeak-paird最大方差分析。欧洲计算机视觉会议。pp. 566-579. 03The Sunday（2010）[29] Le，N.，Odobez，J.M.：基于人脸嵌入的跨模态迁移学习改进话轮嵌入。arXiv预印本arXiv：1707.0

下载后可阅读完整内容，剩余1页未读，立即下载