视频人脸聚类方法的研究及应用

96 浏览量更新于2023-10-12 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5027簇数未知的视频人脸聚类Makarand Tapaswi1，2，3 Marc T.法律2，3，4Sanja Fidler2，3，41Inria2多伦多大学3Vector Institute4 NVIDIAmakarand. inria.fr，{makarand，law，fidler}@cs.toronto.eduhttps://github.com/makarandtapaswi/BallClustering_ICCV2019摘要理解电视剧和电影等视频需要分析角色是谁以及他们在做什么。我们解决了具有挑战性的问题，聚类人脸轨迹的基础上，他们的身份。与以往在这一领域的工作不同，我们选择在现实和困难的环境中运作，其中：（i）字符的数目不是先验已知的;以及（ii）不丢弃属于次要或背景字符的面部轨迹。为此，我们提出了球聚类学习（BCL），这是一种有监督的方法，可以将嵌入空间分割成大小相等的球，每个球对应一个聚类。学习球半径很容易转化为迭代合并算法的停止标准。这使BCL能够估计聚类的数量以及它们的分配，在常用的数据集上取得了有希望的结果我们还提出了一个彻底的讨论如何现有的度量学习文献可以适应这项任务。1. 介绍人物是任何故事的核心。虽然Netflix等视频流媒体平台提供了基于元数据查找电影的能力，但搜索视频集以找到“Jack Sparrow First Meets Will”时的正确剪辑理解字符也对重要的研究有直接影响，如视频字幕[34，35]，问答[22，44]，研究社会情境[45]和4D效应[56]。通常通过分析视频中的面部轨迹（时间相关检测序列）来研究角色。这种分析的一个重要部分是识别-用他们的名字标记面部轨迹，并且通常采用来自网络图像[1，29]，转录[3，9]甚至对话[7，15]的超级视觉。我们感兴趣的是一个同样流行的替代-本地聚类人脸跟踪的基础上的身份。请注意，聚类是识别的补充，如果成功实现，可以大大减少所需的标记工作量聚类本身也是一个有趣的问题，因为它可以回答诸如谁是主角，或者他们的社交互动群体是什么之类的问题。图1.视频人脸聚类是一个具有挑战性的问题，这是进一步加剧了大部分的字符，扮演小角色。你能猜出这幅蒙太奇中有多少个人物，哪些面孔属于他们吗？图2是我们的解决方案。虽然在视频人脸聚类方面存在大量的工作（例如，[6，18，55]），其中大部分解决了简化的设置，其中背景字符1被忽略，字符总数已知。随着人脸表示的最新进展[4]，它们在聚类中的应用[38]，以及通过查看重叠的人脸轨迹来学习特定于演员的度量的能力[6]，我们鼓励社区解决估计字符数量的挑战性问题，而不是忽略背景演员（见图10）。①的人。在本文中，我们提出了球聚类学习（BCL）- 一种有监督的方法，将嵌入空间分割成大小相等的球，使得球内的样本属于一个聚类。特别是，我们制定了学习约束，创建这样一个空间，并显示球半径（也学习）如何与凝聚聚类的停止标准相关联，以估计聚类和分配的数量（第二节）。（3）第三章。我们在一个设置中演示了视频人脸聚类上的BCL，在这个设置中，我们不知道字符的数量，并且包括所有的人脸轨迹，主要字符或其他内容（第二节）。4）.因此，BCL真正适用于所有视频，因为它不对演员表（以确定集群的数量）或轨道标签（以丢弃背景字符）的为了评估我们的方法，我们增加了视频中使用的标准数据集，1我们根据角色考虑三种类型的角色：主要或反复出现的人物在几集中扮演主要角色;次要或次要角色被命名，并在某些剧集中扮演重要角色;而背景或未知（Unk）角色则是未命名和未署名的。5028通过解析所有背景字符之间的标签进行人脸聚类。我们的方法取得了可喜的成果，估计的集群数量和集群分配。本文还对验证中常用的损失函数进行了深入的分析.对比损失），将它们与BCL进行比较，并讨论它们如何以及何时适用于聚类。据我们所知，BCL是第一种在测试时学习阈值来估计聚类数量的方法代码和数据可以在Github上找到2. 相关工作我们调查的工作，在视频中识别和聚类我们还回顾了度量学习方法，其中一些方法在这项工作中被用于聚类（第二节）。第3.4段）。视频中的人物识别。十多年前，转录本（演讲者姓名和对话）的可用性及其与字幕（对话和时间戳）的对齐为全自动识别开辟了令人兴奋的途径[3，9，33，40]。基于对话的监督被证明是一种更难但可扩展的方法[7，15]。面部轨迹表示（例如，[23，30，31，48，53]）进一步改善性能。最近，监督的来源转向IMDb[1，45]或图像搜索[29]的网络图像，以及头发[29]，语音[28]和衣服[42]等形式的组合。然而，这些进步仅限于识别命名字符并将所有剩余字符分组在一个共同的“其他”标签中视频人脸聚类。许多聚类方法采用的一个共同想法是使用来自视频的无监督约束来学习特定于演员的度量[6]。轨迹内的成对面部图像被认为是相似的;并且假设在视频中同时出现的面部是不同的。这些约束用于隐马尔可夫随机场[49，50]，或学习低秩块稀疏表示[51]。它们还可以与视频编辑结构（镜头，线程和场景）结合使用[43]。这些约束也用于微调CNN和联合学习聚类[55]，或者使用改进的三元组损失学习嵌入[54]。忽略曲目，通过对一批帧进行排名并创建硬正对和负对来学习指标[39]。然而，所有上述方法都需要知道簇的数量K，这是难以预先估计的;并且只考虑主要字符（忽略背景字符的轨迹）。在在线人脸聚类中，时空约束以及CNN表示用于将新轨迹分配给现有或新聚类[19]。然而，只有视频中的主要角色才是目标。最近，一种端到端检测和聚类方法考虑了误报和漏检[18]。在本文中，我们考虑一个设置，所有的人脸轨迹被聚类成一个未知数量的字符。图2.图中的面部轨迹1可以聚类为5个字符。球聚类学习将特征空间划分为半径相等的球。簇中的样本数量不影响球半径或与其他球的最小间隔。度量学习面部识别中最先进的方法的早期示例采用度量学习[5，12]。学习任务通常被称为验证-是同一个人的两主要的困难是确保模型能够推广到测试在训练过程中看不到的人的图像。在处理视频时，通过对视频本身进行跟踪和训练来获得正对和负对，可以缓解这种情况。涉及三胞胎[37]的其他损失函数也被提出用于面部验证[36]。虽然FaceNet [36]声称擅长聚类，但性能仅被评估为合格。利用三元组损失的训练是麻烦的，因为它需要创建计算上昂贵的所有可能的三元组。采样策略对于确保快速收敛同时避免退化解变得至关重要基于质心的损失[20，21，26，41]也被提议用于面部验证[46]。在这里，模型被训练成使每个样本更接近其类别的代表而不是任何其他类别的代表，从而导致相同类别的样本被分组到单个聚类中。当测试时已知聚类数时，这些方法是理想的。然而，既没有对聚类的大小/半径的约束，也没有阈值来预测两个样本是否相似，例如，NormFace [46]训练分类器以确定配对是否相似。联合无监督学习（JULE）[52]在执行分层聚类的同时学习表示。然而，由于JULE必须学习聚类分配和表示，因此很难扩展[10，11，27]，并且其计算成本和内存复杂性非常高。此外，JULE仅在测试时已知聚类数的情况下进行测试我们提出了一个模型，组相似的样本到非重叠的球。球簇的半径是学习的，并且与用作我们的聚类算法的停止标准的阈值直接相关（Sec. 3.3）。此外，我们的训练算法具有非常低的算法复杂度：它在批量大小和聚类数量上是线性的。球簇学习类似案件d，<相异病例d，> 3天5029d ��，��≤ rd，<3rd ��，��≤ rd，> 3rFX →F≥∈C2C2我我 i=1我√≥3. 球簇学习（BCL）我们的监督学习方法的主要目标是将嵌入空间划分为每个集群具有共享但可训练半径的球，同时在不同集群标签的球之间创建定义明确的分离（图10）。2）的情况。我们首先定义实现上述目标的约束3.1），用损失函数来表达学习问题（第3.1节）。3.2），然后解释如何在测试时执行聚类（第3.2节）。3.3）。最后，我们回顾了度量学习文献中可能适用于聚类的几个损失（第第3.4段）。记法。设B={（x，y）}N ，y∈{1，· · ·，K}是a图3. 考虑具有4个样本（2个绿色，2个在F=R2中，每个簇中的蓝色）。我们举例说明了包含我们希望分组的N个样本的小批次K簇。我们学习一个映射<$θ：（例如神经网络）由θ参数化。嵌入空间可以是F=R D或F=SD−1={f∈R D：f ∈2=1}，这是受到最近的工作[46]的启发，该工作显示了人脸识别的N2归一化的好处。第i个样本由映射fi= θ（x i）的输出表示。“球”术语：我们将聚类的样本定义为躺在一个球中。然而，当=S D−1时，我们的簇在技术上位于超球锥的超曲面上。3.1. 约束我们分别分析相似和不相似的样品设Ck是第k个相似样本集（即，满足yi=k的样本xi）。一对样本（xi，xj）相似当且仅当yi=yj，否则相异.类似的案子。我们定义μk∈ F为所有在Eq.（2）和Eq。（四）、这个二维空间中的每个网格正方形对应于球半径r。上图：当d（fi，µv）<3r时，我们看到fi和fu是最接近的样本，将通过层次凝聚聚类（HAC）在第一次迭代。底部：当d（fi，µv）>3r时，fi和fu之间的距离大于绿色或蓝色样本对此外，本发明还通过采用最大链接和选择HAC的停止准则为τ=2r（以欧几里德距离计），迭代合并在绿色和蓝色样本分组之后停止最好看的颜色不一样的案子。从以上讨论可知，两个不同的样本（xi，xu）应满足d（fi，fu）> 2r. 此外，由于x uv与其质心µv之间的距离最大为r，因此fi与µv之间的欧氏距离应大于3r，以确保所有聚类都被分离（见图3）。这意味着d2（fi，μv）>（3r）2=9b。我们表示γ = 9b+ ε，其中ε 0是一个小的固定裕度，并将约束公式化：Ckw.r.t.中的样品平方欧几里德距离：f∈C/=C，d（f，μ）≥γ.（四）1µk=ΣΣfi∈arg mind2（fi，μ），（1）i k v ivνF xi∈Ckμ∈Fxi∈Ck与现有度量学习方法的主要区别是我们对两个人之间其中d：F × F →R是欧几里得距离（即，d2（fi，µk）=<$fi−µk<$2）。如果F=RD，则因子νF为N，或每个示例及其期望的质心（Eq.（2）），这反过来又迫使每个聚类的样本在一个球内，Σxi∈Ck2fi2（为了简单起见，我们假设它不为零）半径r 我们还强制将不同的集群分开如果F = S D−1，因为μk被限制在F中（在单位范数超球面上）。对于任何属于k的样本x i，我们希望学习一个表示fi，使得它到µ k的平方距离小于某个学习的阈值b> 0。我们的目标是满足约束条件：其中d（fi，μk）≤b.（二）注意，b被训练为模型参数。我们认为球的半径r为r=Bmaxxi∈Ckd（fi，µk）. 通过使用三角不等式，相似样本满足以下约束：<$xi∈Ck，xj∈Ck，d（fi，fj）≤2r=2<$b.（三）我们选择2r作为阈值来判断两个样本是否相似。5030以一个作为半径的函数的裕度（等式12）来表示。（四））。计算复杂性。与产生二次约束的成对距离相比，对样本和聚类质心之间的距离进行公式化约束显著降低了计算量。所有球的固定半径允许我们将其用作划分群集的阈值。此外，它有可能解决长尾问题，因为每个身份都有相同的嵌入空间，与轨道数量无关。3.2. 问题公式化根据第二节中的所需约束条件，3.1，我们现在制定一个优化问题，试图满足他们。我们的目标是学习簇的平方半径b>05031≥LL≤/− ≤−n ∈ C|C||fyij212Balls和模型的参数θθ，其最小化目标问题L Ball，该目标问题LBall被定义为两个损失之和L球=αLsim+Ldis，（5）其中α0是平衡损失的超参数。我们在下文中介绍了损失条款的细节。损失sim的目标是满足等式中（2），并表示为：τ，当方程的（理想）全局最小值（5）是通过在等式（1）中应用具有连接的HAC而获得的。（8）将相似的示例分组在相同的聚类中，并且分离不相似的示例，因为两个等式（3）和方程（4）满意。3.4. 将相关工作扩展到我们的任务我们比较了BCL与人脸验证任务中常用的各种度量学习方法。1Lsim=ΣΣΣd2（fi，µk）−b、（6）Triplet Loss [36]试图保持距离的顺序在相似的配对（xi，xi）和不相似的配对（xi，xi）之间：N+xi∈CkL三重峰=yi=yj d2（fi，fj）−d2（fi，fu）+m+。而其中[x]+=max（0，x）。在度量学习的上下文中，这通常对应于正损失，因为它将同一个集群的样本。相异损耗dis的目标是满足等式中的相异对约束。（4）并被公式化为：yi/=yu损失确保正比负更接近，裕度m，对正样本之间的距离没有约束。因此，我们不能直接使用余量作为停止HAC算法的阈值。阈值策略。我们选择一个阈值，Ldis=1ΣNxi∈CkMaxv/=kΣ Σγ−d2（fi，µv）.（七）验证集：我们应用HAC算法并选择阈值，预测验证集群的地面真实数。即使对于学习阈值的基线，这种策略也比使用学习的阈值效果更好这一损失旨在远离最令人讨厌的集群通过使用maxvk来计算质心，并且等价于度量学习中的硬否定挖掘[36]。3.3.聚类算法因此，我们使用此策略报告所有基线的分数。对比损失[5]考虑成对约束。对于任何一对样本（xi，xj），当它们相似时，yij=1，否则为0，它们之间的对比损失是L=d（fi，fj）+（1−yij）[m−d（fi，fj）]。这我们现在描述如何执行聚类并预测2 2+给定（测试）数据集上的聚类数。回想一下，我们感兴趣的是解决在测试时簇的数量未知的问题正如在第二节中所解释的 3.1中，我们的约束被公式化，使得相似样本应满足d2（fi，fj）4b和不同的样本应具有较大的距离。我们应用目的是使不同的样品至少相隔m的距离。虽然m通常是一个固定的超参数，但我们将其视为一个可训练的值，就像BCL中的b逻辑判别度量学习（LDML）[12]通过sigmoid函数将距离映射到概率得分，你好。nσ（·）。它可以被写为p ij=p（yi=yj|fi，fj，β）=σ β−d2（fi，fj），其中β是被训练以区分一种聚类算法，它将成对的示例分组，满足这些约束到一个单一的集群。从不同的对中区分出相似的损失是公式-表示为二进制交叉熵并最小化：Lldml=即使已知簇的数量，最小化某些聚类能量函数的分区是Σ Σ-yi=yjlogpij−yiyjlo g（1−p ij）.一个NP-hard问题[2]。因此，找到具有合理复杂性的良好局部最小解的方法是常用的（例如，K-均值[24]）。因此，我们采用层次聚集聚类（HAC）方法[8]：[41]第四十一话如果两个Eq （2）和Eq。（四）满足，则获得以下顺序：X ik，v=k，d2（fi，μk）Bd2（fi，µv）γ。为了满足这个相对约束，我们用公式表示交叉熵损失：每个样本在其自己的聚类中开始，并且聚类对被迭代地合并，直到某个特定的停止标准。在完全连锁的背景下，两个集群U和V是1Lproto=−NΣi∈Ck1log（p（yi=ki））（9）K合并到一个集群中，如果它们最小化：其中p（y i= k|fi）是后验概率：完成时间（U，V）=最大值d2（fu，fv）.（八）exp（−d2（fi，µk）+b）xu∈U，xv∈V让我们将τ >0表示为所选择的阈值，使得HAC+5032≤2∀∈ ∈≤Likv k exp（−d（，µ）+γ）exp（−d2（f，µ）+b）+2f.Iv（十）当不存在两个聚类U和V时，算法停止满足n阶完备（U，V）τ。一旦HAC算法停止，分配给同一聚类U的所有示例满足x aU，x bU，d（fa，fb）τ是完全连锁的定义。因此，我们选择τ= 4b。有了这个值vanilla Prototypical Networks [41]对应于proto当b = γ = 0时。NormFace [46]类似于[41]，一个主要区别是表示是归一化的我们报告b = γ = 0的分数，因为我们通过实验发现，它使用我们的阈值策略返回最佳结果。5033∈×4. 基于BCL的视频人脸轨迹聚类我们讨论了如何BCL可以应用于人脸跟踪聚类。每个样本代表一个面部轨迹，并与特定的身份相关联。我们的目标是创建集群，以便将具有相同标识的轨道分组在一起。在训练过程中，我们通过对固定数量的轨道进行均匀采样来创建小批量。由于训练数据包含几个具有很少（1-2）个轨迹的身份，以及具有数百或数千个轨迹的许多其他身份，因此均匀随机采样保留了小批量内聚类成员的偏斜分布（见图11）。4）.从每个2000100015075培训20040060080010001200簇索引霹雳娇娃第一季第六集10 20 30簇索引40020015075验证102030405060簇索引第五季第六集10 20 30 40簇索引跟踪，我们随机选择一个人脸图像（用作数据增强），并使用预先训练和固定的CNN来提取人脸表示xi。我们将参考这一点作为基本CNN表示。在测试时，我们平均轨道中所有人脸图像的基本表示，并在计算嵌入后应用HAC。这使得轨迹特征鲁棒，同时将其保持在与训练样本相同的空间中。其他轨道级表示，如[23，30，48，53]不在本工作范围内。Base CNN是一个50层的ResNet [16]，具有挤压和激励（SE）块[17]。该模型在MS-1 M数据集[13]上进行了预训练，并在VGGFace 2数据集[4]上进行了微调，并使用交叉熵损失来预测超过8000个身份。我们从最后一层（分类器之前）获得R256该模型被命名为SE-ResNet 50 -256。2我们将证明，当使用不同的基础CNN时，我们的方法同样有效我们不会对CNN进行微调。模型我们的模型是4个线性层的堆栈，中间有ReLU非线性（MLP），并应用于基础CNN表示的顶部当没有另外说明时，隐藏层具有256、128和64个节点，并且最终嵌入维度D=64。我们的约束条件要求b>0。为此，我们使用定义为b=lo g（1+eb）的softplus运算符，并训练R作为模型参数。我们平衡类似的以及基于验证集上的性能的α=4的不相似损失学习我们发现，通过将所有样本映射到同一点并学习平方半径接近于0，我们模型的损失可以显著降低（降低到10%）我们通过冻结前5个epoch来防止学习过程将半径减小到0。随后，损失参数Rlb更新sl〇 wly，其为用于MLP权重的学习速率的0.1倍我们采用SGD，动量为0.9，学习率为0.003，每10个epoch衰减0.9，以更新MLP的权重。我们使用2000个样本（曲目）的小批量，除非另有说明。图4.群集中的轨道数。BBT和BUFFY中的橙色线表示未知/背景字符的轨道计数5. 评价我们首先介绍了我们实验中使用的数据集和指标然后，我们进行消融研究的验证分裂，最后显示和讨论我们的测试集上的结果5.1. 数据集和指标我们使用几部电影和电视剧中的面部轨迹作为训练和评估的一部分。训练和验证分割包括为MovieGraphs数据集[45]中的51部电影提供的面部轨迹和地面真实身份标签。像大多数以前的工作一样，数据集只包含主要字符的注释，并且不消除背景字符之间的歧义。尽管如此，它仍然适合训练，我们使用IMDb获得了如图4所示，许多参与者只有很少的（甚至只有一个）轨迹，这使得训练分布与测试分布相似。我们保留5%的参与者用于验证，并确保在训练或验证期间不会看到测试数据中出现的参与者这导致61，774条轨道（1，214个演员）用于列车分割，3，302条轨道（66个演员）用于验证。测试拆分。我们的评估是对两部电视剧的六集每集：生活大爆炸理论（ BBT ）和吸血鬼杀手巴菲（BUFFY）。两者都被积极地用于人员识别和聚类[3，18，39，55]。3我们希望强调的是，大多数以前的人脸聚类方法只考虑主要（重复）特征，并且知道聚类的数量。我们采用了一个更实际的设置，其中字符的数量是未知的，所有（次要以及背景字符）的轨道都包括在内。我们煞费苦心地解析背景人物的面孔，并为他们分配唯一的标识符。这甚至对人类来说都是困难的，但是通过面部（头发）和非面部（衣服，空间位置）线索的组合来实现最后，我们还评估了几集的组合曲目2我们使用github.com/ox-vgg/vgg_face2提供的预训练PyTorch模型。3我们使用更新版本的轨道，不丢弃背景字符和小/侧面脸。曲目数曲目数曲目数曲目数5034···∈≥F一个集群N集群基地K已知我们τ=4 bCl数量133026669NMI0068.9177.09WCP14.75100.076.5385.65表1.验证集上的性能，显示以下因素的将所有样本放入相同的或它们自己的聚类中。我们还介绍了当集群数量已知时基本CNN特征的性能。验证集有66个地面实况聚类。基本CNN昏暗#PCl数量NMIWCPSE-ResNet50-25625626.5M6977.0985.65ResNet50 204841.1M8076.7487.67表2.不同基础CNN模型的验证集性能。用于ResNet50模型的4层MLP是2048→512→256→128→64。昏暗2561286432168#P263K132K111K109K108K107KCl数量456269687229NMI76.6876.8977.0975.4868.7247.62WCP81.9885.5285.6585.8979.3550.79表3.在不同嵌入维数的验证集上的性能#P表示MLP中的参数数量。(and系列），以模拟其他具有挑战性的场景。图中的每个面1表示与BBT-S1 E1不同的轨道指标. 我们采用三个主要指标来评估绩效：（i）#Cl：是预测的集群的数量，并且应该接近身份的地面真实数量。(ii) 归一化互信息（NMI）[25]：对于一组给定的类标签Y和聚类预测C，NMI计算为2I（Y;C）/（H（Y）+H（C）），其中H（）是熵，I（;）是互信息。NMI是一个平衡的指标，当所有样本都在一个聚类中或它们自己的聚类中时得分为0（见表1）。选择所有模型检查点以最大化验证集上的NMI(iii) 加权聚类纯度（WCP）[43]：也称为聚类精度[55]，WCP通过加权聚类中的样本数量来组合聚类的纯度（属于同一类的样本比例5.2. 消融研究我们做出了几个设计选择，其动机如下。表1通过显示聚类的极端，提供了对验证分割的深入了解。我们还证明了我们的模型优于基本CNN描述符，即使假设基本模型知道聚类的实际数量（Base K已知）。在本节中，验证的理想集群数是66。基本CNN模型。我们证明了CNN模型的选择不会直接影响性能。事实上，我们的基本模型SE-ResNet 50 -256具有输出空间xi∈表4.小批量消融研究。该表的前半部分报告了批次中的聚类数以及具有5个以上样本的聚类数。在后半部分，我们报告了验证的性能。R256，而ResNet50基本型号产生x iR2048。表2显示，两种模型表现出相似的性能。嵌入维度。从表3中的结果，我们可以推断，选择太小的嵌入维数会显着降低性能。然而，设置D32实现了类似的性能。批量大小。我们的模型学习满足约束条件，并对每个小批量中的数据进行聚类。当批量很小时（例如小于50），很可能大多数聚类只有一个样本。这将自动满足正约束，并且梯度为0。使小批量太大会引起计算成本并减少参数更新的次数;该模型需要更多的时期来达到类似的性能。在表4中，我们首先报告了一个批次中聚类的近似数量，以及可以假设具有有意义的质心（>5）的具有5个以上样本的聚类数量。请注意，即使对于一批500个样本，这也可能非常小我们发现，一批2000个样本是一个体面的权衡，实现良好的性能。2个归一化嵌入f i（即，=S D−1）有助于提高性能，并用于我们的模型。在没有NMI2归一化的情况下，我们的方法创建了71个具有NMI的聚类74.57和WCP：83.07（下降2.5%）。训练时的单一人脸图像。在测试时，我们对一个轨道中的人脸图像的基本CNN表示进行平均，而在训练时，我们输入单个图像。这似乎是矛盾的。然而，当我们选择在训练过程中对轨道图像的随机半子集进行平均时，性能要差得多，有124个聚类，NMI（绝对值）低7%。复杂性在BCL训练期间，每个样本仅与聚类/类别的中心相匹配。因此，BCL的复杂度与样本数和类别数呈线性关系这比大多数比较样本与样本的基线要低得多。我们报告了计算一个时期的各种损失所需的挂钟时间（3次运行的平均值）-原型：12.3s;对比：15.5s;LDML：15.5s;三重峰：50.8s; BCL：9.9s。5.3. 测试集我们在表5的第1-6行中展示了测试集事件的统计数据。特别是，注意一些情节如何有一个大的批量500100020004000Cl数量批量220330450600（约）>5个样品154590150性能Cl数量88916929对NMI72.1374.6377.0976.55验证WCP83.7787.2885.6579.685035BBT巴菲BBT巴菲两S1E1S1E2S1E3 S1E4S1E5S1E6S5E1S5E2S5E3 S5E4S5E5S5E66 ep.6 ep.12 ep.1#Ch86262825371322153238451031092122#命名Ch6578661112131413171126373未知通道数2119201931210218252892831754#T656615660613524840795993119489884011123908583297405#命名T647613562568463651786866118585273310553504547789816未知T数量92984561189912794610757404355759交叉熵损失7Cl数量2324373826374339585649521301943238NMI67.4264.5764.8769.7372.5263.0263.1459.5859.0761.4460.5261.7857.9155.5860.339WCP96.8090.5786.3687.9386.8373.8186.6769.9978.4879.7378.1070.6886.5974.5776.05逻辑判别度量学习[12]10Cl数量141519252030253128293130628211611NMI66.4253.2166.5965.3373.0655.7763.5753.3858.5459.5252.6856.5053.1550.6551.9712WCP92.2382.2874.7079.6186.0762.8683.0258.7171.6967.5959.1759.8074.3361.0158.14对比损失[5]13Cl数量141317221932223026292927607111014NMI62.4563.6961.7765.5571.3855.6861.0053.9458.1553.4253.5952.0158.9449.1551.5315WCP90.7086.9964.8576.3575.5765.9577.8656.0967.5960.8062.0250.3677.5357.3048.81[36]第三十六话16Cl数量91215161323232425222326517311117NMI88.1371.2379.8376.7185.7769.3473.6064.2266.2463.6167.8865.4967.9459.7464.7918WCP98.4895.2890.1583.6989.6976.6788.6867.7781.9969.7177.7468.7187.3168.6971.34[41]第四十一话19Cl数量1215222818413232203540368712319720NMI82.2975.1283.7480.2991.3674.3274.2371.0276.1670.4676.6373.4770.4364.9970.2321WCP96.1997.5693.7991.0394.6686.6790.1980.1682.5081.8588.6978.2490.5680.5282.80Ball Cluster Learning（英语：Ball ClusterLearning）22Cl数量7816181123171618222622477111623NMI95.8187.2588.3876.5992.2174.1981.7877.6077.6478.1379.7278.1573.2271.2375.3224WCP98.6398.5490.6186.9589.1281.0792.0879.7684.0084.9789.0580.5889.3683.6282.81Ball Cluster Learning（Ours）+使用自动获得的正/负对进行微调25Cl数量9824242136232725363840697812626NMI97.3497.8094.0090.4295.8383.3284.5982.5978.7677.5881.7179.5188.2677.0580.4227WCP99.2499.6796.0696.0897.7190.3694.9788.1290.2886.1990.2488.1394.1186.6485.84表5.测试集的事件上的聚类性能。S1E2对应于第1季和第2集。最后三列显示了通过组合几集的曲目创建的数据集 Name表示主要命名字符和次要命名字符; Unk表示背景字符;#Ch是字符数;#T是磁道数;#C1是预测聚类的数量，并且应该接近字符的数量（行1）。通过查看每个列来阅读此表，并查看哪种方法能够预测聚类数，并且具有较高的NMI和WCP分数。BBT全部缓冲6 ep.6 ep.12 ep.BclK-均值60.5（92.0）66.7（87.3）68.7（88.0）BCL HAC70.6（93.0） 69.1（85.3） 72.5（86.2）ProK-均值60.7（91.3）64.5（85.4）66.8（85.6）PRO HAC 68.3（91.1） 65.8（80.0） 70.3（83.3）表6. NMI和WCP性能我们的方法（BCL）和原型损失（PRO）时，集群的数量是已知的。背景字符的数目（例如，31对于BBT-S1 E6），而其它不具有（例如，BUFFY-S5 E1为2最后三列指的是通过组合几集的曲目而创建的更大、更难的数据集除了表5之外，我们还绘制了NMI和WCP与图中的集群数量。五、下面，我们将详细讨论每一个损失。交叉熵损失（CE）。CE可以被看作是一个（逻辑）回归问题，它将所有相似的例子合并到一个单一的独热向量中。我们相信这是基地10.90.80.70.60.50.40204060 8010010.90.80.70.60.50.4020 40 60 80 100CNN表示非常擅长聚类（图中的蓝色曲线）5）当字符数已知时。然而，使用验证阈值来选择操作点会导致低得多的性能（76个集群而不是13个）。为了进一步测试这个假设，我们训练了一个MLPθ来分类我们的演员训练集，并使用最后一层的激活作为嵌入。图中的橙色曲线5低于基础模型（蓝色），表明使用更多的#集群#集群图5. NMI和WCP与Buffy S5E1上的簇数。圆圈表示工作点（即对于这些方法的预测聚类数），我们的方法使用HAC阈值4b，而所有其他方法都使用调整为在验证集上给出66个聚类的阈值。最好看的颜色角色可能对基本模型有帮助。然而，尽管如此，选择操作点是困难的。结果见表5[4]合并后的剧集数据集有更多的背景角色，而重复出现的角色的轨迹则相互重叠这进一步扭曲了集群成员关系，最大的集群有几千个磁道，最小的集群仍然只有一个磁道。基本CNN交叉熵对比LDML三重原型BCL（我们的）GTNMI基本CNNCrossEntropy对比LDML三重原型BCL（我们的）GTWCP5036行7-9示出了CE过簇（创建比GT多得多的直接使用基本CNN表示也会导致许多聚类（参见补充）。核查损失。接下来，我们分析LDML、对比和三重损失（表5第10-18行）。虽然这些损失通常用于执行聚类，但它们不是为它设计的[47]。我们看到两大特点：（i）与BCL不同，估计聚类的数量不是一个内置的功能，需要在验证集上选择一个可能不可靠的阈值;（ii）迭代合并中的早期错误可能会损害整体组合。我们观察到，三重损失一贯实现更高的NMI和更好的估计数的集群比对比和LDML。原型损失（PRO）与BCL。类似于验证损失（上面），PRO在已知簇的数量时效果最好（例如，对于少数镜头学习）。损失与K均值有很强的联系，并优化空间以创建良好分离的K聚类[20]。有趣的是，在我们的实验中，N2归一化嵌入将PRO的性能降低了15%以上。我们报告了非规范化表示的PRO分数，当基于验证集传输阈值时，这些分数也更稳定。事实上，通过比较表5的第19行和第1行，我们可以看到，当背景字符很少时，PRO高估了聚类的数量（BCL，第22行，在这里工作得很好），但在有几个背景字符的剧集中表现得虽然PRO估计了更多的聚类，但这并不能转化为更好的分配。例如，在BUFFY-S5 E4上，PRO比BCL多预测13个聚类（35 vs. 22），更接近地面实况32集群，但达到7.7%的低NMI和3%的低WCP。具有更多聚类的较低纯度是不良聚类的强指标。我们还比较了当聚类数K已知时PRO和BCL之间的性能（见表6）。BCL是能够始终优于两个K-均值或HAC聚类方法的原型损失。我们还尝试了K均值的扩展，当表示固定时，它可以以无监督的方式自动确定聚类的数量[14，32]它们的性能比我们在验证集上选择阈值的方法更差补充材料中有更多的比较。定性。图6显示了BCL(top)与BBT-S1 E1上的PRO（底部）相比Bcl与地面实况8相比，预测7个聚类，并将背景女孩的单例轨迹（PRO中的这两种方法都可以找到另一个未命名的字符-BCL中的C4，PRO中的C6。虽然BCL合并了Sheldon和Kurt（C1）的一些曲目，但PRO能够找到Kurt（C7）。然而，PRO将Raj（C1，C8）、Penny（C3，C11）和Leonard（C2，C10）的集群对每一集进行微调。我们的模型可以直接应用于几个不同的数据集，通过使用学习的阈值4b，而无需微调，这是一个主要的优势。图6.可视化BCL（顶部）和PRO（底部）为BBT-S1 E1创建的集群请参阅supp。其他剧集的素材。根据以前的工作，使用从每个情节自动获得的正负对[6，43，54]，BCL可以很容易地修改以微调我们的模型并使其具有特定的演员阵容。具有背景人物的镜头通常是拥挤的（多个面孔），它们之间的负约束可以帮助解决混乱。表5第25-27行显示了微调后的整体性能改善;重要的是，估计的字符数（第25行）更接近地面实况（第1行）。关于微调程序和与微调后的基线进行比较的详细情况，见补充材料。6. 结论我们提出了球簇学习-一种监督的方法，将表示空间划分为相等半径的球我们展示了半径如何与凝聚聚类方法中使用的停止准则相关，并评估了这种方法对视频中人脸轨迹的聚类。特别是，我们考虑了一个现实的设置，其中集群的数量是未知的，并从所有字符（主要或其他）的轨道都包括在内。我们回顾了几种度量学习方法，并将其适用于这种聚类设置。BCL显示出有希望的结果，据我们所知，它是第一种学习阈值的方法，可以直接用于估计聚类的数量。致谢。这项工作得到了MSR-Inria联合实验室，Louis-Vuitton - ENS AI主席，DARPA可解释AI（XAI），NSERC和三星的支持。5037引用[1] Rahaf Aljundi ， Punarjay Chakravarty ， and TinneTuytelaars.那个演员是谁？从IMDB图像开始的电视剧中演员的自动标签。 2016 年亚洲计算

下载后可阅读完整内容，剩余1页未读，立即下载