基于视频的无约束人脸识别中Tracklet之间上下文连接的不确定性建模

142 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

703基于视频的无约束人脸识别中Tracklet之间上下文连接的不确定性建模郑静晓1余瑞驰1陈俊成2卢博宇1卡洛斯D.卡斯蒂略1拉玛切拉帕11UMIACS，马里兰大学，College Park2 CITI，中央研究院，台湾{jxzheng，yrcbsg}@ umiacs.umd.edu，pullpull@citi.sinica.edu.tw，{bylu，carlos，rama}@ umiacs.umd.edu摘要基于视频的无约束人脸识别是一个挑战性的问题，因为视频中的姿态、遮挡和模糊会引起显著的变化。为了解决这一问题，一个有效的方法是通过基于身体外貌等语境构建的语境连接将身份从高质量的人脸传播然而，以前的方法往往传播错误的信息，由于缺乏不确定性建模的嘈杂的上下文连接。在本文中，我们提出了不确定性门控图（UGG），它进行基于图形的身份传播之间的轨迹，这是由图中的节点表示UGG通过在推理过程中根据节点的身份分布自适应地更新边门的权重来显式地建模上下文连接的不确定性。UGG是一个通用的图形模型，只能在推理时应用，也可以在端到端训练时应用。我们在最近发布的具有挑战性的电影演员搜索和IARPA Janus监控视频基准数据集中展示了UGG的有效性1. 介绍基于视频的无约束人脸识别是计算机视觉和生物识别领域几十年来的一个研究热点。在视觉监控、视频内容分析和访问控制等广泛的应用中，其任务是将无约束探头视频中的主体尽管基于深度卷积神经网络（DCNN）的方法的最新进展已经在基于静止图像的人脸识别中实现了与人类相当或更好的性能[28，20，23，1，21，26，27，6，5]，无约束的基于视频的人脸识别仍然是一个具有挑战性的问题，由于显着的面部特征，目前在Waymo工作StillFace画廊G1G2G3S1S4框架1框架2S2S3视频样本图1：基于视频的人脸识别问题的示例，包括三个静态人脸库主题和四个视频样本橙色箭头显示了身体外观相似性的积极联系。黑色箭头表示从同现信息构建的否定连接。蓝色箭头表示与地面实况画廊的面部相似性。箭头越粗，连接就越强。红十字表示一种误导性的联系。具有固定连接的图可能通过这些误导性连接传播错误信息(The图最好是彩色的。）由姿势、运动模糊和遮挡引起的外观变化。为了填补静态图像和无约束视频中人脸识别之间的性能差距，一种可能的解决方案是用大量训练数据训练特定于视频的模型，这是困难且昂贵的。另一种有效的方法是利用基于图像的人脸识别方法，首先识别具有有限变化的视频人脸，然后利用一些视频上下文信息，如人体外观和人实例之间的时空相关性，将身份信息从高质量的人脸传播到低质量的人脸。例如，在图1中，通过利用身体外观，我们可以将从正面S4获得的身份信息传播到侧面S1，这是非常难以单独识别的。上述想法已经使用基于图的ap进行了探索704[13，7，25]。图是用节点来表示一个或多个人物实例的帧（轨迹）和连接轨迹的边然而，这些方法的一个主要错误的连接可能传播错误的信息.如图1所示，这些方法可以基于S2和S3的相似身体外观在S2为了解决这个问题，我们提出了一个基于图形模型的框架，称为不确定性门控图（UGG）建模的不确定性连接使用上下文信息。我们将UGG表示为图上的条件随机场，并在连通图的边上引入额外的门节点。利用精心设计的能量函数，轨迹子1的身份分布由在推断期间通过这些门节点传播的信息更新反过来，这些门节点的自适应更新，根据连接的轨迹的身份分布不确定性门节点由两种类型的门组成：控制正连接的置信度的正门（鼓励连接的对具有相同的身份）和控制负连接的负门（不鼓励对具有相同的身份）。值得注意的是，负面联系可以通过阻止明显不同的受试者之间的相似身份分布来显著促进性能改进，例如，两个人在同一个画面2.分别对正/负信息进行经验建模，使我们的模型能够在具有挑战性的条件下考虑不同的上下文信息，并改进不确定性建模。我们的方法可以直接应用于推理时，或插入到端到端网络架构中进行监督和半监督训练。在两个具有挑战性的数据集上评估了所提出的方法，即电影中的演员搜索（CSM）数据集[13]和IARPA Janus监视视频基准（IJB-S）数据集[14]，与现有方法相比，具有更高的性能。本文的主要贡献概括如下：• 通过显式建模，提出了一种用于视频人脸识别的在图形边缘上使用不确定性门的轨迹片段之间的连接的不确定性tracklet和门被联合更新，并且可能的连接错误可以在推断期间被校正。• 我们利用积极和消极的联系进行信息传播。尽管它很有效1我们遵循与[13]相同的tracklet定义。2在图1中，S3和S4在视频的同一帧中的共现是强先验的，以指示它们的不同身份。在用于无约束人脸识别的先前方法中，否定连接经常被忽略。• 所提出的方法是有效的和灵活的。它可以在没有监督的情况下在推理时使用或者被认为是用于监督和半监督训练的可训练模块。2. 相关作品深度学习人脸识别：深度学习被广泛用于人脸识别任务，因为它已经证明了显着的性能改进。Sun等人。[26，27]在LFW数据集上取得了超过人类表现的结果[12]。Parkhi等人。 [20]在人脸验证方面取得了令人印象深刻的结果。Chen等人。 [1，2]报告了在IJB-A，JANUS CS2，LFW和YouTubeFaces [32]数据集上的非常好的性能。Ranjan等人 [21]在IJB-C[19]上取得了良好的性能 Zheng等人 [33]在包括IJB-B在内的视频人脸数据集上取得了良好的性能[31 ][32][33][34][35] [5]提出了一个最近的人脸识别器与国家的最先进的性能。标签传播：标签传播[35]在计算机视觉中有许多应用。Huang等人 [13]提出了一种使用标签传播方案而不是平凡标签扩散来搜索视频中的人的方法。Kumar等人。 [16]提出了一种基于视频的人脸识别方法，通过选择关键帧并将关键帧上的标签传播到其他帧。 Sheikh等人 [24]使用标签传播来减少使用随机森林的语义分割的运行时间。Tripathi等人。 [29]介绍了一种基于标签传播的对象检测方法。条件随机场：条件随机场（CRF）[17]是计算机视觉研究中常用的概率图形模型。 Kr aühenbuühl等[15]是最早使用CRF进行语义分割的研究者之一Chen等人。 [3，4]提出了一种基于DCNN的语义分割系统，并使用CRF进行后处理。Zhenget al. [34]进一步介绍了一个深度网络的端到端框架，其中包含用于语义分割的CRF模块。Du等人。 [7]使用CRF来解决无约束视频中的人脸关联问题。图形神经网络：图神经网络（GNN）[22，10]是一种与图模型相结合的神经网络，使得消息在图中传递，更新网络的隐藏状态。Shen等人。 [25]使用GNN来解决人员重新识别问题。Hu等人[11]介绍了一种基于GNN的结构化标签预测方法，该方法允许正面和负面消息在外部知识指导的标签之间传递。但是图的边在测试过程中是固定的。Wang等人[30]介绍了一种使用堆叠GNN模块的零射击学习方法。Lee等人。 [18]提出了另一种基于知识图的GNN消息传递的多标签零射击学习方法。705i→ji→ji→jIJIJ数据预处理特征提取相似度计算图推理训练/测试StillFace画廊第一季（1）πp1→3第三季（1）人脸网络训练损失第一季（2）π1→3n第三季（2）背撑无法-链接πp1→2πp面部、身体探测器2→3面临πn1→2Q（1）πn22→3车身网络成对相似性测试第二季（2）探头视频不确定门图机构输出相似性面部相似度图2：所提出的方法的概述。给定静态人脸图库和探测视频，我们首先从视频中检测所有人脸和相应的身体。面通过跟踪器关联到轨迹片段中。人脸特征的画廊和轨迹，和身体特征的轨迹提取相应的网络。相似性是从这些扁平化的特征中计算出来的。面部和身体的相似性，连同不能链接的约束，从检测信息被送入建议的UGG模型。推理后，输出用于测试，或生成端到端训练的损失。上面提到的大多数基于图的方法只允许正面消息在图中传递，并且在测试过程中它们都依赖于具有固定边的3. 该方法该方法的概述如图2所示。对于每个探头视频，检测面部并将其关联到轨迹中。画廊图像和探头轨迹之间的初始面部相似性计算由一个静止的人脸识别器。轨迹片段之间的连接是基于它们的面部、身体外观和它们的时空关系的相似性来生成的。然后，我们构建UGG，其中这些tracklet和连接充当节点和边。轨迹之间的连接被建模为节点之间的不确定性门。通过消息传递优化UGG模块的能量函数，可以有效地实现推理3.1. 问题公式化并且Ltt提供否定上下文信息。通过组合这些信息，输出图库与轨迹片段的相似性计算为：Sgt=UGG（Sgt，Stt，Ltt）∈RC×N（2）其中UGG（·）是基于所提出的不确定性门控图的函数在接下来的部分中，我们将详细介绍该模型。3.2. 不确定性门控图首先，给定检测到N个轨迹的视频，构建图G=（V，E），其中每个节点对应于一条小道节点i只连接到它的邻居 N（i）。在图G的基础上，定义了一个随机场X ={X1，. . .， XN}关联到节点V。Xi∈L={1，. . . ，C}是trackleti的标签变量。Xi=l表示图库主题L被分配给轨迹片段I。我们称这些节点作为样本节点。我们进一步将门节点添加到E中的每条边对于基于视频的人脸识别问题，假设我们附加随机场Y={Ypni→j {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 在每个有C画廊主题和探测视频。门节点i→j中的面首先检测该视频并将其跟踪到N个轨迹片段中。门Yp∈ {0，1}和负门Yn{0，1}，到对于每个tracklet，我们计算C相似性得分，科目因此，我们给出了类与轨迹片段的相似性控制trackleti和j之间的连接。3.2.1能量函数Sgt=sgtΣliΣ ∈RC×N和轨迹间的相似性GTUGG模块的能量函数定义为：Stt =TT∈RN×N，其中s是两个人的相似之处图库L和轨迹片段I，S之间的相似性是Σ ΣXppnnIJi和j. 此外，不能链接矩阵Ltt=E（x，y） =u（xi）+[u（yi→j）+u（yi→j）]i∈Vi∈V，j ∈N（i）给定tt∈ {0，1}N×N，使得.+p（x，x，yp）+n（x，x，yn）]（3）Ltt=1trackleti和j的标识不同（一）tiji→jtiji→jIJ0没有约束trackleti的一元势是基于身份信息S>作为，YSL李706在这里，Sgt提供了先前的身份信息，Sttpro-显示trackletx（xi=l）=−Tgt·sgt（四）乌利707李我S）IJi→j：，iIJi→ji→ji→j：，ii→ji→ji→jti→j我我我其中Tgt是温度系数。惩罚将是低的1）对于样本节点，我们有如果身份信息S>是强。我们还定义了正门的一元势q（0）= softmax（Tgt（吨）GT：，iGTtcp，（t−1）（t−1）基于关系信息Stt，qi= softmax（TgtS：，i+αpj∈N（i）πi→jqjp（yp=1）=−Ttt·stt（五）n，（t−1）（t−1）ui → jij-αnπi→jqj）（10）j∈N（i）其中Ttt是相应的温度系数。处罚如果正连接STt强，则在边缘i → j处的打开的正栅极的其中Sgt是Sgt的第i列。2）对于门节点，我们让pos-负栅极的一元电势定义为：Σ阳性门j∈N（i）πp，（t）=1用于归一化目的。n（yn=k）=.0，如果Ltt=k（六）然后我们有πp，（0）=sofftmax（T（stt）ui → j+∞否则i→jN（i）ttijπp，（t）=sofftmax（T stt+αq（t−1）·q（t−1））（11）对于k∈ {0，1}。因此，打开负栅极，节点i→j由负连接Ltt确定。i→jN（i）ttijpij正三重态电势定义为：.其中softmaxN （i）（·）是邻域N（i）中的softmax运算。从（6），我们也有αp如果yp =1且xixjn，（t） ttp（xi，xj，yp）=i→j0否则（七）πi→j=Lij（12）对于t = 0，. . 、K. 因此，负的边际概率其中αp是正惩罚。由于y p=1意味着tracklet i和j之间的一个开放的正门，如果xi和x j采用不同的标签，则它会向节点i和j生成正信息。类似地，负三重态电势被定义为：在推理过程中，tive gate是固定的。从这些递归更新方程中，我们可以看到：1) 当更新样本节点i时，来自N（i）中的qj.n（x，x，y n）=αnni→j =1且xi=xj（八）负（−αn）消息。把这些信息与先前的身份信息Sgt组合在一起我不是Ji→j0否则为了在下一个中更新节点i的身份分布qi，迭代其中αn是负惩罚。由于yn=1意味2) 当更新门节点i→j时，类似于在轨迹片段i和j之间打开负门，其生成如果xi和xj具有相同的标签，则向节点i和j发送负信息在N（i）中qi和它的邻居qj之间的一致性通过两两内积来测量。通过将这种相似性与初始上下文连接得分STt，pij3.3. 模型推理更新用于所述第i个网关的网关开放度πi→j。如果qi·qj小，πp将在迭代中逐渐消失，直接寻找最小化E（x，y）的标签分配是一个难以处理的组合优化问题。相反，类似于[15]，我们使用平均场方法来近似分布P（X，Y）exp（−E（X，Y））乘以独立边值的乘积避免误导性连接传播错误信息。基于不能链接的负门在推理过程中是固定我们共同进行这些双向更新，以便样本节点从它们的邻居那里接收有用的信息。Q（X，Y）=YQi（Xi）我Yj∈N（i）pi→jpi→jni→jni→j ）（9）通过可靠的联系，逐步完善他们的身份分布，以及图中的误导性连接逐渐被这些细化的身份分布所纠正。这里Qi（Xi）是节点i的身份分布，的回报。请参阅补充备忘录-pi→jpi→j）和Qnni→j ）是状态分布用于推导节点更新详细信息和说明的材料。在边缘i→j上的正和负栅极的分别。设q（t）=<$Q（1）（t） ···Q（C）（t）<$T为恒等式在第t次迭代时节点i的分布向量。πp，（t）=如果yQ（Y）Q（Y（YQ（Y708在获得使D（Q）最小化的近似Q（X，Y）之后，||P）在K次迭代中，我们使用恒等分布，作为来自tracklet的输出相似性分数SgtQp，（t）（1）和πn，（t）i→j=Qn，（t）（1）是以下情况的我一、画廊主题。：，ii→ji→ji→j分别在边缘i→j上打开正门和负门。活泼地最小化KL-散度D（Q||P（X，Y）和Q（X，Y）之间的P）产生以下消息传递更新：3.4. UGG：培训和测试设置UGG测试：对于测试，UGG模块可以直接在推理时应用，在推理时我们计算输入709Σ利伊杰我ijij矩阵Sgt、Stt和Ltt，在UGG模块中设置超参数然后，该模块通过递归计算来产生输出相似度St。UGG培训：与RNN类似，所提出的UGG模块可以被认为是可微递归的。租用模块并插入任何神经网络进行端到端训练。如果视频人脸训练数据可用，我们可以利用它们进行训练，以进一步提高性能。从培训视频和图库中提供tracklets{Ti}{Gl}，我们使用两个DCNN网络Fgt和Ftt，其中参数θgt和θtt在静止图像上进行预训练，以分别生成Sgt和Stt，sgt=Fgt（Gl，Ti;θgt），stt=Ftt（Ti，Tj;θtt）（13）并输入UGG模块4.1. 数据集CSM：CSM数据集是一个大规模的人物搜索数据集，包括一个包含静态图像中的演员肖像的查询集和一个包含从电影中收集的tracklet的图库集。数据集的评估指标包括平均精度（mAP）和tracklet识别的召回率（R@k）。CSM数据集中使用了两种协议。一个是IN，它只在一次看一部电影另一个是ACROSS，它在测试集中的所有电影中的tracklet中搜索。详情请参阅[13IJB-S：IJB-S数据集是一个无约束的视频人脸识别数据集。数据集非常具有挑战性，因为低质量的监控录像在本文中，我们主要关注与我们的主题相关的两个协议，监视-模块生成输出相似度后Sgt为单对单协议（S2SG）和预约监控图1，. . .，N在K次迭代之后，我们计算这个协议（S2B）。图库由单个静止图像组成，视频作为L=1LC（λsi，zc）+λΣ LP（stt，zb）（14）S2SG和S2B中的多个静止图像探测器是远程捕获的监控视频，所有的轨迹都来自这些视频。Ni∈SiN2i，j∈SIJIJ必需的. 我们报告每个tracklet平均top-K标识，在这里，LC是在真实情况下的跨部门损失分类标签ZC。L P 是一个二元交叉在具有真实二进制标记的STt上的熵损失λ是权重因子。S是带标签的tracklet的集合。通过整个网络的反向传播，总损耗L用于学习Fgt和Ftt中的DCNN参数θgt、θtt，以及UGG模块中的温度参数Tgt、Ttt为了在更新期间找到一元分数和来自邻居的消息之间的良好平衡，学习Tgt、Ttt根据S的不同选择，训练可以分为三种设置：1. 监督设置：S=V，其中图中的每个训练样本都被标记。在此设置中，我们可以直接利用图中的所有tracklet进行训练。2.半监督设置：图中的训练样本只被部分标记。在此设置中，模块的输出仍然通过信息传播依赖于图中的所有tracklet。因此，通过反向传播，监督信息通过UGG模块中的连接从标记的轨迹子传播到未标记的轨迹子，并使它们能够有益于训练。3. 无监督设置：S=0，其中没有标记的训练数据可用。在这种情况下，我们跳过训练因为没有监督。4. 实验在本节中，我们报告了所提出的方法在两个具有挑战性的基于视频的人物搜索和人脸识别数据集中的实验结果：电影中的演员搜索（CSM）数据集[13]和IARPA Janus监视视频基准（IJB-S）数据集[14]。阳离子准确性和端到端检索率（EERR）度量[14]中提出的性能评估。详情请参阅[144.2. 实现细节CSM：对于CSM数据集，我们使用[13]提供的面部和身体特征。预处理详见补充资料。使用验证集，我们选择参数T gt= 10，T tt= 15，α p= 5，K =2 ， λ=0 。 1 且 λ f=0 。 1 ， T gt=20 ， T tt=30 ， αp=15，K=2，λ=0。1且λ f=0。1为ACROSS协议，在UGG模块中进行测试。我们还在监督设置中对UGG模块中提供的特征以及参数进行线性嵌入训练培训详情见补充材料。IJB-S：对于IJB-S数据集，请参阅补充材料以了解预处理详情。我们经验性地使用了T gt= 15，Ttt=15，α p=10，α n=2，K=4，λ=0的超参数组态. 1且λ f=0。1在UGG模块中进行测试。为了与[33]进行比较，我们使用相同的配置进行tracklet过滤和每个配置的评估指标：1）过滤：我们保留那些长度大于或等于25并且平均检测分数大于或等于0.9的tracklet。2)没有过滤。4.3. 基线方法我们使用两种基线方法在CSM和IJB-S数据集上进行实验：脸：面部相似性是直接使用没有任何细化。PPCC：[13]中提出的通过竞争共识的渐进传播方法用于后处理。对于CSM数据集，1710方法在跨地图R@1R@3R@5地图R@1R@3R@5面（平均值）53.33%76.19%91.11%96.34%42.16%53.15%61.12%64.33%PPCC（平均）[13]62.37%84.31%94.89%百分之九十八点零三59.58%63.26%74.89%78.88%PPCC（最大值）[13]63.49%83.44%94.40%百分之九十七点九二62.27%62.54%73.86%77.44%UGG-U（平均值）62.81%85.21%百分之九十五点六五98.30%63.31%66.73%76.09%79.32%UGG-U（max）63.74%84.93%百分之九十五点三六百分之九十八点三七63.42%65.72%74.90%77.88%UGG-U（favg）64.36%84.96%94.90%97.98%64.85%67.33%75.38%78.21%UGG-ST（favg）65.12%86.73%95.70%百分之九十八点三四67.00%71.16%77.82%百分之八十点一五UGG-T（favg）65.41%87.28%百分之九十五点八七98.28%67.60%71.51%78.33%80.56%表1：CSM数据集的结果。请注意，UGG-U（favg）是训练前的无监督初始设置。UGG-ST（favg）是半监督训练设置，其中25%的样本被标记。UGG-T（favg）是有监督的训练设置。方法使用过滤的Top-K平均准确度不带过滤的EERR度量R@1R@2R@5R@10R@20R@50R@1R@2R@5R@10R@20R@50FACE（favg）64.86%70.87%77.09%81.53%86.11%93.24%29.62%32.34%35.60%38.36%41.53%46.78%PPCC（favg）[13]67.31%73.21%79.06%83.12%87.38%93.68%30.57%33.28%36.53%39.10%42.00%47.00%[33]第三十三话69.82%75.38%80.54%84.36%87.91%94.34%32.43%34.89%37.74%40.01%42.77%47.60%UGG-U（favg）74.20%77.67%81.43%84.54%87.96%93.62%32.70%35.04%37.54%39.79%42.43%47.10%UGG-U（sub）77.59%80.46%83.70%86.20%89.23%百分之九十四点五五34.79%36.88%39.11%百分之四十点九43.37%百分之四十七点八六表2：1：IJB-S监测到单一方案的N检索结果。UGG-U（favg）直接使用平均平坦化特征之间的余弦相似性。UGG-U（sub）使用[33]中提出的子空间-子空间相似性。我们使用[13]中报告的数字。针对IJB-S数据集，我们使用作者提供的代码实现了该方法为了公平比较，下面[13]，使用两种输入相似性设置：avg：相似度是通过图库和轨迹片段或两个轨迹片段之间的所有逐帧余弦相似度的平均值来计算的。max：相似性由图库和轨迹片段或两个轨迹片段之间的所有逐帧余弦相似性的最大值计算在IJB-S上，我们还实现了基于子空间的相似性[33]，表示为sub。最近的两项工作[9]和[8]也报告了IJB-S数据集的结果。这些工作通过将其检测与数据集提供的地面实况边界框相匹配来构建视频模板。我们的方法遵循[33]，并将视频帧中的人脸关联起来，以构建模板（轨迹），而无需利用任何地面实况信息。由于这两个模板构建过程非常不同，因此直接比较没有意义。这些基线对两个数据集的结果分别列于表1、表2和表3。PPCC的平均运行时间也在表4中报告，在具有72个 Intel Xeon E5-2697 CPU 、 512 GB 内存和两个NVIDIA K40 GPU的机器我们观察到PPCC仅在IJB-S数据集上实现了边际改进。它的推理速度也很慢，特别是在构造大型图4.4. 对拟议UGG方法的评价在CSM数据集上，根据训练数据的使用情况，我们评估了UGG的三种设置，包括：UGG-U：没有训练，UGG模块作为后处理模块在无监督设置下UGG-T：使用完全标记的训练数据，在监督设置中训练UGG模块和线性嵌入。UGG-ST：随机选择25%标记和75%未标记训练数据711在每部电影中，UGG模块和线性嵌入都是在半监督设置中训练的。在IJB-S数据集上，由于数据集只提供测试数据，因此我们使用无监督设置，只测试UGG-U。用于训练的额外输入相似度是平均池化后的平坦化特征之间的余弦相似度，并表示为favg。相应的结果分别示于表1、2和3中，在相同机器上测试的平均运行时间报告于表4中。关于CSM的评论1. UGG vs FACE：UGG的所有设置都明显优于原始基线FACE。UGG-T（favg）提供了关于几乎所有具有大裕度的评估度量的最新结果2. UGG vs PPCC [13]：在没有训练的情况下使用相同的输入相似度，UGG-U比PPCC表现更好，具有相对较大的裕度，特别是在ACROSS原型中。由于在ACROSS协议中，在来自所有电影的tracklet中搜索查询，因此基于身体外观的连接在电影之间不像IN协议中那样可靠。因此，通过在推理过程中更新轨迹之间的门，UGG能够实现比基于固定图的PPCC更好的性能。3. 监督vs无监督：从UGG-U（favg）到UGG-T（favg），我们观察到训练带来的显著改善。它表明，有标记的数据，UGG模块可以插入到深度网络中进行端到端训练，并实现进一步的性能改进。4.半监督vs无监督：我们观察到从UGG-U（favg）到UGG-ST（favg）的相当大的改进。这意味着，通过可靠的信息传播，712i→ji→ki→ji→k方法使用过滤的Top-K平均准确度不带过滤的EERR度量R@1R@2R@5R@10R@20R@50R@1R@2R@5R@10R@20R@50FACE（favg）66.48%71.98%77.80%82.25%86.56%93.41%30.38%32.91%36.15%38.77%41.86%46.79%PPCC（favg）[13]68.96%74.44%79.84%83.75%87.68%93.80%31.37%33.98%37.04%39.49%42.35%47.01%[33]第三十三话69.86%75.07%80.36%84.32%88.07%94.33%32.44%34.93%37.80%40.14%42.72%47.58%UGG-U（favg）74.79%78.35%81.81%84.85%88.15%93.80%33.29%35.48%37.87%40.02%42.60%百分之四十七点一四UGG-U（sub）77.02%80.08%83.39%86.20%89.29%94.62%34.83%36.81%39.11%41.10%43.38%47.74%表3：1：N IJB-S监管-预订方案的检索结果UGG-U（favg）直接使用平均平坦化特征之间的余弦相似性UGG-U（sub）使用[33]中提出的子空间-子空间相似性。方法CSMIJB-S在跨S2SGS2bPPCC[13]2.23s458.56s571.31s580.16sUGG-U2.60s41.85s104.88s111.35s表4：CSM和IJB-S数据集的平均运行时间在推理过程中。定性结果：为了说明所提出的方法的有效性，图3中还显示了一个定性示例。Trackleti和j属于不同的标识符。（0）（0）（0）（0）连线和轨迹线I和K属于相同的标识。的QJ·qi = 0。05qi·qk=0。64初始化的概率πp，（0）=0。41大于πp，（0）=0。十五岁如果门是固定的，信息将在i和j之间错误地传播。利用所提出的方法，我们可以根据来自i和j的身份信息自适应地更新门。由于身份不明-相似度q（0）·q（0）= 0。05很小，两个J Itracklet不太可能具有相同的标识。因此连接πp，（1）=0。09.第09章被人欺负了约会同样，由于q（0）·q（0）= 0。64是大的，积极的I kTrackletjTrackletiTrackletk联系πp，（1）=0. 61相应加强。4.5. 消融研究图3：CSM数据集的定性示例。由于相似的主体外观，轨迹线i和j之间的正连接最初是强的。在所提出的方法的推理步骤中，由于两个轨迹之间的不同身份分布，这种连接被削弱。它避免了错误的信息通过连接传播相比之下，轨迹子i和k之间的连接由于它们相似的身份分布而被加强。在图中，UGG模块可以仅用部分标记的数据进行训练，并且仍然可以实现与监督设置相当的结果。关于IJB-S的意见：1. UGG vs FACE 和 PPCC [13] ：在两种协议中，UGG-U在几乎所有评估指标上的表现都优于FACE和PPCC，且裕度相对较大，这再次表明了所提出方法的有效性。2.UGG +更好的相似性度量：UGG-U（sub）通过结合基于子空间的相似性和UGG来实现最先进的结果。实验结果表明，该方法在相似性度量改进的基础上，进一步提高了分类性能。3. EERR指标：EERR度量[14]相对低于识别精度，因为它会惩罚错过的人脸检测，这超出了本文的范围。运行时间：从表4中，我们观察到UGG在大多数协议上的运行速度比PPCC快5倍，这表明UGG更适合在大型图上进行测试我们对CSM和IJB-S数据集进行了消融研究结果示于表5中。我们从基线FACE开始，没有任何信息传播，然后逐渐添加该方法的关键特征：PG：添加固定的正门来传播正信息。PGcl：与PG相同，不同之处在于当存在cannot-linkNG：添加负门以传播负信息。aG：使用所提出的方法自适应地更新PG或PGcl中的正门。由于CSM数据集中没有给出检测信息，因此没有可用的因此，所提出的方法UGG-U对应于CSM数据集上的PG+aG和IJB-S数据集上的PGcl+NG+aG从表5中，我们观察到：1）通过引入固定的正门，与基线结果相比，性能提高，这表明正信息由身体相似性控制的传播提高了性能。（2）通过增加cannot-link来控制正门电路，获得了边际改进。因此，如果仅允许正信息传播，则性能改进是有限的。3）通过使用相同的不能链路引入额外的负门，性能显著提高，这证明了允许负信息在轨迹片段之间传播4）最后，通过自适应地更新不同身份分布相似身份分布削弱连接加强衔接0.15 0.61πp，（0）i→jπp，（1）i→jπp，（0）i→kπp，（1）i→k相似的身体外观相似的身体外观713LLLu配置CSM平均值CSM in maxIJB-S in favg在跨在跨S2SGS2bPGPGclNGAG地图R@1地图R@1地图R@1地图R@1A@1E@1A@1E@1C58.72%76.19%55.67%53.15%61.29%76.64%58.20%54.60%64.86%29.62%66.48%30.38%61.14%84.95%62.00%66.02%61.60%84.79%62.05%64.63%71.21%30.66%72.05%31.37%C--------71.26%30.73%72.16%31.54%CC--------73.24%32.35%73.78%32.88%CC62.81%85.21%63.30%66.73%63.74%84.93%63.42%65.72%72.32%30.92%73.15%31.64%CC--------72.46%31.02%73.28%31.73%CCC--------74.20%32.70%74.79%33.29%表5：消融研究。在配置中，PG代表为正信息添加正门。PGcl代表通过cannot-links的额外控制来NG代表为负信息添加负门aG代表自适应更新正门。A@1代表在R@1下过滤的平均准确度。E@1代表在R@1处未过滤的配置在跨PGTrainaGTrainUGGTest地图R@1R@3R@5地图R@1R@3R@5C61.13%77.86%91.79%96.65%58.34%56.56%63.83%66.34%61.39%77.99%91.77%96.61%58.94%57.31%64.26%66.88%CC61.40%78.12%91.85%96.67%58.70%57.64%64.49%67.22%C64.14%85.90%百分之九十五点四二98.10%65.82%69.45%76.83%79.34%CC64.58%86.36%95.53%98.27%66.90%70.74%77.83%80.02%CCC64.60%86.68%百分之九十五点五六百分之九十八点二四67.09%71.31%77.93%百分之八十点三九表6：CSM数据集上半监督训练的附加研究。PGTrain代表在训练期间使用固定的正门。aGTrain代表在训练期间自适应地更新门UGGTest表示在测试过程中使用UGG模型在所有实验中，只有25%的训练样本被标记。门，我们在两个数据集的所有协议中实现了最佳性能。结果表明自适应更新门的优点。4.6. 不同训练设置的实验我们还在CSM数据集上进行了半监督训练的额外实验，结果如表6所示。在实验中，类似于UGG-ST设置，我们首先在每个图中随机挑选25%的tracklet作为标记样本，其余75%作为未标记样本。我们只在这些训练数据上使用固定的UGG模块训练人脸特征的线性嵌入假设在应用了我们想要学习的嵌入之后，与标记/未标记的轨迹片段之间更好的相似性是S>=S>，S>。我们使用三种不同的设置来训练嵌入：1）使用交叉熵损失直接在标记的相似性Sgt上训练，而不调用UGG模块。2）使用具有正gates的UGG模块来处理Sgt，并通过交叉熵损失来训练与标记的轨迹片段相对应的输出相似度Sgt表示为PGTrain。3）自适应地更新PGTrain中使用的正门，表示为aGTrain。有关培训详情，请参阅补充材料。使用两种设置来测试嵌入的性能：1）直接在S gt上测试来自学习的嵌入，而不使用UGG作为后处理。2）测试从学习嵌入和UGG后，处理，表示为UGGTest。从表6中的结果，我们观察到，在半监督设置中，用UGG训练的嵌入比不用模块训练的嵌入更具辨别力。它在两种测试设置中都实现了更好的性能。它通过在tracklet之间传播信息，UGG还在训练期间利用来自那些未标记的tracklet的信息，这对于半监督学习很重要此外，具有自适应门的UGG比固定门表现得更好，这表明自适应门在训练期间也是有帮助的，因为它可以在轨迹片段之间更精确地传播信息。5. 结论和未来工作提出了一种基于图模型的视频人脸识别方法。该方法通过自适应连接在tracklet之间传播肯定和否定的身份信息，这受到tracklet之间的上下文信息和身份分布的所提出的方法既可以用于后处理，也可以以监督和半监督的方式进行训练它在CSM和IJB-S数据集上实现了最先进的结果。一个有趣的未来工作将是使用属性信息，如性别，构建负连接和自适应更新负门。确认这项研究是基于由国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA），通过IARPA&研发合同号支持的工作。2019-022600002.本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可（无论是明示还是暗示）。政府。美国政府被授权为政府目的复制和分发重印本，尽管其上有任何版权注释714引用[1] 陈俊成，陈俊成.帕特尔和拉玛·切拉帕使用深度CNN特征的无约束人脸验证。InWACV，March 2016. 一、二[2] 陈俊成， Rajeev Ranjan ， Swami Sankaranarayanan ，Amit Kumar，Ching-Hui Chen，Vishal M.卡洛斯·帕特尔卡斯蒂略和拉玛·切拉帕基于深度卷积神经网络的无约束静态/视频人脸验证。IJCV，126（2）：272-291，2018年4月。2[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。TPAMI，40（4）：8342[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan Loddon Yuille.使用深度卷积网络和全连接crfs进行语义图像分割。CoRR，abs/1412.7062，2015年。2[5] Jia Guo ， X

下载后可阅读完整内容，剩余1页未读，立即下载