基于联合表示学习和在线聚类的无监督活动分割方法

169 浏览量更新于2023-10-25 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20174我们的方法优先工程基于联合表示学习和在线聚类的Sateesh Kumar†Sanjay HareshAwais Ahmed安德烈·科宁M. Zeeshan Zia郭辉·陈Retrocausal公司华盛顿州西雅图www.retrocausal.ai摘要我们提出了一种新的无监督活动分割方法，它使用视频帧聚类作为借口任务，同时进行表示学习和在线聚类。这与先前的作品相反，在先前的作品中，表示学习和聚类通常是顺序进行的。我们利用时间信息的视频采用时间最优传输。特别地，我们将一个时间正则化项，它保留了活动的时间顺序到标准的最优传输模块中，用于计算伪标签集群分配。时间最优传输模块使我们的方法能够学习有效的表示无监督活动分割。此外，以前的方法需要在以离线方式聚类之前存储整个数据集的学习特征，而我们的方法以在线方式一次处理一个小批。对三个公共数据集进行了广泛的评估即50沙拉，YouTube说明和早餐，以及我们的数据集，即，桌面组装，表明我们的方法执行与以前的方法相当或更好，尽管有显着更少的内存限制。1. 介绍随着深度学习的出现，在理解视频中的人类活动方面取得然而，到目前为止，大多数研究工作都集中在动作识别[11，76，77，82]，其中的任务是对短视频中的简单动作进行分类。最近，已经提出了一些方法来处理长视频中的复杂活动，例如，时间动作局部化[13，68，69，88]，其目的是检测视频分段，†表示共同第一作者。{sateesh，sanjay，awais，anjun，zeeshan，huy} @ retrocaet.ai。顺序学习和聚类（一）联合学习和聚类（b）第（1）款图1. (a)以前的方法[43，52，65，78]通常顺序执行表示学习和聚类，同时在聚类之前存储整个数据集的嵌入特征(b)我们将表示学习和聚类统一到一个联合框架中，该框架一次处理一个小批量。我们的方法明确优化了无监督活动分割，是更有效的内存。包含感兴趣的动作的片段，以及异常检测[27，32，74]，其目标是在未修剪的视频中定位包含异常事件的视频帧。在本文中，我们感兴趣的问题，节奏的活动分割，我们的目标是分配一个复杂的活动捕捉到一个动作/子活动类的长视频的关于这个主题的一组流行的方法[14，40，41，46，53然而，所有训练视频的帧级注释通常很难获得，而且成本高得令人望而却步。需要弱标签的弱监督方法，例如，还提出了每个视频的有序动作列表或转录[12，18，35，42，50，61，62，64不幸的是，这些弱标签并不总是先验可用的，并且可能是耗时的，特别是对于大型数据集。为了避免上述注释要求，最近引入了非监督方法[3，43，52，57，65，66，78]。给出一组未标记的视整个数据集小批量在线聚类表示学习表示学习离线聚类20175频，20176它们联合发现动作，并通过将所有视频上的帧分组为簇来对视频进行分段，其中每个簇对应于动作之一。无监督活动分割中的先前方法[43，52，65，78]通常将表示学习步骤与顺序学习和聚类框架中的聚类步骤分开（参见图1（a）），这防止了来自聚类步骤的反馈流回表示学习步骤。此外，它们需要在以离线方式聚类之前存储整个数据集的计算特征，导致内存使用效率低下。在这项工作中，我们提出了一种用于无监督活动分割的联合表示学习和在线聚类方法（见图1（b）），该方法使用视频帧聚类作为借口任务，因此直接优化了无监督活动分割。我们采用时间最优传输来利用视频中的时间信息。具体而言，时间最优传输模块在计算伪标签聚类分配时保留了活动的时间顺序，从而为无监督活动分割提供了有效表示。此外，我们的方法一次处理一个小批，因此具有更少的内存需求。总的来说，我们的贡献包括：• 我们提出了一种新的无监督的活动分割方法，它联合执行表示学习和在线聚类。我们利用视频帧聚类作为借口任务，从而直接优化无监督活动分割。• 我们引入了时间最优传输模块，通过对计算的伪标签聚类分配施加时间顺序保持约束来利用视频中的时间线索，从而为无监督活动分割提供有效的表示。• 我们的方法在公共数据集上的无监督活动分割方面与最先进的方法相当或更好，即，50-沙拉、YouTube指令和早餐，以及我们的数据集，即，台式机作为一个系统，同时更有效地利用内存。• 我们收集并标记我们的Desktop Assembly数据集，该数据集可在https://bit.ly/3JKm0JP上获得。2. 相关工作下面我们总结了时间活动分割和自监督表示学习的相关工作。无监督活动分割。无监督活动分割中的早期方法[3，57，66他们假设旁白是可用的，并与视频保持一致，但情况并非总是如此，因此限制了它们的应用。最近开发了纯粹依赖视觉输入的方法[43，52，65，78Sener等人。[65]提出了一种迭代方法，该方法在学习区分性出现模型和优化活动的生成时间模型之间交替，而Kukleva等人。[43]介绍了一种多步骤方法，包括学习时间嵌入和对学习的特征执行 K 均值聚类 VidalMata 等人。 [78] 以及 Li 和Todorovic [52]通过分别学习视觉嵌入和动作级嵌入进一步改进了[43上述方法[43，52，65，78]通常将表示学习与聚类分开，并且需要在聚类之前存储整个数据集的学习特征。相反，我们的方法将表示学习和聚类结合到一个联合框架中，同时一次处理一个小批，从而获得更好的结果和分类效率。最近，Swetha et al.[75]提出了一种联合表示学习和聚类方法。但是，我们的做法在几个方面与他们不同。首先，我们使用最优传输进行聚类，而他们使用判别式学习。其次，对于表示学习，我们使用基于聚类的损失，而他们使用重构损失.最后，尽管我们的编码器更简单，但我们的方法在公共数据集上具有类似或弱监督活动分割。一些工作集中于对时间活动分割的弱监督，诸如视频中出现的动作的顺序，即，记录监督[12，18，35，42，50，61，62，64]，以及视频中发生的一组动作，即，集合监督[21，51，63]。最近，Li等人。[54]将时间戳监督应用于时间活动分割，这需要为每个动作片段注释单个帧。然而，我们的方法不需要任何动作标签。基于图像的自我监督表示学习。自Hinton和Zemel [34]的早期工作以来，已经投入了相当大的努力[7，22，26，38，44，45，56，60，79]来设计带有人工图像标签的借口任务这些包括图像去噪[79]，图像着色[44，45]，对象计数[56，60]，解决夹具-锯拼图[7，38]，并预测图像旋转[22，26]。最近，一些方法[4，5，8- 10，25，36，84，86，87，90 ]已经引入了例如，在[8，9]中，K均值聚类分配被用作学习自监督图像表示的伪标签，而伪标签分配是通过解决[4，10]中的最优运输问题来获得的在本文中，我们专注于学习自我监督的视频表示，这需要探索视频中的空间和时间线索特别是，我们遵循[4，10]的基于聚类的方法，然而，与它们不同的是，我们20177ΣΣ−/NΣ∈在，我们表示 C=[c1，c2，. - 是的- 是的、c、K]exp（zTz+）∈我K1TJIj我联系我们--利用时间最优传输来利用时间线索。基于视频的自我监督表示学习。在过去的几十年里，已经提出了各种各样的借口任务来学习自监督视频表示[2，6，15，17，23，24，2891、92]。一组流行的方法通过预测未来帧[2，17，71，80]或其编码来学习表示。[24，30，37]. 另一组研究时间时间顺序等信息[15，23，47，58，85]，时间相干性[6，28，29，59，91，92]。上述方法一次处理一个视频。最近，已经引入了一些方法[19，31，67]，可以同时优化一对视频TCN [67]通过不同视点和相邻帧的时间对比损失来学习表示，而TCC [19]和LAV [31]在视频记录之间执行帧匹配和时间对齐在这里，我们通过聚类视频帧来学习自监督表示，这直接优化了无监督活动分割的下游任务。然而，与他们的方法，这是专为图像数据，我们提出了时间的最佳运输，利用时间信息，另外可在视频数据。下面我们描述了我们在无监督活动分割的学习表示方面的损失。交叉熵损失给定帧X，我们首先将它们传递给编码器fθ以获得特征Z。然后，我们计算预测代码P，每个条目写为：exp（1zTc）Pij=τ，（1）j'=1exp（τzicj'）其中Pij是第i帧被分配给第j个集群的概率，τ是温度参数[83]。伪标签码Q通过求解时间最优传输问题来计算对于基于聚类的表示学习，我们将关于编码器参数θ和原型C的交叉熵损失最小化为：BK3. 我们的方法LCE =1QBiji=1j =1logP i j.（二）我们现在描述我们的主要贡献，这是一个无监督的活动分割方法。特别是，我们提出了一种联合自监督表示学习和在线聚类方法，它使用视频帧聚类作为借口任务，因此直接优化无监督活动分割。我们利用时间信息在视频中使用时间最优传输。图2示出了我们的方法的概述。下面我们首先定义一些符号，然后提供我们的表示学习和在线聚类模块的细节。符号。我们将嵌入函数表示为fθ，即，具有可学习参数θ的神经网络。我们的ap-方法将小批量X ={x1，x2，. - 是的- 是的，xB}，时间相干损失。为了进一步利用视频中的时间信息，我们考虑添加另一个自监督损失，即，时间相干性损失。它学习遵循时间相干性约束的嵌入空间[28，29，59]，其中时间上接近的帧应该映射到附近的点，时间上远离的帧应该映射到远处的点。为了实现快速收敛和有效表示，我们采用了[70]提出的N对度量学习损失对于每个视频，我们首先采样由zi表示的N个有序帧的子集（其中i为1，2，.，N）。对于每个zi，我们然后在λ的时间风ω w内从+其中B是X中的帧数。对于X中的框架xi，xi的嵌入特征表示为zi=f θ（xi）∈RD，其中D是兹岛此外，针对zj（其中j = i）采样的zj被认为是zi的“负”示例。我们将关于编码器参数θ的时间相干性损失最小化为：嵌入特征X的嵌入特征是1次经验（zTz+）NN然后写为Z=[z，z，. . .，z]T∈RB×D。更多-不RK×D作为LTC=−日志一.（三）K个集群的可学习原型，其中cj表示第j个集群的原型。最后，P∈RB×K，最终损失。我们的最终损失写为：B×K+L = L CE+ αL TC。（四）QR+是预测的簇分配（即，预测的“代码”）和伪标签簇分配（即，伪标签3.1. 表示学习为了学习非监督活动分割的自监督表示，我们提出的想法是使用视频帧聚类作为借口任务。因此，学习的特征被明确优化用于无监督的活动分割。在这里，我们考虑一种类似于[4，10]的基于聚类的自监督表示学习方法。这里，α是时间相干性损失的权重。我们的最终损失相对于θ和C进行了优化。交叉熵损失和时间相干性损失是可重构的，并且可以使用反向传播进行优化。注意，我们不通过Q反向传播。3.2. 在线聚类下面我们描述我们的在线聚类模块，用于在线计算伪标签代码Q。根据[4，10]，我们考虑计算Q的问题为12Bi=1j=120178小批量帧X表示学习原型C特征Z预测代码P交叉熵损失编码器fθ∈∈+∈Σ−ΣIJ刚果民主共和国d =，ijOT+KBBBK K在线聚类时间最优运输伪标签Q代码图2.给定帧X，我们将它们馈送到编码器fθ以获得特征Z，其与原型C组合以产生预测代码P。同时，Z和C也被馈送到时间最优传输模块以计算伪标签码Q。我们通过在P和Q上应用交叉熵损失来联合学习θ和C。最优运输问题，并通过一次使用一个小批量X在线求解Q这与用于无监督活动分割的先前工作[43，52，65，78]不同，其需要在以离线方式对其进行聚类之前存储整个数据集的特征，因此具有明显更多的内存限制。最佳传输。给定从帧X中提取的特征Z，我们的目标是计算伪标签码Q，其中每个条目Qij表示特征zi映射到原型cj 的概率。具体地，Q通过求解最优运输问题来计算为：请参见图5和在说明书材料中的更多讨论）。上述最优运输问题的解可以通过使用迭代Sinkhorn-Knopp算法[16]计算为：Q=diag（u）exp.其中uRB和vRK是重正化向量。时间最优运输上述方法是最初在[4，10]中为图像数据开发，因此不能利用视频数据中的时间线索MaxQ∈QTr（QTZCT）+Δ H（Q），（5）无监督活动分割。因此，我们建议将保留活动的时间顺序的时间正则化项纳入等式中的目标五、产生时间最优传输。Q=.Q∈RB×K：Q1=11，QT1=11mm。（六）受[73]的启发，我们引入了Q的先验分布，即TRB×K，其中最高值出现在对角线上，值沿对角线逐渐减小这里，1B和1K分别表示维度B和K由方程式在图5中，第一项测量特征Z和原型C之间的相似性，而第二项（即，H（Q）=与对角线垂直的方向。具体地，T维持簇的固定顺序，并且强制将初始帧分配给初始簇，并且强制将稍后帧分配给稍后簇。在数学上，T可以由2D分布表示，其边缘分布Bi=1Kj=1 Qij logQij ）测量熵规则-沿着任何一条垂直于对角线的直线Q的量化，而Q是熵项的权重一大值通常会导致一个平凡的解决方案，以对角线上的交点为中心的分布，如：每个帧具有被分配给每个簇的相同概率。因此，我们在实验中使用一个小的k值，以避免上述琐碎的解决方案。此外，Eq.6表示相等分区约束，1Tij=σ2πexpD2−2σ2|i/B−j/K|1/B2 + 1/K2（八）每个簇被分配相同数量的帧从而防止了将所有帧分配给单个簇的琐碎解决方案。虽然上述的等分割先验并不适用于具有各种动作长度的活动，但我们发现，在实践中，它对具有各种动作长度的大多数活动都相对有效（例如，其中dij是从入口（i，j）到对角线的距离。虽然上述时间顺序保持先验不适用于具有排列的活动，但我们从经验上观察到，它在大多数情况下表现相对较好。包含排列的数据集（例如，请看Tabs。第3、4、5条，以及补充材料中的更多讨论）。.Σ20179i=1Σ不Qρ∈∈××××为了鼓励Q的值的分布尽可能地与T相似，我们将等式中的目标替换为：5，具有时间最优运输目标：小时根据以前的工作，我们报告结果在两个粒度级别，即，Eval有12个动作类，Mid有19个动作类。对埃瓦尔来说，MaxQ∈QTr（QTZCT）−ρKL（Q||T）。（九）类被合并成一个类（例如，ber”, 因此，它具有较少的动作类在这里，KL（Q||T）=100000Kj=1 Qij logQijIJ是比中。我们使用[81]预先计算的特征。Q和T之间的Kullback-Leibler（KL）分歧，以及ρ是KL项的权重。注意定义为Eq。六、根据[16]，我们可以推导出上述时间最优运输问题的解：• YouTube Instructions（YTI）包含150个视频，包括5个活动。视频平均时长约2分钟。此数据集还具有大量标记为背景的帧。按照以往QTOT =diag（u）exp.ZCT + ρ log Tdiag（v），（十）作品，我们使用[3]提供的预先计算的功能。• 早餐包括10个活动，每个活动约8个平均视频长度从几个其中uRB和VRk是重正化向量。与以前的方法[43，52，65，78]不同，这些方法需要将整个数据集的特征加载到存储器中，我们的方法每次只需要将小批量的特征加载到内存中。这将内存需求从O（N）显著降低到O（B），其中B是小批量大小，N是整个数据集中的帧的总数，并且B比N小得多，特别是对于大型数据集。例如，CTE [43]需要57795 30 8字节的内存来存储50 Salads数据集上的特征，而我们的方法需要512 30 8字节用于相同的目的，其中N=57795，B=512，30是最终嵌入的大小。4. 实验实施详情。我们使用2层MLP来学习预计算特征之上的嵌入（见下文）。 MLP之后是一个点积运算，其中的原型是随机初始化的，并通过第二节中给出的损失通过反向传播第3.1条ADAM优化器[39]用于学习速率为10−3，重量衰减为10−4。对于每个活动，原型的数量设置为动作的数量in the activity活动.对于我们的方法，动作的顺序是固定的，如第2节所述。3.2.在推理过程中，计算所有帧的聚类分配概率。然后，这些概率被传递到维特比解码器，用于在给定动作的顺序的情况下平滑概率。请注意，为了公平比较，上述协议与CTE [43]中的协议相同，这是最接近我们的工作。请在补充材料中查看更多细节。数据集。我们使用三个公共数据集（均在知识共享许可下），即50沙拉[72]，YouTube指令（YTI）[3]和早餐[40]，同时介绍我们的桌面组装数据集：• 《50份沙拉》由50个演员表演烹饪活动的视频组成。整个视频时长约为4。5几秒钟到几分钟，取决于活动。根据以前的工作，我们使用[41]提出并由[43]共享的预先计算的特征。• 我们的桌面组装数据集包括76个演员执行组装活动的视频。该活动包括22项以固定顺序进行的行动。每个视频大约1.5分钟。我们使用在ImageNet上预先训练的ResNet-18 [33]中预先计算的特征更多详情请参见参考资料。指标. 由于没有为训练提供标签，因此在预测片段和地面实况片段之间没有直接映射。为了建立这个映射，我们遵循[43，65]并执行匈牙利匹配。请注意，匈牙利匹配是在活动级别进行的，即，它在活动的所有帧上计算。这与[1]中使用的匈牙利匹配不同，匈牙利匹配在视频级别完成，并且由于更细粒度的匹配，通常会导致更好的结果[78]。我们采用平均帧（MOF）和F1分数作为我们的指标。M0F是在所有活动上平均的正确逐帧预测的百分比。对于F1-Score，要计算精确度和召回率，阳性检测必须与地面真实片段重叠超过50%。F1-为每个视频计算分数，并对所有视频进行平均。详情请参阅[43]。竞争方法。我们比较了各种未监督的活动分割方法[3，43，52，65，75，78]。弗兰克-沃尔夫[3]探索伴随叙事。Mallow [65]在基于判别学习的表示学习和基于一个广义的马洛模型CTE [43]利用时间戳预测进行表示学习，然后利用K均值进行聚类。VTE [78]和ASAL [52]通过视觉提示（通过未来帧预测）和动作级提示（通过动作洗牌预测）重新调整进一步改善CTE [43UDE [75]使用判别学习进行聚类，使用重建损失进行表示学习。20180∈∈4.1. 消融研究结果我们对50份沙拉进行了消融研究（即，评估粒度）和YTI，以显示我们的设计选择的有效性。3 .第三章。标签图1和图2显示了消融研究结果。我们首先从标准的最优传输（OT）开始，没有任何时间先验。来自Tabs 1和2，OT具有最差的整体性能，例如， OT获得27分。F1-在50份沙拉上得分为8，11。6为F1-得分和16。0%用于YTI上的MOF。接下来，我们实验向OT添加时间先验，包括CTE中的时间戳预测损失[43]（产生OT+CTE），Sec中的时间相干性损失。3.1（产生OT+TCL），和时间顺序保持在第二节之前。3.2（产生TOT）。我们注意到，虽然OT+CTE、OT+TCL和TOT都优于OT，但TOT实现了其中最好的性能，例如，42 .第42章8为F1-得分50沙拉，和30。0为F1-分数和40。6%的MOF在YTI。通过在图3中绘制由不同变体计算的伪标记码Q，也证实了上述观察结果。可以看出，OT未能捕获活动的任何时间结构，而TOT设法相对较好地捕获活动的时间顺序（即，初始帧应该映射到初始原型，反之亦然）。最后，我们考虑添加更多的时间先验，TOT ，包括 CTE 中的时间戳预测损失 [43] （产生TOT+CTE）和Sec中的时间相干性损失。3.1（产生TOT+TCL）。我们观察到TCL通常是 TOT+TCL获得48. F1为2-变体F1得分MOFOT27.837.6OT+CTE34.340.4OT+TCL30.327.5TOT42.847.4TOT+CTE36.040.8TOT+TCL48.244.5表1. 50份沙拉的消融研究结果（即，Evalgranularity）。最佳结果以粗体显示。第二个最好的是下划线。变体F1得分MOFOT11.616.0OT+CTE22.035.2OT+TCL24.835.7TOT30.040.6TOT+CTE26.738.2TOT+TCL32.945.3表2.YouTube说明上的消融研究结果最佳结果以粗体显示。第二个最好的是下划线。50个沙拉和32个。F1得分为9，45。3%的在YTI上的MOF。我们注意到，TOT+TCL具有较低的MOF而不是TOT on 50 Salads，这可能是因为TCL优化了不同动作的不同表示，但是多个动作类被合并到50个Salads中的一个（即，Evalgranularity）。4.2. 超参数设置结果α的影响。我们研究了不同α值的影响，即，在Eq.中基于聚类的损失和时间相干性损失之间的平衡权重4.第一章我们在YouTube说明上测量F1分数。图图4（a）示出了结果，其中性能在α = 1附近达到峰值。0的情况。p的影响。不同ρ值的影响，即，平衡之间的相似性项和方程中的时间顺序保持项的权重图4（b）中显示了9。我们使用YouTube指令并测量F1分数。从图 4（b），ρ[0. 07，0。1）表现最好。ρ = 0时的下降。01是由于数值问题（见[73]的图6）。η的影响。图图4（c）示出了改变η值的结果，即，TOT训练期间的 Sinkhorn-Knopp迭代次数。我们在YouTube指令上测量F1分数。从结果来看，η[3，5]表现最好。较大的η值不会提高性能，但会增加(a) 加班（b）加班+CTE(c)TOT（d）TOT+TCL图3.针对50个沙拉视频通过不同变体计算的伪标签代码Q计算成本很高。B的影响。增加B值的结果，即，TOT训练期间的小批量大小，如图4（d）所示。我们使用50沙拉数据集（Eval粒度）并测量F1分数。从结果中可以看出，性能随着小批量大小的增加而提高。4.3. 50 Salads数据集选项卡. 3给出了不同的无监督活动分割方法在50个沙拉上的MOF结果。从20181方法Eval中期(a) α（b）ρ(c)η（d）B图4.超参数设置结果。Y轴显示F1分数。我们在（a-c）中使用YTI，在（d）中使用50沙拉（Eval粒度）。结果，TOT优于CTE [43] 11。9%和1。6%的评价和中等粒度分别。同样，TOT也比VTE [78]高出16。8%和7.6%的评价和中等粒度分别。请注意，CTE使用顺序表示学习和聚类框架，是我们最相关的竞争对手。VTE通过经由未来帧预测探索视觉信息来进一步改善CTE，这在TOT中未被利用TOT在CTE和VTE上的显着性能增益显示了此外，TOT在Eval粒度上表现最好，比ASAL [52]和UDE [75]的最新作品好8。2%和5。2%。最后，通过结合TOT和TCL，我们实现了34。3%的中粒度，这是非常接近的最佳性能 34 。 4% 的ASAL。此外，TOT+TCL的表现优于ASAL和UDE 5。3%和2. 3%。如前所述，在Eval粒度上，TOT+TCL具有比TOT更低的MOF，这可能是由于Eval粒度中的大的类内变化。4.4. YouTube指令数据集上的结果在这里，我们将我们的方法与最先进的方法[3，43，52，65，75，78]进行比较，用于YTI上的无监督活动分割在所有上述工作之后，我们报告了不考虑背景帧的选项卡. 四是提出结果。从Tab中可以看到。4，TOT+TCL在两个指标上都达到了最佳性能，优于所有竞争方法，包括ASAL [52]和UDE [75]的最新作品。特别是TOT+TCL达到32. F1评分为9分，而ASAL和UDE评分为32分。1和29。分别6。同样，TOT+TCL达到45.3%用于MOF，而ASAL和UDE表3. 50个沙拉最佳结果以粗体显示。第二个最好的是下划线。方法F1得分MOF弗兰克-沃尔夫[3]24.4-马洛[65]27.027.8CTE [43]28.339.0职业教育[78]29.9-ASAL [52]32.144.9[75]第七十五话29.643.8我们的（TOT）30.040.6我们的（TOT+TCL）32.945.3表4. YouTube上的结果说明。最好的结果在大胆点第二个最好的是下划线。获得44. 9%，43。8%。最后，尽管TOT在两个指标上都不如TOT+TCL，但TOT的性能优于一些竞争方法。具体而言，TOT的F1评分高于UDE [75]、VTE [78]、CTE [43]、Mallow [65]和Frank-Wolfe [3]，MOF高于CTE [43]和Mallow [65]。4.5. 早餐数据集我们现在讨论不同方法在早餐上的表现选项卡. 5显示结果。可以看出，ASAL [52]最近的工作在这两个指标上都获得了最佳性能。ASAL [52]采用CTE [43]进行初始化，并探索行动层面的改进线索，这些线索也可以用于提高我们方法的性能。接下来，TOT比CTE[ 43 ]的顺序表示学习和聚类方法的性能高4。6和5。7%的F1-Score和MOF，而与VTE [78]和UDE [75]表现相当，例如，对于MOF，TOT达到47。5%，而VTE和UDE获得48。1%，47。4%。此外，TOT在最相关的竞争对手CTE上的显着性能增益证实了联合表示学习和聚类的优势一些定性结果如图5所示。可以看出，我们的结果比CTE的结果更接近最后，结合TOT和TCL产生了类似的F1分数，但MOF低于TOT，这可能是由于早餐数据集中的大类内变化。CTE [43]35.530.2职业教育[78]30.624.2ASAL [52]39.234.4[75]第七十五话42.2-我们的（TOT）47.431.8我们的（TOT+TCL）44.534.320182方法F1得分MOF方法F1得分MOFCTE [43]44.947.6我们的（TOT）51.756.3我们的（TOT+TCL）53.458.1表5.早餐的结果最佳结果以粗体显示。第二个最好的是下划线。图5.早餐视频的分割结果。4.6. 桌面部件数据集先前的工作，例如，CTE [43]和VTE [78]通常通过时间戳预测来利用时间信息然而，在实践中，相同的动作可能发生在跨视频的各种时间戳处，例如，不同的演员可能以不同的速度执行相同的动作。相反，我们的方法通过时间最优传输来利用时间线索，这保留了活动的时间顺序。选项卡. 图6示出了CTE和我们的方法的结果（即，TOT和TOT+TCL），其中活动包括按固定顺序执行的22个操作。从Tab。6，TOT+TCL在两个指标上表现最好，即，五十三F1得分为4分，58分。1%的MOF。此外，TOT和TOT+TCL在这两个指标上都明显优于CTE，即，TOT和TOT+TCL获得的F1-得分增加6。8和8. 5分别超过CTE，和MOF增益为8。7%和10个。5%。4.7. 泛化结果到目前为止，我们已经遵循了所有以前在无监督活动分割中的工作，使用同一组未标记的视频进行训练和测试。我们现在探索另一个实验设置来评估我们的方法的泛化能力。具体来说，我们将数据集进行了拆分，即，50份沙拉（评估粒度）、YouTube说明、早餐和桌面组装，其中80%用于培训，20%用于表6. 桌面组装的结果。最好的结果在大胆点第二个最好的是下划线。数据集方法F1得分MOFECTE [43]18.412.2我们的（TOT）我们的（TOT+TCL）38.244.238.338.6YCTE [43]16.417.0我们的（TOT）我们的（TOT+TCL）20.623.624.738.8BCTE [43]23.440.6我们的（TOT）我们的（TOT+TCL）24.525.145.336.1DCTE [43]33.836.0我们的（TOT）我们的（TOT+TCL）45.145.449.751.0表7.泛化结果。最佳结果以粗体显示。第二个最好的是下划线。E表示50份沙拉（Eval粒度），Y表示YouTube说明，B表示早餐，D表示桌面组装。测试，例如，对于总共50个视频的50个沙拉，我们使用40个视频进行训练，10个视频进行测试。选项卡. 7给出了我们的方法和CTE的结果[43]。正如预期的那样，所有方法的结果都比前几节报告的结果有所下降此外，我们的方法在该实验设置中继续优于CTE。5. 结论我们提出了一种新的无监督活动分割方法，它联合执行表示学习和在线聚类。我们引入了时间最优传输，它在计算伪标签集群分配时保持了活动的时间顺序。我们的方法是在线的，一次处理一个小批次。我们在三个公共数据集上显示出与最新技术水平相当或更高的性能50销售广告，YouTube的说明，和早餐，和我们的桌面组装数据集，而有实质上更少的机密要求。我们未来工作的一个场所是处理顺序变化和背景帧，如LAVA [55]。此外，我们的方法可以扩展到包括额外的自我监督损失，如视觉线索[78]和动作水平线索[52]。最后，我们可以利用深度超视[20，48，49，89]进行分层分割。马洛[65]-34.6CTE [43]26.441.8职业教育[78]-48.1ASAL [52]37.952.5[75]第七十五话31.947.4我们的（TOT）31.047.5我们的（TOT+TCL）30.339.020183引用[1] Sathyanarayanan N Aakur和Sudeep Sarkar。一个用于自我监督事件分割的感知预测框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第1197-1206页5[2] Unaiza Ahsan，Chen Sun，and Irfan Essa.Dispensnet：使用生成对抗网络从视频中进行半监督动作识别。arXiv预印本arXiv：1801.07230，2018。3[3] Jean-Baptiste Alayrac ， Piotr Bojanowski ， NishantAgrawal，Josef Sivic，Ivan Laptev，and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习。在IEEE计算机视觉和模式识别会议的论文集，第4575-4583页，2016年。一、二、五、七[4] YM浅野，C Rupprecht和A Vedaldi。通过同步聚类和表征学习的自我标记。2019年国际学习表征会议。二、三、四[5] MiguelA'ngelBautista ， ArtsiomSana ko yeu ， EkaterinaTikhonch ev a，andB joérnOmme r. Cliquecnn：深度非监督范例学习。在NIPS，2016年。2[6] 作者声明：John Bengio，James S.用于预训练复杂细胞状网络的缓慢、去相关特征。神经信息处理系统的进展，第99- 107页，2009年。3[7] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在IEEE计算机视觉和模式识别会议集，第2229-2238页2[8] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。2[9] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在IEEE/CVF国际计算机视觉会议，第29592[10] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。在神经信息处理系统，2020年。二、三、四[11] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。1[12] Chien-Yi Chang ， De-An Huang ， Yanan Sui ， Li Fei-Fei，and Juan Carlos Niebles.D3tw：用于弱监督动作对齐和分割的判别可微动态在IEEE/CVF计算机视觉和模式识别会议论文集，第3546-3555页一、二[13] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构，用于时间动作损失-钙化在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。1[14] Min-Hung Chen，Baopu Li，Yingze Bao，Ghassan Al-Regib，and Zsolt Kira.联合自监督时域自适应的动作分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第9454-9463页，2020年。1[15] Jinwoo Choi，Gaurav Sharma，Samuel Schulter，and Jia-BinHuang.ShuffleandAttend ： VideoDomainAdaptation.欧洲计算机视觉会议，第678Springer，2020年。3[16] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，26：2292-2300，2013。四、五[17] 阿里·迪巴，维韦克·夏尔马，吕克·范古尔，和雷纳·斯蒂费尔-哈根. Dynamonet：动态动作和运动网络。在IEEE计算机视觉国际会议论文集，第6192-6201页，2019年。3[18] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在IEEE计算机视觉和模式识别会议的论文集，第6508-6516页，2018年。一、二[19] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在IEEE计算机视觉和模式识别会议论文集，第1801- 1810页3[20] Mohammed E Fathy，Quoc-Huy Tran，M Zeeshan Zia，Paul Vernaza和Manmohan Chandraker。2d和3d几何对应的分层度量学习和匹配。在欧洲计算机视觉会议（ECCV）的会议记录中，第803-819页8[21] Mohsen Fayyaz和Jurgen Gall。Sct：集合约束时间变换器Transformer，用于集合监督动作分割.在IEEE/CVF计算机视觉和模式识别会议论文集，第501-510页，2020年。2[22] 风泽宇，常旭，大成涛。通过旋转特征解耦的自监督表示学习。在IEEE计算机视觉和模式识别会议论文集，第10364-10374页，2019年。2[23] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别会议论文集，第3636-3645页，2017年。3[24] Harshala Gammulle，Simon Denman，Sridha Sridharan，and Clinton Fookes.预测未来：共同学习的行动预测模型。在IEEE国际计算机视觉会议集，第55623[25] Spyros Gidaris ， Andrei Bursuc ， Nikos Komodakis ，Patrick P e'rez，andMatthieuCord.通过预测视觉词汇来学习表征在IEEE/CVF计算机视

下载后可阅读完整内容，剩余1页未读，立即下载