自监督时域自适应：解决动作分割的时空变化问题的跨域方法

201 浏览量更新于2023-10-25 收藏 1.14MB PDF 举报

动作分割

跨域问题

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9454联合自监督时域自适应Min-Hung Chen1李宝璞2鲍颖泽2GhassanAlRegib1ZsoltKira11佐治亚理工学院2百度美国摘要尽管全监督动作分割技术最近取得了进展，但性能仍然不完全令人满意。一个主要的挑战是时空变化的问题（例如，不同的人可以以不同的方式执行相同的活动）。因此，我们利用未标记的视频来解决这个问题，通过将动作分割任务重新定义为一个跨域问题，该问题具有由时空变化引起的域差异。为了减少这种差异，我们提出了自监督时间域自适应（SSTDA），它包含两个自监督辅助任务（二进制和序列域预测），以联合对齐嵌入局部和全局时间动态的跨域特征空间，实现比其他Do- main自适应（DA）方法更好的性能。在三个测试基准数据集（GTEA，50Salads和Breakfast）上，SSTDA的性能大大优于当前最先进的方法（例如，对于 F1@25 分数，早餐从 59.6% 到69.1% ， 50沙拉从 73.4% 到 81.5% ， GTEA 从 83.6% 到89.1%），并且对于相当的性能仅需要65%的标记训练数据，证明了跨变化适应未标记目标视频的有用性。源代码可在https://github.com/cmhungsteve/SSTDA上获得。1. 介绍动作分割的目标是同时按时间分割视频并预测每个片段的动作类，从而产生各种应用（例如，人类活动分析）。虽然动作分类在深度神经网络最近取得成功的情况下取得了很大进展[38，28，27]，但在长视频中暂时定位和识别一个主要挑战是视频中人类动作的时空变化问题[16]。例如，不同的人可能以不同的个性化风格泡茶，即使给定的配方是相同的。类内变异在百度美国实习期间完成的工作图1：所提出的用于动作分割的自监督时域自适应（SSTDA）“Source”是指带有标签的数据，“Tar- get”是指没有访问标签的数据。SSTDA通过减小由时空变化引起的两个域之间的嵌入特征空间的差异，SSTDA只需要来自两个域的未标记视频，具有标准的转换设置，这消除了获得最终目标模型的额外标签的需要。通过直接部署由不同人群训练的模型导致性能下降。尽管最近的基于时间卷积和全监督学习的方法取得了重大进展[20，6，23，8]，但性能仍然不完全令人满意（例如，早餐数据集上的最佳准确率仍然低于70%）。提高性能的一种方法是利用来自大规模标记数据的知识[2]。然而，手动注释精确的逐帧动作是耗时且具有挑战性的。另一种方法是设计更复杂的架构，但模型复杂性的成本更高因此，我们的目标是解决与未标记的数据，这是比较容易获得的时空变化问题。为了实现这一目标，我们建议通过利用辅助的未标记的视频与由不同的人执行的相同类型的人类活动，以减少由时空变化引起的分布差异。更具体地说，扩展主视频任务的框架，以利用辅助源视频输入目标标签无标签视频无标签视频标签全监督学习时空特征嵌入领域差异源模型目标模型SSTDA行动预测9455数据[45，19]，我们将我们的主要任务重新表述为具有transductive设置[31，5]的无监督域自适应（DA）问题，其目的是在不访问目标标签的情况下减少源域和目标域之间的差异。最近，基于对抗性的DA方法[10，11，37，44]显示了使用配备对抗性训练的域训练器减少图像差异的进展。然而，视频还遭受沿着时间方向的域离散[4]，因此使用基于图像的域鉴别器不足以进行动作分割。Therefore, we propose Self-Supervised Tem- poral DomainAdaptation (SSTDA), containing two self- supervisedauxiliary tasks: 1) binary domain prediction, whichpredicts a single domain for each frame-level feature, and 2)sequential domain prediction, which predicts the per-mutation of domains for an untrimmed video.通过使用两个辅助任务进行对抗训练，SSTDA可以联合对齐嵌入局部和全局时间动态的跨域特征空间，以解决动作分割的时空变化问题，如图1所示。为了支持我们的主张，我们将我们的方法与其他流行的DA方法进行了比较，并显示出更好的性能，证明了SSTDA对齐时间动态的有效性。最后，我们在三个具有高度时空变化的数据集上评估了我们的方法：[9] 50、早餐[17]。通过利用SSTDA未标记的目标视频，我们的方法比当前最先进的方法性能更好，并且仅使用65%的标记训练数据就可以实现相当的性能。总之，我们的贡献有三方面：1. 自监督顺序域预测：我们提出了一种新的自监督辅助任务，它预测长视频的域排列，以促进视频域自适应。据我们所知，这是第一个设计用于跨域动作分割的自监督方法。2. 自监督时域自适应（SSTDA）：通过集成两个自监督辅助任务，二进制和顺序域预测，我们提出的SSTDA可以联合对齐跨域的局部和全局嵌入特征空间，优于其他DA方法。3. 动作分割与SSTDA：通过集成SSTDA的动作分割，我们的方法执行了目前最先进的方法，大幅度，并实现了相当的性能，通过使用只有65%的标记训练数据。此外，不同的设计选择进行了分析，以确定每个组件的关键贡献。2. 相关作品最近提出的动作分割方法是建立在时间卷积网络（TCN）[20，6，23，8]上的，因为它们能够捕获跨帧的长距离依赖关系，并且与基于RNN的方法相比，训练速度更快。通过多级流水线，MS-TCN [8]执行分层时间卷积以有效提取时间特征并实现动作分割的最新性能。在这项工作中，我们利用MS-TCN作为基线模型，并集成了所提出的自监督模块，以进一步提高性能，而无需额外的标记数据。领域自适应（DA）最近很流行，特别是与深度学习的集成。对于大多数DA工作的两分支（源和目标）框架，找到源和目标域之间的公共特征空间是最终目标，而关键是设计域损失来实现这一目标[5]。基于差异的DA[24，25，26]是主要类别的方法之一，其主要目标是减少两个域之间的基于对抗的DA[10，11]也流行类似的概念作为GAN [12]通过使用域鉴别器。通过精心设计的对抗性目标，通过最小-最大训练优化了领域判别器和特征提取器.一些工作通过为目标数据分配伪标签来进一步提高性能[32，41]。基于集成的DA[34，21]采用多个目标分支来构建集成模型。最近，基于注意力的DA[39，18]为图像的不同区域分配注意力权重，以实现更有效的DA。与图像不同，基于视频的DA仍处于探索阶段。大多数作品集中在小规模的视频DA数据集[36，43，14]。最近，提出了两个更大规模的跨域视频分类数据集以及最先进的方法[3，4]。此外，一些作者还提出了将辅助数据用于其他视频任务的新框架，包括对象检测[19]和动作定位[45]。这些作品与我们的作品不同，要么是不同的视频任务[19，3，4]，要么是对辅助数据标签的访问[45]。近年来，自监督学习在图像和视频中变得流行，因为它能够在没有人类监督的情况下学习信息特征表示。关键是设计一个与主任务相关的辅助任务（或借口任务），标签可以自我注解。最近的大多数视频作品都基于视频的时空顺序设计辅助任务[22，40，15，1，42]。与这些工作不同，我们提出的辅助任务预测跨域视频的时间排列，旨在解决动作分割的时空变化问题。9456��..... - 是的..... - 是的..... - 是的输出帧级要素单级时间卷积网络（SS-TCN）ℒ��SSTDA模块多层时间卷积ℒ��ℒ��..... - 是的输入帧级要素图2：基线模型和与我们建议的SSTDA的集成说明。通过将时间卷积网络Gf应用于输入来获得帧级特征f，并且使用全连接层Gy将帧级特征f转换为对应的预测y，以计算预测损失Ly。SSTDA模块与f集成，以计算局部和全局域损失Lld和Lgd，用于在训练期间优化f（参见第3.2节中的详细信息）。在这里，我们只展示了多阶段模型中的一个阶段。3. 技术途径在本节中，首先回顾了动作分割的当前最先进基线模型MS-TCN [8]（第3.1节）。然后，提出了由两个自监督辅助任务，二进制域预测（第3.2.1节）和顺序域预测（第3.2.2节）组成的新颖的时间域自适应方案，随后是最终的动作分割模型。3.1. 基线模型我们的工作建立在当前最先进的动作分割模型，多级时间卷积网络（MS-TCN）[8]上。对于每一级，单级TCN（SS-TCN）应用多层TCN Gf以导出帧级特征f={f1 ， f2 ， . ， fT} ，并做出相应的预测 y={y∈1 ，y∈2，.，y∈T}，使用全连接层Gy.通过遵循[8]，预测损失Ly基于预测y计算，如图2的左侧部分所示。最后，将多个阶段的SS-TCN堆叠以增强时间感受野，构建最终的基线模型MS-TCN，其中每个阶段将前一阶段的预测作为输入，并为下一阶段做出预测。3.2. 自监督时域自适应尽管与以前的方法相比，MS-TCN在动作分割上的表现很有希望，但仍然有很大的改进空间。一个主要挑战是人类活动的时空变化问题[16]，导致跨域分布差异[5]。例如，由于个性化的时空风格，不同的主体可以完全不同地执行相同的动作。此外，收集用于动作分割的注释数据是具有挑战性和耗时的。因此，这样的挑战激发了在没有完全监督的情况下学习域不变特征表示的需要。受自我监督学习的最新进展的启发，自我监督学习学习可以在没有外部监督的情况下转移到主要目标任务的信息特征（例如， humanannotation ），我们提出了自监督时域自适应（SSTDA），以减少跨域的差异，通过设计自监督辅助任务，使用未标记的视频。为了有效地传递知识，自我监督的辅助任务应该与主任务密切相关，本文提出的主任务是跨领域动作分割。最近，基于对抗的DA方法[10，11]显示了使用具有对抗训练的域识别器解决跨域图像问题的进展，其中，由于域标签是自注释的，因此域识别可以被视为自监督辅助任务。然而，由于忽略了时间信息，直接将基于图像的DA应用于视频任务会导致次优性能[4]。因此，问题变成了：我们应该如何设计自监督辅助任务，以利于跨域动作分割？更具体地说，答案应该解决跨域和动作分割问题。为了解决这个问题，我们首先应用辅助任务二进制域预测来预测每个帧的域，其中帧级特征嵌入局部时间动态，旨在解决局部尺度下视频的跨域问题。然后，我们提出了一种新的辅助任务顺序域预测的时间分割域的未修剪的视频，其中视频级的功能是嵌入与全局时间动态，旨在全面解决上述问题。最后，通过联合应用这两个辅助任务，在本地和全局实现SSTDA，如图3所示。在实践中，由于有效视频DA的关键是同时对齐和学习时间动态，而不是分离两个过程[4]，我们将SSTDA模块集成到多个阶段，而不是仅集成到最后一个阶段，单阶段集成如图2所示。3.2.1本地SSTDA动作分割的主要目标是学习编码时空信息的帧级特征表示，以便模型可以利用来自多个帧的信息来预测每个帧的动作因此，我们认为，9457NS原创视频段+置换主置换视频图3：SSTDA中的两个自我监督辅助任务：1）二进制域预测：区分单个帧，2）顺序域预测：预测未修剪视频的域序列。这两项任务分别为本地和全球SSTDA做出贡献。3.2.2全球SSTDA尽管使用来自相邻帧的上下文和依赖性来学习帧级特征f，但是f的时间感受野仍然有限，不能表示完整的视频。仅将DA集成到f中不能完全解决未修剪的长视频的时空变化 Therefore, in addition to binary domainpredic- tion for frame-level features, we propose thesecond self- supervised auxiliary task for video-levelfeatures: sequen- tial domain prediction, which predicts asequence of do- mains for video clips, as shown in the rightpart of Figure 3.该任务是一个时域分割问题，旨在预测由来自源域和目标域的混洗视频剪辑组成的长视频的域的正确排列。由于这一目标涉及到跨领域和动作分割问题，因此顺序域预测可以有效地使我们的主要任务受益。更具体地说，我们首先将fS和fT分为两组线段FS={fS，fS，. }和FT=a B我们首先学习域不变的帧级特征，{f T，f T，. }，分别，然后学习相应的a B辅助任务二进制域预测（图3左侧）。二进制域预测：对于一个阶段，我们喂养将两组分段级特征表示VS={vS，vS，. }和V T={vT，vT，. }与域Atten-aBaB来自源域和目标域的帧级特征和fT分别分配给一个附加的浅二进制域分类器Gld，以区分这些特征来自哪个域。由于来自先前层的时间卷积通过使用梯度反转层（GRL）[10，11]进行对抗训练，该层在反向传播期间反转梯度符号，Gf将被优化以逐渐对齐特征分布。两个域之间的切换这里我们记Gld为Gld如图4所示，配备了GRL。由于本工作是在MS-TCN上构建的，因此，是有效DA的关键从我们的调查，最好的性能发生时，GALDS集成到中间阶段。详情见第4.3临时池（DATP）。然后，所有特征v被shuf-以随机顺序进行复制和组合，并馈送到配备有GRL的顺序域分类器Ggd（记为Ggd），以预测域的排列，如图4所示。域注意时间池（ Domain Attentive Temporal Pooling ，DATP）：获得视频级特征的最直接的方法是使用时间池来聚合帧级特征。然而，并非所有帧级特征对整体域差异的贡献相同，如[4]中所述。因此，我们分配较大的注意力权重Wj（calculu.在局部SSTD A中使用G_（？ gd）来计算）到具有以下特征：更大的域差异，以便我们可以更专注于对齐这些特征。最后，利用时间池化来聚合关注的帧级特征以生成视频级特征v，其可以表示为：T′总损失函数变成了1/2的组合，基线预测损失Ly以及本地域损耗Lldv=T′j=1中国（3）符号相反，可表示如下：其中T ′是视频片段中的帧的数量。为ΣNsL=˜ΣsLy −βlLld（一）详情请参阅补充资料。序贯域预测：通过单独将DATP分别应用于源和目标段，1ΣTLld=TLld（Gld（fj），dj）（2）实际上，一组分段级特征表示V={vS，vS，.， vT，vT，. }获得。然后我们把所有的j=1aBaB其中，Ns是MS-TCN中的总级数，Ns是与GCN_id 集成的级数，并且T是视频的总帧号。Lld是二进制交叉熵损失函数，βl是局部域损失的权衡权重Lld，通过遵循共同策略获得[10，11]。V中的特征，并将它们连接成一个特征来表示。发送长且未修剪的视频V′，其以随机顺序包含来自两个域的视频片段。最后，V ′被馈送到顺序域分类器Ggd 中以预测视频片段的域的排列。例如，如果V ′=[vS，vT，vT，vS]，则G gd的目标是预测aa b b目标源视频帧或做[来源]或[目标]顺序域预测【源，目标，目标，源】全球SSTDA本地SSTDA二进制域预测S9458源段dATP随机置换��′输入帧级特征�� 二进制域分类器[0][1]第一章ℒ��序列域分类器[0，0，1，1]【1，1，0，0】ℒ[0，1，1，0]段dATP目标GRLGRLN′图4：所提出的自监督时域自适应（SSTDA）的概述来自两个域的输入首先使用Gf用局部时间动态进行编码，以分别获得帧级特征f S和f T。我们使用二进制域预测G_d对所有f应用局部SST_D_A。此外，还将fS和fT划分为多个分段，分别通过D A T P学习分段级特征VS和VT。最后，将全局SST DA应用于V′上，V ′是通过使用顺序域预测G_（？）g_d将shu ffedVS和VT级联而生成的。 Lld和Lgd分别是来自Gdld和Gdld的域损失。 w对应于D A T P的注意力权重，其是从GATd的输出计算的。在这里，我们使用8帧视频和2个片段作为此图的示例。最好的颜色。排列为[0，1，1，0]。Ggd是一个多类分类器，其中类数对应于所有可能的域排列的总数，Ggd的复杂度由每个视频的片段数决定（更多分析见第4.3节）。Ggd的输出用于如下计算全局域损失LgdLgd=Lgd（Ggd（V）），yd）（4）其中Lgd也是标准交叉熵损失函数，其中类别号由段号确定 Through adversarial training with GRL, sequentialdo- main prediction also contributes to optimizing Gf toalign the feature distributions between the two domains.也有一些自监督学习的工作图4中的分支管道，并与二进制域预测集成，以有效地解决跨域和动作分割问题。3.2.3地方-全球联合培训。最后，我们还采用了[39]中的策略，通过添加域注意熵（DAE）损失Lae来最小化跨域相似的帧的类熵。详情请参阅补充资料。通过将全局域损失Lgd（等式（4））和注意熵损失Lae添加到等式（1）中，我们最终提出的自监督时间域自适应（SSTDA）的总体损失可以表示如下：提出了时间洗牌的概念[22，42]。然而，他们预测的时间顺序在一个域，旨在学习一般的时间信息，视频fea。ΣNsL=˜ΣsLy −（βlLld+βgLgd−µLae）（五）真的。相反，我们的方法预测跨域视频的时间排列，这些视频用双其中，βg和μ分别是Lgd和Lae的权重。活泼地…9459GTEA50沙拉早餐受试者编号42552类别编号111748视频编号28501712省略-#-subject-out1513表1：动作分割数据集的统计。4. 实验为了验证所提出的方法在减少动作分割的时空差异方面的有效性，我们选择了三个具有挑战性的数据集：GTEA [9]，50沙拉[35]和早餐[17]，它们通过不同的人（标记为子节点）分离训练和验证集，并使用leave-subjects-out交叉验证进行评估，由于时空变化导致大的域偏移问题。因此，我们将训练集视为源域，并将验证集视为具有标准转导无监督DA协议的目标域[31，5]。更多实施细节见补充资料。4.1. 数据集和评估指标三个数据集的总体统计数据见表1。三个广泛使用的评估指标被选择如下[20]：逐帧准确度（Acc），分段编辑表2：我们的方法在三个基准数据集上的实验结果。“SSTDA”是指完整的模型，而“本地SSTDA”只包含二进制域预测。当使用已发布的代码时，我们实现了比[ 8 ]中报告的更高的性能，因此将其用作整篇论文的基线性能。全球SSTDA需要当地SSTDA的输出，因此它不是单独评估的。解决跨域视频的变化问题。尽管当地SSTDA有所改善，DA到帧级功能无法完全解决问题，对于长视频的时空变化的LEM。因此，我们将第二个建议的辅助任务se-分数，以及IoU阈值k%处的分段F1分数，记为F1@k（k={10，25，50}）。虽然Acc是最常见的指标，但编辑和F1得分都考虑了项目，预测和地面实况之间的poral关系，更好地反映了动作分割的性能。4.2. 实验结果我们首先调查我们的方法在利用未标记的目标视频动作分割的有效性。我们选择MS-TCN [8]作为主干模型，因为它是这项任务的当前最先进的模型基线模型。然后，我们的方法进行了比较，与其他方法具有相同的转导协议。最后，我们将我们的方法与所有三个数据集上的最新动作分割方法进行比较，并研究我们的方法如何减少对源标记数据的依赖。自监督时域自适应：首先，我们研究了本地SSTDA的性能，通过集成辅助任务二进制域预测与基础，线模型如表2所示，所有三个数据集的结果都有显著改善。例如，在GTEA数据集上，我们的方法在F1@25时比基线高出4.3%，在编辑得分上高出3.2%，在帧准确度上高出3.6%。虽然局部SSTDA主要作用于帧级特征，但仍然使用来自相邻帧的上下文来编码时间信息用于未修剪的长视频的序列域预测。通过与两个辅助任务联合训练，SSTDA可以联合调整跨域特征空间嵌入与局部和全局时间动态，并进一步改进具有显著裕度的局部SSTDA。例如，在50 Salads数据集上，F1@10 的性能优于本地SSTDA 3.8%，F1@25的性能优于本地SSTDA 3.7%，F1@50的性能优于本地 SSTDA 3.5% ，编辑得分优于本地 SSTDA3.8%，如表2所示。一个有趣的发现是，局部SSTDA有助于SSTDA的大部分逐帧精度改进，因为它专注于对齐帧级特征空间。另一方面，顺序域预测有利于对齐视频级特征空间，有助于进一步改善其他两个度量，其考虑时间关系进行评估。从未标记的目标视频中学习：我们还将SSTDA与其他流行的方法[11，26，32，41，34，21，42]进行了比较，以验证在相同数量的未标记目标视频的情况下减少时空差异的有效性。为了公平比较，我们将所有这些方法与相同的基线模型MS-TCN相结合。有关更多实施细节，请参阅补充资料。表3表明，我们提出的SSTDA优于所有其他调查DA方法的两个指标，考虑时间关系。我们推测，主要原因是，所有这些DA方法是专为跨域图像问题。虽然他们在-GTEAF1@{10，25，50}编辑ACC仅来源（MS-TCN）†86.583.671.981.376.5本地SSTDA89.687.974.484.580.1SSTDA90.089.178.086.279.850沙拉F1@{10，25，50}编辑ACC仅来源（MS-TCN）†75.473.465.268.982.1本地SSTDA79.277.870.372.082.8SSTDA83.081.573.875.883.2早餐F1@{10，25，50}编辑ACC仅来源（MS-TCN）†65.359.647.265.764.79460F1@{10，25，50}编辑仅来源（MS-TCN）86.583.671.981.3VCOP [42]87.385.970.182.2DANN [11]89.687.974.484.5JAN [26]88.787.673.183.1MADA [32]88.686.775.883.5[41]第四十一话89.988.275.984.7中文（简体）88.186.373.482.7社会福利署[21]89.087.373.884.4SSTDA90.089.178.086.2表3：可以从未标记的目标视频中学习信息的不同方法的比较所有的方法都集成了同一个基线模型MS-TCN公平比较。有关其他数据集的结果，请参阅附录。与编码局部时间动态的帧级特征集成，有限的时间感受野阻止它们完全解决时间域差异。相反，SSTDA中的顺序域预测直接应用于整个未修剪视频，有助于全局对齐嵌入较长时间动态的跨域特征空间，从而可以更有效地减少时空我们还将其与最新的基于视频的自监督学习方法进行了比较[42]，该方法也可以从未标记的目标视频中学习时间动态然而，性能甚至比其他DA方法更差，这意味着在单个域内的时间重排并不能有效地有利于跨域动作分割。与动作分割方法的比较：在这里，我们将最近的方法与使用两种设置训练的SSTDA进行比较：1）完全源标签，2）弱源标签。第一个设置意味着我们为源视频中的所有帧都提供了标签，并且SSTDA在所有评估指标方面都优于三个数据集上的所有先前方法。例如，SSTDA优于目前最先进的全监督方法MS-TCN [8]，有很大的优势（例如，如表4所示，F1@25为8.1%，F1@50为8.6%，50份沙拉的编辑评分为 6.9%; F1@25 为 9.5% ， F1@50 为8.0%，早餐的编辑评分为8.0%。由于没有使用额外的标记数据，这些结果表明我们提出的SSTDA如何处理未标记视频的时空变化问题，以提高动作分割性能。考虑到利用未标记的目标视频的显着改进，这意味着使用SSTDA（这是我们的第二种设置）使用较少数量的标记帧进行训练的潜力。在这种情况下，我们从源域中删除带有标签的帧，使用统一采样进行训练，并对相同长度的验证数据进行评估。我们的实验表明，通过与SSTDA集成，只有表4：与所有三个数据集上的最新动作分割方法的比较。SSTDA（65%）表示使用总标记训练数据的65%进行训练。†运行官方代码的结果，如表2所示。F1@{10，25，50}编辑ACC源仅86.583.671.981.376.5{S1}88.686.273.684.278.7{S2}89.187.274.484.379.1{S3}89.287.372.383.878.9{S4}88.186.473.083.078.8{S1，S2}89.085.873.584.879.5{S2，S3}89.687.974.484.580.1{S3，S4}88.386.873.983.678.6表5：局部SST DA（在GTEA上）的设计选择的实验结果。{Sn}：将G_n_d添加到MS-TCN的第n级，其中较小的n意味着更接近输入。如表4中的“SSTDA（65%）”行所示，需要65%的标记训练数据才能实现与MS-TCN相当的性能有关标记数据简化的完整实验，请参阅补充资料。4.3. 消融研究和分析本地SSTDA的设计选择：由于我们在MS-TCN上开发了我们的方法[8]，因此提出了以下问题：如何有效地将二进制域预测集成到多个stagea rc hitectur r e？要回答这个问题，我们首先要考虑G结果表明，当G_（1d）被整合到中间阶段（如S2或S3）时，性能最好，如表5所示。 S1不是DA的好选择，因为它对应的是低级具有较低可辨别性的特征，其中DA显示出有限的效果[24]，并且代表了较低的时间感受野，GTEAF1@{10，25，50}编辑ACCLCDC [29]七十五点四72.865.3TDRN [23]79.2 74.4 62.774.170.1MS-TCN [8]†86.5 83.6 71.981.376.5SSTDA（65%）85.2 82.6 69.379.675.7SSTDA90.0 89.1 78.086.279.850沙拉F1@{10，25，50}编辑ACCTDRN [23]72.9 68.5 57.266.068.1LCDC [29]七十三点八66.972.1MS-TCN [8]†75.4 73.4 65.268.982.1SSTDA（65%）77.7 75.0 66.269.380.7SSTDA83.0 81.5 73.875.883.2早餐F1@{10，25，50}编辑ACCTCFPN [7]- --52.0GRU [33]- --60.69461地面实况表6：序列域预测（在GTEA上）的不同段数的实验结果。源仅DANNJANMADA地面实况MPEG4MCDSWDSSTDA开放勺倒紧放搅拌图5：我们的方法中使用颜色编码的时间动作分割的可视化（输入示例：煮咖啡）。“MS-TCN”是没有任何DA方法的基线模型。我们只突出显示与地面实况不同的动作片段，以便进行清晰的比较。视频. 然而，更高的阶段（例如，S4）并不总是更好。我们推测这是因为模型更适合源数据，导致DA困难在我们的案例中，inte-将G1d光栅化到S2中提供了最佳的总体性能。我们还集成了多个阶段的二进制域预测然而，多级DA并不总是保证改进的性能。例如，{S1，S2}具有更差的在F1@{10，25，50}方面，结果比{S2}好。自{S2}和{S3}提供了最好的单级DA性能，我们使用性能最好的{S2，S3}作为所有实验中所有方法的最终模型。全球SSTDA的设计选择：对于顺序域预测，最关键的设计决策是每个视频的段号。在我们的实现中，我们将一个源视频划分为m个片段，并对一个目标视频这样做，然后应用Ggd来预测这2m个视频片段的域的排列。因此， G gd 的范畴数等于所有置换的个数（2m）！/（m！）二、换句话说，段数m确定自监督辅助任务的复杂度。例如，m=3导致20路分类器，m=4导致70路分类器。由于一个好的自我监督任务应该既不简单也不复杂[30]，我们选择m=2作为我们的最终决定，这得到了我们实验的支持，如表6所示。分割可视化：还通常评估定性性能以确保预测结果与人类视觉一致。首先，我们将我们的方法与基线模型MS-TCN [8]和地面实况进行比较，如图5所示。MS-TCN无法图6：不同DA方法的时间动作分割的可视化（与图5相同的输入）。仅突出显示与地面实况不同的片段。在视频的前半部分中检测一些倾倒动作，并且在视频的后半部分中错误地将接近分类为拍摄。利用局部SSTDA，我们的方法可以检测到视频后半部分的接近最后，与完整的SSTDA，我们提出的方法也检测所有倒动作段的前半段视频。然后，我们将SSTDA与其他DA方法进行比较，图6显示我们的结果最接近真实情况。其他人要么不正确地检测一些动作，要么做出不正确的分类。更多定性结果请参见补充资料。5. 结论和未来工作在这项工作中，我们提出了一种新的方法来有效地利用未标记的目标视频，以提高性能的动作分割没有目标标签。为了解决跨域视频的时空变化问题，我们提出了自监督时间域自适应（SSTDA），通过两个自监督辅助任务，二进制和顺序域预测，联合对齐嵌入局部和全局时间动态的跨域特征空间。我们的实验表明，SSTDA优于其他DA方法，更有效地调整我们还在三个具有挑战性的数据集（GTEA ，50 Sal- ads和Breakfast）上验证了所提出的SSTDA，并表明SSTDA的性能大大优于当前最先进的方法，并且只需要65%的标记训练数据就可以实现相当的性能，这表明了适应各种变化的未标记视频的有用性。对于未来的工作，我们计划将SSTDA应用于更具挑战性的视频任务（例如，时空动作定位[13]）。MS-TCN本地SSTDASSTDA背景采取开放勺倒密切放搅拌背景采取节段编号F1@{10，25，50}编辑ACC189.4 87.7 75.485.379.2290.0 89.1 78.086.279.8389.7 87.6 75.485.279.29462引用[1] Unaiza Ahsan ， Rishi Madhok ， and Irfan Essa. Videojigsaw：用于视频动作识别的时空上下文的无监督学习。在IEEE计算机视觉应用冬季会议（WACV），2019年。2[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR），2017年。1[3] Min-Hung Chen，Zsolt Kira和Ghassan AlRegib。用于视频域适应的时间注意对准。CVPR研讨会从未标记的视频中学习，2019年。2[4] Min-Hung Chen ， Zsolt Kira ， Ghassan AlRegib ，Jaekwon Woo，Ruxin Chen，and Jian Zheng.用于大规模视频域适应的时间注意对准在IEEE国际计算机视觉会议（ICCV），2019年。二、三、四[5] 加布里埃拉·楚卡视觉应用领域自适应研究综述在计算机视觉应用中的域适应，第1-35页Springer，2017. 二、三、六[6] 李丁和徐晨良。Tricornet：一个用于视频动作分割的混合时间卷积和递归网络。 arXiv 预印本 arXiv ：1705.07818，2017。一、二[7] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在IEEE计算机视觉和模式识别会议（CVPR），2018。7[8] Yazan Abu Farha和Jurgen Gall。Ms-tcn：用于动作分割的多级时间卷积网络。在IEEE计算机视觉和模式识别会议，2019年。一二三六七八[9] Alireza Fathi，Xiaofeng Ren，and James M Rehg.学习在自我中心的活动中识别物体在IEEE计算机视觉和模式识别会议（CVPR），2011年。二、六[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议（ICML），2015。二、三、四[11] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志（JMLR ）， 17（ 1 ）：2096-2030，2016。二三四六七[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。2[13] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。在 IEEE计算机视觉和模式识别会议（CVPR），2018。8[14] Arshad Jamal、Vinay P Namboodiri、Dipti Deodhare和KS Venkatesh。动作空间中的深度域适应。英国机器视觉会议（BMVC），2018年。2[15] Dahun Kim，Donghyeon Cho，and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI人工智能会议（AAAI），2019年。2[16] 余空和云符。人类行为识别和预测：一个调查。arXiv预印本arXiv：1806.11230，2018。第1、3条[17] Hilde Kuehne，Ali Arslan，and Thomas Serre.行动的语言：恢复目标导向的人类活动的语法和语义。在IEEE计算机视觉和模式识别会议，2014年。二、六[18] Vinod Kumar Kurmi、Shanu Kumar和Vinay P Nambood-iri.关注领域自适应的判别确定性。在IEEE计算机视觉和模式识别会议（CVPR），2019年。2[19] Avisek Lahiri，Sri Charan Ragireddy，Prabir Biswas，and Pabitra Mitra.用于从图像学习视频对象检测器的无监督对抗视觉水平域自适应。IEEEWinter Conference onApplications of Computer Vision（WACV），2019年。2[20] Colin Lea、Michael D Flynn、Rene Vidal、Austin Reiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2017。一、二、六[21] Chen-Yu Lee，Tanmay Batra，Mohammad Haris Baig，and Daniel Ulbricht.非监督域自适应的切片wasserstein差异在IEEE计算机视觉和模式识别会议（CVPR），2019年。二六

下载后可阅读完整内容，剩余1页未读，立即下载