基于实例的混合采样和辅助源域监督在域自适应动作检测中的应用

164 浏览量更新于2023-10-15 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4145利用基于实例的混合采样，用于域自适应动作检测的辅助源域监督苏黎世联邦理工学院一帆路苏黎世联邦理工学院Suman Saha苏黎世联邦理工学院Luc Van GoolETH Zurich，KULeuven摘要我们提出了一种新的域自适应动作检测方法和一种新的自适应协议，该协议利用了图像级无监督域自适应（UDA）技术的最新进展，并处理实例级视频数据的变幻莫测。在 UDA （ unsupervised domainadaptation）环境下，自训练结合跨领域混合采样的方法在语义切分中取得了显著的性能提升。出于这一事实，我们提出了一种用于视频中的人类动作检测的方法，该方法使用混合采样和基于伪标签的自训练将知识从源域（注释数据集）转移到目标域（未注释数据集）现有的UDA技术遵循一种用于语义分割的类混合算法。然而，简单地采用ClassMix进行动作检测是行不通的，主要是因为这是两个完全不同的问题，即，像素标签分类与实例标签检测。为了解决这个问题，我们提出了一种新的动作实例混合采样技术，结合信息跨域的动作实例，而不是动作类的基础上。此外，我们提出了一个新的UDA训练协议，解决了长尾样本分布和域转移问题，通过使用从辅助源域（ASD）的监督。对于ASD，我们提出了一个新的动作检测数据集与密集的帧级注释。我们将我们提出的框架命名为域自适应动作实例混合（DA-AIM）。我们证明，DA-AIM始终优于具有挑战性的主要适应基准先前的工作。源代码可在https://github.com/wwwfan628/DA-AIM 上获得。1. 介绍在过去的几年里，我们见证了基于视觉的动作检测的巨大进步[36，55，83，17，39、2、66、67、59、4、29、33、60、79、88、54]。这个...CESS在很大程度上归因于深度神经网络，其在几个计算机视觉任务中表现出优异的性能。然而，这些网络需要昂贵的图1：上图说明了这项工作的两个主要贡献。首先，我们提出了一种新的基于实例的跨域混合采样技术，明确设计用于基于视频的动作检测。与先前的UDA方法[74]不同，该方法遵循基于类的混合采样以生成增强的混合图像，我们的混合采样算法基于源帧中存在的动作实例的数量随机采样图像块。输出是一组包含源域和目标域实例的混合帧。其次，我们提出将辅助源域样本与主源域样本混合以创建新的扩展源域。这样做是为了解决各种问题，如主要源域的长尾分布，跨域的动作实例的大变化。在监督学习设置下适当地训练地面实况注释。特别是，对于行动检测，生成如此大量的注释数据是非常耗时和劳动密集型的[38，25，40，71]。主要原因是需要动作类别和实例的地面真值标签，即。视频帧中的所有动作实例需要使用边界框在空间上局部化样本混合延长src. 域混合帧在unif附近。Dist.目标域基于实例的混合采样深度神经网络Unif Dist.Aux. src. 域长尾区我是Prim src. 域在Src上进行地面实况帧行动预测混合框架上的伪标号监督4146各自的行动类别。随着视频持续时间、视频和动作实例数量的增加，标注成本迅速上升，使得标注过程变得非常不切实际和昂贵。规避此问题的一种标准方法是依赖于无监督域自适应（UDA）[74，46，47，21，22，42，41，62]，其中通过将用源域训练的网络适配到目标域来执行知识转移源域指的是合成数据[56，57]或公开可用的真实数据[57，38]，其中地面实况注释可用。目标域是指无法访问地面实况的真实数据。先前的作品[16，90，45，53，69，87，82，9，52，15，7]主要集中于域自适应（DA）动作识别，这是比DA动作检测更简单的问题，因为前者只需要解决动作分类而不考虑更困难的实例定位问题。Agarwal等人[1]提出了一种DA动作检测方法，其中使用GRL执行空间和时间特征的域对齐他们引入了两个UDA基准，仅限于三/四个运动动作。由于没有标准的UDA基准可用于动作检测，因此它们依赖于与运动相关的动作类，这些动作类在不同的数据集（或域）中很常见。此外，[1]中使用的数据集具有低视频分辨率并且过时。在这项工作中，我们提出了一个通用的UDA框架，不限于某些动作类别，并可以用于更大的动作类，例如。AVA [25].首先，我们将AVA-Kinetics [38]数据集的训练集视为我们的主要源域。由于AVA-Kinetics是来自YouTube视频的大规模和多样化的动作检测数据集，因此将其用作源域将允许模型学习有意义的时空表示并更好地适应目标域。然而，它带来了两个主要挑战。首先，AVA-Kinetics具有长尾标签分布，该长尾标签分布使模型偏向于某些动作类别，导致代表性不足的类别的适应性差。其次，由于诸如捕获设备、背景、时间运动模式、外观的差异等因素，跨域的动作（属于相同的动作类）存在很大的可变性。为了解决这些问题，我们建议使用来自辅助源域（ASD）的标记训练样本来监督网络（图1）。①的人。ASD通过以下方式解决上述问题：（a）将代表不足或缺失类的训练样本注入源域，以及（b）重新创建动作场景以类似于目标域场景。对于ASD，我们创建了一个新的具有密集地面实况注释的动作检测数据集。我们根据经验发现，基于GRL的方法（类似于[1]）在我们的UDA设置中没有显示出任何明显的最近，Tranheden等人[74]提出了一种用于语义分割的UDA方法，该方法在语义分割任务中表现出优越的性能。他们的方法在跨域混合采样（ CDMS ）技术之后生成增强的CDMS适用于像素级预测（或分割）任务。然而，对于像动作检测这样的实例级（或边界框）预测，CDMS无法生成有意义的训练样本，因为这两个是完全不同的问题，即，像素标签分类与实例标签检测。为了解决这个问题，我们提出了一种新的基于动作实例的混合采样技术，该技术基于源域中存在的动作实例来组合跨域的信息。对于源到目标的知识转移，我们采用了基于Mean Teacher的自我培训[73]。我们将我们提出的 UDA 框架命名为 DA-AIM （ domain-adaptiveamixing）（图12）。①的人。我们首次提出了一个基于跨域混合采样和自训练的DA动作我们实现并比较了三种最先进的方法，并在不同的UDA基准上取得了最佳效果。我们将发布我们的代码，并重新租赁两个新的（内部）数据集在这项工作中使用。2. 相关作品动作检测是一个更具挑战性的问题[19，88，67]相比，动作识别[65，6]问题，由于行动本地化的额外要求在大的时空搜索空间中。由于UCF 24 [71]、AVA [25]和MultiSports [40]等大规模数据集，受监督的动作检测方法[79，67，33，43，88，54]取得了长足的进步目前的大多数方法都遵循由SlowFast [19]推广的基于关键帧的方法。还有一些更复杂的方法，例如.基于演员上下文建模[10，54]，长期特征库[80，72]和Transformer头[88，44]。我们将使用基于关键帧的SlowFast [19]网络作为我们的默认动作检测器，因为它除了完全监督的方法，也有关于点监督[49]或半监督[36]设置的工作。无监督域自适应。研究了UDA技术在图像分类、目标检测、语义分割、动作识别和检测等不同视觉任务中的有效性。[21，26，46，51，58，64，76]提出了处理DA图像分类的方法。DA对象检测由[61，12]研究。大多数DA语义分割方法基于对抗训练或自训练。对抗性训练遵循GAN框架[22，24]，以将源域和目标域的特征分布对齐，4147thCE损失CE损失地面实况标签（源帧）预测伪标签（混合帧）DA-AIM标签混合触摸走（主要+辅助）混合帧更新目标域教师网络学生网络混合视频剪辑目标域掩码延长源域预测DA-AIM帧混合掠夺者。在src上帧掠夺者。在混合框架可训练参数不可训练参数图2：建议的DA-AIM框架概述。DA-AIM的基本构建块是（a）训练样本混合，（b）帧混合，（c）标签混合和（d）自训练。(a)我们首先生成一个extended（extd.）通过混合主源域和辅助源域的训练示例，可以在源域中进行训练。(b)接下来，帧混合模块通过将源帧的动作实例与目标帧混合来生成增强视频帧（或混合帧）。在混合过程中，由于动作的固有时空性质，空间和时间信息被考虑。然后，源帧和混合帧被馈送到深度神经网络（称为学生网络）。学生网络在动作分类损失的情况下进行了优化地面真值标签用于惩罚源帧上的错误预测(c)由于混合帧包含来自源域和目标域的图像块，因此标签混合模块基于来自地面实况标签和教师网络预测的输入生成伪标签。(d)教师网络使用学生网络的参数进行初始化。它的参数是不可训练的，并作为学生网络参数的指数移动平均值进行更新。源域视频剪辑目标域视频剪辑源域掩码混合抽样。对于基于图像的问题，已经广泛研究了域内和跨域混合[85，5，20，11，74]。尽管这些算法在基于图像的问题上是有效的，但混合采样还没有被研究用于视频低估任务。我们是第一个提出一种新的基于实例的CDMS视频动作检测。DA 动作识别和检测。有几种方法提出了单模态（RGB）[7，15，31，53]或多模态（RGB，流）[52，70，35] DA动作识别。[9，8]提出DA动作分割的方法。图3：上图说明了所提出的基于动作实例（AIM）的跨域混合采样。put [23 ， 27] 、 output [75 ， 77] 、 patch [13] 或 featurelevel [28，75]。在自我训练中，目标域的监督来自伪标签[37]，可以在线计算[63，84，91，92]或在线计算[74，78，30]。一致性正则化[68，73]或标签原型[86]制定CDMS [74，89]或数据增强[3，14，48]用于解决训练不稳定性。在这项工作中，我们使用在线自训练和一致性正则化的CDMS的基础上。与解决基于图像的DA语义分割的[74，78，30，89]不同，我们解决了基于视频的DA动作检测。[74，78，30，89]使用基于语义类的CDMS，其在动作检测中显示出较差的结果。我们提出了一种新的基于动作实例的CDMS，专门设计用于促进基于视频的动作检测。我们发现只有一项工作[1]使用基于GRL的对抗训练来解决DA动作[1]提出两个UDA基准，仅限于体育活动。这项工作有两个主要的局限性。他们提出的UDA设置没有解决长尾和大可变性问题（参见§1），并且提出的基于GRL的自适应在UDA设置中显示出较差的通用性，其中源域具有长尾分布，并且类特定的动作在域之间具有很大的变化。相比之下，我们的方法通过提出一个新的UDA框架来解决这些限制，在该框架中，使用辅助源域和更有效的基于实例的CDMS和伪标记技术来缓解这些问题。3. 方法在本节中，我们将介绍拟议的DA-AIM框架。DA-AIM（图2）可以分解为两个主要步骤，即基于动作实例的CDMS（cross-th触摸走4148联系我们联系我们·∈4 2 42源域视频剪辑源域掩码gions可见。为了解决这个不平衡的问题，我们建议首先在源帧中调整大动作实例的大小，然后将其粘贴到目标帧上（图10）。4）. 更具体地，如果源动作实例区域占据混合帧的整个区域的一半以上，则我们将按因子0缩小源域帧。5、混合前相应地调整边界框和掩码以与调整大小的视频剪辑对齐。给定作为元组（x1，y1，x2，y2）的边界框，其中（x1，y1）对应于左上角，并且（x2，y2）对应于右下角，并且H、W是视频帧的高度和宽度，边界框的坐标在（x′1，y1′，x′2，y2′）之后可以表示为：源域调整大小的视频剪辑源域大小调整掩码x′1=[W]+[x1]，y1′=[H]+[y1]（2）x′2=[W]+[x2]，y2′=[H]+[y2]（3）4 2 4 2图4：如果源域的动作实例区域占据了整个帧区域的一半以上，则需要缩小帧。边界框和遮罩会相应地调整以适合调整大小的帧。白色代表1，黑色代表0。域混合采样）和自训练。3.1. 基于实例的CDMS图3示出了所提出的基于实例的跨域混合采样（AIM）。给定来自源域和目标域的视频剪辑以及对应的地面实况注释（即，边界框和它们的类标签），我们从源帧中随机抽取一半的动作实例由于边界框仅为位于剪辑中间的关键帧创建，因此考虑到快速移动动作（如跑步），我们在创建源域掩码时将每个边界框扩展20%通过在时间轴上复制关键帧 Mk0，1W×H 的2D掩码来构造3D 源域掩码M0，1T×W× H，其中Mk是二进制矩阵，对于存在所选源实例的区域包含1，否则包含0只有在地方我们的混合视频剪辑可以通过获得：xM=MxS+（1−M）xT，（1）其中[ ]表示查找最近整数的舍入函数。填充后的空白边框为0.由于目标域动作实例在混合后可能被源域动作实例覆盖，因此边界框和标签不能简单地连接。由于可能缺乏识别动作的重要信息，如果来自目标域的边界框与来自源域的任何粘贴的边界框重叠超过其面积的40%，则将其丢弃并且不包括在损失计算中。3.2. UDA的自我培训我们遵循Mean Teacher [73]方法进行自我训练。更正式地说，在训练步骤t，学生网络的权重定义为θt，教师网络的权重定义为θt′。在每个训练步骤t，根据等式4更新教师网络的权重θtθt′=αθt′−1+（1−α）θt，（4）其中α是平滑系数。在这项工作中，我们专注于排他性的行动，这意味着这些行动不能同时进行。因此，该问题是一个单标签分类问题。因此，动作实例的伪标签是从当前教师模型获得最高置信度分数的动作类。3.3. 培训优化其中xM、xS、xTRT×W ×H分别表示混合视频剪辑、输入源和目标视频剪辑请注意，通常来自源域（Ki- netics）的视频包含动作实例，这些动作实例占用了大部分的IM-在DA-AIM中，学生网络参数θ通过最小化以下损失进行训练：argmin L（θ）= arg minEH。f（X，B），Y<$+是年龄区域，即，实例边界框具有较大的spa-θ最终与整个图像区域重叠如果这样的视频剪辑用于CDMS而没有动作实例缓存，可能会导致域间信息不平衡。也就是说，θ S Sθ.S（五）Σ混合帧可能大部分被源域动作区域占据，而目标域区域太少，其中期望值是对随机变量的批量XS、BS、YS、XM、BM和YM。 XS中的视频片段是面积> 50%？是的容量调整模块λHΣfθ（XM，BM），YM4149←^.f（X，B）= 0. TθTTDD^←D← ⊙ −⊙^^^^^^← ←^ ^您的位置：LL∇−−从源域分布均匀采样，B S和Y S是对应的边界框和标签。此外，XM是新的混合视频剪辑，BM和YM是混合边界框和混合标签。当我们专注于互斥操作并将问题公式化为单标签分类时，我们使用交叉熵损失H。λ是一个超参数，它决定了损失的非监督部分对整体训练的影响程度改编自[74]，我们使用λ的自适应调度，其中它是混合视频剪辑中整个未标记实例中的实例比例，其中预测具有高于特定阈值的3.4. DA-AIM算法总体DA-AIM算法总结见Alg.1。源域和目标域数据集被称为DS和DT。一批视频剪辑，边界框和标签，XS，BS和YS，是从DS采样的，和-算法1DA-AIM算法输入：S，T（源域和目标域），fθ′，fθ，θ′，θ（教师r，学生网和参数），DP（Pretrained Person Detector）。输出：fθ（训练的学生网）。1：使用MiT预训练权重初始化θ和θ′。2：对于t1，2，...， N是否3：随机抽样小批次：（XS，BS，YS）S，（XT）T.4：计算边界框：B Td p（X T）。5：计算伪标签：6：生成用于混合采样的掩码M7：生成混合视频XM：X MMX S+（1M） X T。8：计算伪标签YM，以及XM的边界框BM：YM←CDMS（YS，Y^T），另一批视频剪辑，来自DT的XT。B^T表示BM←CDMS（BS，B^T）.由预先训练的人检测器估计的目标域视频剪辑的边界框首先将未标记的视频片段X T和边界框B T馈送到教师网络fθ′，从教师网络f θ ′获得伪标记YT。然后，通过混合XS和XT来创建增强的视频剪辑XM。通过混合YS、YT和BS、BT来相应地构造伪标签YM和边界框BM。从这里开始，该算法类似于监督学习方法，并且该过程重复预定量的迭代N。4. 实验和结果4.1. 数据集我们在实验中使用了四个数据集：AVA [25]、AVA- 动力学 [38] 和两个内部标记的数据集，即InHouseDataset-1 （IhD-1）和InHouseDataset-2 （IhD-2）。在本节中，我们将简要介绍它们，并描述如何使用它们来适应我们的实验设置。AVA [25]：是一个具有原子视觉动作的数据集，由430个密集注释的15分钟视频剪辑组成，其中包含80个视觉动作。总的来说，大约1。提供了62M个动作注释，并且可以为一个动作实例进行多个注释，即，每个动作实例可以同时执行多个动作。我们使用版本V2。2的注释文件在整个这项工作。在实验中，当源域为AVA-KineticsAVA-Kinetics [38]：使用AVA动作类和边界框在每10秒长的视频中的一个关键帧中注释Kinetics-400 [34]数据集中的200k多个视频使用AVA-Kinetics作为主要源域的主要原因是它来自YouTube，并且与来自电影剪辑的AVA相比具有较高的多样性9：学生网转发fθ：YS fθ（XS，BS），YM fθ（XM，BM）.10：计算交叉熵损失：S= S（Y S，Y S）+M（Y M，Y M）.图11：通过反向传播计算梯度θθ图12：使用随机梯度下降优化θ。13：使用EMA更新θ′（指数移动平均值）：θt′=αθt′1+（1α）θ t。14：结束15：返回fθ内部数据集：我们使用两个不同的场景构建两个内部数据集。一个数据集记录在公共场所，具有场景的不同视图，而演员在给定时间执行动作列表中的一个或多个动作。另一个数据集在私人设施中记录，仅允许在有限的时间内访问，并且由于严格的规定，演员与以前的设置不同。未来，前者被命名为内部数据集1（IhD-1）。后来（IhD-2）。这两个数据集都包含三个额外的类比AVA动力学或AVA数据集，即，'carry-bag'，'drop-bag'，和'leave-bag-unattended'。我们将在接受论文后将这些数据集与培训和评估代码4.2. 数据集采样我们减少大规模数据集有三个原因：(1)动作类需要与目标域类集合匹配为了减少大规模的主要源域数据集（AVA-Kinetics），我们将每个动作类的最大训练样本数设置为5000对于培训不足的情况，山姆-4150→→表1：我们实验中使用的数据集的总体统计数据大规模数据集的每个子数据集是基于目标域中的类的数量和任何给定类的样本数量的5k限制来构造的AvaAVA-KinIhD-2AVA-KinIhD-1IhD-2列车确认列车确认列车确认列车确认列车确认列车确认类的数目663388注释28，28129，009 27，173441339六六八六一千九百二十一万八千一百二十三三千四百一十五21,919 3468独特的盒子28，28129，009 27，173441339六六八六一千九百二十一万八千一百一十四三千四百一十五21 843 3442关键帧14，248 48，74115，453 19，2054413396,115 177916,881 269513,974 2753视频235 6415，453 19，2051276,115 177928 734 8表2：消融研究：DA-AIM框架中引入的每个操作/模块对动作检测的影响。具体来说，调整大小（resize）、伪标签（pLabel）和实例混合（iMix）模块的影响如下所示操作AVA-KineticsAVA AVA-Kinetics IhD-2调整大小pLabelImix弯腰，弯腰33.6654.8256.8273.7080.5675.1862.4634.12 三十二点九一27.4231.48✓30.7456.2055.09 73.5380.8472.4461.4729.97 二十八点十分29.8229.30✓33.0755.8760.69 72.5179.4373.0562.4433.00 二十九点七九29.2630.6834.65美元56.5060.19 70.8079.1774.7562.6832.27 三十二点四十八30.3731.712018年12月31日57.7059.4274.0380.7374.3863.0733.67 38.0632.8334.85中国33.7959.2762.1671.6779.9075.1363.6534.38 三十五块六毛五39.8436.62由于大规模数据集内的类别不平衡，将从该类别中提取尽可能多的样本。关于验证数据集，对样本量没有限制，即在验证期间，我们使用来自上述特定操作类的所有样本。我们实验中使用的数据集的总体统计数据见表1。表包含了根据我们实验中使用的目标域类的数量的每个子集的统计信息。更多详情请参见补充材料。当主源域不包含一个或多个目标域类时，或者当主源域需要辅助源域的帮助时，会引入辅助源域。4.3. 基线和实施细节我们在 pySlowFast [18] 的帮助下实现了 SlowFast[19]，作为我们在源域和目标域上的监督基线。本工作中提出的所有方法都使用SlowFastR50 [19]模型作为骨干模型进行公平比较。由于我们使用AVA-Kinetics视频作为主要源域，因此我们不希望对Kinetics [34]数据集显示不适当的偏差，因此我们对MiT数据集[50]上的视频分类任务预训练SlowFastR 50平均平均精度（mAP）被用作度量来指示各种域自适应（DA）技术的我们使用随机梯度下降（SGD）与Nesterov加速度，以及1×10−2的基本学习率，4151→×→×→(a)伪标记（单独）(b)DA-AIM图5：AVA-Kinetics AVA设置训练结束时伪标签的混淆矩阵。（a，左）UDA的单独伪标记（b，右）我们的DA-AIM内的伪标记。线实验，而1. 25 10−2，然后使用余弦调度器将其减小，最终学习速率等于基本学习速率的1/100预热持续1个epoch，从基础学习率的1/10重量衰减设置为110−7，动量设置为0。9 .第九条。对于AVA-KineticsAVA实验，我们在4个GPU上训练，批次大小为24，持续6个时期，对于所有其他设置（例如，AVA-KineticsIhD-2），我们使用批量大小8，并在2个GPU上训练4个epoch。4.4. 消融研究我们还进行了消融研究，以调查我们提出的DA-AIM的不同组件4152→→→→→→→表3：使用IhD-2数据集作为具有不同源域的目标域的评估结果源域DA-AIM手提袋dropBagLeaveBag站合影扔触摸走地图IhD-2（oracle）✗54.8354.6128.5499.9999.48100.027.1785.2568.73AVA-Kin✗37.547.361.1490.7296.2868.402.0288.1848.96AVA-Kin✓39.979.421.2686.0483.7176.882.0889.8348.65IhD-1✗18.063.120.9993.1798.3198.624.1876.0449.06IhD-1✓27.757.471.1694.8899.2697.942.7081.8651.63AVA-Kin+IhD-1✗23.443.131.0997.4699.3098.653.7277.2150.50AVA-Kin+IhD-1✓42.272.771.1693.4598.7399.017.5574.8952.48法我们在两种设置（ AVA-Kinetics AVA 和 AVA-Kinetics IhD-2）上进行消融研究。同样的结果可以在Tab中找到。2.从上表中得到的明确信息是，我们需要所有组件都到位，以获得实质性的改进。跨域实例混合（iMix）本身几乎不能促进模型向目标域学习，如表3-5行所示。2.由于混合只利用地面真实标签来计算最终损失，这使得损失严重依赖于来自源域的内容，而来自目标域的内容只有很少的影响。与没有任何其他DA技术的基线实验相比，伪标记恶化了源和靶域我们观察到，教师网络创建的伪标签往往偏向于易于预测的类。图5（a）图示了在训练的最后一个时期期间创建的伪标签的混淆矩阵。在AVA-动力学AVA实验中，伪标签偏向班级。类似的现象在早期的作品中识别出，将伪标记应用于UDA以用于语义分割任务[91，74]。跨域物质混合和伪标记的上述缺点可以通过与ESTA的集成来纠正。在损失计算过程中考虑伪标签，推动网络学习也适用于目标域分类的域不变特征。另一方面，用部分真实标签替换部分伪标签，令人难以置信地解决了伪标签的偏见问题。DA-AIM创建的伪标签混淆矩阵如图5（b）所示。我们在AVA-KineticsIhD-2中也观察到类似的趋势，如表1所示2、混淆矩阵在补充资料中提供。调整大小是DA-AIM的重要注入之一。我们通过比较跨域实例混合（第3行到第4行）和DA-AIM（有和没有扩展）（第5行和第6行）的结果验证了扩展实际上可以增强目标域上的性能。4.5. 需要辅助源域这里我们讨论需要一个辅助源域.我们需要一个辅助源域来解决主源域中代表不足或缺失的类。在Tab中可以看到。3、“拍照”、“投掷”、“触摸”等代表性不足的类请注意，模型（AVA-Kin+IhD-1）实现了最大性能增益（52.48mAP），该模型从主源域和辅助源域学习有意义的表示以进行自适应。4.6. 与最新技术水平的在这里，我们将我们的DA-AIM与表4中的最先进的方法进行比较，而不添加辅助域。首先，我们简要介绍了每种方法，接下来，我们在我们的数据集上实施和评估四种UDA策略：具有旋转预测（Rotation）[32]或裁剪顺序预测（Clip-order）[81]的自监督学习，具有梯度反转层（GRL）[1，21]的对抗学习以及我们的DA-AIM框架。DA-AIM在AVA-Kinetics AVA和AVA-Kinetics IhD-2基准测试的目标域上优于其他DA技术由于我们的评估基准比[1]中提出的更具挑战性，因此他们基于GRL的方法未能取得任何收益（见表中倒数第二行）。4）.图像级方法的简单自适应在挑战基于视频的无监督域自适应动作检测方面完全失败，在消融研究第4.4节中也可以观察到这一点，其中简单伪标记的适配失败。值得注意的是，我们的DA-AIM始终优于其他方法，特别是在代表性不足的类别中，例如。“躺下/睡觉”和“拍照”。DA-AIM达到63。靶域AVA-动力学AVA基准上的65 mAP与62 mAP相比。46mAP的基线实验。对卧/睡和跑/跑的平均精度提高了5%以上。同时，AVA-Kinetics→ IhD-2基准，DA-AIM增加了4153预测值不正确触摸正确预测：拍照坐姿时预测的弯曲/弓形不正确坐坐坐正确预测：弯曲/弓形基线，不含DADA-AIM坐坐坐→→→→→→基线（无DA）DA AIM（我触摸拍照错误预测触摸正确预测拍照坐弯腰坐坐坐下坐下坐坐坐坐下坐下坐坐坐预测位置不正确预测弯曲或b站站站站走走嗷正确的预测正确的预测表4：与UDA最新方法的比较。DA-AIM是在没有辅助源域的监督下训练的。“仅源”模型在源域上训练，并在目标域上评估，而不进行任何调整。The “oracle model” is trained and evaluated on the target方法AVA-KineticsAVA-Kinetics IhD-2 bend/bow lie/sleep run/jog sit standwalk mAP touch throw take a photo mAP预言模型36.3467.4957.7475.6184.6479.2666.8437.9151.7645.3845.02纯源模型33.6654.8256.8273.7080.5675.1862.4634.1232.9127.4231.48旋转[32]25.5358.8655.0572.4279.8468.4960.0330.1234.5825.3930.03[第81话]28.2457.3856.9069.5477.1074.6860.6428.2832.3029.9330.17GRL [1，7，21]24.9948.4159.8968.6878.7971.3858.6925.7939.7128.9031.46DA-AIM（我们的）33.7959.2762.1671.6779.9075.1363.6534.3835.6539.8436.62mAP 31. 从基线实验的48到36。62.在那里，类拍照的平均精度提高超过10%。图6：关键帧上的定性结果。定性结果：也由我们的实验提供在图6中。它显示了DA-AIM可以识别基线无法识别的困难类别或DA-AIM获得更好的置信度得分的示例。局限性：仍有一些限制有待取消，一些悬而未决的问题有待回答。我们同时涉及多个动作实例，例如课堂谈话。该限制可以通过处理这些作用类别来消除，特别是在混合期间。此外，DA-AIM的性能仍有很大的提高潜力例如，我们将动作管粘贴在与原始视频剪辑中的位置完全相同的位置。如果引入粘贴位置的随机性在混合期间对少数类进行过采样也可以提高性能，特别是当数据集不平衡时。5. 结论我们首次提出了一个基于跨域混合采样和自训练的DA动作检测我们实现并系统地分析了各种域适应策略的有效性，包括自监督学习，对抗学习，自训练和朴素的跨域视频混合。更重要的是，我们提出了DA-AIM，一种新的算法为非监督域自适应动作检测量身定制DA-AIM考虑了动作检测的固有特性，合理地混合了来自源域和目标域的3D视频片段、边界框和标签（地面实况或伪标签）。我们在两个具有挑战性的基准测试中以经验证明了DA-AIM击败了其他DA技术：动力学AVA和动力学IhD-2。与没有DA技术的基线实验相比，DA-AIM引起mAP增加1。动力学AVA基准的2%和5。动力学IhD-2基准的2%类平均拍照精度提高10%以上.此外，我们还引入了辅助源域的概念ASD域不仅有助于提高DA-AIM在主要源域中缺失的类上的性能，而且还有助于在长源域中其他代表性不足的类。尾主源域致谢。作者感谢Armasuisse的支持。4154引用[1] Nakul Agarwal，Yi-Ting Chen，Behzad Dariush，Ming-Hsuan Yang.无监督域自适应用于时空动作定位。arXiv预印本arXiv：2010.09211，2020。[2] Alaaeldin Ali和Graham W Taylor。利用双流网络进行实时端到端动作检测。2018年第15届计算机和机器人视觉会议（CRV），第31IEEE，2018年。[3] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯自监督增强一致性，以适应语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第15384-15394页[4] Harkirat Singh Behl，Michael Sapienza，Gurkirt Singh，Suman Saha，Fabio Cuzzolin，and Philip HS Torr.用于人体动作检测的渐缩管结构。 arXiv 预印本 arXiv ：1704.01358，2017。[5] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。神经信息处理系统的进展，32，2019。[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[7] Min-Hung Chen ， Zsolt Kira ， Ghassan AlRegib ，Jaekwon Yoo，Ruxin Chen，and Jian Zheng.用于大规模视频域适应的时间注意在IEEE/CVF计算机视觉国际会议论文集，第6321-6330页，2019年[8] Min-Hung Chen，Baopu Li，Yingze Bao，and GhassanAl-Regib.具有混合时域适应的动作分割。在IEEE/CVF计算机视觉应用论文集，第605[9] Min-Hung Chen，Baopu Li，Yingze Bao，Ghassan Al-Regib，and Zsolt Kira.联合自监督时域自适应的动作分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第9454-9463页[10] Shoufa Chen ，Peize Sun，Enze Xie ，Chongjian Ge ，Jianan Wu，Lan Ma，Jiajun Shen，and Ping Luo.仅观看一次：端到端视频动作检测框架。国际计算机视觉会议（ICCV），第8178-8187页，2021年[11] Xiaokang Chen，Yuhui Yuan，Gang Zeng，and JingdongWang.交叉伪监督的半监督语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第2613-2622页[12] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集，第3339-3348页[13] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[14] Jaehoon Choi，Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的领域适应。在IEEE/CVF计算机视觉国际会议论文集，第6830-6840页[15] Jinwoo Choi，Gaurav Sharma，Samuel Schulter，and Jia-Bin Huang.洗牌并参加：视频域自适应。欧洲计算机视觉会议，第678-695页。Springer，2020年。[16] N Faraji Davar，Teofilo de Campos，David Windridge，Josef Kittler，and William Christmas.体育视频动作识别背景下的域自适应。在域适应研讨会，与NIPS，2011年。[17] 凯文·杜阿尔特，约格什·拉瓦特和穆巴拉克·沙阿。Videocap- sulenet：用于动作检测的简化网络。神经信息处理系统的进展，31，2018。[18] Haoqi Fan，Yanghao Li，Bo Xiong，Wan-Yen Lo，andChristophFeichtenhofer.Pyslowfast 。 https ： //github.com/facebookresearch/slowfast，2020年。[19] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议论文集，第6202-6211页[20] Geoff French ， Timo Aila ， Samuli Laine ， MichalMackiewicz，and Graham Finlayson.半监督语义分割需要强的、高维的扰动。2019

下载后可阅读完整内容，剩余1页未读，立即下载