基于解码路径增强的Transformer一致性学习在人机交互检测

92 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1019→→ → →→◦基于解码路径增强的Transformer一致性学习在人机交互检测朴智焕1，2李承俊1许焕1崔亨圭1贤宇J。Kim1，*1高丽大学计算机科学工学系2Kakao Brain{jseven7071，lapal0413，gjghks950，imhgchoi，hyunwoojkim} @ korea.ac.kr@ kakaobrain.com摘要人-物交互检测是一个整体的视觉识别任务，它需要对象检测以及交互分类。HOI检测的先前工作已经通过子集预测的各种组合来解决，图像HO I，图像HIO.最近，已经出现了用于HOI的基于Transformer的架构，其以端到端的方式直接预测HOI三元组受HOI检测的各种推理路径的启发，我们提出了交叉路径一致性学习（CPC），这是一种新的端到端学习策略，通过利用增强的解码路径来提高变换器的HOI检测。CPC学习强制所有可能的预测从置换推理序列是一致的。这个简单的方案使模型学习一致的表示，从而在不增加模型容量的情况下提高泛化能力。我们的实验证明了我们的方法的有效性，我们取得了显着的改善V-COCO和HICO-DET相比，基线模型。我们的代码可在https://github.com/mlvlab/CPChoi上获得。1. 介绍人-物体交互（HOI）检测是一个整体视觉识别任务，其包括将个体物体检测为<人、物体>，同时适当地对交互类型进行分类<>。以前的HOI检测器[15，31，49，52]主要建立在对象检测模型上。它们通常扩展了基于CNN的对象检测器[34，42，45]，具有用于交互分类的附加头，例如，首先检测人和物体，随后关联它们的交互。为了减轻这种两阶段HOI检测方法的高计算成本，已经提出了一阶段模型[22，33，52 这些模型执行交互预测和对象检测，*通讯作者。(a) 周期一致性（b）跨任务一致性 (c)交叉路径一致性图1. 比较了两种方法的优缺点。黑线指的是主任务函数fXY，红蓝线指的是训练成彼此一致的任务对。(a)循环一致性强制复合函数fYXfXY与恒等函数fXX一致。 (b)跨任务一致性需要一个辅助的预训练网络fYYa，以虚线表示，以在任务之间提供一致的输出。(c)跨路径一致性不需要特定于任务的预训练网络。主任务函数f XY的输出应该与子任务函数fXYs和fYsYfXYs的输出的组成一致。并联它们通过对HOI子集的辅助预测来补偿其较低的性能，即，对于子集<人交互>或<对象交互>的辅助预测可以通过后处理帮助HOI预测。然而，这些工作需要不同的网络架构，每个辅助预测，由于严格的纪律，每个网络因此，为了引入灵活性，最近已采用基于transformer的架构[6，23，46，48]进行HOI检测。他们将HOI检测问题重新表述为建立在DETR上的直接集合预测[4]。受HOI检测器中各种推理路径的启发，我们提出了一种简单而有效的方法来训练HOI变换器。我们增加解码路径相对于HOI三元组的可能的预测序列。然后，使用转换器的级联结构，将输入查询依次解码为辅助子任务输出和最终输出。每个增强路径阶段的阶段以多任务学习方式共享解码器。我们进一步改进我们的方法，以利用增强解码器，1020Y →→通过强制来自各个路径的输出保持一致来执行路径。因此，我们提出了交叉路径一致性（CPC）学习，其目的是预测HOI三元组，而不管推理序列。类似于跨任务一致性[55]，跨路径一致性保留推理路径不变性。然而，跨路径一致性学习不需要额外的预训练网络。与需要辅助网络来训练主任务X → Y（图1-（b））的跨任务一致性相反，跨路径一致性在X和Y之间定义了一个辅助域Ys（图1-（c））。换句话说，主任务X → Y（即，图像→HOI）被分成子任务X→ Ys和Ys→（例如，图像110 I）。然后通过强制其输出和子任务预测的组成一致来训练主任务函数fXY此外，在训练过程中暂时采用了跨路径一致性学习.ing仅。我们的训练策略可以推广到任何基于变压器的架构，并可以应用于端到端的方法。大量的实验表明，用CPC学习策略训练的HOI变换器在两个流行的HOI检测基准上实现了实质性的改进：V-COCO和HICO-DET。这项工作的贡献可归纳如下：• 我们提出了交叉路径一致性（CPC）学习，这是一种新的端到端学习策略，以提高变压器的HOI检测利用各种推理路径。在该学习方案中，我们使用解码路径增强来生成各种推理路径，这些推理路径是具有共享解码器的子任务的组合，以进行有效的训练。• 我们的训练方案在不增加模型容量和推理时间的情况下，实现了对V-COCO和HICO-DET的实质性改进。2. 相关作品2.1. 人机交互检测人-物体交互（HOI）检测已经在[16]中提出。后来，使用人或实例外观及其空间关系改进了人-物体检测器[12，15，25]。另一方面，已经提出了基于图形的方法[11，44，49，51]来阐明<人与对象对之间的动作。仅基于视觉线索的HOI检测模型通常因为缺乏背景信息而受苦。因此，近年来的研究工作主要是利用外部知识来提高HOI检测的质量.从外部模型[3，7，19，28]或语言先验和知识图模型中提取的人体姿势信息显示出有意义的性能改进[14，18，31，36，37，43，54，57，58]。由于大多数先前的工作是基于具有较慢推理时间的两阶段方法，因此已经建议通过引入简单的端到端多层感知器[17]或直接检测交互点[33，52]或联合区域[20，22，30]来尝试更快的HOI检测。2.2. 计算机视觉中的变压器Transformer已经成为许多计算机视觉任务中最先进的方法。在图像分类中，[9]在没有任何卷积层的ImageNet上表现出了竞争力。DeiT [48]应用知识蒸馏来有效地训练视觉Transformer。为了提取多尺度图像特征，Swin Transformer [38]提出了基于移位窗口的自注意模块，其有效地聚合小块以增加感受野。在目标检测任务中，DETR [4]提出了一个端到端的框架，消除了对手工设计组件的需求。DETR的预测集和地面真值标签之间的二分匹配损失使得能够在推理时进行直接集预测。最近，DETR受DETR的启发，最近提出了基于变压器的HOI（人-物体交互）检测器[6，8，23，46，63]。HOITransformer模型有两种类型的结构，一个解码器模型和两个解码器模型。遵循DETR [4]结构的单解码器模型从单个解码器的输出预测三元组。 QPIC [46]和HoiT [63]是一个解码器模块，直接使用多个交互检测头<输出人，物体，交互>三元组。双解码器模型使用两个Transformer解码器来输出不同的目标。例如，HOTR [23]和AS-NET [6]由输出对象的实例解码器和输出交互的交互解码器组成。与以前使用单一推理路径训练的作品相比，我们的模型使用增强的解码路径进行学习。此外，我们的框架可以应用于任何基于transformer的模型。更多关于HOI变压器的解释见第3.1节。2.3. 视觉中的一致性学习应用于许多计算机视觉主题的一致性约束在半监督学习中，一致性正则化被广泛用于训练模型，使其对输入噪声保持不变。标签一致性方法[27，41，47，53]增加或扰动输入图像，并在模型预测之间应用一致性损失。CDS [21]探索了半监督环境中的对象检测，具有分类和定位一致性正则化。此外，循环形式的一致性正则化通常用于生成模型[61]，图像匹配[59，60]，时间对应[10]，以及许多其他方法。1021∈∈∈∈∈YYY→→→P=x→HI→O3其他领域。与一致性学习的比较我们的一致性训练方案与跨任务一致性学习相关[55]。跨任务一致性学习基于推理路径不变性，其中预测应该是一致的，而不管推理路径如何。如图1（b）所示，跨任务一致性学习使用辅助任务Y → Ya来训练主任务函数fXY，即，给定来自查询域的x和来自目标域的y，期望fYYafXY（x）和fYYa（y）的预测是一致的。与跨任务一致性不同，我们的跨路径一致性学习（图1（c））通过强制对fXY和fYsY<$fXYs的目标域Y 的预测来训练主任务函数fXY，其中辅助域Ys是从目标域Y分解出来的，要保持一致。此外，虽然跨任务一致性学习需要预训练映射函数fYYa以避免使用噪声估计器的次优训练，但是跨路径一致性学习不需要任何任务特定的预训练网络，因为辅助域s是目标域的一部分。我们的框架的详细信息在第3.2节中描述。3. 方法在本节中，我们提出了一种新的端到端训练策略，用于在人机交互检测中具有交叉路径一致性的变压器。训练策略包括1）增强解码路径和2）多个解码路径的预测之间的一致正则化。在讨论我们的训练策略之前，我们简要总结了人机交互检测中的变压器。3.1. HOI检测HOI 变换器通常在DETR [4] 上扩展，DETR 由CNN主干和Trans- former [1]的编码器-解码器架构组成。CNN 主干首先提取一个局部聚集的特征图fRH′×W′×D来自输入图像xRH×W×3。然后，特征图f被传递到编码器中以经由自注意机制全局地聚合特征，从而产生编码特征图XRH′×W′×D.在解码阶段，解码器采用可学习的查询嵌入q RN×D，并通过交叉注意与编码的特征映射X交互来输出e R N ×D。输出被转换为最终的HOI预测（即，人、对象、交互），其通常是前馈网络。(a)（b）第（1）款图2. Cross-path consistency for HOI detection. (a)主任务路径P1应该与每个增强路径一致。e.G.路径P2. (b)增广的路径应该彼此一致. e.G.路径P2和P3。匈牙利算法[26]用于将检测与地面真值标签相关联。与地面实况标签不匹配的预测被认为是没有对象或没有交互。通常，HOI变换器可以基于人/对象定位方案被分为两组。[46，63]从HOI预测直接预测人和物体的框坐标。但这会导致人或对象可以被多个查询嵌入冗余地预测的为了解决这些问题，[6，23]提出了并行架构，以独立于对象检测执行交互检测3.2. 解码路径增强我们观察到HOI检测可以通过各种预测序列来实现。例如，基于CNN的HOI检测模型[5，11，15，17]首先检测实例（人和物体），然后预测实例之间的交互，即X何I，其中x是输入图像，H，O，I分别是人，物体，交互的预测。另一方面，[6，23，46，63]的 HOI变换器直接预测HOI三元组，即，xHOI。受跨任务一致性[56]和这种观察的启发，我们提出了解码路径增强来生成各种解码路径（或预测路径）并实施一致性正则化。通过部分解码的HOI预测，可以很容易地实现HOI检测中变压器的解码路径增强。此外，跨路径共享解码器在知识共享方面是有益的。在我们的实验中，我们考虑如下四种解码路径：P1=x→HOI训练Transformers进行检测需要匹配预测和地面实况标签，因为Transformers提供检测作为集合预测。为了计算损失，P2=x→HO→IππP4=x→OI→H加强版（一）1022PPPP{P P P}sup2PPLPP1212PPP22小时12图3. 交叉路径一致性学习的整个过程。编码后的图像特征通过多条推理路径1、…k−1，k. 每个路径都基于解码路径扩充来扩充，以生成各种推理路径序列（见3.2节）。为了避免混乱，我们只可视化主路径1和增强路径k。主路径1由单个解码级组成，并且增广路径k是解码级的组合;所有F块共享参数。给定查询q是可学习的位置嵌入，每个解码器提取表示为e1， 1，ek，1和ek，2的输出嵌入。然后，每个输出嵌入被馈送到读出函数FFN中以预测每个HOI元素，即，<人、物体、交互>。通过交叉路径一致性学习（第3.3节），使用相同的地面真值标签监督的所有输出都被训练为一致的，而不管它们的推理路径如何。交叉匹配用于匹配那些被认为是一致的查询，真理标签除了所有路径P k的监督损失Lk之外，交叉路径一致性损失LCPC也被添加到我们的最终损失中。路径Pk的每个解码阶段可以写为：ek，1=f（ek，0+qk，1，X），ek，2=f（ek，1+qk，2，X），（二）和增广路径P2，P1：x→HOIP2：x→HO →I.（三）其中，qk，j，ek，j表示在第j个解码级处的第k个路径上的可学习查询和输出解码器f跨所有路径和级共享。上面的e是这里，主路径1是HOI变压器的原始干扰路径。在路径2中，获得人和对象检测逻辑y_h和y_o，读出e2，1，其是输出k，02 2虚拟输出嵌入设置为零，因为没有第0级，见图3。每个解码阶段和路径使用单独的读出函数FFN来将输出嵌入转换为HOI实例预测。例如在在阶段1将嵌入放在路径2然后，在定义为f2，2的另一个后续解码器遍次之后获得交互logit y_xact。2的相应推理方案可以用更正式的术语来写：P2：x→HO→I，在阶段1e2，1由FFNPh2读出和FFN来预测人和物体y=FFNP2（f2，1 （X））oy=FFNP2（f2，1（X））（4）分别 HOI元素m∈ {h，o，act}2o的预测在第j个解码级每个第k路径中，可以写为y=FFNP2（f2，2<$f2，1（X））y∈m=FFNPk（ek，j）.2幕在（4）中，除了特征图X之外的f的输入数组是3.3. 交叉路径一致性学习我们现在介绍我们的交叉路径一致性学习框架（CPC），该框架在来自不同解码路径的预测之间实施一致性正则化，如图2所示。使用CPC学习可以在没有任何额外数据或标签的情况下实现更好的泛化。为了简单起见省略了。通过预测，我们施加正则化以使路径1和路径2的输出一致。请注意，HOI检测从2包括最终和中间解码器输出。为此，我们定义的损失函数P1P2的聚合损失从多个增强路径，以执行一致性。损失函数给出为：LP P =λh·Lh。yh，yh+λo·Lo.你好你好具有主路径P1的示例性情况的学习方案+λact·Lac t.你好你好交叉路径一致性。我们解释我们的一致性12（五）1023S·NnΣL=LsupKKKPKk，σk，nPPPPn.=λ·L日海111k，σk，nk′，σk′，n1k′，nP其中yh、yo和yact是主路径的输出1和λ是损失权重。在我们的实验中， softmax 类型的输出使用 Jensen-Shannon散度（JSD）来计算一致性损失，以对称地为每条路径提供损失，而最终损失所有的最终跨路径一致性损失Pk被导出为，N输出后跟S形，例如，箱回归，多LCPC=1ΣLPkPk′（八）标签动作类，取均方误差损失。关于类型特定的损失函数的更多细节在补充中。在其他路径对的情况下，以相同的方式计算损耗。因此，最后的损失应包括所有可能的损失。n=1（k，k′）∈K其中N是地面真实标签的数量。然后，我们的训练损失L的最终形式定义为：成对的然后，交叉路径一致性（CPC）损失可以写为：KsupK+w（t）·LCPC，（9）其中，Lk是每条路径Pk的监督损失，LCPC=S（k，k′）∈KLPkPk′（6）w（t）是稳定训练的斜升函数[2，27，47]我们的总体框架如图3所示。其中，表示所有可能路径对的集合，S表示集合的大小，即，路径组合的数量。交叉配血跨路径一致性学习鼓励不同路径的输出保持一致。然而，由于路径的输出是作为一个集合给出的，因此我们首先需要解析对应关系来指定预测对以实现一致性。我们提出了交叉匹配，这是一种简单的方法，可以用相应的地面真值标签标记每个实例。使用相同标签标记的实例被配对以计算一致性损失。另一方面，如果一个实例与任何路径的输出都不匹配，我们只需将该实例排除在一致性学习之外我们的跨路径一致性损失在下面介绍。设σ k（i）表示与第k条路径中的第i个查询相匹配的地面真值标签的索引。我们将σ−1（n）定义为与地面真值索引e xn相匹配的路径k的查询索引。为了避免clutter，我们使用σk，n作为σ−1（n）的简写。来自具有相同地面实况标签的不同路径的输出应该是一致的。4. 实验在本节中，我们经验性地评估了使用HOI变换器的交叉路径一致性学习的有效性我们的实验在公共HOI检测基准数据集上进行：V-COCO和HICO-DET。我们首先简要介绍数据集并提供实现细节。我们广泛的实验表明，我们的训练策略在没有额外参数或推理时间的情况下，对基线模型进行了显着改进4.1. 数据集V-COCO[16]是COCO数据集[35]的一个子集，其中包含5，400个训练图像和4，946个测试图像。V-COCO注释了29个常见的操作类。对于V-COCO数据集的评估，我们报告了两种情况下25次交互的mAP度量，第一种情况包括对遮挡对象的预测，并根据AP角色1进行评估。另一方面，第二种情况不包含此类情况，性能在AProle2中进行测量。例如，ymk，σ∈k′，n这是对HICO-DET[5] 是一子集的的 HICO dataset这具有更比 150K 注释的实例m离k和k′ 用相同的地面实况ind e xn应该一致。输出预测之间的跨路径一致性损失k和具有与inde xn相同的地面真值的k′定义如下：在47，051个图像中的人-对象对（37，536个用于训练，9，515个用于测试）。注：600instances.有80个独特的对象类型，与COCO对象类别相同，和117个独特的交互动词。为了评估HICO-DET，我们报告了三种不同LPkPk′hk，σk，n+λo·Lo. yohk′，σ，yo′（七）设置类别：（1）所有600 HOI类别中的OOO（全），(2)138个HOI类别，少于10个训练样本k，σk，n+λact·Lact.y轴k，σ∈k′，n，y（罕见），和（3）462 HOI类别与超过10个训练样本（非罕见）。和，yΣ1024→P→P方法骨干AP角色1AP角色24.2. 实现细节培训在我们的实验中，QPIC [46]和HOTR [23]分别用作HOI Transformer的基线。在训练过程中，我们使用MS-COCO上的预训练DETR [4]初始化网络，并使用Resnet-50返回。在稀有类别中观察到更显著的性能改进这支持了我们的训练策略在罕见的例子中表现良好。我们的策略改进了传统的HOI Transformer模型。V-COCO HICO-DET骨头对于所有解码路径，除了逐阶段查询和前馈网络之外，模型的参数是共享的。方法AP角色1AP角色2全稀有非稀有工程.我们所有使用一致性正则化的实验都训练了90个epoch，学习率在第60个epoch衰减了0.1倍。作为例外，HOTR 被训练到50 个epoch ，并且对于HICO-DET，学习率在epoch 30处衰减0.1倍。遵循QPIC和HOTR中的原始训练方案，我们冻结HOTR的编码器和主干，而解冻QPIC 的编码器和主干我们使用AdamW [39]优化器，批量大小为16，Transformer和主干参数的初始学习率分别设置为10−4和10−5，权重衰减设置为10−4。所有实验都在8个V100 GPU上训练。我们在V-COCO [16]上重新实现了QPIC和HOTR的结果，因为我们的再现结果与本文中的官方结果有很大为了公平比较，基线和我们的训练策略之间重叠的所有损失系数与论文[23，46]中报告的损失系数相同与我们的训练策略相关的超参数的详细信息在补充材料中报告推理我们主要使用1（xHOI）进行推断，以与基线模型进行比较，而不增加参数的数量。此外，我们报告的其他推理路径在我们的消融研究的结果。4.3. 与HOI Transformer的我们评估我们的方法相比，现有的HOI变压器的有效性。所有实验都报告了主路径1，其通过与原始HOITransformer相同的单个解码级（x如表1所示，我们的CPC培训策略在两个基线HOTR [23]和QPIC [46]上表现显著在V-COCO数据集中，实验显示性能改善，对于 AP 角色 1 中的 QPIC ，改善幅度为 0.9 mAP ，对于HOTR，改善幅度为1.8对于AP角色2，QPIC和HOTR增益分别提高0.9 mAP和1.9 mAP，与AP角色1。在HICO-DET数据集中，我们使用HOTR和QPIC进行的CPC学习优于HICO-DET的所有评估类别，除了HOTR上的非罕见类别中的可忽略不计的退化HICO-DET上罕见类别的结果对于QPIC和HOTR分别改善了1.29 mAP和5.5 mAP的显著裕度。在这两个模型中，我们QPIC 62.2* 64.5* 29.07 21.85 31.23QPIC+我们的HOTR 59.8* 64.9* 25.10 17.3427.42HOTR+我们的61.6 66.8 26.16 22.8427.15表1.我们的培训策略与V-COCO和HICO-DET上的香草HOI变压器的比较。* 表示我们的结果与QPIC和HOTR的官方实现代码复制。基于CNN的HOI检测模型InteractNet [15]R50-FPN40.0 48.0ICAN [12]R5045.3 52.4[32]第三十二话R5047.8-RPNN [58]R50-47.5动词嵌入[五十四]R5045.9-PMFNet [50]R50-FPN52.0-PastaNet [31]R50-FPN51.0 57.5VCL [20]R50 L48.3-UNIDET [22]R50-FPN47.5 56.2DRG [11]R50-FPN51.4-FCMNet [36]R5053.1-ConsNet [37]R50-FPN53.2-PDNet [57]R50-FPN53.3-印尼[30]R5053.3 60.3GPNN [44]R15244.0-IPNet [52]H.G.10451.0-VSGNet [49]R15251.8 57.0PDNet [57]Res15252.2-机场班车[24]Res15253.0-基于transformer的HOI检测模型[63]第六十三话AS-Net [6]R101R5052.9-53.9-HOTR [23]R5055.264.4HOTR+我们R5061.666.8QPIC [46]R5058.861.0QPIC+我们R5063.165.4表2. V-COCO测试装置的性能比较。AProle 1和AProle 2分别表示V-COCO中场景1和场景2下的性能4.4. 与最新方法的在表2和表3中，我们比较了以前的HOI检测方法与我们的。如表中所示，我们的培训策略在同行中取得了最佳表现。表2显示了V-COCO数据集的结果，1025†P PP P默认方法检测器主干超全稀有非稀有基于CNN的HOI检测模型InteractNet [15]CocoR50-FPN✗9.947.1610.77ICAN [12]CocoR50S14.8410.4516.15[32]第三十二话CocoR50S+P17.0313.4218.11RPNN [58]CocoR50P17.3512.7818.71PMFNet [50]CocoR50-FPNS+P17.4615.6518.00[17]第十七话CocoR152S+P17.1812.1718.68UnionDet [22]CocoR50-FPN✗14.2510.2315.46DRG [11]CocoR50-FPNS+L19.2617.7419.71VCL [20]CocoR50S19.4316.5520.29FCMNet [36]CocoR50S+P20.4117.3421.56机场班车[24]CocoR152S+P20.5915.9221.98[29]第二十九话CocoR50S+V21.3418.5322.18ConsNet [37]CocoR50-FPNS+L22.1517.1223.65PastaNet [31]CocoR50公司简介22.6521.1723.09印尼[30]CocoR50S23.3622.4723.63GPNN [44]CocoR152✗13.119.4114.23IPNet [52]Coco眼镜104✗19.5612.7921.58VSGNet [49]CocoR152S19.8016.0520.91PD-Net [57]CocoR152公司简介20.8115.9022.28基于transformer的HOI检测模型[63]第六十三话AS-Net [6]HICO-DETHICO-DETR50R50✗✗23.4628.8716.9124.2525.4130.25HOTR [23]HICO-DETR50✗25.1017.3427.42HOTR+我们HICO-DETR50✗26.1622.8427.15QPIC [46]HICO-DETR50✗29.0721.8531.23QPIC+我们HICO-DETR50✗29.6323.1431.57表3. HICO-DET中的性能比较。对于探测器，COCO意味着探测器在COCO上训练，而HCO-DET意味着探测器首先在COCO上训练，然后在HICO-DET上进行微调。Extra列中的每个字母代表S：交互模式（空间相关性），P：姿势，L：语言先验，V：音量。方法分享12月CPCP 1P 2P 3P 4平均数总面积63.1 63.3 63.1 63.0 63.13±0.05†QPIC✓✓62.4 62.9 60.859.461.38± 1.3860.7 60.7 59.9 58.1 59.85± 1.06100.6100.6100.6 100.58± 0.02†HOTR✓✓61.261.6 61.160.6 61.1360.6 60.6 61.2 60.6 60.75± 0.13表4.关于我们学习策略的消融研究。共享解码器上的消融结果（共享12月。）和交叉路径一致性（CPC）。对于主路径1和每个增强路径2、3、4，它们的性能以mAP为单位进行报告。它们在V-COCO测试集上针对场景1进行评估。每个路径的最佳性能以粗体突出显示，并且是指观察到最小标准差的情况。AP角色1和AP角色2。在V-COCO数据集中，我们的方法在AProle 1和AProle 2中分别实现了63.1 mAP和66.8 mAP的出色性能。此外，表3中的CANO-DET数据集的结果表明，我们的CPC进一步改进了最先进的模型（例如，HOTR和QPIC）在默认设置下实现26.16 mAP和29.63 mAP，重新校准。4.5. 消融研究我们通过一系列消融研究进一步讨论了我们的框架的有效性。我们首先为我们的跨路径一致性学习方法提供路径分析。在每条路径上测试我们的训练技术组件的效果，以验证我们的方法。随后，我们分析了增强路径的数量对主任务性能的影响我们通过实验1026PPP啪啪啪啪PP啪啪啪啪啪啪啪啪啪啪P通过证明路径数与性能之间的相关性，证明了该方法的有效性。CPC的效率表4给出了所有推理路径 1、2、3和4的烧蚀实验结果。路径1是主要路径，我们的目标是提高性能与其余的增强路径一起。我们试着切除-编码器共享或交叉路径一致性正则化，每次一个，以确认每个组件对我们的训练策略的贡献。Note that allof our experiments are con- ducted with the encoder blockshared across paths.当应用我们的CPC训练策略时，QPIC和HOTR在主路径1上实现了63.1和61.6的mAP。当解码器参数不共享时，对于两个基线观察到路径10.7 QPIC的压降为0.4mAP，HOTR的压降为0.4mAP。对另一方面，当忽略CPC正则化而共享解码器参数时，QPIC和HOTR的性能分别下降了2.4 mAP和1.0 mAP的大幅度。在所有路径的总体性能方面总体结果支持我们的学习策略提高了基础架构的泛化能力，并通过在整个路径和阶段共享知识来提高性能。有趣的是，所有性能的标准差在没有这两个组件的情况下急剧增加。对于非共享解码器，QPIC的偏差增加了1.33，0.35为HOTR。此外，当去除CPC正则化时，QPIC的偏差增加1.01，HOTR的偏差增加这意味着我们使用共享解码器和CPC的训练策略可以实现更稳定的训练和一致的表示。增强路径的影响在V-COCO基准测试中，我们研究了增强路径的数目对主路径1性能的影响。从1开始，相对于来自表5的场景1的mAP逐渐添加增强路径，其中每个路径利用默认设置独立地训练，而不应用训练技术。我们首先利用具有更好性能的增强路径，因为每个模型的性能将作为路径集合的下限。具体而言，如表5所示，当独立训练时，HOTR和QPIC都显示出更好的性能，顺序为1、2、3和4。我们比较了增广路径按相应顺序逐渐增加的四种情况;即， 1、1+2、1+2+3和1+2+3+4。作为如图4所示，性能随着增加了增强路径。消融研究证明，无论每条路径的表现如何，利用更多的路径可以增强我们的主神经元的学习能力。任务，并且其性能随着增强路径的数量增加而增强。方法P1P 2P 3P 4平均值QPIC 62.2 61.9 61.7 60.4 61.55± 0.69最高温度59.8 59.5 59.0 58.9 59.3± 0.37表5.V-COCO的路径结果。(a)QPIC（b）HOTR图4. 增强路径数量上的消融。随着增强路径数量的增加，主任务性能相应地增加。5. 结论我们提出了端到端的交叉路径一致性学习的人机交互检测。通过解码路径增强，生成预测置换序列中的HOI三元组的各种解码器路径。然后，跨路径应用一致性正则化以强制预测一致。还引入了参数共享和交叉匹配，以加强学习。我们的方法在概念上是简单的，并可以应用到广泛的Transformer架构。此外，它不需要额外的模型容量，也不需要推理时间。对V-COCO和HICO-DET的实质性改进通过进一步的实证研究，证实了它提高泛化能力和促进一致性表征的能力。致谢这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）赠款的部分支持（No.2021-0-02312，基于元学习的有效训练方法和多用途多模态人工神经网络用于无人机AI），（IITP-2022-2020-0-01819，ICT创意一致性计划）; ETRI基金（2201200，以人为中心的自主智能系统的基础技术研究）;和KakaoBrain公司。1027引用[1] 瓦斯瓦尼A.沙泽尔·N Parmar N.，Uszkoreit J.，琼斯湖Gomez A.N.，凯撒湖和波罗苏欣岛注意力是你所需要的。NeurIPS，2017。3[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法。NeurIPS，2019。5[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。2[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。一、二、三、六[5] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在WACV，2018。三、五[6] Mingfei Chen，Yue Liao，Si Liu，Zhiyuan Chen，FeiWang和Chen Qian。将hoi检测重构为自适应集合预测。在CVPR，2021年。一二三六七[7] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR，2018年。2[8] Qi Dong，Zhuowen Tu，Haofu Liao，Yuting Zhang，Vi- jay Mahadevan，and Stefano Soatto.使用组合查询的部分和转换器的可视关系检测。ICCV，2021。2[9] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在ICLR，2020年。2[10] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在CVPR，2019年。2[11] Chen Gao ， Jiarui Xu ， Yuliang Zou ， and Jia-BinHuang.DRG ：用于人机交互检测的对偶关系图在ECCV，2020年。二三六七[12] 高晨，邹玉良，黄家斌。ican：用于人-对象交互检测的以实例为中心的注意网络在WACV，2018。二六七[13] Peng Gao ，Minghang Zheng，Xiaogang Wang，JifengDai，and Hongsheng Li.具有空间调制共同注意的detr算法的快速收敛。ICCV，2021。2[14] NikolaosGkanatsios 、 VassilisPitsikalis 、 PetrosKoutras、Athanasia Zlatintsi和Petros Maragos。用于视觉关系检测的深度监督多模态注意翻译嵌入。在ICCV，2019年。2[15] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在CVPR，2018年。一二三六七[16] 吉坦德拉·古普塔索拉布·马利克视觉语义角色标注。CVPR，2015。二、五、六[17] Tanmay Gupta，Alexander Schwing，and Derek Hoiem.简单的人机交互检测：因式分解，层-1028输出编码和训练技术。在ICCV，2019年。二、三、七[18] Tanmay Gupta 、 Kevin Shih 、 Saurabh Singh 和 DerekHoiem。对齐的图像-单词表征改善了视觉-语言任务之间的诱导迁移。 InICCV，2017. 2[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 2[20] 智厚、彭小江、虞乔、大成涛。用于人-物体交互检测的视觉合成学习在ECCV，2020年。二六七[21] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。NeurIPS，2019。2[22] Bumsoo Kim、Taeho Choi、Jaewoo Kang和Hyunwoo J.Kim. Uniondet：面向实时人机交互检测的联盟级检测器。在ECCV，2020年。一、二、六、七[23] Bumsoo Kim等人Hotr：使用变压器的端到端人机交互检测。在CVPR，2021年。一二三六七[24] Dong-Jin Kim，Xiao Sun，Jinsoo Choi，Stephen Lin，and In So Kweon.利用动作共现先验检测人-对象交互。在ECCV，2020年。六、七[25] 亚历山大·科列斯尼科夫，阿丽娜·库兹涅佐娃，克里斯托夫·H·兰伯特和维托里奥·法拉利。使用框注意力检测视

下载后可阅读完整内容，剩余1页未读，立即下载