虚无物体检测任务中的时空聚合：数据集和基线

182 浏览量更新于2023-10-25 收藏 20.46MB PDF 举报

基线算法

协同表示

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{calayzhou,ybwang,lvtao,lyq,linsen chen}@smail.nju.edu.cn, {shenqiu,caoxun}@nju.edu.cn31040探索虚无物体检测的时空聚合：基准数据集和基线0周凯来，王一波，吕涛，李云倩，陈林森，沈秋*，曹勋*，南京大学，中国南京0摘要0我们致力于一项很少探索的任务，名为虚无物体检测（IOD），其目标是定位具有以下特征的物体：（1）无定形的形状和不明确的边界；（2）与周围环境相似；（3）没有颜色。因此，在单个静态帧中区分虚无物体要困难得多，空间和时间信息的协同表示至关重要。因此，我们构建了一个包含600个视频（141,017帧）的IOD-Video数据集，涵盖了不同距离、大小、可见度和不同光谱范围下的场景。此外，我们开发了一个IOD的时空聚合框架，其中部署了不同的主干网络，并精心设计了一个时空聚合损失（STAloss），以利用时间轴上的一致性。在IOD-Video数据集上进行的实验证明，时空聚合可以显著提高IOD的性能。我们希望我们的工作能吸引更多研究者对这个有价值但具有挑战性的任务进行进一步研究。代码将在以下网址提供：https://github.com/CalayZhou/IOD-Video。01. 引言0最近，基于深度学习的方法[21, 22,58]的出现，使得目标检测取得了重大进展。然而，它们在一些由多光谱相机[26]捕捉的虚无物体（如烟雾、蒸汽和气体泄漏）上仍然面临难以解决的问题。由于烟雾中毒、火灾事故、有毒气体泄漏和爆炸的频繁发生，迫切需要实现实时智能监测和早期警报以及虚无物体。这个研究课题是新颖而具有挑战性的，因为虚无物体在几个方面与传统物体非常不同。经典论文《什么是物体》[1]定义了一种度量方法0� 通讯作者。0图1.传统物体和虚无物体之间的比较。在多尺度、对比度、边缘密度和超像素跨越图像线索下，虚无物体更类似于背景。0关于物体的泛类性的对象性定义了物体作为具有明确定义的边界和中心的独立事物。人们认为任何物体至少具有以下三个独特特征之一：（1）在空间上具有明确定义的封闭边界；（2）与其周围环境外观不同；（3）有时在图像中是独特的，并作为显著的突出显示。基于以上观察，Alexe等人[1]提出了四个图像线索来区分物体：多尺度显著性（MS）、对比度（CC）、边缘密度（ED）和跨越超像素（SS）。MS[33]表示物体是具有独特外观的显著区域；CC反映了前景与背景之间的颜色差异；ED测量了平均边缘幅度作为封闭边界特征；SS将图像分割成31050具有均匀颜色或纹理的小区域。如图1所示，左侧的前景（火车，红色框）在四个测量中得分相对较高，而背景（森林，蓝色框）则相反。考虑到右侧的气体泄漏（绿色框），由于红外图像的单色性，它被剥夺了三色信息。此外，气体泄漏的形状随时间变化，没有固定和清晰的边界。从以上图像线索来看，气体泄漏更类似于背景而不是前景。因此，传统目标检测的成熟算法在这种特殊情况下可能会失败，因此迫切需要针对虚无物体的特定数据集和算法。0为了促进对这个具有挑战性的问题的研究，我们通过多光谱相机在各种场景下收集了一个视频级虚无物体检测（IOD-Video）数据集，包括烟囱冒烟、热蒸汽、气体泄漏等。IOD-Video数据集中的物体特征总结如下：（1）模糊的边界和无定形的形状；（2）与背景环境相似；（3）缺乏颜色信息和显著性。因此，在静态帧内的空间信息有限的情况下，空间和时间特征的协同表示是至关重要的。0此外，我们还为IOD任务开发了一个时空聚合框架。与传统的目标检测不同，IOD需要更多地区分视觉上的时间变化而不是静态的语义外观。传统的视频背景减除方法，如高斯混合模型（GMM）[64]和视觉背景提取器（Vibe）[3]需要静态背景，而光流方法[6]则需要移动目标具有突出的特征点。它们不适用于捕捉虚无物体的时变模式。基于深度学习的利用时空特征的方法主要集中在分类领域，例如动作识别[8,91]。此外，视频目标检测[38]致力于将关键帧特征的丰富信息传播到非关键帧特征并利用时间建模。上述方法的主要范式首先通过2D卷积网络（2D-CNN）提取单帧的特征，然后根据提取的特征挖掘时间关系。在这种情况下，动作检测接近IOD，但它高度依赖于单帧中足够的空间信息，对于虚无物体来说是不令人满意的。在本文中，我们从两个方面探索了一个时空聚合框架：首先，将代表性的时空背景引入我们的框架中，以评估它们在IOD任务上的准确性。其次，设计了时空聚合损失（STAloss），以在三维空间中施加约束，因为传统的2D检测损失只关注静态帧，不考虑时间维度的一致性。0考虑到时间维度上的一致性，实验结果表明，时移模型具有最佳的视频级检测性能，可以保持空间维度的特征完整性，STAloss可以显著提高性能。我们的贡献总结如下：•我们提出了一个IOD-Video数据集，用于促进对这个具有挑战性任务的研究。•我们开发了一个时空聚合框架，可以公平地评估代表性动作识别背景的视频级检测能力。•基于达到最佳性能的时移背景，专门设计了STAloss来利用时间一致性进行进一步改进。02. 相关工作0动作识别中的特征提取。在动作识别中，探索了双流网络、3D-CNN和计算有效的2D-CNN来提取时空信息。双流网络的经典范式利用了反映时间运动信息的额外模态作为第二个输入路径，例如光流[11,71]。3D-CNN被应用于提取时空信息，而无需预先计算明确表示时间信息的输入流[7, 16, 29,67]。然而，通过3D卷积核提取时空表示的计算成本很高，一些工作[57,68]探索了3D分解的思路以减少复杂性。另一种直接而有效的方法是使用2D-CNN提取帧级特征，然后建模时间相关性[12, 18, 46, 48, 52, 65, 70, 82]。TSM [48]，TAM[18]通过视频理解扩展了时移操作。TIN[61]通过交错空间表示进一步融合了时间依赖性。TEA[46]采用运动激发和多个时间聚合来增强运动模式，这类似于STM [36]提出的通道级时空模块。TDN[70]通过利用两个时间差异模块，采用低成本的差异操作来建立多尺度运动时间表示。时空协同表示的研究主要集中在分类任务上，对于视频级检测任务几乎没有尝试。视频目标检测。特征退化（如运动模糊、遮挡和焦点不准）是视频目标检测（VOD）的主要挑战。早期的基于框的VOD方法通过链接静态帧预测的边界框来解决这个问题[9, 19, 28,41]。基于特征的VOD方法聚合时间上下文来改进特征表示。STSN[4]直接预测采样位置，并采用跨时空的可变形卷积来利用时间信息。STMN [77]构建了时空记忆来捕捉一致性的特征。31060捕捉长期外观和运动动力学。[39, 72,88-90]中的方法在光流的指导下对相邻特征进行对齐和变形。除了光流，一些方法[14, 15, 20, 27, 42, 53, 62, 62, 75,80]通过探索区域建议之间的语义和时空对应关系来增强对象级特征。PSLA[25]在时空域中应用自注意机制，而无需额外的光流。LSTS[37]自适应地学习跨帧采样位置的偏移量。MEGA[10]和LSFA[73]通过建模长期和短期依赖性来增强全局-局部聚合。TF-Blender[13]描述了时序特征关系并混合了有价值的相邻特征。TransVOD[31]首次在VOD任务中引入了时间变换器，以聚合空间对象查询和每帧特征记忆。由于将静止物体检测器应用于每个单独帧会导致冗余的计算成本，因此以往VOD方法的研究重点是将关键帧特征的丰富信息传播到非关键帧特征。0时空动作检测。与VOD不同，动作检测任务关注的是在视频中识别和定位人类动作。帧级检测器[56,69]通过连接帧级检测结果生成最终的动作管。为了充分利用时间信息，一些片段级检测器已被提出[24, 40, 44, 45,51, 55, 60, 66, 74, 79]。ACT[40]处理一系列短帧，并通过从锚定立方体回归来输出动作管。ACRN[66]计算了动作分类的演员-场景对关系信息。Context-Aware RCNN[76]重新思考了演员为中心的分辨率的重要性，而MOC[47]将动作实例视为移动点的轨迹。Sarmiento等人[60]引入了两个交叉注意力块，以有效地建模空间关系和捕捉短程时间交互作用。近年来，一些方法尝试基于3D卷积特征识别动作[32, 44, 51, 55, 79]。ACDnet[51]智能地利用连续视频帧之间的时间一致性来近似它们的CNN特征，而不是简单地提取它们。TFNet[44]应用注意机制来融合3D-CNN提取的时间特征和2D-CNN提取的频率特征。ACAR-Net[55]建立在一种新颖的高阶关系推理算子和演员-上下文特征库上，以实现间接关系推理。STEP[79]提出了一种渐进的方法，通过逐步融入更多相关的时间上下文来逐渐获得高质量的提议。然而，它们缺乏对不同3D-CNN架构设计如何影响最终性能的分析。0总之，以往的VOD和动作检测方法大多依赖于2D-CNN来提出边界框，这种范式在IOD任务上可能不令人满意，因为0需要协同提取时空特征。03. IOD-Video数据集03.1. 数据收集和标注0数据收集。由于大多数挥发性有机化合物（VOC）气体在可见光谱中不可见，因此人眼或传统的RGB相机无法看到它们。许多VOC气体的特征吸收峰集中在中红外光谱中，被认为是指纹区域。因此，IOD-Video数据集是在红外（IR）领域范围的受限部分范围内捕获的，波长范围为3�5µm和8�12µm。具体而言，IOD-Video的一部分样本是通过红外光谱成像或便携设备对化学气体的主动放气实验收集的。其余的样本是通过部署在不同石化工厂的报警或监测系统捕获的真实世界样本，其中显示了各种非实质性物体，包括烟雾排放、水蒸气和VOC气体泄漏（例如烯烃、烷烃、一氧化碳）。经过近三年的持续收集，我们获得了数千个视频，经过手动清理如下：1）将原始视频裁剪成约10秒钟的多个短片，确保每个片段中的每一帧都包含非实质性物体。2）为同一场景保留最多两个代表性片段，以确保数据集的多样性。3）消除无法被人眼识别或具有严重成像噪声的片段。最终我们得到了600个视频样本，共计141,017帧。数据集标注。IOD-Video由三名经验丰富的专家使用边界框进行仔细标注，这种标注方式直观且实用。我们使用了一种专门开发的工具来提高标注质量，该工具通过提供由背景建模和历史标注帧提取的伪彩色、运动信息来改进标注质量，因为较长的视频级序列可以显著提高人眼识别非实质性物体的能力。我们提供了帧级边界框注释，通过遵循以下规则进行了双重检查以避免不一致性：1）注释在时间上连续，没有突变。2）边界框通过人的主观感知很好地收紧了物体边界。3）边界框在扩散方向变化时立即做出反应。样本每隔五帧进行标注，由于相邻帧之间的轻微差异，中间帧进行了插值。所有捕获的非实质性物体都被整合到一个前景类别中。数据集统计。尽管在中红外波段捕获IOD-Video数据集的非实质性物体非常困难，但IOD-Video的标注帧数量超过了KAIST[34]多光谱行人检测和LNG[5]气体泄漏数据集的数量，如下所示：Insubstantial objects can hardly be located in a singlestatic frame, as they differ from convectional objects withunclear contours.Thus, IOD needs spatio-temporal col-laborative representation of adjacent several frames whichremains unexplored in video-level detection task before.In this section, we design a general video-level detectionframework as illustrated in Fig. 4, where representativeaction recognition models can be adopted as the spatio-temporal backbone. The anchor-free model CenterNet [87]is employed as the basic architecture to make the wholepipeline as simple as possible. All spatio-temporal back-bones are built on ResNet-50 [30], hence the detection per-formance of different action recognition models on IOD canbe fairly compared with our framework. To be specific,multi-scale feature maps from ResNet-50 stage 2, 3, 4, 5are up-sampling with the deconvolution layer into the sameresolution, T images with resolution of W × H are fedinto the spatio-temporal backbone to generate a feature vol-31070图2.IOD-Video数据集的统计信息及与其他红外和主流检测数据集的比较。0图2(a)。就每个类别的平均框数而言，IOD-Video不少于COCO[49]、PASCAL-VOC[17]、ImageNet-Vid[59]等RGB检测数据集，如图2(b)所示。图2(c)展示了IOD-Video属性之间的多重依赖关系，通过提供不同的距离（0�100m）、大小、可见性和由不同光谱范围捕获的场景，实现了良好的多样性。两个超类之间链接的宽度越大，概率越高。例如，近距离的动态背景样本占比例大于远距离的静态背景样本。IOD-Video数据集涵盖了各种场景（包括管道、工厂、法兰、阀门、实验、气缸、野外等）和不同大小的物体（例如小、中、大）。场景类别和物体大小的分布如图2(d)所示。03.2.挑战0如图3所示，IOD面临着由其特性、摄影限制和环境干扰引起的多重挑战。首先，红外视频样本中缺乏颜色，边界模糊，使得识别和定位非实质对象变得困难。其次，一些IOD视频样本是由巡逻检查设备拍摄的，摄像机的移动使得由于场景切换和摄像机抖动而难以定位非实质对象。由于环境温度和红外辐射吸收引起的温度漂移，红外相机（例如冷却红外探测阵列和非冷却红外焦平面阵列（UFPA））在无热源的情况下由于红外不均匀性和各种成像噪声而受到低信噪比的影响。第三，当非实质对象与复杂背景重合时，有时会看不见非实质对象。此外，由于红外图像的单色性，环境干扰的影响将被放大，例如树叶、草地、被风吹动的灰尘等。0图3.三个主要挑战：非实质特性（缺乏颜色，边界模糊）；摄影限制（摄像机移动，成像噪声）；环境干扰。03.3.评估指标和协议0根据标注者在单个帧内是否能够主观判断对象边界，将IOD-Video数据集样本分为清晰集和模糊集。我们参考了COCO评估协议[49]，报告了所有IOU阈值（AP）、IOU阈值为0.5（@0.5）、0.75（@0.75）、清晰集（@clear）和模糊集（@vague）的平均精度（AP）以及帧级别的结果。此外，IOD-Video数据集随机分为三个拆分（2:1的训练/测试拆分比例），采用K折交叉验证来报告在三个拆分上的平均结果，遵循常见设置[40, 47, 56]。04.时空聚合框架04.1.概述0R ×64，R是空间下采样比率。为了充分利用注释，原始损失函数为31080图4(a)。我们的框架插入了五个不同设计的时空骨干网络，以评估动作识别模型的检测能力。图4(b)中的STAloss作为一个额外的约束，沿着时间维度将预测框（红色虚线框）聚集到真实框（绿色实线框）。通过STAloss调整后的最终结果显示为红色实线框。0基于输出特征体积F，基础检测器CenterNet对每个输入帧进行计算。由于IOD在特征提取阶段需要时空表示，因此损失函数的设计也应相应进行更改。为了利用时空一致性，我们设计了STAloss，将在第4.3节中介绍。接下来将介绍这些时空骨干网络的技术细节。04.2. 时空骨干0在Something-Something(Sth-Sth)数据集[23]上，我们选择了最先进的方法[7, 18,43, 46, 48, 61, 70,78]作为时空骨干。类似于IOD数据集，Sth-Sth数据集中的静态背景对最终预测的贡献很小[91]，需要强大的运动推理来捕捉长期的时间结构。拼接。直接将2D-CNN提取的输入T帧特征进行拼接是模拟时序信息的最简单方法。我们遵循先前MOC [47]方法的拼接实现。3D-CNN。3D-CNN [7,78]通过将标准的2D空间卷积网络扩展到时间维度来共同学习空间和时间特征。然而，它带来了更高的计算成本，并且在时间信息上缺乏特定的考虑。基于流的方法。许多动作识别方法利用预先计算的稠密光流作为显式的运动表示。我们认为它可能在缺乏显著特征点的不重要对象上失败，因此采用了Motion Squeeze Network (MSNet)[43]来隐式建立流对应关系。时序差分。作为一种近似的运动表示，时序差分明确计算运动信息并捕捉相邻帧的独特属性。许多方法[70, 71,84]通过将时序差分运算符引入网络设计中，已经证明在动作识别中具有有效性。0时序位移。通过沿时间维度移动通道，将时序动态嵌入到空间表示中，这是一种简单而有效的设计，具有强大的时空建模能力。04.3. 时空聚合损失0在获取每个输入帧的预测框之后，它们可能在单个静态帧内有很好的回归，但是在时间维度上的预测结果的一致性不受约束。例如，图4(b)中的四个预测框在空间维度上与地面真值(GT)具有相同的交并比(IoU)。然而，它们在时间轴上错开。STA损失能够将预测框拉向跨多帧的真实框。鉴于上述观察，提出了STA损失(LSTA)，以在三维空间中施加约束。LSTA由LSTAcosθ和LSTAsinβ组成，它们可以以协同的方式进行优化。设Ppret(xtpc, ytpc,t)为第t个预测框的中心。0帧和Gt(xtgc, ytgc,t)为相应的GT中心，基于输出特征体积F建立了一个额外的STA分支，用于预测偏移(∆tx, ∆ty,t)，调整每个输入帧的框中心到适当的位置Pt(xtpc+∆tx,ytpc+∆ty, t)，下一帧的调整后框是Pt(xtpc+∆tx,ytpc+∆ty,t+ζ)。ζ是LSTA中唯一的超参数，表示相邻帧之间的时间间隔长度。LcrossSTAcosθ表示交叉向量−−−−→GtPt+1和−−−−→PtGt+1的点乘，当它们相距较远时，它将把预测框拉向GT框。LselfSTAcosθ限制相邻预测框的中心线向量−−−−→PtPt+1的方向与GT框−−−−−→GtGt+1一致。θ反映了交叉向量−−−−→PtGt+1、−−−−→GtPt+1和自向量−−−−→PtPt+1、−−−−−→GtGt+1之间的夹角。期望训练过程中角度θ接近0°。偏移量可以进行优化。@0.5@0.75@clear@vague0.5:0.95(1)31090方法基础骨干预训练模型0帧AP（%）0基于帧的检测器0Faster RCNN [58] ResNet-50 ImageNet 33.49 6.76 16.52 8.82 12.310SSD [50] ResNet-50 ImageNet 30.21 3.95 12.78 7.82 9.990CenterNet [87] ResNet-50 ImageNet 24.80 4.32 11.21 6.65 8.500基于视频的检测器0CRCNN [76] ResNet101&FPN ImageNet 36.15 7.46 18.84 9.14 13.520MOC [47] DLA-34 COCO 36.81 8.94 19.96 9.62 10.960MOC + Flow [47] DLA-34 COCO 34.50 7.28 18.18 8.49 9.410我们的 TEA [46] ResNet-50 ImageNet 42.19 8.66 22.97 9.95 15.690表1. 与以前的基于帧的检测器和基于视频的检测器进行比较。我们的基本时空聚合框架只是将CenterNet的骨干网络替换为TEA[46]，没有其他复杂的设计。0通过以下项目进行优化：0� � � �� 0� � � � � �� 0L cross ST A cos θ = 10T - 10T -0t = 10−−−−−→ G t P t +1 ∙−−−−−→ P t G t +1 ��−−−−−→ G t P t +1 �� 0L self ST A cos θ = 10T - 10T -0t = 10−−−−→ P t P t +1 ∙−−−−−→ G t G t +1 ��−−−−→ P t P t +1 �� t G t +1 ��0L pre ST A sin β = 10T - 10T -0t = 10−−−−→ Pt G t �� −−−−−→0L next ST A sin β = 10T - 10T -0t = 10�� −−−−−−−→P t +1 G t +1 �� −−−−−→ P t+1 G t ��0而 cos θ趋向于平滑曲线，这可能导致进一步收敛困难。为了解决这0和 −−−−→ P t G t +1 �� 受 Distance-IoU loss [85]0tor −−−−−→ G t G t +1 几乎垂直于 XY平面，因为在大多数情况下相邻帧之间的变化很小，所以 LST A sin β 项可以近似等于 sin β，其中 β 是向量 −−−−→P t G t +1 和 −−−−−→ G t G t +1之间的角度。当预测框和GT框在后期训练过程中变得更接近时，L ST A sin β 项将在角度 β → 0°时以更陡的梯度更准确地定位中心。L ST A cos θ 和 L ST Asin β的协同作用利用了时间维度上的一致性。我们对上述项进行平均，最终的 L ST A 的公式为：0� 0� 02 L self ST A cos θ L ST A sin β = 102 L next ST A sin β L ST A = λ (1 - L ST A cos θ) + (1 - λ) L ST A sin β0(2) 其中 λ 是 L ST A sin β 和 L ST A cos θ之间的超参数，我们经验性地将 λ设置为0.5。整体的训练目标是：0L = L K + λ size L size + L ST A (3)0其中 L K 和 L size 是基础检测器 CenterNet [87]的原始分类损失和尺度损失，而 L ST A则作为额外的损失，可以插入到任何其他视频级别的检测流程中。05. 实验05.1. 实现细节0我们对整个训练视频剪辑应用与 MOC [47]相同的数据增强方法：镜像、扭曲、扩展和裁剪。具体来说，在训练过程中，我们裁剪一个大小为输入图像的 [0.3, 1]的补丁，并将其调整为 288 ×288，然后每个图像都以0.5的概率进行随机扭曲和水平翻转，以增加多样性。空间下采样比例 R 设置为4，时间间隔长度 ζ 设置为 4。整个网络使用 Adam优化器进行训练，学习率为 5e-4，批量大小为 16，在两个NVIDIA 3090 GPU 上进行训练，我们在第 6 和第 8 个epoch 时将学习率降低 0.1 倍，并在第 12 个 epoch停止训练。对于基于视频的检测器，输入帧的数量设置为8，除非另有说明。05.2. 经典检测器的性能0首先，我们在IOD-Video数据集上分析了基于帧和基于视频的经典检测器的检测性能，如表1所示。就基于帧的检测器而言，视频剪辑被分割成帧作为训练样本。Faster RCNN[58]在相同的骨干条件下取得了最好的结果。一方面，与SSD [50]相比，FasterRCNN的两阶段架构设计证明是有益的，因为IOD-Video样本中存在大量的难例负样本。另一方面，原始的深层聚合骨干（DLA-34[81]）被CenterNet剥夺了，这似乎排除了层次化特征融合对无锚设计的好处。请注意，表1中的所有方法都使用了ImageNet预训练模型，除了MOC[47]使用了COCO预训练模型以提供更强的空间表示能力同时减少了灵敏度。233.605.6513.357.9811.78440.468.0214.519.7714.89644.449.9124.0911.1716.97845.089.5024.4310.9116.9931100时空骨干0基础骨干0帧AP（%）0@0.5 @0.75 @clear @vague 0.5:0.950Concat Concat [47] ResNet-50 27.41 4.45 12.38 7.32 9.3203D卷积 S3D [78] ResNet-50 35.82 6.73 17.72 8.81 12.720I3D [7] ResNet-50 36.83 7.39 18.78 9.29 13.430基于光流 MSNet [43] ResNet-50 41.19 7.91 21.35 10.01 14.900Difference TDN [70] ResNet-50 41.69 8.48 21.42 10.46 15.400时间偏移0TSM [48] ResNet-50 42.13 8.20 21.98 10.28 15.380TAM [18] ResNet-50 41.95 8.53 21.49 10.61 15.500TIN [61] ResNet-50 42.77 8.01 22.35 10.51 15.730TEA [46] Res2Net-50 42.19 8.66 22.97 9.95 15.690+STAloss TIN [61] ResNet-50 43.72 9.26 23.81 10.35 16.270TEA [46] Res2Net-50 45.08 9.50 24.43 10.91 16.990表2.从Sth-Sth数据集[23]中选择了代表性的动作识别模型，并展示了不同时空骨干的视频级检测性能。STAloss替换了CenterNet的原始偏移损失Loff。0输入帧0帧AP（%）0@0.5 @0.75 @clear @vague 0.5:0.950表3. 使用不同输入帧的评估结果。0图5. (a) IOD-Video数据集的统计GT中心偏移。(b)不同超参数ζ2值设置的分析。0对动态变化的敏感性。此外，拼接设计缺乏对时间信息的深入挖掘。由外部现成方法[6]提取的稠密光流通常在动作识别任务上获得增益，但在IOD任务上只有微小的改进，这是由于在空间域中严重依赖纹理和颜色特征的不足。我们的时空聚合框架简单地用TEA [46]替换了CenterNet[87]的骨干，它取得了更好的综合性能，这表明时空聚合是关键。05.3. 时空骨干0接下来，我们使用不同的架构设计来探索时空骨干。如表2所示，尽管简单的拼接操作[47]在时空动作检测任务上表现良好，但在...0在单个静态帧内，IOD任务与动作检测任务存在显著差异。动作检测数据集UCF101-24 [63]和JHMDB[35]倾向于以场景为重点，而我们的IOD-Video数据集则以运动为重点。3D卷积[7]或时空可分离3D卷积[78]在动作识别任务中提供了一种可行的范例，但它们缺乏对沿时间维度的时空数据立方体的明确挖掘，这导致与计算效率高的2D-CNN相比性能下降。MSNet[43]中提出的可训练神经模块在IOD任务上具有相对较好的性能，它建立了多帧之间的对应关系并将其转化为运动特征（基于光流）。隐式提取运动信息可以在一定程度上减轻在IOD-Video数据集上直接提取密集光流的困难。TDN[70]提出了一个两级时间建模框架，以推广RGB差异的运动建模思想。类似的思想可以在TEA[46]结构的设计中找到，这表明直接减法是捕捉虚无特征的一种简单而有效的方法。此外，基于时间偏移的方法能够实现更好的性能。其中，TSM [48]和TAM[18]是最初的设计，它们实现了可比较的性能。TIN[61]采用了可变形偏移模块，在未添加STAloss的情况下具有最高的AP@[0.5:0.95]准确率。TEA是减法和时间偏移的轻量级组合。在我们看来，时间偏移模型保持了空间维度的特征级完整性，并且可以是在视频级检测任务中进行强大的临时运动推理和空间语义表示的有效设计。05.4. 输入帧数0人们认为输入范围在捕捉时间信息方面起着重要作用，我们评估了不同输入帧集合下的性能。直观上，输入帧数越多，期望获得的AP越高。然而，在表3中，输入帧数为8与输入帧数为6相比，仅有微小优势。这反映出我们的基线方法主要侧重于短期时间建模，需要进一步改进的是具有新的见解的长期时间建模能力。To further leverage temporal consistency in the losslevel, we apply STAloss to the TEA and TIN which per-forms best among spatio-temporal backbones. The STAlosscan bring a substantially better localization accuracy, espe-cially at AP@0.5 and AP@clear sets. The comprehensiveresults over five sets indicate that it is a feasible way to im-pose constraints in spatio-temporal space of loss functiondesign for IOD task. Since training a video-level detec-tor with the STAloss as auxiliary objective only involvesone hyperparameter ζ in the internal structure of loss func-tion, we conduct several experiments to investigate the ro-bustness of hyperparameter ζ, which is used to adjust thetemporal interval length. We make a statistic of the off-set between the center of adjacent GT boxes on IOD-Videodataset. The GT offset of a single sample and hyperparam-eter ζ are combined to form the vector −−−−−→GtGt+1. Fig. 5 (a)shows a sharp downward curve which illustrates the slightchange for most cases along the time axis. Under this con-dition, different values of ζ2 in 1, 2, 4, 16, 64, 256 are setand we observe our baseline is relatively insensitive to thevariations of ζ2 from 1 to 256 in Fig. 5 (b). Combine thestatistical curve of GT center offset and ζ2 settings into con-sideration, ζ should be larger than most offset statistics em-pirically for the convergence at the early stage of training.When the ζ is set too large, the LST A cos θ will always be1 and LST A sin β tend to be 0, which brings difficulty forSTAloss to be optimized. Overall, the only hyperparameterζ is robust within the appropriate range and the proposedSTAloss can be nearly regarded as hyperparameter-free.31110图6.CenterNet和我们的基线方法（TEA+STA损失）对于清晰和模糊样本的检测结果。潜在应用：（a）医学诊断（b）红外暗弱目标检测（c）合成孔径雷达（SAR）检测（d）部分遮挡目标。0为了进一步利用损失层面的时间一致性，我们将STA损失应用于TEA和TIN，它们在时空骨干网络中表现最佳。STA损失可以显著提高定位准确性，特别是在AP@0.5和AP@clear集上。五个集合上的综合结果表明，对于IOD任务，在损失函数的时空空间中施加约束是一种可行的方法。由于仅涉及损失函数内部结构中的一个超参数ζ，将STA损失作为辅助目标训练视频级检测器，我们进行了几个实验来研究超参数ζ的鲁棒性，该超参数用于调整时间间隔长度。我们统计了IOD-Video数据集上相邻GT框中心之间的偏移量。单个样本的GT偏移量和超参数ζ组合形成向量→GtGt+1。图5（a）显示了一个陡峭的下降曲线，说明大多数情况下沿时间轴的变化很小。在这种情况下，设置ζ2的不同值为1、2、4、16、64、256，并观察到我们的基线方法对ζ2的变化相对不敏感（图5（b））。综合考虑GT中心偏移和ζ2设置的统计曲线，ζ应该大于大多数偏移统计的经验值，以便在训练的早期阶段实现收敛。当ζ设置得太大时，LSTAcosθ将始终为1，LSTAsinβ趋向于0，这给STA损失的优化带来了困难。总体而言，唯一的超参数ζ在适当范围内是鲁棒的，而且所提出的STA损失几乎可以被视为无超参数。05.5. STA损失06. 结论0在这项工作中，我们尝试了一项很少探索的任务，即虚无物体检测，这与以前的检测任务完全不同。虚无物体具有不清晰的边界和无定形的形状，由于缺乏颜色信息，它们可能在背景中看不见。考虑到这一点，一种可行的方法是利用时空特征来弥补单个静态帧的特征缺失。但是，以前的视频级检测方法的特征提取主要依赖于2D-CNN，这种范式在IOD上可能不令人满意。为了推动这一具有挑战性的任务的进展，我们收集了IOD-Video数据集，该数据集包含600个视频（141,017帧），并从两个方面构建了时空聚合框架：首先，我们测量了不同动作识别骨干的检测能力，并揭示了时序偏移模型的最佳性能；其次，设计了STA损失，将每个帧的预测框沿时间维度拉在一起。如图6所示，与CenterNet相比，我们的基线方法（TEA骨干+STA损失）在引入时空聚合后对光照变化和严重变形具有较强的鲁棒性。然而，我们的基线方法仍有很大的改进

下载后可阅读完整内容，剩余1页未读，立即下载