零触发时间活动检测的深度学习方法

66 浏览量更新于2023-10-23 收藏 905KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

879ZSTAD：零触发时间活动检测张玲玲1，2，常晓军3，刘军1，4，罗敏南1，4，王森5，葛宗元3，亚历山大·豪普特曼61西安交通大学计算机科学与技术学院2智能网络与网络安全教育部重点实验室3澳大利亚莫纳什大学信息技术学院4西安交通大学大数据分析国家工程实验室5澳大利亚昆士兰大学信息技术与电气工程学院6美国卡内基梅隆大学计算机科学学院zhanglingling@stu.xjtu.edu.cn，cxj273@gmail.com，{liukeen，minnluo}@www.example.com，www.example.comxjtu.edu.cn @sen.wang uq.edu.aualex@cs.cmu.edu@ monash.edu，zongyuan.ge摘要视频分析和监控的一个组成部分是时间活动检测，这意味着同时识别和定位长未修剪视频中的活动。目前，最有效的时间活动检测方法是基于深度学习的，它们通常在大规模注释视频的训练中表现得非常好。然而，这些方法在实际应用中受到限制，由于不可用的视频有关某些活动类和耗时的数据注释。为了解决这个具有挑战性的问题，我们提出了一种新的任务设置，称为零触发时间活动检测（ZSTAD），其中仍然可以检测到在训练中从未见过的活动。我们设计了一个基于R-C3 D的端到端深度网络作为该解决方案的架构。所提出的网络使用创新的损失函数进行了优化，该损失函数考虑了活动标签及其超类的嵌入在THUMOS'14和Charades数据集上的实验1. 介绍鉴于其对视频分析和监控的重要性，时间活动检测是计算机视觉中研究最多的任务之一[31]。大多数视频都是未经修剪的，只包含一长串不伦不类的场景中的一些有趣的活动。因此，节奏活动检测的目标是同时识别和* 通讯作者：Xiaojun Chang，cxj273@gmail.com对视频中的特定活动及其开始和结束时间进行分类[32，12]。与许多其他任务一样，深度学习导致了时间活动检测的速度和准确性的阶跃变化，如[48，10，9，41，6]等研究所示。然而，这些深度方法在很大程度上依赖于完全监督的训练方案。每个活动类都已经注释的长视频是罕见的，手动注释是昂贵和耗时的，这意味着需要一种替代方法，如弱监督[39，25]，半监督或非监督学习近年来，零射击学习（ zero-shot learning ，简称ZRL）已经成为解决这个问题的一种新方法。可以将UML看作是监督学习的一种特殊情况，其中训练和测试类（即，可见和不可见的类）是不相交的，但语义相关[23，28]。事实上，一般来说，训练数据集甚至不包含任何标有测试类的实例[20，19]。CNOL通过利用有用的先验知识（例如公共属性或标签嵌入）来工作，然后将学习到的知识从可见的类转移到不可见的类。到目前为止，对COML的研究主要是零炮识别（Zero-shot recognition，COIR），即：分类问题。这些方法通常基于这样的假设，即每个样本仅包含来自其中一个类（无论是可见的还是不可见的）的单个主导示例。因此，总体目标是在测试阶段将每个看不见的样本分类为看不见的类。在此前提下，由于两个原因，BXR将不直接适用于时间活动检测：（1）时间活动检测对于长视频最有价值，这意味着样本几乎肯定会包含多个活动。(2)时间活动检测的一部分是预测广告中每个活动的开始和结束时间，880标签嵌入LBG看到的标签看不见DL8FL8ROI池化SC+ 1FC+1HH161DW116架FW3D输入视频ConvNet临时提案子网S零炮检测子网C2cCu1LS被LaC基础超级分类损失起止时间回归损失图1：零触发时间活动检测网络图。紫色部分：将输入视频调整尺寸为固定维度;绿色部分：3D ConNet提取输入视频的深层特征;粉色部分：时间提案子网（TPN）生成可见和不可见活动的提案;橙色部分：零触发检测子网（ZSDN）通过利用它们的标签嵌入来检测可见和不可见的活动。除了识别行为类别之外。因此，在本文中，我们提出了一种新的任务设置为WITAR，称为零拍摄时间活动检测（ZSTAD），这是专门为长未修剪的视频，也可以预测这些活动周围的时间信息。与简单的ARMRR不同，ZSTAD不仅可以识别训练期间看不到的活动，还可以定位活动的开始和结束时间。ZSTAD在一个新型的端到端深度网络中实现，如图1所示。该网络使用两种类型的先验信息来挖掘可见和不可见活动的共同语义：Word2Vec [11]中的标签嵌入以及这些标签的超类。对于ZSTAD，背景类的标签嵌入是至关重要的，然而，它并不直接对应于Word2Vec中的任何嵌入。因此，我们解决了一个优化问题，以获得一个特殊的矢量的背景。注意，这个学习的嵌入远离语义空间中的所有活动标签嵌入。有了这些先验信息，ZSTAD深度网络由四个部分组成：（1）输入过程，其将原始视频调整大小为具有固定维度的RGB帧序列;（2）3D卷积子网（3D ConvNet），其从输入视频提取深度特征;（3 ）时间提议子网（TPN），其使用所学习的深度特征和背景类的嵌入作为输入来生成用于可见和不可见活动的提议;以及（4）零触发检测子网（ZSDN），其使用所有活动的标签嵌入来预测提议的类和开始/结束时间。为了优化深度网络，我们设计了一种创新的损失，它结合了TPN和ZSDN的分类损失和边界回归损失注意，ZSDN的分类损失由两项组成：基本类分类损失和超类聚类损失。基本类分类损失保证了真标签的得分是所有标签中最大的超级-类聚类损失控制与真实标签相似的标签，以获得比其他标签更高的分数。本文的四个贡献总结如下：• 我们提出了一个新的任务设置称为ZSTAD，以模拟分类和本地化的活动，在长未经修剪的视频，即使在培训期间从未见过活动课程。• 提出了一种新的端到端的深度网络用于ZS任务，该网络利用来自背景、可见活动和非可见活动的标签嵌入的先验信息看到的活动。背景标签嵌入是通过求解一个优化问题得到的，与其他标签嵌入距离较远。• 本文针对ZSDN子网设计了一种新的分类损失，将基本类分类损失和超类聚类损失结合在一起。注意超类先验信息携带活动标签之间的语义相关性。• 我们在两个广泛使用的视频数据集上进行了大量的实验深度模型2. 相关工作2.1. 时间活动检测关于时间活动检测的文献可以根据活动提供如何产生而分为两大类。在第一类中，活动分类器被应用于通过扫描整个视频生成的滑动窗口。例如，Wang等人。 [38]使用时间滑动窗口来生成视频剪辑，然后提取运动和外观特征用于动作分类。 Shou等人[33]第33话不同的人…881长度，然后将它们送入3D Con- vNets进行动作识别。Gaidon等人 [8]描述了一种基于时间结构生成模型的滑动中心框架这些滑动窗口方法不仅由于大量窗口而具有高计算成本，而且在某种程度上限制了检测到的活动片段的边界[42]。为了避免这些问题，第二类方法通过对视频的时间演变进行建模来检测具有任意长度的活动。例如，Gao et al.[10]提出了一个有效的时间单位回归网络生成时间行动建议。Xiong等人。 [40]介绍了一种新的提案生成方案，称为时间动作分组，可以有效地生成具有准确时间边界的候选人。Xuet al. [41]通过将建议生成和分类阶段结合在一起，提出了第一个端到端活动检测模型RC3D。与滑动窗口方法相比，这些时间演化方法由于其在预测任意活动开始和结束时间方面的灵活性而引起了更多的关注。2.2. 零射击学习零触发学习（Zero-shot learning，简称ZRL）旨在识别在训练过程中看不到的类样本[50，45，5，17]。其思想是从先验信息中学习共享知识颜色、形状和相似属性等共同属性是先验信息的典型形式。Lampert等人。 [16]独立地预先学习属性分类器，以在看不见的类上完成分类器，而Parikh等人。 [24]学习相对属性以提高分类器的准确性。基于属性的方法已经在XML上取得了很好的效果，但由于属性需要人工定义，可扩展性差可见和不可见标签的语义嵌入是另一种类型的先验信息，没有这个问题[43]。他们通常是在一个联合国学习来预测未知物体的位置 Bansal等人[1]提出了一种基于视觉语义嵌入的背景感知ZSOD模型。Demirel等人ZSOD的[7]解决方案聚合了标签嵌入和语义嵌入的凸组合。最后，Rahman等人 [29]提出了基于Faster RCNN [30]框架的ZSOD的第一个端到端深度网络。据我们所知，本文是第一个应用的想法，时间活动检测的时间活动检测。3. 零触发时间活动检测本节以描述ZSTAD的问题集开始然后，我们介绍了所提出的深度网络的详细架构，并设计了一种新的客观损失来优化网络3.1. 问题描述在ZSTAD框架下，存在n个关于c个活动类的未裁剪视频X={x1，x2，· · ·，xn}前ns个视频Xs={x1，x2，· · ·，xns}被标记用于训练，其中时间注释覆盖第一个cs看到活动类。剩余的nu 个视频Xu={xns+1，xns+2，· · ·，xn}未被标记用于测试，其中每个视频包含至少一个在可见类别中的活动。受先前对无监督方法生成的BNL，label嵌入的例如Word2Vec，仍然用于测量可见和不可见类中的语义关系。cs个可见活动的标签嵌入集被表示为Ls={k1，k2，· · ·，kcs}，相应地，Lu={cs+1，cs+2，···，c}表示cu未见过的活动。尤其是背景类的标签嵌入不直接Word2Vec提供，没有它，模型无法确定视频是否包含任何活动。因此，我们提出以下优化问题来克服这个问题：Σc用Word2Vec [11]或GloVe [26]等方法进行监督例如，Socher等人[36]绘制了 sam-最小值伊什堡 j=1max（0，s（bg，j）−bg）2，（1）将一个实例和标签合并到共享语义空间中，并引入一个二进制变量来指示一个实例是在可见类中还是在不可见类中。Zhang等人。 [47]通过将可见和不可见数据表示为可见类比例的混合物，开发了一种语义相似性嵌入方法。与基于属性的方法相比，标签嵌入方法更实用和流行，因为这种类型的先验信息很容易从开放文本语料库中获取。除了这些研究，其中重点是对OMR问题，四个值得注意的研究零拍摄对象检测（ZSOD）最近出现在图像处理文献。Zhu等人 [49]提出了一种新颖的ZSOD架构，该架构融合了语义属性信息和视觉特征其中，RMBg是裕度超参数。解决这个问题会产生一个特殊的向量bbg，它远离所有活动标签的嵌入。函数s（bg，j）测量标签嵌入bg和j之间的语义相似度，其根据余弦距离计算。实际上，这个等式规定背景标签与语义嵌入空间中的其他活动标签最多相似所有标签嵌入的结果集表示为Lbg={{\bg，\b1，\b2，···，\bc}。Rahman等人[29]证明了超类在标签嵌入有益于广告。因此，我们已经与超类成嵌入Lbg={Bbg，B1，B2，···，Bc}作为另一种类型的先验信息，882∈R8尺寸R3×L×H×W。这里，L表示帧的数量，H、W表示每个帧的高度和宽度。3D ConvNet（绿色面板）从输入视频中提取深度特征该子网的架构类似于[37]中提出的架构，即。，八个3D卷积层（conv1a到conv5b）和四个最大池化层（pool1到pool4），输出是一个特征图，512×长×高×宽门西翁河816十六岁粉红色的面板容纳TPN，其将视频在or-ange面板中，ZSDN该框架的两个关键组成部分显然是TPN和ZSDN。以下各节将更详细地讨论这些问题图2：临时提案子网的示意图。ZSTAD框架。更具体地说，我们将活动标签嵌入划分为c+不相交的超类，使得同一超类中的活动标签具有高语义相似性，同时确保来自不同超类的标签这些AC-3.2.1临时提案子网（TPN）TPN子网的体系结构如图2所示该子网生成高质量的提案，并能正确区分提案是否包含任何活动的示例。它的锚段是预定义的多尺度窗口，以L/8均匀分布的时间位置为中心，其中每个位置的最大可能建议数为k。因此，每个输入视频的段的总数是kL/8。3D ConvNet的输出首先通过3D卷积滤波器和最大池化层，表示为活性超类表示为Z={z1，z2，···，zc+}，其中z是其对应em的标签索引的集合。仅时间特征图C512×L×1×1TPN. 即Q寝具被划分为第q个超类。即zq={j∈[1，c]，s. t.，其中函数g（·）将每个活动标签嵌入映射到其对应的超类zg（·）。）的情况。实际上，映射函数g（·）可以由任何数量的流行聚类来执行。算法。此外，背景标签嵌入Zbg被设置为单独的超类zbg，以确保其明显不同于语义嵌入空间中的其他活动标签最终，总体超类被表示为Zbg={zbg，z1，z2，···，zc+}。总而言之，ZSTAD模型是在标记的视频Xs上训练的，具有所见活动的时间注释，目的是识别和定位未标记视频Xu中的未见活动。可见和不可见活动之间的共同语义反映在来自标签嵌入Lbg和超类Zbg的先验信息中。3.2. 网络架构ZSTAD的深度网络如图1所示。它的骨干是R-C3 D框架[41]，因为R-C3 D四个彩色面板描绘了四个基本组成部分。紫色面板显示了输入过程，其中视频被转换为RGB帧序列，为每个时间位置产生512维特征。然后将此特征图输入三个模块：边界回归模块（左流）、基本分类模块（中心流）和改进的分类模块（右流）。边界回归模型用于预测每一段的偏移和长度。两个二元分类模块的目的是将每个提案作为活动或背景进行评分。他们的输出加在一起，共同决定最后的分数.请注意，边界回归模块和基本分类模块的架构与R-C3 D相同。我们设计了改进的分类模块，通过引入背景标签嵌入来细化基本模块产生的结果。改进的分类模块包含一个额外的在特征图Ctpn上具有双通道的3D卷积层。然后将输出整形为m×（kL/8），即每个锚点段被表示为m维特征向量。三维背景标签em-还将层理映射到具有全连接层的m维空间中。通过这种方式，改进的分类模块通过计算锚段的m维特征与背景标签嵌入之间的余弦距离来确定其二进制分数。改进后的分类模块可以减少错误3D ConvNet512×8×16×16L H W背景标签嵌入d×13D Conv512× 3× 3× 33D Max Pooling1×H×WFC1616512×8× 1× 1米×1L三维转换三维转换3D转换2k× 1× 1× 12k× 1× 1×1× 1× 1× 12k×8× 1× 1 2k×8× 1× 1 1×8×1 ×1重塑KLL LLm×8[Cos，1-回归开始-结束时间+λ2×8KL重塑2k×8×1 × 1L2k×8×1 × 1L二元分类k锚883我我我我我我我1我S我我我由于背景的标签嵌入与不可见活动的标签嵌入距离较远，因此在测试阶段将不可见活动视为背景。3.2.2零炮检测子网（ZSDN）TPN子网生成一组候选活动，一个控制这两项之间权衡的超参数。给定一个建议，基本类分类损失保证其真实类的预测得分将是（c+1）维得分向量pi中最大的。它使用一般softmax损失进行评估如下：L bc（pi，p）= − log p ip。（三）我我通过自动对所有锚定段。首先应用非最大抑制算法来消除具有大重叠或低置信度分数的建议。接下来，使用1×4×4网格的三维感兴趣区域（3D RoI）池化将具有不同长度的所选提议映射到512×1×4×4的固定大小。每个提案都Lsc聚类损失考虑来自以下的先验信息：活动的超类Zbg它控制与真实标签在同一超类中的活动标签的预测得分，应高于其他活动不同超类中的标签。值Lsc由以下铰链损失得出：要素穿过两个完全连接的图层，然后将其合并∗一个零射击分类模块和一个边界，多元回归模型描述如下。• 零触发分类模块包括两个完全连接的层，用于投影输入提案Lsc（pi，pi）=Nscj1∈/z<$j2∈zs<$我我max（0，pij1−pij2+pijc），（四）在D维语义空间上的映射一个分数向量-其中，是可以被解的裕度超参数。多尔皮岛∈Rc+1 是由com计算的每个建议-通过交叉验证终止。整数s是求出建议的特征向量和所有标签嵌入之间的余弦距离向量pi由提案属于背景类和c个活动类的可能性组成。• 边界回归模块是网络顶部的一个全连通层，它产生2×cs输出.这些输出用于细化每个提案3.3. 训练和推理通过联合优化TPN和ZSDN网络的分类和回归损失来训练网络。注意，三个损失，包括TPN的分类和回归损失以及ZSDN的回归损失，被设置为[41]中的工作。最后的损失，即。ZSDN子网的分类丢失对于完成ZSTAD任务是不可或缺的，其设计如下：地面实况活动标签的超类索引嵌入-ding p，即s=g（p）。 Nsc的数目等于（c +1 -1）。|zs|）× |z s|得双曲余切值.|z s|表示超类中活动标签的总数z s。注意，没有相对时间偏移和长度被确定为看不见的活动，因为没有看不见的活动样本被包括在训练过程中。因此，测试阶段简单地产生一个（2×cs）矩阵，表示每个可见活动类的两个参数化坐标。在这种情况下，通过密切相关的已见活动的坐标来近似未见活动的相对偏移和长度这种策略首先由Rahman等人提出。[29]，它已被证明是有效的零射击检测，因为看不见的活动的视觉特征通常类似于他们近距离看到的活动。4. 实验4.1. 数据集1Σ∗ ∗Lzs−cls=N（Lbc（pi，pi）+βLsc（pi，pi）），（2）我我们用两个视频数据集进行实验：THU-MOS'14和Charades。他们的细节如下。其中N表示ZSDN子网中的建议数，i表示训练过程中的索引向量pi∈Rc+1是ZSDN的零激发分类模块的输出它表示背景和活性类的预测概率分布整数p∈{0，1，···，c}表示第i个提议的基础事实标签。如果p= 0，则该活动不包含任何活动，否则它属于第p个活动类。总的来说，分类损失Lzs-cls由两个部分组成：基本类分类损失Lbc和超类聚类损失Lsc。β是• THUMOS'14 [14]：该数据集包含20个用于时间活动检测的活动类，由四个部分组成：训练数据，验证数据，测试数据，和背景数据。我们使用验证数据（200个未修剪的视频）来训练我们的网络，并使用测试数据（213个未修剪的视频）来评估模型的性能。选择12个活动作为可见类，剩余8个活动作为不可见类。• Charades[35]：这是另一个广泛使用的活动识别和检测数据集。它包括9848个视频超过157个日常室884内活动收集885坐在沙发上（0.0s，GT躺在床上（15.3秒，28.4我们躺在床上（14.3s，30.4s）坐在沙发上（1.2秒，16.4GT跳远（185.9秒，191.8秒）跳远（199.6秒，212.2秒）…我们GT跳远（183.4，191.2）跳远（203.6，210.2）链球（23.6秒，33.4秒）链球（48.2秒，55.8秒）…我们链球21.8，31.2秒）链球（46.9秒，56.3秒）(a) THUMOS'14GT打开冰箱（12.4s，25.4s）有人在吃饭（20.9秒，27.8我们有人在吃饭（21.8s，28.9s）打开冰箱（13.8秒，23.8秒）(b) 字谜图3：两个数据集上零激发时间活动检测的一些预测结果。亚马逊土耳其机械我们使用7985个视频进行训练，1863个视频进行测试。选择120项活动作为观察类;有37项活动是看不见的。如3.1节所述，使用的两种先验信息是活动标签嵌入及其超类。THUMOS'14中的标签字谜游戏中的标签是动名词短语，例如“拍摄某物”。为了保证标签嵌入的准确性，我们从这些阶段中去除量词和介词，然后将剩余的词表示为平均Word2Vec特征。背景标签嵌入通过求解优化问题Eq. (1)其中参数设置为Ubg= 0。1.一、然后使用自调整谱聚类算法将所得的活动标签嵌入分组为几个超类[44]。背景标签被分配到一个单独的超类中，因为它远离其他标签。4.2. 实验装置为了限制GPU内存消耗，THUMOS 14数据集的网络输入被设置为一系列RGB帧，尺寸为3 × 512 × 112 ×112，即，相当于一个30秒的视频剪辑。述输入与所述Charades数据集被限制为3×768×112×112，约为154秒。请注意，该设置要求训练数据集不包含用测试类标记的任何实例。因此，我们从训练视频剪辑中删除包含未见过活动的此外，我们确保测试集中的每个剪辑至少包含一个未见过的活动。我们在公开场合建立网络表 1 ：在不同 IoU 阈值下， THUMOS'14 w.r.t mAP（%）上的零激发时间活动检测结果α =0。1α =0。2α =0。3α =0。4α =0。5R-C3D+SE13.96 12.61 10.817.915.11R-C3D+ConSE14.16 12.54 10.938.025.29我们的（-TPN-Lsc）16.76 14.76 11.879.017.37我们的（+TPN-Lsc）17.92 15.03 12.999.618.25我们的（-TPN+Lsc）19.50 16.72 13.81 11.238.88我们的（+TPN+Lsc）21.34 16.98 15.01 11.129.15源Caffe框架[13]，3D ConvNet的参数在Sports-1 M数据集[15]上进行预训练，以避免过拟合。对于THUMOS14，锚段的数量k被设置为[2，4，5，6，8，9，10，12，14，16]内的值，玩猜字游戏三个超参数设置如下：改进的TPN子网中的权衡设置为 λ= 0。6;零激发分类损失的权衡被设置为β= 0。1（等式1）2）;聚类损失函数中的裕度Rssc对于 THUMOS'14 数据集设置为 [0.05 ， 0.30] ，对于Charades设置为[0.03，0.15]（等式2）。（四））。训练进行随机梯度下降的学习率为0。0001，动量为0。9，权重衰减为0。00005以优化所提出的深度ZSTAD网络。4.3. 比较结果鉴于本研究是ZSTAD新方向的第一项工作，因此没有现有的方法来验证我们的因此，我们通过将R-C3 D活动检测模型与知名的CIDR框架SE [43]和ConSE [22]结合在一起，设计了两个基线，称为R-C3 D +SE和R-C3 D +ConSE。请注意，SE是零镜头动作识别的主要方法，通过使用语义词向量空间作为嵌入视频和类别标签的公共空间。ConSE通过类标签嵌入的凸组合将样本投影到语义嵌入空间中。此外，我们比较了我们的模型的四个版本与设计的基线，以探讨其有效性。这四个版本是：• 在TPN子网中不使用改进的分类模块，在ZSDN子网中不存在超类聚类损失;• 在TPN子网中采用改进的分类模型，而在ZSDN子网中无超类聚类损失;• 在TPN子网中没有改进的分类模块，并且对于ZSDN子网具有超类聚类损失的（-TPN_n+L_sc• （+TPN_n+L_sc），在TPN子网中具有改进的分类模型，在ZSDN子网中具有超类聚类损失。886表2：在IoU阈值α = 0时的不可见AP类别（%）。5在THUMOS棒球场板球保龄球潜水链球跳远铅球足球处罚网红摇摆R-C3D+SE2.233.093.139.2112.153.423.384.29R-C3D+ConSE2.213.073.239.5312.543.563.464.72我们的（-TPN-Lsc）3.794.034.4114.2517.474.984.925.11我们的（+TPN-Lsc）3.924.244.8715.9219.785.645.366.30我们的（-TPN+Lsc）4.204.625.0717.0221.236.315.826.78我们的（+TPN+Lsc）4.344.875.0318.1220.787.066.036.93表3：关于Charades的关于标准和后处理mAP的零激发时间活动检测结果（%）。标准地图后处理mAPR-C3D+SE5.139.17R-C3D+ConSE5.679.84我们的（-TPN-Lsc）6.6310.89我们的（+TPN-Lsc）7.0311.72我们的（-TPN+Lsc）7.5712.86我们的（+TPN+Lsc）7.9113.23THUMOS'14的结果9.59.08.58.07.57.00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0权衡λ(a) THUMOS'14131211100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0权衡λ(b) 字谜在IoU阈值的平均精度（mAP）方面，八个看不见的活动的性能[0. 1，0。5]（记为α）。IoU阈值为0时每个不可见类的平均精度（AP）。5如表2所示。从这些结果中，我们得出以下四点意见：• 我们的方法的所有四个版本的性能始终优于R-C3D +SE和R-C3 D +ConSE基础。在每个看不见的类上的线。这表明在ZSDN子网中考虑标签嵌入对ZSTAD任务是有益的。• 在大多数情况下，有TPN的性能优于没有。这说明了TPN子网中的新分类模块，它引入了信息，在背景标签嵌入上的作用，有助于生成看不见的活动建议。• 比较“+ L sc“和“- L sc“的结果通过超类聚类损失的标签嵌入可以提高性能。• 对于所有方法，mAP评分随着IoU阈值α值的增加而恶化这是合理的，因为更大的IoU阈值往往需要更多预测活动的准确边界。字谜游戏的结果：表3报告了37个看不见的活动的结果，这些活动的字谜数据是根据Sig-urdsson等人。’s结果与THUMOS'14数据集的结果非常一致。也就是说，（+TPN+Lsc）仍然提供最佳活动检测结果，具有2.78%和图4：改进的分类模块（权衡λ）。标准mAP组件与R-C3 D +SE和R-C3 D +ConSE相比，性能分别提高2.24%。我们还注意到，手动设计的后处理有效地提高了mAP方面的性能。此外，表4显示了使用该方法（+TPN+Lsc）获得的每个不可见活动类别的标准AP值。如表所示，这些看不见的活动，例如4.4. 改进分类模块在主题方案网络子网中的影响TPN子网中改进的分类模块的目的是细化先前二进制分类的结果，以确定片段是否包含活动或为背景。它通过引入背景的标签嵌入并使用权衡超参数λ对输出进行加权来实现这一点。因此，有必要测试λ对结果的影响。变量（+TPN-L sc）和（+TPN + L sc）显示了λ从0调整时该参数的影响。1到1，步长为0。1.一、图4显示了IoU阈值α = 0时的两条mAP曲线。5，以及用于Charades的后处理mAP曲线。我们从结果中得出两个结论：• （+TPN+L-SC）和（+TPN+L-SC）的表现始终优于两个基线R-C3 D +SE和R-我们的（+TPN*-Lsc）我们的（+TPN*+Lsc）最大平均接入点我们的（+TPN*-Lsc）我们的（+TPN*+Lsc）处理后mAP（%）887我们的（-TPN*+Lsc）我们的（+TPN *+Lsc）表4：使用我们的方法（+TPN+Lsc）在Charades数据集上的Per-unseen类AP（%）。扔衣服10.80开门11.53坐在一张桌子16.44打电话5.28拿着一袋7.86拿一本书3.93看书11.66拿着毛巾/s12.87从盒子3.58关闭一个盒子4.08带着笔记本电脑3.45整理毯子5.93坐在椅子18.09把食物放在某处10.94吃三明治7.96拿鞋10.88抱着枕头7.91整理架子4.84看着一张照片5.64关窗3.67拿着扫帚10.35拿着镜子2.69关灯4.97洗杯子4.05打开壁橱7.54取纸4.11洗盘子9.59坐一起14.41整理地板8.14持药5.04抽真空5.63躺在床上10.10看电视11.12修理门把手2.87打开冰箱4.50有人在吃饭5.32有人在穿衣服 14.90Charades的14mAP曲线。如图所示，所有方法的检测性能最初都随着时间的推移而增加。9.013在区间稳定之前β增加[10−1; 100]。8.58.07.57.0(a) THUMOS'14121110(b) 字谜一旦β超过100，性能逐渐下降。在此外，我们注意到，无论超参数β如何，（-TPNβ + Lsc）的结果都明显优于（-TPNβ-L sc），如表1和表3所示（即用THUMOS'14提高了7.37%，用Charades提高了10.89%）。同样，无论β值如何，在两个数据集上，（+TPN+Lsc）始终优于（+TPN-Lsc这些结果表明，活动标签嵌入上的超类有助于挖掘活动标签。图 5 ： ZSDN 子网中的超类集群损失（权衡β ）对ZSTAD的影响C3D+ConSE（见表1和表3），而不考虑权衡λ带来的任何改善。• 随着λ的增加，性能提高到一个点，然后逐渐减弱。对于THUMOS总的来说，我们发现具有适当调整的λ的改进的分类模块通过在测试阶段为看不见的活动类生成更好的建议来提高性能，并且λ的最佳值将根据数据集的特定属性而不同。4.5. ZSDN子网作为ZSDN子网的一部分，等式（1）中的超类聚类项Lsc。(2)目的是从活动标签嵌入的超类先验信息中获取活动之间显然，需要检查权衡参数β在分类损失中的影响。变体（-TPN+Lsc）和（+TPN+Lsc）在此适用，β在-TPN之间变化。val{5×10−3，1×10−2，5×10−2，1×10−1，5×10−1，1×100，5×100，1×101，5×101，1×102}。图5显示了IoU阈值为THUMOS'14数据集的0.5可见和不可见活动之间的相关性，并且显著有助于检测不可见活动。5. 结论在本文中，我们提出了一个新的问题设置的时间活动检测，在训练阶段没有看到的活动可以识别和本地化的同时。本文提出的解决方案是首次尝试零拍时间活动检测（ZSTAD）。为了解决这个具有挑战性的问题，我们设计了一个端到端的深度网络，它使用标签嵌入及其超类作为先验信息来捕获可见和不可见活动的共同语义。在THUMOS'14和Charades数据集上的结果确认本工作得到了国家重点研究发展计划（2018 YFB1004500 ）、国家自然科学基金（ 61532004 、61532015、61672418和61672419）、情报高级研究项目活动（ IARPA ）通过内政部 / 内政部商务中心（DOI/IBC）合同号的支持D17 PC 00340，空军研究实验室和DARPA，协议编号FA 8750 -19-2-0501，澳大利亚研究委员会发现早期职业再培训奖（ DE190100626）。我们的（-TPN*+Lsc）我们的（+TPN *+Lsc）最大平均接入点处理后mAP（%）888引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。欧洲计算机视觉会议（ECCV），2018年。[2] Xiaojun Chang ， Zhigang Ma ， Yi Yang ， ZhiqiangZeng，and Alexander G.豪普特曼用于多媒体事件检测的双层语义表示分析 IEEE Trans. Cyber- netics ， 47（5）：1180 -1197，2017.[3] 张晓军，杨毅， Alexander G. 作者： Eric P. Xing ，Yaoliang Yu.大规模零触发事件检测的语义概念发现。第二十四届国际人工智能联合会议论文集，IJCAI2015，阿根廷布宜诺斯艾利斯，2015年7月25日至31日，第2234-2240页[4] Xiaojun Chang ， Yi Yang ， Guodong Long ， ChengqiZhang，and Alexander G.豪普特曼零示例事件检测的动态概念合成。第三十届AAAI人工智能会议论文集，2016年2月12日至17日，美国亚利桑那州凤凰城，第3464-3470页，2016年。[5] Xiaojun Chang，Yaoliang Yu，Yi Yang，and Eric P.邢它们并不同样可靠：使用区分概念分类器的语义事件搜索。在2016年IEEE计算机视觉和模式识别会议上，CVPR 2016，拉斯维加斯，NV，美国，2016年6月27-30日，第1884-1893页，2016年。[6] Xiaojun Chang，Yaoliang Yu，Yi Yang，and Eric P.邢语义池用于未修剪视频中的复杂事件分析。 IEEE Trans.模式分析马赫内特尔，39（8）：1617[7] Berkan Demirel 、 Ramazan Gokberk Cinbis 和 NazliIkizler-Cinbis。基于混合区域嵌入的零镜头目标检测。英国机器视觉会议（BMVC），2018年。[8] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），第1页，2013年。[9] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归。2017年英国机器视觉会议（BMVC）的首席执行官。[10] Jiyang Gao，Zhenheng Yang，Chen Sun，Kan Chen，and Ram Nevatia.Turn tap：用于临时行动建议的临时单位回归网络IEEE International Conference on ComputerVision（ICCV），2017。[11] 约阿夫·戈德堡和奥默·利维。word2vec解释说：米科洛夫等人“的负采样字嵌入方法。arXiv预印本arXiv：1402.3722，2014年。[12] Jingjia Huang，Nannan Li，Tao Zhang，Ge Li，TiejunHuang，and Wen Gao.Sap：基于强化学习的时间动作检测自适应建议模型2018年AAAI人工智能会议（AAAI）[13] Yangqing Jia，Evan Shelhamer，Jeff Donahue，SergeyKarayev ， Jonathan Long ， Ross Girshick ， SergioGuadarrama，和特雷弗·达雷尔Caffe：用于快速特征嵌入的卷积架构。在ACM国际多媒体会议（ACMMM）的会议记录中，第675- 678页[14] Y.-- G. Jiang，J.Liu，中国粘蝇A.Roshan Zamir，G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战：动作识别与大量的类。网址：//crcv.ucf.edu/THUMOS14/，2014年。[15] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模在2014年IEEE计算机视觉和模式识别会议（CVPR）上[16] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling. 基于属性的零镜头视觉对象分类。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），36（3）：453[17] 李晶晶、景梦梦、陆珂、丁正明、朱磊、黄子。利用generative zero-shot learning的不变性。在IEEE计算机视觉和模式识别会议上，CVP

下载后可阅读完整内容，剩余1页未读，立即下载