活动驱动的弱监督目标检测与动作特征相关联的线索

151 浏览量更新于2023-10-18 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2917活动驱动的弱监督目标检测Zhenheng Yang1 Dhruv Mahajan2 Deepti Ghadiyaram2 Ram Nevatia1Vignesh Ramanathan21南加州大学2Facebook AI摘要弱监督对象检测旨在减少训练检测模型所需的监督量。这样的模型传统上是从仅标记有对象类而不是对象绑定框的图像/视频中学习的。在我们的工作中，我们不仅尝试利用对象类标签，还尝试利用与数据相关联的操作标签。我们表明，在图像/视频中描绘的动作可以提供强有力的线索，相关对象的位置我们根据动作学习对象的空间先验（例如，在“踢球”中“球”更接近“人的腿”），并在同时训练联合对象检测和动作分类模型之前将其合并。我们在视频数据集和图像数据集上进行了实验，以评估我们的弱监督对象检测模型的性能。我们的方法在Charades视频数据集上的mAP中优于当前最先进的（SOTA）方法1. 介绍深度学习技术和大型数据集的开发对于图像和视频分类模型的成功至关重要。将这种成功扩展到对象检测的主要挑战之一与分类标签不同，检测标签（对象边界框）注释起来更繁琐这在视频域中甚至更具挑战性，这是由于沿时间维度注释的增加的复杂性。另一方面，有大量的视频和图像数据集[36，18，3，4，6]标记有以对象为中心的人类动作标签为场景中相应对象的位置提供了强有力的线索（图1）。1）并且可以充当对象检测的弱监督。鉴于此，我们研究了从仅标记有动作类的数据中学习对象检测器二、与动作相关联的所有图像/视频都包含动作中提到的对象（例如，“杯”在行动“喝杯”）。袁等人[50]利用了这一支柱-对象是强烈的行动提示对象外观一致性固定真空保持真空主客体空间关联图1：我们的框架建立在我们得出的三个观察结果(1)主体与互动客体之间存在空间依赖性;（2）对象外观在不同的训练样本中以及在涉及同一对象的不同动作中是一致的;（3）关于动作的信息量最大的对象是动作中提到的对象。从相应动作的视频中学习对象检测。然而，动作（另一方面，物体在场景中的空间位置、外观和移动取决于对物体执行的动作。我们工作的关键贡献是利用这种直觉来构建更好的对象检测模型。具体来说，我们有三个观察结果（见图1）：(1)人的位置和动作中提到的物体之间存在空间依赖性，例如。在“握杯”动作中这可以为对象提供强先验;（2）对象外观在涉及对象的动作类的图像和视频中是一致的;（3）检测物体应该有助于预测动作，反之亦然。上述观察结果可用于解决弱监督检测的主要挑战之一：在训练期间存在用于对象边界框的大搜索空间。每个训练图像/视频具有许多候选对象边界框（对象提议）。在我们微弱的苏-2918图2：动作驱动的弱监督对象检测任务的设置。训练样本包括带有动作类标签的视频或图像（左）。在单个帧/图像上进行推理，用于对象定位和分类（右）。在pervised设置中，我们拥有的唯一标签是，这些候选项中的一个应该对应于动作中提到的对象训练算法需要从这个大的候选集合中自动识别正确的对象边界框。在我们的方法中，我们通过将三个观察结果纳入我们的模型来缩小搜索特别地，我们（1）明确地学习对象的空间先验w.r.t.人在不同的行为;（2）训练通用对象分类器，用于跨不同动作对对象外观进行建模;（3）联合学习动作分类器和关联对象分类器。我们在两个视频数据集上进行了全面的实验：Charades [36]，EPIC KITCHENS [6]和图像数据集：HICO-DET [4]。我们的方法在所有数据集上都比以前的方法[2，50，40具体来说，与当前最先进的视频弱监督模型相比，我们在Charades可视化结果和烧蚀实验验证了各模块的有效性。2. 相关工作在本节中，我们简要概述了一些相关的研究主题，以及我们是如何被这些工作所激励的。监督对象检测。目标检测是计算机视觉领域中一个非常活跃的研究课题。近年来，随着深度学习的发展，已经取得了重大进展R-CNN [14]是第一个将CNN特征引入对象检测的工作。基于R-CNN开发了一系列后续工作。Fast R-CNN [13]通过引入ROI池化层来加速R-CNN，并通过联合应用提案分类和边界框回归来提高性能。更快的R-CNN [32]通过将建议生成阶段替换为可学习的网络来进一步提高速度和准确性：区域建议网络和整个框架以端到端的方式进行训练。MaskR-CNN [20]提出添加分割分支，并实现了最先进的（SoTA）性能。所有方法都需要完整的对象边界框注释，而掩码R-CNN需要密集的分割标签。弱监督目标检测。完全监督的目标检测方法严重依赖于大规模的包围盒标注，这是效率低下且耗费人力的。为了缓解这个问题，已经有各种监管不力的工程[5，38，2，25，23，31，35，47，29，41，37，55，51，39，54，53，9，34，43，52]该杠杆-老化更有效的图像级对象类注释。弱监督深度检测网络（WSDDN）[2]提出了一种端到端架构，可以同时执行区域选择和分类。它是通过分别执行分类和检测头和监督来自一个组合 classifica- tion 得分。ContextLocNet [25]通过考虑上下文区域进一步改进了WSDDN。在图像域之外，另一系列研究工作[27，45]试图利用视频中的时间信息来促进弱监督对象检测。Kwak等人。 [27]提出发现视频中的对象外观呈现，然后在时间空间中跟踪对象以进行监督。Wang等人 [45]对视频进行无监督跟踪，然后将相似的深度特征聚类以形成视觉表示。Yuan等人。 [50]提出了一种更有效的动作驱动的弱监督对象检测设置，其目的是仅在具有剪辑级动作类标签的视频中学习对象外观表示。他们建议首先从目标命题中提取空间特征。然后使用应用于相邻帧的长短期记忆（LSTM）[21]更新特征。帧级对象分类损失是在更新的特征上计算的我们实现了与[50]中相同的设置与仅利用对象类信息的TD-LSTM [50]不同，我们建议联合利用动作和对象类标签。考虑到所有的动作都是人与物体之间的交互，我们将人体姿态估计纳入框架。活动识别在动作识别领域有各种各样的工作[44，28，16，1，11，10，12]。 Maji等人 [28]训练动作特定的姿势，然后使用SVM进行分类。通过显式检测对象并利用图像中其他人的动作标签来捕获上下文线索。R*CNN [16]提出隐式地对主要对象进行建模。提取来自人区域和对象提议区域的特征，并且将来自这两种类型的特征的分类分数的融合用于动作分类损失。R*CNN显示，场景中信息量最大的对象是action类中提到的对象我们受到类似的思想的启发，共同考虑行动和对象标签。人-物交互在人-物交互（HOI）主题中主要有两个任务：HOI培训测试用扫帚打扫卫生把扫帚放在什么地方扫帚2919拉瓜R��（μa，aa）ωa关（锚关键点关键点概率螺旋桨2000年MLP…公元前建议书2000年…ÆROI池化阿夫Æ..+BCE英文名：Sit at阿托洛拉瓜作用损失对象cls丢失人体箱形图3：我们的框架图。拟议框架有三个方面：对象空间先验模块（以蓝色着色）、对象分类流（以黄色着色）和动作分类模块（以绿色着色）。我们将人类关键点检测纳入框架，并联合利用动作和对象标签。点火和HOI检测。HOI识别的目的是识别主体和客体之间的相互作用。自2009年以来，关于HOI识别的工作[7，19，49，33]激增。HOI检测任务的目的是定位主体和客体，并识别HOI类。Chao等人 [4]为此任务提出了一个三流网络，每个流分别用于人检测，对象检测和人-对象成对分类。Gkioxari等人 [15]对以人为中心的分支和交互分支之间共享权重的交互进行建模。卡洛-盖顿等 [24]提出共同学习对象和动作（例如狗跑）。所有的工作都表明，共同学习的对象，人的本地化和HOI/动作分类的性能效益。3. 方法弱监督检测的主要挑战是在训练过程中缺乏边界框信息，并且只有图像/视频级别的标签可用。这个问题通常在多实例学习（MIL）设置中处理[2，5]，其中训练方法从图像/视频中的一组候选建议中隐式地选择最佳边界框来解释整个图像/视频标签。然而，在实践中，候选对象的数量在我们的工作中，我们解决了这个问题，施加额外的限制的基础上选择的最佳对象边界框的位置之前的对象w.r.t.人和所选对象的重要性建议用于动作分类。在实践中，我们在模型中将这些中的每一个建模为三个不同的流，这最终导致单个动作分类损失和对象分类损失。请注意，在我们的工作中，我们假设一个前-训练的人检测模型和人关键点检测模型可用于提取捕获人-对象相关性所需的信号。3.1. 框架形式上，对于训练样本（视频剪辑或图像），提供动作标签a动作a属于预定义的动作集合a∈ A，其大小为n a：||一||=n a. 我们假设所有的人类行为都是互动的，在每个动作中涉及一个对象例如，对象杯子出现在拿着杯子的动作中。与动作a相关联的对象类用o a表示，总共有n o个对象类：o a∈ O，||O||= n o。预训练的人体检测器[20]和姿态估计网络[46]用于提取人体边界框h和关键点位置k（p），p∈ P，其中P表示人体关键点的集合。对于多人的训练样本，我们选择检测结果最高的一个检测置信度提取对象提议R我们移除与人类区域h具有高重叠（IoU > θh）的提议，并且我们保留具有最高置信度的顶部nr。我们的模型有三个流，在接下来的部分中详细解释。我们的模型的概述如图所示。3.第三章。第一个流对空间对象w.r.t.的先验到每个动作中的人类关键点。先验被用于构造对象分类流，该对象分类流对图像/视频中的不同建议的对象分类损失进行加权。来自对象提议的权重和特征以及人类边界框的特征被用于构造动作分类损失。动作分类和对象分类的组合损失在训练期间被最小化。2920关键一r ∈ RRA3.2. 目标空间先验对象空间先验分两个阶段建模：（1）给定动作类a和关键点检测结果P，我们基于关键点位置的加权组合来估计锚点位置;锚位置，对象的位置被建模为正态分布w.r.t.锚点。这是基于我们的观察，即对于给定动作，某些人类关键点为对象位置提供强位置先验将锚点位置k_anchor计算为所有关键点位置的加权和。关键点权重为mod-其中y0是对象0的二进制对象分类标签。注意，仅对于在对应于图像/视频的动作中提到的对象，y3.4.动作分类对于动作识别任务，特别是对于我们的任务中的交互动作，人和物体的外观都是至关重要的线索。如[16]所示，信息量最大的对象的空间位置可以从动作识别任务中挖掘出来。我们通过融合提案区域和人物区域的特征，将类似的想法融入动作分类流。形式上，对于具有动作标签a的训练实例，以概率向量waa级Σ（p），p∈ P对于作用提取人物区域h和提议区域R，并且然后被分类为n个a维动作分类分数：sO（r;a），r∈R且sH（h;a）. 这里是H，SO对应k=wa一（p）k（p）（1）A A a锚p∈P关键到ROI池层，然后是多层感知，tron（MLP）。学习MLP的权重和偏差其中k（p）是训练图像/视频中的关键点p的检测位置。给定动作类a，对象位置w.r.t.用学习的正态分布对锚位置进行建模：N（µa，σa）µa∈2，σa∈（2×2）。µa表示对象相对于t的平均位置。锚点，σa表示方差。该分布用于计算不同的目标位置概率。不同的地点。具体地说，对象在一个动作类的建议r∈R的位置在训练期间。最终的建议得分计算为动作分类得分的平均值，该平均值由空间先验概率加权，如前一节所述。这确保了只有最相关的提案的分数才被赋予更高的权重。来自对象提议和人区域的动作分类分数的总和用于计算最终的BCE动作分类损失。损失计算如下：1Σa是Lact=−n aa∈Ayalog（P（a））+（1−ya）log（1−P（a）），wa=N（µ，σ）（kprop（r）−kanchor）（2）.胡亚澳Ra一exp sA（h;a）+r∈RwrsA（r;a）其中kprop（r）是提议r的中心。注意P（a）=a∈Aexp .ΣsH（h;a）+n=O（r;a）Σ，（4）分布wkey，N（µa，σa）是自动学习的在训练期间。3.3.对象分类对于训练样本中的每个建议r∈R，我们为每个对象计算对象分类得分o：sO（r;o）。这里，0对应于ROI池化层，之后是多层感知器（MLP），其将输入区域分类为n〇个对象类。除了仅利用图像级对象标签进行分类[2，25]，前一节的空间位置权重也用于指导对象建议的选择。在形式上，二进制交叉熵（BCE）损失是在每个建议区域上针对图像级对象类基础事实计算的。BCE损失由不同建议的位置概率加权，并且加权和用于计算对象分类损失：其中ya是动作a的二元动作分类标签。3.5. 视频的时间池化我们的实验是在视频和图像数据集上进行的，因此训练样本可以是视频序列或带有动作标签的对于使用视频剪辑训练的模型，我们采用了一些预处理步骤，并在时间维度上合并分数，以提高人员检测和对象建议的质量。形式上，从训练剪辑中均匀地采样n帧，随后针对采样帧进行人物检测和对象建议生成。然后，通过基于优化的链接方法[17，48]连接跨帧的对象建议以及个人边界框，以分别形成对象建议小块和个人小块我们1L= −Σ wa· L（r），注意到提案的时间联系避免了虚假的奥布杰nrrr∈R建议，并导致更强大的功能，从亲，Lo（r）=1nΣyolog（P （o|r））+（1−yo）log（1−P（o|r）），装备这些数据作为输入被送入对象分类和动作分类流。使用时间池oo∈OP（O|r）= n exp（sO（r;o））o∈Oexp（sO（r;o））、（3）以聚集人和对象小块上的分类分数。合并的分数最终像以前一样用于损失计算。O29213.6. 损失条款合并损失是两个分类损失项的加权和。为训练图像和测试图像两者注释HOI类标签。总共有80个对象类（例如cup、dog等）和600个 HOI类（例如，保持杯子、喂狗等）。L=αo Lobj +αaL 法（五）我们过滤掉所有具有“无相互作用”HOI标签的样本少于20个训练样本的交互类，超参数αo和αa是权衡流水线中对象分类和动作分类的相对重要性的权重。3.7. 推理在测试过程中，首先在测试样品。将训练的对象分类器（s O）应用于每个建议区域以获得对象分类得分（P（o|（r））。然后应用非最大抑制（NMS），并将具有高于阈值的分类分数的对象建议保留为检测结果。4. 实验我们的方法适用于视频和图像领域。我们只需要人类动作标签注释进行训练。对象边界框注释仅在评估期间使用。代码将在Github仓库中发布1.视频数据集：Charades数据集[36]包括157个动作类的9，848个视频，其中66个是与对象的交互动作。平均6.8ac-视频的标签官方的Charades数据集在发布的注释中，1，812个测试视频被下采样到每秒1帧（fps），17个对象类在这些帧上用边界框标记有3.4个边界框注释“person”作为对象类样本。这导致510个交互类和79个对象类的32，100个训练样本。在训练过程中，我们使用HOI标签作为动作类标签，对象边界框注释仅用于评估。与其中交互主要发生在一个主体和一个对象之间的字谜游戏不同，存在多个人与一个对象交互（例如，“登机”）以及一个人与多个对象交互（例如，“登机”）的情况。“放牧奶牛”），这使得学习对象外观更具挑战性。我们报告了在检测和地面实况框之间的交叉联合（IoU）为0.5时的每类平均精度（AP），并且还按照[50]的传统将平均AP（mAP）作为组合度量。我们还报告了CorLoc[8]，这是一种常用的弱监督检测度量。CorLoc表示在包含至少一个目标对象类实例的所有图像中，至少一个目标对象类实例被正确检测到（IoU>0.5）的图像的百分比。4.1. 实现细节我们使用VGG-16和ResNet-101作为我们的骨干特征提取网络。网络中的所有转换层都遵循ReLU激活，除了顶部分类层。批量归一化[22]在所有卷积层之后应用。在或-为了计算分类得分（sO，sH，sO），三个A A平均每帧。我们遵循与[50]相同的做法：在7，986个视频（54，000个剪辑）上训练，并从200个测试视频中随机选择5，000个测试帧进行评估。EPIC-KITCHENS [6]是一个以自我为中心的视频数据集，由头戴式摄像机在不同的厨房场景中捕获。在训练数据中，为28，473个修剪的视频剪辑注释了动作类，并为331个对象类标记了对象边界框。由于没有为测试分割提供对象边界框注释，因此我们将训练数据分为训练部分、验证部分和测试部分。选择前15个频繁对象类（其存在于85个动作类中）用于实验，从而产生8，520个训练、1，000个验证和200个测试视频剪辑。我们从每个训练片段中随机采样三次，并生成28，560个训练样本。我们还从测试剪辑中随机抽取了1，200个测试帧。图像数据集 HICO-DET 数据集 [4] 是为人机交互（HOI）检测任务而设计的。该数据集包括38，118张训练图像和9，658张测试图像。人体边界框、物体边界框和1https://github.com/zhenheny/活动驱动的弱监督对象检测分支建立在最后一个卷积块的顶部每个分支由ROI池化层和中间维度为4096的2层多层感知（MLP）组成用于去除人物提议区域的阈值被设置为θ h=0。五、选择性搜索[42]用于为我们所有的实验提取对象建议。Adam优化器[26]的学习率为2×10−5，批量大小为4。损失权重设定为α a=1。0，α o=2。0的情况。剪辑中的采样帧的数量被设置为n=8，并且提议的数量被设置为n=700。整个框架都是用PyTorch实现的[30]。我们在一个Nvidia Tesla M40 GPU上训练整个训练在20小时内完成。补充材料中介绍了更多实施细节。4.2. 与用于弱监督对象检测的许多现有方法不同，我们的框架显式地对对象的空间位置进行建模。的检测到的人，并编码成两个不同的损失函数方程。三四我们通过不同的分布及其对每个损失的贡献来探索这种空间先验建模的效果届2922表1：不同变体对Charades的检测性能空间先验损失项地图CorLoc中心动作+对象3.4334.27网格动作+对象4.3236.94正常值（µ）动作+对象6.2742.36正常（σ）动作+对象4.8638.05正态（µ+σ）行动2.6131.60正态（µ+σ）对象5.8639.24正态（µ+σ）动作+对象8.7647.91不同的分布包括：（a）正态分布，（b）概率值的固定网格，其中我们通过在关键点周围预定义3 × 3网格来制作空间先验模块的离散版本，以及（c）简单的中心先验，其中我们惩罚远离目标的目标检测。物体的中心。请注意，我们完全删除了中心先验基线中的人物检测边界框和姿势估计。对于此基线，我们使用帧中心作为锚点位置L，并学习µa和σa。我们还对正态分布进行了仅学习分布均值（μa）、仅学习方差（σa）以及均值和方差联合学习（μa+σ）的实验。我们还尝试了只使用对象分类或动作分类损失。VGG-16作为主干网络的定量结果见表11用于不同的消融设置。首先，我们观察到锚点位置的可学习的基于网格或正态分布优于将图像中心作为锚点的简单启发式选择。我们还看到，与其他设置相比，正态分布（其中为每个动作对象对学习均值和方差）导致更好的结果。这表明对象空间先验w.r.t.动作中的人我们还注意到，联合建模动作和对象分类实现了最佳结果。我们还可视化了图中一些样本视频/图像的先验模块中学习到的对象位置概率分布。4.第一章学习的分布通常在动作中提到的对象周围具有大概率权重。例如，在可视化的前两列中，使用热图中的线索定位对象要容易得多。然而，我们也注意到，这种分布是不太有用的行动，其中没有consistent物理相互作用之间的人和对象。这在图的最后一列中显示，对于像“看电视”和“放风筝”这样的动作。我们的方法报告相对较低的mAP性能对这样的对象类（表。2、Tab。（3）第三章。4.3. 与现有方法的比较我们将我们的方法与其他弱监督方法及其变体进行比较：（1）WSDDN [2];（2）上下文-LocNet [25];（3）PCL [40];动作驱动的弱超视觉对象检测方法：（4）TD-LSTM [50]和（5）R*CNN [16]，其设计用于动作识别，(a) 三个Charades动作切糕骑自行车放风筝切糕骑自行车放风筝(b) 三个HICO-DET动作图4：学习对象位置概率w.r.t.的选定的人物关键点。热图表示对象位置的概率（较亮的颜色表示较大的概率值），白色圆圈表示选定的关键点。对主要客体的认识。我们使用的主要对象包围盒作为对象检测的结果。R*CNN在Pascal-action数据集上进行预训练，然后在Cha- rades或HICO-DET数据集上进行微调请注意，现有方法（1）、（2）、（3）、（4）不像我们的方法那样在其模型中使用人物边界框或关键点虽然（5）使用人物边界框，但它我们模型中使用的人物检测和姿势模型训练人模型所需的注释与需要针对每个对象类的边界框注释的完全监督模型相比是非常昂贵的。注释人物边界框和姿势的资源需求然而，由于这些模型不用于传统的弱监督方法，我们通过构建PCL和R*CNN的变体来进行公平的比较：（6）具有空间先验的R*CNN，(7) PCL与空间先验，其中我们用加权和替换R*CNN中的最大池化和PCL中的平均池化，其中权重是根据我们的实现中的空间先验分布计算的（更多细节在补充材料中提供）。来自TD-LSTM [50]的结果仅针对Cha- rades显示，因为它是一个视频特定的模型并且代码不可用。此外，我们报告了弱监督模型的结果，这些模型的代码可用，或者其在 Cha- rades ， HICO-DET 或 EPICKITCHENS数据集上的结果很容易获得。此外，请注意，许多方法（如[9，47，41]）都是通过添加信号（如分段，上下文信息）构建在普通WSDDN方法之上的。c135躺在床上第132章看电视c137保持真空第132章看电视c135躺在床上c137保持真空2923表2：每个对象类上的AP性能（%）和与Charades上的不同弱监督方法的mAP（%）比较方法床扫帚椅子杯菜门笔记本镜枕头雷弗里架沙发表电视毛巾真空窗口最大平均接入点（%）WSDDN [2]2.380.041.170.03 0.13 0.312.810.280.020.120.030.411.74 1.180.070.080.220.65美国有线电视新闻网[16]2.170.442.030.31 0.08 0.772.640.321.242.360.821.410.65 0.720.070.650.170.99[25]第二十五话7.400.030.550.02 0.01 0.171.110.660.000.071.754.120.63 0.990.030.750.781.12TD-LSTM [50]9.190.044.180.49 0.11 1.172.910.300.080.293.215.863.35 1.270.090.600.471.98PCL [40]4.621.072.211.26 1.08 2.493.615.131.344.463.295.613.84 3.261.171.432.272.83R*CNN +先验6.823.645.393.25 2.47 3.365.271.072.386.343.295.724.09 1.031.263.410.863.50PCL +既往10.575.638.243.52 3.71 5.636.864.965.2311.39 4.88 10.46 6.32 3.534.064.893.076.05Ours-vgg-16（无既往）6.712.325.482.49 1.04 3.604.023.424.397.763.157.433.26 1.620.892.241.233.60Ours-vgg-1614.92 10.23 13.08 7.65 5.21 6.448.654.799.1418.07 7.29 17.21 8.46 2.375.467.232.648.76Ours-ResNet-10116.5411.6314.87 8.62 6.73 8.29 11.324.969.8119.24 9.03 18.49 9.86 3.056.488.083.0210.03(a) 字谜测试框架(b) HICO-DET测试图像图5：（a）Charades测试帧和（b）HICO-DET测试图像的定性检测结果红色边界框表示我们的结果，绿色边界框表示PCL的结果[40]姿态细化等。这些想法是对本工作中提出的想法的补充，并且可以添加到我们的模型中以获得更好的结果。两个数据集上的每类AP和组合mAP性能见表1。2、Tab。分别3。随机选取了HICO-DET上的10个目标类。在Charades数据集上，与PCL相比，我们的方法实现了6%的mAP提升[40]。我们的方法在扫帚、冰箱、吸尘器等对象类上执行得更好。涉及这些对象类的相互作用的空间先验模式更可预测，因此先验建模比其他对象类更有利于我们的方法对于像tv这样的对象，交互的空间先验模式（e.g.watch tv）更加多样化，因此难以建模，仅导致mAP的小幅提升同样的性能模式也适用于HICO-DET数据集。在对象类kite上，我们的方法的性能稍逊于基线方法.我们观察到，即使与其他模型（如R*CNN [16]和PCL [40]）相结合，我们模型的空间先验也能有效地在训练期间定位对象。具有空间先验建模的R*CNN优于TD-LSTM，TD-LSTM是专门为动作驱动的弱监督对象检测任务而设计的。我们还报告了我们的模型的该变型该模型不需要任何人物边界框和关键点信息，与现有的弱监督方法具有直接可比性。我们注意到，即使没有这些信号，我们的模型也可以优于现有的方法。这可以归因于我们的模型在训练过程中同时它识别对象边界框，这可以帮助动作分类和对象分类在训练期间。我们的方法和PCL之间的定性比较如图所示。五、我们的方法更准确地定位了对象。多个对象类和多个实例可以通过我们训练的对象分类-阳离子流检测最后一列显示了我们的失败案例。在Charades上，PCL [40]和我们的方法都无法检测到窗口，在HICO-DET上，我们的方法无法定位风筝。一个可能的原因是，像“看窗外”这样的动作我们的方法也扩展到以自我为中心的EPIC KITCHENS数据集。由于人类关键点在该数据集中不可见，因此我们应用了Sec中使用的“中心”空间先验建模。四点二。由于相机相对于人是固定的，因此锚点位置已经通过该中心先验隐式地建模。我们在1,200个测试帧上与R*CNN [16]和PCL [40]进行了比较。以自我为中心的视频对于对象空间位置具有很强的先验，因此我们方法能够优于Tab中的其他方法。4.第一章2924表3：在选定对象类上的AP性能（%）和在HICO-DET上与其他弱监督方法的mAP（%）比较方法苹果自行车瓶椅子手机飞盘风筝冲浪板火车伞最大平均接入点（%）美国有线电视新闻网[16]1.133.261.572.351.471.020.322.702.863.042.15WSDDN [2]1.465.191.523.872.022.441.152.866.763.353.27PCL [40]1.275.822.312.843.063.111.162.607.933.473.62PCL +既往2.066.492.543.695.142.961.374.068.134.874.19Ours-vgg-16（无既往）1.235.151.193.473.822.240.733.656.223.143.16Ours-vgg-162.478.643.595.747.362.850.877.298.476.635.39表4：EPIC厨房上与其他弱监督方法的mAP（%）比较方法地图CorLoc美国有线电视新闻网[16]2.5432.68PCL [40]4.6840.64PCL +既往6.8246.69Ours-vgg-169.7552.534.4. 督导在培训弱监督对象检测旨在训练没有任何边界框标签的对象检测模型。然而，在实践中，在训练图像/视频中注释至少几个边界框是简单有效的这与低拍摄和半透明设置类似。我们认为，在这种实际环境中测试弱监督方法也很重要。为此，我们探索了在训练数据中添加不同数量的地面实况对象边界框注释的效果。我们通过增加第2节中描述的损失来实现这一点。3，对于边界框注释可用的视频/图像，具有额外的监督对象检测损失这种损失与Fast-RCNN中使用的传统对象检测损失在实践中，计算对象提议和地面实况对象边界框之间的IoU，并且具有比阈值更高的IoU的提议被认为是正样本，其余被认为是负样本。阈值IoU设置为0.45以保证每个图像的合理的正样本。阴性和阳性样本比例设置为5。我们比较两个基线：（1）无弱监管模式：模型仅在具有边界框注释且没有任何弱监督数据的图像/视频上进行监督检测损失训练（我们的（ w/ 仅强监督）），以及（2）R*CNN [16]，具有如上所述的附加对象边界框监督（R*CNN（w/强+弱监督））。我们在Charades和HICO-DET数据集上评估了此设置定量结果见图。六、x轴（对数标度）表示具有对象边界框注释的训练样本的百分比。例如，点x%表示对于随机x%的训练数据样本，存在边界框注释剩下的训练样本，只有动作类标签。请注意，0%是之前考虑的弱监督设置，而100%表示完全监督设置。我们观察到，mAP增加对数线性越超-(a)字谜游戏（b）HICO-DET图6：我们用不同监督设置训练的方法与用（a）Charades和（b）HICO-DET的强监督和弱将透视添加到训练中。对于Charades，当添加少量监督时，我们观察到使用额外弱监督数据的模型优于没有任何弱监督的模型这清楚地表明了我们的弱监督方法在低拍摄检测设置中提供补充价值的潜力。在低至70%的监督下，我们的方法已经与100%监督的完全监督方法的性能相匹配。这意味着我们可以在不牺牲性能的情况下减少训练模型所需的超级视觉量。正如预期的那样，这两种方法之间的差距随着监督的增加而缩小。即使使用我们还观察到图像的性能差距较小（ HICO-DET）。我们认为，与图像相比，弱监督在视频中更有效，其中提案的时间链接有助于避免训练期间的虚假检测。5. 结论我们观察到，对象的空间位置，外观和运动与图像和视频中的对象执行的动作密切相关。我们提出了一个模型，利用这些观察来训练对象检测模型，从样本注释只有动作标签。在视频和图像数据集上进行了对比实验。与SoTA方法的比较表明，该方法优于现有的弱监督方法。此外，我们的方法还可以帮助减少对象检测模型所需的监督2925引用[1] Jean-Baptiste Alayrac ， Josef Sivic ， Ivan Laptev ， andSimon Lacoste-Julien.对象状态和操作动作的联合发现。arXiv预印本arXiv：1702.02738，2，2017。[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。[4] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议（WACV），第381-389页。IEEE，2018年。[5] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（1）：189[6] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：史诗厨房数据集。欧洲计算机视觉会议（ECCV），2018年。[7] 文森特·德莱特，伊万·拉普捷夫和约瑟夫·西维克。在静止图像中识别人的动作：一项关于特征袋和基于零件的表示的研究。在BMVC 2010-第21届英国机器视觉会议，2010年。[8] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。国际计算机视觉杂志，100（3）：275[9] Ali Diba ，Vivek Sharma ，Ali Mohammad Pazandeh ，Hamed Pirsiavash，and Luc Van Gool.弱监督级联卷积网络。在CVPR，第3卷，第9页，2017年。[10] Chuang Gan，Chen Sun，Lixin Duan，and Boqing Gong.通过对相关网络图像和网络视频帧进行相互投票的网络监督视频识别。参见ECCV，第849-866页[11] Jiyang Gao，Zhenheng Yang，Kan Chen，Chen Sun，and Ram Nevatia.Turn tap：用于临时行动建议的临时单位回归网络在IEEE国际计算机视觉会议集，第3628[12] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归。BMVC，2017年。[13] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[14] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在计算机视觉和模式识别，2014年。[15] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe. 检测和识别人机交互。 arXiv 预印本arXiv：1704.07333，2017。[16] Georgia Gkioxari Ross Girshick 和 Jitendra Malik 。用 r*cnn进行上下文动作识别。在IEEE计算机视觉国际会议论文集，第1080-1088页[17] Georgia Gkioxari和Jitendra Malik。找活动管。在IEEE计算机视觉和模式识别会议论文集，第759-768页[18] ChunhuiGu，Chen Sun，Sudheendra Vijayanarasimhan，Caroline Pantofaru，David A Ross，George Toderici，Yeqing Li，Susanna Ricco，Rahul Sukthankar，CordeliaSchmid，et al. Ava：时空局部原子视觉动作的视频数据集。arXiv预印本arXiv：1705.08421， 3（4 ）：6，2017。[19] Abhina

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

活动驱动的弱监督目标检测与动作特征相关联的线索

基于特征提取的目标检测的收获

传统的目标检测算法和流行的目标检测算法区别

规则驱动与目标驱动有何不同

基于stm32f407如何使用IPL库进行目标检测

利用yolo2目标检测算法实现人脸识别1.驱动的编写2.程序的开发过程3.应用程序流程图4.代码测试以及实验结果

ros系统中 用奥比中光深度相机 实现目标检测

deepstream6.2+yolov5目标检测

请比较规则驱动、目标驱动和效用驱动？

基于ssd的ros平台目标检测

请比较人工智能领域的规则驱动、目标驱动和效用驱动？给出详细的例子

amd驱动程序自动检测工具

数据驱动类的异常检测方法

步进电机驱动带堵转检测电路

脉冲神经网络 目标检测

qt 仿360驱动大师检测界面

C++ 检测驱动是否安装

水面目标检测数据集.zip 水面帆船、水面游艇、水面舰船、水面鸟类、水面鱼类、水

PYNQ-Z2来实现YOLOv2目标检测

weixin007医院管理系统+Springboot.rar

最新资源

ros系统中用奥比中光深度相机实现目标检测

脉冲神经网络目标检测