没有合适的资源?快使用搜索试试~ 我知道了~
{wb6219, qi.yu, yu.kong}@rit.edu��������������������������������������������������������������������������������������������������������������������������������������������������������������29790OpenTAL:面向开放集时间动作定位0Wentao Bao, Qi Yu, Yu Kong罗切斯特理工学院,罗切斯特,纽约14623,美国0摘要0时间动作定位(TAL)在监督学习范式下取得了显著的成功。然而,现有的TAL方法都是基于封闭集假设的,无法处理开放世界场景中不可避免的未知动作。在本文中,我们首次提出了开放集时间动作定位(OSTAL)问题,并基于Evidential DeepLearning(EDL)提出了一个通用框架OpenTAL。具体而言,OpenTAL包括了对不确定性感知的动作分类、动作性预测和时间位置回归。通过提出的重要性平衡EDL方法,通过主要从重要样本中收集分类证据来学习分类的不确定性。为了区分未知动作和背景视频帧,通过正样本和无标签学习来学习动作性。通过利用时间定位质量的指导,进一步校准分类的不确定性。OpenTAL通用于使现有的TAL模型适用于开放集场景,并且在THUMOS14和ActivityNet1.3基准测试上的实验结果显示了我们方法的有效性。代码和预训练模型已在https://www.rit.edu/actionlab/opental发布。01. 引言0时间动作定位(TAL)旨在在未修剪的视频中定位和识别人类动作。随着深度学习在视频理解[4, 10, 15, 20,34]和目标检测[3, 9,49]方面的成功,TAL在近年来取得了显著进展[12, 36, 62,69]。然而,这些工作都是基于封闭集假设,即测试视频仅包含预定义的动作类别,这在开放世界中是不切实际的,因为未知的人类动作不可避免地会出现。在本文中,我们首次提出了开放集时间动作定位(OSTAL)问题。OSTAL旨在不仅对已知动作进行时间定位和识别,还要拒绝定位的未知动作。如图1所示,在给定的未修剪0图1.OSTAL和TAL任务。OSTAL任务与TAL任务不同之处在于,在未修剪的开放世界视频中存在未知动作,OSTAL模型需要将正定位的动作(例如HammerThrow)拒绝为未知动作,而不是错误地分配给已知标签,如LongJump。0视频(顶行)来自开放世界,传统的TAL(中行)可能会错误地将未知动作片段HammerThrow误认为是已知动作,如LongJump,而提出的OSTAL(底行)可以正确地将其拒绝为未知动作。此外,两个任务都需要区分前景动作和纯粹的背景帧。提出的OSTAL任务从根本上比TAL和相关的开放集识别(OSR)[51]问题更具挑战性。一方面,由于背景帧和未知前景动作的混合,已知动作的识别和定位变得更加困难。现有的TAL方法通常将混合分配给一个无信息的背景标签或错误的动作标签,无法区分它们。另一方面,与OSR问题不同,拒绝未知动作取决于积极定位前景动作,因此定位质量对OSTAL至关重要。为了解决这些挑战,我们提出了一个通用框架OpenTAL,将整体OSTAL目标解耦为三个相互关联的组件:对不确定性感知的动作分类、动作性预测和时间位置回归。本质上,通过动作性预测将前景动作与背景区分开来,并通过时间定位进行定位,同时区分已知和未知的前景动作29800通过最近的证据不确定性学习到的分类模块。为了实现这些目标,我们提出了三种新的技术方法。首先,我们开发了动作分类模块,通过最近的证据深度学习方法(EDL)来识别已知动作并量化分类的不确定性。为了使该模块能够从重要样本中学习,我们提出了一种通过利用EDL梯度和证据特征的重要性平衡EDL方法。其次,动作性预测是区分前景动作(正样本)和背景帧(负样本)。在开放集设置中,由于未知前景动作(未标记)和背景帧的混合,从已知动作和混合中学习本质上降低为正样本-未标记(PU)学习问题。为此,我们提出了一种PU学习方法,通过从混合中选择前几个负样本作为真负样本。第三,时间定位模块被训练用于定位已知动作,并校准分类的不确定性。我们提出了一种基于IoU的不确定性校准(IoUC)方法,通过使用时间交并比(IoU)作为定位质量来校准不确定性。基于现有的TAL数据集THUMOS14和ActivityNet1.3,我们建立了一个新的基准来评估OSTAL任务的基线和提出的OpenTAL方法,其中引入了开放集检测率来全面评估OSTAL性能。实验结果表明了我们方法的显著优势,并表明在这个方向上有很大的改进空间。我们的主要贡献有三个方面:0•据我们所知,这项工作是对开放集时序动作定位(OS-TAL)的首次尝试,这在开放世界环境中具有更大的挑战性,但也具有很高的价值。0•我们提出了一个通用的OpenTAL框架,以应对OSTAL与现有TAL和OSR问题相比的独特挑战。它可以灵活地使现有的TAL模型适用于开放集场景。0•提出的重要性平衡EDL、PU学习和IoUC方法在OpenTAL框架下对OSTAL任务有效。02. 相关工作0时序动作定位时序动作定位(TAL)的目标是识别并在未修剪的视频中定位所有动作实例。现有的TAL方法可以分为两种主要范式:一阶段和两阶段方法。两阶段方法生成无关类别的时间段。0首先对提案进行分类和边界细化。启发式锚点设计和预训练提案生成的封闭集定义限制了它们在开放集问题中的适用性。一阶段方法不依赖于动作提案生成,通常可以以端到端的方式进行训练。这些方法首先基于帧级特征获取时间边界,然后通过多阶段细化或建模时间转换进行全局推理。最近,提出了一种不带动作性和提案的轻量级、灵活的AFSD框架。虽然最近的许多方法都致力于改进提案生成或边界细化,但只有少数方法专注于提高分类准确性。上述方法假设未修剪视频中的所有动作实例都属于预定义的类别,这阻碍了它们在开放世界场景中的应用。虽然[76]考虑了开放集,但他们的方法是为少样本学习任务中的高效注释而设计的。本文提出了一个OSTAL问题来处理TAL应用中的未知动作。0开放集识别开放集识别(OSR)旨在识别已知类别并拒绝未知类别。Scheirer等人的开创性工作[51]对OSR的定义进行了形式化,并引入了基于二进制SVM的“一对多”机器,这激发了一系列基于SVM的OSR方法[26,30,52]。借助深度神经网络(DNNs)的好处,Bendale等人提出了第一个基于DNN的OSR方法OpenMax,它利用极值理论(EVT)扩展了K类softmax分类器。最近,Fang等人从理论上证明了OSR分类器的可学习性和泛化界限。现有的生成式OSR方法[13,18,21,33,47,68,74]利用GAN[23],生成因果模型或混合增强来生成未知样本。从重构的角度来看,一些文献[45,58,66]利用VAE[31]或自监督学习来重构已知类别数据的表示以识别未知类别。原型学习和度量学习方法[11,13,14,56,63,64,70]旨在通过与已知类别数据的原型之间产生较大的距离来识别未知类别。最近,通过概率和证据深度学习进行的不确定性估计方法[4,42,60]在OSR问题上显示出有希望的结果。在本文中,我们进一步探讨了OSTAL问题。我们意识到从OSR到开放集目标检测[16,29,41]和分割[25,44,48,59]的类似扩展。然而,正是开放世界中的定位的独特性使得OSTAL问题在实践中更具挑战性和价值。������������������������������29810未0未知的未知的0未知的未知0未知的0不0未知的0未知0不0未知的未知0不0不0不0未知0未知的未知的0未知的0未知的未知0未知的0不0不知道0未知0图2. 提出的OpenTAL。给定未修剪的视频作为输入,OpenTAL方法是基于现有的TAL模型(如AFSD[36])开发的,用于OSTAL场景。它包括动作分类、动作预测和位置回归,分别通过提出的MIB-EDL损失(Eq.(5))、PU学习(Eq.(6))和定位损失(Eq.(7))进行学习。此外,提出了IoU感知的不确定性校准,通过考虑定位质量(Eq.(8))来校准不确定性估计。在推理中,通过利用不确定性和动作性的两步决策过程,可以在OSTAL设置中区分已知和未知类别的视频动作,以及背景帧(参见算法1)。03. 提出的方法0设置给定一个未修剪的视频,OSTAL任务要求模型定位所有动作的时间位置li=(si,ei),将动作分配给标签yi∈{0,1,...,K},其中yi=0表示由背景帧组成的动作,并拒绝来自新类别的动作。在训练中,模型只能访问视频数据和已知动作的注释,而未知动作的注释未给出。这与OSR问题不同,OSR问题中未知类别的注释和数据都未给出,因为在TAL任务中丢弃未知动作的视频片段是不切实际的。0概述图2显示了所提出的OpenTAL的概述。给定一个未修剪的视频,从现有的TAL模型(如AFSD[36])中获取动作提议的特征。为了实现OSTAL,我们通过三叉头将目标分解为三个子任务,包括动作分类、行动性预测和位置回归。这三个分支通过多任务损失函数进行学习,将在详细介绍。0动机现有的TAL模型通常通过将背景视频帧分配给第(K+1)类Background来采用(K+1)路动作分类。然而,当背景类中存在未知动作时,这种范式无法处理OSTAL情况。为了解决这个问题,一方面,可以尝试在现有的TAL系统中将K个已知类别与额外的Unknown类别相结合。然而,在OSTAL设置下,这种解决方案在实践中是不可行的,因为找到用于训练分类器的视频片段与类别0Unknown依赖于未知动作的时间边界注释,在我们的OSTAL设置下不可用。尽管可以通过在训练中提供未知动作的时间注释来放宽OSTAL设置,但由于未知动作的模糊语义,学习(K+1)路分类器是非常困难的,并且这种放宽在开放世界中几乎没有实际意义,因为我们对未知动作的先验知识一无所知。另一方面,可以从训练数据中删除Unknown或Background类,但在OSTAL设置下这是不可行的,因为(i)我们没有未知动作的时间注释来删除它们,(ii)纯背景帧为行动定位提供了不可或缺的时间上下文。因此,与OSR问题相比,OSTAL的一个独特的技术挑战在于区分已知类和未知类的动作,以及背景帧。此外,由于未知动作与没有注释的背景帧混合在一起,学习区分前景动作实质上等同于半监督OSR问题[50,67],即模型在训练时使用标记的“已知已知”动作和未标记的“已知未知”动作,而在测试时使用包含“未知未知”动作的数据1。为了解决这些独特的挑战,我们提出将(K+1)路动作分类解耦为K路不确定性感知分类(第3.1节)和行动性预测(第3.2节)。因此,我们可以通过在两级决策中共同利用不确定性和行动性来解决上述第一个挑战(见表1),并通过PU学习来解决第二个挑战(第3.2节)。01有关这些术语的更详细讨论,请参阅[16, 22]。gij = ∂L(ij)EDL∂zij= tij�Si − KαijSiαij�= tij� 1αij− ui�, (2)̸ωi =� K�k=1|gik|� � D�d=1|hid|�= ∥gi∥1 · ∥hi∥1.(3)˜ω(t)i= ϵ · ˜ω(t−1)i+ (1 − ϵ) ·1|Ωm|�Ωm,(4)where Ωm is a subset of ωi whose gradient norm ∥gi∥1 fallsinto the m-th bin out of total M bins in the region [0, 1], i.e.,Ωm = {ωi|∥gi∥1 ∈ [ m−1M , mM ], m = 1, . . . , M}. The ϵ is amomentum factor within [0, 1], M is a constant, and t is thetraining iteration. We set the initial weight ˜ω(0)ias the 1.0. Alarger ϵ means the set of influence values ωi are less consid-ered, while M controls the granularity of the neighborhoodof the gradient norm. Eventually, the proposed MomentumImportance-Balanced (MIB) EDL loss is defined as:LMIB-EDL = 1NN�i=1˜ω(t)i L(i)EDL(αi).(5)29820表1. 我们对OSTAL的动机. 符号↓和↑分别表示小和大的值.0已知动作 未知动作 背景0不确定性(u)↓ ↑ ↑ 行动性(a)↑ ↑ ↓03.1. 动作分类0K路不确定性感知分类根据现有的证据深度学习(EDL)[4,53],该方法能够有效量化分类的不确定性,我们假设Dirichlet分布Dir(p|α)在分类概率p∈RK上,其中α∈RK是Dirichlet强度。EDL旨在通过深度神经网络(DNNs)直接预测α。该模型通过最小化以下数据的负对数似然来进行训练{x i, yi}:0L(i)EDL(αi) =0j=1 tij(log(Si)−log(αij)), (1)0其中 t ij 是标签 y i 的one-hot形式的二进制元素,只有当 y0j α ij 是K个类别的总强度。在测试中,给定样本 x � i,动作分类分支(DNN)产生非负的证据输出 e i ∈ R K+ 。然后,通过 E [ p i ] = α i /S i计算出分类概率的期望,其中 α i = e i +1根据证据理论[ 54 ]和主观逻辑[ 28 ]。分类不确定性通过 ui = K/S i估计。然而,上述EDL方法在OSTAL任务中被发现是无效的,因为方程( 1)给予每个样本相等的考虑,而在OSTAL中实际上并非如此。在本文中,我们提出通过一种原则性的方法来改善EDL的泛化能力,使模型更加关注重要样本。0动量重要性平衡EDL受到不平衡视觉分类[ 32 , 46]的最新进展的启发,样本重要性可以通过梯度范数决定的影响函数来衡量。具体来说,设 h i ∈ R D是最后一个DNN层的特征输入,应用指数证据函数来预测证据,即 e i � exp( w T h i ) ,其中 w ∈ R D × K是DNN层的可学习权重。EDL损失 L ( i ) EDL 相对于logits z i � w T h i 的梯度 g i 可以推导出来:0其中使用了链式法则和等式 u i = K/S i 。由于当 j � = yi 时, t ij = 0 ,因此有一个简单但有意义的梯度形式,即g ik = 1 /α ik − u i ,其中 k = y i,并且在我们的补充材料中证明了 | g ik | ∈ [0 , 1) 。0受[ 46 ]的启发,我们考虑由EDL损失相对于网络参数 w的梯度范数给出的影响函数。根据 z i = w T h i的链式法则,可以推导出影响值 ω i :0详细的证明可以在补充材料中找到。我们将样本 x i的损失权重定义为邻域中梯度范数 ∥ g i ∥ 1的移动平均值:0提出的MIB-EDL损失在训练迭代次数增加时,鼓励模型平滑地关注重要样本。在实践中,为了稳定训练,在 T 0次训练迭代之后应用重新加权。与[ 46 ]使用 ω i的倒数来减小具有影响力样本的权重以实现平衡的闭集识别不同,我们使用方程( 3)来增加这些样本的权重以实现开放集识别,并使用方程(4 )来实现样本权重的平滑更新。03.2. 动作性预测0由于未知动作和纯背景帧的混合,仅通过对K个已知类别的证据不确定性进行区分是不够的。因此,预测动作性,即样本是前景动作的可能性有多大,是至关重要的。我们注意到已知类别的数据是正数据,而来自“背景”混合的样本是无标签的。这本质上归结为一个半监督学习问题,称为正-无标签(PU)学习[5]。在本文中,我们提出了一种简单而有效的PU学习方法来预测动作性。设ˆai∈[0,1]为样本xi的预测动作性得分,训练批次中的动作性ˆA ={ˆai}可以分为正样本集ˆP = {ˆai | yi ≥ 1}和无标签背景集ˆU= {ˆai | yi = 0}。在29830在本文中,我们提出了一种方法,将ˆU按升序排序,并选择前M个样本形成最可能的负样本集ˆN = {ˆai | ˆai ∈sort(ˆU)1,...,M}。然后,可以对ˆP和ˆN应用二元交叉熵(BCE)损失:0LACT(ˆP, ˆN) = -10|ˆP|0ˆai∈ˆP logˆai -10|ˆN|0ˆai∈ˆN log(1 -0(6)在这里,为了实现平衡的BCE训练,我们将负样本集的大小设置为M = |ˆN| := min(|ˆP|,|ˆU|),考虑到在大多数训练批次中,我们有|ˆU| �|ˆP|。这个BCE损失将使得纯背景样本远离正样本动作。虽然这种方法很直接,但学习到的动作得分足够具有区分性,可以在OSTAL设置中区分前景动作和背景帧(见图4a)。03.3. 位置回归0为了保持我们的方法对现有TAL模型的灵活性,时间位置回归遵循TAL模型的设计。以最先进的TAL模型AFSD[36]为例,它由一个粗糙阶段和一个细化阶段组成,用于预测位置提议ˆli=[ˆsi, ˆei]和相对于ˆli的时间偏移ˆδi=[ˆδ(s)i,ˆδ(e)i]。粗糙阶段通过时间交并比(tIoU)损失进行学习,而细化阶段通过L1损失进行学习:� � � � � �0LLOC({ˆli}) = 1/NC0i I[yi≥1]01 - |ˆli∩li|0LLOC({ˆδi}) = 1/NR0i I[yi≥1](|ˆδi - δi|), (7)0其中,NC和NR分别是通过IoU阈值与地面真实动作位置匹配的样本数量。指示函数I[yi≥1]过滤掉未匹配的样本,这些样本被视为“背景”数据。在测试中,预测位置通过l�i=[ˆsi+0.5(ˆei−ˆsi)ˆδ(s)i,ˆei+0.5(ˆei−ˆsi)ˆδ(e)i]恢复。请注意,我们的OpenTAL框架不限于特定的TAL模型,而是具有通用设计。03.4. 基于IoU的不确定性校准0尽管公式(5)(6)(7)定义的损失函数足以完成完整的OSTAL任务,但分类模块中学习到的不确定性并未通过考虑定位性能进行校准。直观上,与地面真值位置有较高时间重叠的动作提议应该包含更多证据,因此不确定性较低。为此,我们提出了一种新颖的IoU感知不确定性校准方法:0L(i)IoUC(ˆli, ui) = -wˆli,li log(1 - ui) - (1 - wˆli,li) log(ui)(8)0算法1 推理过程0要求:未修剪的测试视频。要求:训练好的OpenTAL模型。要求:通过方程(11)从训练数据中得到阈值τ1:数据预处理(如果适用)。2:通过OpenTAL预测提案G = {li�, ˆyi, ui,ˆai}|Ni=1。3:后处理(如果适用)。4:对于每个提案Gi∈G,执行以下操作05: if ˆai < 0.5 then � 背景 6: Gi是背景;继续。 7: end if 8:if ui > τ then � 未知动作 9: Gi是未知。 10: else � 已知动作011: 如果ui > τ,则Gi是已知的,由ˆyi = arg maxj E[pij]确定。12: end if 13: end for0其中权重w是预测和真实位置之间的时间IoU的剪裁形式:0wˆli,li = max � γ, IoU(ˆli, li) � (9)0其中γ是一个小的非负常数。方程(8)和(9)中的交叉熵形式将鼓励模型对具有低定位质量(w →γ)的动作提案产生高不确定性(ui →1)。通过max()进行剪裁的动机是,鉴于已知动作的真实情况,背景帧和未知动作的提案与真实情况不重叠,即IoU(ˆli,li) ≤0,剪裁可以避免将损失值从正变为负,同时仍保持低的定位质量γ。此外,在OSTAL设置中,鼓励背景和未知动作的位置提案通过小的γ产生高的不确定性ui是合理的。03.5. 训练和推理0训练过程是最小化由方程(5)(6)(7)(8)定义的损失的加权和:0L = μLMIB-EDL + LACT + LLOC + E[L(i)IoUC], (10)0其中μ是一个超参数,E[∙]是对输入样本的平均损失值。在推理过程中,将未修剪的视频输入到TAL模型中,我们在TAL模型上训练的OpenTAL方法可以产生多个动作位置{li�},分类标签ˆyi = arg max j∈[1,...,K]E[pij],分类不确定性ui和动作得分ˆai。结合ui和ˆai,正定位的前景动作xi,即ai >0.5,可以被接受为已知类别ˆyi,或者被拒绝为未知类别2https://github.com/TencentYoutuResearch/ActionDetection-AFSD29840通过以下简单的评分函0P (xi | ai > 0.5) =0� 未知,如果ui > τ,0ˆ yi,否则。 (11)0完整的推理过程如算法1所示。除了这个两级决策外,根据P(xi)对ui和ai的功能公式进行一级决策也是合理的(见表5)。然而,我们经验性地发现方程(11)是最有效的公式,同时保持了决策的可解释性。04. 实验04.1. 实现细节0我们的方法是基于AFSD[36]模型2实现的,这是一种最先进的TAL模型。AFSD中使用了预训练的I3D[10]骨干网络。提出的OpenTAL应用于AFSD的粗糙和精细阶段。具体来说,提出的MIB重新加权在训练的前10个epoch之后应用。我们经验性地将动量ϵ设置为0.99,将bin的数量M设置为50。方程(9)中的小常数γ设置为0.001。方程(10)中的损失权重μ设置为10。我们训练模型25个epoch以确保完全收敛。AFSD中的其他设置保持不变。04.2. 数据集0THUMOS14 [27]和ActivityNet1.3[8]是两个常用的用于TAL评估的数据集。THUMOS14数据集包含200个训练视频和212个测试视频。ActivityNet1.3数据集包含约20K个视频,涵盖了200个人类活动类别。由于我们的方法不受数据模态的限制,我们默认使用RGB视频进行训练和测试。为了进行OSTAL评估,我们随机选择了3/4的THUMOS14训练视频类别作为已知数据。这个随机选择被重复进行,生成了三个THUMOS14已知和未知之间的开放集划分。考虑到ActivityNet1.3是较新的数据集,并且涵盖了大部分THUMOS14类别,当模型在THUMOS14上进行测试时,ActivityNet1.3不适合作为封闭集训练数据。因此,我们在THUMOS14已知划分上训练模型,并将THUMOS14未知划分和ActivityNet1.3的不重叠类别作为两个源开放集测试数据。为了获取ActivityNet1.3的不重叠类别,我们通过参考THUMOS14的类别手动删除了14个语义重叠的类别。详细的数据集信息可以在我们的补充材料中找到。04.3. 评估协议0平均精度(mAP)通常用于评估封闭集TAL性能。为了评估OSTAL性能,面积在0接收器操作特性(AUROC)曲线和精确度-召回率(AUPR)下的面积用于评估对于正定位动作从已知动作中检测未知动作的性能。为了解决实践中的操作意义,我们还报告了真正阳性率为95%时的误报率(FAR@95),较小的值表示更好的性能。然而,我们注意到上述指标对于OSTAL任务来说是不足够的,因为忽略了OSTAL设置中已知类别的多类别分类性能。受到开放集分类率[13, 17,43]的启发,我们提出了开放集检测率(OSDR),它被定义为正确检测率(CDR)和误报率(FPR)曲线下的面积。给定用于检测未知动作的评分函数P(x)的操作点τ和用于定位前景动作的tIoU的操作点t0,CDR和FPR定义如下:� � � � �0CDR(τ,t0)= |{ x |(x ∈ Fk)∧(ˆfx | y = y)∧P(x)<τ }|0|Fk|0FPR(τ,t0)= |{ x |(x ∈ Fu)∧0|Fu|(12)其中Fk是正定位的已知动作集,即Fk = {x|(tIoU>t0)∧(y∈[1,...,K])},Fu是正定位的未知动作集,即Fu = {x |(tIoU> t0)∧(y =0)}。CDR表示正确定位并正确分类为其已知类别的已知动作的比例,而FPR表示正定位但错误接受为任意已知类别的未知动作的比例。更高的OSDR表示OSTAL任务的性能更好。为了稳定评估,所有结果都是通过对三个THUMOS14拆分的结果进行平均得出的。在THUMOS14的tIoU阈值为0.3,ActivityNet1.4的tIoU阈值为0.5报告结果,其他阈值的结果在补充材料中。04.4. 与现有技术的比较0OpenTAL方法与基于AFSD的以下基线进行比较:(1)SoftMax:使用SoftMax置信度分数识别未知。(2)OpenMax:在测试中使用OpenMax[6]将SoftMax分数与未知类别附加在一起。(3)EDL:类似于[4],使用普通EDL方法替换传统的交叉熵损失进行不确定性量化。模型使用THUMOS14未知分割和ActivityNet1.3不相交子集进行测试。结果在表2中报告。结果表明,OpenTAL在所有OSTAL指标上均大幅优于基线,同时保持可比的封闭集TAL性能(mAP减少不到1%)。结果还表明OpenMaxOpenMax [6]90.3453.2633.1713.6691.3651.2454.8815.7336.36EDL [4]81.4264.0540.0536.2684.0162.8253.9738.5652.24OpenTAL70.9678.3358.6242.9163.1182.9780.4150.4955.0229850表2. OSTAL结果(%)。在THUMOS14封闭集上训练的模型通过包括来自THUMOS14和ActivityNet1.3的未知类进行开放集测试。mAP提供了THUMOS14封闭集上TAL结果的参考。0方法THUMOS14作为未知ActivityNet1.3作为未知mAP FAR@95(↓)AUROC AUPR OSDR FAR@95(↓)AUROC AUPR OSDR0(a)ROC曲线(b)OSDR曲线0图3.在一个THUMOS14分割上的ROC和OSDR曲线。括号中的数字是AUROC或OSDR值。0在OSTAL任务中,特别是在使用大规模的ActivityNet1.3数据集作为未知数据时,EDL效果不佳。EDL效果良好,但仍远远落后于提出的OpenTAL。图3显示了在一个THUMOS14分割上的AUROC和OSDR曲线的详细评估。其他分割上的图像在补充材料中。它们清楚地显示了在不同操作点的评分值和不同的开放集分割上,提出的OpenTAL始终优于基线。04.5.消融研究0组件消融。通过分别去除OpenTAL的主要组件,比较了三个模型变体。(1)无MIB:去除了提出的MIB重新加权,使用了纯粹的EDL损失(公式(1))。(2)无ACT:去除了动作性预测,使用了LMIB-EDL(公式(5))中的(K+1)分类。(3)无IoUC:从训练中去除了损失LIoUC(公式(8))。结果在表3中报告。它们表明OpenTAL实现了最佳性能。具体而言,MIB重新加权策略对OSDR性能的提升贡献最大,约为30%。动作性预测(ACT)对FAR@95,AUROC和AUPR指标的贡献最大。此外,提出的IoUC损失也显著提高了所有指标的性能。这些观察结果证明了OSTAL任务中这三个组件的有效性。0重新加权方法的选择。我们将提出的MIB重新加权方法(MIB(软))与MIB(硬)和现有的样本重新加权文献进行比较。0表3.消融结果(%)。将OpenTAL中的提出的EDL重新加权方法(MIB),动作性预测(ACT)和IoUC损失分别从中去除。0变体 MIB ACT IoUC FAR@95(↓)AUROC AUPR OSDR0(1)� � 77.20 76.41 56.65 12.10 (2)� � 82.85 58.12 31.8037.89 (3)� � 79.64 62.73 37.86 39.390OpenTAL � � � 70.96 78.33 58.62 42.910表4.不同重新加权方法的结果(%)。MIB(硬)表示动量因子ϵ=0,使得样本权重以硬方式更新,而MIB(软)将ϵ设置为0.99以实现软更新,wo. Re-weight表示ϵ=1.0。0方法 FAR@95(↓)AUROC AUPR OSDR0wo. Re-weight. 77.20 76.41 56.65 12.10 Focal [39] 91.0556.67 35.55 2.04 GHM [35] 78.33 73.52 54.03 1.41 IB [46]80.23 75.91 58.00 2.180MIB(硬)66.34 78.16 57.66 38.90 MIB(软)70.96 78.3358.62 42.910表4.不同重新加权方法的结果(%)。Focal损失(Focal)[39]与OpenTAL框架不兼容。GHM [35]和IB[46]方法可以达到可比的FAR@95,AUROC和AUPR性能,但其OSDR结果仍然远远落后于我们的结果。请注意,这些方法都是为封闭集识别设计的,因此提出的MIB更适用于开放集场景。此外,MIB的硬版本通过将动量机制设置为0来改善约4%的FAR@95,但牺牲了AUROC,AUPR和OSDR。0评分函数的选择。评分函数对于识别已知和未知动作以及模型推断中的背景帧至关重要。除了通过(11)提出的两级决策之外,我们还通过利用动作性ai和不确定性ui来将其与四种合理的一级决策方法进行比较。表5中的结果表明,使用最大分类置信度(第一行)或ui和ai的其他组合(第二行和第三行)无法达到良好的性能。29860表5.评分函数。当条件为ai>0.5时,不确定性ui是OSTAL任务的最佳评分函数。0评分函数 FAR@95 ( ↓ ) AUROC AUPR OSDR0P ( x i ) = 1 − max j ( α i /S i ) 77.90 59.50 35.82 31.380P ( x i ) = u i / (1 − a i ) 79.16 61.94 38.52 30.640P ( x i ) = a i / (1 − u i ) 90.39 72.71 56.19 38.240P ( x i ) = u i ∙ a i 70.64 77.52 58.17 42.440P ( x i | a i > 0 . 5) = u i 70.96 78.33 58.62 42.910所提出的方法(最后一行)在与u i和ai(第四行)的乘积相比具有可比的FAR@95性能稍好。虽然肯定还有其他选择,但我们的评分函数在保持良好的决策解释的同时实现了最佳性能,这意味着首先通过ai识别前景动作,然后通过u i进一步区分已知和未知动作。0动作性和不确定性的分布。为了展示学习到的动作性和不确定性的质量,我们在图4中可视化了它们在测试集上的分布。具体来说,图4a中的主要模式显示前景动作主要被赋予高动作性,而背景帧则具有低动作性,图4b中的主要模式显示已知类别的动作主要被赋予低不确定性,而未知类别的动作则具有高不确定性。这些观察结果与我们OpenTAL方法的预期相吻合。0定性结果。图5显示了提出的OpenTAL和基线方法的定性结果。这三个视频样本来自THUMOS14数据集。结果清楚地显示,OpenTAL在识别已知动作(第一个视频中的彩色片段)和拒绝未知动作(第二个和第三个视频中的黑色片段)方面优于基线方法。0局限性。我们注意到所有这些方法都没有显示出显著高的OSDR性能,这表明OSTAL任务的挑战性质以及在OpenTAL中存在改进的巨大空间。05. 结论0在本文中,我们介绍了开放集时序动作定位(OSTAL)任务。它旨在同时定位和识别人类动作,并从未修剪的视频中拒绝未知动作。其独特的挑战在于区分已知动作、未知动作以及背景视频帧。为此,我们提出了一个通用的OpenTAL框架,以使现有的TAL模型适用于OSTAL任务。OpenTAL通过预测位置、带有不确定性的分类和动作性来共同实现目标。0(a) 动作性 (b) 不确定性 图4.动作性和不确定性的分布。这两个图表显示了动作性得分对前景动作和背景帧之间的显著分离,以及不确定性对已知动作和未知动作之间的分离。0图5.定性结果。我们用黑色表示未知类别的动作,其余颜色表示已知类别的动作。x轴表示时间戳(秒)。0经过全面的OSTAL评估,引入了开放集检测率。经验证明,OpenTAL在效果上明显优于现有的基线方法。我们相信OpenTAL设计的普适性可以启发相关研究领域,如时空动作检测、视频目标检测和视频定位,朝着开放集场景发展。0致谢。本研究得到了海军研究办公室(ONR)资助的N00014-18-1-2875号和陆军研究办公室(ARO)资助的W911NF-21-1-0236号。本文中所包含的观点和结论仅代表作者本人,不应被解释为代表ONR、ARO或美国政府的官方政策,无论是明示还是暗示。此外,我们衷心感谢陈俊文在TAL文献调研、数据预处理和方法讨论方面的贡献。29870参考文献0[1] Alexander Amini, Wilko Schwarting, Ava Soleimany, andDaniela Rus. 深度证据回归. 在NeurIPS,2020年. 20[2] Yueran Bai, Yingying Wang, Yunhai Tong, Yang Yang,Qiyue Liu, and Junhui Liu.用于时态动作提议生成的边界内容图神经网络. 在ECCV,2020年.20[3] Wentao Bao, Qi Yu, and Yu Kong.面向单目3D物体检测的对象感知质心投票. 在IROS,2020年. 10[4] Wentao Bao, Qi Yu, and Yu Kong.开放集动作识别的证据深度学习. 在ICCV,2021年. 1 , 2 , 4 , 6 , 70[5] Jessa Bekker and Jesse Davis.从正样本和无标签数据中学习:一项调查.机器学习,109(4):719–760,2020年. 2 , 40[6] Abhijit Bendale and Terrance E. Boult.开放集深度网络的发展方向. 在CVPR,2016年. 2 , 6 , 70[7] Shyamal Buch, Victor Escorcia, Bernard Ghanem, LiFei-Fei, and Juan Carlos Niebles.单流时态动作检测的端到端方法. 在BMVC,2017年. 20[8] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem,and Juan Carlos Niebles.Activitynet:用于人类活动理解的大规模视频基准.在CVPR,2015年. 2 , 60[9] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transfor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功