视频动作定位中基于结构最大和的算法的应用

171 浏览量更新于2023-10-15 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3684基于结构最大和的袁泽桓1，2，乔纳森C.斯特劳德2号，佟璐1号，贾登2号1南京大学软件新技术国家重点实验室2密歇根大学安娜堡分校摘要我们解决了视频中的时间动作定位问题。我们将动作定位作为任意长度时间窗口上的结构化预测，其中每个窗口被评分为逐帧分类分数的总和。此外，我们的模型将每个动作的开始、中间和结束分类为单独的组件，从而使我们的系统能够明确地对每个动作的节奏演变进行建模在这个框架中，我们通过搜索结构化的最大和，我们开发了一种新的，可证明有效的算法解决方案的问题，本地化的行动。逐帧分类得分使用来自深度卷积神经网络（CNN）的特征来计算，这些特征被端到端地训练以直接优化新的结构化目标。我们评估我们的系统上THUMOS1. 介绍在时间动作定位中，我们得到一个视频，目的是检测特定动作是否发生以及何时发生。具体来说，我们回答三个问题-“视频中是否有动作？“，“行动什么时候开始？“，以及“行动何时结束？“.通过自动化这一过程，我们可以使人们能够有效地搜索每天生成的数百万小时的视频数据。然而，由于几个原因，这仍然是一个具有挑战性的问题。至关重要的是，动作具有固有的时间结构，因此我们需要一种表示，除了它们的瞬时空间外观之外，还可以对动作的时间演变进行以前的方法要么无法模拟时间演化，要么以显著的计算成本[11，16，15]。高计算成本是这些方法的重要问题，因为在许多情况下，这项工作是在袁泽桓在密歇根大学做访问生时完成的。在实际应用中，感兴趣的视频可能任意长，并且方法必须适度地缩放到持续数小时（例如，电影、网络视频）或甚至数天（例如，安全镜头、第一人称视觉）的视频。最后，提取用于检测视频中的动作的有效特征仍然是一个未解决的挑战。为了克服这些挑战，我们提出了一种方法，直接建模的动作的时间演变，我们开发了一个可证明有效的算法来执行本地化，在这个框架。我们的时间演化框架是基于这样的观察：所有的动作都有开始、中间和结束，并且这些组成部分各自具有不同的外观和运动模式。我们假设，通过分别定位这三个动作部分，我们可以通过在它们的顺序中强制一致的结构来显著提高定位性能具体来说，我们将动作建模为时间窗口-视频帧的可变长度序列-并且我们假设每个时间窗口以单个开始帧开始，然后是一个或多个中间帧，最后是单个结束帧（图1）。否则，我们对每个动作的时间顺序不施加任何限制性约束。在这样做的时候，我们恢复了足够的时间信息，以利用每个动作中存在的固有结构，而不需要任何额外的注释或对动作的组成进行不切实际的解释。在测试时，我们通过搜索结构化的最大和来定位动作-开始，中间和结束帧的序列，其具有相应的帧置信度分数的最高和。解决这个问题是不平凡的，因为它需要在可能的开始-结束对的平方数上进行搜索。然而，在第4节中，我们提出了一种新的动态规划算法，可证明找到任意长度的视频的前k个我们证明了这个算法是有效的，特别是我们证明了它在线性时间内找到结构最大和。我们的解决方案是相关的研究k-最大和问题，类似的有效算法存在[2]。我们的结构化最大-3685开始中间结束背景开始中间端背景图1：高尔夫挥杆动作的时间演变。我们的系统明确地将进化建模为单个开始帧（绿色），随后是许多中间帧（蓝色）和单个结束帧（红色）。小和算法使我们能够优雅地将定位缩放到任意长度的未修剪视频，同时对每个动作的时间演变进行编码。我们使用双流卷积神经网络（CNN）的强大判别特征分别对三个动作分量进行分类[16]。在第5.2节中，我们使用一种新的结构化损失函数来训练整个系统。在第6节中，我们在THUMOS的14个挑战数据集[6]上训练和评估了我们的方法我们的主要贡献是一个框架，使我们能够模拟的时间演变的行动没有牺牲，ficing有效的时间本地化。我们的框架的关键是一个新的，可证明有效的算法，它计算结构化的最大和在线性时间。我们在动作检测基线上取得了有竞争力的结果，并提出了一些消融研究，以证明我们管道中每个组件的贡献。2. 相关工作视频中的时间动作定位是一个活跃的研究领域，并且大量关注时间定位的基准数据集和竞赛（包括THU-MOS[6]和ActivityNet[7]挑战）促进了最近的进展。现有的方法主要分为两类：滑动窗口分类法和框架分类法.在本节中，我们将概述这些方法的主要贡献。滑动窗口。时间定位的许多主要方法将分类器应用于跨每个视频扫描的固定宽度窗口。这些方法的优点在于，它们能够在其分类中考虑上下文Oneata等人。[11]，THUMOS '14定位竞赛的获胜者，使用滑动窗口分类器应用于改进的密集轨迹特征的Fisher矢量表示[25]。王等人采用了类似的滑动窗口方法，并在同一竞争中获得第二名[26]。最近，Shou et al. 提出了一种用于定位的滑动3D卷积神经网络，有利于以前方法的手工设计功能[15]。与我们的时间演化模型类似，Gaidon等人使用滑动窗口分类器从手工制作的特征中定位动作部分（acactionary）[4]。他们的序列模型和我们的序列模型之间的关键区别在于，他们的动作部分特定于每个单独的动作，并且必须手动选择和标记，而我们的每个动作使用相同的部分，并且不需要额外的注释。大多数滑动窗口方法应用于多个窗口大小以考虑时间尺度的变化这导致了大量的冗余计算，并且使得这些方法扩展到长视频的成本很高。然而，他们在THUMOS等竞赛中的成功表明，滑动窗口方法提供的上下文信息对于准确定位非常重要。框架式分类。另一类流行的方法将分类器应用于每个单独的帧以检测动作的存在或不存在。然后在后处理期间使用简单的非最大抑制或更复杂的序列模型来聚合动作窗口。Singh等人[19]在ActivityNet挑战[7]中实现了有竞争力的性能，使用逐帧分类器来提出动作位置，通过最小化损失来聚合在一起，从而鼓励检测中的分段平滑[19]。 Sun等人和Singh et al. 应用逐帧CNN特征检测器，通过递归LSTM模块连接[21，18]。Richard等人采用应用于传统运动特征的语言模型[12]。虽然这些方法中的每一个都能够在后处理中并入一些时间上下文，但是它们各自依赖于手工设计的帧级特征或优化一些帧级损失。相比之下，我们的方法是端到端训练的，并直接优化了时间动作窗口上的结构化损失，使其能够学习3686便于准确的动作定位。其他方法。最大裕度损失已用于检测在线设置[8]和3D视频特征[28]中的动作，但不在端到端管道中。许多作品已经采取了其他方法来模拟动作中存在的时间结构[22]。最近，Yeung et al. [29]提出使用强化学习在视频中主动搜索信息帧，然后直接回归每个动作的起点和终点。他们的方法是有效的，因为它只需要在进行每次预测之前观察几帧，但它并不聚合整个视频的信息以实现最佳性能。可能与我们最相关的工作是[24]，它将动作定位作为通过视频的时空路径的结构化预测，利用[23]的最大路径算法来执行有效的推理。他们的方法能够联合执行空间和时间定位，并且类似地使用最大边缘结构回归来学习逐帧分类分数。然而，我们的方法具有对动作的时间演变建模的优势，并利用了强大的CNN特征，我们对这些特征进行了端到端的训练。3. 本地化作为结构化预测3.1. 时间演化模型随着时间的推移，动作的外观和运动特征变化很大。通过明确地建模动作的时间演变，我们可以利用这种固有的时间结构。特别是，我们注意到动作实例的起点和终点的帧往往在外观上变化很大，因为演员在动作过程中经常会改变位置（如篮球扣篮）或姿势（如高尔夫挥杆）。此外，当演员执行复杂的身体运动时，动作实例中间的帧往往具有与起点和终点不同的运动特征。动作的开始和结束在时间定位中特别重要，因为它们定义了单个动作实例的边界。为了鼓励精确定位，我们明确地将每个动作建模为单个开始帧，然后是一系列任意长度的中间帧，最后是单个结束帧。假设我们分别为开始、中间和结束分量具有单独的有符号逐帧置信度分数fs（x）、fm（x）和fe（x）。使用这个新公式，我们可以将视频v的置信度分数F（v，y）重写为e−1假设我们给定一个视频v={x1，x2，· · ·，xn}∈F（v，y）=λsfs（xs）+λmfm（xt）+λe fe（xe）（1）其中xt表示时间步长t处的帧，并且n是视频中的帧的总数。我们将节奏窗口定义为视频帧的连续段y={xs，xs+1，· · ·，xe}∈ Y，其中s和e是内开始帧和结束帧的骰子，并且1≤s≤e≤n。此外，假设每个帧具有实值逐帧得分f（xt）∈R，其可以是正的或负的，这指示我们在帧x中的置信度为-渴望一个特定动作类的实例注意，为了方便起见，我们将f（xt）表示为仅单个帧xt的函数，而实际上f可以取决于从整个视频提取的对于视频和相应的时间窗口，我们定义置信度分数F：V×Y→R作为帧间得分之和，即，t=s+1其中λs、λm和λe是指定每个动作部分的相对重要性的参数在我们的实验中，我们设置λ s= λ m= λ e=1，除非另有说明。这种泛化比没有时间演化的单类置信度得分具有许多优点。首先，我们会因为未能为开始帧和结束帧找到良好匹配的检测而受到严重惩罚这强制了时间一致性，因为最佳检测将是那些以正确顺序成功匹配三个分量中的每一个的检测。这种对不合逻辑的匹配的抵抗力使我们对逐帧分数中的方差具有鲁棒性。这使得我们不太可能将动作的连续或部分实例合并到单个检测中，并鼓励F（v，y）=et=s f（x t）. 预测的时间窗口检测器将每个检测延伸到对于视频V是使置信度得分最大化的一个，特别是r，y∈yF（v，y）=argmaxy∈YF（v，y）。天真地，通过搜索所有可能的开始和结束，点对，这种最大化需要在帧数量的平方空间上进行搜索对于长视频来说，这是不切实际的。但是，由于F可分解为我们可以将其视为经典的最大和问题[2]，其中存在O（n）时间解[1]。在实际设置中，我们可能在单个视频中有多个动作实例。找到k-最佳窗口可以类似地被设置为k-最大和问题，对于该问题存在O（n+k）-时间解[3]。在接下来的部分中，我们将对更复杂的时间依赖性进行建模。动作实例，防止过度分割和分割不足。最后，开始和结束标签很容易从外部时间动作注释中获得，这意味着我们不需要额外的训练数据。最后，由于每个动作都有开始、中间和结束，这个公式对复杂动作的结构没有4. 结构最大和给定逐帧分数fs、fm和fe以及视频v，我们的目标是检测特定动作的所有实例我们将这些检测表示为前k个时间胜利，如等式1中的置信度得分所排序的。3687图2：结构化最大和问题的描述灰色圆圈描绘了三个动作分量中的每一个的分类分数（越深越高），并且彩色的外线描绘了合理的时间定位。图中所示的三个窗口为红色（t= 1）。. . 4）、蓝色（t= 1. . . 8），和绿色（t = 3. . . 第八章）在第3节中，我们展示了在没有时间演化的情况下，局部化如何可以被框定为k-最大和问题[1]。然而，我们的公式引入了额外的挑战，因为我们现在需要计算top-k结构最大和（图2），这是以前的工作没有解决的问题。为了解决这个问题，我们引入了结构化最大和（SMS）算法（算法1），该算法有效地找到了top-k个结构化最大和。结构化最大和算法对视频进行单次遍历，保持到目前为止在列表kmax[：]中找到的K它还跟踪在rmax[：]中的帧i处结束的K个最佳不完整时间窗口的值，也就是说，在i处结束但不包括端点fe[i]的窗口我们现在证明SMS算法的正确性为了清楚起见，我们首先引入以下符号。我们假设所有的逐帧分类器得分都是预先确定的。计算，并包含在有序列表fs[1· · ·n]，fm[1···n]和fe[1···n]中，简写[：]同时引用列表中的所有元素。同样，我们表示将一个值添加到列表的每个成员中，作为f[：]+n。我们将把一个元素s插入到一个有序列表kmax中的操作表示为merge（s，kmax）。我们将离散空间X上的函数g的第k个最大值表示为k-maxx∈Xg（x）.引理1. 令rmax i [：]表示在时间步长i处结束的K个最佳不完整时间窗口的列表，不包括端点f e [i]。即，让算法1Top-K结构最大和输入：逐帧分数fs[1· · ·n]、fm[：]和fe[：]输出：kmax[1· · ·K]对于每个k←1到K，kmax[k]<$−∞，rmax[k]<$−∞端rmax[1]←fs[1]{}对于每个i←2 ton，对于每个k←1到K，s←rmax[k]+fe[i]rmax[k]= rmax[k]+fm[i]kmax[：]= merge（s，kmax[：]）端rmax[：] = merge（fs[i]， rmax[：]）端rmax i [：]+ f m[i +1]给出了先前K-最佳不完全窗口的所有延续的列表。我们将fs [i+1]插入到这个列表中，如果fs [i +1]大于它，则至多丢弃K个延拓中的一个。剩下的是在帧i + 1处结束的K个最佳不完整时间窗口。引理2. 令kmax i [：]表示在帧i处或之前结束的K个最佳时间窗口的列表。然后merge（rmax i [：]+ fe [i +1]，kmax i [：]）给出在时间步i + 1结束的K个最佳时间窗口的列表。证据我们从引理1知道，rmaxi [：]给出了在帧i处结束的K个最佳不完整时间窗口。结束于帧i+1处的第k个最佳时间窗口是这些不完整窗口中的一个，通过添加fE[i+1]来完成，或者它是已经包含在kmaxi中的顶部完整窗口中的一个.通过合并这两个列表，我们选择前K个窗口，保留前K个完整的时间窗口。每个rmax i和kmax i（包括对merge的调用）都可以在O（K）时间内构造。对于所有i∈ {1，. . .时间复杂度为O（nK），所以时间复杂度为O（nK）。这个结果，以及上面引理的结果，使我们得到：我们的主要理论贡献：定理4.1. SMS算法在O（nK）时间内计算长度为n的视频中的K个最佳时间窗口。我们注意到，虽然这个算法只写COM-rmaxi [k] = k-maxj∈{1，···，i}、fs（j）+Σiq=j+1、fm（q）.（二）计算前K个时间窗口的分数，我们的实现能够恢复窗口本身。这是通过简单的簿记来完成的，然后merge（fs [i + 1]，rmax i [：] + f m [i + 1]）给出在时间步i + 1结束的K个最佳不完整时间窗口的列表。证据结束于帧i+1的第k个最佳不完整窗口是开始于i+1的窗口，或者是结束于帧i的K个最佳窗口之一的连续.在将时间窗口添加到rmax和kmax列表时跟踪时间窗口5. 培训到目前为止，我们已经假设所有帧式动作得分预先计算fs、fm和fe。在这一秒-3688我我我帧RGBVGG+流VGG双流网络视频...双流网络串联本地化双流网络双流网络图3：我们的本地化架构图（左）我们使用具有VGG骨干架构的双流网络来生成逐帧置信度分数。（右）来自n帧的分数被连接并执行定位。因此，我们描述了这些逐帧评分函数是如何学习的。我们使用深度卷积神经网络（CNN）来生成评分函数，并引入了一个结构化的损失函数，可用于在端到端框架中训练这些CNN。5.1. 网络架构我们采用[16]的双流网络架构来提取每个视频帧的深度时空特征。双流架构由两个卷积神经网络（CNN）组成，即Spatial-CNN和Motion-CNN。第一个网络流Spatial-CNN在单个视频帧的颜色通道上运行，捕获特征视频仅包含单个动作实例。这些标签yi=（s（i ），e（i），（i））∈ Y由开始索引s、结束索引e和动作标签组成。我们的目标是学习一个置信度函数F：V × Y<$→R，它衡量视频中存在特定动作实例的可能性我们要求F采用如等式1所示的逐帧求和形式。我们将F的可学习参数，即CNN的可学习参数表示为w。我们使用符号F（v，y;w）来表示针对具有参数w的视频v和窗口y产生的置信度分数。对于训练视频vi，我们将定位损失Lloc定义为最高得分时间窗口与动作vii的地面实况标签之间的间隙：从现场的静态外观第二股，Motion-CNN在密集光流场上运行，Lloc（vi）=ΣMaxy/=yi.n（yi，y）+F（vi，y;w）ΣΣ−F（vi，yi;w），+放在相邻的帧之间，捕捉独特的运动，特征和像素轨迹。然而，与[16]不同的是，我们采用[17]中更大的VGG 15层网络作为两个流中每个流的骨干架构。对于每个流，我们生成（C×3）维输出，其中C是动作类的总数。最后，我们对两个流的帧分数进行平均，并将结果跨帧连接。该体系结构如图3所示。（三）其中[·]+=max（0，·）是铰链损失函数[5]。的添加了附加项，以减弱与地面实况的高度重叠，并被定义为：|−|于伊|其中每个预测窗口y和y是一组视频帧，并且|·|就是基数。|is the cardinality.为了进一步使网络更具鉴别力，我们引入了一个分类损失Lcls，它强制要求其他动作的估计窗口的分数应该低于地面实况动作类的分数。我们定义5.2. 结构化损失我们的模型最小化了视频级结构化损失函数，1Lcls（vi）=C−1M+maxF（v，y;w）−F（v，y;w）I+而不是用于训练的逐帧损失函数y：100（四）典型的双流动作识别架构。通过直接优化时间动作定位，我们使帧的分数考虑到动作的时间演变这使得能够实现通过针对逐帧目标进行优化而不可能实现的微调水平在典型的双流体系结构中，我们首先其中M是一个固定参数，确保我们不会惩罚-如果距离已经低于M，则将检测进行量化。在我们的实验中，我们将M设置为地面实况窗口长度|y i|视频VI完整的结构化目标L是两个损失之和在训练集中的所有视频上，定义如下：分别预训练每个流并通过微调进行融合。我们有m个训练视频的数据集V={v1，v2，· · ·，vm}，标签Y={y1，y2，· · ·，ym}。每个视频L（V）=Σmi=1.ΣLloc（vi）+λLcls（vi）、（五）v={x（i），···，x（i）} ∈ V可以是任意长的，且其其中λ加权两个损失的相对重要性i1ni长度表示为ni。为了简单起见，我们假设训练函数。默认情况下，我们设置λ = 0。5.3689我我我我w（l）我我我（·）ii我算法2损失增广的结构化最大和输入：置信度分数fs[1· · ·n]、fm[：]和fe[：];地面实况窗口y={s，e}输出：smaxsmax<$−∞; rsum[1]<$−∞;p<$0{初始化}对于每个i∈[1，s）<$（e，n]，fs[i]<$fs[i] +1;fm[i]<$fm[i] +1;fe[i]<$fe[i]+1;端对于每个j←2到N，len←max[0， min（e−s+1，e−j）]rsum[j]<$ max（rsum[j−1]+fm[j]，p+fs[j]）smax<$max（smax，rsum[j−1]+len+fe[j]）如果j∈[s，e]则p←p+1结束if结束for注意，两个损失函数都是典型的结构SVM损失，因此可以以类似的端到端方式学习参数w [14]。由于定位和分类损失都是次可微的，因此两个CNN流的参数可以通过反向传播来学习agation。具体地，对于一个层l，一个视频上的任一损失相对于该层的参数w（l）在Lcls中找到y。然而，由于Lloc中的最大化中的k项，为了计算yk，我们需要执行损失增强置信度的最大化。在算法2中，我们修改了SMS算法以包括该项，从而实现相同的线性时间复杂度，guar-anteeing这可以在训练期间有效地计算。此外，我们只计算顶部检测。6. 实验我们在THUMOS'14数据集上评估了我们的方法[6]。我们的实现基于Caffe[9]。双流神经网络Spatial-CNN的输入是裁剪为224× 224的RGB视频帧，减去平均RGB值。Motion-CNN的输入是通过TVL1光流算法计算的密集光流通道[30]。我们将每个光流图像缩放到[1，255]之间，并在两个方向上堆叠10帧的流以形成224 × 224 × 20的3D体积。Spatial-CNN在ImageNet上进行了对象识别的预训练[13]，Motion-CNN在UCF 101上进行了动作分类的预训练[20]。我们分别训练Spatial-CNN和Motion-CNN，然后联合微调它们最后两个完全连接的层。此外，我们采用多尺度的随机种植两个流。对于每个样本，我们首先从预定义的列表中随机选择一个尺度，然后选择大小为（224× 224）×比例的随机作物。在输入到（vi）= . L （·）（vi）F（vi，y）网络对于Spatial-CNN，三个尺度[1，0. 875，0。75、为Motion-CNN，我们使用两个尺度[1，0. 875]。w（l）F（vi，yL（v）F（v，y）f−（六）后处理。我们把每个测试视频分成重叠的20秒片段和18秒的重叠片段-（vi，yi）w（l）在相邻片段之间，并为每个片段独立地执行本地化。随后，我们合并前-其中，y表示对于Lloc的arg maxy（x（y，y i）+ F（v i，y））并且对于L c l s，argmaxy，l=f|F（vi，y）。 f是由神经网络产生的逐帧置信度分数的集合。f相对于网络参数的梯度可以通过反向传播来计算，这是没有结构化目标的CNN的标准。因此，仍然需要计算两个梯度：（1）置信函数F的梯度w.r.t.分类器f和（2）目标iv e函数L（·）w的梯度。r. t. F. 计算(1)，我们记得置信函数只是求和-动作部分的分数，所以它的梯度计算是直接的。虽然（2）是不可微的，但它实际上是次可微的，所以我们计算一个次梯度：.在这些片段中的发音。我们将动作实例的数量设置为K=100，因为实验上K≥100并不能提高我们验证集的召回率。来自等式1的时间动作窗口分数倾向于向较长的窗口给出较高的分数，因此我们另外将每个窗口的置信度取决于其窗口长度。此外，如[11]所示，我们将置信度分数乘以动作持续时间pri- ors，以鼓励动作窗口具有合理的长度。在生成所有候选项之后，我们使用非最大值抑制来过滤均衡训练。中间帧比开始帧和结束帧更普遍，因此为了防止网络偏向中间帧，我们在训练期间将每个中间帧的分数除以在<$L1 if <$（yi，yi）+F（vi，yi）−F（vi，yi）>0=F（vi，yi）我我0否则。（七）此外，由于开始和结束的手动注释动作相对嘈杂，我们从前10%的帧中随机抽取开始帧，从最后一帧中随机抽取结束帧这允许我们使用次梯度下降进行端到端训练为了计算次梯度，我们需要找到最佳窗口y。我们使用SMS算法（算法1）来3690百分之十。中间帧从中间80%采样。评估指标。我们使用平均精度（mAP）来衡量定位性能，如[6]所示。我们3691Basketball灌篮Basketball灌篮#517第五百二十八章#585#1084撑杆跳#1255#1072撑杆跳#1281图4：我们系统的检测示例。帧编号在每个动作的边界处给出。如果检测预测正确的动作标签并且其与地面真实值的交集大于某个重叠阈值σ，则将检测计数为正确的。6.1. THUMOS 2014THUMOS在我们的实验中，我们使用训练剪辑，背景和验证视频进行训练，并在未修剪的测试视频上报告结果。在训练过程中，我们将每个验证视频裁剪为包含一个动作实例的800帧短片。我们通过将训练和验证片段中的动作实例与背景视频和验证视频拼接在一起来增强训练数据集，其中没有出现20个类的实例。我们总共生成了42000个动作片段用于训练。我们根据验证视频的保留子集上的结果选择超参数。我们分别训练Spatial-CNN和Motion-CNN进行16 K和20 K迭代。然后，我们对双流网络进行微调，以进行2K次额外迭代。在测试时，我们将所有视频降采样到5fps，并过滤掉不太可能包含20个动作类中任何一个的视频我们通过对THUMOS'14上微调的动作识别模型[27]在图4中，我们展示了THUMOS'14测试集上的示例检测我们在表1中报告了不同重叠阈值的结果，并与现有系统进行了比较当重叠阈值σ为0时，我们的模型优于最先进的模型。1，0。2和0。3，并取得了竞争力的结果为0。4和0。5.这表明，即使在精确定位困难的情况下，我们的系统也可以将动作实例与背景帧区分开。此外，我们在图5中提供了每个类的平均精度结果。我们的系统在20个动作中的5个上实现了最佳性能。对于几个动作，即台球，板球击球，网球挥杆和排球扣球，我们得到一个相对较低的平均精度。这可能是由于与最新技术水平重叠阈值σ0.10.20.30.40.5Karaman等人[10个国家]1.50.90.50.30.2Wang等人[26日]19.217.814.612.18.5Oneata等人[第十一届]39.836.228.821.815.0Shou等人[第十五条]47.743.536.328.719.0Yeung等人[29日]48.944.036.026.417.1Richard等人[12个]39.735.730.023.215.2我们的（满）51.045.236.527.817.8表1：不同的平均精密度（mAP）输入不同重叠阈值的方法。我们的系统在σ = 0时达到了最先进的性能。1，0。2，0。3.消融研究重叠阈值σ0.10.20.30.40.5基线18.510.24.51.80.2不包括职业培训和中小型企业40.528.823.216.413.2不含cls42.532.627.819.615.7不包括中小企业48.042.233.024.816.2无先验50.745.036.227.417.5我们的（满）51.045.236.527.817.8单独的网络空间46.240.331.523.216.0运动47.644.035.625.816.9后期融合46.043.232.824.014.5我们的（满）51.045.236.527.817.8表2：结构化物镜（顶部）和双流体系结构（底部）的烧蚀实验。完整型号的性能优于所有其他配置。两个主要原因：（1）这些动作实例较短，因此与较长的动作相比，动作得分相对嘈杂，以及（2）这些动作经常发生在快速切换中，使得容易合并相邻的动作实例。消融研究为了显示我们系统中每个组件的贡献，我们对完整管道的八个变体进行了实验结果报告于表2中。（Ours）FullGroundTruth369250403020100图5：重叠阈值σ = 0时THUMOS '14的每类平均精度。5.#1635跳高#1694 1727号跳高#2012#1498跳高#2000#1605跳高1680号1707号跳高#2028图6：我们完整系统的示例检测与我们在没有分类损失Lcls的情况下训练的系统进行比较。在基线中，我们在训练期间不使用结构化损失函数进行训练。相反，我们训练我们的模型来执行互斥的逐帧分类，并减去平均置信度以形成有符号的置信度分数，并使用SMS执行本地化在w/o cls中，训练期间的结构化定位损失Lcls在w/o sme中，我们不对开始-中间-结束的时间演变进行建模，并且每个动作得分被计算为帧级动作分类得分的平均值。在w/o cls + sme中，我们使用dropLcls，并且也不对时间演化进行建模。丢弃这些组件中的每一个都会导致显著的下降在性能方面，表明时间演化和结构化分类损失对于促进训练和准确定位都很重要。在w/o prior中，我们放弃了动作持续时间prior，这导致per-prone的小幅下降。在图6中，我们给出了检测的示例，当Lcls损失下降时，定位变得不那么精确。我们还进行了单独的消融研究，双流体系结构的组成部分我们单独使用每个流（空间和运动）进行评估，以及简单地平均两个流，而不是联合微调（后期融合）。我们发现，完整的模型优于后期融合，表明两个流的联合训练的重要性。后期融合并不优于分离网络，这表明两个网络的置信度得分不兼容。6.2. 结论我们提出了一个考虑到每个动作的时间演变的我们框架定位作为一个结构化的最大和问题，并提供有效的算法，在这个框架中的训练和检测。我们表明，建模时间演化提高了性能，并证明我们的系统实现了竞争的性能，曼的THUMOS确认这项工作得到了日本密执安大学研究生奖学金、国家自然科学基金项目的资助。61672273号61272218，不。61321491，江苏省杰出青年科学基金，批准号：BK 20160021。Yeung等人Wang等人Shou等人Oneata等人我们（我们的）满（Ours）w/oclsGroundTruth平均精密度（%）#8掷铁饼第190章第284章掷铁饼#448#1掷铁饼#500#12掷铁饼第168话第222话掷铁饼#4203693引用[1] S. E. Bae和T.高冈最大和问题的算法和最大子阵列问题的VLSI算法。在国际并行架构、算法和网络研讨会（I-SPAN），第247[2] J. L. 本特利编程珍珠。Addison-Wesley，1986年。[3] G. S. Brodal和A.G. 约根森最大和问题的一个线性时间算法计算机科学数学基础国际研讨会，第442-453页。Springer，2007.[4] A. Gaidon，Z. Harchaoui和C.施密特动作的时间局部化。IEEE传输模式分析马赫内特尔，35（11）：2782[5] C. Gentile和M. K.温暖线性铰链丢失和平均边缘。神经信息处理系统进展（NIPS），第225-231页，1998年[6] A. 戈尔班，H. 伊德里斯，Y.-- G. 江泽民说，A.罗山·扎米尔，I. Laptev，M. Shah和R.苏克坦卡THUMOS挑战：具有大量类的动作识别。http://crcv.ucf.edu/THUMOS14/，2014年。[7] F. C.海尔布隆河谷埃斯科西亚湾Ghanem和J. C.尼布尔斯Activitynet：用于人类活动理解的大规模视频基准在计算机视觉和图案识别（CVPR）中，第961-970页[8] M. Hoai和F.德拉·托雷最大容限早期事件检测器。International Journal of Computer Vision（IJCV），107（2）：191[9] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地B. Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在Proceedings of the ACMInternational Conference on Multimedia（MM），第675-678页[10] S.卡拉曼湖Seidenari，和A. D.荡妇快速显着性为基础的池费舍尔编码密集的轨迹。ECCV THUMOS研讨会，2014年。[11] D. Oneata，J. J. Verbeek和C.施密特基于精简特征集的fisher 向量动作和事件识别。 IEEEInternationalConference on Computer Vision（ICCV），第1817-1824页[12] A. Richard和J.胆使用统计语言模型的时间动作检测。CVPR，2016年。[13]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[14] S. Shalev-Shwartz ， Y. Singer ， N. Srebro 和 A. 科特pegasos：支持向量机的原始估计次梯度求解器。数学课程。，127（1）：3[15] Z. Shou，山核桃D. Wang和S.昌基于多级cnn的未修剪视频动作时间局部化。CoRR，abs/1601.02129，2016。[16] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。神经信息处理系统进展（NIPS），第568-576页，2014年[17] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。[18] B. Singh和M.邵一种用于细粒度动作检测的多流双向递归神经网络CVPR，2016年。[19] G. Singh和F.库佐林用于活动检测的未修剪视频分类：提交ActivityNet挑战。arXiv预印本arXiv：1607.01979，2016。[20] K. Soomro、A. R. Zamir和M. Shah. Ucf101：来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv：1212.0402，2012。[21] C.孙习谢蒂河Sukthankar和R.奈瓦提亚通过网络图像的域转移对视频中的细粒度动作进行时间定位。在ACMConference on Multime-dia MM[22] K.唐湖，澳-地Fei-Fei和D.科勒学习复杂事件检测的潜在时间结构。计算机视觉和模式识别（CVPR），第1250-1257页。IEEE，2012。[23] D. Tran和J.元视频事件检测的最优时空路径在计算机视觉和模式识别（CVPR）中，第3321-3328页[24] D. Tran和J. Yuan。时空动作定位的最大间隔结构输出回归。神经信息处理系统进展（NIPS），第359- 367页，2012年[25] H. Wang 和 C. 施密特具有改进轨迹的动作识别。IEEEInternational Conference on Computer Vision，ICCV2013，Sydney，Australia，December 1-8，2013，pages3551[26] L. Wang，Y.乔和X.唐结合动作和外观特征进行动作识别和检测THU-MOS 14动作识别挑战，1：2，2014。[27] L. Wang，Y. Xiong，Z. Wang和Y. 乔非常深的双流对流的良好实践。CoRR，abs/1507.02159，2015。[28] P. Wei，N.Zheng，Y.郑氏，中国科学院植物研究所所长。Zhao和S.-C. 竹基于结构预测的并发动作检测在International Conference on Computer Vision（ICCV），第3136-3143页[29] S. Yeung，O. Russakovsky，G. Mori和L.飞飞从视频中的帧一瞥进行端到端的动作检测学习。CVPR，2016年。[30] C. Zach，T. Pock和H.比肖夫一种基于对偶性的实时电视-L1光流计算方法.在德国，模式识别研讨会（DAGM），第214-223页，2007年。

下载后可阅读完整内容，剩余1页未读，立即下载