没有合适的资源?快使用搜索试试~ 我知道了~
视频识别中的深度特征流
and continuity can also be exploited to reduce the computa-tion cost. This aspect, however, has received little attentionfor video recognition using CNNs in the literature.Modern CNN architectures [39, 41, 16] share a com-mon structure. Most layers are convolutional and accountfor the most computation. The intermediate convolutionalfeature maps have the same spatial extent of the input im-age (usually at a smaller resolution, e.g., 16× smaller).They preserve the spatial correspondences between the lowlevel image content and middle-to-high level semantic con-cepts [47]. Such correspondence provides opportunities tocheaply propagate the features between nearby frames byspatial warping, similar to optical flow [17].In this work, we present deep feature flow, a fast andaccurate approach for video recognition. It applies an imagerecognition network on sparse key frames. It propagatesthe deep feature maps from key frames to other frames viaa flow field. As exemplifed in Figure 1, two intermediatefeature maps are responsive to “car” and “person” concepts.They are similar on two nearby frames. After propagation,the propagated features are similar to the original features.Typically, the flow estimation and feature propagationare much faster than the computation of convolutional fea-tures. Thus, the computational bottleneck is avoided andsignificant speedup is achieved. When the flow field is alsoestimated by a network, the entire architecture is trainedend-to-end, with both image recognition and flow networksoptimized for the recognition task. The recognition accu-racy is significantly boosted.In sum, deep feature flow is a fast, accurate, general,and end-to-end framework for video recognition.It canadopt most state-of-the-art image recognition networks inthe video domain. Up to our knowledge, it is the first workto jointly train flow and video recognition tasks in a deeplearning framework. Extensive experiments verify its effec-tiveness on video object detection and semantic segmenta-tion tasks, on recent large-scale video datasets. Comparedto per-frame evaluation, our approach achieves unprece-dented speed (up to 10× faster, real time frame rate) withmoderate accuracy loss (a few percent). The high perfor-mance facilitates video recognition tasks in practice. Code23490用于视频识别的深度特征流0Xizhou Zhu 1 , 2 � Yuwen Xiong 2 � Jifeng Dai 2 Lu Yuan 2 Yichen Wei 201 中国科学技术大学 2 微软研究院0ezra0408@mail.ustc.edu.cn { v-yuxio,jifdai,luyuan,yichenw } @microsoft.com0摘要0深度卷积神经网络在图像识别任务上取得了巨大成功。然而,将最先进的图像识别网络转移到视频上是非常困难的,因为逐帧评估速度太慢且成本高昂。我们提出了一种名为深度特征流的快速准确的视频识别框架。它仅在稀疏的关键帧上运行昂贵的卷积子网络,并通过流场将它们的深度特征图传播到其他帧。由于流计算相对较快,它实现了显著的加速。整个架构的端到端训练显著提高了识别准确性。深度特征流具有灵活性和通用性。它在目标检测和语义分割的两个视频数据集上得到了验证。它显著推动了视频识别任务的实践。代码将会发布。01. 引言0近年来,深度卷积神经网络(CNN)在图像识别方面取得了显著的成功,例如图像分类[23, 39, 41, 16],语义分割[28, 4, 50]和目标检测[13, 14, 12, 34, 8,27]。随着它们的成功,识别任务已经从图像领域扩展到视频领域,例如在Cityscapes数据集上的语义分割和在ImageNetVID数据集上的目标检测。快速准确的视频识别对于高价值场景非常重要,例如自动驾驶和视频监控。然而,将现有的图像识别网络应用于单个视频帧会引入无法承受的计算成本,众所周知,图像内容在视频帧上变化缓慢,尤其是高级语义[45, 51,21]。这一观察结果已被用作特征学习中的正则化手段,将视频视为无监督数据源[45,21]。然而,在文献中,使用CNN进行视频识别时,很少关注这种数据冗余性和连续性如何降低计算成本。现代CNN架构[39, 41,16]共享相同的结构。大多数层都是卷积层,占据了大部分计算量。中间的卷积特征图具有与输入图像相同的空间范围(通常分辨率较低,例如16倍较小)。它们保留了低级图像内容与中高级语义概念之间的空间对应关系。这种对应关系提供了通过空间变形在相邻帧之间廉价传播特征的机会,类似于光流[17]。在这项工作中,我们提出了一种名为深度特征流的快速准确的视频识别方法。它在稀疏的关键帧上应用图像识别网络。它通过流场将关键帧的深度特征图传播到其他帧。如图1所示,两个中间特征图对“汽车”和“人”概念具有响应。它们在两个相邻帧上相似。传播后,传播特征与原始特征相似。通常,流估计和特征传播比卷积特征的计算要快得多。因此,避免了计算瓶颈,并实现了显著的加速。当流场也由网络估计时,整个架构进行端到端训练,图像识别和流网络都针对识别任务进行了优化。识别准确性得到了显著提升。总之,深度特征流是一种快速、准确、通用且端到端的视频识别框架。它可以在视频领域采用大多数最先进的图像识别网络。据我们所知,这是第一个在深度学习框架中联合训练流和视频识别任务的工作。大量实验证实了它在视频目标检测和语义分割任务上的有效性,对于最近的大规模视频数据集而言,与逐帧评估相比,我们的方法实现了前所未有的速度(最高提速10倍,实时帧率)并且准确性损失较小(几个百分点)。高性能有助于实践中的视频识别任务。代码0� 这项工作是在Xizhou Zhu和YuwenXiong担任微软亚洲研究院实习生期间完成的23500滤波器#1830滤波器#2890滤波器#1830滤波器#2890关键帧0滤波器#1830滤波器#2890关键帧特征图0当前帧当前帧特征图0流场传播的特征图0图1.提出的深度特征流方法的动机。这里我们在我们的ResNet-101模型的最后一个卷积层上可视化了两个滤波器的特征图(详见第4节)。卷积特征图在两个相邻的帧上是相似的。它们可以通过流场从关键帧廉价地传播到当前帧。0即将发布。02. 相关工作0据我们所知,我们的工作是独一无二的,没有之前的类似工作可以直接进行比较。尽管如此,它与以前的工作在几个方面有关,如下所述。图像识别深度学习在图像识别任务上取得了成功。网络架构已经发展并在图像分类[23,39,41,15,20,16]上变得强大。对于目标检测,基于区域的方法[13,14,12,34,8]已经成为主导范式。对于语义分割,全卷积网络(FCN)[28,4,50]已经主导了这个领域。然而,直接将这样的图像识别网络应用于所有帧的视频识别是计算上无法承受的。我们的工作提供了一种有效和高效的解决方案。网络加速已经提出了各种方法来减少网络的计算。举几个例子,在[48,12]中,矩阵分解被应用于将大型网络层分解为多个小型层。在[7,33,18]中,网络权重被量化。这些技术适用于单个图像。它们是通用的,并且与我们的方法相辅相成。0光流是视频分析中的一项基本任务。这个主题已经研究了几十年,并且主要由变分方法[17,2]主导,这些方法主要处理小位移[43]。最近的重点是大位移[3],并且组合匹配(例如DeepFlow [44],EpicFlow[35])已经集成到变分方法中。这些方法都是手工制作的。最近,深度学习和语义信息已经被用于光流。FlowNet[9]首次应用深度CNN直接估计运动并取得了良好的结果。网络架构在最近的金字塔网络[32]中得到了简化。其他工作尝试利用语义分割信息来帮助光流估计[37,1,19],例如,根据区域的类别提供流的特定约束。光流信息已经被利用来帮助视觉任务,例如姿势估计[31]。本文利用光流加速了通用视频识别任务。利用视频中的时序信息进行视频识别T-CNN[22]将视频中的时序和上下文信息与tubelets相结合。密集3D CRF[24]在语义视频分割中提出了长程时空正则化。STFCN[10]考虑了用于语义视频分割的时空FCN。这些工作在体积数据上操作,显示出了改进的识别准确性,但大大增加了计算成本。23510相比之下,我们的方法通过利用视频中的时序一致性来减少计算。网络仍然在单个帧上运行,速度很快。慢特征分析高级语义概念通常比视频中的低级图像外观变化得更慢。因此,预期深度特征在连续的视频帧上变化平滑。这一观察结果已经被用于在视频中规范化特征学习[45,21,51,49,40]。我们推测我们的方法也可能从这个事实中受益。时钟卷积网络[38]它是与我们最相关的工作,因为它也在某些视频帧上禁用网络中的某些层,并重用先前的特征。然而,它比我们的方法简单得多,效果也不如我们的方法好。关于加速,时钟卷积只在某些帧(例如每隔一个帧)的某些层(例如1/3或2/3)上节省计算。如后面所见,我们的方法在大多数帧(例如10帧中的9帧)上节省了大多数层(任务网络只有1层)的计算。因此,我们的加速比要高得多。关于准确性,时钟卷积不利用帧之间的对应关系,只是简单地复制特征。它只重新安排推理计算,而不进行微调或重新训练。即使在小规模加速下,其准确性下降也非常明显。在他们的arxiv论文的第4和6表中,以77%的全运行时间(因此快1.3倍),NYUD的MeanIU从31.1下降到26.4,Youtube从70.0下降到64.0,Pascal从65.9下降到63.3,Cityscapes从65.9下降到64.4。相比之下,我们重新训练了一个考虑了运动的两帧网络。准确性下降很小,例如,Cityscape从71.1下降到70.0,速度提高了3倍(图3,底部)。关于普遍性,时钟卷积只适用于FCN的语义分割。我们的方法将通用的图像识别网络转移到了视频领域。03. 深度特征流0表1总结了本文中使用的符号。我们的方法在图2中简要说明。深度特征流推理给定一个图像识别任务和一个输出输入图像I的前馈卷积神经网络N的结果y =N(I)。我们的目标是快速而准确地将网络应用于所有视频帧Ii,i = 0, ..., ∞。根据现代CNN架构[39, 41, 16]和应用[28, 4,50, 13, 14, 12, 34,8]的经验,不失一般性,我们将N分解为两个连续的子网络。第一个子网络N_feat,称为特征网络,完全卷积,并输出一些中间特征图f =N_feat(I)。第二个子网络N_task,称为任务网络,具有特定的结构用于任务,并在特征图上执行识别任务,y =N_task(f)。0k关键帧索引i当前帧索引r每帧计算成本比例,方程(5)l关键帧持续时间长度s整体加速比,方程(7)0Ii,Ik视频帧yi,yk识别结果fk关键帧上的卷积特征图fi当前帧上的传播特征图Mi→k二维光流场p,q二维位置Si→k尺度场0N图像识别网络N_feat用于特征提取的子网络N_task用于识别结果的子网络F光流估计函数W特征传播函数,方程(3)0表1. 符号说明。0连续的视频帧非常相似。在深度特征图中,相似性更强,它们编码了高级语义概念[45,21]。我们利用这种相似性来降低计算成本。具体而言,特征网络N_feat只在稀疏的关键帧上运行。非关键帧Ii的特征图是从其前一个关键帧Ik传播而来的。深度卷积层中的特征编码了语义概念,并对应于图像中的空间位置[47]。图1中给出了示例。这种空间对应关系使我们能够通过空间变形的方式廉价地传播特征图。设Mi→k为二维光流场。它是通过光流估计算法F(如[26, 9])获得的,Mi→k = F(Ik,Ii)。它被双线性地调整为与特征图相同的空间分辨率以进行传播。它将当前帧i中的位置p投影回关键帧k中的位置p +δp,其中δp =Mi→k(p)。由于δp的值通常是分数,特征变形是通过双线性插值实现的。0fci(p) = �0qG(q, p + δp)fc_k(q),(1)0其中c标识特征图f中的通道,q枚举特征图中的所有空间位置,G(∙,∙)表示双线性插值核。注意,G是二维的,并分为两个一维核,如下所示:���fi = W(fk, Mi→k, Si→k),(3)where W applies Eq.(1) for all locations and all channelsin the feature maps, and multiples the features with scalesSi→k in an element-wise way.The proposed video recognition algorithm is called deepfeature flow. It is summarized in Algorithm 1. Notice thatany flow function F, such as the hand-crafted low-level flow(e.g., SIFT-Flow [26]), is readily applicable. Training theflow function is not obligate, and the scale function S is setto ones everywhere.Deep Feature Flow Training A flow function is origi-nally designed to obtain correspondence of low-level imagepixels. It can be fast in inference, but may not be accu-rate enough for the recognition task, in which the high-levelfeature maps change differently, usually slower than pix-els [21, 38]. To model such variations, we propose to alsouse a CNN to estimate the flow field and the scale field suchAlgorithm 1 Deep feature flow inference algorithm forvideo recognition.1: input: video frames {Ii}2: k = 0;⊲ initialize key frame3: f0 = Nfeat(I0)4: y0 = Ntask(f0)5: for i = 1 to ∞ do6:if is key frame(i) then⊲ key frame scheduler7:k = i⊲ update the key frame8:fk = Nfeat(Ik)9:yk = Ntask(fk)10:else⊲ use feature flow11:fi = W(fk, F(Ik, Ii), S(Ik, Ii))⊲ propagation12:yi = Ntask(fi)13:end if14: end for15: output: recognition results {yi}that all the components can be jointly trained end-to-end forthe task.The architecture is illustrated in Figure 2(b).Train-ing is performed by stochastic gradient descent (SGD). Ineach mini-batch, a pair of nearby video frames, {Ik, Ii}1,0 ≤ i − k ≤ 9, are randomly sampled. In the forward pass,feature network Nfeat is applied on Ik to obtain the featuremaps fk. Next, a flow network F runs on the frames Ii, Ik toestimate the flow field and the scale field. When i > k, fea-ture maps fk are propagated to fi as in Eq. (3). Otherwise,the feature maps are identical and no propagation is done.Finally, task network Ntask is applied on fi to produce theresult yi, which incurs a loss against the ground truth result.The loss error gradients are back-propagated throughout toupdate all the components. Note that our training accom-modates the special case when i = k and degenerates to theper-frame training as in Figure 2(a).The flow network is much faster than the feature net-work, as will be elaborated later. It is pre-trained on theFlying Chairs dataset [9]. We then add the scale functionS as a sibling output at the end of the network, by increas-ing the number of channels in the last convolutional layerappropriately. The scale function is initialized to all ones(weights and biases in the output layer are initialized as 0sand 1s, respectively). The augmented flow network is thenfine-tuned as in Figure 2(b).The feature propagation function in Eq.(3) is unconven-tional. It is parameter free and fully differentiable. In back-propagation, we compute the derivative of the features in fiwith respect to the features in fk, the scale field Si→k, andthe flow field Mi→k. The first two are easy to compute us-ing the chain rule. For the last, from Eq. (1) and (3), for1The same notations are used for consistency although there is nolonger the concept of “key frame” during training.23520��a�0�a�k0�a�k0��a�0�a�k0(a)逐帧网络(b)深度特征流(DFF)网络0当前帧0关键帧当前帧0�0�0传播0当前帧结果关键帧结果当前帧结果0图2.使用逐帧网络评估(a)和提出的深度特征流(b)的视频识别示意图。0G(q, p + δp) = g(qx, px + δpx) ∙ g(qy, py + δpy),(2)0其中 g(a, b) = max(0, 1 - |a -b|)。我们注意到方程(1)的计算速度很快,因为只有少数项是非零的。由于流估计、物体遮挡等原因,空间变形可能不准确。为了更好地近似特征,它们的振幅通过一个“尺度场”Si→k进行调制,该尺度场与特征图具有相同的空间和通道维度。尺度场是通过在两个帧上应用一个“尺度函数”S获得的,Si→k = S(Ik, Ii)。最后,特征传播函数定义为each channel c and location p in current frame, we have∂f ci (p)∂Mi→k(p) = Sci→k(p)�feature network is 16 (as described below), the flow fieldand the scale field is further down-sized by half using bi-linear interpolation to match the resolution of feature maps.This bilinear interpolation is realized as a parameter-freelayer in the network and also differentiated during training.Feature Network We use ResNet models [16], specifi-cally, the ResNet-50 and ResNet-101 models pre-trained forImageNet classification as default. The last 1000-way clas-sification layer is discarded. The feature stride is reducedfrom 32 to 16 to produce denser feature maps, following thepractice of DeepLab [4, 5] for semantic segmentation, andR-FCN [8] for object detection. The first block of the conv5layers are modified to have a stride of 1 instead of 2. Theholing algorithm [4] is applied on all the 3×3 convolutional23530q0∂G(q0∂δp fck(q). (4)0∂δp可以从方程(2)中推导出来。注意,流场M(∙)是二维的,我们使用∂δp来简化表示∂δpx和∂δpy。所提出的方法可以很容易地在只有稀疏帧被注释的数据集上进行训练,这通常是由于视频识别任务中的高标注成本而导致的[29, 11,6]。在这种情况下,每帧训练(图2(a))只能使用已注释的帧,而DFF可以轻松使用所有帧,只要帧Ii被注释。换句话说,DFF可以充分利用数据,即使有稀疏的真实标注。这对于许多视频识别任务可能是有益的。推理复杂度分析对于每个非关键帧,所提出方法(算法1中的第11-12行)和每帧方法(算法1中的第8-9行)的计算成本比率为0r = O(F) + 0O(Nfeat) + O(Ntask), (5)0其中O(∙)表示函数复杂度。为了理解这个比率,我们首先注意到Ntask的复杂度通常很小。虽然它在N中的分割点有点任意,在实验中经过验证,只在Ntask中保留一个可学习的权重层就足够了(见第4节)。而Nfeat和F的复杂度都相当大(第4节),我们有O(Ntask) � O(Nfeat)和O(Ntask) �O(F)。我们还有O(W) � O(F)和O(S) �O(F),因为W和S都非常简单。因此,方程(5)中的比率可以近似为0r ≈ 0O(Nfeat). (6)0这主要由流网络F和特征网络Nfeat的复杂度比率决定,可以通过它们的FLOPs精确测量,例如。表2显示了我们实现中的典型值。与每帧方法相比,算法1中的整体加速比还取决于关键帧的稀疏性。假设每l帧中有一个关键帧,则加速比为0s = l01 + (l - 1) * r. (7)0关键帧调度如算法1所示0(第6行)和方程(7),推理速度的一个关键因素是何时分配一个新的关键帧。在本工作中,我们使用一个0FlowNet FlowNet Half FlowNet Inception0ResNet-50 9.20 33.56 68.970ResNet-101 12.71 46.30 95.240表2.根据特征网络Nfeat和流网络F的FLOPs(浮点运算次数)测量的方程(6)中的近似复杂度比率。详见第4节。注意,r�1,我们使用10这里的r是为了清晰起见。获得了显著的每帧加速比。0简单的固定关键帧调度,即关键帧持续时间长度l是一个固定的常数。这种方法易于实现和调整。然而,图像内容的变化可能需要一个变化的l来在准确性和速度之间提供平滑的权衡。理想情况下,当图像内容发生剧烈变化时,应分配一个新的关键帧。如何设计有效和自适应的关键帧调度可以进一步改进我们的工作。目前这超出了本工作的范围。不同的视频任务可能呈现不同的行为和要求。从数据中学习自适应的关键帧调度器似乎是一个有吸引力的选择。这值得进一步探索,留作将来的工作。04.网络架构0提出的方法适用于不同的网络和识别任务。为了进行可靠的评估,我们采用了最先进的架构和重要的视觉任务。FlowNet网络我们采用了最先进的基于CNN的FlowNet架构(“Simple”版本)[9]作为默认设置。我们还设计了两个复杂度较低的变体。第一个变体称为FlowNet Half,它将FlowNet每层的卷积核数量减半,复杂度降低到10其复杂性是FlowNet的1/8。这三个流网络在合成的FlyingChairs数据集[9]上进行了预训练。输出步幅为4。输入图像尺寸缩小了一半。因此,流场的分辨率为12http://www.image-net.org/challenges/LSVRC/23540在conv5中使用空洞卷积核来保持视野(膨胀=2)。在conv5后附加一个随机初始化的3×3卷积,将特征通道维度降低到1024,其中也应用了空洞算法(膨胀=6)。得到的1024维特征图是后续任务的中间特征图。表2给出了特征网络和流网络的复杂性比例Eq.(6)。语义分割在中间特征图上应用一个随机初始化的1×1卷积层,产生(C+1)个分数图,其中C是类别数,1是背景类别。接下来的softmax层输出每个像素的概率。因此,任务网络只有一个可学习的权重层。整体网络架构与DeepLab类似,具有大的视野范围[5]。目标检测我们采用最先进的R-FCN[8]。在中间特征图上,分别对中间特征图的前半部分和后半部分512维进行两个完全卷积网络的分支应用,用于区域提议和检测的子任务。在区域提议分支中,应用RPN网络[34]。我们使用n a =9个锚点(3个尺度和3个长宽比)。两个兄弟1×1卷积层分别输出2n a维的目标性分数和4na维的边界框(bbox)回归值。对每个图像生成300个区域提议时应用非极大值抑制(NMS)。使用交并比(IoU)阈值0.7。在检测分支中,两个兄弟1×1卷积层分别输出位置敏感的分数图和边界框回归图。它们的维度分别为(C+1)k2和4k2,其中k个分类器/回归器用于编码相对位置信息。详细信息请参见[8]。在位置敏感的分数/边界框回归图上,使用位置敏感的ROI池化来获得每个区域的分类分数和边界框回归结果。每个区域计算中不涉及自由参数。最后,对得分和回归的区域提议应用NMS,以产生检测结果,IoU阈值为0.3。05. 实验0与图像数据集不同,大规模视频数据集更难收集和注释。我们的方法在两个最近的数据集上进行了评估:Cityscapes[6]用于语义分割,和ImageNet VID [36]用于目标检测。05.1. 实验设置0Cityscapes它用于城市场景理解和自动驾驶。它包含来自50个不同城市的街景片段,帧率为17 fps。0训练集、验证集和测试集分别包含2975、500和1525个片段。每个片段有30帧,其中第20帧带有像素级别的语义分割的标签。共有30个语义类别。按照[5]的协议,训练集上进行训练,验证集上进行评估。语义分割准确度通过像素级别的平均交并比(mIoU)得分来衡量。在训练和推理过程中,图像的较短边分别调整为1024和512像素,用于特征网络和光流网络。在SGD训练中,使用8个GPU进行20K次迭代(每个GPU持有一个小批量数据),学习率分别为10^-3和10^-4,前15K次迭代和后5K次迭代。ImageNetVID是用于视频中的目标检测。训练集、验证集和测试集分别包含3862、555和937个完全标注的视频片段。大多数片段的帧率为25或30 fps。共有30个目标类别,是ImageNetDET图像数据集2中类别的子集。按照[22,25]的协议,在验证集上进行评估,使用标准的平均精度(mAP)指标。在训练和推理过程中,图像的较短边分别调整为600像素和300像素,用于特征网络和光流网络。在SGD训练中,使用8个GPU进行60K次迭代,学习率分别为10^-3和10^-4,前40K次迭代和后20K次迭代。在训练过程中,除了ImageNet VID训练集,还使用了ImageNetDET训练集(只使用相同的30个类别标签),按照[22,25]的协议。每个小批量从ImageNet VID或ImageNetDET数据集中采样图像,比例为2:1。05.2. 评估方法和结果0深度特征流具有灵活性,可以进行各种设计选择。我们在实验中全面评估了它们的影响。为了清晰起见,除非另有说明,否则我们在实验中固定它们的默认值。特征网络N_feat,默认为ResNet-101模型。光流网络F,默认为FlowNet(第4节)。关键帧持续时间长度l,默认为Cityscapes[6]分割为5,ImageNet VID[36]检测为10,基于数据集中视频的不同帧率。对于每个片段,我们评估l个图像对(k,i),k = i - l +1,...,i,对于每个带有地面真值注释的帧i。时间评估在具有NVIDIA K40 GPU和Intel Core i7-4790CPU的工作站上进行。DFF架构的验证我们将DFF与几个基线和变体进行了比较,如表3所示。Frame71.11.5273.94.0523550方法 训练图像识别网络N 训练光流网络F0Frame(oracle基线)在图2(a)中单帧训练,不使用光流网络0SFF-slow与Frame相同,使用SIFT-Flow [26](带有最佳参数),无训练 SFF-fast与Frame相同,使用SIFT-Flow[26](带有默认参数),无训练0DFF在图2(b)中训练的帧对上,初始模型在Flying Chairs [9]上训练,然后在图2(b)中进行微调,DFF fixN与Frame相同,然后在图2(b)中固定,与DFF相同,DFF fix F与DFF相同,初始模型在Flying Chairs[9]上训练,然后在图2(b)中固定,DFF separate与Frame相同,初始模型在Flying Chairs [9]上训练0表3. 深度特征流(DFF),浅层特征流(SFF)和逐帧方法(Frame)的变体描述。0方法0Cityscapes(l = 5) ImageNet VID(l = 10)0mIoU(%) 运行时间(fps) mAP(%) 运行时间(fps)0SFF-slow 67.8 0.08 70.7 0.26 SFF-fast 67.3 0.9569.7 3.040DFF 69.2 5.60 73.1 20.25 DFF fix N 68.8 5.60 72.320.25 DFF fix F 67.0 5.60 68.8 20.25 DFF separate66.9 5.60 67.4 20.250表4比较了表3中各种方法的准确性和运行时间(主要在GPU上)。请注意,SFF的运行时间由SIFT-Flow的CPU运行时间和Frame的GPU运行时间组成,因为SIFT-Flow只有CPU实现。0• Frame:在单帧上使用地面真实数据进行训练。0• SFF:使用预计算的大位移光流(例如SIFT-Flow[26])。SFF-fast和SFF-slow采用不同的参数。0•DFF:提出的方法,N和F进行端到端训练。几个变体包括DFF fix N(在训练中固定
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功