没有合适的资源?快使用搜索试试~ 我知道了~
1029预算感知的深度语义视频分割Behrooz Mahasseni,Sinisa Todorovic和Alan Fern俄勒冈州立大学Corvallis,ORbehrooz. gmail.com{sinisa,alan.fern}@ oregonstate.edu摘要在这项工作中,我们研究了一个知之甚少的权衡之间的准确性和运行时间成本的深度语义视频分割。虽然最近的工作已经证明了学习加速深度活动检测的优势,但尚不清楚类似的优势是否适用于我们非常不同的分割损失函数,该函数是在帧中的单个像素上定义的。在深度视频分割中,最耗时的步骤表示将CNN应用于每个帧以将类别标签分配给每个像素,通常需要6-9倍的视频片段。这激发了我们新的可感知框架,该框架学习最佳地选择一小部分帧用于通过CNN进行逐像素标记,然后将获得的分割有效地内插到尚未处理的帧。该插值可以使用像素标签的简单光流引导映射,或者使用另一种明显不太复杂且因此更快的CNN。我们将帧选择形式化为马尔可夫决策过程,并指定长短期记忆(LSTM)网络来建模用于选择帧的策略。为了训练LSTM,我们开发了一种策略梯度迭代学习方法来近似我们的不可分解和不可微目标的梯度。在两个基准视频数据集上的测试表明,新框架能够显著减少计算时间,并在不同的初始条件下保持有竞争力的视频分割精度。1. 介绍我们考虑的问题,语义视频分割,其目标是分配一个正确的类标签视频中的每一个像素最近,深度网络已经实现了语义视频分割的最新成果[32,35,23,48,10],其中通常应用卷积神经网络(CNN)直接标记每帧的每个像素。通过这种方式,它们显著改善了更传统应用的处理时间途径(例如,能量最小化),因为后者需要用于图形模型推断的时间和用于特征提取的预处理然而,尽管CNN的前馈架构及其在GPU上的可并行计算,但运行时仍然远离实时。例如,在基准数据集上执行[2]的方法需要6-9倍的视频长度。不幸的是,这排除了这些方法在具有更严格的运行时约束的应用程序中的实际使用。在某些情况下,硬件解决方案可以帮助满足这些限制。然而,更好地理解如何在给定计算时间和资源约束的情况下实现最大精度也同样重要。在本文中,我们解决了上述问题,介绍了一个框架,感知深度语义视频分割。我们的方法适用于任何可用的语义分割网络,它被视为一个黑盒子。给定语义分割网络和时间预算,我们的方法试图在预算内最大限度地提高准确性主要思想是基于视频通常显示平滑运动的观察,因此帧的像素标签可以从相邻分割中有效且准确地插值。这促使智能地选择要由深度分割网络处理的帧,然后使用快速插值网络将像素值分配给分割帧。当插值网络明显快于分割网络时,可以显著节省计算。预算感知推理的问题正受到越来越多的关注,因为最先进的精度接近许多应用程序的需求。最近,这个问题已经被研究用于视频中的活动检测[47],其中目标是使用深度网络有效地识别活动,同时避免处理所有视频帧的需要。在这项工作中,学习了一个循环的实验结果表明,该算法在仅处理约2%的视频帧的情况下,仍能保持较高的精度虽然这一结果表明,智能帧选择是一个可行的,10304为了加速深层架构,活动检测的问题与我们的语义分割问题有很大的不同。特别是,与活动检测不同,语义分割的损失函数是在视频的所有像素上定义的,并且有必要将预测值分配给所有像素。这就提出了一个问题,语义分割可以实现什么样的准确性-时间权衡。三个关键理念:我们通过以下方式扩展最新技术水平:(1)深度视觉注意力模型,表示为LSTM网络,旨在最佳地选择仅视频帧的子集,其总处理时间为:分段网络将不会超过预算约束。(2)由单层CNN表示的快速内插模型,用于基于由注意力模型选择用于分割的相邻帧来有效地标记剩余的未处理帧;以及(3)我们的方法的主要组件的联合学习-即,注意力和插值模型,使得对于给定的预算,所得到的视频分割的准确性最大化。图 1 说 明 了 我 们 的 方 法 的 两 个 阶 段 。 第 一 阶 段(Fig.1左),运行LSTM策略以选择要应用分段网络f的T帧。第二阶段(Fig.1右),将插值模型g应用于剩余的视频帧。如图所示4.我们的方法的总执行时间是T的严格增函数。因此,从总运行时间应该小于预算B的约束出发,我们可以很容易地估计最优T,只需在超出预算之前停止LSTM策略。我们的联合训练方法是基于认识到,我们的问题本质上是一个顺序决策。因此,我们借鉴了强化学习的思想,强化学习是一个专注于学习顺序决策的领域。特别是,我们推导出一个政策梯度强化学习算法,我们的问题,这是一个有效的方法来训练我们的模型。节中5.针对不同的时间节点和两个不同的语义分割网络,对我们的方法进行了我们的结果表明,对于预算1Bmax≤B≤1Bmax,我们视频中的每像素[7,6,5,33,8,29,39,45,31,20]。除了对超体素总数的敏感性[19,28]或[17]中的贪婪特征选择的一些经验结果外,这些方法通常不会明确研究在不同时间约束下准确性和效率之间的权衡。我们的主要假设是,知道训练中的预算约束提供了额外的信息,使学习算法能够优化其决策,以最大限度地提高整体标记精度。更重要的是,很难将[19,28,17]中提出的方法适用于基于深度学习的语义分割模型。最近基于CNN的语义分割[2,23,32,18,35,50,9,26,36,38]的工作不需要在预处理步骤中进行非监督分割,而是直接将图像的像素作为输入并输出语义分割。这些方法首先使用一组(卷积+ 池化)层以生成整个图像的深度特征。 然后,他们进行一系列的反卷积+ 用于生成输出特征图的上采样操作。由于这些方法[2,23,32,18,35,50,9,26,36,38]独立地对每个帧进行基于CNN的分割,因此它们的像素标记通常在时空上不最近,彭埃尔。[25]提出了一种递归的时间场模型,该模型认为标签的平滑性是时空的。此外,这些前馈CNN架构的运行时间通常是视频长度的6-9倍[35]。预算下的有效推理最近在计算机视觉的许多领域都受到了很大的关注[49,24,4,1,21,22,46,41,42,37,27,17,3]。这些方法典型地对它们的推理步骤的效用函数建模,并且以最大效用经济地运行那些步骤我们的主要区别在于,我们直接学习预算感知推理策略,在深度学习框架内实现高效用。这些方法不容易推广到现有技术的基于CNN的语义分割,因为这样的方法在预处理步骤期间不显式地提取特征。与这些方法4 2我们不需要提取额外的特征进行估计,实现语义分割精度,与直接分割每个帧所获得的结果有关。这表明,我们的方法能够通过学习将分割性能提高四倍,而准确性略有损失。此外,我们的准确性优雅降级B1Bmax,这是非常紧张的预算限制的应用程序很重要.<2. 相关工作语义视频分割是一个长期存在的问题,彻底审查的文献超出了我们的范围。它传统上被公式化为表示超体素或表面的图形模型的能量最小化ing实用程序,而是以端到端的方式训练我们的深度感知语义分割模型。Vi- jayanarasimhan等人[40]使用信息帧选择和标签传播的思想他们的工作与我们的不同之处在于:1)他们的方法建立在传统的基于CRF的语义标记之上,2)他们的完整模型需要解决另一个CRF模型,这至少需要一分钟,3)他们试图改善人类标记时间,这是每帧25分钟Mahasseni等人[3]提出了一种基于策略的方法,用于预算语义视频标记中的(超体素,特征)选择。我们的工作很难-1031我我阶段1:运行T步的推理策略。阶段2:预测的像素标签被传播到剩余的M-T个未标记的帧。图1:我们的方法的两个阶段。给定具有M个帧和时间预算B的视频,在阶段1中,基于LSTM的策略顺序地选择帧的子集用于由CNN分割,f。在阶段2中,缺失的像素标签通过使用相邻语义分割的单层卷积滤波器g进行内插从他们的不同之处:1)与他们的方法不同,该方法基于CRF,基于视频的超体素标记,我们使用基于CNN的帧级模型,并使用标签传播网络。2)代替基于分类的近似策略迭代,我们使用递归策略梯度方法来学习感知策略。3. 问题公式化给定一个视频x,有M帧和预算B,我们的目标是在小于B的时间内准确地为x中的每个像素分配一个标签。 设f是一个分割函数,它取帧i的像素xi,并使用时间cf返回xi的语义分割。特别地,f(xi)给出了每个像素的类标签上的后验分布。我们将f指定为CNN,遵循两种先前的方法[2,23]。 为了满足预算约束,我们仅将f应用于帧的子集,并将所得分割内插到其他帧。 为此,我们使用视觉注意力策略π,它顺序地选择帧,用f 进行标记(详见4.1节)。 给定f在所选帧处的输出,剩余帧由插值函数g标记,该插值函数g使用f的附近输出将语义分割插值到尚未处理的帧。重要的是,应用g的时间成本cg显著小于应用f的时间成本cf,这与通过f标记所有帧相比节省了时间。由于目标是在时间预算B内产生分割,因此我们必须决定何时停止选择帧注意视频帧上的指示符向量,其中u(T)= 1意味着帧i已经被π分割,并且u(T)= 0,否则。也令U(T)=|u(T)|是由π选择的不同帧的数量,注意这可以小于如果π碰巧选择一个帧两次。1第二时间分量涉及将g应用于u(T)中具有零值的帧。如果我们让cπ表示应用策略的成本,那么总运行时间由下式给出:C(T)=cπ T+cfU(T)+cg(M-U(T))(1)=cπ T+(cf−cg)U(T)+cgM使用这个运行时公式,很容易确定何时停止策略。在T个策略选择之后,如果这可能导致C(T+ 1)> B,则必须在运行步骤T+ 1之前停止。在我们的工作中,π,g和f将通过深度神经网络表示。由于f是预先训练的模型,因此模型参数由π和g的参数组成,即θ=(θπ,θg)。给定视频x和时间预算B,我们让y∈(x,B,θ)表示使用应用于x的参数θ和预算的抽象语义分割过程的输出B. 当我们把这一点明确地表示出来时,我们将通过y表示。注意,y_ig i是视频的帧i中的每个像素的标签上的后验概率。帧标记的损失将由m(yi,ymi)表示,其中yi是帧i的基础真值标记,并且m是帧i中的像素的平均交叉熵损失。此外,M个视频帧上的损失被定义为:为了满足预算约束,π。为此,我们可以将计算输出所需的总时间分为两部分。第一个时间分量是L(y,y)=1θMΣMi=1(yi,y(二)将策略π应用于T步并且还在所选帧处应用f所需的时间。设u(T)∈{0,1}Mde-[1]虽然π很少会重新选择一个帧,但我们不能排除这种可能性,因为π是学习的,会有一些缺陷。1032我我1我给定N个标记视频{(xn,yn}的训练集,学习的目标是找到使以下最小化的θ覆盖整个视频范围的策略。在步骤t,LSTMπ的输入是ot。2)LSTMθ*= arg minθΣΣNL(θ)=E(Lθ)NΣLθ(yn,y<$n)(三)总而言之,时间t处的全局状态近似于LSTM的内部状态ht,其取决于n=1海流观测以及先前的状态ht−1. 给定不幸的是,即使对于π、f和g的简单选择,L(θ)的梯度也不具有封闭形式,这是由于用于构造yn的过程的顺序性质。4. 学习与表征在本节中,我们描述了我们对π和g的表示,注意我们使用现有的f,SegNet[2]和BayesianSegNet[23]的图像分割模型,其详细规范可以在相应的参考文献中找到。然后,我们描述了我们的方法,共同学习这些功能,通过借鉴政策梯度估计技术。4.1. 基于LSTM的策略我们的时间注意力策略根据最近选择的帧(我们将其称为当前帧)周围的局部信息进行请注意,在每一步中输入到策略的局部观察仅捕获推理过程的全局状态的一部分。将观察限制到仅当前帧周围的局部窗口的这种选择是由允许考虑不同长度的长视频并做出快速决定的期望所激发的,因为否则智能选择将太昂贵而无法获得回报。然而,如果最优决策依赖于更广泛的上下文,则限制局部观察窗口的大小可能导致次优决策。为了帮助解决这个问题,我们使用一个递归神经网络来表示π-由于它能够记住π先前决策中的信息,LSTM已被证明可以成功地模拟具有非马尔可夫状态转换的问题,例如我们的问题,并且最近在顺序决策方面取得了许多经验性成功。[34,16,47]。具体地,当在时间t的当前帧是i时,基于LSTM的策略π基于以下做出决定:ht,π(ht)的输出是下一个观测值lt+1∈[0,1]的位置。请注意,我们的公式允许策略在时间上向前和向后执行跳跃。注意将π定义为一种概率策略,这对于后面定义的策略梯度学习算法是一为了改进训练时的探索,不是使用lt+1,而是从具有等于lt+1的均值和固定方差的高斯分布中采样下一位置4.2. 插值模型g的目标是估计未被π选择的帧的像素标签。标签的有效和可靠的内插已经在具有平滑运动的视频上被证明,即,相邻帧之间的强相关性[6,7,40]。直观地,给定帧i的邻域中的帧j的类标签的后验,以及在帧i和j之间观察到的变化量,我们的卷积滤波器g被学习以估计i中的像素的标签,即输出i中的每个像素的类标签上的后验分布。g的输入被定义为帧i两侧上最接近的标记帧j的像素标记预测的有序集合,以及包含帧j和i之间的逐像素帧差的附加通道。在我们的实验中-g被定义为具有2·(#classes+ 1)个输入通道的大小为5×54.3. 参数的联合学习目标是通过最小化从初始状态s0开始的一系列策略动作的标记损失来联合学习π和g(θ={θπ,θg}当在sT之前没有帧被选择时,当总运行时间C(T)≤B≤C(T+ 1)时。回想一下,yn是视频中帧i的估计输出xn.设u(t)为指示符向量,其示出了在运行策略t步之后整个视频中的所选帧。我们可以将每个时间步t的估计输出形式定义为:1) 视频邻域中的局部信息Ni围绕着我。这在观测向量t=[zNi,φ(Ni),lt]中捕获,其中zNi是指示向量yn(t)=(吨)nif(xn)+(1−u(吨)niΣ)g(xn))(四)其指示Ni中的每一帧是否先前已被是由f选择和处理的,φ(N,j)是由f在N,i中预测的同级置信度的平均值值0.5)。 将lt包括在内有助于鼓励主要的困难是,整个视频是通过由策略做出的一系列决定来计算的,这导致不可分解、不可微分的目标函数。策略在任何时间做出的决策都取决于策略在先前时间步进和影响的u1033n=1n=1n=1ttθθπθθ)<$θRθ(H)dHπ0t=1未来可用于策略的决策。这是强化学习算法研究中的一个长期问题。为了解决这个问题,REINFORCE算法[44]和递归策略梯度方法[43]近似不可分解目标函数的梯度,这有助于使用随机梯度下降有效地学习为了遵循一般的强化学习公式,让rt是与状态t相关的即时奖励。由于stht,我们将rt定义为:算法1我们的预算感知语义分割模型输入:N培训视频输出:学习参数{θπ,θg}。1:预训练插值网络,g%注:训练-从对每个视频中的帧的均匀采样中生成视频示例。2:初始化策略参数,θπ第三章: 对于迭代次数,%生成轨迹以训练πrt(ht)=Lθ(y,y<$(t))−Lθ(y,y<$(t−1)),(5)4:{Hn}N←对T步应用π其中Lθ是等式中定义的视频的标记损失。 (二)、直观地,eq. (5)声明该政策获得立即奖励等于通过选择帧实现的标记误差的减少(或者如果标记误差增加则支付惩罚)。设Rt(Ht)是从状态st开始并将策略持续到最终状态sT的折扣累积奖励:为每个视频5:{y<$n}N ←使用等式。(四)%更新策略参数:6:θπ← −θπJ%生成轨迹以训练g7:{Hn}N←appllyπ forT steps%更新插值参数:8:θg← −θgJ第九章: 端ΣTRt(Ht)=t′=tλt−t′r(h),(6)θπR θ(H)= 0。 为了进一步简化(8),我们需要解-细θπp(H|θ)。 注意p(H|θ)可以分解为其中λ ∈(0,1)是贴现因子,Ht={ht,ht+1,...,hT}表示LSTM的隐藏历史p(H|θ)=p(h)QTp(ht|ht−1)π(l t|ht−1,ot),其中变量H可以解释为观测者ot= [z(t),φ(f(t)),lt],并且使用相同的符号π来0NjNj从初始状态开始执行策略的示例。表示最后一个softmax层的最后一个层。从上到下为了简化起见,我们用H表示H0R为R0我们有logp(H|θ)=const +不t=0 logπ(l t|ht−1,ot)在本文的其余部分。 我们的目标是找到最大化J(θ)的θθθ,重新定义为:∫这导致以下梯度:ΣTJ(θ)= E[R(H)]=p(H|θ)R θ(H)dH,(7)θπlog p(H|θ)=<$θlog π(l t|ht−1,o t)t=0其中p(H|θ)是在给定由参数θ定义的策略的情况下,观察到隐藏状态序列H的概率。很容易证明,最小化方程中的L(θ)。(3)等价于使方程中的J(θ)最大化。(七)、 设θπ和θg定义方程中目标函数J(θ)的梯度。(7)关于LSTM策略和插值网络参数。虽然可以共同学习参数,蒙特卡洛积分用于近似积分的概率观察一个序列的隐藏状态。特别地,通过在N个给定视频上运行当前策略以生成N个轨迹来计算近似梯度,这导致以下近似梯度:LSTM策略和插值网络的参数由于政策的随机性,在实践中,我们得到-θJ1ΣN ΣT对数π(ln|hnnn,o)Rt(h).( 九)迭代的方法工作得更好。Alg.1显示πNπn=1t =0t t−1t t我们建议的培训程序:计算相对于策略参数的梯度由下式给出:策略梯度方法受到梯度估计的高方差的影响按照通常的做法[44],我们从期望回报R中减去偏差。而不是θπJ=∫Σ▽p(H|θ)R(H)+p(H|Σ(八)1034恒定偏差,我们将偏差值设置为遵循随机跳跃策略获得的奖励计算θgJ:类似于等式。(8)、坡度注意,给定隐藏状态序列H,其结束所选帧的历史,奖励功能,相应于插值参数,定义为θgJ =θgp(H|θ)R θ(H)+p(H|θ)<$θgR θ(H)dH。注意,由于g是在选择帧之后应用的,1035我GG不隐藏状态概率不依赖于插值函数,即,θgp(H|θ)=0,其结果为:∫我们在tensorflow2中实现插值和策略模块,并使用公开的代码实现f。实验是在Intel四核i7 CPU和16GBRAM上进行的。θgJ=p(H|θ)<$θgR θ(H)dH。(十)我们的方法和基线的变化:我们为该策略定义了两种变体:i)REG:确定性回想一下,k是帧i中像素的平均交叉熵损失很容易得出以下梯度:从第一帧开始均匀地选择T个帧,ii)LSTM:学习SEC中提出的模型。4.1. 对于插值,我们定义以下变量:i)OPT:是[40]中提出的基线方法,其使用密集的 opti,L(y,yθgθ|u(吨)|Σ{i|(t=0)<$θg <$(yi,g(x)).(十一)cal流从向前和向后两个方向跟踪点更复杂的标签传播方法[30,12,13]更昂贵,并且不适合于直观地显示具有以下特征的帧的标记错误:在计算相对于g的参数的梯度时考虑未被策略选择。给定视频x并应用(5)、(7)和(11),很容易得出以下结果:ΣTRθ(H)=λθ[Lθ(y,y(t))−Lθ(y,y(t−1))]t=0(十二)使用相同的Monte Carlo积分技术,我们导出以下近似梯度:能够作为低成本插值基线。ii)CNN:学习第二节中提出的插值滤波器四点二。 [π= LSTM:g= CNN]的组合是我们的方法,所有其他组合都被视为基线。 我们在两个深度语义图像分割模型上评估了我们的方法的有效性,i)Se gNet[2]和ii)BayesianSe gNet[23]。我们想再次强调的是,f在我们的框架中被认为是一个黑盒.虽然[48,11]中的作者报告了与[2,23]相比更高的准确性,但选择上述两种模型只是因为其准确性和处理时间的差异很大,这使我们能够探索我们的框架在各种环境中的普遍性。1公斤J.J.n=1t=05. 结果λt<$θ[Lθ(yn,y<$n(t))−Lθ(yn,y<$n(t−1))](十三)5.1. CamVid上的结果CamVid数据集有五个来自移动摄像机的道路场景在之前的工作之后,我们专注于11个最常见的对象类标签。地面实况标签每30帧可用我们使用标准的测试列车分裂[2],类似地我们使用以下数据集:1)CamVid [5]和2)KITTI[15]。这两个数据集都是在不受控制的环境中记录的,并且在遮挡以及运动、形状和照明的变化方面存在挑战。实施情况:LSTM模型包含两个1024个隐藏单元的隐藏层。对于训练,我们为每个训练视频生成连续帧序列此外,由于用于语义分割的视频数据集不为所有帧提供地面实况(例如,CamVid为每30帧提供标签),因此对于训练,f的输出被认为是没有人类注释标签的帧的地面实况。请注意,由于目标是在整个视频中使用f的模型表现良好,因此将f的输出视为基础事实是合理的在我们的评估中,预算是根据为所有视频帧应用f所需的最大所需预算的百分比来定义的[14]为了提高效率,收敛性质,我们从λ= 0开始。9,并在每个历元后使用以下公式逐渐更新:λ e+1= 1 − 0。98(1−λe)。将帧大小调整为360×480像素。SegNet的平均每帧推理时间为165ms,BayesianSegNet的表1显示了三种不同预算的结果,N= 7。 对于B=0。1·Bmax和B=0的情况。我们的[LSTM:CNN]在类平均准确度和平均交集方面都优于所有其他变体,联盟3. 一个有趣的观察是,每个模块的精度。根据结果,尽管LSTM和CNN在彼此独立应用时都能略微提高准确度,但当一起学习。对于B= 0。5·Bmax,我们观察到不同的模式。尽管我们的[LSTM:CNN]提供了一个更好的结果,考虑到[LSTM:OPT]和[REG:OPT]之间的相对精度以及[REG:CNN]和[REG:OPT]之间的相同比较,似乎精度提升主要是由于插值模型。2https://www.tensorflow.org/1036tp+fp+fn3一个类的交集(I/U)=tp1037B方法B最大0的情况。1·Bmax0的情况。最大25·B0的情况。最大5·BB最大0的情况。1·Bmax0的情况。最大25·B0的情况。最大5·B方法π的时间G的时间时间f类平均值f= SegNet[2]REG+CNN(0. 25·B(最大值)0130.4251.353.5REG+CNN(0. 5·Bmax)090.6567.261.7LSTM+CNN(0.25·Bmax)23.1125.8256.761.7LSTM+CNN(0. 5·Bmax)5.292.1441.662.8[23]第二十三话REG+CNN(0. 25·B(最大值)0184.52928.462.3REG+CNN(0. 5·Bmax)097.34170.872.6LSTM+CNN(0.25·Bmax)20.4196.82934.772.3f= SegNet[2]所有帧88.087.392.380.029.597.657.249.427.884.830.765.950.2[REG:OPT]56.446.453.742.710.360.329.318.59.536.810.734.126.7[REG:CNN]57.247.051.543.811.260.928.419.39.837.911.134.426.9[LSTM:OPT]60.850.354.951.216.870.132.725.615.744.214.739.730.2[LSTM:CNN]63.458.861.954.917.373.938.131.319.551.720.844.733.8[REG:OPT]70.469.173.263.823.681.945.439.120.965.923.852.540.2[REG:CNN]70.868.975.464.224.878.645.839.422.166.824.552.840.5[LSTM:OPT]83.470.483.772.325.488.152.345.224.678.626.859.245.4[LSTM:CNN]81.180.382.973.727.689.854.245.925.878.028.460.746.2[REG:OPT]83.282.686.375.427.593.253.746.825.980.129.162.247.0[REG:CNN]81.682.186.075.727.490.853.146.925.881.427.661.746.9[LSTM:OPT]81.582.086.775.827.191.452.946.425.280.627.561.646.7[LSTM:CNN]84.183.787.476.227.993.454.346.326.380.529.362.747.7[23]第二十三话所有帧80.485.590.186.467.993.873.864.550.891.754.676.363.1[REG:OPT]51.649.359.641.944.746.934.435.824.545.220.741.334.8[REG:CNN]52.752.857.844.746.250.336.836.925.246.721.642.936.1[LSTM:OPT]59.257.863.254.949.157.642.440.131.356.730.549.340.8[LSTM:CNN]60.360.164.856.750.360.146.842.333.759.431.651.542.3[REG:OPT]60.865.870.166.351.670.857.149.738.370.941.558.447.9[REG:CNN]62.565.271.568.452.371.260.352.239.970.441.959.649.3[LSTM:OPT]76.381.183.881.463.187.568.960.947.385.151.371.558.7[LSTM:CNN]76.080.985.782.864.688.170.461.248.884.652.572.359.4[REG:OPT]75.780.483.882.164.389.569.560.248.286.351.371.959.0[REG:CNN]75.880.986.482.564.889.869.561.148.587.551.872.659.6[LSTM:OPT]75.280.585.682.463.989.070.260.147.985.851.172.058.8[LSTM:CNN]77.181.986.281.765.188.769.361.849.188.252.872.959.8表1:我们对CamVid的感知推理的不同变体的比较预算被定义为运行原始方法所需的最大预算的一部分,[2,23]对于每个帧,表示为Bmax表2:我们的框架的两个变体在CamVid的样本视频上的处理时间比较。表2显示了在不同预算约束条件下,使用π、g和f对样本视频执行策略、标签插值和语义标记的处理时间我们观察到,使用f=[2],该策略选择了几乎30%的图2:在CamVid上使用[1] =[23],[2] =[2]用户定义的预算。尽管有一个小的准确性下降,我们的方法保持了一致的准确性水平,这表明学习帧选择和插值的有效性,当1B最大
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功