没有合适的资源?快使用搜索试试~ 我知道了~
单帧视频解析方法及其在监控视频中的应用
1413…基于单帧监控的刘思1,王长虎2,钱瑞和1,韩宇1,鲍仁达1,孙耀11中国科学院信息工程研究所信息安全国家重点实验室,北京1000932头条AI实验室{liusi,qianruihe,yuhan,sunyao} @ iie.ac.cn,wangchanghu@toutiao.com摘要监控视频解析,将视频帧分割成若干标签,例如,脸,裤子,左腿,有广泛的应用[41,8]。然而,逐像素地注释所有帧是乏味且低效的。在本文中,我们提出了一种单帧视频解析(SVP)方法,该方法在训练阶段只需要每个视频一个标记帧。为了解析一个特定帧,联合考虑该帧之前的视频片段。SVP(i)粗略地解析视频片段内的帧,(ii)估计帧之间的光流,以及(iii)融合被光流扭曲的粗略解析结果以产生细化的解析结果。SVP的三个组成部分,即帧解析,光流估计和时间融合,在一个端到端的方式集成。在两个监控视频数据集上的实验结果表明了SVP算法的优越性。收集的视频解析数据集可以通过http://liusi-group.com/projects/SVP 下 载 , 以 供 进 一 步 研究。1. 介绍近年来,人类句法分析[16]由于其广泛的应用而受到越来越多的关注,例如人的重新识别[41]和人的属性预测[19,38]。大多数现有的人类解析方法[15,16,37]的目标是分割时尚博客中以人为中心的图像。与时尚图像不同,由于缺乏标记数据,解析监控视频更具挑战性。 由于监控视频的帧数通常高达数万帧/秒,因此对视频中的所有帧进行注释是非常繁琐和耗时的。在本文中,我们针对一个重要的,实际应用的,但很少研究的问题:如何利用非常有限的标签来获得强大的监控视频解析器?更具体地说,我们主要考虑一个极端*通讯作者图1.在训练过程中,每个视频只有一个帧(红色复选标记)被标记,而其他帧(蓝色x标记)则未标记。SVP网络是从极其稀疏的标记视频中学习的。在测试期间,解析窗口沿着视频滑动。的测试帧It(橙色框)的解析结果由其自身、长距离帧It−l(绿色框)和短距离帧It−s(蓝色框)确定。 为了更好地查看本文中的所有文件,请参阅原始放大的彩色PDF文件。情况,即,在每个训练视频中仅标注一个帧。请注意,在测试阶段不需要贴标签。如图1所示,每个训练视频的标记帧(红色边界框)被馈送到建议的单帧监督视频解析(SVP)网络中。不充分的标记数据总是会导致过度拟合,特别是在基于深度学习的方法中。视频帧之间丰富的时间上下文可以部分解决这个问题。 通过建立密集的对应关系,即,在视频帧中,单个标记帧可以被视为种子以间接扩展(传播)到整个视频。大多数最先进的光学光流估计方法,如EpicFlow [29]等,都存在速度相对较慢的问题。由于视频解析任务需要大量的在线光流计算,因此实时、准确的光流估计是必不可少的。因此,通过仅利用有限的(例如,仅一个)标记图像和大量未标记图像以及在线估计的它们之间的密集对应关系来构建端到端的有效视频解析框架是一个具有挑战性但基本的问题。为了应对这些挑战,我们提出了SVP网络。如图1所示,要解析测试帧It,培训阶段:…××××√××未标记帧长量程(t−l)短量程(t−s)标签测试架(t)测试远程阶段:(t−l)…短程(t−s)t滑动窗不……单帧监督视频处理器(SVP)1414不一个包含It和它{It-k,k=0,.,l},沿着视频滑动。考虑到计算负担和跨帧冗余,选择三元组{It-l,It-s,It}来表示滑动窗口。长距离帧It−l位于It之前l帧,而短距离帧It−s位于It之前s帧。通常,l > s。它们相互补充,因为短距离光学雷达更准确,而长距离光学雷达更准确。范围帧带来更多的麻烦。三元组被馈送到SVP以协作地产生解析结果。SVP包含三个子网络。图像解析子网络分别对三帧图像进行解析,而光学光流估计子网络建立跨帧像素对应关系。为了减少不完美的光学流的干扰,基于一幅图像与从另一幅图像包裹的其对应物之间的外观差异来计算逐像素置信图。时间融合子网络根据挖掘出的对应关系及其置信度,对每帧的解析结果进行融合,输出最终的解析结果。在新收集的室内和室外数据集上进行的大量实验表明,SVP的性能优于最先进的方法。本文的主要贡献如下。(i)据我们所知,首先尝试通过标记每个训练视频的单个帧来分割监控视频中的人体部位。具有广泛的应用前景。(ii)所提出的SVP框架是端到端的,因此非常适用于实际使用。此外,特征学习、逐像素分类、对应挖掘和时态融合在统一的优化过程中进行更新,并协同贡献于句法分析结果。2. 相关工作图像、视频和部分语义分割:Long等人[22]构建了一个FCN,它接受任意大小的输入并产生相应大小的输出。Chenet al. [4]在密集预测任务中引入了atrous卷积,以有效地扩大滤波器的视野,从而在不增加参数数量的情况下纳入Dai等人。 [7]通过掩蔽卷积特征来利用形状信息。Hyeonwoo等人。 [25]提出了用于语义分割的去卷积网络,以自然地识别详细结构并处理多个尺度的对象。对于人类解析,Yamaguchi等人。 [37]使用基于检索的方法解决服装解析问题。Luo等人。 [23]提出了一种深度分解网络,用于将行人图像解析为语义区域。Liang等人。 [16]提出了一种情境化卷积神经网络来解决这个问题,并取得了非常令人印象深刻的结果。Xia等人。 [35]提出了用于人类配对的“自动缩放网络”。其他一些作品探讨如何共同使用深度学习的潜力进行对象和部分分割[32]。虽然取得了很大的成功,这些方法不能直接应用于我们的设置,每个训练视频只有一个标记帧。弱/半监督语义分割:Chen等人。[26]开发了期望最大化(EM)方法来解决弱注释训练数据或少数强标记和许多弱标记图像的组合的语义图像分割。Dai等人。 [6]提出了一种称为“Boxsup”的方法,该方法只需要容易获得的边界框注释。 Xuet al. [36]提出了一种统一的方法,该方法结合了图像级标签,边界框和部分标签,以产生逐像素的标签。Liu等人。 [17]解决了自动解析时尚图像的问题,从用户生成的颜色类别标签中进行弱监督。Wei等人扩展了弱监督分类解决方案[34],并提出了一个简单到复杂的弱监督语义分割框架[33]。这些方法在弱/半监督语义分割中取得了有竞争力的准确性,但不是为视频解析任务而设计的。光流与 语义分割:Sevilla-Lara等人。[30]将场景分割为物体,平面和东西,然后使用局部层提出湍流估计问题。 Bai等人。 [2]使用实例级分割估计交通参与者。然后,对极线约束用于每个参与者以管理每个独立的运动。在这些方法中,光学光流估计受益于语义分割。然而,SVP利用光学光流来进行更好的视频解析。P Fister等人 [27]研究了一种视频姿态估计体系结构,该体系结构能够通过使用光学光流组合多个帧中的信息来从时间上下文中受益。主要区别在于,光以太网是使用密集光以太网来估计的,而SVP是端到端框架。3. 方法3.1. 框架假设我们有一个视频V={I1,···,IN},其中N是帧的数量。 单个标记帧是It,其对应的地面真值为Gt。标签图Pt的像素j被表示为Pj,并且取范围[1,K]内的值,其中K是标签的数量,例如“脸”、“包”和“背景”。SVP网络如图2所示。输入是一个三元组{It−l,It−s,It},其中只有It被标记。L和S是根据经验设定的。输出是解析结果Pt。SVP包含三个子网络。作为预处理步骤,我们使用Faster R-CNN [28]来提取人体区域。然后,三重态被送入Conv1和 Conv51415nPtl经纱Pˆ特鲁It lFt,tlCorr共享权重C点积It共享权重你好。不置信度估计时间tFusioConfP估计Cs,t共享权重校正Ft,ts点积It sPsPts,t经纱Conv1~Conv5 Fc6~Fc8GtPt分析损失图2.提出的单帧监督视频配对(SVP)网络。网络是端到端训练用于区分特征提取。帧解析子网络(第3.2节)产生三元组的粗略标签映射,记为{Pt−l,Pt−s,Pt}。光相干流估计子网络的目的是估计密集核,相邻帧之间的响应(第3.3节)。时间融合子网络(第3.4节)应用了ob-将光学常数Ft,t-l和Ft,t-s保持为Pt-l和Pt-s,生成Pt-l,t和Pt-s,t。 为了避免影响相同的分辨率。在我们的实验中,使用了DeepLab [4]。我们的SVP框架非常通用,不限于任何特定的图像解析方法,也可以使用其他语义分割方法[7,21,21,1,22]。3.3. 光流估计子网络我们采用光学光流Fa,b:R2→R2来建立帧之间的像素级对应The Escherow Field不完美的光学流,像素级的流置信度p甲乙丙=(qx−px,qy−py)计算相对偏移C,t-l,t和Ct-s,t是估计值d,.五重奏包括从图像Ia中的每个点p到对应的点qPt,Pt−l,t,Pt −s,t,Ct −l,t,Ct −s,t融合在一起,在图像Ib中。该光带宽估计子网络P,是一个可以用来定义softmax损失的函数。 额外估计了Ft,t−l=o(It,It−l),其中o(a,b)是预测从a到b的光通量的迭代操作。Ft,t−s还对Pt−l,t和Pt−s,t应用监督,以更好地性能图像解析和光学光流估计子网络共享第一个几个卷积层,因为这两个任务是隐式相关的。更具体地说,只有具有相同标签的像素才能被光学匹配。此外,这两个子网络进行每像素的预测。帧解析对每个像素进行分类,而opticalcow是每个像素的偏移/移位。因此,两个任务的最优接收域是相似的,这为特征共享提供了前提。另一个好处是节省了大量的计算。3.2.帧解析子网如图2所示,帧解析子网络有三个具有共享权重的副本,分别处理It−l、It−s和It输入为3通道RGB图像,输出为K通道置信度图估计类似。一种可行的方法是通过最先进的方法[3,3]离线计算光通量,并在优化期间将其加载到网络中。它使训练和测试成为一个多阶段的管道,因此在空间和时间上非常昂贵。然而,SVP在网络上计算光学流。网络架构:在共享的Conv1和Conv5层之后,“ 相关层”[10,24](表示为“Corr”)在图2中)执行两个特征图之间的乘法块比较。然后,引入几个“上卷积”层,以获得与输入图像对具有相同分辨率的光学相干流。由于我们的监测数据集没有地面实况光学流,我们使用了模拟椅子数据集进行训练。3.4. 时间融合子网络光流置信度估计:通过上述方法估计的光学相干流是不完美的。到F1416t−l,t不我我我我不不¨¨不抑制噪声Pt−l,我们估计每个像素的估计光学流Ft,t−l的置信度。可以用类似的方式处理低Ft,t-s。基于外观重建标准定义了最低置信度[3]。从数学上讲,对于每个像素模型[31]。时间融合子网络通过标准高斯分布(具有零均值和单位方差)初始化。在这一点上,两个网络不共享卷积层。 (iii)我们固定Conv1和 Conv5层帧的光带宽估计子网络的带宽估计i在光学流Ft,t-l中,其置信度Ci是:解析子网络,只微调唯一的层¨Cié i¨ˆi¨¨i i到光学反射波。现在两个子网络共享卷积-功能层。 (iv)保持Conv1和 Conv5层固定,我们t−l,t=<$It−It<$1=It−w(It−l,Ft,t−l)1、(1)微调帧解析和时间的独特层用L1范数表示L1范数. Ii是I i的包装对应物。w(a,b)是应用估计的光学卷积的运算。wb到扭曲图像a。像素的坐标.i在Iti中,i=xi,yi,而映射的c o。在It−l中的ordinates是融合子网络因此,所有子网络形成统一网络。在一开始训练光小波子网络的主要原因是,时间融合子网络,′′x为oh.Σ=xi,yiit,t−l . 当′′x为oh落入网络的性能取决于光网络的结果。然后,我们重新-放置转换器。光以太网子网的层,在sub-pixel坐标中,我们通过双线性插值来写等式1的I=1解析子网络的情况有三个原因。 第一、这两项任务基本上是相互关联的:解析结果是逐像素的标签,而光学光流是逐像素的偏移。Ii=wi(It−l,Ft,t−l)....因此,优化的Conv. 通过解析训练的图层=Iq(1−. xi′−xq。)(1−.yi′−yq. )的情况下,网络预计将同样表现良好的opti-q∈{neighborsof(xi′ ,yi′)}t−l。...(二)卡尔·科沃网络公司第二,用辅助的训练椅数据集代替其中q表示4-pi xel。邻近的边界(左上,右上,左下,右下)的xi,yi。等式1中定义的置信度是原始图像与其变形图像之间的距离。通过以下方式计算相似性监控录像因此,Conv。在我们的监视数据集上,光学光流子网络的层的区别较小。第三,卷积层需要共享。实际上,我们已经尝试在一个阶段中训练整个网络,但发现很难收敛。我们Ci=exp(−Ci2(三)把它作为未来的一项重要工作。t−l,tt−l,t/2σ),其中σ是Ct−l,t的平均值。数值越高,表示光学流量估计越有把握。时间融合:如图2所示,估计的解析结果Pt-l和Pt-s根据光学流Ft,t-l和Ft,t-s通过以下方式进行打包3.6. 推理在推理过程中,我们沿着视频滑动一个解析窗口,专门考虑时间上下文。I t的解析结果由其之前的短视频片段共同确定。为了计算简单,Pt −l,t=w(Pt −l,Ft,t −l),Pt −s,t=w(Pt −s,Ft,t−s).(四)帧,包括长距离帧It−l、短距离帧It−s以及It协作地对最终解析结果Pt做出贡献。注意,因为视频的前l帧它们进一步由等式1的置信度图加权,以减少不准确的光学流量的影响。通过:Pt−l,t·Ct−l,t和Pt−s,t·Ct−s,t,其中·表示点产品 它们通过具有若干个1 × 1滤波器的时间融合层与Pt融合,以产生最终的Pt。 为了执行精确的模型训练,我们为Pt−l,t,Pt−s,t和Pt添加了额外/深度[14] 监督。3.5. 培训战略与Faster R-CNN [28]一样,我们采用4步交替训练算法进行优化。(i)我们通过第3.3节中的策略使用随机椅子数据集[10]来训练opticalcrowssub-network。(ii)我们使用在步骤(i)中估计的光带宽来一起训练帧解析子网络和时间融合子网络。光分组和帧解析子网络都用VGG初始化+F1417没有足够的前帧来形成滑动解析窗口,我们单独将帧解析子网络应用于It并产生其解析结果。4. 实验4.1. 实验环境数据集&评价:由于没有公开的监控视频解析数据集,我们人工构建了两个数据集,一个用于室内,另一个用于室外。室内数据集包含700个视频,其中400个视频和300个视频分别用作训练集和测试集。室外数据集包含198个训练视频和109个测试视频。对于这两个数据集,我们从每个训练视频中随机选择并按像素标记1帧。对于每个测试视频,我们随机标记51418表1.F-1分数与室内数据集中模型的最新技术和几种架构变体的逐类比较(%)。方法BK脸头发U-衣服l臂R-臂裤子L-腿R型腿裙子L形鞋R-鞋袋[37]第三十七话92.6257.1658.2262.5219.9614.9952.4725.4320.79.9220.6624.4114.32ATR [15]93.6259.0860.7981.3632.5428.6575.4029.1929.6070.2211.6817.7548.97[18]第十八话93.4053.9459.1275.5324.4620.5178.4636.1521.9243.6114.5318.7953.43[16]第十六话94.0664.6473.5381.5426.8231.6677.1325.4734.1176.0815.4220.5746.91[22]第二十二话94.8071.3574.9079.5333.5532.2981.8936.5733.9843.5333.0331.5043.66DeepLab [4]93.6463.0169.6181.5440.9740.3181.1234.2533.2464.6028.3926.4056.50EM-Adapt [26]93.4666.5470.5477.7242.9542.2082.1939.4237.1963.2233.1831.6853.00SVP 194.6867.2872.7482.1242.9643.3581.9139.2638.3167.1731.4730.3858.99SVP s94.6566.2773.4883.1245.1744.8982.7238.6238.4366.0430.9331.4658.81高级副总裁l+c94.4467.2973.7683.0643.5643.5682.3341.3639.4668.3631.7531.7359.04SVP s+c94.6467.6274.1383.4845.1345.0883.2139.8940.1168.1731.1532.2758.75SVP l+s94.5067.0873.5283.1045.5144.2682.5941.8242.3169.4333.7133.3658.58SVP l+s+c94.8970.2876.7584.1844.7943.2983.5942.6940.3070.7634.7735.8160.43表2.F-1分数与Outdoor数据集中模型的最新技术和几种架构变体的逐类比较(%)。方法BK脸头发U-衣服l臂R-臂裤子L-腿R型腿L-鞋R-shoe袋[22]第二十二话92.0062.6465.5878.6428.7328.9779.6938.889.0832.0430.5629.45DeepLab [4]92.1958.6566.7284.3142.2335.3681.1230.646.1337.8933.2552.25EM-Adapt [26]92.6860.8467.1784.7841.2833.6181.8042.397.2839.5432.2054.31SVP 191.1362.4067.7384.6445.1831.4080.6630.285.8640.3233.1154.96SVP s92.5164.2567.1484.9945.2832.1479.7132.3118.4937.2431.4551.58高级副总裁l+c92.6063.7668.7784.8445.8333.7581.6731.3719.0638.5433.5153.57SVP s+c92.9464.4069.9385.4344.4431.8681.6535.8818.2237.4833.3654.23SVP l+s91.9063.3269.4884.8442.0928.6480.4531.1013.2838.5235.5246.89SVP l+s+c92.2764.4970.0885.3839.9435.8280.8330.3913.1437.9534.5450.38全面测试的框架。室内数据集包含13个类别,即面部、头发、上衣、左臂、右臂、裤子、左腿、右腿、左脚鞋、右脚鞋、包、衣服和背景。户外数据集中的视频是在冬天收集的,因此标签“dress”是缺失的。为了获得以人为中心的视频,首先通过Faster R-CNN [28]在VOC数据集[9]上进行微调来检测人类。为了加快速度,我们通过KCF跟踪人类[11]。 也可以使用其他跟踪算法[39,40,20]。所获得的以人类为中心的图像被馈送到SVP中。我们使用与PaperDoll相同的指标[37]来评估性能。在所有评价指标中,平均F- 1是最重要的指标。我们通过咖啡馆训练SVP[13]使用泰坦X帧解析和光流估计子网络的初始学习速率分别为1 e-8和1 e-5。长距离l和短距离s在室内数据集中根据经验设置为3和1。由于室外数据集的帧速率较低,并且包含更多快速动态,因此l和s设置为2和1。4.2. 与最新技术水平的我们将我们的结果与五种最先进的方法进行比较。第一个是纸娃娃[37]。 这是最好的传统方法。[15]第二个是ATR [15],它制定了胡。man解析任务作为活动模板回归问题。 第三种基线方法是M-CNN [18],这是一种准参数人类解析方法。第四个是Co-CNN [16],它使用上下文卷积神经网络来解决这个问题。第五个是FCN-8 s [22],它在几个语义分割基准数据集中取得了有竞争力的结果。第六个基线是DeepLab [4]。上述三种方法均为改进算法。因此,我们只使用标记集进行训练。第7种基线方法是EM-Adapt1[26],它可以使用图像级和边界框注释作为弱监督和半监督监督。我们还尝试了另一个基线DecoupledNet2。[12]第10段。然而,DecoupledNet在两个数据集中的结果都远低于SVP和其他基线。原因是DecoupledNet首先获得每个分类标签的显着图。然后对映射进行解卷积以生成最终解析结果。然而,许多标签,例如,人脸,几乎出现在每个训练图像中,这导致分类网络对这些标签的位置不太敏感。表3显示了SVP和7状态之间的比较-1http://liangchiehchen.com/projects/DeepLab-LargeFOV-Semi-EM-www.example.com2http://cvlab.postech.ac.kr/research/decouplednet/1419室内数据集中最先进的方法。SVP的不同变体是通过逐渐添加更多组件来生成的,这将在下一小节中讨论。可以看出,我们的最佳SVP,即“SVP l+s+c”达到平均F-1得分0。6020,优于所有基线。第1至第6基线均使用标记图像。因此,这些改进显示了利用未标记数据集的优势。EM-Adapt还使用未标记的图像,因此达到更高的F1分数0。5640,这比六个监督基线更好。然而,EM-Adapt仍然比SVP的所有变体更差。 实验结果表明,基于光流的标签传播技术在监控视频解析中具有很好的应用前景.每个类别的F1评分见表1。我们可以观察到,表3.与室内数据集中模型的最新技术和几种架构变体进行比较。(%)。表4.与Outdoor数据集中模型的最新技术和几种架构变体进行比较。(%)。方法[22]第二十二话Accu82.4685.07fg accu平均值前平均值rec平均值F-1[26]第二十六话SVP l 84.27SVP 85.83SVP l+c 85.87SVP s+c 86.30SVP l+s 85.30SVP l+s+c 85.7170.70 43.22 50.09 44.3378.44 49.87 51.1076.87 50.82 52.98 49.0781.51 47.46 55.31 48.2873.48 53.46 50.6377.37 52.66 52.68 49.7977.13 52.89 52.7077.03 56.15 49.92 51.1779.26 56.95 52.14方法Accufg accu平均值前平均值rec平均值F-1[37]第37话[15]第15话美国有线电视新闻网[18]美国有线电视新闻网(CNN)[16][22] 2016年12月28SVP l 88.81SVP 88.91SVP l+c 88.75高级副总裁s+c89.07SVP l+s 88.85SVP l+s+c 89.8878.69 33.55 45.68 36.4171.24 47.39 53.2171.31 42.90 50.11 45.6872.58 53.54 51.8771.56 55.05 52.1577.45 49.88 64.3080.88 53.01 63.64 56.4074.42 56.28 59.8177.12 55.90 61.2177.28 56.07 61.9477.06 56.86 61.98 58.7378.68 56.77 62.73 59.2176.48 61.52 59.38 60.20在所有基线中,我们发现FCN-8、DeepLab和EM-Adapt表现出更好的性能,因此,我们只与户外数据集中的3个基线进行比较。表4示出了结果。可以看出,我们的方法达到了0的平均F-1分数。5294,而FCS-8、DeepLab和EM-Adapt仅达到0。4433,0。4775和0。4907改善是0。0861,0。0519和0。0387回复。比较表4和表3,我们发现所有算法的性能普遍下降。原因是室外数据集包含198个训练视频,而室内数据集的数量是室内数据集的两倍,达到四百每个类别的F1评分见表2。我们可以观察到4.3. 成分分析时间融合权重:我们在图3中的室内数据集中可视化了R臂和L鞋的时间融合层的学习权重。水平轴具有图3.R型臂和L型鞋的临时合并重量3×K个刻度,依次对应It−l(以黑色显示)、It−s(以绿色显示)和It(以蓝色显示)的K个标签。垂直轴示出了融合权重。通过分析R臂的子图,我们有几个观察结果。首先,It−l、It−s和It的权重形状相似。第二,所有三元组的最大值(用红点表示)都是正值,这表明所有帧都对最终结果有贡献。第三,对于所有帧,达到最大值的标签都是R臂。第四,I t − s的最大值高于It−l,因为它包含较少的光学误差。It的最大值是最高的,因为它是所考虑的帧类似的现象也可以在L型鞋的情况下发现。长/短范围上下文:我们测试了长、短距离帧的有效性。“SVP l” means SVP with1420不Itl˜特梅尔ˆ特鲁尔,特Cl,tIts˜tsˆts,tCs,tItPtGt图4.逐步说明SVP。1 × 4列:远程帧、其解析结果、变形解析结果和置信度图。5 × 8列:短距离帧、其解析结果、变形解析结果和置信度图。9 - 12列:测试图像、粗略解析结果、精细解析结果和地面实况解析结果。范围上下文。为了实现这种SVP变体,在训练和测试阶段,将图像对(即It和It−l类似地,“SVP s”是仅包含短程帧的SVP。“SVPl +s”是它们的组合,意味着长距离帧和短距离帧都被考虑。表3显示了室内数据集的结果。“SVP 1”和“SVP s”的平均值F-1达到0。5774和0。5804,其分别低于“SVP1 +s”0。5843证明了长、短程语境是互补的。从表4中的室外数据集可以得出类似的结论。“SVP 1”和“SVP s”达到0。4828和0。4901,而它们的组合达到0. 4979室内和室外数据集中的“SVP 1”、“SVPs”和“SVP 1 +s”的每类F1得分可以分别在表1和表2中找到。他们再次表明,长期和短期的背景是必要的。光流置信度:设计了滤波/抑制噪声光脉冲的光脉冲置信度。为此,我们实现了两个SVP变体,称为“SVPl+c”和“SVP s+c”,表明长距离或短距离的光学流首先通过其置信度进行加权,然后对最终的解析结果做出贡献。室内数据集的结果如表3所示。我们发现,这证明了光学光流置信度的有效性。通过比较“SVP 1 +s+c”和“SVP 1 +s”的F-1得分,可以得出相同的结论。我们还在室外数据集上验证了光学光流置信度的有效性。如表4所示,“SVPl +s+c”的F-1评分为0。5294,其高于“SVP1+s”0。5117号4.4. 定性结果图4示出了室内环境中SVP的逐步结果。数据集。 在第一排,女士们的左脚鞋被预测为L。从I t − s开始的箭头d标记l,记为Pt−s,t找不到左鞋。由于Pt−l,t的融合,在最终预测P t中,妇女在第一行中,与It−s,妇女是远离相机在It,因此是相对小. 计算结果表明,在此条件下,所估计的光场是变化的,准确不准确的光学流可能导致不良的传播解析结果,例如,,第一行中的hairinPt−l,t的形状太大。然而,不准确的头发重新-gion在C t − l,t中的置信度很低。因此,融合结果Pt具有精确的毛发形状。 第二排,包的带子在Pt几乎被忽略了。然而,Pt−l和Put-s找到表带,并帮助区分表带,成功地在Pt.在第三行中,Pt正确地消除了Pt中错误预测的手臂。我的t-l不是很好,后面有一个鬼这个人在标签图Pt-l,t中。但幸运的是,影响融合预测Pt,因为这个鬼的置信度在Ct−l,t中非常低,因此它在融合过程中被过滤掉。两个数据集的几个定性结果如图5所示。前三行显示室内数据集的配对结果,而最后两行则显示户外数据集在每组中,测试图像、地面实况、EM-Adapt和SVP的解析结果如下:PPPPP1421img> EM−Adapt SVP img> EM−Adapt SVP img> EM−Adapt SVPU−衣服R−鞋R−腿R−臂裤子L−鞋L−腿头发L形臂面部裙子袋BK图5.测试图像、地面实况标签、EM-Adapt和SVP的结果依次显示示出了可以看出,SVP从两个方面总体上优于EM-Adapt。首先,SVP正确地估计标签的存在。例如,对于第二行第二列中的图像,由EM-适配器错误地预测为上衣的区域被SVP正确地预测为衣服。另一个例子是第二行第一列。EM-适应错过了左脚鞋。SVP正确预测左脚鞋的存在和位置。其次,SVP可以更好地估计标签的形状。例如,在顶行的第一张图像中,行李带的形状是细长的,这是由SVP正确估计的。此外,SVP估计的鞋的形状比EM-Adapt更准确。对于另一个示例,SVP更好地识别第三行的第三图像中的裤子和左/右臂的形状。4.5. 时间复杂度请注意,在推理阶段,可以节省大量计算例如,当解析帧It时,长距离帧It-l和短距离帧It-s不需要经过帧解析子网络,因为已经计算出它们的粗略解析结果Pt-l和Pt-s又如,由于Conv1和 Conv5特征是共享的,所以光带宽估计子网络带来的额外计算量此外,Fusion层包含几个1×1卷积,因此不太耗时。5. 结论今后的工作在这项工作中,我们提出了一个端到端的单帧监督视频解析网络。为了解析测试帧,SVP处理它之前的视频片段。将粗帧解析结果与在线计算的帧间光学流融合,得到细化的解析结果。我们证明了两个新收集的监控视频解析数据集上的SVP的有效性。未来,我们将建立一个在线演示,实时解析用户上传的任何监控视频。此外,我们计划将SVP应用于解析其他类型的视频,例如城市场景视频[5]。确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目(No.U1536203,Grant 61572493,11301523),模式识别国家重点实验室开放项目(NLPR)201600035的资助。我们还要感谢NVIDIA的GPU捐赠。1422引用[1] V.巴德里纳拉亚南,A. Handa和R.西波拉Segnet:一种深度卷积编码器-解码器架构,用于强大的语义像素标记。arXiv:1505.07293,2015年。[2] M. Bai,W. Luo,K. Kundu和R.乌塔松光学流的语义信息开发与深度匹配。在ECCV,2016年。[3] T.布洛克斯和J·马利克大位移光学流量:变分运动估计中的描述符匹配。TPAMI,2011年。[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv:1412.7062,2014年。[5] M. 科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城 市 场 景 理 解 的 cityscapes 数 据 集 。 arXiv :1604.01685,2016年。[6] J. Dai,K. He和J. Sun. Boxsup:利用边界框来监督卷积网络进行语义分割。在ICCV,2015年。[7] J. Dai,K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽CVPR,2015。[8] Y. Deng,P.罗角,澳-地C. Loy和X.唐远距离行人在ACM MM,2014中。[9] M. Everingham,S. M. A.埃斯拉米湖凡古尔角,澳-地K. I.威廉斯,J.Winn和A.齐瑟曼。 pascal visual objectclasses挑战:回顾展。IJCV,2015年。[10] P.Fische r, A. 两 个人都是 E. Ilg , P.Hausse r, C.Hazzirbassoul,Golkov,P. van der Smagt,D. Cremers和T.布洛克斯Flownet:使用卷积网络学习光流arXiv:1504.06852,2015年。[11] J. F. 恩里克斯角Rui,P.Martins和J.巴蒂斯塔使用内核化相关滤波器的高速跟踪TPAMI,2014年。[12] S. Hong,H. Noh和B.韩用于半监督语义分割的解耦深度神经网络。2015年,在NIPS中。[13] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S.Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。arXiv:1408.5093,2014。[14] C.- Y. 李,S。Xie,山核桃P.Gallagher,Z.zhang和Z.涂。深层监控网。在AISTATS,第2卷,第6页,2015中。[15] X. Liang,S. Liu,X.沈军,杨立.柳湖,加-地琳一S. 燕. 使用主动模板回归进行深度人工解析TPAMI,2015。[16] X. Liang,C.Xu,X.Shen,J.Yang,S.刘,J.唐湖,澳-地琳一S.燕.使用上下文化卷积神经网络的人类解析。ICCV,2015年。[17] S. Liu,J. Feng,C. Domokos和H.徐弱颜色类别标签的时尚解析。TMM,2014年。[18] S. Liu,X.梁湖,加-地Liu,X.Shen,J.杨角,澳-地许湖,加-地林X. Cao和S.燕.匹配-cnn遇到knn:准参数人工分析。arXiv:1504.01220,2015年。[19] S. Liu,Z.宋,G.Liu,S.延角,澳-地Xu和H.陆街道到商店:通过部件对齐和辅助集实现跨场景服装检索。CVPR,2012。1423[20] S. Liu,T. Zhang,X. Cao和C.徐用于鲁棒视觉跟踪的结构相关滤波器。在CVPR,2016年。[21] Z. Liu,X.李,P.洛角,澳-地C. Loy和X.唐基于深度解析网络的语义图像分割在ICCV,2015年。[22] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015年。[23] P. Luo,X. Wang和X.唐基于深度分解网络的行人分析。InICCV,2013.[24] W. Luo,中国茶条A.G. Schwing和R.乌塔松有效的深度学习立体匹配。在CVPR,2016年。[25] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积在ICCV,2015年。[26] G. 帕潘德里欧湖C. Chen,K.P. Murphy和A.L. 尤尔。用于语义图像分割的深度卷积网络的弱监督和半监督学习。在ICCV,2015年。[27] T. P Fister,J.Charles和A.齐瑟曼。用于视频中人体姿态估计的流动卷积网arXiv:1506.02897,2015年。[28] S. Ren , K. 赫 利 河 Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks.在NIPS,第91-99页[29] J. Revaud,P. Weinzaepfel,Z. Harchaoui和C.施密特Epic Bronchow:光学Bronchow的边缘保持对应插值CVPR,2015。[30] L. Sevilla-Lara,D. Sun,V. Jampani,and M. J.布莱克。具有语义分割和局部化层的操作流程。arXiv:1603.03911,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功