基于局部子空间部分重叠的背景建模方法

5 浏览量更新于2023-10-20 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1JA-POLS：一种基于局部子空间部分重叠的伊里特·切利本-古里安大学tohamy@post.bgu.ac.il弗拉德·温特本-古里安大学winterv@post.bgu.ac.il德利瓦克山本-古里安大学dorlit@post.bgu.ac.il麻省理工学院dmrosen@mit.edu奥伦·弗雷费尔德本-古里安大学orenfr@cs.bgu.ac.il摘要观察BG估计估计FG背景模型在计算机视觉中有着广泛的应用。虽然存在成功的静态相机背景（ SCB ）模型，但是移动相机背景（MCB）模型是有限的。看起来，有一个简单的解决方案：1）对齐视频帧; 2）学习SCB模型;3) 扭曲原始帧或先前未看到的帧以使模型向前。然而，这种方法具有缺点，特别是当累积相机运动较大和/或视频较长时。在这里，我们提出了一个纯二维无监督模块化方法，系统地消除了这些问题。首先，为了估计原始视频中的扭曲，我们解决了一个联合对齐问题，同时利用一个可证明正确的初始化。接下来，我们学习多个部分重叠的局部子空间以及如何预测对齐。最后，在测试时，我们根据预测扭曲一个以前看不见的帧，并将其投影到这些子空间的子集上，以获得背景/前景分离。我们表明，该方法甚至可以处理具有相对自由的相机运动的大型场景（假设相机到场景的距离没有太大变化），并且它不仅在原始视频上产生最先进的结果，而且还优雅地推广到以前未见过的相同场景的视频。我们的代码可以在https：//github上找到。com/ BGU-CS-VIL/ JA-POLS。1. 介绍背景建模是一种重要的视频分析工具，具有跟踪和变化检测等应用。在静态摄像机的情况下，问题是这项工作得到了BGU Lynn和William Frankel计算机科学中心的部分支持。图1：JA-POLS的示例结果。前景通过RGB平方残差的总和可视化成功地解决了[42，11，5，1，19，6]。我们的重点是更具挑战性的情况下，相机是移动的。在那里，成功是比较温和的，因为现有的方法仅限于高度限制的运动（例如：翻译;小动作;抖动）和/或视频上的小的累积运动;此外，它们不直接推广到先前未看到的未对准视频。这就引出了一个自然的问题：为什么不采用以下简单的三步解决方案呢？1）对准所有视频帧（通过，例如，[4，27，22，8，9，21]）; 2）从对齐的帧学习全局场景的静态相机背景（SCB）模型; 3）朝向SCB模型扭曲先前未看到的帧并将后者应用于前者，其中扭曲使用，例如，经典工具（见[44]和其中的参考文献）或方法，如PoseNet [25]。不幸的是，这种逻辑方法的前两个步骤由聪明的PRPCA [30]举例说明，它遭受严重的缺点（与可扩展性和优化挑战等有关），这阻碍了它的适用性，特别是对于大场景（即，大的累积相机运动）和/或长视频。一个更受欢迎1258512586替代方案侧重于增量模型更新，以执行视频流中下一帧的背景/前景（BG/FG）分离。然而，该方法的缺乏存储器属性阻止了对所有先前获取的数据的有效使用（特别是当相机返回到先前覆盖的区域时，可能在新的取向/位置处）。我们还注意到，现有的方法，无论是全局的（例如，PRPCA）或增量的、原始视频中的目标BG/FG分离，并且对于先前未看到的未对准帧缺乏容易获得的机制来这样做（除非它是原始视频末尾处的下一帧我们的方法不同。特别地，我们提出了一种新的方法，自造的 JA-POLS （ Joint Alignment andPartially-overlapping Local Sub-spaces的缩写），用于移动相机背景（MCB）模型的无监督学习;参见图1。JA-POLS是一种纯2D模块化方法，允许大的相机运动（累积运动或连续帧之间的运动），并提供了一种将先前未看到的帧向模型扭曲的机制。模型本身优雅地缩放，因为它由多个较小的部分重叠局部子空间（POLS）组成，而不是试图使用单个低维全局（正如我们所展示的，JA-POLS不仅在原始数据上产生了最先进的（SOTA）结果，而且还推广到了以前看不见的未对齐视频。我们的主要贡献如下：第一章一种新颖的MCB方法，其允许实质上且相对自由的相机运动; 2）原始帧的对齐是联合进行的（而不是成对的），并且利用具有理论保证的有效初始化; 3）所有与全景相关的计算都是直接从图像测量在2D中进行的，从而避免了对显式3D场景重建、构建全局全景图像和相机校准的需要。4) POLS模型克服了防止处理大场景和/或长视频的单个全局模型;5）与仅关注原始视频和/或下一帧中的BG/FG分离的竞争方法不同，JA-POLS还提供了一种用于对齐从新视频（覆盖相同场景，但在可能不同的时间拍摄，并且来自可能不同的相机姿势）拍摄的帧的2. 相关工作MCB建模的全局方法从构建整个场景的表示作为预处理，这通常涉及对齐原始视频的帧，从而将MCB问题减少为具有丢失数据的典型大型SCB问题[30]。图像对齐。在[10，30]，单应性是-估计连续帧之间的距离，而[24]使用多层单应性。作品，如[48，29]生成自适应全景图像，而[45]假设一个PTZ摄像机。还涉及视频稳定;例如，[14]使用连续帧之间的成对变换找到最佳稳定相机路径，而[ 28 ]基于扭曲帧最小化全局成本。以上的大多数工作假设校准的摄像机和/或高度受限的摄像机运动（例如，小运动或PTZ）。此外，变换估计通常是成对和顺序进行的，这容易产生累积误差以及当场景较宽时的透视AutoStitch [4]在计算成对几何匹配时使用束调整[4]的可用实现不能很好地扩展输入帧的数量，并且通常最多只能处理几百帧。其它对准方法使用三维数据，（非视觉）同步定位和映射（SLAM）[31，26]，其估计环境模型以及动态相机姿态。Posenet [25]是一个神经网络，它从图像中估计相机姿态，并在训练中使用这样的方法依赖于深度数据（在一些SLAM方法中）和/或昂贵的3D重建过程，诸如运动恢复结构[47]（例如，[25]）。我们的方法包括一个回归网络，从概念上讲，它类似于PoseNet;不同之处在于，我们的方法纯粹是基于2D的，它预测的是可逆的仿射变换。背景模型。对于已经对准的图像，SCB模型已经被广泛研究。早期的方法侧重于像素模型[42，18，52]。Thurnhofer-Hemsi等人 [45]使用竞争性学习网络，学习全景场景中的感受野。另一种主要的方法，更接近我们的方法，是学习一个低维子空间.可以使用主成分分析（PCA），但仅当可以假设数据既不包含前景对象也不包含离群值时。否则，优选鲁棒PCA（RPCA）方法计算机视觉中的第一个RPCA在[11]中提出后来，Candes等人。[5]和类似的作品[51，16]使用了低秩部分表示背景，而稀疏部分建模离群值。不幸的是，所有这些模型[11，5，51，16]都不能缩放。在[17]中基于Trimmed Grassmann Av- erages（TGA）提出了一种可扩展的RPCA;另见[6]。诸如[1，19，15]的作品在子空间跟踪中使用L+S分解;尽管有“跟踪”这个词相关MCB方法t-GRASTA [20]依赖于[34]，并且在运动估计和子空间学习之间交替。[50]这是一种类似的12587i=1i=1Ni我我（一）ILwi我我我ii通过网络进行关节对准SE-Sync相对SE变换学习POLS关节对线学习转换预测（基于GoogLeNet）将测试框架向POLS方向在POLS预测全球转型优化转换1期2期3期图2：JA-POLS的流程图：（1）联合调整阶段;（2）学习阶段;（3）试验阶段。MCB方法专注于运动目标检测。这些MCB方法线性地近似运动，因此不能处理大的相机运动。incPCP-PTI方法[7]连续估计每个新帧与前一帧的低秩分量之间的刚体变换，然后将其应用于整个低秩矩阵。此方法以PTZ摄像机为目标。有几项工作集中在移动摄像机中移动对象检测上;例如，[49]将光流分割为BG/FG，而[38]对基于特征的轨迹进行分类。这些工作解决了一个相关但与我们略有不同的问题，不能检测静态变化，也不能处理长序列;参见[2]。最后，本节中提到的所有作品都缺乏一种直接的方法来处理之前未看到的未对齐帧（除非该帧是下一个连续帧）。3. 方法：JA-POLS该方法将原始视频视为（未标记的）训练数据，其概要如下。阶段1（§3.1）：给定一个训练视频，我们使用以下方法解决一个无监督的联合对齐问题：一个具有理论保证的新型智能初始化这是一种纯2D的方法。由于我们的方法使用李群/代数，我们的Sup。Mat. 包含下面使用的所有相关背景。记法。设SE（2）和Aff（2）分别表示2D中的特殊欧氏群和仿射群。这两个群都可以看作是作用于R2（在齐次坐标中）和SE（2）<$Aff（2）的3 × 3矩阵的非线性空间。设Aff（2）表示Aff（2）的李代数;Aff（2）是由3 × 3矩阵构成的6D线性空间设vec：aff（2）→R6表示线性双射. 矩阵指数和对数，exp：Aff（2）→ Aff（2）和log：Aff（2）→Aff（2），将代数连接到群。如果θ∈R6，则T θ=exp（vec−1（θ））∈Aff（2）是由θ参数化的仿射变换，并且d（T θ，SE（2））（参见Sup. Mat. ）测量Tθ离SE（2）有多远。让我们先来看看这张全景或一张大小的图像的D部分，并让D是它的像素数3.1. 无监督联合对准给定训练帧，（xi）N ，我们寻求（T θi）Nθ iAff（2），最小化所有（鲁棒化）方差θRGB值适用于这些图像，（x∈i）i=1，其中θθiθix=xT -是的 Letd 0。这种损失类似于其他人使用的损失用于关节对齐。然而，在我们的设置中，这种损失对于最小化来说是特殊的：Σθ12588ǁi=1ǁ我我（一）i=1i=1i=1我wiFℓ2i=1选择最佳的安装位置 and Ω˜θj 在这两张照片中，Given（g）SE（2），findI jθiθjij i，jΣx~i和x∈j，m可以从一个随机变量（implyingthatT θi和T θj之间的差异较大，（gi）N=arg mint∈R2，R∈SO（2）（i，j）∈EκijRj-RiRij2它们中的至少一个远离恒等映射），最小化该损失可能产生坏的局部最小值，或者更糟，坏的平凡全局最小值（例如，收缩所有我我+τij2J.J. — 我不是— Ritij2Σ Rt（三）Σ∈图像到一个点或创建之间没有重叠当ReR·RF是Frobeniusnrm时，grij=IJIJ0images.）; 我们将在我们的消融中回到这个问题，问题研究一个潜在的补救措施是规范transfor-SE（2），κij> 0，τij> 0，giΣΣRi 我不是01×211×21∈SE（2）.mations的大小和/或连续变换之间的差异;然而，在大场景中，难以确定这种正则化的量。所有这些促使我们提出一种新的损失函数，在剩余变换上：为了解决这个问题，我们采用了SE-Sync [37]，这是一种有效且可证明正确的算法，用于SE（2）（更一般地说，SE（n））上的同步。SE-Sync可恢复可确认的全局最优解决方案，前提是噪声c或r不太大;m或eover，.ΣNminΣDθwρ（x< $−µ，σ）+λd（Tθi，SE（2））当精确的最优性不能保持时，SE-Sync仍然产生合理的近似解，δNi=1一日一日i=1 l=1i=1该解决方案的（全局）次优上界是的因此，SE-Sync为我们提供了一个很好的估计Niθi∈Aff（2）联系我们∈SE（2）联系我们（gi）N将（xi）N，其中对齐-µ=i=1wlxN∈Aff（2）则只限于SE（2）。如上所述i=1其中（gi）N拉克什eaff（2）已知，（δi）N（二）R6参数-随后，我们在更大的群，Aff（2）N，使用的是，SE-Sync的实例被建模为稀疏且非线性的不规则图（V，E）;节点V对应于（坐标系）输入帧，xi，而i=1i=1λ> 0控制一个新的正则化项，惩罚仿射T θi从SE（2）的偏差。这里，θ i由θ i= vec（log（T θi））∈R6（其中log（T θi）∈ aff（2））表示。边缘，E，对应于一组噪声估计，一种新的形式;i. 例如， Eijc或respondstogij，从坐标系j到坐标系i的估计变换。我们通过连接每一个（gi）N由方程式（2）可以看作是一种初始化。节点只与下五个1;基本原理是于是就产生了一个问题：我们如何为这个初始化找到好的值？毕竟，上述困难举行，即使在方程。（1），变换被限制到SE（2）。幸运的是，有一种方法不仅可以提供这样好的价值观，而且还可以在一个在这样短的时间内帧之间的相对变换通常是最小的。gij∈SE（2）的计算是通过已建立的视觉工具完成的;参见我们的Sup。Mat. 对于每个（xi，xi）图像对，该估计的结果是mationpoceduringreisnotonlylythehistory（estimated） rel ive高效和可扩展的方式。在获得（gi）N时，，作为transformation，gn=Rij特吉杰，但也（估计）i=101×21下面讨论，我们最小化方程中的损失（2）通过[23]其输入图像是（xigi）N。精密度，τij和κij，其中t∈ij∈SO（2）和R∈ij ∈SO（2），i=1一个可证明正确的初始化。设x i和xj不属于输入图像。Letgij∈SE（2）e是相对SE变换翘曲的噪声估计xjtowardxi（obtainigggij is disdiscussedlater）. 我们使用这样的成对变换来在全局坐标系中联合地对准图像（xi）N。具体来说，我们分别用于Eq. （三）、3.2. 学习POLS学习根据原始的框架和它们的估计的全局仿射变换，（xi，Tθi）N，一个非常直接的方法是i=1θNi=1希望估计（gi）N（2）一致尽可能利用噪声相对变换;即，如果所有的（i，j）∈E，则E是（1，. - 是的- 是的，N）×（1，. - 是的- 是的，N）。这导致下面的已知非凸估计问题L我我=12589我在3N维非线性空间SE（2）N上[37]。定义1（SE同步问题）为了使用该图像，（x∈ii）i=1，可以将一个子空间填充到空间中。基于SCB模型（例如，一些k维子空间，例如PCA或其鲁棒变体之一[11，5，17，6]），其域是场景。子空间会被-由正交D×k矩阵V场景表示。我们然而，请注意，对于非常大的场景这样做：1）可能非常昂贵，因为D可能很大; 2）需要学习一个模型，其中在每个示例中，大多数数据都是missing，因为typicallydiθi 3）requiresk12590i=1QQ~q(a)（b）（c）（d）图3：POLS模型。（a）一项新的框架，xi.（b）该等修订已于较长时间内修订。（c）一系列在以下区域内进行的SLII IING-，被标记为在85%的像素中具有超分辨率。由于具有本地存储空间，因此可以从存储器中读取（d）：在局部子空间上的由绿色边界标记的warpedfram（eithe rr rr anorte tt）的生成，其域由红色边界标记黑色区域表示该投影中的缺失此外，投影会忽略落在红色边界之外的绿色边界内的像素。大到足以捕捉动态背景在整个场景中展现的可变性;4）可以具有（对于长视频）过大的内存占用。因此，我们认为，特别是对于大场景和/或长视频，必须有一个更好的方法：如果我们想要的是在一个小区域中的BG/FG分离（即，一帧的大小），为什么我们要在整个场景的规模做一切？作为替代方案，我们建议单独学习场景的部分。特别是，我们将场景分割成M个部分重叠域;参见图3c. 设m ∈ {1，.- 是的- 是的，M}。在我们的实验中，每一个这样的域，m，是一个250 × 420的矩形，得到通过 30像素水平 /垂直步幅的光栅扫描（这确定M）。参见Sup。 Mat. 对于使用其他窗口大小的效果。令n m100 帧）。DECOLOR，Prac-ReProCS和incPCP-PTI在运动快速时急剧下降，表明它们无法处理快速的子空间演化。图4和图5显示了每种方法产生的典型BG/FG分离结果。有关更多的视觉和定性结果，请参见Sup。Mat.表2比较了JA-POLS和t-GRASTA [20]在抖动数据集上使用3个运动水平的性能图6显示了来自测试视频的帧的结果12594观察JA-POLS t-GRASTA（批次）t-GRASTA（在线）图6：JA-POLS与t-GRASTA（在其批处理和在线模式下），来自抖动数据集的2个典型帧。请注意，这是一个测试视频。由于t-GRASTA不能处理测试视频，我们从头开始运行它（即，不将其视为测试数据）。虽然这样的比较对JA-POLS有偏见，但后者仍然明显获胜。它还可以检测FG细节，即使是小对象，并提供相对清晰的背景。图7：变更检测：JA-POLS不仅可以捕捉到人和狗等移动物体（放大后可以看到最后3帧），还可以捕捉到静态物体（椅子）的移动。抖动数据集（有关详细信息，请参见标题）。图7示出了来自GardenShort数据集的测试视频的帧请注意，一个静态对象（椅子），这是背景的一部分，在测试视频期间被移动到另一个位置。JA-POLS检测到这一点，因为它不依赖于运动提示。测试视频上的JA-POLS评估。利用对齐预测器，我们还评估了JA-POLS在3个所得F测量值（平均值±标准值）如下：厨房：0。50± 0。03,GardenWideScene：0. 55± 0。03和抖动：0。88±0。01.序列SE-Sync+同步F测度损失仅限F-measure损失抖动0的情况。83± 0。030的情况。0180的情况。80± 0。030的情况。021CP0的情况。67± 0。050的情况。0640的情况。44± 0。070的情况。123表3：F-测量性能（平均值土标准差）和相同的归一化损失（对齐+正则化）Jitter和ContinuousPan（CP）数据上的JA-POLS，有和没有SE-Sync初始化。消融研究。表3量化了SE-Sync初始化的重要性，显示了其明确的实用性，特别是当运动超出仅仅抖动时。苏。Mat. 包含两个额外的这样的框架3框架6412595消融研究。第一个显示了我们的正则化项的重要性，而第二个显示了对齐预测确实是不可或缺的。时间SE-Sync需要几秒钟。POLS学习速度很快，特别是使用TGA时，通常需要几分钟。因为训练预测器是基于迁移学习，这也只需要几分钟。瓶颈是网络优化，其运行时间从15分钟到几个小时不等，取决于培训视频.然而，通过整个流水线处理一个新的测试帧需要不到2 [sec]。5. 结论我们提出了一个新的MCB模型，并表明它实现了SOTA结果，它是高度可扩展的。我们还表明，我们在每一步中的选择都是公正的;例如，我们证明了POLS始终优于全局模型以及SE-Sync初始化、新颖正则化和预测器的关键虽然竞争MCB模型关注原始数据中的BG/FG分离和/或给定下一帧的增量更新，但我们的模型还推广到未见过的未对准视频（同一场景，可能在不同时间拍摄）。12596引用[1] 劳拉·巴尔扎诺，罗伯特·诺瓦克，本杰明·雷希特。从高度不完全信息在线识别和跟踪子空间。Allerton，第704- 711页，2010年一、二[2] 马修·伯杰和李·M·塞弗斯基。动态维数下的子空间跟踪在线背景减除。在CVPR，第1274-1281页，2014年。3[3] 迈克尔J布莱克和阿南德Rangarajan。线过程的统一、异常值剔除和鲁棒统计及其在早期视觉中的应用IJCV，第57-91页3[4] 马修·布朗和大卫·G·洛。使用不变特征的自动全景图像拼接。IJCV，第59-73页，2007年。一、二[5] EmmanuelJCandnd`es ， XiaodongLi ， YiMa ， anddJohn Wright.稳健主成分分析JACM，第1-37页，2011年。一、二、四、六[6] Rudrasis Chakraborty，Soren Hauberg，and BabaC Vemuri.在线线性和鲁棒子空间学习的内在格拉斯曼平均值。在CVPR中，第6196一、二、四[7] Gustav o CauandPaulRodr'abrogguez.视频背景建模中的PNNING和JITT ER不变增量主成分追踪。在ICCV，第1844-1852页，2017年。三、六[8] 马克·考克斯，斯里达·斯里达兰，西蒙·露西，杰弗里 · 科恩 . 用于图像无监督对齐的最小二乘凝结在CVPR，第1-8页，2008中。1[9] Mark Cox ， Sridha Sridharan ， Simon Lucey ， andJeffreyCohn. 最小二乘凝结大量的图像。载于ICCV，第1949-1956页，2009年。1[10] CarlosCuevas，Rau'lMohedano，anddNarcisoGarc'arena. 带摄像头的移动设备的统计运动目标检测在ICCE，第15-16页，2015年。2[11] 费尔南多·德拉·托瑞和迈克尔·J·布莱克。用于计算机视觉的鲁棒主元分析ICCV，第362-369页，2001年。一、二、四[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。5[13] Daniel DeTone，Tomasz Malisiewicz，and AndrewRabinovich. 深度图像单应性估计。 arXiv ：1606.03798，2016。5[14] MatthiasGrundmann 、 VivekKwatra 和 IrfanEssa。自动定向视频稳定与鲁棒的l1最佳摄像机路径。在CVPR，第225-232页，2011年。2[15] 韩果，陈露秋，纳瑞塔·瓦斯瓦尼。从稀疏低维信号序列的和中分离稀疏低维信号序列的实用方法。ICASSP，第4161-4165页，2014年。二、六[16] Charles Guyon，Thierry Bouwmans，和El-Hadi Za-hzah.基于时空约束的鲁棒低秩矩阵分解的前景检测。在ACCV，第315-320页，2012中。2[17] Soren Hauberg，Aasa Feragen和Michael J Black。可扩展鲁棒主元分析的格拉斯曼平均值在CVPR，第3810-3817页二、四、六[18] Eric Hayman和Jan-Olof Eklundh。移动观测器的统计载于ICCV，第67页，2003年。2[19] Jun He，Laura Balzano，and Arthur Szlam.基于格拉斯曼的增量梯度法在线分离亚采样视频中的前景和背景。在CVPR，第1568-1575页一、二[20] Jun He，Dejiao Zhang，Laura Balzano，an

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于局部子空间部分重叠的背景建模方法

子空间辨识以及子空间控制相关的matlab代码

基于物理子空间法的多柔体动力学模型降阶研究

基于信号子空间和信息复杂度的语音端点检测

基于子空间学习的方法的定义

基于子空间学习方法的多视角聚类

子空间辨识中，基于新息估计的闭环子空间辨识方法

基于子空间算法的OFDM盲信道估计的基本原理

在子空间聚类中，什么叫软子空间什么叫硬子空间

基于局部点特征提取的图像配准方法研究 李冰caj下载

krylov子空间方法

matlab 子空间辨识

基于倾斜摄影的高精度实景建模方法研究

电力电子dcdc建模

基于子空间的语音增强代码

matlab子空间辨识

随机子空间法matlab

ssi随机子空间法 python

sp算法 子空间追踪

随机子空间 matlab

最新资源

基于局部点特征提取的图像配准方法研究李冰caj下载

sp算法子空间追踪