视频动态检测中的基于时空自组织映射深度网络的方法

88 浏览量更新于2023-10-15 收藏 1.49MB PDF 举报

动态目标检测

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5475基于时空自组织映射深度网络的视频动态杨杜1，袁春峰1，李兵1，胡伟明1，Stephen Maybank21中科院脑科学与智能技术卓越中心中科院自动化所模式识别国家重点实验室;中国科学院大学，中国duyang2014@ia.ac.cn，cfyuan@nlpr.ia.ac.cn，bli@nlpr.ia.ac.cn，wmhu@nlpr.ia.ac.cn2伯克贝克学院，伦敦sjmaybank@dcs.bbk.ac.uk摘要在动态目标检测中，如何构造一个有效的模型来充分描述背景的时空特性是一个挑战。本文提出了一种新的时空自组织映射（STSOM）深度网络来检测复杂场景中的动态目标。所提出的方法有几个贡献：首先，提出了一种新的视频帧中所有像素共享的STSOM，以有效地建模复杂的背景。我们利用复杂背景的运动在空间上具有全局变化，在时间上具有局部变化的特点，利用w- hole帧和像素随时间变化的序列来训练STSOM，以处理复杂背景的变化。其次，提出了一种基于贝叶斯参数估计的方法来自动学习所有像素的阈值以过滤掉背景。最后，为了更准确地对复杂背景进行建模，我们将单层STSOM扩展到深层网络。然后将背景逐层过滤掉。在CDnet 2014数据集上的实验结果表明，所提出的STSOM深度网络在整体性能和大多数类别的场景中优于许多最近提出的方法。1. 介绍动态目标检测是计算机视觉中视频处理的关键任务，它是许多应用的基础，如目标跟踪，识别和行为分析[20]。现代检测算法[9][15][4][21]通常通过背景模型来实现*通讯作者Eling。背景建模的难点在于处理背景运动。我们认为复杂背景的运动主要有两个性质：• 全球背景在空间中的变化。它主要是由相机的变焦、平移、抖动等引起的。我们称之为空间属性背景运动• 时间背景的变化它主要表现背景中的动态元素和不同帧上的动态元素，如河流、喷泉、洼地等，儿我们称之为背景运动的时间特性.在人类视觉系统中，视觉皮层（V1）同时感知背景和动态物体的刺激。输入驱动的自组织映射（SOM）[19]是通过模仿V1的表面区域的结构来构建的，以恢复基本视觉皮层中的神经元对输入刺激的反应。SOM已成功用于动态对象检测[16]。基于SOM的方法一般通过更新神经元的权值来然后通过设置阈值，将每个像素过滤为前景或背景。权值更新和阈值设置是基于SOM的动态目标检测中的两个关键问题。以往基于SOM的方法不能充分表征背景的时空特性，也不能很好地适用于复杂场景。根据背景运动的两个性质，我们提出了一种新的STSOM，并在两个方面进行训练，从空间角度使用整个帧，从时间角度使用像素随时间的序列。在此基础上提出了一种基于贝叶斯参数估计的新方法5476t=1[17]自动学习背景滤波的时空阈值。为了进一步精确地对复杂背景进行建模，我们将多个STSOM堆叠在一起，形成一个以STSOM为一层的深度复杂背景的不同部分通过不同的层次精确建模。通过逐层滤除背景来检测动态对象，并且随着层的加深，分割实验证明，该方法能够有效地学习复杂场景下背景的时空特性。本文的架构安排如下。在第二节中简要回顾了一些相关的工作。然后在第三节中简要介绍了一般的自组织映射。随后，在第二节中详细介绍了基于STSOM深度网络的动态对象检测。4.第一章比较实验见第5节。最后，第6节给出了结论。2. 相关作品非参数方法[7] [8]直接依赖于观察到的数据来对背景进行统计虽然这些方法可以处理背景中的快速变化，但它们很耗时，并且具有很高的内存需求。在[32][26][29]中已经提出了改进来克服这些问题。基于SOM的几种方法[13] 被证明优于传统方法，如 KDE [8] 和 GMM[24][25][12][2]。但它们不能很好地适应复杂的场景。[16]首次将 SOM 用于背景建模，这种方法称为SOBS。每个像素由SOM建模，并且通过更新与权重向量具有最小距离的获胜节点及其相邻节点的权重来训练它。该方法通过对每个像素进行建模来利用像素的时间特性，并通过将所有像素的自组织矩阵相邻排列来利用像素的部分空间特性。[5]提出的一种先进方法将连接到每个像素的神经节点数量减少到一个（称为一对一SOM），并取得了良好的实验结果。另一种相对的方法，[6]通过模糊方法自动设置一对一SOM [5]中的阈值，而不是手动设置。在[18]中，提出了一种基于视网膜自组织映射（RESOM）的神经网络来完成背景建模。通过对输入图像进行充分训练后的RESOM权值矩阵进行平均，提取背景特征在[31]中，基于SOBS提出了一种堆叠多层自组织映射SOBS和基于SOBS的一些方法如SM-SOM具有大规模的自组织模型排列。这导致了一个复杂的计算。具体地说，每个像素由一个单独的SOM建模，并受到其他像素的相邻SOM的影响。假设每个SOM和帧的大小图1. 自组织映射的结构。在SMSOM和SOBS中，SOM的大小分别为5 × 5和W ×H，整个SOM的大小为5 × 5 × W × H。在我们的模型中，帧中的所有像素共享5x5的SOM。我们大大减少了参数的数量。另外，上述方法主要考虑的是空间或时间特性，学习困难在复杂场景中有足够的背景模型。RESOM算法没有考虑背景的时间特性，不适合于背景中动态元素较多的应用。SOBS和SM-SOM主要考虑背景的时间特性因此，它们在复杂的场景中没有很好的表现。我们从时空的角度训练我们的网络，并提出了一种贝叶斯参数估计的方法来计算阈值。这使得SOM在更多的情况下，其中以前的SOM的方法几乎不能工作的适应性。3. 自组织映射在本节中，我们简要介绍SOM [14]。一般SOM由一组神经节点组成，这些神经节点通过自组织神经节点的权重来结构的SOM 如图1所示。假设输入刺激是时间序列{F（t）}N，其中F（t）是P维实向量的第t个输入，N是输入.存在Q个神经节点，其被表示为节点q（q=1，2，...，Q）在SOM中。输入的元素完全连接到所有节点，并且连接由权重向量表示，表示为wq（t）。具体地，获胜节点节点c被定义为具有权重向量wc（t）的节点，该权重向量w c（t）具有与F（t）的最小欧几里得距离。节点c的索引c被公式化为：c=argmin{||{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}||}.（一）QSOM的学习规则是先找到优胜节点，然后更新优胜节点及其邻近节点的权值这种更新规则是Kohonen [14]提出的SOM标准。SOM的权重由，wq（t+1）=wq（t）+ucq<$α（t）<$[F（t）−wq（t）]，（2）5477我我的智商viqIQ的智商高智商viq2IqIQ图2. STSOM深度网络的架构。其中，α（t）是学习率a n。ducq是最大邻域为了获得高精度的背景模型，我们功能一般来说，ucq= exp||q−c||2σ2. 此函数堆叠具有相同结构的多个STSOM层，构建深层网络，其中下一个STSOM层类似于在通常的平滑亲中应用的内核cesses SOM使用该邻域函数通过更新获胜节点的相邻节点的权重来保持输入空间的拓扑属性。4. 用于动态目标检测的STSOM深度网络在本节中，我们首先概述了所提出的STSOM深度网络，然后提出了网络的预训练方法随后，我们描述了这个网络的微调.最后，我们描述了如何从STSOM深度网络中检测最终的动态对象。4.1. 概述STSOM的基本结构与SOM相同，如图1所示。所有输入像素都完全连接到神经节点，神经节点通过权重的自组织来学习输入刺激对由前一个STSOM层过滤的左侧背景进行从理论上讲，更深的层获得更准确的背景建模。第1个STSOM层的输入随后，通过阈值τ1对输入视频进行滤波，并且将滤波结果向前传播到下一层作为输入。最后一层的输出是动态对象。接下来我们将介绍如何对该网络进行预训练，即学习每个神经元节点的权值和背景滤波的时空阈值。4.2. 预培训我们提出了一种新的时空更新方法来预训练这个深度网络。具体地，具有N个帧{F1（t），t=1，2，.，N}用于逐个训练第一STSOM层。由于HSVCol.或模型与人类感知相似，因此我们使用HSV颜色信息来表示每个像素。即F1（t）={h1（t），s1（t），v1（t）}。另一方的投入我我我s之间的神经节点和输入像素。我们构造了一个ers Fl（t）（l=2，.，L）与F1（t）具有相同的形式。我我STSOM深度网络包含多个堆叠的STSOM层，用于对视频中每帧的所有像素进行建模，由于SOM使用神经节点的权重来学习输入的模式，如图2所示。我们假设Fl（t）表示像素Fl（t）和节点l 有相同的形式。即，wl（t）=我其中i（1≤i≤P）是像素的索引，P我lhiq （t），wlQ（t），wlIQ（t）}。因为HSV颜色模型是帧中所有像素的数量，l（1≤l≤L）是层的索引，L是STSOM层的数量，t是帧的时间索引。对于每一层，我们使用STSOM对帧中的所有像素进行建模。神经节在Hexcone空间中，我们计算距离dl（t），[31][32][33][34][35][36][37][38][39]dl（t）=||（vl（t）sl（t）cos（hl（t）），vl（t）sl（t）sin（hl（t））将第l层中的STSOM的i表示为节点l，其中iq我我q，vl（t））−（wl（t）wl（t）cos（wl（t）），q表示节点的索引，q = 1，2，.， Q（Q是i viq的智商高智商神经节点数）。STSOM的节点数可以可定制和重量之间的连接lv智商（t）wl（t）sin（wl（t）），wl（t））||二、（三）Fl（t），节点l由wl（t）表示。比如我们作为结果，我们获得距离矩阵Dl（t），其包含：i q iq假设第一层的节点数为9（3×3），则每个像素与该层中的9个神经节点相关联−{wW5478在输入像素和神经节点之间存在D1（t）这个矩阵是时空5479我QIQ空间空间ave.i我我我我智商L我智商i.时间智商权重更新该更新过程分为空间权值更新和时间权值更新两步。4.2.1空间权重更新基于STSOM的深度模型必须具有一定的代表性，以容忍背景的全局变化因此，第一步是让深度网络使用整个帧来学习背景的空间特征来训练这个网络。第t帧和第n帧之间的距离图3. γi和δ2的极大似然估计它类似于空间权重更新。在获胜者之后-第l个STSOM层中的第q个节点nodel∗i.temporal （t），则像素之间的权重接着，l空间.q （t）=ΣPi=1dl（t）.（四）i和它的获胜节点以及它的邻居被更新。由Eq。六、时空权值更新的结合使STSOM具有更强的代表性。所以它能够容忍全局变化在第t帧与所有节点之间的距离中具有最小距离的节点被选择为该帧的获胜者节点。赢家节点的位置是以及背景中单个像素的局部变化。定义为q（t），表述如下，4.2.3前向传播q_i（t）=argmin{Dl（t），q = 1，2，...， Q}。（五）STSOM深度网络由级联的STSOM组成空间空间.qQ并且预训练过程逐层进行。提取的前景从当前的在获胜节点q的位置之后，（t）计算─层到下一层，直到最后一个STSOM层。假设ed，获胜节点和所有输入像素之间的权重以及更新获胜节点的每个相邻节点与所有输入像素之间的权重。通过以下公式更新权重，如果第一层已经成功训练，则下一层的输入数据通过针对每个像素的阈值进行滤波。整个帧的变化和单个像素在不同帧的变化将同时起作用wl（t+1）=uq<$（wl（t）+αtrain（Fl（t）−wl（t）），（6）对每个像素点的阈值进行空间阈值和时间阈值的融合，从而得到每个像素点的阈值其中α是STSOM深度网络的学习率首先，我们得到一个粗糙的背景d-dimensional模型，火车工作，它是手动设置的，uq表示更新训练帧如下，Fl1NNt=1Fl（t）.不-重量的程度。本文将uq设为高斯t，我们使用贝叶斯参数估计的方法，核函数uq.= exp∗||q−qspatial(t)||2σ2Σ，其中σ2是实现最终的背景模型。设B1（i是像素的指数）表示最终的背景模型。假设高斯核函数的方差当获胜者Bl<$N（μi，σ2），μi<$N（γi，δ2）和Fl（t）被采样我我我节点更新，uq=1。其值变化较小，相邻节点与根据B1，其概率密度函数表示为N（F）l（t）|μi，σ2），其中N表示高斯分布，我我胜利者更进一步。4.2.2时间权重更新训练过程中应考虑到每个变量的变化而这一点，也是一个先验分布。视频中的背景。我们使用最大似然估计（MLE）通过其周围像素来估计pix-eli的γi和δ2，公式如下，Σ像素在不同的帧，以适应变化的局部背景所以第二步是让深度网络通过训练学习背景的时间特征γi=1/|Ci|Σδ1.2= 1/|C|（F lAve.I，i∈Ci-γπ）（F1-γ）T，（8）它使用一个像素随时间变化的值序列。对于第l层中的像素i，其获胜节点是节点我我i∈Ciave.i我有。我有。其中在连接到该像素的所有节点中距该像素的距离最小第i个像素q_i（t）=argmin{dl（t），q=1，2，.，Q}。（七）QQ颂D=−F5480其中Ci表示如图3所示的像素i的周围像素。实验表明，在7 ~ 10个像素范围内的Ci较小的半径对结果略有改善，较大的半径drop- s是性能良好的结果。通过推导，我们可以5481Il我我我我∂µˆ我估计μi如下，N/σ2µi =F1/δ2+iγi.（九）4.3. 微调预训练过程为STSOM深度网络提供了有效的初始化。以使其N/σ2+ 1/δ12ave.iN/σ2+ 1/δ12我我我我们假定σ2可以表示为μπι的函数。然后，将μπιi和σ2的对数函数L（μπιi，σ2）公式化如下，ΣN更能适应复杂场景的变化，当新帧进入该深度网络时，通过微调过程在线更新每层的权重，但不更新阈值。具体地，空间权重和时间权重都被更新。该过程类似于如下的预训练，L（μm，σ2）=lnN（Fl（t）|µm ，σ2）。（十）我我t=1我我我wl（t+1）=wl（t）+uq<$αupdate<$（Fl（t）−wl（t））. （十六）iq iq i iq接下来，我们使用最大似然估计来最大化L（µi，σ2），在预训练中，我们使用背景帧来训练STSOM，并将αtrain设置为较大的值以收敛STSOM ef。厄吉|0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000我=argmax{L（μmi，σ2）}。（十一）厄吉5482我我空间.i颞叶IQ我我我ficiently。在微调中，我们调整α更新以应对背景的变化。阈值在预训练中学习，并且在微调中不改变设置α更新最后，我们使用μπι来估计Bl。利用获得的回-地面模型B1，我们计算距离矩阵D1=根据背景的变化率，计算出背景的变化率。一般设置为小值，这样深度网络就不会发生变化（dl）i =1，2，.，P; q =1，2，...，其中dl之间的距离是智商太快，太稳定。B1和节点1。根据矩阵D1，我们定义t-i q4.4动态目标检测两个阈值以滤除背景。使用等式 4、空间阈值τl接着，每个像素的计算公式为：当深度网络完成训练后，该模型可用于动态对象检测。新帧l空间.il空间.q ，q = 1，2，.， Q/P。（十二）然后将其动态对象逐层提取，直到最后一个输出层。接下来，我们计算时间阈值τl像素由下面的公式，每个儿更具体地说，更深的层表示更准确的背景建模，并且动态对象检测的结果将随着深度而更有效L颞叶=max{dl，q = 1，2，...， Q}。（十三）呃理论上是分层的。在最后一层，通过它们的平均值来计算最终阈值τl如下构造与原始帧相同的尺寸.l l l1，dL（t）>τL，τi=（τ时间i+ τ空间i）/2。（十四）在对该方法的l层STSOM进行预训练后，根据上述公式自动学习每个像素的阈值。我们重新计算检测到V。i=5. 实验i i（17）0，否则。将训练帧中的所有像素和l层的最新学习节点进行比较，并获得Fl（t）和在本节中，我们将在四个方面评估所提出的STSOM方面和参数设置如下，αtrain= 0。8、它的获胜节点，表示为d_n（t），命名为y，dl（t）=min{dl（t），dl（t），.，德泽尔我（t）}。（十五）αupdate= 0。005，Q = 25，L = 3，Ci= 8。5.1. 对CDnet 2014数据集的评价i i1i 2iQ如果d_（？）l（t）>τl，则Fl（t）被认为是动态的。我们在CDnet 2014数据集上评估了我们的方法，该数据集共包括53个场景，分为11个我我我并用作下一层的输入，即F1+ 1（t）=F1（t）。否则，该像素被视为类，基线（BL），动态背景（DB），凸轮-时间抖动（CJ）、阴影（SH）、间歇性物体运动我我背景和Fl+1（t）=0。到目前为止，下一个STSOM层的训练数据已经在for中确定{F1+ 1（1），F1+ 1（2），.， F1 + 1（N）}。通过重复（IOM）、热（TH）、恶劣天气（BW）、低帧率（LF ）、夜间视频（NV）、PTZ（PTZ）和湍流（TU）。最先进的实验结果，我我我空间和时间权重更新的过程，新的，t STSOM层将被训练，使得该深度网络将被逐层预训练，同时将获得每层的时空阈值，以便生成下一层的输入。CDnet 2014可从CDnet网站下载http://changedetection.net/的网站。用于评估方法的官方指标[28][10]是召回率（Re），特异性（Sp），假阳性率（FPR），假阴性率（FNR），错误分类百分比（PWC），精度（Pr）和τ=max{Dτ5483类别召回特异性FPRFNR 普华永道精密度F-测量基线0.96440.99850.0015 0.0356 0.39600.95460.9576相机抖动0.86770.99082019年12月31日0.90940.8881动态背景0.89700.99910.0009 0.1030 0.43970.95570.9235间歇物体运动0.86980.99361.14670.80410.8357阴影0.92030.99200.0080 0.0897 1.30500.88120.9003热0.82580.99121.9796美元0.87320.8488恶劣天气0.91250.99750.0875 0.40800.87360.8926低帧率0.80560.99231944年1.54750.81970.8125夜间视频0.59740.96542019年12月31日0.53250.5631PTZ0.79090.97312019年12月31日0.44620.5759湍流0.83980.99892011年12月31日0.76620.8009整体0.84470.99020.0098 0.1563 1.45080.79880.8164表1. 建议的STSOM深度网络在CDnet2014数据集上的完整结果。F-测量（FM）。我们主要使用FM来比较绩效，因为它与CDnet网站上使用的排名密切相关，并且通常被认为是整体绩效的良好指标。我们将我们的结果与Related Works中提到的方法以及上面官方网站上报道的最好的方法进行了比较，总共包括12种方法，IUTIS-5[3]，SharedModel [30]，Sub-Model [ 30 ]，[22]、PAWCS [23]、C-EFIC [1]、MBS [11]、FTSG[27]、S-Subsense、SMSOM、SOBS、KDE和GMM。表5.1显示了CDnet2014数据集上STSOM深度网络的完整结果，表5.1显示了我们的方法和最先进方法的整体和每个类别的FM。根据不同的情景类别，归纳出以下几点。• 动态背景包括河流、动态树木、喷泉等。在恶劣天气的视频-在恶劣条件和湍流下拍摄的室外监视镜头的序列显示了长距离热红外视频监视，其中由于高温环境而具有重要的空气湍流。这三个类别都具有随时间变化的部分背景的动态元素。摄像机抖动中存在着背景的全局抖动。我们的方法提高了5.5%的性能，在相机抖动场景iOS和促进3.3%的平均性能，在这四个类相比，最好的一个国家的最先进的方法。实验结果表明，该模型能够同时容忍空间整体区域和背景局部像素随时间的• 热成像是由灰度图像组成的，因此相似的灰度导致了对前体的检测困难。该阴影包含视频与流行的硬阴影和软阴影，这是具有挑战性的是不同的-能够精确地对难以通过颜色与前景区分开的背景进行• 该ITERMTENOBECTONOLOWFRARATE类，这是具有挑战性的适应性方法，包括背景对象移动离开，不连续的帧，被遗弃的对象和对象停止一段时间，然后移动离开。我们的网络在它们上取得了最好的结果，因为我们可以实时有效地更新我们的模型。• 云台的难点在于背景是一路移动的，夜间视频中的霓虹灯使人很难分辨被覆盖的在灯光下我们的方法在夜间视频和PTZ上的结果不令人满意，但它们仍然可以与其他排名靠前的方法相媲美。• 总的来说，我们可以发现我们的方法在CDnet2014上的整体性能接近82%，并且超过了在整体性能和大多数类别中采用最先进的方法。此外，我们的方法超过目前最好的方法IUTIS-55%和另一个基于SOM的方法SOBS 20%。5.2. 预训练和微调的评估从第838帧开始，我们分别在预训练和不预训练的情况下对视频独木舟进行了测试。独木舟是一个动态背景的视频，从第838帧开始，一艘船出现在河中前837帧都是背景。近70%的背景是动力河流，排除动力背景的干扰是一项挑战。对于预训练方法，用背景的第一帧初始化权重，即， wl （1）=Fl （1），q=Fl（1），智商指数从动态对象开始有相似的颜色在这两个类别中的前景和背景中的元素实验结果表明，我们的方法一、二、……Q. 该网络是预先训练的，阈值是通过使用前837帧来学习。结果示于图4（a）中。可以看出，STSOM显示出很强的5484我我IQ我我我方法FM整体FMBLFMCJFMDBFMIOMFMSHFMTHFMBW FMLF FMNV FMPTZFMTUSTSOM0.8160.9570.8880.9230.8350.9100.8480.8920.8120.5630.5750.800IUTIS-50.7710.9560.8330.8900.7290.9080.8300.8240.7740.5290.4280.783SharedModel0.7470.9520.8140.8220.6720.8450.8310.7980.7280.5410.3860.733SubSENSE0.7410.9500.8150.8170.6560.8640.8170.8610.6440.5590.3470.779PAWCS0.7400.9390.8130.8930.7760.8710.8320.8150.6580.4150.4610.645C-EFIC0.7300.9300.8240.5620.6220.8450.8340.7860.6800.6670.6200.627MBS0.7280.9280.8360.7910.7560.8260.8190.7980.6350.5150.5520.585FTSG0.7280.9330.7510.8790.7890.8530.7760.8220.6250.5130.3240.712S-Subsense0.7170.9480.8070.8150.6010.8650.6850.8590.6510.5340.3390.751SMSOM-0.9440.7320.675--0.793-----抽泣0.5960.9330.7050.6430.5620.7210.6830.6620.5460.4500.0400.488KDE0.5680.9090.5720.5960.4080.7660.7420.7570.5470.4360.0360.447GMM0.5560.8380.5960.6330.5200.7150.6620.7380.5370.4090.1520.466表2.我们的方法的总体和每个类别的FM以及最近在CDnet 2014上测试的最先进的方法。粗体表示最佳结果，蓝色/斜体表示次佳结果。（a）预训练微调（b）τl= 0.01，无预训练&(c)τl= 0.02，无预训练（d）τl= 0.03，无预训练从第838帧开始的代表能力。如果仅存在微调而没有预训练，则用零初始化权重，即，wl（1）=0。在图4（b）-4（d）中，这些实验在没有预训练过程（仅微调过程）的情况下实现，并且τ1被人为地设置为固定值。我们可以发现，STSOM深度网络的性能在开始时很差，但这些曲线逐渐上升，并收敛到具有良好且稳定的检测结果的状态两种方式都从第838帧开始检测所有这些结果表明，预训练提供了一个很好的初始化，包括阈值和权重的STSOM，和微调，使STSOM更自适应。为了评估基于贝叶斯参数估计的学习阈值的有效性，我们分别用固定阈值和预训练后的学习阈值的结果我们的方法在预训练后学习阈值是如图4（a）所示。我们的方法在预训练后使用固定阈值的结果如图4（e）所示。- 4（g）。我们可以发现，使用学习阈值的方法大大优于使用固定阈值的方法，开始. 后一种方法的结果经过微调收敛到令人满意的状态，但仍比前一种方法差。这表明学习阈值更有效。(e)τl= 0.01，预训练（f）τl= 0.02，预训练第977帧的实际检测结果与我我响应于图4（a）和图4（c），在图5（c）和图5（d）中示出了在独木舟上的响应于图4（a）和图4（c）。（g）τl= 0.03，有预训练图4. 精确度、召回率和F-测度随时间变化的曲线。5.3. SSOM、TSOM和STSOM的评价我们将STSOM与另外两种方法进行了比较，一种是空间SOM（SSOM），它只有空间权值更新和空间阈值。另一种是时态SOM（TSOM），它只有时态权重更新和时态阈值。CDnet 2014上SSOM 、T-SOM和STSOM的定量结果如图6（a）所示。5485(a)原始图像（b）地面实况（c）有预训练（d）无预训练（e）TSOM结果（f）SSOM结果(g)第1层的结果（h）第2层的结果（i）第4层的结果（j）第5层的结果（k）第6层的结果（l）第7层的图5. 独木舟上977帧的检测结果。(a) F-措施（b）召回(c)精密度（d）有关图层的图6.STSOM、SSOM、TSOM和多层的性能曲线- 6（c）.与SSOM和TSOM相比，STSOM在总体性能上分别提高了近20%和10%。结果表明，STSOM具有较好的整体性能，且通用性较强.在预训练阶段，STSOM比SOM和TSOM稍慢，而在检测过程中，对于相同大小的视频，两者的速度几乎相同。在图5中，我们显示了检测结果- 用几种方法对第977架独木舟的结构进行了分析。图5（a）为原框架，主要包括三个部分：由树木组成的静态区域、检测区域和由变化的河流组成的动态区域。从图5（f）和图5（e）可以看出，在静态区域SSOM比TSOM更有效，而在动态区域结果相反。图5（c）中的STSOM结果表明，我们的模型结合了背景的空间和时间特性，在静态和动态背景中都更有效5.4. 深度网络为了证明我们的深度网络比单层更有效，我们列出了帧977上其他层的6个结果，如图5（g）-5（l）所示。为了排除预训练的影响，本实验在没有预训练的情况下进行。第三层的结果如图5（d）所示。在第一层和第二层的检测结果是坏的，但从第三层我们开始获得令人满意的结果。因此，本文的其他帧977上的定量结果如图6（d）所示。这一结果表明，通过构造更深层次的STSOM网络，可以获得更优越的检测性能。6. 结论本文提出了一种时空自组织映射（STSOM）和一种新的训练方法，该方法由时空权值更新组成。然后，在同一帧中的所有像素已被有效地由共享STSOM建模。在贝叶斯参数估计的基础上，利用背景的时空特性学习目标检测的阈值。此外，我们已经扩展了单一的STSOM到一个深网络，在许多比较实验中，比其他现有的方法具有7. 确认本工作得到国家 973 基础研究计划（批准号：2014CB349303）、国家自然科学基金项目（批准号：U1636218 、 61472420 、 61472063 、 61370185 、61472421）和CAS对外合作重点项目。5486引用[1] G. 阿勒博斯湾诉Hamme，F.Deboeverie，P.Veelaert，以及W. 飞利浦EFIC：基于颜色和边缘的前景背景分割和内部分类。计算机视觉，成像和计算机图形学理论与应用，2015。6[2] M. S. Allili，N. Bouguila和D. Ziou.一个全面的审查背景减除算法评估与合成和真实的视频。 Journal ofElectronic Imaging，17（1）：1778-1792，2005. 2[3] S.比安科湾Ciocca和R. Schettini通过结合变化检测算法，你能走多远？ IEEE Transactions on ImageProcessing，arXiv，2015。6[4] T. 布曼斯最新先进的统计背景建模前景检测-一个系统的调查。Recent Patents on Computer Science，4（3）：147-176，2011. 1[5] M.查孔湾Sergio和V.哈维尔运动目标视频分割的简化国际神经网络联合会议，第4742[6] M. Chacon-Murguia和S.冈萨雷斯·杜阿尔特动态背景下目标检测的自适应神经模糊方法. IEEE工业电子学报，59（99）：1-1，2012。2[7] A. 埃尔加马尔河Duraiswami，D.Harwood和L.S. 戴维斯基于非参数核密度估计的背景与前景建模于视觉监视。计算机视觉与模式识别研讨会，90（7）：1151 2[8] A. Elgammal，D. Harwood和L.戴维斯背景减除的非参数模型。欧洲计算机视觉，1843：751-767，2000。2[9] S. Y. Elhabian，K. M. El-Sayed和S. H.艾哈迈德使用背景移除技术的空间域运动目标侦测。Recent Patents onComputer Science，1（1）：32-54，2008. 1[10] N. Goyette，P. M. Jodoin，F. Porikli，J. Konrad，and P.战争。Changedetection.net：一个新的变化检测基准数据集。 IEEE会议Comput. 目视模式识别。研讨会，第1-8页，2012年。5[11] S. Hasan和S.C. Sen-Ching通用多模式背景减法. IEEETransactions on Image Processing，2015年。6[12] H. 金姆， R. 坂本 I. 北原 T. 鸟山，K.小暮基于多阈值背景减法的鲁棒前景提取技术。光学工程，46（9）：097004-097004，2007年。2[13] T.科霍宁拓扑正确特征映射的自组织形成。Cybern，43（1）：59-69，1982. 2[14] T.科霍宁自组织映射的基本原理。Neural Networks，37（1）：52-65，2013. 2[15] D. B. M. Cristani，M.Farenzena和V.穆里诺用于自动化多传感器监视的背景减除：全面的评论 EURASIPJournal on Advances in Signal Processing，2010：43，2010。1[16] L. Maddalena和A.彼得罗西诺一种用于视觉监视应用的背景减除的自组织方法。IEEE Transactions on ImageProcessing，17（2）：1168一、二[17] M.雷德福机器学习的贝叶斯方法2004年神经信息处理学术会议. 2[18] Ramirez-Quintana和M.查孔-穆尔吉亚自组织视网膜拓扑图应用于视频序列中动态对象分割的背景神经网络国际联合会议，第1-8页2[19] M. Risto，A. James和C.允吸视觉皮层中的计算地图。2005. 1[20] M. Sedky，M. Moniri和C. Chibelushi商业应用智能视频监控系统的分类。先进的视频和信号监控。AVSS 2005年。IEEE会议，第638-643页，2005年。1[21] A. Sobral和A.空着。一个全面的审查背景减法算法评估与合成和真实的视频。计算机视觉和图像理解，122（0）：4-21，2014。1[22] P. - L. 圣查尔斯湾A. Bilodeau和R.伯格文次义：一种具有局部自适应灵敏度的通用变化检测方法。IEEE Transactions on Image Processing，2014。6[23] P. - L.圣查尔斯湾A. Bilodeau和R.伯格文一种基于背景词一致性的自调整变化检测方法IEEE Winter Conferenceon Applications of Computer Vision，第6-9页，2015年。6[24] C. Stauffer和W.格里姆森用于实时跟踪的自适应背景混合模型。IEEE计算机视觉和模式识别，第2462[25] C. Stauffer和W.格里姆森用于实时跟踪的自适应背景混合模型。计算机视觉与模式识别，2：246-252，1999。2[26] D. A. T.田中A. Shimada和R. I.谷口一种基于parzen密度估计的自适应背景模型快速构建Advanced Video andSignal Based Surveillance，第528-533页，2007年。2[27] R. Wang，F.布尼亚克湾Seetharaman和K.帕拉尼亚潘使用通量张量和s-分裂高斯模型进行静态和运动目标检测。计算机视觉和图案识别研讨会，第420-424页，2014年。6[28] Y.王，P. - M. Jodoin，F.作者：J. Konrad，Y. Benezeth和P.伊什瓦CDnet 2014：扩展的变化检测基准数据集。IEEE计算机视觉和模式识别会议，第387-394页，2014年。5[29] H. N. Y. Nonaka、野中新木霉A.Shimada和R.I. 谷口基于时空特征的综合背景建模评估报告。计算机视觉和模式识别研讨会，90（7）：9-14，2012。2[30] C. Yingying，W.Jinqiao和L.汉卿。学习可共享模型以实现稳健的背景减除。2015年国际多媒体与博览会。65487[31] Z. Zhenjie和Z.雪波。用于背景建模的堆叠多层自组织映射IEEE Transactions on Image Processing，24（9）：2841-2850，2015。二、三[32] Z. Zivkovic和F.van der Heijden。有效的自适应密度估计每图像像素的任务背景减法。 Pattern RecognitionLetters，27（7）：773-780，2006. 2

下载后可阅读完整内容，剩余1页未读，立即下载