视频序列的时空分割方法研究及其在头肩视频中的应用

132 浏览量更新于2024-01-18 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报基于熵特征和峰均值聚类的头肩视频序列Prabodh Kumar Sahooa，Prabodh，Priyadarshi Kanungob，Satyasis Mishrac，Bibhu Prasad Mohantyda电气和电子工程系，C.V. 拉曼全球大学，布巴内斯瓦尔，奥里萨邦752054，印度bC.V.电子和电信工程系。拉曼全球大学，布巴内斯瓦尔，奥里萨邦752054，印度c埃塞俄比亚阿达玛科技大学电子与通信工程系d印度奥里萨邦布巴内斯瓦尔Khandagiri SOA大学ITER电子与通信工程系，邮编751030阿提奇莱因福奥文章历史记录：收到2020年2020年12月24日修订2020年12月26日接受2021年1月13日在线提供保留字：时间差分分割熵聚类运动目标检测A B S T R A C T随着视频会议和物联网应用需求的增加，高效的视频编码标准是必要的。MPEG-4编码方案的性能取决于视频对象平面（VOP）生成方法的效率。在诸如新闻阅读、视频讨论视频序列的头部和肩部视频中，对象在两个连续帧之间具有非常小的移动。因此，传统的分割方法不能有效地提取完整的VOP本文提出了一种有效的时空分割方法来提取头肩视频序列中的运动目标，以生成VOP。首先，基于每个像素的时间变化的熵来生成每个帧处的对象的运动图。其次，基于峰值均值聚类方法对每一帧进行空间分割。最后，融合运动图和空间实验结果表明，该方法具有最高的检测准确率与平均交集（IOU）得分为94.32%，每帧的F1措施为97.75%版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在当前的COVID-19疫情形势下，从学校到办公室，一切都转移到视频会议模式。主要的挑战是在线视频会议的视频数据解决上述问题的可行方案之一是提高视频编码标准的效率。MPEG-4视频编码标准的效率在很大程度上取决于视频对象平面（VOP）生成工具的效率大多数会议视频都是头部和肩部视频。因此，在这项工作中，我们开发了一个有效的VOPs生成工具的头部和肩部的视频。拟议*通讯作者。电子邮件地址：prabodh@cgu-odisha.ac.in（P.K. Sahoo），pkanungo@cvrgi.edu.in （ P. Kanungo ）， satyasis. astu.edu.et （ S.Mishra ）， bibhumohanty@soauni-versity.ac.in（B.P. Mohanty）。沙特国王大学负责同行审查该方法能有效地将头部和肩部视频中的慢速运动目标（人）从背景中分离出来。缓慢移动对象检测的最重要的应用是ICU中的患者监测、基于CCTV的老年人活动监测和现场新闻阅读场景等（Meier和Ngan，1998;Zhao等人，2018年）。在文献中，大多数方法解决了视频中的快速或适度移动对象检测（Barnich和Droogenbroeck，2011; Bouwmans，2014; Zhu等人，2014; Sengar和Mukhopadhyay，2016; Xia等人，2016; Jianfang等人，2017年）。基于摄像机传感器、光线条件、物体的速度、摄像机的运动和其他环境条件，视频彼此不同。由于上述所有变化，运动目标检测在监控应用中仍然是一项具有挑战性的任务。在所有可用的方法中，光流、时间差分和背景减除是三种最受欢迎的移动对象检测方法（Duncan和Chou，1992; Bouwmans，2014; Choudhury等人，2016年）。Honnit等人（2020）提出了一种数据融合模型来提高运动对象分类的分类精度，其中考虑了运动显著图和边缘图的融合来提取运动对象轮廓。Nasr等人（2017）使用多尺度结构相似性指数（MS-SSIM）进行运动https://doi.org/10.1016/j.jksuci.2020.12.0191319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comPrabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5297ðÞð Þ¼我我ðÞR×Cð Þ ð Þð ÞK我2px;y不不氮氧化物NF侦测MS-SSIM与统计方法相比具有较低的计算复杂度。根据Nasr et al.（2017），所提出的方法对于运动发生的检测是有效的，并且不适合于移动对象检测。但是，所有这些用于中等和快速运动目标检测的方法在检测慢速运动目标时都不是有效的。专门对缓慢运动的物体进行的工作很少.为了解决慢速运动目标检测的问题，Neri等人报道了一种混合算法。（1998年）。在第一步中，Neri等人（1998）使用高阶统计量（HOS）来利用时间差信息将前景与背景分离。HOS特性增加了复杂性。由于时间运动信息的冗余性和阈值的选择，该方法不能有效地处理所有类型的慢运动目标。Zhu和Wang（2012）通过使用多帧之间的四阶差分矩估计初始运动像素来改进Neri等人（1998）的然后，利用高斯混合模型提取帧中的均匀区域。最后，融合两个Zhu和Wang（2012）方法的主要缺点这增加了合并过程的复杂性，降低了空间分割的效率。Subudhi和Nanda（2008 b）提出了一种基于马尔可夫随机场（MRF）模型的时空分割来提取对象。他们使用复合MRF来模拟像素标记2. 建议的慢速移动物体检测所提出的基于时空融合的缓慢移动对象检测的框图表示如图1所示。该方法分为三个步骤：（i）基于熵的时间运动图（EMM），（ii）基于峰值均值聚类的空间分割（PMSS）和（iii）EMM和PMSS的融合。生成时间运动图以提取对象区域的初始运动信息。进行空间分割以提取帧的均匀区域。融合操作用于使用基于运动像素与对应于特定均匀区域的像素的数量的比率的标准来组合这两种信息。2.1. 基于熵的运动映射平均信息或熵度量数据中的随机性。在头肩视频序列中，对象运动被限制在特定的空间区域内。目标运动区域像素值的瞬时变化率高于背景区域。因此，与背景区域相比，对象区域中的像素的随机性因此，熵是从时间差捕获运动图的潜在特征之一。让，d k; d k-1; dk-2;. ：d k-NF定义连续帧差分通过将第K帧与前一帧求差生成的矩阵NF帧。矩阵dk可以定义为：过程，其中每个像素的标签由maximiz确定。后验概率（MAP）在另一部作品中，苏布迪和dk¼jFk-Fk- 1 j 1Nanda（2008a）提出了一种基于初始时空分割的演化来检测快速和慢速运动对象的方法。Subudhi和Nanda（2008年b）提出的复合MRF模型考虑了空间和时间分布。在该方法中，他们根据经验选择模型参数，并将第一帧的分割结果演化为后续帧的分割。虽然这种方法比他们以前的方法快十三倍（Subudhi和Nanda，2008 b），但是这种方法的复杂性对于实时应用仍然非常高。所有这些方法的效果取决于时间信息和空间分割方法的性能。这些时空方法的计算复杂度在（1）中，dk是帧FK和FK-1之间的绝对帧差矩阵。dK的（x，y）元素，即dK x;y是一个在0和255之间的随机变量。得到的概率可以通过考虑先前的帧差分矩阵如下地评估dKx;yi克雷什px;y i;200万其中，n<$K <$x;y给出了在N个F元素中在（x，y）处出现第i个差的次数的值像素（x，y）在第K时刻的熵被定义为：255Hx;yXpKx;ylog1;31/4我（Otsu，1979; Deng和Manjunath，2001; Singla和Patra，2017;Resma 和Nair，2018; Sambandam 和Jayaraman，2018 ）。然而，这些方法中的大多数都不能在实时应用的准确性和时间复杂度之间保持平衡。这促使我们开发一种快速有效的时间运动图以及空间分割方法来检测室内场景中的慢速运动目标。本文的主要贡献是(i) 提出了一种基于熵的时间运动图（EMM），以有效地捕捉运动信息。(ii) 针对聚类算法中的过分割问题，提出了一种基于Peak-Means聚类的空间分割方法(iii) 提出了一种高精度的慢运动目标检测的时空融合方法。熵HK x;y有界于0和1之间。现在需要将（x，y）处的熵值分类为运动像素和静态像素。这两类分类是通过应用Otsu在应用大津阈值之前缩放熵特征GK x;y可以是定义为GK x;y255×HK x;y。GK的直方图为：联系我们ni;第二节. * ; 255万4 千美元其中，ni是GK中存在的第i级特征的出现次数，R和C表示帧的行和列。考虑到背景比目标暗，最佳阈值-通过最小化加权类内方差Varω来评估旧tω。tω）minVarwtm i n ½w1tVarBtw2tVarOt]ð5Þ本文的后续部分组织如下：运动目标检测在第2节中制定。第3节介绍了实验结果和性能评价，然后在第4中得出结论。其中，权重w1-t表示背景类别的概率，而w2-t表示在阈值t处对象类别的概率。类似地，VarB t和VarO t是背景和对象类在阈值t处的方差。这些参数的评估如下由于空间分割方法的复杂性而非常高许多空间分割方法已经在Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5298XXK0K;1K;：：;255K...............1w1时间轴2在h上应用掩模大小为1×我5KXXw1分ti¼0history;andw2history;255联系我们Fig. 1. 提出的融合模型。2.2. 峰值均值空间分割抗氧化剂任何聚类算法的效率都高度偏向于聚类数的初始猜测。计算机-不[]][]][][]1/4和2X552小时w1时间轴2小时任何基于合并的聚类算法的理论复杂度随着质心的精确初始猜测而降低。为了解决这个问题，峰值检测方法制定检测近最佳的集群以及它们的质心的位置。大多数情况下，直方图中的峰值代表了不同地区的强度水平不需要的或多余的峰VarO联系我们[1/2-m2]2017年12月27日这是由于噪音的影响。这些冗余峰值可以通过平滑处理来抑制的直方图m1t和m2t是背景和目标类的平均值，具有N个像素的帧被定义为阈值tm1t和m2t的计算公式为：不255nnniNNNm¼Xi×h和m¼Xi×小时数：108小时K考虑到（5）中的最佳阈值tω，对熵特征帧GK x;y进行阈值化以生成运动图MK x;y。噪声和冗余峰值。滤波后，平滑直方图由下式给出. 如果i = 0;1;254;255M= x; y = x。1;如果GK <$x;y <$P tωð9ÞhSKKai;否则0;否则在Akiyo视频的帧号70处的EMM的结果被放置在图2中。基于（3）的熵图像如图2（a）所示。是清楚地观察到熵在面部和头部区域中是高的西姆-与以往相比，人体区域的熵值低于头部，但高于背景，其中，1升/加仑2[1/4小时半]l¼-2在帧的平滑直方图hS中检测所有峰值，将检测到的峰值的位置和概率存储在IP图 2（a）在图中显示。第2段（b）分段。分布显示，熵在有限的区域内变化。在其他领域，它几乎是恒定的。存在熵变化的区域是指图2（c）中的头部和肩部区域。在Otsu阈值化之后，EMM呈现在图1中。 2（c）. EMM能够提取大部分如下IPk½fi;hSKigjhSKi>hSKi1hSKi>hSKi-1]Kð11Þ可以忽略不计的假阳性在第3中评价和确认了EMM的性能。设检测到的峰的数量为P，并将这些峰视为聚类的初始质心虽然平滑过程超级-hk¼ð10Þ1/4联系我们w2双头抑制Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5299图二. (a)秋阳样本帧的熵图像;（b）图（a）的分布;（c）通过保持图（a）的图像而生成的EMM。（一）.Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报530088ð Þ8ðÞ[Pg2GKSG我按下噪音，仍然有可能在峰值列表中出现冗余峰值。这种冗余可以通过所提出的峰值均值聚类或P均值聚类中的合并步骤来进一步减少。P-Means算法的步骤如下所示2.2.1.峰均值算法：在峰值均值算法中使用的变量如下：P表示峰值的数量，Nc是簇的数目，Ci是簇G i的质心。 C0i是聚类G i的更新后的聚类质心;“g”是灰度值，N是帧的空间分辨率，n i是帧中存在的第i个灰度级的计数，并且q K是第K个聚类中的元素的数量。步骤1指定Nc¼ P和Cp¼ gp，其中p ¼ 1; 2; 3;. ：; Nc.步骤2计算每个灰度值与Nc个聚类的所有质心之间的距离第c聚类与第g灰度值之间的距离为............................................................. ‘四分之一; 1; 2;. ......这是什么？......你好。 ; 255：120如果<' cg ' dg d-c，则将第g个灰度值添加到第c个聚类G c。在此过程中，形成Nc簇，如G1;G2;;GNc.步骤3更新每个聚类的质心。Xg×ngC0½g2Gi;g ¼ 1;2;.. . ：; 25613XNGg2Gi步骤4IfjCi-C0ij>Thi，则Ci/C0i并转到步骤2，否则转到步骤5，其中，Th是阈值。最佳值的Th是实验选定为1。步骤5选择具有小于帧的空间分辨率N的5%的元素的数量的最小尺寸的聚类例如，最小尺寸的集群是具有qK个元素的GK如果qK=0：05×N，则将GK合并到G n 0：05 ×NnK，则将帧分割为N p 均匀区域，并转到步骤7，否则转到步骤6。步骤6将聚类数更新为Nc/Nc-1，并将GCPg2GK Sgð15Þ更新后，删除集群GK并转到步骤2。步骤7停止聚类过程并返回空间分割结果。在步骤8中的停止标准之后，属于特定聚类的图像像素将被标记有聚类编号。标记图像SK被指定为：SKx; y c; ifFKx; y 2 Gc;c 1; 2;. ...：; Ncð16Þ其中，c是簇数，FK x;y是坐标（x，y）处的灰度级2.3. 融合过程和目标检测（16）中的Sk表示空间分割，（9）中的MK表示运动信息。由于缓慢的动作，图三.列1：测试视频的样本帧;列2：帧差分;列3：二进制掩码;列4：MI;列5：建议的EMM。但是，MK无法捕捉到完整的移动物体。如果MK中对应于S K中某个连通区域空间位置的运动像素数大于某个阈值，则该连通区域被认为是运动物体的一部分。由于SK是P个齐次区域的并，PSK¼CKp17第1页其中，CKp是PMSS分级图像Sk中的第p级像素的集合。PMSS中的每个同质像素组具有一个或多个Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5301[KPKPKPKPKPKPKPKPKPKPR¼E表1Avg.时间信息的精确度量（PA）。视频FDBMMI拟议的EMM昭代92.49888.99493.87693.883母亲女儿89.73490.80291.15991.688奶奶83.33380.34583.71684.006小姐92.40192.46494.0294.333沉默79.8164.68980.43480.812克莱尔87.36781.12993.83193.844苏西92.49295.75997.86897.878推销员88.61289.08589.18892.308提词器89.35783.16991.90293.431讲话92.53580.25590.84793.431Avg. PA/帧88.81384.66990.68391.561表2Avg. 时间信息的CPU时间（TA），单位为秒。视频FDBMMI拟议的EMM昭代0.62962.7463.15844.519母亲女儿0.30917.0342.4214.818奶奶0.30818.3481.5974.746小姐0.13511.7881.1866.024沉默0.20813.3782.7044.682克莱尔0.29412.1341.4614.942苏西0.48690.5663.37010.998推销员0.25212.4692.9319.673提词器0.52714.5263.90710.160讲话0.65815.5175.24813.927Avg. TA/frame0.38026.8492.79711.448表3测试视频中群集的初始和最终数量视频帧帧大小平均初始簇/帧平均最终簇/帧合并的平均聚类秋代288 288×352 29722奶奶870 144×176 24816母女961 144×176 26719小姐80 144×1761230静音451 144×176 28424苏茜450 360×528 21813销售员599 144×176 19811克莱尔494 144×176 21615电传打字机5510 256×256 23518发言3903 256×256 22202一个不相交的区域。CKp中的均匀区域可以用它的X Kp不相交区域表示X通过观察来自8个测试视频的1000帧，将a的值经验性地设置为0.4。采用形态学闭合和中值滤波等后处理操作抑制空洞CKp¼KPx¼1Rx18英寸和噪声。其中，Rx 是中第p均匀区域的第x个不相交区域，3. 实验结果与讨论第K帧。设Ex是集合Rx中元素的个数。出来其中x元素，Nx元素被检测为运动像素从开源中收集的八个缓慢移动的物体测试视频在MK。如果Nx和Ex 大于一个正常数a，则连通区域Rx被分类为目标，否则被分类为背景。因此，每个连接集基于如下标准被分类为对象和背景（1个如果。Nx >a数据库， Trace 网站数据库（ Reisslein 等人， 2000 ）和derfyoutube.com。我们所提出的方法的性能进行了验证与五个不同的运动目标检测方法在这些方法中，第一种方法是XxKPKP否则为0; p 1; 2;. ：;P和x 1/4; 2;. ：;XKpð19Þ建议的EMM-M-k-ε和Otsu-S-k-ε的组合（Otsu，1979）[EMMO]。基于EMM-KNN和JSEG的KNN的结合考虑到每个类别的所有区域，可以如下提取移动对象区域DK（Deng和Manjunath，2001）[EMMJ]构成了第二种方法.类似地，所提出的基于EMM的EMMk和基于Singla的组合[P“X[Kpn.编号KP公里S.K.（Singla和Patra，2017）[EMMS]代表第三种方法。Dk¼p 1x1X： ]R x¼X公里ð20Þ然而，第4和第5种方法是两个缓慢移动的对象Zhu和Wang（2012）和Sahoo开发的检测方法等人（ 2018）分别。时间运动的表现RPrabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5302.X.X.Xð Þ ð Þ ð ÞAIOU评分¼NTA¼NFK11名NFPA¼NT·P·卡茨TKF K×100 ð21ÞFK¼1P P时间复杂度和视觉感知被用于P-Means分割的性能评估。类似地，平均交集大于并集（AIOU）分数、平均CPU时间（TA）和平均F1/F1/A性能度量用于评估最终移动对象检测步骤。具有NF帧的视频的AIOU分数被定义为：1“XNF.Gk\Dk#F[Dk GKK1在（22）中，Gk和Dk分别表示第k时刻的地面实况帧和检测到的运动对象帧定义为：1XNFTK是在第K帧提取对象的CPU时间。同样，平均F1指标（以百分比表示）基于CUP和CUP指标定义如下：F1A 1/2×。Σ×100ð2 4ÞRA×PAR AAA1名NF在哪里;RA¼NT·P·卡茨TKF K×100 ð25ÞFK¼1P N1名NFPA¼NT·P·卡茨TKFK×100 ð26ÞFK¼1P P在（25）中，TPK、FNK和FPK分别是通过与对应的地面实况帧进行比较而3.1. EMM的性能见图4。第1列：Otsu分割;第2列：JSEG分割;第3列：Zhu等分割;第4列：Singla等分割;第5列：Sahoo等的VBT;第6列：提出的P-Means分割。基于平均精度度量平均CPU时间（TA）和每帧平均CPU时间（TA）。其中：EMM的性能用二进制掩码（BM）（Zhu和Wang，2012）、帧差分（FD）（Lipton，2012）和帧差分（FD）（Lipton，2013）来验证。例如，1998）和运动信息（MI）（Sahoo等人，2018年，以动画为主。所有测试视频样本帧的不同方法生成的运动图如图所示。3.第三章。从图3中可以清楚地看到，与所有其他方法相比，所提出的EMM能够以非常低的假阳性像素提取最大数量的运动像素此外，假阳性率通过PA测量来量化，其在表1中针对不同测试视频中的所有四种方法从表1注意到，对于所有测试视频，EMM具有最高的PA值运动图中最低的误报率将有助于减少最终目标检测中的误报率表4Avg.空间分割的CPU时间（TA），单位为秒。视频OtsuJSEG朱SinglaVBTP均值昭代0.27328.5916.1133.640.2812.42母亲女儿1.06128.6311.008.820.334.40奶奶0.68108.8418.6210.970.525.88小姐0.33157.7811.788.840.486.29沉默2.51165.631.5210.930.381.42克莱尔0.2875.932.767.320.272.21苏西3.78653.1113.0063.250.5011.65推销员0.73154.3912.548.840.345.04提词器0.6174.1813.793.620.305.90讲话0.4678.227.813.640.3010.29Avg. TA/frame1.07192.5310.8915.980.376.55！！！×100ð22ÞTK23Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5303图五、每行中的第一列表示地面实况（GT）帧，每行中的其余列表示使用特定方法的测试视频的检测结果结果. 在表2中给出的（TA）度量方面，注意到所提出的EMM具有比FD和MI方法略高的TA这是由于在FD方法中仅使用两个帧来寻找差帧，而在MI方法中考虑11个然而，在所提出的EMM方法中，60帧用于找到差异帧。但它比BM法具有更低的TA虽然FD的CPU时间是所有方法中最低的，但它具有最高的假阳性（最低的PA）。因此，考虑到PA和（TA），与其他三种运动图生成方法相比，EMM方法具有优越性3.2. P-Means空间分割表3中列出了不同测试视频的P-Means算法收敛后每帧初始峰值的平均数量和每帧聚类的平均最终数量。从表3中可以明显看出，所提出的P-Means聚类-Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报5304表5每帧平均总CPU时间（TA）（以秒为单位）。视频EMMOEMMJEmmsZhu等人Sahoo等人提出昭代34.9130.9356.7582.2215.6924.51母亲女儿9.13101.1215.2835.647.5414.13奶奶96.1496.4315.5439.316.7111.38小姐10.71106.7915.5829.748.7410.20沉默11.97121.7915.5517.046.7711.29苏西21.28240.7235.59107.8513.2915.41推销员15.74136.5925.7325.1011.3813.63克莱尔7.2577.0913.5416.124.537.05提词器21.0689.5715.7633.4513.3721.39讲话18.8288.6517.8727.5317.1845.37Avg. TA/frame24.7108.9725.4841.3910.5217.43表6每帧的平均IOU分数（%）（AIOU）。视频EMMOEMMJEmmsZhu等人Sahoo等人提出昭代82.1885.5187.0189.7196.5197.04母亲女儿84.3188.3377.0589.0889.5494.35奶奶86.5287.7340.9571.8587.7391.41小姐81.4170.6272.0679.9784.6594.72沉默76.6085.6686.7586.8188.3891.83苏西87.9364.0385.3188.9193.9995.59推销员73.1267.3970.5774.4381.0189.59克莱尔97.0592.7078.9897.1297.1497.72提词器95.6193.8788.8094.5397.3097.95讲话92.0183.8986.2242.3889.5792.96AIOU/帧85.6781.9777.3781.4890.5894.32表7Avg. F1-每帧的测量值，单位为%（F1A）。测试视频方法EmmsEMMOEMMJZhu等人Sahoo等人提出昭代98.4794.5992.2496.0698.3798.49母亲女儿86.7296.9294.2990.3896.2497.09奶奶54.9793.4593.0983.6995.0495.31小姐81.5291.5383.1490.7796.9497.14沉默95.1586.7392.5191.7295.5595.77苏西92.0296.8676.9988.6497.5097.84推销员91.1390.2583.2374.4292.7793.79克莱尔87.2898.6198.3596.6598.5098.88提词器93.9697.7596.8297.1698.6398.96讲话92.3895.8391.0458.9994.4696.34Avg. F1A/帧87.3594.2490.1786.8596.3997.75ING能够减少由于场景的噪声和其它伪像而产生的冗余簇。使用（Otsu，1979）、JSEG（Deng和Manjunath，2001; Zhu和Wang，2012; Singla和Patra，2017; Sahoo等人，2018），并且所提出的基于P均值的空间分割结果被放置在图4中。从视觉感知上观察到，基于P-均值的空间分割方法在同类区域的分类方面优于其他方法。除基于P-均值的分割方法外，其余方法都是将目标区域与背景的某些部分合并，反之亦然。表4表示不同空间分割方法的平均时间复杂度（TA）。所提出的P-means方法具有更低的时间复杂度比Singla，JSEG和朱的方法。作为VBT（Sahoo等人，2018）和Otsu是基于阈值的分割方法，与所有其他方法相比，这两种方法的时间复杂度非常小。3.3. 运动目标检测运动对象检测结果如图5所示。图5的每一行中的第一列表示地面实况帧，并且每一行中的其余列对应于用于不同测试视频的特定方法的结果。来自图5的最后一列的视觉感知描绘了所提出的方法比所有视频中的其他方法更有效地检测缓慢移动的对象。表5显示了所有方法每帧的平均CPU时间（以秒为单位）。从表5和表6可以看出，我们的方法在所有方法中具有第二低的TA和最高的AIOU分数 F1A 意思是，确保所有测试视频中的不同方法列表中表7.值得注意的是，所提出的方法具有最高F1所有测试视频中的一项措施。因此，所提出的方法在定性和定量测量方面都优于所有方法。Prabodh Kumar Sahoo，P.Kanungo，S.Mishra等人沙特国王大学学报53054. 结论在这项工作中，一个新的和全自动的缓慢移动的目标检测方法的开发。该方法是基于时间和空间信息的融合。实验结果表明，本文提出的基于熵特征的运动图（EMM）具有很低的误报率，每帧的准确率高达91.561%。同样，提出的基于P-Means聚类的空间分割是完全自动的，高效的，并能够处理过分割问题。最后，本文提出的融合方法有效地结合了时间和空间信息，检测出了慢速运动目标，平均IOU分数为94.32%，平均CPU时间为17.43 s/帧，F1每帧测量97.75%。然而，所提出的方法如果场景包含高背景噪声、高照明变化以及快速和缓慢移动的对象，则失败。未来的工作将集中在处理户外视频中的背景场景以及减少总的计算时间。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Barnich，O.，Droogenbroeck，M.C.，2011. vibe：一种通用的视频序列背景减除算法。IEEE Trans.图像处理。 20（6），1709-1724。Bouwmans，T.，2014年。传统的和最近的方法在背景建模的前景检测：概述。Comput. Sci. Rev. 11-12，31-66.Choudhury，S.K.，Sa，P.K.，Bakshi，S.，Majhi，B.，2016.评估用于目标检测的背景减除与缓解挑战性场景。IEEEAccess 4，6133-6150。邓，Y.，Manjunath，B.S.，2001.图像和视频中颜色纹理区域的无监督分割。IEEETrans.模式肛门。马赫内特尔 23（8），800-810。邓肯，J.H.，周氏C.的方法，1992.运动检测和光流计算。IEEE Trans.模式肛门。马赫内特尔 14（3），346-352。Honnit，B.，Soulami，K.B.，Saidi，M.N.，Tamtaoui，A.，2020.基于信息融合的运动目标多分类。J.沙特国王大学-Comput.信息科学，1https://doi.org/10.1016/j.jksuci.2020.05.003Jianfang，D.，Qin，Q.，Zimei，T.，2017.基于循环矩阵的背景减除信号图像视频处理。11，407-414。Lipton，A.J.，Fujiyoshi，H.，Patil，R.S.，1998.实时视频中运动目标的分类与跟踪。在：第四届IEEE计算机视觉应用研讨会，pp。八比十四Meier，T.，颜健宁，1998.自动分割运动对象，用于视频对象平面的生成。IEEE Trans.Circ.系统视频技术8（5），525-538。蒙哥马利角，2004. Xiph.org视频测试媒体[derf'scollection]. http：//media.xiph.org/video/derf/ [Accessed：2016]..Nasr，文学硕士-美国，AIRahmawy，M.F.，Tolba，A.，2017.运动检测的多尺度结构相似性指标。J. King Saud Uni. Comput.信息科学2 9 ，399-409。Neri，A.，Colonnese，S.，鲁索，G.，Talone，P.，1998.自动移动目标和背景分离。信号处理。66，219-232.Otsu，N.，1979.一种从灰度直方图中选取阈值的方法。IEEETrans.系统曼·赛伯恩 9（1），62-66。Reisslein ， M. ，卡拉姆湖， Seeling ， P. ， Fitzek ， F. ， 2000. Yuv 视频序列。http://trace.eas.asu.edu/yuv/[Accessed：2016]..Resma，K.P.B.，Nair，M.S.，2018. 基于Krill Herd优化算法的多级阈值图像分割。J.沙特国王大学- Comput.信息科学，1–14https://doi.org/10.1016/j.jksuci.2018.04.007。Sahoo，P.，Kanungo，P.，米什拉，S.，2018.一种用于慢速运动目标检测的快速谷型分割方法。信号图像视频处理。12（7），1265- 1272。Sambandam，R.K.，Jayaraman，S.，2018.基于自适应最优阈值的数字图像多级分割。J.沙特国王大学- Comput.信息科学30，449-461。Sengar，S.S.，穆霍帕杰，S.，2016.基于归一化自适应光流的运动目标区域检测。Optik-Int. J. Light Electron Opt. 127（16），6258-6267。Singla，A.，帕特拉，S.，2017.一种用于图像分割的快速自动最优阈值选取技术。信号图像视频处理。 11（2），243-250。Subudhi，B.，Nanda，P.，2008.一种基于进化的复合马尔可夫随机场模型的慢速和快速运动视频目标检测方法在：第六届印度计算机视觉，图形和图像处理会议，pp。398-405..Subudhi，B.，Nanda，P.，2008年b。使用复合马尔可夫随机场模型检测缓慢运动的视频对象。在：IEEE区域会议，TENCON2008，pp。 1比6Xia，H.，Song，S.，他，L.，2016.一种改进的基于时空分布的高斯混合背景模型及其阴影检测方法。信号图像视频处理。10，343-350.赵文，徐，X.，Zhu，Y.，中国科学院，徐，F.，2018.基于局部和全局高斯拟合能量的活动轮廓模型用于医学图像分割Optik-Int. J. LightElectron Opt. 158，1160-1169。Zhu，Z.，王玉，2012.一种用于慢速运动目标自动分割的混合算法。AEU-内部 J. 电动Commun. 66，249-254.Zhu，S.，高，J.，Li，Z.，2014.基于改进的梯度矢量流snake和帧内质心跟踪方法的视频对象跟踪。Comput.《电气工程》40，174-185页。

下载后可阅读完整内容，剩余1页未读，立即下载