没有合适的资源?快使用搜索试试~ 我知道了~
3116连续帧基于时空插值一致性训练的视频阴影检测Xiao Lu1,Yihong Cao1,Sheng Liu1,ChengjiangLong2,Zipei Chen3,Xuanyu Zhou1,Yimin Yang4,5,Chunxia Xiao3*1湖南师范大学工程设计学院,长沙,中国2Meta Reality Labs,Burlingame,CA,美国3武汉大学计算机科学学院湖北武汉4加拿大湖首大学计算机科学系5加拿大Vector Institute for Artificial Intelligence{卢晓,曹义红,刘生,周喜义}@ hunnu.edu.cn,clong1@fb.com,{czpp19,cxxxiao} @ whu.edu.cn,yyang48@lakeheadu.ca摘要带标签SANet(a) SANet结果对于监督视频阴影检测方法来说,对大规模数据集进行注释是一个挑战。将基于标记图像训练的模型直接应用于视频帧可能会导致较高的泛化误差和时间不一致的结果。 在本文中,我们通过提出时空插值一致性训练(STICT)框架来解决这些挑战,以合理地将未标记的视频帧与标记的图像一起馈送到图像阴影检测网络训练中。具体来说,我们提出了空间和时间ICT,其中我们定义了两个新的插值方案,即,空间内插和时间内插。然后,我们推导出相应的空间和时间插值一致性约束,以提高泛化的像素分类任务和鼓励时间一致的预测,分别。此外,我们还设计了一个用于图像中多尺度阴影知识学习的尺度感知网络,并提出了一个尺度一致性约束,以最小化不同尺度下预测结果的差异。我们提出的方法在ViSha数据集和自注释数据集上进行了广泛的验证。实验结果表明,即使没有视频标签,我们的方法是优于大多数国家的最先进的监督,半监督或无监督的图像/视频阴影检测方法和其他方 法 在 相 关 的 任 务 。 代 码 和 数 据 集 可 在https://github.com/yihong-97/STICT 上 获得。*通讯作者。(b) STICT结果利用科技创新和信通技术促进知识图1.由我们的图像阴影检测网络SANet生成的阴影图(a)在标记的图像上训练,(b)在标记的图像和未标记的视频上训练。1. 介绍阴影检测是许多计算机视觉和图形任务的重要问题,并且在广泛的视觉应用中引起了兴趣[4,20,40,41],例如对象识别[13,23-最近,由于深度卷积神经网络(CNN)的发展,阴影检测在图像基准数据集[33,35,44]上取得了显著进展[6,7,12,19,35,43,45],而缺乏大规模注释数据集是基于深度学习的方法在视频阴影检测(VSD)中应用的主要原因如何将未标记的视频样本合理地输入到网络训练中,并有效地将知识从标记的图像转移到视频中,对于提升基于深度学习的方法在无监督数据上的能力至关重要然而,现有的半监督方法很少和具有挑战性的转移阴影模式在im-vector中。编码解码3117年龄(监督)到视频(无监督),具有端到端的训练,小的泛化误差,同时具有时间一致的预测。在本文中,我们提出了一个时空插值一致性训练(STICT)框架的图像到视频的阴影知识转移任务,其中未标记的视频帧与标记的图像可以合理地送入一个规模感知的阴影检测网络(SANet)进行端到端的训练。相应地,我们提出了空间插值一致性约束,时间插值一致性约束,和规模一致性约束,以指导网络训练,以提高泛化,产生时间平滑和规模一致的结果。如图所示。1,STICT可大大改善检测结果。为了增强我们的逐像素分类任务中的模型泛化能力,我们提出了受半监督图像分类方法插值一致性训练(ICT)启发的空间ICT[34]。ICT鼓励在两个未标记图像的随机插值处的预测与在这两个图像处的预测的插值一致如[34]中所证明的,位于类边界附近的样本有利于强制决策边界遍历低密度分布区域,以获得更好的泛化能力。与[34]中使用的RGB空间中图像之间的随机插值不同,我们提出了空间插值,即特征空间中两个不相关像素的插值。我们的空间插值的动机是直觉1)不相关样本的插值更有可能位于类边界附近,以平滑决策边界; 2)语义像素的插值对于像素分类任务更有意义。然后,我们相应地推导出空间插值一致性约束,以指导网络训练,从而提高泛化能力。为了鼓励时间一致的预测,我们提出了时间ICT来跟踪连续帧之间的同一像素的预测,其中我们建议使用沿时间轴通过光流的两个连续帧之间的时间内插。然后,我们推导出一个时间插值一致性约束,以指导网络训练产生时间平滑的结果。与其他利用多帧特征或帧间相关性来保证时间一致性的方法相比,该方法通过这种额外的约束来指导网络训练,并独立处理每一帧进行推理,而不引入计算开销。我们要强调的是,空间和时间插值是在训练过程中进行的,这使得我们的框架非常简单的推理。考虑到视频中的阴影往往具有较大的尺度变化,本文设计了一种尺度感知网络(SANet)作为图像阴影的单帧网络科技创新和信通技术框架内的知识学习。与传统的阴影特征学习的编码器-解码器网络不同,SANet被设计为一个编码器-解码器-细化器结构,具有特征融合模块和细节attentive模块,以学习不同尺度下的图像阴影知识。我们还提出了一个尺度一致性约束,从而最大限度地减少在不同尺度上的预测之间的差异。我们总结我们的贡献如下:(1) 我们提出了一个STICT框架的图像到视频的阴影检测任务,这是很少考虑在前半监督方法。所有标记的图像和未标记的视频帧可以合理地输入到图像阴影检测网络进行端到端训练,这保证了紧凑和实时的推理模型。(2) 我们提出了空间和时间的ICT,在其中我们定义了两个新的插值方案,空间插值和时间插值,更好的一般化,在像素分类任务和时间的一致性,分别。我们将SANet设计为STICT中的单帧网络,用于多尺度阴影特征学习,并提出了相应的尺度一致性约束,以获得准确的阴影图。(3) 我们为VSD任务注释了一个具有挑战性的数据集。在ViSha和我们的自标注数据集上的实验结果表明,我们的方法比大多数前SOTA监督/半监督/无监督图像和视频方法性能更好2. 相关工作图像阴影检测。基于全监督深度学习的图像阴影检测[6,12,19,43]最近通过学习区分特征[17,43]或上下文信息[12]取得了重大进展Le等人。 [19]提出使用GAN生成具有难以预测的案例的示例,以增强泛化能力。Chen等人。 [6]提出了一种多任务半监督网络,以利用未标记的数据进行更好的泛化。视频阴影检测(VSD)。传统的VSD方法[14,18,22,26,31]试图通过统计模型[18,26]通过使用手工制作的特征来识别阴影最近,Chen et al. [5]注释了第一个大规模数据集(ViSha),并提出了用于完全监督VSD的三重协作网络(TVSD-Net),该网络利用三重并行网络来学习视频内和视频间的区分表示。半监督学习(SSL)。决策边界应该穿过输入分布中的低密度路径的假设激发了许多一致性正则化SSL方法。它们在如何选择数据扰动/增强方法以鼓励3118DDFuD2HCFW最小uuC空间相关性FuLuuLLLLuuuuLLi=1uu--L L LL空间插值Fu混合Suℒ���������标记的图像LCS1张图片F预测阴影贴图地面实况塔古乌tu编码器学生SANet解码器ℒ������,ℒ���������1-溴,溴ℒ���������塔古乌未标记的视频SANet老师编码器EMA'解码器1 −������输入流:监督输入无监督输入EMA:指数移动平均更新LCS:局部相关混洗F:光流输出流:有监督的输出Fu的无监督输出F混合的无监督输出无监督输出F图2.我们的方法概述SANet(见图3)被用作学生和教师网络,以学习准确的阴影功能. 在训练阶段,标记的图像被馈送到学生,以获得监督损失sup。 在未标记的帧被馈送到学生和教师之前,在两个连续帧x t-k和x t+k之间进行时间插值以生成u u中间帧xt。然后,它们中的每一个都经过空间插值模块,分别获得学生和教师中的原始特征图Fu、局部混洗特征图F′u和空间插值特征图Fmix。 使用三个一致性损失Lsic、Ltic和Lsc以及Lsup来更新学生网络,而教师网络通过EMA来更新。未标记样本及其扰动样本的不变预测一些方法在RGB空间中增加未标记的样本,例如。,ICT [34],Cutmix[39]和Grid- Shuffle [3]。Ouali等人。 [29]指出,RGB空间中的增强难以满足逐像素分类任务的聚类,并提出对编码器的输出应用扰动我们的空间ICT与扰动方法[29]不同,因为我们使用空间插值来生成位于决策边界附近的新样本,以便比手动扰动更有效地平滑决策时间一致性。为了解决时间相关性问题,一些方法将视频序列中的相关性考虑在内,例如,通过使用光学技术通过Mean-Teacher学习方案将图像和视频帧转换为图像网络[32](如图31所示)。2)。我们使用SANet作为学生(由θ参数化)。教师与学生具有相同的结构,但由θ ′参数化,θ′是θ,i的指数移动平均(EMA)。e. ,θt′=ηθt′1+(1η)θt。在训练过程中,标记的图像被馈送到学生SANet中以计算监督损失sup(等式2)。第9段)。未标记的视频帧被同时馈送到教师和学生中,用于计算空间内插一致性损失sic(等式2)。5)时间插值一致性损失tic( 等式8 ) 和规模一致性损失 sc( 方程。第 11段)。更新θ的总损失是监督损失和三个一致性损失的总和N T[27]或循环单元[37],或通过获得帧fea。Ltotal=Lsup(xi)+βLcons(xt),(1)使用多帧信息的tures [5],这可能导致不准确的结果或不平衡的延迟。 Liu等人 [21]亲-i=1L ut=1在训练过程中,将帧之间的时间一致性视为额外的约束,并独立处理每个帧,以实现紧凑的模型和实时执行。与文献[21]中的一致性约束不同,本文从时态ICT中推导出时态一致性约束3. 该方法在这项工作中,我们可以访问标记的图像集XL={(xi,yi)}N以及未标记的视频帧XU={x1,···,xT}。我们的方法通过喂养来学习VSD模型哪 里cons( xt) =η1sic( xt) +η2tic( xt)+η3sc(xt),β、η1、η2和η3是权重参数。的空间和时间内插仅在训练阶段进行。在测试过程中,我们只利用学生网络来预测每一个输入帧的阴影图独立,因此没有计算开销引入推理。3.1.空间ICT根据聚类假设[34]:在输入分布中属于同一聚类的样本是空间插值空间插值时间内插XXX3119uuuu×E∈R×uu⊙uE∈Ruuuu不 uuc(p,p)=Fu(p)Fu(p)Ltic(xu)=Φmsefθ(xu),λtg fθ′(xu),Ft→t−kuu··uuuu很可能属于同一类,那么很容易推断,与[34]中使用的随机插值相比,两个不相关样本(可能属于不同类)之间的插值更有可能利用光流计算未标记帧xt-k和xt+k中的像素,以生成中间帧xt,xt=Mixλ(xt−k,xt+k)utu u(六)在类的边界附近定位,并且对于推送更有用使决策边界远离类界-λtg.xt−k,Ft→t−k<$+(1−λt)g.xt+k,Ft→t+k,白羊座此外,插值的两个图像在RGB空间缺乏语义信息是毫无意义的,我们的像素级分类任务。因此,我们提出了空间插值,这是一个插值的两个不相关的像素在特征空间。然而,要为每一个找到最不相关的一个,计算成本很高其中,Ft→t-k和Ft→t+k分别是从x_t到xt-k和xt+k的光流,g(,)是用于沿着光流扭曲帧的可微双线性插值函数,λt是控制两个帧的贡献的参数。然后,xt中的每个pix el可以被看作是xt−k和xt+k中的像素沿着时间的在整个特征图中的像素 为了解决这个问题,我们u轴线注意第t帧xtu已经存在于我们我提出了一个简单的插件模块,称为本地相关洗牌(LCS),如图所示2、寻找最不可靠的问题,它可以被视为之间的插值xt−k和xt+k。然后,根据公式6、我们注册-u ud d局部空间区域中的相关像素让FuH×W×C是x u的特征图,给定F u中的位置p及其邻域p′a,LCS模块通过以下方式计算语义相关性:通过实施以下项目来促进学生的学习局部插值一致约束fθ(xt)=fθ。Mixλ(xt−k,xt+k)<$T′λtg. fθ′(xt-k),Ft→t-k<$+(1-λt)g. fθ′(xt+k),Ft→t+k≠.(七)上述操作将横穿以p为中心的d d个区域,并输出d个二维相关向量。通过将中心像素替换为与其相关性最小的像素,我们可以获得局部混洗特征图F′u,其中每个像素是局部最不一致的。相应地,我们得到时间插值一致性损失,其惩罚学生的预测f θ(x t)与教师的预测f θ ′(x t-k)和f θ ′(x t + k)Fu中对应像素的相关像素。t.t.t-k(八)可以计算为Fu和F′u的插值:Fmix=λs<$Fu+(1−λs)<$F′,(3)+(1−λt)g. fθ′(xt+k),Ft→t+k≠0,其中λt设为0.5,且Ft→t−k,其中λsH×W,每个元素服从[0,1]中的均匀分布,是特征图每个通道上的Hadamard乘积。根据ICT [34]中的插值一致性约束,我们推导出空间插值一致性约束为:fθ(Fmix)<$λs<$fθ′(Fu)+(1 − λs)<$fθ′(F′)。(四)可以经由预先训练的光流预测网络(即,,FlowNet2.0[16])。3.3. SANet和规模一致性约束规模感知网络(SANet)。传统的方法使用编码器-解码器结构来聚合多级特征以产生最终的阴影图。然而,fea-u u不同层次的结构可能有缺失和扭曲的部分因此,我们得到空间插值一致性损失,该损失通过以下方式惩罚学生和教师预测之间的差异Lsic(xu)=Φmse(fθ(Fmix),λs<$fθ′(Fu)+(1−λs)<$fθ′(F′)),由于下采样、上采样和噪声。为了保持语义特征,补充缺失的细节,并细化失真的特征,我们设计了SANet的特征融合模块(FFM),细节关注u其中Φmse是均方误差损失。3.2.时间ICTu(五)模块(DAM)和编码器-解码器-细化器(EDR)结构,以获得多尺度的精确阴影图。FFM的目的是保持语义信息,同时丰富的细节。参见图3、FFM首先融合了高层语义特征(蓝色的考虑到连续帧之间的时间变化,我们沿时间轴插值两个连续帧,并正则化学生学习,以获得时间一致的预测。具体地说,我们插值该算法首先通过逐元素添加的方法将语义特征(put分支)和低层细节特征(绿色输入分支)融合,然后通过逐元素相乘的方法将语义特征和细节特征集中在高、低层.(二)然后,针对Fu中的所有像素的空间插值可以31202我PPAPPA′θ)})}θ3Σθ′θL∼∼PPAPPAθ′θ′3编码器和细化器,1是输出的权重,不同的尺度,Ld和Lr是最终的损失解码器和细化器的输出。缩放一致性约束。为了减少噪声对每个尺度输出的影响,我们通过最小化差异(即,在不同尺度下的预测之间为每个未标记图像xu,我们使用细化器的输出o r,1 r,或,3作为多尺度结果,然后我们得到教师和学生3s=1 且{fs(xu3s=1为了减少在不同尺度的预测之间的差异,我们建议尽量减少教师的平均预测和学生在所有尺度之间的差异。教师fave(x图3.我们SANet的架构。)=1fs(xs=1)的情况。(十)分别 最后,高级和低级功能是然后,尺度一致性损失被定义为3通过逐元素添加来彼此补充。与传统的融合策略相比,FFM能够突出细节的语义特征.LSC(xu)=1Φ3 s=1MSE(fs(xu),fave(xu))。(十一)为了解决由下/上采样引起的特征失真和丢失,我们建议添加一个细化器,并将解码器中最后一个卷积层之前的特征馈送回细化器(黄色分支),以进行因此,与解码器中的自顶向下过程相比,细化器具有自顶向下和自底向上过程。在自顶向下的过程中,多层次的特征通过FFM逐渐聚合,在自底向上的过程中,聚合的特征被反馈到每个层次进行细化。DAM首先将最高层和最低层特征进行选择性的元素乘融合,突出具有语义信息的细节,然后将融合后的特征与最低层特征进行互补,再将互补后的特征送入细化器进行细节增强。我们使用上述三个模块来获得准确的预-3.4.实现细节我们通过ResNet-50 [10]初始化SANet的主干亚当算法被用来优化学生网络,最大学习率为0。0003用于ResNet-50骨干网,0. 003其他部分我们还采用线性衰减策略来更新学习率。最小批量大小设置为4。此外,我们不是像[6]中那样将标记和未标记的样本混合在一个小批量中,而是分别处理来自源和目标数据集的小批量,以便批量归一化在训练过程中为每个域使用不同的归一化统计量。EMA中的衰减参数η根据经验设定为0.999。对于一致性损失权重β,根据[32],我们使用高斯斜升函数进行更新。最后(或图中的r(3)第三章。在多方面进行深度监管水平,我们得到八个输出在三个尺度的图像。ing:β(t)=βmaxe−5(1−t/tmax)2,以及tmax=10,βmax如图0d,1od,3和0r,1or,3分别是解码器和细化器的多尺度输出。Od和Or是解码器和细化器的最终输出,re-repeat。我们使用像素位置感知损失ppa[36],它是加权二进制交叉熵损失和加权IoU损失的总和,用于监督每个输出。整个监督损失被定义为3设置为1。一致性损失参数被设置为η1=η2=η3=1,并且等式(1)中的参数k被设置为8被设置为1。我们的实现使用PyTorch开发所有的实验都是在一个NVIDIA GTX 2080Ti GPU上进行的,我们的方法预测一帧的阴影图大约需要15ms。4. 实验L= 0.1。我d,我+Lr,i +1。Ld+Lr(9)数据集。 我们使用图像阴影中的训练集sup2我i=1PPAPPA2ppaPPA检测基准数据集SBU [35]作为标记图像,并将阴影模式转移到ViSha [5]和我们的其中Ld,i和Lr,i是第i级的损失,自我收集的视频阴影检测数据集(VISAD)FFMFFM,FFM,,DDD编码器大坝DDFFMDUFFM大坝,FFM,解码器精炼器,UFFMConv+BN+ReLu监督元素级多D下采样逐元素添加U向上采样Convu.u3121评估我们的方法1。SBU数据集是自然场景中最大的带注释图像阴影数据集,包括4,089张训练图像和638张测试图像。ViSha是VSD的第一个数据集,包含120个视频,11,685帧,我们使用与[5]相同的数据划分VISAD 由 81 个 视 频 组 成 , 属 于 BDD-100 K [38] ,DAVSOD [8],DAVIS [30]和FBMS [1,28],我们根据场景将其分为两部分:驾驶场景(VISAD-DS)部分和移动对象场景(VISAD-MOS ) 部 分 , 分 别 表 示 为 DS 和 MOS 。 我 们 使 用LabelImg2对33个视频中的阴影进行了人工标注.关于DS和MOS的一些细节见表1。SCDAIV/AIV中国人民解放军决议DSBDD四十七/十七7 953/2 8811280× 720戴维斯15 /151 047/1 047(540 1920)×(394640× 360(530<$960)×(360<$540)MOSDAVSODFBMS九比零10 /11 134/02,432/260表1.关于VISAD数据集的一些细节。SCD:源数据集。视频:视频数量AV:带注释的视频数量F:帧数。WAF:注释帧的数量评估指标。在阴影检测研究的基础上,本文采用平衡错误率(BER)来定量评价阴影检测性能,该BER综合考虑了阴影区域和非阴影区域的检测质量。此外,我们遵循[5]使用显著对象检测中常用的其他三个度量,平均绝对误差(MAE),F-测度(Fβ)和交集(IoU)来评估性能。一般而言,较小的BER和MAE以及较大的Fβ和IoU指示较好的检测性能。4.1. 消融研究为了更好地了解这些模块在影子知识学习和转移中的行为和有效性,我们对这些重要模块进行了消融研究。我们的消融研究是在DS上进行的,因为DS中的场景与SBU中的场景非常不同,并且将知识转移到DS比其他两个数据集更困难标记图像AS标签视频B(微调设置)标签视频C(评估集)D未标记的视频E训练集G评估集SBU DS/MOS Visha图4.实验中的数据集划分SANet上的消融研究。为了评估SANet中的三个拟议模块EDR、FFM和DAM,我们考虑了三个基线网络。通过仅使用编码器-解码器结构(ED)来构造第一基线,1作者Xiao Lu、Yihong Cao和Sheng Liu签署了非商业许可,下载了数据集,并产生了本文的所有实验结果Meta2https://pypi.org/project/labelImg/网站用简单的融合结构(上采样+加法+卷积)代替FFM结构 。 第 二 种 是 在 解 码 器 中 添 加 FFM 结 构(ED+FFM),而第三种是在网络中添加细化器结构(ED+FFM+R)。最后,我们考虑我们的SANet与DAM结构。如图所示的数据分区。4、所有网络在A上训练,在B上微调,在C上测试。表2的上半部分总结了我们的SANet和三个基线网络的结果。结果表明,FFM对提高IoU值最有效,而细化剂结构对提高Fβ值最有效。虽然DAM非常简单,但它对于学习图像中准确的阴影知识可视化结果显示在图的左侧部分5演示了各个模块对细节和小尺度阴影区域检测的有效性。EDFFMR大坝MAE↓Fβ↑IoU↑BER↓✓✓✓✓✓✓✓✓✓✓0.0350.0310.0290.0280.5690.6160.6600.7060.4330.4920.5140.51415.2913.4813.2113.14SCTICSICMAE↓Fβ↑IoU↑BER↓B✓✓✓✓✓✓0.0930.0920.0790.0650.5010.5180.5870.6460.3040.3110.3200.37017.0116.7816.2914.17空间方案MAE↓Fβ↑IoU↑BER↓RGB空间RI0.0720.4470.35014.80特征空间RI0.0680.5570.35615.24SI0.0650.6460.37014.17表2.上半部分:SANet上的消融结果,在SBU上预训练并在DS上微调,R:Refiner。中间部分:STICT上的消融结果,B:在SBU上训练的基本SANet,未在DS上进行微调。下半部分:插值方案的消融结果,RI:随机插值。SI:空间插值。三个一致性约束的消融研究。我们考虑四种基线方法,第一种方法是将在SBU上训练的SANet直接应用于目标视频(表示为B)。然后,通过在基本模型上依 次 加 入 尺 度 一 致 性 ( SC ) 、 时 间 内 插 一 致 性(TIC)和空间内插一致性(SIC如图所示的数据分区。4、所有网络在A和D上进行训练,在C上进行测试结果报告在表2的中间部分。可以看出,时间一致性约束对降低MAE和提高Fβ值有显著的提升效果,而空间一致性约束对提高IoU和降低BER值有积极的作用可视化结果显示在图的右侧部分5也证实了定量的结果,这表明所有组件是必要的,提出的框架,准确和时间一致的阴影图。与空间ICT中其他插值方案的比较 我们还比较了 我们水疗中心的表现-3122图像GT ED ED+FFM ED+FFM+R SANet视频GT BB+SCB+SC+TICSTICT图5.我们消融研究的可视化结果左部分:SANet上的消融结果右图:STICT消融结果维沙表3.与SOTA方法的比较结果I.S.:基于图像的监督方法。I.U.:基于图像的无标签方法V.S.:基于视频的监督方法。V.U.:基于视频的无标签方法。最佳结果以粗体突出显示。特征空间中的随机插值(RI)分别与特征空间和RGB空间中的随机插值(SI)进行比较。表2下半部分的结果表明,特征空间中的插值比RGB空间中的插值更有意义,并且我们的空间插值对于逐像素分类任务是有效的,这也证明了我们的LCS模块的有效性。4.2. 与SOTA方法的比较我们比较了几种基于SOTA图像/视频的阴影检测方法和其他相关任务,包括六种监督图像阴影检测方法DSC [12],BDRAR [45],DSDNet [43],ECANet [9]和FSDNet [11],半监督方法MTMT [6],监督VSD方法TVSD-Net [5],两种视频语义分割方法GRFP [27],NS[2],图像语义分割方法MagNet [15]和视频显著对象检测方法RCRNet [37]以证明我们方法的有效性。为了使比较公平,数据分区如图所示。4.第一章对于基于图像和视频的监督方法(I. S. /V.S. ),我们在A上训练模型,并通过降低学习率在B(或标记为E)上对它们进行微调,在他们发表的论文中,有1/10的人被引用。 对于没有视频标签的基于图像和视频的方法(I.U. /V.U. ),我们在A和D(或未标记的E)上训练模型。为了训练GRFP和NS,我们使用PSPNet [42]作为骨干,并在SBU上对其进行预训练以获得单帧预测。然后,我们遵循已发表的论文[27]和[2]中给出的训练过程,并使用训练集和微调集来训练整个网络,同时保持其他设置不变。为了在无监督场景中训练RCRNet[37],我们使用SBU来训练RCRNet,并将生成的阴影图用作稀疏标签来生成伪标签,然后训练RCRNet+NER模型以进行结果细化。定量比较。表3总结了三组实验中不同方法的定量结果从ViSha和DS上的结果可以看出,STICT的性能排在我们的监督SANet和监督方法TVSD-Net的第三位,但它在BER值和Fβ值上的性能分别优于TVSD-Net。此外,STICT在MOS方面的表现优于其他方法,其具有29。3%和10。MAE和BER评分降低3%,6. 与第二名相比,IoU得分高出5%方法DSMOSMAE↓Fβ ↑IoU↑BER↓MAE↓Fβ ↑IoU↑BER↓MAE↓Fβ ↑IoU↑BER↓DSC [12]0.0960.5140.43417.910.0960.5070.31518.240.0700.5730.38524.18[45]第四十五话0.0500.6950.48421.290.0880.5040.28415.250.1300.4560.25018.79DSDNet [43]0.0440.7020.51819.880.0680.4080.30118.420.0830.5950.36519.62埃.MTMT-SSL [6]ECANet [9]0.0800.0320.6640.7410.5000.53918.1120.060.1060.0370.5210.5830.2980.37919.4923.670.0850.0780.5750.5650.4020.33625.6128.68FSDNet [11]0.0470.6810.47322.860.0290.6230.37727.770.0840.6340.35928.38MagNet [15]0.0450.6850.50720.410.0380.6060.39921.560.0800.5860.34128.91SANet(我们的)0.0360.7520.59613.260.0280.7080.51413.140.0910.6010.34125.93I.U.MTMT-Uns。[6]美国0.0880.5680.45720.100.1540.3090.23220.190.0810.5640.39127.01TVSD-Net [5]0.0330.7570.56717.700.0320.6340.50811.550.1910.3130.22720.24V.S.GRFP [27]N.S.[2]0.0590.0610.6820.5860.5310.40520.6424.170.0570.0730.6110.4950.3260.33918.8719.160.1150.1150.5510.5340.2920.26126.7629.60VURCRNet [37]0.0930.4900.34626.890.0670.3770.23628.760.0880.5960.35620.133123图像GTDSDBDRAR DSCMTMT-SSLECANetFSDNet MagNetMTMT-Uns。TVSD-Net NS广州富力RCRNetSANet STICT图6.用我们的方法和其他比较方法产生的阴影图的视觉比较执行方法DS和MOS之间性能差距的主要原因是DS中的场景彼此非常相似,并且少量的标签可以使监督模型适合整个测试集。然而,MOS中的场景是不同的,大量的未标记数据会使我们的模型泛化到测试集。虽然我们的方法在所有三个数据集中不是最好的一个,它具有更稳定的性能相比,其他方法,因为它有一个很好的方式来适应不同的领域,以提高泛化能力。由于我们在视频数据集上训练我们的模型而没有注释,因此在这三个数据集上的竞争甚至优越的性能验证了我们提出的算法的泛化能力。此外,值得注意的是,行),并且不能有效地检测软阴影(第3行)。然而,我们的监督SANet在上述情况下表现得更好。这种性能差距是由源图像数据集和目标视频数据集之间的差异造成的:1)它缺乏SBU中大光照对比度场景和软阴影模式中的阴影知识,2)一些自阴影区域在SBU中被注释,而它们在视频数据集中没有被注释。有监督的SANet在DS上表现最好,它在ViSha上的IoU和BER值上击败了所有其他竞争对手,GTSTICTSANetTVSD-Net实验结果表明,该方法可以有效地检测多尺度下的阴影。定性比较。我们进一步在视觉上比较了由我们的方法和图6中的竞争者产生的阴影图。从图像和相应的标签中,我们可以看到一些具有挑战性的情况:低照度条件下的阴影(第1行),小尺度阴影(第3行),复杂背景周围的阴影(第4行),阴影区域中的明亮物体实验结果表明,STICT算法和监督SANet算法能够准确地定位不同尺度的阴影区域,并将阴影细节从复杂背景中区分出来而其他方法往往会将暗的非阴影区域误认为阴影,而忽略小尺度区域。图6下半部分的结果也验证了我们的方法可以产生时间一致的预测。所有的视觉比较证明了我们的方法的效率和推广能力。局限性。从图7所示的我们的方法的失败案例中,我们可以看到,我们的方法在具有大照明对比度的场景中失败(第1行),它有时会错误地识别自阴影区域(第2行图7.我们方法的一些失败案例。5. 结论我们提出了一种新的VSD方法,通过转移阴影知识从标记的图像到未标记的关键思想是通过STICT框架将标记的图像和未标记的视频帧馈送到SANet训练中实验结果表明,该方法优于大多数有监督、半监督或无监督的图像/视频方法。社会影响。VSD对计算机视觉有积极的影响,但不当使用可能会导致潜在的负面影响,例如。,违规修改证据录像。6. 确认本 工 作 得 到 了 肖 璐 教 授 的 国 家 自 然 科 学 基 金(No.62007007)、肖春霞教授的国家自然科学基金(No.61972298)和肖春霞教授的湖北省重点技术创新项目(2018AAA062)的部分资助3124引用[1] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的对象分割。在欧洲计算机视觉会议上,第282-295页。施普林格,2010年。6[2] 陈亮杰,拉斐尔·冈蒂霍·洛佩斯,郑博文,麦克斯韦D.Collins,Ekin D. Cubuk,Barret Zoph,Hartwig Adam,and Jonathon Shlens. Naive-student:在视频序列中利用半监督学习进行城市场景分割。欧洲计算机视觉会议(ECCV),2020。7[3] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在IEEE/CVF计算机视觉和模式识别会议论文集,第5157-5166页,2019年。3[4] 陈子培,龙承江,张玲,肖春霞。Canet:一个用于阴影消除的上下文感知网络。IEEE/CVF计算机视觉国际会议论文集,第4743-4752页,2021年。1[5] 陈志豪,梁婉,朱磊,沈佳,傅华珠,刘文楠,秦金。三重协作视频阴影检测。2021年IEEE计算机视觉和模式识别会议(CVPR),2021年。二三五六七[6] Zhihao Chen,Lei Zhu,Liang Wan,Song Wang,andPheng Ann Heng.半监督阴影检测的多任务平均值教师。 在IEEE/CVF计算机视觉和模式识别会议(CVPR2020),2020年。一、二、五、七[7] 丁斌,龙承江,张玲,肖春霞。Argan:用于阴影检测和去除的注意递归生成对抗网络。IEEE/CVF计算机视觉国际会议论文集,第10213-10222页,2019年。1[8] Deng-Ping Fan,Wenguan Wang,Ming-Ming Cheng,and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在IEEE/CVF计算机视觉和模式识别会议论文集,第8554- 8564页6[9] Xianyong Fang , Xiaohao He , Linbo Wang , andJianbing Shen.通过探索有效的阴影上下文进行强大的阴影检测。第29届ACM国际多媒体会议论文集,第2927-2935页,2021年。7[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议,2016年。5[11] Xiaowei Hu , Tanyu Wang , Chi-Wing Fu , YitongJiang,Qiong Wang,and Pheng-Ann Heng.重温阴影检测:复杂世界的新基准数据集。IEEE Transactions onImage Processing,30:1925-1934,2021。7[12] Xiaowei Hu ,Lei Zhu,Chi Wing Fu, Jing Qin ,andPheng Ann Heng.用于阴影检测的方向感知空间上下文特征。IEEE计算机视觉和模式识别会议,2018年。一、二、七[13] 刚华,龙澄江,杨明,高彦。来自人群的协作主动视觉识别:一个dis-crossing-致敬合奏方法。IEEE Transactions on Pattern Analysisand Machine Intelligence(T-PAMI),40(3):582 1[14] 黄家斌和陈楚松。基于物理特征的运动阴影检测。在2009 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议 上 , 第2310IEEE,2009年。2[15] Chuong Huynh,Anh Tuan Tran,Khoa Luu,and MinhHoai.渐进语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第16755-16764页,2021年。7[16] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,and Thomas Brox.Flownet 2.0:深度网络光流估计的演变。2017. 4[17] 作 者 : Ashraful Islam , Chengjiang Long , ArslanBasharat,and Anthony Hoogs.Doa-gan:用于图像复制-移动伪造检测和定位的双阶注意生成式对抗网络。在IEEE计算机视觉和模式识别会议论文集,2020年。2[18] C la'udioRositoJung. 单色视频序列的有效背景减除和IEEE Transactions on Multimedia,11(3):571-577,2009. 2[19] Hieu Le,Thomas F. Yago Vicente,Vu Nguyen,MinhHoai
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功