没有合适的资源?快使用搜索试试~ 我知道了~
438虚拟多模态自监督前景抠图的人机交互徐波1、韩煌1、程璐2、李子文1、3、郭彦东1、*1OPPO研究院、2Xmotors、3加州大学圣地亚哥分校yandong. live.com摘要大多数现有的人类抠图算法试图将纯人类前景与背景分离。在本文中,我们提出了一种虚拟多模态前景抠图(VMFM)的方法来学习人与物体的交互前景(人和物体与他或她互动)从一个原始的RGB图像。VMFM方法不需要额外的输入,例如三重图或已知背景。我们图像BGMVMFM(我们的)将前景抠图重新表述为自监督多模态问题:使用三个自动编码器将每个输入图像分解为估计的深度图、分割掩模和交互热图。为了充分利用每种模态的特性,我们首先训练双编码器到解码器网络来估计相同的阿尔法遮片。然后我们介绍一种自我监督的方法:互补学习(CL)用于预测偏差概率图,并在无标签的情况下跨模态交换可靠的梯度。我们进行了大量的实验来分析每一种方式的有效性和不同成分在互补学习中的重要性。我们证明,我们的模型优于国家的最先进的方法。1. 介绍遮片被称为色度键控过程,用于从单个图像或视频流中分离前景,然后将其与新的背景合成。它长期以来一直应用于摄影和特效电影制作[33]。由于计算机视觉中深度神经网络的快速发展,自动抠图变得日益成熟[7,20,23,29,33,35]。然而,大多数现有的深度学习抠图方法在受控设置下提取纯人类背景。我们带着以下三个信念重新审视铺垫问题。首先,我们认为,前景抠图算法应该能够处理的情况下,当人类与对象相互作用。目前,大多数人类抠图算法[6,7,20,22,23,29,35]只关注身体区域,而忽略了与每个人交互的对象图1:考虑到具有挑战性的人类交互图像,最近最先进的前景抠图方法之一背景抠图(BGM)[29]无法产生准确的alpha抠图。然而,我们提出的多模态模型VMFM是能够分离准确的人-对象交互前景遮罩,优于SOTA作品。儿子的兴趣,如图1所示。第二,理想的抠图模型应该在可靠和有代表性的数据集上训练,这需要最少的监督和标记工作。这是因为良好的人-对象交互式遮片的定义是非常主观的,并且这种标记通常是昂贵和困难的,如果不是不可能的话。第三,我们认为这种人-物交互式前景抠图应该在不受约束的条件下进行到目前为止,大多数精确的遮片技术仍然依赖于其他一些方法需要trimap(trimap是一个草稿,标记前景,背景和未知区域)作为更强的没有预先定义的背景[29]或先验知识的学习是至关重要的。为了解决上述问题,我们相应地提出了具有以下两个组件的解决方案。首先,我们重新制定这个问题作为一个多模态的任务,以更好地捕捉感兴趣的人和相互作用的对象。我们认为在RGB空间中提取的特征不足以产生高质量的遮罩。在我们的情况下,我们引入深度估计作为RGB图像和估计分割掩模之上的额外虚拟模态。我们认为439虽然RGB和分割映射擅长预测具有相似颜色人体轮廓和区域(皮肤等)。[29]然而,它努力识别人与交互对象之间的关联。与人体相比,交互的对象通常在外观方面更多样化,例如,在视觉上更多样化。形状颜色和类型这使得基于RGB空间中的相似外观的人-对象关联的检测而深度模态由于其特征空间的高度连续性,可以很容易地将人和物体组合成一个实体。然而,大多数当前的分割网络并不擅长发现深度相关的特征,因为它们被有意地训练以分离而不是分组不同的对象。为了避免歧义,我们遵循[12]中的交互定义,该定义将人-对象交互指定为26类。为了使我们的模型专注于人类和交互对象的特征,我们引入了交互热图,这些热图也是从RGB图像作为语义先验生成的其次,为了最小化标记成本,我们提出了互补学习(CL)的自我监督模块在我们的VMFM网络。每种模态的输出都可以监督或被其对应物监督。总的来说,他们设法找到最佳组合。这是因为每种形式都有其独特的弱点和优势。例如,在图2中,深度模态可以帮助我们预测一个人和他手中的书之间的关联,但是在区分地面和脚之间的轮廓方面很弱。相反,颜色特征可以很容易地从地面分辨出脚,但很难知道书是前景的一部分。然而,我们可以通过像素互补学习从两种模式中学习到更可靠的元素集合; VMFM输出示例见图6。VMFM网络由两个阶段组成:前景预测(FP)和补充学习(CL)。FP阶段包括两个模块:基于分割的前方预测网络(SFPNet)和基于深度的前方预测网络(DFPNet),两者都以编码器到解码器的方式。深度图由深度估计网络(D-Net)从单个RGB图像估计,并且该网络基于[2]的主干。I-Net(其中Hourglass [26]主干嵌入了人-对象交互特征)用于通过生成注意力热图来引导铺垫。在CL阶段中,一个FP网络的每个输出像素可以监督其对应物(在另一个网络中的相同位置处的输出像素)或由其对应物监督,这取决于哪个具有较低的偏差概率。共同地,我们最小化不可靠的像素(概率高于我们设置的阈值)以更好地突出属于人类或交互对象的前景像素。为了证明我们的解决方案,我们比较我们的算法,客观和主观上与其他方法。耗氧物质此外,我们通过消融研究证明,不同的方式侧重于不同的,如果不是唯一的,细节。互补学习可以组合它们的可靠像素,同时抑制不可靠的像素。总体而言,本文的贡献如下:• 这是第一个端到端的前景/alpha抠图算法,专注于无约束条件下的人机交互场景。• 我们重新制定前景阿尔法抠图作为一个跨模态的自我监督的任务,最大限度地减少标签的成本,并产生罚款抠图利用这两种方式。• 大量的实验证明了VMFM的有效性,优于国家的最先进的(SOTA)的方法在现实世界中的场景。2. 相关作品目前,抠图通常被公式化为图像合成问题,其仅从3个已知值求解每个像素的7个未知变量:Ii=αi Fi+(1−αi)Bi(1)其中像素i的3维RGB颜色Ii,而前地RGB颜色Fi、背景RGB颜色Bi和遮片估计α i是未知的。 在本节中,我们讨论SOTA处理这个欠定方程的工作。2.1. 经典方法经典的前景抠图方法通常可以分为两种方法:基于采样和基于传播。基于采样的方法[1,8,10,16,18,34]对已知的前景和背景颜色信息进行采样,然后利用它们来实现未知区域中的消光。提出了各种基于采样的算法,例如。贝叶斯抠图[34]、优化颜色采样[16]、全局采样方法[18]和综合采样[10]。基于简化的方法[3,7,14,19,20,31]重新制定了复合方程。1来将alpha值从已知前景和背景传播到未知区域中,从而实现更可靠的抠图结果。[17]提供了一个非常全面的审查不同的抠图算法。2.2. 基于深度学习的方法经典的抠图方法被精心设计来求解复合方程及其变体版本。然而,这些方法严重依赖于色度信息,这导致当前景和背景的颜色表现出很小或没有明显差异时质量很差随着深度神经网络的快速发展,自动和智能抠图算法不断涌现440C D我补充LcLCL复合鉴别器补充学习模块SFPNetS-netI-NetGT AlphaDFPNetD-netS-CL编码S-CL编码CL下降图2:虚拟多模态前景抠图(VMFM)网络在训练阶段的架构。前景预测(FP)模块由双网络SFPnet和DFPnet组成,它们接收不同的模态作为输入,并估计相同的alpha matte。互补学习(CL)模块由两个编码器S-CL enc、D-CL enc和一个解码器CL dec组成,输出预测的α蒙版的偏差概率图。在计算机视觉中。 最初,人们尝试将深度学习网络与经典的抠图技术相结合,例如[20]和KNN矩阵[7]。Cho等人[9]采用深度神经网络来改进闭合形式抠图和KNN抠图的结果。这些尝试不是端到端的,因此不令人惊讶的是,抠图性能受到卷积后端的限制。随后,出现全DL图像抠图算法[6,11,33]。Xu等[33]提出了一个基于SegNet [4]的两阶段深度神经网络(深度图像抠图)用于alpha抠图估计,并创建了一个具有地面真实 前 景 ( alpha ) 抠 图 的 大 规 模 图 像 抠 图 数 据 集(Adobe数据集),该数据集可以在各种背景上合成以产生训练数据。我们还将这些数据用于网络的第一步预训练。Lutz等人[24]为自然图像抠图引入生成对抗网络(GAN),并改进深度图像抠图的结果[33]。Cai等人[5]研究了以往直接从粗三分图估计alpha遮片的方法的瓶颈,提出将遮片问题分为三分图自适应和alpha估计两个任务。Hou等人[15]使用两个编码器网络来提取用于遮片的基本信息,然而,它对错误的三重图不鲁棒。Trimap自由方法。目前,大多数深度图像抠图算法[5,15,24,33]试图在用户生成的三重图的帮助下估计划分前景和背景几种三重图免垫-ting方法[6,35]首先预测trimap,然后是alpha抠图。更多自然背景Qian等人[27]计算概率图,以通过简单的背景减法将每个像素分类为前景或背景。该算法对阈值敏感,在前景和背景颜色接近时失效。Sen-Gupta等。[29]引入了一种自我监督的对抗性方法-背景抠图(BGM),实现了最先进的结果。然而,摄影师需要先拍摄自然背景,这对密集的多场景拍摄应用程序并不友好。此外,目前的DL前景抠图方法只关注于人的抠图,而忽略了与人交互或附着的对象总是(如果不是每次)成为前景的一部分这是我们提出VMFM方法的主要原因在本文中,我们定量地评估我们的模型在人与物体交互场景中的阿尔法抠图的性能。3. 架构虚拟多模态前景抠图(VMFM)的网络架构被设计为通过人机交互完全自动地提取准确的人-对象交互前景而不是目标选择。它首先学习通过前景预测(FP)模块的双网络(SFPnet和DFPnet)由于预测441网网DCL一联系我们G1联系我们一个comG2G1升图3:示例图像上的交互对热图的错觉。交互对是指人和与之交互的物体之一。这种交互的类别是预定义的,并且覆盖用于遮片目的的大多数场景。有利于去除过度模糊的阿尔法蒙版[35]。我们采用了两个阶段的训练过程中,我们的方法,这是定期监督和自我监督的前景预测。在第一阶段,我们在监督下训练FP网络(使用标记数据)。在第二阶段,通过对未标记数据的互补学习来实现所提出的此外,我们引入了一个基于LS-GAN [25]的鉴别器来区分假合成图像和真实图像,以改进前景抠图网络。用于发电机G更新在第一阶段中,对抗损失项为:Lm=EX,B¯pX、B¯[(D(amF*+(1−am)B′)−1)2(三)SFPnet和DFPnet自然偏向于不同的区域,e.G. 分割图对人体敏感,而+λa Lm+λcom Lm]深度图更多地关注人-对象交互区域。我们引入互补学习(CL)来学习mcom=amF+(1−am)B−I(四)在双FP网络之间提供更可靠的元件。VMFM训练网络的整体架构如图2所示3.1. 前景预测模态预处理给定一个输入RGB图像,我们使用深度估计骨干网络(D-Net [2])来估计其深度图,使用S-Net(Mask-RCNN [13])来自动分割人类的掩模此外,我们遵循[32]采用沙漏[26]作为预测人类-对象配对热图的主干(I-Net)。所示其中,m=(X),X包括RGB图像I及其相应的颜色。响应虚拟模态,Lm表示合成损失,其是输入RGB图像I与从地面实况前景F_i、真实背景F_i生成的预测RGB图像B*和预测的前景alpha蒙版am。L·M·can规范网络以遵循作曲歌剧-Tion,这进一步减小了前景alpha预测的误差。B是一个given 背 景 , 用 于 生 成 一 个 合 成 的 图 像 , 看 到 的browser。D的目标是:如图3所示,交互热图可以提供人和他或她的交互对象的语义先验对于人类来说-Lm=E X,B¯pX,B¯[(D(amF*+(1−am)B′))2](五)出任何关联的对象,交互热图的峰值一般化到他或她的中心点。+EI∈p 数据 [(D(I)−1)2]由于分割和深度特征之间的差异,我们建立了一个双网络进行前景预测对于生成器(FP)- 基于分割的前景预测网络(SFPnet)和基于深度的前景预测网络(DFPnet)。SFPnet接收原始RGB图像I,分段。Lm=EX,B¯pX、B¯[(D(amF*+(1−am)B′)−1)2+λcl Lm](六)站掩码S和交互热图H作为输入,而DFPnet用深度图D替换S。在下文中,SFPnet(I,S,H)和DFPnet(I,D,H)被称为FPm,m1,2。 这两个双网络都是以编码器到解码器的方式构建的,并且每个网络的架构都是模块化的,以确保可以轻松替换为可以实现相同目的的其他网络。我们鼓励社区中的其他研究人员替换VMFM中的模块以实现更好的性能。FP模块的双网络在Adobe Matting Dataset [33]中的人类受试者子集上进行预训练。通过最小化Lm损失来监督预训练,Lm=am−a*+(am)−(a*)(2)其中am是FPm的alpha蒙版输出,m1,2,a*是地面真值alpha matte,梯度项为L1442CL其中,Lm表示FP模块的对偶网络之间的用于自监督的互补学习约束。对于阶段2中的鉴别器,我们还最小化等式2。5.补充学习(CL)模块的详细信息见第3.2节。3.2. 互补学习我们提出了一个双网络与不同的方式来预测相同的阿尔法遮片。潜在的假设是,每种模态都擅长预测某些区域,而在其他区域则较弱。因此,我们提出了补充学习(CL)模块,以估计预测的阿尔法马特的偏差概率图。CL迫使双网络(SFPNet和DFPNet)中的每一个学习估计的遮片a1和a2之间的更可靠的像素,同时拒绝相对不可能的像素。443CSCSMi、j联系我们MCSENCDC∈i、j×一CLCLi,j=i、jmi,ji、jMi、ji、j其中,我们引入补充监督约束L_m以在SFPnet和DFPnet训练之间切换:Lm=βm¨am−a3−m¨β(i,j)= .1,如果CLm> CL3−mΣ(10)0,否则βm是一个互补的学习区域图,其中β(i,j)= 1意味着当前网络FPm需要在像素(i,j)处从另一个FP网络(FP3-m)的结果(a3-m)学习,反之亦然,m1,2。L_m是偏差校正约束,以消除不确定性。DCFPm的可靠预测像素:Lm=σmCLm−0图4:VMFM在推理阶段的架构FRNet:前景细化网络。DCσ(i,j)=(CL12是1和CL2(1)(十一)σm是偏差校正区域图,其中σ(i,j)= 1位置.我们使用编码器到解码器(enc2dec)机制表示两个像素(CL1和CL2)显示低置信度。其包括双编码器CL_m(I,am),m∈{1,2}且我们设置约束i、jMi、j一个解码器CLdec(CLmENC)中的CL模块。Ldc用于更新双FP网络以限制这种不可靠像素对的数量。很明显,LmCL模块培训。 我们同时训练CL模块-与第一阶段的FP网络训练紧密相关,因此它直接由每个FP网络结果am与其基础事实a*之间的真实偏差概率图监督。损失定义为Q=Q=Q(|a m− a*|)(7)和Lm是非干扰的。3.3. 前景细化虽然互补学习提高了未标记条件下的前景抠图的性能,但FP模块中的编码器到解码器结构可能会过度正则化结果。因此,在推理阶段,C1我们通过增加垫来扩展上述建议的管道-哪里 CL(Im,Pm)表示 的 CL 模块 这是在下文中记为CLm,Q表示用于扩大互补学习的区域并产生偏差概率图的膨胀归一化操作我们将CLm中的值归一化为[0,1]。可互换地,我们也可以将偏差概率视为置信度的表达。直觉上,在偏差概率图中具有较高概率值的一个像素指示较低置信度。我们设置一个概率阈值τ(0,1),使得只有偏差概率高于τ的像素才会被概率低于τ的对应像素(由另一个FP网络在相同位置估计的像素)所监督。我们将像素(i,j)处的较高值CL_m(具有较低置信度)更新为1:M. 1,如果CLm>τΣM细化网络(RN),如图4所示。为了降低计算复杂度,我们选择性地提取前K像素的devi- ation概率图中的最高估计误差为中心,以定义16 - 16补丁的预测阿尔法遮片进一步完善。每个选定的补丁连接到它的RGB区域之前,被送入扩展网络。我们应用损失Lm(等式2)在FP模块参数固定的情况下,对抠图细化网络进行监控。我们在第4节中说明了我们的细化网络的效果。补充资料中给出了更多网络体系结构的详细信息。4. 实验我们首先描述用于训练和测试的数据集。随后,我们将我们的结果与现有的最先进的(SOTA)前景抠图算法。Fi-CLi,j,else互补学习的运作。在前景预测(FP)训练的第二阶段(自我监督)中,我们冻结CL模块并进行由等式(1)中的约束L_m9更新双FP网络。最后,我们进行了烧蚀实验,以显示每个模块的有效性。补充材料中提供了更多的实施细节。4.1. 数据集预训练。我们遵循[29]的方法来生成26.9k合成图像,用于预训练我们的双前向Lm=λcsLm+λdcLm(九)地面预测(FP)网络:269 Adobe [33]示例S-netSFPNetS-CL编FRNetI-NetCL下FRNetD-CL编D-netDFPNet1(八)444CL CS DC445图5:基准测试的比较。(a)和(b)是Adobe [33]基准的示例。(c)和(d)是Distinctions-646 [28]基准的示例。以前的基准测试主要包含人像场景和只有人的场景,非常罕见的人与物体的交互。然而,我们的基准测试提供了不同类别的交互对象,交互模式和场景,以涵盖不同的抠图应用程序的需求。数据集仅限人类的交互B注释DAPM [30]✓-- ✓Adobe [33]✓25,3- ✓SHM [6]✓-- ✓BSHMCA [22]✓-- ✓距离-646 [22]✓-- ✓BGMreal [29]✓-✓-我们的(LFM40K)✓ ✓ ✓我们的(UFM 75 K)✓ ✓-表1:前景抠图数据集的配置B:真实背景。(25,3)意味着在Adobe基准测试中,只有来自训练集的大约25个前台和来自测试集的3个前台根据定义是交互式场景。的人类受试者合成超过100个随机COCO [21]图像作为背景。大多数现有的抠图数据集,例如[6,22,28,33]由高清单反图像组成,仅狭窄地聚焦于por- trait或人体。然而,这些样本仍然与移动捕获有更重要的是,在这些图像中,人与物体交互的多样性受到严重限制。为了促进这一领域的研究(特别是在人-物体交互设置的前地抠图),我们构建了两个人-物体交互抠图数据集,涵盖了丰富的多样性的背景。我们提出的模型进行了相应的训练,以确保在现实世界的情况下表现良好。数据集和训练策略一起显着扩展了现有算法的用例。我们声称,我们提出的模型是由现有技术中的已知约束,如三重映射或预定义的背景。LFM40K。我们提出了我们的第一个数据集标记的前 地 抠 图 40K ( LFM40K ) , 其 中 包 含 超 过 40000(31950在训练集和8050在测试集)标记的帧(图像)从85个视频。LFM40K有20个交互类,例如,搬运、抱、踢、滑雪、在电脑上工作等等。我们将25%的数据集设置为只有人类的前景场景,以更好地覆盖不同应用场景的丰富多样性。UFM75K。我们的未标记数据集-未标记的前地抠图75 K(UFM 75 K),由来自172个室内和室外视频的75000多个未标记图像(62750个用于自我监督类似地,25%的数据集是仅人类的前台场景。UFM75K与LFM40K共享相同的交互类,但在交互对象方面更加多样化。我们充分利用UFM75K的价格便宜,但补充材料中介绍了相互作用类别和数据集详细信息。表1和图5显示了一些现有的前景抠图数据集与我们的数据集之间的比较我们的数据集包括仅限人类和人类对象交互的数据。我们的数据集可以作为一个新的具有挑战性的基准在前景抠图领域。 LFM40K数据集UFM75K是第一个在无约束条件下的高质量带注释的人机交互数据集,而UFM75K涵盖了各种各样的真实世界场景。4.2. 合成数据集我们对两个组成基准进行了比较研究:[33]和Dist-646 [28]数据集。为了构建测试基准,我们分别将来自Adobe测试集的11个人类受试者的保持样本和来自Dist-646的10个人类受试者的保持样本与每个样本的20个随机背景组合。我们报告的均方误差(MSE),绝对差(SAD),空间梯度(Grad)和预测和地面真实的阿尔法马特之间的连接(连接)的总和这些度量的较低值指示较好估计的α matte。定量结果示于表2中。先前基准我们的基准(一)(b)第(1)款(c)第(1)款(d)其他事项举行踢携带骑GT图像446×数据集方法SADMSEGradConn方法 伤心 MSE(10−2) Grad(102) Conn(103)S-CL-RN*12.68 4.39 62.918.64SFPNet 18.28 8.05 105.91 21.23距离-646LFM 38.3115.63112.75 36.12S-CL-RN 5.23 3.04表2:组合物基准的定量结果。 我们按10 −2、10 2缩放MSE、Grad和Conn和103。CAM:上下文感知抠图[15],IM:索引遮片[23],BGM:背景遮片[29],LFM:后期融合遮片[35]。*表示我们提出的模型。除了LFM和我们的方法之外,所有的竞争方法都需要额外的三元图(CAM和IM)或真实背景(BGM)的输入。尽管两个测试组合基准中几乎所有测试样本都是人类场景,但我们的VMFM方法(S-CL-RN)显示出明显优于无计算三重图方法(LFM [35]),也优于基于三重图的方法(CAM [15],IM [23])和基于背景的方法(BGM [29])。此外,VMFM可以利用更多的语义之前从虚拟模态,而不是额外的输入。图6的第1行和第2行显示了Adobe测试样本上的比较,并且在补充材料中提供了更有代表性的可视化。VMFM中各组件的有效性详见第4.3节和第4.5节。4.3. LFM40K的比较研究在LFM40K数据集的训练和测试中,我们将所有图像重新缩放为512 512像素的补丁。表3比较了我们的双前景抠图(FP)网络(SFPnet和DFPnet)与以前的国家的最先进的(SOTA)前地面抠图算法在不同的人-对象交互式场景。因为IM和CAM都需要三重图作为额外的输入,我们对LFM 40 K中的每个图像的地面真实阿尔法蒙版进行膨胀-侵蚀,以形成这样的三重图。LFM40K的定量结果示于表3中。我们观察到,在应用CL之前,我们的SFPNet与CAM、IM和BGM相比,由于去除了三重图和背景图像而表现不佳,这两者都需要昂贵的手动创建和捕获。与LFM相比,SFPNet和DFPNet都表现出明显的优越性。这是因为我们D-CL-RN4.392.08 51.625.26表3:LFM40K测试集的定量结果S-CLcs(D-CLcs):SFPNet(DFPNet)添加仅具有Lcs约束的CL,S-CLdc(D-CLdc):SFPNet(DFPNet)添加仅具有Ldc约束的CL。引入虚拟多模态机制来扩展RGB图像的语义空间,使所提出的模型能够更好地捕捉人与物之间的交互信息。我们的DFPNet略低于CAM但优于IM,这表明深度模态可以更好地将人体与交互对象相关联。应用互补学习后,我们的方法(D-CL和S-CL)显着优于所有以前的SOTA前景抠图算法。4.4. UFM75K的比较研究为了在未标记数据(UFM75K)上评估和基准测试我们的算法,我们按照[29]为基于trimap的算法创建伪trimap。补充材料中描述了三重图创建工具的详细信息。在UFM75K数据集上,我们将我们的算法与其他竞争算法进行了比较。由于缺乏地面实况阿尔法遮罩,我们在绿色或蓝色背景上合成估计的遮罩,并执行与[29]一致的心理-物理用户研究由于IM[23]和我们的VMFM仅估计alpha蒙版(而不生成前景图像F),因此我们为这些算法设置F=I用户研究。我们将我们的合成视频与UFM75K的 与[29]类似,我们向每个用户呈现一个显示原始视频、我们的合成视频和竞争合成视频的网页;我们随机打乱最后两个的顺序然后要求用户在1-5的量表上相对于B对复合材料A进行评级(1表示“差得每个视频对由20个或更多用户进行评分。用户研究的主观指标如表4所示凸轮13.924.6770.3210.02凸轮14.485.0181.6218.34IM14.614.9275.6810.61IM16.366.7396.4920.96AdobeLFM40.3516.80125.7733.65LFM43.2915.83126.3140.37BGM14.124.7972.4510.18BGM10.064.2870.2614.49D-CL-RN*13.014.6871.239.02S-CLcs11.854.2978.6315.70凸轮17.405.1182.2915.33S-CL直流16.436.81102.3521.65IM18.695.8288.6117.26S-Cl7.023.6562.7210.9156.426.35BGM12.824.9570.8111.97DFPNet16.056.3690.1220.51S-CL-RN*10.623.9765.3910.65D-CLcs9.394.1369.8112.76D-CL-RN*12.354.2468.2311.04D-CL直流15.245.0787.0918.22D-CL5.202.9456.076.29447DC输入图像交互热图分割深度图地面实况CAMIMLFMBGMVMFM(我们的)输入图像相互作用热图分割深度图地面实况CAMIMLFMBGMVMFM(我们的)图6:前景抠图方法的比较。D-CL-RN与好得多更好类似更糟糟糕得多S-CL-RN百分之十一点八22.4% 57.0%6.2% 百分之二点六LFM百分之六十点七百分之二十六点四百分之十二点九0%的百分比0%的百分比BGM51.5%39.2% 百分之九点三0%的百分比0%的百分比凸轮百分之三十二点八43.0% 百分之二十点一4.1%0%的百分比IM百分之三十五点六百分之四十六点五14.0%百分之三点九0%的百分比表4:用户研究:在UFM 70 K上比较D-CL-RN与我们的清楚地表明,我们的前景抠图模型D-CL-RN优于我们的S-CL-RN和所有其他竞争方法的显着保证金。得益于每种模态的独特优势和跨模态的互补改进,我们的VMFM方法可以捕获更准确的真实图像的语义信息。在图6的第3至4行中提供了一些代表性的可视化。4.5. 消融实验补充学习。我们通过对偶约束-Lm和Lm来评估互补学习(CL)。在交叉模态输出之间交换置信度得分,显著地有益于阿尔法遮片性能。此外,Lm在优化两种模态的集体表现中起着不可或缺的作用。此外,我们证明了结合双CL约束后的性能增益精炼。消光精制的定量结果示于表3中。在所有定量指标的改进表明,细化网络(RN)是最后的关键过程,进一步增强和锐化估计的阿尔法蒙版。补充材料中提供了一些可视化。5. 结论在本文中,我们提出了一种抠图技术,可以从一个单一的RGB图像中提取高质量的人与物体的交互式阿尔法抠图。使用我们提出的互补学习策略进行自我监督训练,消除了收集昂贵的alpha标签的瓶颈我们的方法避免了使用额外的输入,例如。绿屏背景、额外捕获的真实背景或CSDC由于两个约束是独立的,我们修剪虚拟多模态前景抠图(VMFM)网络448CS一个单个CL约束(Lm或Lm)。表3显示手动三重映射大量的实验表明,我们的模型的性能优于当前最先进的算法,而不是更多,而是更少的输入。对于未来的作品,可能是CSDCLm,Lm的个人性能和两者可以将人-物体交互方法扩展到CSDC在LFM 40K测试装置上评估FPmCL约束Lm,其目标是3D身体重建,其仍然仅关注身体体素。449引用[1] Yagiz Aksoy、Tunc Ozan Aydin和Marc Pollefeys。为自然图像抠图设计有效的像素间信息流。在IEEE计算机视觉和模式识别会议论文集(CVPR),第29[2] 易卜拉欣·阿尔哈希姆和彼得·旺卡。通过迁移学习的高质量单目深度估计。arXiv电子打印,abs/1812.11941,2018。[3] Levin Anat Rav-Acha Alex和Lischinski Dani光谱抠图。IEEE Transactions on Pattern Analysis and MachineIntelligence,30(10):1699[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence,39(12):2481[5] Shaofan Cai,Xiaoshuai Zhang,Haoqiang Fan,HaibinHuang , Jiangyu Liu , Jiaming Liu , Jiaying Liu , JueWang,and Jian Sun.解开图像抠图。在IEEE计算机视觉国际会议(ICCV)的会议记录中,第8819-8828页[6] Quan Chen , Tiezheng Ge , Yanyu Xu , ZhiqiangZhang,Xinxin Yang,and Kun Gai.语义人类铺垫。第26届ACM国际多媒体会议论文集,第618-626页,2018年[7] Qifeng Chen,Dingzeyu Li,and Chi-Keung Tang.我知道 。 Proceedings of the IEEE transactions on patternanalysis and machine intelligence,35(9):2175[8] 陈小武,邹东庆,周志英,赵琴平,谭平.具有局部和非局部光滑先验的图像抠图在IEEE计算机视觉和模式识别会议(CVPR)中,第1902-1907页[9] 赵东贤戴宇荣和权仁生使用深度卷积神经网络的自然图像抠图。在欧洲计算机视觉会议(ECCV)的会议记录中,第626-643页。施普林格,2016年。[10] Shahrian Ehsan 、 Rajan Deepu 、 Price Brian 和 CohenScott。利用综合采样集改进图像抠图。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第636-643页,2013年。[11] 陈冠英,韩凯,黄冠义。汤姆网:学习透明物体抠图从一个单一的形象.在IEEE计算机视觉和模式识别会议(CVPR)论文集,第9233-9241页,2018年。[12] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。[13] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE国际计算机视觉会议(ICCV)的会议记录中,第2961-2969页[14] 何开明,孙建,唐晓鸥。使用大核抠图拉普拉斯矩阵的快速抠图2010年IEEE计算机协会计算机视觉和模式识别(CVPR),第2165-2172页。IEEE,2010。[15] 侯七七和凤琉。同时进行前景和alpha估计的上下文感知图像抠图在IEEE计算机视觉国际会议(ICCV)的会议记录中,第4130-4139页[16] 王珏和科恩Michael F.优化的颜色采样,以实现稳健的抠 图 。 2007 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第1-8页。IEEE,2007年。[17] 王珏和科恩Michael F. 图像和视频抠图:调查。NowPublishers Inc,2008.[18] 何开明,罗曼·克里斯托夫,罗瑟·卡斯滕,唐希傲,孙健.一种全局采样的α-mating方法在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2049-2056页。IEEE,2011年。[19] Philip Lee和Ying Wu。非局部matting。在IEEE计算机视觉和模式识别会议(CVPR)的论文集,第2193-2200页中。IEEE,2011年。[20] Anat Levin,Dani Lischinski和Yair Weiss。一个封闭形式的解决方案,以自然图像抠图。IEEE Transactions onPattern Analysis and Machine Intelligence,30(2 ):228-242,2007。[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在欧洲计算机视觉会议(ECCV)的会议记录中,第740-755页。Springer,2014.[22] Jinlin Liu ,Yuan Yao ,Wendi Hou ,Miaomiao Cui,Xuansong Xie,Changshui Zhang,and Xian-sheng Hua.用粗糙的注释来增强语义人类铺垫。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,第8563-8572页,2020年[23] Hao Lu,Yutong Dai,Chunhua Shen,and Songcen Xu.关键因素:学习索引深度图像抠图。在IEEE计算机视觉国际会议(ICCV)论文集,第3266-3275页[24] Sebastian Lutz 、 Konstantinos Amplianitis 和 AljosaSmolic。Alphagan:用于自然图像抠图的生成对抗网络。在英国机器视觉会议(BMVC)中,第259页。BMVA Press,2018.[25] Xudong Mao , Qing Li , Haoran Xie , Raymond YKLau,Zhen Wang,and Stephen Paul Smolley.最小二乘生成对抗网络。在IEEE国际计算机视觉会议(ICCV)的会议记录中,第2794- 2802页[26] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上,第483施普林格,2016年。[27] Richard J Qian和M Ibrahim Sezan。 视频背景更换无蓝屏. 1999年国际图像处理会议论文集(InternationalConference on Image Processing)99 CH 36348),第4卷,第143-146页。IEEE,1999年。[28] Yu Qiao,Yuhao Liu ,Xin Yang,Dongsheng Zhou,Mingliang Xu,Qiang Zhang,and Xiaopeng Wei.用于图像抠图的注意力引导层次结构聚集。在450IEEE计算机视觉和模式识别会议,2020年6月。[29] Soumyadip Sengupta,Vivek Jayaram,Brian Curless,Steven M Seitz,and Ira Kemelmacher-Shlizerman.背景铺垫:世界是你的绿幕。在IEEE计算机视觉和模式识别会议(CVPR)的论文集中,第2291-2300页[30] Xiaoyong Shen,Xin Tao,Hongyun Gao,Chao Zhou,and Jiaya Jia.深自动人像抠图。在欧洲计算机视觉会议(ECCV)的会议记录中,第92-107页施普林格,2016年。[31] Jian Sun,Jiaya Jia,Chi-Keung Tang,and Heung-YeungShum. 泊 松 铺 垫 。 在 Proceedings of the ACM SpecialInterest Group on Computer Graphics(SIGGRAPH
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功