面向图像拼接的三方信息挖掘与集成

163 浏览量更新于2023-10-14 收藏 7.09MB PDF 举报

图像拼接

深度卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

面向图像拼接的三方信息挖掘与集成Yuhao Liu1，*，Jiake Xie2，*，Xiao Shi3，Yu Qiao1，Yujie Huang4，Yong Tang2†，Xin Yang1，†1大连理工大学，2PicUp.AI3中国农业科学院农业信息研究所4复旦大学{yuhaoLiu7456，coachqiao2018} @ gmail.com，{jxie，yt} @picup.aisixiaosmile@outlook.com，19112020091@fudan.edu.cn，xinyang@dlut.edu.cn输入图像用户Trimap CAM图1：我们的方法和CAM [17]在真实世界图像上的视觉比较。这两个结果都是由在DIM [56]数据集上训练的模型产生的。请放大以查看详细信息。摘要随着深度卷积神经网络的发展，图像抠图技术进入了一个新的阶段. 考虑到图像抠图的本质，大多数研究都集中在过渡区域的解决方案上。然而，我们认为，许多现有的方法过于关注过渡占主导地位的局部领域，忽视了全局信息和过渡优化之间的内在协调。在本文中，我们提出了三方信息挖掘和集成网络（TIMI-Net）协调的全球和本地属性之间的协调形式。具体而言，我们诉诸一个新的3分支编码器来完成输入信息的全面挖掘，这可以补充被忽视的全局和局部字段之间的协调。为了实现这种多分支信息之间的有效和完整的交互，我们开发了三方信息，* 联合第一作者。 † 联合通讯作者。项目页面：https://wukaoliu.github.io/TIMI-Net。形成集成（TI2）模块，以转换和集成不同分支之间的互连。此外，我们还建立了一个大规模的人体抠图数据集（Human-2K）来推进人体图像抠图，该数据集由2100张高精度人体图像组成（2000张用于训练，100张用于测试）。最后，我们进行了大量的实验来证明我们提出的 TIMI-Net 的性能，这表明我们的方法在alphamatting.com （排名第一）， Composition-1 K（MSE- 0.006，Grad-11.5），Distinctions-646和我们的Human-2K上对SOTA方法表现良好。此外，我们还开发了一个在线评估网站来执行自然图像抠图。1. 介绍数字抠图是计算机视觉中的一项重要任务它具有广泛的应用，特别是在以下领域755527556∈电影制作和数字图像编辑。形式上，输入图像被建模为前景和背景颜色的线性组合[41]，如下所示：Ii=αiFi+（1−αi）Bi，αi∈[0，1]（1）其中αi[0，1]表示输入图像中像素i处的不透明度，Fi和Bi指前景（Fg）和背景（Bg）颜色。这个问题是高度不适定的。对于典型的3通道中的像素（例如，RGB）图像中，需要求解7个未知值（即3个F、3个B和1个α），但只有3个已知量（3个I）。为了解决这个问题，经典的方法[7，23，46，52]利用三元图作为一种约束信息来减少解空间。三重图由白色、黑色和灰色三部分组成，分别表示前景、背景和过渡区域。许多方法[2，6，31，38，43，62]试图在没有辅助线索的情况下预测α蒙版。虽然它们可以产生有希望的结果，但真实世界和合成图像之间的差距仍然存在，并且由于合成的伪影而可能被放大，这可能导致较差的概括。通常，几乎所有基于trimap的方法[56，34，49，3，17]都通过将RGB图像和trimap连接起来以馈送网络来显式地执行过渡优化其他无trimap方法[6，62，31]在损失函数的帮助下隐式地构建一些过渡变量（伪trimap）以指导局部区域优化。然而，在转变的约束内，这些方法过度地集中在局部区域上，这可能忽略全局和局部属性（例如，纹理相似性、位置相关性等）之间的协调。），从而导致不完全的信息挖掘。在本文中，我们提出了一个三方信息挖掘和集成网络（TIMI-Net），可以捕获足够的全球信息，通过挖掘和集成多模态信息从RGB和Trimap。对于信息挖掘，我们认为不同模态的特征RGB图像可以提供详细的低级外观（例如，纹理和颜色相似性），而高级位置相关性（语义、形状等）可以提供高级外观（例如，纹理和颜色相似性）。）可以在trimap中找到。因此，我们构建了两个功能特定的单元（称为RGB单元和Trimap单元）来执行单独的挖掘。关于信息集成，我们可以直观地添加或连接来自多分支的特征，如[17，62]。然而，由于不同类型的全局信息和初始局部信息的差异特性，这将导致不完全集成。为了有效地组合它们，受Non-Local [53]的启发，我们已经开发了三分信息集成（TI2）模块，其变换和集成两个双边关系流RGB-三分图分支和RGB-单元、RGB-三分图分支和三分图单元。这样，全球信息-信息可以用于引导本地信息的传播，从而促进两者的协调。我们的主要贡献可归纳如下：• 本文提出了一种基于三分信息集成（TI2）模块的三分信息挖掘与集成网络（TIMI-Net），该网络能够充分挖掘和集成RGB图像和三分图中的全局互补信息。• 我们构建了一个大规模的人类抠图数据集，其中包含2，000张训练图像和100张测试图像。据我们所知，这是最大的高精度人类图像抠图数据集。我们将向公众开放，以推进人类图像抠图任务。• 实验结果表明，所提出的TIMI-Net在合成图像和真实图像上均能达到SOTA性能，证明了该方法的有效性和优越性。2. 相关工作在本节中，我们将从三个方面简要回顾图像抠图：传统和基于深度学习的方法，以及抠图数据集。解决该不适定问题的传统方法主要依赖于trimap和scribble约束信息，并且它们分为两个主要类别：基于采样的方法和基于亲和力的方法。基于采样的方法[9，12，13，19，40，18，52，44，51]收集一组已知的前景和背景样本，以找到给定像素的前景和背景的可识别颜色然后可以通过对图像统计应用局部平滑假设来计算阿尔法遮片基于亲和度的方法[23，1，7，22，46，15，24]重建等式1，使得其可以使用相邻像素的亲和度将已知的α值从已知区域传播到未知区域由于深度卷积神经网络的进步，基于深度学习的算法在许多任务上取得了巨大的成功（例如：对象检测[50]、图像恢复[54、59、55]和特定区域分割[35、36]）。在图像抠图中，Shen等人。 [45]首先将CNN应用于肖像抠图。DCNN [8]结合了[23]和[7]的结果，并将它们与CNN融合以获得最终的alpha。为了促进端到端训练，Xu等人。 [56]提出了第一个合成数据集并取得了良好的性能。后来，AlphaGAN [34]引入了生成对抗网络（GAN）[14]来改进alpha mattes。随后，一系列方法[49，4，17，33，26，60，32，27，10，47]进行了不同的改进，以获得更好的结果。Adamatting [3]和CAM [17]探索了trimap中的位置信息（语义和形状）和全局上下文信息27557×图像遮片数据集VHRDAPM [45]火车1700 1700800*600测试300300800*600[56]第56话火车4312161256*1048测试50111655*1380[38]第火车5963331758*1573测试50101361*1477人类-2K（我们的）火车2000 2000 2560*1440测试1001002560*1440图2：信息传输模式的分类1和2表示卷积运算集中在已知区域（Bg和Fg），3作用于纯未知区域。图4和图5表示信息分别从Bg和Fg流向过渡区域。黑色虚线指示卷积滑动的方向。蓝色区域是指过渡区。红色框显示了一组随机的3 3卷积权重。为了更好的可视化，我们将未知区域的宽度扩展了两倍。（颜色和纹理）。GCA [26]模仿图像修复[61]来传输来自已知区域的上下文信息尽管他们的一些方法从背景区域寻求一些相关信息，但仍然忽略了全局和局部协调。在该方法中，我们协调全局和局部信息之间的协调，然后以三方协作的方式挖掘和集成局部和互补的全局信息。也有许多方法[6，58，39，57，38，31，43，28，20，25]，其可以在不使用trimap作为附加约束的情况下获取alpha蒙版。尽管有时可以实现令人愉快的结果，但是仍然存在一些潜在的问题，诸如由于合成图像与真实世界图像之间的间隙的扩大而导致的对真实世界图像的较差概括、用户不能选择感兴趣区域、对其他附加信息（例如，背景、用于其他任务的分割图等）的要求。）.因此，本文主要研究基于三重图的图像抠图方法.由于alpha蒙版的获取极其困难且商业价值高，因此蒙版数据集很少可用，这也导致了数据驱动方法的训练和推理困难。如Tab.所示。1，第一个抠图数据集是在DAPM [45]中提出的，它只关注肖像图像。后来，构建了两个数据集，Composition-1 K [56]具有216个用于训练的人类图像，另一个是Distinctions-646 [38]具有343个表1：不同公共抠图数据集之间的比较。V、H和R是指总体积、人的数量和平均分辨率。人类图像（333个用于训练，10个用于测试）。然而，由于质量和数量问题，仍然缺乏一个统一的人体图像抠图基准。为了缓解这一差距，我们建立了一个大规模的人类图像抠图数据集，包含- ING2000和100高品质的人类图像与人类注释的阿尔法抠图的训练和测试，分别。3. 方法3.1. 动机对于基于trimap的方法，大多数传统方法基于各种局部信息（例如局部平滑假设[40]）求解未知alpha。对于基于深度学习的方法，使用trimap或过渡变体（伪trimap）[6，62，31]来约束解区域，从而帮助网络优化过渡区域。然而，两种类型都密切关注过渡区域周围的局部区域，并且可能忽略全局和局部信息（纹理和颜色相似性、位置相关性等）之间的协调。）.如图在图2中，当执行卷积运算时，卷积核从左向右滑动。类型1、2和3仅关注局部未交叉的场（未知或已知区域）。只有4和5执行被照亮的转移，其中信息分别从Bg和Fg流向过渡区。因此，该范例更多地关注局部特征，并且类似于局部卷积[30]。此外，随着网络的加深和分辨率的降低，导致trimap中的全球定位指南大量丢失，这进一步削弱了未知区域与已知信息的亲和力。为此，本文分析并提出了一种信息挖掘与集成网络。它可以通过挖掘和整合输入RGB图像和三重图的多模态信息来补充被忽视的全局和局部领域之间的协调。具体来说，在保留主流的RGB-Trimap分支用于本地信息获取的同时，我们基于不同的本地信息获取方式设计了两个功能特定的单元RGB-Unit 和Trimap-Unit。27558图3：所提出的TIMI-Net的流水线。RGB-Unit（Orange Rectangle）和Trimap-Unit（Gray Rectangle）分别接收rgb和trimap，用于挖掘全局信息。蓝色矩形显示了主流局部信息的RGB-Trimap处理。ResNet-18 [16]和ResNet-34 [16]分别用作Trimap-Unit和RGB-Trimap分支的编码器。三方信息集成（TI2）模块接收来自RGB-三映射分支、RGB-单元和三映射单元的三个输入。此外，ASPP [5]用于提取多尺度上下文信息。输入RGB和trimap的效果，用于详细的外观挖掘和相关的位置指导。在两个独立的单位获得各自的职能后，如何在职能上与主流部门进行整合是一个关键问题。加法或串联可能是最直接的方法。然而，由于未区分的特征，它们倾向于产生相反，我们已经开发了一个三方信息集成（TI2），允许充分整合的互补功能。考虑到RGB-Unit和Trimap- Unit与RGB-Trimap分支的互补性，TI2可以通过使用从RGB-Triamp分支和RGB-Unit以及RGB-Trimap分支和Trimap-Unit计算的两个不同的关注度来转换全局信息。以这种方式，可以有效地捕获互补特征，从而协调全局和局部信息协调。3.2. 网络结构所提出的方法的总体架构如图1B所示。3.我们的方法使用U-Net [42]结构，其中每个编码器块和解码器块中的捷径（蓝色）作为基线，并且用于获取RGB-Trimap分支中的局部信息，其已被其他方法[33，26]识别。在此基础上，我们开发了RGB单元和Trimap单元，用于它们各自的全局信息挖掘。在来自两个单元和解码器的每个块之间也存在捷径（橙色或灰色然后，将RGB-Trimap分支和其他两个单元的特征集成到Tripartite Infor中。信息集成（TI2）。为了增强RGB-Trimap分支的表示能力，我们引入ASPP [5]来提取高级语义信息。RGB单位。我们使用三个连续的卷积运算，其中内核大小为3来实现这一点。通道数分别为16、64和128。此外，考虑到TI2的位置和计算负担，我们将三个卷积的步长设置为2，从而实现8倍下采样，以与分辨率和计算兼容。通过这种肤浅的设计模式，可以保留全局外观，特别是来自未混合RGB字段的颜色和纹理信息，从而在前景和背景彼此局部相似时实现[17]第10段。Trimap单元。位置相关性对于从三重图建模长程语义和形状也是重要的，特别是对于几乎所有区域都是过渡区域（例如，网、半透明等）的图像。）.然而，该字符在基本RGB-Trimap结构中未得到充分利用。为此，我们求助于一个相对较深的网络ResNet-18 [16]，以提取用于建模位置属性的高级全局表示。同时，为了保持与主流RGB-Trimap分支的特征相同的分辨率，我们只使用前三个块（conv-1，res-2，res-3），并且不改变ResNet-18中的内核大小和通道数量[16]。值得注意的是，我们保留了MaxPool以增加感受野以获得更全局的视图，而其他两个下采样是在res-2和res-3的第一个卷积上执行的。27559∈∈.Σ∈∈∈× ××关于我们三方信息集成。当我们从RGB-Trimap分支、RGB-Unit和Trimap-Unit获取区别特征时，主要问题变成如何在所有实验中：Lα=|αi−αi|（五）G p有效地整合它们。一般而言，增补或合并─国家是一种简单化的方法，但他们倾向于平等对待不同模态的特征。受非局部模型[53]的启发，为了整合补充的多模态全局信息，我们利用从两个独立单元获得的两个注意力图作为索引，并分别从主流的RGB-Trimap分支中充分获取有关其属性的信息我们首先简要回顾一下非局部模型，它可以被定义为：Y=g（X）A（X），⑵其中XRH×W ×C和YRH×W ×C是输入特征和输出关注特征，其中H、W和C分别表示它们的高度、宽度和通道数。A（X）是输出注意力图的归一化函数：A （ X ）= softmaxθ （ X ） T（ X ），（3）g，θ和是可学习的嵌入函数，并且X是从同一个域提取的特征。从Eq可以看出在图2和图3中，非局部聚焦于相同的特征X，并且它以双线性投影的方式计算自关注映射。而在我们的例子中，RGB图像和Trimap是一种跨模态信息。RGB图像具有丰富的全局外观（颜色、纹理等）。），而在trimap中可以看到更全面的高级信息因此，我们将使用来自不同模态的补充信息的特征补充。通常，来自 RGB-Trimap 分支、 RGB-Unit 和Trimap-Unit 的特征被描述为 XRTRH×W×CR T ，XRRH×W×CR和XTRH×W×CT。通过RGB和Trimap模态的两个特征XR和XT，我们将它们整合到XRT中：输出T12=XRT（A（XR）+A（XT）+1），⑷对于XR和XT，我们将它们分别嵌入θ和Ⅺ空间，得到了它们的注意特征。而对于XRT，不是在其上执行线性嵌入g，而是应用残差来叠加互补信息。因此，全局信息可以用于在整个过渡的优化中引导局部信息。考虑到计算成本，我们选择仅在输出步幅=8时的编码器和解码器中的阶段部署它。3.3. 损失函数为了验证该模式的有效性并防止由其他损失引起的偏差，我们仅使用α损失其中i是指像素位置。g和p表示Ground Truth和predicted alpha分别。4. 实验4.1. 实验设置为了验证所提出的方法的有效性，我们评估以下四个数据集的性能。Alphamatting.com. 它是一个在线基准网站，提供27张图像和alpha mattes用于训练，7张图像用于评估。组成-1K。它包含了431和50套前地图像和阿尔法蒙版的训练和测试。它们分别以1：100和1：20的比例与COCO [29]和VOC [11]的背景图像相结合，用于合成新图像。第646章. 此数据集提供596和50组前景图像和阿尔法蒙版与更多的挑战和多样化的训练和测试对象。它采用与Composition-1 K相同的规则和比例。人类-2K 虽然我们可以使用一些公共数据集进行人体图像抠图任务，但数量和质量仍然是一个问题。此外，我们亦缺乏一个统一的比较基准。相反，我们的Human-2K提供了2100张高精度图像和alpha蒙版，这些图像足够好，可以作为训练（2000）和测试（100）的基准与Composition-1 K [56]相同的规则和比率用于我们的Human-2K来合成新图像。实施详情。所提出的框架构建在公共PyTorch [37]工具箱上，并在24核i9- 9920 X3.5 GHZ CPU，128GBRAM和一个NVIDIA Tesla V100 GPU。我们使用Adam [21]优化器进行所有网络训练，初始学习率为0.01，批量为16。学习率在20、30、40、60、80和40的时期除以10 对于Composition-1 K [56]，Distinctions-646 [38]和我们的Human-2K数据集，分别为90，100，120。上述三个数据集分别花了5天、10天和15天来训练50个epoch、100个epoch和150个epoch。我们按照[56，62，38]进行数据扩充。为了训练，我们随机地将输入图像和三重图裁剪为512 512、640 640和960 960的分辨率，然后，在[-60， 60]度之间进行随机缩放、翻转和旋转。适用于他们。当进行推理时，我们输入全分辨率图像和三重映射到网络以预测阿尔法蒙版。评估指标。我们遵循[17，3，33，26]使用以下四个指标进行比较。即绝对差之和、平均平方误差、梯度和连通性误差。67560SAD↓平均秩公司简介巨魔L娃娃驴US L U S L U大象S L U植物菠萝OS L U S L U塑料袋网S L U S L U我们3.03.83.31.98.38.79.04.44.74.42.82.92.01.01.11.34.75.26.21.81.92.315.916.215.516.619.218.0HDMat [60]8.410.37.08.09.51010.74.74.85.82.93.02.61.11.21.35.25.96.72.42.63.117.317.317.021.522.423.2AdaMatting [3]10.39.19.312.610.211.110.84.95.46.63.63.43.40.90.91.84.76.89.32.22.63.319.219.818.717.819.118.6BgMatting [43]10.58.18.414.99.310.010.14.55.16.72.93.32.91.01.22.25.76.07.82.83.44.316.417.316.419.520.927.9SampleNet [49]10.78.610.313.39.19.79.84.34.85.13.43.73.20.91.12.05.16.89.72.54.03.718.619.319.120.021.623.2GCA [26]11.912.99.013.88.89.511.14.94.85.83.43.73.21.11.21.35.76.97.62.83.14.518.319.218.520.821.724.7DIM [56]13.514.912.513.010.711.211.04.85.85.62.82.92.91.11.12.06.07.18.92.73.23.919.219.618.721.823.924.1IndexNet [33]16.919.515.615.612.613.411.44.84.95.73.34.03.01.11.51.66.47.58.93.44.04.118.619.118.523.425.129.3AlphaGAN [34]18.519.518.817.39.610.710.44.75.35.43.13.73.11.11.32.06.48.39.33.65.04.320.821.520.625.728.726.7环境感知[17]21.025.019.018.910.411.110.16.47.47.14.14.53.82.33.13.07.18.29.13.55.54.118.319.216.521.123.324.6表2：我们的方法与使用SAD度量的九种代表性算法之间的比较。“O” represents overall rank, 我们的方法排名第一，无论质量的trimap（S商场，大型，或User）。[33]第一届中国国际汽车工业展览会[34][17]第十三届中国国际汽车工业展览会[26]第十三届中国国际汽车工业展览会图4：在Alphamatting.com测试集上，TIMI-Net与SOTA方法结果的目视比较。所有结果均从alphamatting.com网站获得。更多的视觉对比可以在补充材料中看到。4.2. 与先前工作的为了评估所提出的方法的性能，我们将我们的方法与其他2种经典的和9种基于SOTA深度学习的图像抠图方法进行了定量和可视化的比较，这些方法具有可用的代码或结果，包括KNN [7]，Closed-Form [23]，DCNN [8]，DIM [56]，AlphaGAN [34]，IndexNet [33] 、 CAM [17] 、 SampleNet [49] 、 GCA[26]、Bg-[43][44][45][46][47][48]选项卡. 2、3、4、5列出了我们的模型和SOTA方法在四个数据集上的定量结果。我们的模型在公共基准测试 alphamatting.com 上排名第一，并且在Composition-1 K，Distinctions-646数据集和我们的人类图像匹配基准测试的所有指标中均优于所有这些模型。与使用补丁的HDMatt [60]相比，我们的方法在Composition-1 K测试集上的SAD和Conn方面产生了29.08和11.5的结果，这带来了4.42和4.54的改进。同时，我们的模型在很大程度上优于 GCA [26]，在Composition-1 K测试集上SAD和Grad分别提高了6.22和5.40在不同的Distinctions-646和Human-2K数据集中可以看到相同的改进，证明了我们的方法在协调来自互补RGB的全局和局部信息方面67561ED和Trimap模态。我们还在图中给出了视觉比较。4、5、6和7。可以明显地看出，我们的方法可以获得精细的细节，例如图1中的发尖部位、指尖缝隙。7.第一次会议。4.3. 内部分析我们还在三个数据集上验证了TIMI-Net中每个组件的有效性（Tab.3、4、5）。Basic表示具有用于局部信息获取的捷径的U-Net [42]结构，并且RGB单元和Trimap单元分别用于挖掘全局外观和位置相关性。S1是指来自RGB-Trimap分支的局部信息与来自RGB-单元和Trimap-单元的全局TI2和TI2指示TI2被应用在编码器和解码器中。如Tab.所示3、以Composition-1 K上的结果(i)与基线模型相比，我们的RGB单元的添加分别将SAD和Conn减少了5.48和6.76，提供了强有力的证据，证明RGB域中的全局外观对于指导过渡优化是必不可少(ii)Trimap-Unit也改进了结果，表明变换与已知区域（Fg和Bg）之间的像素位置相关性是必要的。（iii）我们67562E[26]第一届中国国际汽车工业展览会图5：TIMI-Net与Adobe Composition-1 K测试集上获得的SOTA方法结果的视觉比较[26]第一届中国国际汽车工业展览会图6：在Distinctions-646测试集上获得的TIMI-Net与SOTA方法结果的目视比较[26]第一届中国国际汽车工业展览会图7：在我们的人类-2K测试集上获得的TIMI-Net与SOTA方法结果的视觉比较还可以看到，与每个单独的单元相比，通过将RGB单元和Trimap单元并入主流分支中，结果得到进一步改善，这验证了两者之间的互补性，一个用于低级细节，另一个用于高级定位。(vi)与SI相比，所提出的TI2允许来自两种互补模态的全局和局部信息的更好的集成，因为它可以充分地对每个模态的主流全局和局部信息之间的值得注意的是，无论我们的TI2是应用于编码器还是解码器，都显示出增长。我们的TI2结果进一步协调全局信息与局部信息的协调，取得了较好的效果。在Tab中也可以看到类似的结果。4和5.4.4. 概化分析为了证明我们的方法和Human-2K的通用性，我们在不同的数据集上使用不同的模型进行了交叉比较实验。我们使用Composition-1 K [56]和Human-2K数据集的整个训练集来训练每个模型。为了测试，我们只选择了IM-分别增长了5.6%和7.2%D在MSE和Grad会议-年龄与来自组合物-1K [56]测试集的人的作为rics，并且在TI2中可以看到11%和12%的增加。(v)在解码器级的信息的复用可以如Tab所示6，代表性方法DIM [56]和IndexNet [33]以及我们的TIMI-Net的性能都有所改善，特别是对于具有67563MSE和Grad的DIM87564∗ED方法SAD↓ MSE↓ Grad↓ Con↓DIM [56]IndexNet [33]GCA [26]7.536.555.180.0080.0060.0046.44.53.06.75.54.0基本基本+RGB-单位基本+三角图-单位基本+S ITI2ETI2D5.875.165.454.934.654.830.00470.00370.00410.00340.00310.00333.682.783.032.592.432.574.814.034.363.713.473.62TIMI-Net（我们的）4.200.00262.062.95表3：组合物-1K [56]测试集的定量结果。意味着他们的论文中没有显示结果。Basic和+表示我们的基线网络和加法运算。S1表示RGB-三重映射分支、RGB-单元和三重映射单元之间TI2和TI2是指在编码器和解码器中应用的TI2方法SAD↓MSE↓Grad↓ 连接器↓DIM [56]IndexNet [33]GCA [26]44.1534.4726.590.0310.0190.01539.0828.3119.5044.6533.3725.23基本基本+RGB-单位基本+三角图-单位基本+S ITI2ETI2D32.2026.9327.6725.9625.2725.560.01630.01400.01500.01350.01240.013120.0718.5119.4716.0115.3215.8628.7525.5726.4124.6824.2224.09TIMI-Net（我们的）22.280.010714.3820.49表4：Distinctions-646 [38]测试集的定量结果。分别提高了0.005和4.67，这表明我们的数据集的泛化是鲁棒的，并且可以用作基准。同时，我们的模型仍然是最优的，这也意味着优越性。4.5. 真实世界图像抠图在实践中，为了便于选择感兴趣的区域，要求新手用户基于已知和未知区域绘制三重图。如图1，这些三重图的质量是低劣的。然而，由于我们的方法协调了更多的全局信息，因此我们的结果优于CAM [17]的结果。值得注意的是，使用的两个模型都是由我们训练的-表5：我们的人-2K测试集的定量结果。型号SAD↓ MSE↓Grad↓Conn↓DIM [56]C C15.25 0.0150 10.9914.41H C 11.46 0.01006.3210.04IndexNet [33] C C11.27 0.00866.019.64H C 10.57 0.00705.309.00我们C C8.110.00463.126.24H C7.410.00402.785.55表6：我们的Human-2K数据集的泛化分析。C和H指的是Composition-1 K [56]和我们的Human- 2K数据集。CC和H C表示在C和H上训练的模型，然后在C上测试它们。仅使用Composition-1 K [56]训练集。5. 结论和未来工作在本文中，我们已经观察到，以前的图像匹配方法更多地关注接近过渡区域的局部区域，这可能忽略了全局和局部信息之间的协调。基于这一观察，我们提出了一种新的三方信息挖掘和集成模型，以充分补充被忽视的协调。为了推进人类图像抠图任务的发展，我们已经预处理了一个新的大规模高精度人类图像抠图数据集（Human-2K）。最后，我们进行了广泛的实验，以验证所提出的方法对SOTA方法的有效性。我们的方法确实有局限性，两个单元的参数和计算成本的TI2限制其应用到实时。在未来，我们将探索如何利用其他技术以轻松的方式对图像和视频抠图进行远程信息建模[48，63]。鸣谢：这项工作得到了国家自然科学基金61972067、大连市创新技术基金（2020JJ26GX036）和赢路控股有限公司PicUP.Ai项目的部分支持。方法SAD↓ MSE↓ Grad↓连接器↓KNN [7]175.40.103124.1176.4封闭式[23]168.10.091126.9167.9DCNN [8]161.40.087115.1161.9DIM [56]54.40.01431.050.8IndexNet [33]45.80.01325.943.7中文（简体）35.80.00817.333.2SampleNet [49]40.40.01016*.932*.5GCA [26]35.30.009[60]第六十话33.50.00714.529.9基本基本+RGB-单位基本+三角图-单位基本+S ITI2ETI2D38.600.010719.1136.6233.120.008114.4829.8636.770.009716.6734.3431.210.007213.8427.8930.180.006412.2026.7430.600.006812.9027.29TIMI-Net（我们的）29.080.006011.5025.3687565引用[1] Yagiz Aksoy、Tunc Ozan Aydin和Marc Pollefeys。为自然图像抠图设计有效的像素间信息流。正在进行IEEE会议Comput.目视模式识别。，第228-236页[2] YagızAksoy，Tae-HyunOh ，Syl vainParis ，MarcPollefeyys，and Wojciech Matusik.语义软分割。ACM事务处理图表，37（4），2018.[3] Shaofan Cai，Xiaoshuai Zhang，Haoqiang Fan，HaibinHuang ， Jiangyu Liu ， Jiaming Liu ， Jiaying Liu ， JueWang，and Jian Sun.解开图像抠图。正在进行IEEE国际确认补偿目视，第8818-8827页[4] Guanying Chen，Kai Han，and Kwan-Yee K Wong.汤姆网：学习透明物体抠图从一个单一的形象.正在进行IEEE会议Comput.目视模式识别。，第9233-9241页[5] LiangChiehChen ， GeorgePapandreou ， FlorianSchroff，and Hartwig Adam.再思考无卷积在语义图像分割中的应用。2017年。[6] Quan Chen ， Tiezheng Ge ， Yanyu Xu ， ZhiqiangZhang，Xinxin Yang，and Kun Gai. 语义人类铺垫。ACM国际会议多媒体，第618-626页，2018年。[7] Qifeng Chen，Dingzeyu Li，and Chi Keung Tang.我知道。IEEE传输模式分析马赫内特尔，35（9）：2175[8] 赵东贤泰宇荣仁素坤深度卷积神经网络用于使用初始alpha抠图的自然图像抠图。IEEE传输图像处理。，28（3）：1054[9] Yung Yu Chuang，B.Curless，D.H. Salesin和R.塞利斯基数字抠图的贝叶斯方法在proc IEEE会议计算机目视模式识别。，第II-II页[10] 戴雨桐，陆昊，沈春华。学习深度图像抠图的亲和度感知上采样。正在进行IEEE会议Comput. 目视模式识别。，第6841-6850页，2021。[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。国际日Comput.目视，88（2）：303[12] Xiaoxue Feng，Xiaohui Liang，and Zili Zhang.一种基于稀疏编码的图像抠图聚类抽样方法。欧洲药典确认补偿目视，第204-219页[13] 爱德华多·S. L. Gastal和Manuel M.奥利维拉共享采样实时阿尔法抠图。Comput. Graph. Forum，29（2）：575-584，2010.[14] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Xu Bing ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成性对抗网。在proc内部配置神经信息过程 Systems，第2672-2680页，2014。[15] LeoGrady ，ThomasSchiwietz，ShmuelAharon，andRüdigerWestermann.用于交互式α-遮片的随机游走。在Proc. VIIP，第423-429页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议Comput. 目视模式识别。，第77087566[17] 侯七七和凤琉。同时进行前景和alpha估计的上下文感知图像抠图正在进行IEEE国际确认补偿目视，第4129-4138页[18] Jubin Johnson ， Ehsan Shahrian Varnousfaderani ，Hisham Cholakkal，and Deepu Rajan.稀疏编码的阿尔法马特丁。IEEE Trans on Image Process。，25（7）：3032-3043，2016.[19] Levent Karacan Aykut Erdem和Erkut Erdem。基于kl-散度的稀疏采样的 AlphaIEEE 传输图像处理。， 26（9）：4523[20] Zhanghan Ke，Kaican Li，Yurou Zhou，Qiuhua Wu，Xiangyu Mao，Qiong Yan，and Rynson WH Lau.绿屏真的是arXiv预印本arXiv：2011.11961，2020。

下载后可阅读完整内容，剩余1页未读，立即下载