个性化图像语义分割研究及数据集

79 浏览量更新于2023-10-13 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10549个性化图像语义分割张宇1张长斌1蒋鹏涛 1程明明1*毛锋21南开大学计算机科学与工程学院2阿里巴巴集团zhangyuygss@gmail.compt. mail.nankai.edu.cncmm@nankai.edu.cn摘要近年来，在公共数据集上训练的语义分割模型取得了巨大的成功然而，这些模型在本文中，我们解决的问题，个性化的图像分割。我们的目标是通过调查数据为了开辟这一领域的未来研究，我们收集了一个包含各种用户的个性化图像的大型数据集，来源个性化用户1用户2化的语义分割）。我们还调查了一些最近的研究与这个问题，并报告他们的表现在我们的数据集。此外，通过观察用户的个性化图像之间的相关性，我们提出了一种基线方法，该方法大量的实验表明，我们的方法优于现有的方法建议的数据集。代码和PSS数据集可在www.example.com获得https://mmcheng.net/pss/。1. 介绍语义分割是计算机视觉社会中的一个研究得很好的任务此任务的目标是为给定图像的每个像素分配语义标签。与其他计算机视觉任务一样，深度学习以其强大的表示学习能力极大地增强了语义分割[4，5，30，33，37，57，58]这些最先进的方法主要集中在公开可用的数据集，如 Pascal VOC [10] ， ADE20K [61] ，CityScapes [7]，其中图像被假设为独立和相同分布。然而，这种假设在现实世界中并不成立。例如，在移动摄影中，用户可以拍摄照片来记录他/她自己的生活并形成个性化的图像集。一方面，个性化数据不具有与公共数据集相同的分布，从而导致在个性化时的泛化问题。*MM Cheng为通讯作者。图1.所提出的个性化图像数据集的样本我们研究了如何利用用户的图像的个性化属性时，适应源数据。我们可以观察到的一个值得注意的特性是来自同一用户的图像是相关的（相似的对象、场景等）。采用在公共数据集上训练的良好训练的分割模型。另一方面，如图所示。1，来自同一用户的图像是相关的。它产生潜在的研究利用这种相互关联的属性，以促进分割。本文讨论了个性化的图像分割，在以前的作品中没有讨论的问题。困难主要在于以下两个方面：（i）首先，在公共数据集和用户的个人数据之间存在大的分布差距。一种简单的方法是使用用户数据的额外注释来训练模型，这是非常昂贵的因此，迫切需要直接从未标记的个性化数据中学习。然而，没有可用的个性化数据集可供学习。(ii)此外，来自同一用户的个性化图像通常具有一些个人特征。如何正确地利用这些个性化特征的语义分割仍然是一个尚未解决的问题。尽管存在上述困难，但在实践中对个性化图像分割有很大的需求。例如，相机应用可能需要为用户的图像生成高质量的分割掩模为了应对这些挑战，并打开个性化图像分割的进一步研究，我们提出了一个个性化的第1组第一组适应10550数据集称为PSS和基线个性化分割方法的基础上提出的数据集。PSS数据集包含15个个体用户的个性化图像，总共产生10080个图像。对于每个用户为了更容易地从现有数据集适应我们的个性化数据，我们考虑了PASCALVOC [10]数据集中的20个常见对象类。据我们所知，PSS数据集是第一个专注于图像分割的个性化问题的数据集。它使研究者能够利用个性化的特征来研究分割问题。在学习个人特质的挑战上，先前关于视觉任务的个性化问题的研究然后，提取的然而，我们从更广泛的角度考虑个性化，即，个性特征存在于每个人事实上，实验表明，在我们的场景中，为用户提取的全局表示失败。失败是合理的，因为在语义分割问题中，我们需要预测图像中每个像素的类别。虽然某些用户的图像具有其特征，但是在这些图像中仍然存在各种类别的对象和场景。所有像素的全局表示将过于模糊。为了避免全局表示的模糊性，同时学习与个性化特征分割。我们建议调查个性化图像之间的上下文连接，并利用它们之间的相关图像本地。具体来说，我们首先聚类一个人的图像到几个组，使图像从同一组共享相似的对象或背景。然后在每个组内，我们提取多个局部区域表示。对于该组中每个像素的预测，我们使用注意力机制与相关区域表示进行协商。注意，在所提出的个性化数据集中没有提供标记的训练图像。我们通过从现有的标记数据集（作为源）到个性化图像（作为目标）的域适应来解决这个问题。有许多关于无监督域自适应语义分割（UDASS）问题的工作[3，9，23，25，28，34，35，50]。虽然我们的个性化图像是相互关联的，但目前的UDASS方法都将目标图像视为独立分布的。他们在我们的基线方法中，我们将一个组上下文模块域适配框架。它允许网络从现有数据集适应个性化图像，同时利用个性化图像中的个人特质。这项工作的贡献有两个方面：• 我们首先提出了个性化的图像语义分割问题，并收集了一个个性化的图像数据集，称为PSS，包含15个不同的用户• 我们选择了一些最近的作品与这个问题，并报告他们的表现在我们的数据集。此外，我们提出了一个基线的方法，研究personal性状通过学习局部区域表示。该方法在所提出的个性化数据集上实现了最先进的性能2. 相关工作2.1. 个性化研究个性化问题已经在许多计算机视觉和自然语言处理任务中讨论过。[36]使用人格特质来增强机器翻译系统。[16]提出了一种用于食品图像分类的个性化分类器。[40]通过从用户以前的帖子中探索个性来预测社交媒体图像的标题和标签[22]研究了基于用户偏好的图像增强。这些方法通常专注于从现有数据中学习全局表示，这在面对新数据时作为先验在本文中，我们探讨个性化的图像语义分割，一个问题，以前没有讨论过。在我们提出的问题中，个性化可以从用户的全局特性和个性化图像的相关属性来研究2.2. 从相关数据中所提出的个性化图像分割的关键挑战是从同一个人的相关图像中学习，即，提取补充语义，剔除误导语义。共分割[12，18，26，62]和共显着性检测[11，56]旨在挖掘分组图像中的共同语义对象，其中每组包含相同类别的对象。Li等[26]提出了一种循环网络架构来探索常见的语义表示。Zhang等人[56]利用共同的分类特征来发现目标的大致区域这些方法通常学习每个组的组表示，其在从该组分割图像时用作先验。我们的情况更加复杂，因为个性化数据可能包含不同图像中的不同对象，并且我们需要分割所有这些类而不是仅一个类。2.3. 语义分割的领域自适应个性化图像分割的目标是利用现有的数据集和模型来预测未标记的个性化图像的分割掩模。类似的任务10551(a) 不同用户50002000(b) 相互依存性图2. PSS数据集的统计。(a)每个用户的个性化数据的不同对象类的比例。(b)不同类在数据集上的相互依赖性。(c)不同班级的平均人数。(d)每个类的实例数最近已经被很好地研究的是用于语义分割的无监督域自适应。在本文的其余部分，我们将称之为UDASS。给定一个标记的源数据集和一个未标记的目标数据集，UDASS的目标是解决源数据集和目标数据集之间的分布不匹配问题，使模型从源数据集到目标数据集具有很好的泛化能力。UDASS的一条工作线[6，15，24，38，45-另一条工作线[19，21，27，29，48，54，55，63]专注于学习策略：使用课程学习或自我训练策略来照看网络，以学习目标领域的良好语义。我们的问题和UDASS之间的主要区别是，我们不考虑图像的目标域独立。相反，我们将来自同一个人的图像视为相关部分。类似的图像可以为其他人提供有用的信息此外，目前的UDASS方法主要集中在城市场景数据集，如Cityscapes [7]，GTA5 [42]和SYNTHIA [43]，其中它们在合成图像和真实图像之间进行域适应。在建议的数据集中，我们专注于个性化的图像的常见对象。我们的数据集提供了一个更加多样化和现实的个性化场景，也可以评估领域适应方法的有效性。2.4. 用于语义分割的与其他计算机视觉任务一样，数据集在图像分割的研究中起着关键作用。最近的数据集极大地增强了基于深度学习的分割框架[4，13，57]。PASCAL VOC[10]和COCO[31]是关注常见物体图像的数据集。ADE20K [61]也关注常见对象，但具有更细粒度的类标签，如对象部件。[2019 - 05 - 17][2019 - 05][2019-0虽然最近已经提出了许多数据集，但是这些数据集都没有考虑分割中的个性化问题在本文中，我们收集来自不同用户的PSS数据集。我们的数据集集中于具有不同用户个性化特征的常见对象的图像。这是一个很好的开始个性化图像分割。它还可以为其他分割任务（如域自适应）提供良好的基准。3. 拟议数据集3.1. 数据集集合为了模拟真实世界的个性化数据分布，我们直接从不同的志愿者那里收集数据集。每名志愿者被要求在他/她的手机或相机中导出图像为了保护隐私，志愿者被要求浏览这些图像，并过滤掉他/她不愿意公开的图像。我们的数据集集中在PASCAL VOC [10]中的20个类。最终得到了一个包含10080张图像的大规模数据集，该数据集由15个用户的个性化数据组成每个个人化数据可以具有与其他用户不同的数据分布，并且可以具有对语义分割有用的其高级/低级统计中的一些。3.2. 数据注释我们请了几位训练有素的专家对收集到的个性化数据进行注释。我们的数据集中提供了图像级和像素级注释。图像级注释。与[10]一致，我们数据集中的所有图像都标有出现的对象的类标签一方面，图像级标签可用于数据分析。另一方面，图像级标签可能有利于个性化语义分割，因为它们在许多弱监督分割方法中取得了成功[1，17，20，32，39]。我们在图中显示了每个用户的对象类分布和不同类的相互依赖性。2（a）和图第2段（b）分段。像素级注释。个性化的挑战(d)每个类的实例数030(c)对象大小150比例Number10552S联系我们--}联系我们联系我们{--Lseg=−Σ ΣYlog（P）（1）E= Σ−Plog（P ）。（二）sss图像分割是在未标记的个性化图像上生成分割掩模。对于我们数据集的模型评估，我们为每个用户数据的大约30%提供像素级注释。对于每个逐像素注释的图像，对象区域属于20个类。正如在PASCAL VOC [10]中一样，它们被标记为某些值，从而产生一个像素掩码，指示图像中每个像素的类别。我们在图中显示了不同类的平均大小和实例数。2（c）和图。第2段（d）分段。3.3. 数据集特征个性化数据。我们数据集最重要的特征是个性化。这自然导致用户内相干性，即，某些用户的数据具有其在不同图像之间可能是连贯的特性，这可以用于促进学习。另一方面，不同用户光条件，图像质量）和高水平（例如，图像内容、背景）属性。不同用户之间数据分布的多样性要求分割模型能够针对特定用户的数据进行分割。用户内相干性和用户间分布间隙的更多细节可以在补充材料中找到。现实数据。我们的个性化数据集非常接近现实场景。现实主义有两个方面。首先，我们的数据集直接从不同的用户收集。这些图像忠实地反映了他们在日常生活中所关心和拍摄的照片，这意味着我们的数据集的结果可以反映不同练习方法的有效性。如补充材料中所示的例子：一些用户具有更多关于他们日常生活的食物或宠物的图像，而另一些用户具有更多美丽风景的图像。这表明了个性化细分的重要性其次，我们数据集中的对象类是长尾分布的，如图所示。第2段（d）分段。一些物体更有可能被拍摄，而另一些则不是，例如，那里步骤，我们适应从源数据到个性化的数据与基于对抗的领域适应框架。在训练过程中，我们将我们提出的组区域上下文模块，利用个性化数据中的图像间上下文。在第二步中，我们在个性化数据中选择容易的图像作为具有熵图的伪标签。伪标签被用作简单图像的地面实况以指导分割网络。4.1. 基于对抗的领域自适应我们首先介绍我们在第一步中使用的基于对抗的域自适应技术将分割网络表示为S，它以图像Is为输入，输出软预测映射Ps=S（Is）∈RC×H×W，其中每个值P（c，h，w）表示像素I（h，w）属于类别c的概率。给定I的地面真值Y，交叉熵损失：c，h，w（c，h，w）S sh，wc被优化以训练分段网络。除了分割损失之外，采用对抗训练范例来对齐源数据Is和个性化数据Ip之间的分布差异。给定源图像和个性化图像h，w c，h，w c，h，ws s sC训练鉴别器D以预测Es和Ep的域标签。通过训练分割网络S来欺骗D，我们可以缩小源数据和个性化数据的预测之间的分布差距。对抗性损失公式为：L adv（Is，Ip）= − Σlog（1 − D（Eh，w））+log（D（Eh，w））。可能是“人”在大多数的图像，而只有少数情况下的“船”。如何解决不平衡的班级差异Sh，wp（三）分配问题可能是一个有趣的探索方向4. 该方法在本节中，我们将介绍我们提出的个性化图像分割的基线方法。概况. 考虑具有图像IsR3×H×W及其C类分割标签LsRC×H×W的源数据、的未标记的个性化数据IpR3×H×W。我们的方法我们在图中显示了我们的方法的架构3 .第三章。我们的个性化图像分割框架有两个主要步骤：域自适应步骤和伪标签细化步骤。上这种对抗性范例可以调整源数据和我们的个性化数据之间的分布失配然而，它将个性化数据中的每个图像单独地取用，因此未能考虑Ip内的相关性。为此，我们提出了一个组区域上下文模块来使用个性化数据的图像间上下文。4.2. 组上下文模块我们设计了一个简单的组上下文模块来利用所提出的个性化数据集的相关属性。我们首先将每个用户的个性化数据聚类到多个组中。每个组包含具有相似语义的图像。在每个组中，我们提取所有图像的软区域在分割期间，所有10553源1区域提取��文本聚合--关于我们Σ{|∈∈}∈∈∈Σ∈p∗ ∗pp秩熵个性化区域制图表达源标签个性化轻松图3.我们的个性化图像分割方法的流水线我们的模型包括两个步骤。第一步是域调整步骤，如（a）中。在第二步骤中，我们进一步添加伪标签丢失Lpse，如（b）中所示。在（a）中，我们首先将个性化数据聚类为K组。然后，在每个组中，我们用区域组Xxt来增强图像表示X，以获得X。为了简单起见，我们对于每个组，仅示出三个图像，并且我们仅示出对于标记为绿色的图像的组区域上下文聚合过程推断软的区域式上下文表示以帮助训练。对于用户的个性化数据Ip 我们喂它们在ImageNet [8]上预训练的ResNet-50 [14]中，并在最后一个全连接层之前获得表示FpR2048然后在{Fp}上采用K-均值聚类算法，得到K组图像如{{I1}，{I2}，· · ·，{IK}}。考虑分割组区域上下文聚合。给定组的区域表示fi，ji[1，C]，j[1，N]，我们通过组区域的加权聚合来计算X中每个像素的组上下文表示：ch，w = ρ（w（i，j），（h，w）σ（fi，j））.（五）i、j网络编码器由S编码器和S解码器组成。编码器将来自组k的图像Ip作为输入并输出中间表示X=Sencoder（Ip）RCH×W×H，CH和W、H分别指示X的信道和空间大小。我们集团这里，ρ和〇是两个线性变换函数。权重w（~i，~j），（h，w）通过测量像素el×h，w与区域表示f~i，~j之间的关系来计算为es（Xh，w，f~i，~j）上下文模块Fgroup学习增强的表示X=Fgroup（X ）RCH×W×H。组上下文模块中有两个步骤：重新w（ni，nj），（h，w）=Σi∈[1，K]，j∈[1，N]es（Xh，w，fi，j）、（6）区域上下文提取和组区域上下文聚合。区域上下文提取。受[53]的启发，我们将图像IP划分为C个软对象区域。C是对象类的数量。使用分段网络的辅助输出PpRC×W×H我们计算每个软区域f，c=r，ci，xi，（4）我其中i表示空间位置，Xi表示像素I. rci是像素i的权重，其通过在C维度上对PpiRC进行softmax归一化而计算为rci=softmax（Ppi）c。对于一个有N个像的群，我们可以提取出这个群的N×C区域表示其中s（Xh，w，fi，j）是公式化为s（Xh，w，fi，j）=ψ（Xh，w）Tφ（fi，j），ψ和φ是用一个全连通层实现的两个变换函数在获得组上下文之后，我们可以将像素表示增强为：Xh，w=ψ（[Xh，w，ch，w]）.（七）[，]表示级联，并且ψ是线性变换。结果表示X_p将被馈送到解码器中并输出预测图：对于X中的每个像素，组区域上下文增强模块将相同组中的相似区域的表示聚合为组上下文，这为分割网络提供了额外的信息。轻松硬集群LLL10554Σ纽尤岛方法骨干1 2 3 4 5 6 7 8 9 10 11 12 13 14 15是说无DA[45]第四十五话MaxSquare [6]FDA [52]高级[47]MRNet [60]OURS-S1OURS-S2ResNet-5045.39 51.99 48.95 47.60 58.03 48.15 56.86 62.45 48.23 45.14 62.37 51.68 48.56 48.1346.87 52.16 50.06 48.51 59.78 51.39 57.12 63.41 50.99 46.15 60.68 52.84 50.32 50.69 43.0848.28 52.50 50.61 50.54 61.39 54.60 59.36 63.43 50.67 46.49 62.94 52.68 49.65 48.99 46.0050.12 53.70 53.22 50.76 60.29 55.01 58.18 65.89 53.28 46.49 62.09 56.10 48.93 51.38 47.0353.39 57.33 52.42 52.51 64.63 55.04 60.61 61.69 55.34 49.18 66.05 57.83 56.04 54.38 52.3454.0558.62 54.29 53.17 61.72 57.24 62.20 66.46 56.75 50.27 66.76 54.20 53.87 54.38 51.3851.0152.2753.2054.1656.5957.0252.90 59.12 54.74 55.82 64.9760.38 61.78 68.12 56.99 51.21 69.42 60.44 57.05 54.41 54.5153.2860.39 54.81 56.02 66.87 60.1163.77 69.09 57.44 52.66 70.42 60.77 58.50 56.84 54.8558.7959.72无DA[45]第四十五话MaxSquare [6]FDA [52]高级[47]MRNet [60]VGG-1633.68 33.56 35.50 35.49 39.52 37.55 36.23 47.95 34.35 32.86 50.95 41.48 39.24 30.90 34.5132.70 37.65 37.16 33.54 40.55 41.11 43.17 52.12 36.95 31.83 49.04 40.97 33.54 31.49 34.0636.17 32.99 38.81 37.36 42.64 42.03 49.88 50.06 37.99 35.93 51.33 41.98 36.27 36.35 37.1334.61 36.75 35.53 36.60 38.36 40.07 45.21 52.57 37.7939.89 44.39 39.88 40.01 49.89 44.24 47.99 54.59 43.84 38.29 53.00 43.07 42.83 40.02 41.3634.40 41.18 36.67 32.18 44.63 38.12 41.99 46.7837.5838.3940.4639.2744.2239.13OURS-S1OURS-S241.87 45.73 43.1444.04 52.44 47.4552.32 56.92 45.6142.67 54.9448.38 44.24 41.67 45.9843.24 47.89 44.6744.0053.27 50.68 52.1857.86 46.84 42.3456.56 46.2847.02 42.9847.1648.19表1.使用ResNet-50 [14]和VGG-16 [44]的不同方法的FIoU结果。列号表示15个用户ID。“平均值”列表示平均性能总体ID。最佳结果以粗体突出显示。方法骨干1 2 3 4 5 6 7 8 9 10 11 12 13 14 15是说无DA[45]第四十五话MaxSquare [6]FDA [52]高级[47]MRNet [60]OURS-S1OURS-S2ResNet-5028.05 29.18 30.78 33.05 42.52 31.31 35.85 28.63 39.60 36.99 33.15 38.51 29.78 32.75 31.8531.69 28.87 30.50 35.09 45.83 32.55 36.70 33.83 36.43 36.49 34.09 41.2328.72 28.91 31.81 36.45 40.09 33.94 38.85 31.21 35.85 32.23 28.58 34.16 33.58 30.35 34.7831.94 31.16 32.39 36.11 45.35 35.76 37.46 30.93 42.9143.28 37.51 38.09 29.3137.25 35.7636.04 34.04 36.98 39.98 43.76 40.52 41.59 29.69 36.26 39.19 33.46 39.05 38.17 33.4338.27 35.0236.98 36.54 43.9940.90 40.22 36.26 32.35 33.1033.4734.9533.3036.3537.3136.5136.61 34.43 31.88 40.36 44.25 33.64 38.14 32.25 39.87 38.69 37.20 42.4439.60 30.3742.1833.85 33.3838.40 41.36 46.73 37.5844.19 36.87 44.66 42.03 37.4243.71 35.12 34.1837.4639.16无DA[45]第四十五话MaxSquare [6]FDA [52]高级[47]MRNet [60]VGG-1615.78 17.19 17.80 21.41 21.54 18.35 19.07 15.40 21.67 22.80 18.55 21.06 21.66 18.96 22.9516.59 19.04 18.96 23.81 21.43 23.12 25.47 16.26 23.33 22.60 19.08 20.20 22.12 20.10 24.3018.46 18.19 18.46 22.29 26.01 23.88 25.36 17.07 25.01 25.37 19.99 20.56 24.52 20.82 25.9017.17 17.82 20.07 24.44 23.82 25.69 25.22 15.56 23.31 25.53 21.14 20.68 20.82 19.26 24.6527.32 21.9525.21 25.46 35.50 23.75 28.1825.03 32.47 29.73 24.76 25.00 26.74 24.76 26.3120.30 16.46 20.92 27.62 29.70 25.46 27.74 22.30 30.64 26.46 17.64 27.12 23.43 23.86 26.0819.6121.0922.1321.6826.8124.38OURS-S1OURS-S224.4024.93 20.31 31.01 35.54 30.67 28.81 20.68 27.4532.06 27.6331.44 27.68 23.8733.5325.5324.40 22.6233.55 35.73 31.86 32.14 21.84 28.62 30.5730.26 24.9728.82 25.25 31.9128.0028.54表2.使用ResNet-50 [14]和VGG-16 [44]的不同方法的MIoU结果。列号表示15个用户ID。“平均值”列表示平均性能总体ID。最佳结果以粗体突出显示。4.3. 使用伪标签除了第一步域自适应之外，最近用于语义分割的域自适应方法[38，59]通常采用伪标签来进一步细化网络。我们还采用这种训练范式，在我们的方法中预测个性化图像。前面介绍的熵图Ep是图像Ip的分割网络的不确定性的指示符。低不确定性的预测通常意味着输入图像简单，结果具有高可靠性。因此，我们选择具有低熵值的预测作为伪标签。请注意，与VOC和CityScapes等数据集相比，每个人工作因此，与[38]不同的是，我们将伪标签添加到网络中，具有额外的分割损失Lpse，而不是重新5. 实验5.1. 数据集和评估指标我们收集我们的个性化数据集，以具有与PASCALVOC相同的类[10]。因此，在训练过程中，我们使用增强的VOC训练集作为源数据集，该数据集包含10582个带有 20 类对象的标记图像。采用平均交并法（MIoU）进行定量评价。注意，个性化数据通常是长尾分布的，这意味着类是非常不平衡的。MIoU可能由于这种不平衡而失真。因此，我们进一步使用另一种度量，称为联合上的前景相交（FIoU）。FIoU反映图用伪标签放置源数据集。所有图像10555像而不是类上的平均IoU。具体来说，我们首先计算图像i的前景IoUIoUi，然后计算平均值我10556××方法123456789101112131415是说没有一39.8944.3939.8840.0149.8944.2447.9954.5943.8438.2953.0043.0742.8340.0241.3644.22全球38.8942.1342.1338.9650.8845.0951.6255.6744.2338.5149.8045.7043.2039.8441.7144.56我们41.8745.7343.1444.0452.4447.4552.3256.9245.6142.6754.9448.3844.2441.6745.9847.16表3.组上下文模块的消融组123456789101112131415是说142.3946.1142.9543.7952.4546.1551.2355.8845.5742.5155.3047.8943.6639.5444.1246.641042.4945.5242.7544.0752.6446.5450.8556.5245.8142.2554.7546.8644.6241.1845.3646.818041.8745.7343.1444.0452.4447.4552.3256.9245.6142.6754.9448.3844.2441.6745.9847.1620042.1145.6643.1443.3352.0845.8552.0556.5145.7842.1353.7546.7343.8041.5945.3546.66表4.不同数量组的消融研究列指示不同的用户ID。报告了FIoU方法123456789101112131415是说混合样品40.9243.1840.7340.5549.8446.1850.4257.2242.9239.3954.2645.8343.6738.7444.9045.25混合所有42.5445.1141.7339.8749.5843.7452.6456.8843.8238.5555.2647.1842.3338.9745.1645.56个人41.8745.7343.1444.0452.4447.4552.3256.9245.6142.6754.9448.3844.2441.6745.9847.16表5.在混合图像集上进行实验。”MixAll” denotes mix all the user’s image, ”MixSample” samples 1/15 from ”MixAll” to have a similarsize with each personalized5.2. 实现细节我们使用从ImageNet [8]预训练的ResNet50[14]作为分割网络的骨干。 PSP模块[57]配备到分段网络，如[47]中所述。适应训练的输入是源图像和标签，分组的目标图像。为了简化训练和节省计算，我们不使用组中的所有图像区域来构建组上下文。相反，我们将每个批次限制在同一组中，然后使用每个批次中的图像来计算它。图像增强采用随机裁剪。在训练期间，所有输入的大小被调整为320 320。在伪标签细化步骤中，选择率r = 0。5用于选择可靠的预测。被掩蔽的伪标签像素被设置为255。为了简化训练过程并节省GPU内存，我们不会在一次迭代中处理整个组相反，我们只需要确保所有浴缸的图像都来自同一组。本文中所有实验的批量大小设定为8 我们使用SGD优化器[2]，学习率为2。510−4，动量和重量衰减分别设置为0.9和10−4。这些代码是用PyTorch [41]库实现的。5.3. 性能比较我们报告了一些选定的域自适应方法在我们的数据集上的性能，包括AdaptSeg [45]，MaxSquare [6]，FDA [52]，ADVENT [47]和MR-Net [60].这些方法都是单独处理目标图像，没有考虑个性化图像的相关性.所有模型都以VOC [10]作为源，以个性化数据作为目标进行训练。像MRNet [60]这样的方法只使用目标伪标签来监督步骤2中的分段网络，由于我们的个性化数据的数量相对较小，这导致性能较差因此，我们为此类方法增加了VOC [10]标签的额外监督在个性化数据集的注释验证分割上测试结果。我们在表中报告了FIoU的结果。1和表中的MIoU。二、我们表示我们的方法没有伪标签细化和我们的完整模型为OURS-S1和OURS-S2，分别。总体而言，以ResNet 50 [14]作为骨干，OURS-S1获得37.46 MIoU和58.79 FIoU。与基线方法ADVENT相比，它通过以下方面提高了性能0.15和2.20，这表明我们的小组背景模块的有效性。请注意，与FIoU相比，MIoU改善0.15相对轻微。我们推测这是由个性化数据的长尾属性引起的。由于组上下文模块结合了其他图像在评估MIoU时，结果可能会受到这些罕见类别的影响我们在补充材料中为不同的用户提供了类IoU结果。通过利用伪标签，0 URS-S2获得39.16 MIoU和59.72 FIoU，进一步分别提高性能1.7和0.93。我们在图中示出了一些预测的掩模。4.第一章6. 讨论6.1. 小组背景在本节中，我们通过将我们提出的小组背景模块与两个基线进行比较来研究其有效性：无和全局。无是指直接使用来自编码器的特征X而没有上下文。全局表示10557图片No-DA AdaptSeg FDA ADVENT MRNet MaxSquare Ours GT图4.不同方法的定性比较使用全局组上下文来增强对象共同分割方法中的表示[26]。这里的实验用骨架VGG-16进行[44]。如表1所示。3，None基线平均达到44.22 FIoU。Global将性能略微提高了0.34，这表明全局组表示在我们的情况下不够有效OURS提高了2.94的绩效，这表明了所提出的组上下文模块的有效性。6.2. 个性化培训的意义在本节中，我们合并来自所有用户的所有图像以形成大图像集MixAll，然后从MixAll中随机采样672个图像的子集MixSample。我们在这些图像集上训练我们的模型，并在不同用户结果报告于表中。五、在15倍左右的目标图像下， MixAll 达到了 45.56FIoU ，低于Personal的47.16，即根据相应的个性化数据进行训练。结果显示了从个性化数据中学习的价值。6.3. 数量的组在本节中，我们将每个用户的个性化数据聚类在Tab。4.第一章不同行指示不同数目的组。当Groups=1时，某些用户的所有图像被视为一个组。当计算组区域上下文时，可能会考虑不相关的图像并混淆网络。如果Groups=200，则每个组中的图像数量太小，因此为组上下文模块提供足够的上下文。平均而言，与其他数字相比，我们在组数为80的情况下获得了更好的FIoU 47.16但是，我们仍然可能注意到，不同的用户使用不同的组号会获得最佳结果我们推测这是由于不同用户之间的分布差距造成结果表明，我们需要不同数量的组为不同的用户。在未来，我们7. 结论在本文中，我们解决个性化的问题，在图像的语义分割。我们首先收集具有15个用户的数据的大型个性化图像数据集PSS。我们的数据集可以是一个很好的开始，调查的个性化是苏在分割。个性化图像分割问题的挑战有两个方面。一个是如何从不同用户利用个性化图像的相关性，提出了一种基于图像间上下文的对于未来的工作，我们将探索更复杂的方法来从未标记的数据中学习。我们还将研究如何在稀有类中提高组上下文模块的性能谢谢。本研究得到了国家自然科学基金（ 61922046 ）、教育部科技创新项目（No.BNR2020KF01001）和中央大学基础研究基金（南开大学，No.10001001）的资助。63213090）。10558引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE Conf. Comput.目视模式识别，第4981-4990页，2018年。3[2] 我在博图。随机梯度下降的大规模机器学习在国际计算统计会议上，第177-186页。施普林格，2010年。7[3] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构的一切：跨领域调整结构在IEEE Conf. Comput.目视模式识别，第19002[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 第1、3条[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。以Eur.确认补偿目视，第801-818页，2018年。1[6] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。在国际会议计算中目视，第2090-2099页，2019年。三六七[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE Conf. Comput.目视模式识别，2016年。第1、3条[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别，第248-255页五、七[9] 杜亮，谭金刚，杨红叶，冯剑锋，薛向阳，郑七宝，叶晓青，张晓琳. Ssf-dan：基于分离语义特征的领域自适应网络，用于语义分割。在Int. Conf.Comput.目视，第982-991页，2019年。2[10] Ma

下载后可阅读完整内容，剩余1页未读，立即下载