无监督深度学习算法中的图像分割

40 浏览量更新于2023-10-13 收藏 7.01MB PDF 举报

生成对抗网络

图像分割算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7324基于生成对抗网络Dahye Kim和Byung-WooHongChung-Ang大学，韩国网址：dahye@image.cau.ac.kr，hong@cau.ac.kr摘要我们提出了一种在无监督深度学习框架中开发的图像分割算法。由于光照变化和遮挡等不利因素，物体边界的描绘常常失败。因此，我们首先提出了一种无监督的图像分解算法，以获得一个内在的表示，是强大的不希望的偏见领域的基础上的乘法图像模型。所获得的本征图像随后被提供给基于分段平滑模型开发的无监督分割过程分割模型还被设计为结合在生成对抗网络框架中施加的几何约束，其中分割函数的分布与先前形状的分布之间的差异我们证明了所提出的算法的有效性和鲁棒性，特别是与偏见领域和闭塞使用简单而说明性的合成例子和基准数据集的图像分割。1. 介绍图像分割问题通过将图像域划分为相互不相交的区域，在提供对象的外观（如纹理或亮度）和几何形状它通常被认为是图像内容的更高水平的视觉理解的基础基于变分框架[10，42，11，55，13，9，45，46]已经开发了各种经典的图像分割算法，其中定义模型和观察之间差异的目标泛函在分区函数的解空间中进行优化。通常基于导致无监督算法的单个测量来计算来自所定义的模型的观察的变化。尽管许多成功的无监督变分算法已经在图表示中使用归一化割来开发[24，52]，马尔可夫随机场模型[44，60]，特征空间中的密度估计[22，23]，水平集嵌入函数[43，13]和多尺度表示中的分层方法[24，2]，它们的相关限制源于表征感兴趣区域的统计特性的复杂性，自然导致监督的发展。使用大量训练图像的算法。基于复苏的神经网络，特别是具有局部特征卷积核的监督图像分割算法的开发已经对经典的无监督方法[16，49，37，41，61，4，19]做出了显著的改进，其中卷积神经网络预测感兴趣区域的指示概率。然而，监督算法通常需要大量的手动注释，这些注释很少可用并且通常导致粗粒度。由于来自照明条件和对象的物理属性的变化的继承复杂性，尽管是数据驱动的监督，但是相对于外观和几何形状两者来概括有效的分割模型通常也是不够的。处理具有巨大变化的高维分布的困难导致通过无监督学习方案开发分割算法，该方案使用具有部分或粗糙标签的丰富训练示例[33，26，6，20，7，1，58]。特别地，生成对抗网络（GAN）[27，47，50，3]的成功应用已经扩展到图像分割问题[20，7，6]，其中期望学习由感兴趣对象的前景及其现实背景形成的合成图像然而，对象的外观和几何形状两者的分布由于其巨大的维度和变化而变得难以学习，尽管有相对大数量的粗粒度标签。因此，期望改进生成学习方案中的分段的特征分布的可学习性[8]，这促使简化生成模型以进行学习。在这项工作中，我们提出了一种无监督分割算法，该算法基于外观的统计同质性学习二分模型的嵌入函数，并结合了7325ÞÑtu#pqÞÑpqĂ“t| p q uP pqR在GAN框架中施加在分割模型上的形状先验我们提出的算法认为生成学习模型只为几何属性排除外观（强度）属性的对象，这样更简单的分布更容易学习，变得更有效。它通常是可行的，以创建一个三维模型的物体的形状，并产生一个大集合的投影图像从任意的观看方向。因此，我们建议基于对象的强度来学习无监督分割模型，并使用GAN框架中相同类别的形状图像来施加其几何约束。我们还建议学习一个内在的图像表示，这是强大的不受欢迎的偏见领域在一个无监督的方式，使建议的无监督分割模型可以是不太敏感的对象外观的不均匀性。我们的统一框架结合了内在的图像表示模型和分割模型，并结合了GAN算法学习的形状约束。2. 相关作品图像分割问题通常被认为是最小化能量泛函的优化问题，该能量泛函被设计用于测量变分框架中的观察和模型之间的差异[42，11]。已经基于边缘[55]、区域[56]和凸优化[9，46]开发了许多图像模型。基于强度的统计均匀性的图像模型已经被扩展为将形状信息作为先验知识[25，12]，其中执行替代优化以最小化分割能量以及分割函数与用于期望形状的嵌入函数之间的距离。同时，已经有许多工作提出了相对于成像条件鲁棒的固有表示[5，39]。随着机器学习技术的日益普及，在[38]中提出了一种用于分割的对抗性训练方法，其中学习鉴别器以区分地面实况分割图和生成器产生的分割图为了应对手动注释的缺乏，在[53，32]中开发了基于GAN的半监督学习算法，其中学习了完全卷积鉴别器以将地面真实标签与生成器获得的概率图区分开，并结合未标记数据的对抗性损失。另一种与我们的方法最密切相关的基于GAN的分割方法包括[7，20]，其中应用对抗学习来生成由前景图像和自然背景图像的部分层组成的真实合成图像。假设当图像部分对应于期望的分割时，从扰动下的前景图像和自然背景获得的图像部分的组成被示出为是现实的。通过[7，20]中提出的GAN方法学习的分布旨在表征对象的外观和几何形状，从而导致复杂且高维的鉴别器。相比之下，我们的生成模型所要学习的期望分布仅考虑对象的几何特性作为对基于对象外观的无监督分割模型的约束。因此，我们的方法采用不同的学习方案，这取决于特征属性，即外观和几何形状。3. 基于GAN假设I：ΩR是一个图像，为了便于数学表示，它被假定为标量函数，但对于具有多个通道的图像，它可以扩展为矢量值函数。图像分割任务的目标是获得如下划分图像域Ω的特征函数χ R：Ω0，1：使用深度神经网络架构，已经开发了一个全卷积x x 1：xPR0：xRR，（一）并且使用一组手动注释的图像提出了它们的组合[ 17 ]方法。用于图像分割的另一种流行的监督深度模型已经基于卷积编码器-解码器架构[49，4]开发，其中特征特征被编码并且其对称解码导致定位。为了克服可用细粒度注释的限制，已经提出了使用边界框[54，30]，区域卷积网络[48，28]，方向特征[15]，密集滑动窗口[21]和注意力网络[18，31]的弱监督方法。与预测分割标签概率的判别模型相反，由于引入了有效的生成算法，已经开发了生成分割模型[34，27]。其中RΩ表示感兴趣区域我们为计算方便性[ 9 ]的特征函数χ D的松弛形式引入嵌入函数φ：Ω0，1，如由Rx φ xξ定义的，其中ξ0，1表示通常由0给出的阈值。五、在我们的分割模型中，我们考虑固有图像表示u：Ω R，其期望对偏置场具有鲁棒性，从而导致在最大化以下概率时关于φ的后续优化Ppφ，u|Iq“P pφ|u，IqPpu|Iq，（2）其中，给定图像I的分割函数φ和本征图像u的条件联合概率由下式计算：7326p|Qp|Qp|q“pqLp|Qp|Qp|Qp|Q2ąp|QLÞÑÞÑ22ν2`˘`˘边际概率P φ u，I和条件概率P u I的乘积。然后，贝叶斯定理导致以下结果：这里假设u和ν是独立的，所以我们有P u ν P u。我们基于高斯噪声假设的似然概率如下：Ppφ|u，IqPpu|Iq9Ppφ|u，IqPpI|其中，我们通过链式法则得到以下公式：PpI|u，νq9exp（´）I´（12）Ppφ|u，IqPpI|uq“P p φ，I|uq.（4）因此，我们有：Ppφ|u，IqPpu|Iq9Ppφ，I|（5）第一次见面。9Ppφ|uqPpI|uqPpuq，（6）9Ppφ|uqPpu|Iq，（7）其中我们假设φ和I在给定u的情况下是条件独立的。因此，我们有：并且u和ν的先验概率由下式给出Ppuq 9exp´}u}q，（13）Ppνq9exp´}ν}2exp´} ν´1}2，（14）其中，u和ν的梯度被假设分别遵循拉普拉斯分布和正态分布。此外，假设logν服从正态分布，0的情况。期望在u的重建中保留重要的几何特征，因此我们对u使用全变差正则化，而偏置场ν被假设为具有平滑变化的强度场导致L2调节Ppφ，u|Iq9Ppφ|uqPpu|Iq.（八）放大。u的最优解和2v可以给出感兴趣的问题是通过最大化P φ u P uI来获得最佳本征图像u和分割函数φ的顺序估计，其中P φ u是最佳分割函数通过联合最小化通过取后验概率的负对数导出的以下目标函数1是针对给定I的最佳本征图像u定义的后验概率。我们开发了一种非监督学习算法，用于估计深度中的u和φL1pu，ν;I我qu}2`λ}u}`α}ν}2`β}ν′1}2，（15）2 2学习框架，其中u和φ由pa表示。由线性和非线性函数的嵌套组合构成的离散化函数。我们还使用生成对抗网络将形状先验纳入φ的估计中。3.1. 内在图像表示我们建议获得一个强大的表示图像相对于不良的偏置场，使外观统计的均匀性更好地表征，从而导致更准确的分割。我们考虑如下使用具有乘性偏置场的加性噪声的图像形成模型：I其中，假设噪声过程η遵循均值为0的正态分布，并且假设偏置场ν遵循均值为0的对数正态分布，施加正约束ν0。通过最大化后验概率P uI，可以获得从观察I计算最佳内在表示u，其中我们引入辅助偏置场函数ν如下：Ppu，ν|Iq9PpI|u，νqPpu|νqPpνq，（10）9PpI|u，νqPpuqPpνq，（11）其中λ、α、β是由正常数给出的控制参数本征图像u及其相关联的不期望的偏置场ν由神经网络的输出表示，其中通过以无监督的方式最小化目标函数1来优化模型参数。图像I的最优固有表示u用作分割的输入，如将在以下部分中讨论的。3.2. 分割模型我们使用所获得的固有图像u而不是原始观察I进行分割，其中基于嵌入函数φ应用分段平滑Mumford-Shah模型[42，13，55]，用于使用高斯噪声过程η分割感兴趣区域，如下所示：upxq其中a：ΩR和b：ΩR是连续函数，分别估计由函数φ表征的分段区域的内部和外部。在给定u的情况下，通过最大化后验概率P_pφ，可以得到最优分割函数φ|在等式中的uq（八）、Ppφ |uq 9 P pu |φqP pφq，（17）7327p|Qp qRp|Qp qp qSp qpqp q2不ĂPT不ÞÑS“t“|P Tup qtu}}S R tuąpq其中，我们具有基于高斯噪声假设的似然概率P u φ，导致以下目标泛函：Lpφ，a，b;uq类别.给定形状S上的先验概率P ψ，它的几何性质导致了条件概率P pφ对确定分割函数φ的约束|ψq在Eq.（20）、我们表示的经验分布2 1“我的天“我的天2 2|u p x q ´ a p x q|2φ p x q dx|2p 1 ´ φ p x qq d x，（18）|2p1 ´φpxqq dx,(18)配分函数的概率密度函数Q φ其中φj与输入图像Ij相关联，等效地，与其固有表示uj相关联。我们利用Jensen-Shannon散度D_JS作为划分函数概率分布之间的差异度量，构造了一个条件概率P φ ψ其中γ1和γ2是reg-1的阳性对照参数φ和a、b的全变差的极化。分割函数φ及其相关联的用于分割区域的前景和背景的估计a和b由神经网络的单独输出表示。注意，最佳估计a和b可以通过应用乘法器算法的交替方向方法[57]直接获得，但是我们以无监督的方式学习与a和b相关的参数。（17）中的先验概率P φ通常由φ的梯度遵循拉普拉斯分布的假设给出，导致如下的隐式正则化项Ppφq 9expp´} φ}q，（19）Qpφq和先验形状Ppφq如下：´logP pφ |ψq 9 DJSpQpφq P pψqq 。（22）优化过程适合于GAN框架[27，47，3]。设h是分类器的鉴别器形状和g的作用是一个生成器，用于确定分区函数分类器h旨在将形状的等价类与由g诱导的划分函数φ生成的其非等价类区分开。然后，目标函数旨在分别获得用于分割网络h和分割网络g的模型参数的最优集合，其由下式定义：minmax`EψnPpψqrlogphpψqqsGh这是一种惩罚分割边界长度的方法[10]。` EφnQpφqrlo gp1´hpφqqs。（二十三）然而，我们建立了联合先验概率P φ，ψ，其中附加变量ψ表示在构造施加在分割函数φ上的先验概率P φ时的先验形状。我们建议将感兴趣的区域的形状信息纳入其分割利用先验知识边缘的分割功能，使用生成对抗由于目标函数的限制，如消失梯度和模型崩溃在方程。使用Kullback-Leivler散度，我们对生成器应用非饱和损失，并添加被设计为惩罚鉴别器[50]的梯度的正则化，如下所示：L3pp，θ;S，Rq网络（GAN）[27]。我们推广了先验概率P φ由方程式（17）导致强加的隐式正则化EφnQpφqκrlogphpφqqs ´2Eψnpψqr}hpψq}2s，（24）对联合先验概率的分段函数φPpφ，ψq，其中附加变量ψ如下：Ppφ，ψq“P p φ|ψqP pψq，（20）其中ψ表示显式形状。设SΩ是一个形状，χS是它的特征函数。设为作用于域Ω的变换群。我们用ψi表示由元素ti从χS变形的形状，如下所示：ψipxq其中ti：Ω Ω，为便于表示，我们省略符号ψi中的符号S我们在等式中构造先验概率P ψ的经验分布（20）由等价类ψ iχS我不是我不是在变换群的作用下的形状S。形状以二值图像的形式表示，其统计量由同一个内的各种形状显式形成其中κ〇是用于正则化的控制参数，并且和表示形状ψi和ψi的等价类。一组分割函数φj，关于i，以及ρ和θ分别是与分割网络g和分类器网络h相关联的模型参数的集合。潜在空间由一组固有图像引起，并且生成器由等式中的分割损失驱动。其解空间经由等式（18）中的鉴别器由形状先验约束。（24）。如[40]中所示，在等式（1）中定义的目标函数是：已知公式（24）比Wasserstein GAN [3]实现更好的收敛特性注意，φ：Ω0，1是平滑函数，而ψ：Ω0，1是特征函数。通常需要根据等式（1）中的假设施加稀疏性约束Φ。以便获得用于分割边界的二进制表示然而，函数Φ上的稀疏性约束可以替代地通过从等式（1）中的目标函数的反向传播来实现。（24）由于ψ的二进制表示。7328LLLpüqL `Lpqpqˆ(a) 本征分解（b）分割（c）形状合并图1：所提出的神经网络架构的示意图感兴趣的问题由三个组成部分组成：（a）获得对给定图像I的乘法偏置场ν鲁棒的本征图像表示u，（b）导出基于本征表示u及其相关联的前景和背景估计a和b分别确定感兴趣区域的分割函数Φ使用先验形状的集合来分割函数Φ。通过最小化L1来优化固有分解自动编码器f。所获得的最佳u被馈送到分段自动编码器g，该分段自动编码器g通过最小化L2`L3而被优化。为了对Φ施加几何约束，鉴别器h通过最小化L3来分类Φ和Φ。4. 神经网络架构所提出的算法的每个组件的神经网络架构的示意图在图中呈现。1.一、设u，ν f I;w是由w参数化的自动编码器，用于在给定输入I的情况下重建固有图像u和乘法偏置场ν。令φ，a，b，g，u，v是由ρ参数化的自动编码器，用于分割函数φ及其相关联的估计a和b，给定u。设h; θ是通过θ区分真实形状φ和分割形状φ而参数化的分类器。最优模型参数w通过最小化等式1中的1来获得。（15）、类似地，最佳模型参数ρ和θ通过最小化等式23获得。（18），Eq.（24）和3在Eq.（24）分别。g和h之间的生成对抗训练方案由等式（1）中的3驱动（24）将真实形状ψ的几何性质强加于结果分割函数φ。为了选择用于自动编码器g和鉴别器h的神经网络，我们考虑标准卷积神经网络架构及其具有跳过连接[49]或残差块[29]的变体。基于表11中所示的结果，g和h均采用标准结构图2比较了g和h的不同组合的性能。5. 实验我们证明了我们所提出的算法的每个组件的鲁棒性和有效性我们表演拳-定性和定量地分析了该算法在重建固有图像和分割感兴趣目标方面的我们在评估中使用了一组简单但说明性的合成图像和LSUN数据集[59]5.1. 合成数据集数据集。我们随机生成表示具有不同大小和位置的正方形的二进制图像，如图所示。第2段（e）分段。为了演示本征图像的重建，我们随机地产生一个偏置场，其强度梯度在给定的变化范围内，从任意观察方向，如图所示。 2（c），其中灰度的标准偏差被设置为0。1，0。2，0。3和0。4从顶行到底。如图在图2中，我们将（c）中随机生成的偏置场应用于（e）中的二值正方形图像，以使用乘法模型来构建（a）中的合成图像为了显示我们的形状先验模型的有效性，除了偏置场之外，我们还将沿着对角线的遮挡应用于二进制正方形图像，如图所示图3（a）中，对于从顶行到底的关注区域，遮挡度被设置为20%、40%、60%和80%对于评估，我们生成60 k的大小为64 - 64的图像，每个配置的实验，并使用50 k的训练，5 k的验证和5 k的测试。超参数。我们应用学习率的动态调度，遵循初始值为5e-05且f的最终值为1 e-06的S形函数，但我们使用ℒ1ℒ2ℒ3��{掩模��联系内在��+前地ℎ、房假��偏置的背景红色沙7329原始固有的1.001.00.950.80.900.850.800.60.40.750.20.1 0.2 0.30.4偏差标准20 40 60 80闭塞程度（%）(a)（b）（c）（d）（e）（f）（g）图2：在合成正方形图像上没有形状先验的分割结果乘以具有不同标准偏差0的偏置场。1，0。2，0。3和0。4从（顶部）行到（底部）。（a）原始图像。（b）获得的内在图4：在正方形图像上使用不同方法进行分割的消融研究结果，除标准偏差为0的偏置场外，（左）偏置场为不同标准偏差，（右）遮挡为不同程度。4.第一章X轴表示退化因素（左）偏置场和（右）遮挡的程度，y轴表示IoU评分。形象(c)偏置场的地面实况。(d)获得偏置场。（e）形状的地面实况（f）在原始输入上获得分割（g）在固有（完整模型）上获得的分割。(a)（b）（c）（d）（e）（f）（g）图3：除了具有标准0的偏置场之外，从（顶部）行到（底部）具有不同程度的20%、40%、60%和80%的遮挡的合成正方形图像上的分割结果。4.第一章（a）原始图像。（b）获得的本征图像。（c）形状的地面实况。（d）在原始图像上获得无形状先验的分割(e)在没有形状先验的情况下获得了对本征的（f）对原始图像进行形状先验分割。（g）在具有形状先验的内在（完整模型）上获得分割。g和h的固定值1 e-05和1 e-04。我们对f使用120的小批量，对g和h使用128的小批量。对于Eq.在公式（15）中，我们将λ，α，β设置为1 e-02，1.5，1 e-04。对于Eq.在公式（18）中，我们将γ1、γ2设为1 e-05和0.1。评价我们提供的定性结果的二进制形状图像的可视化说明与偏见领域在不同的变化，重建的内在图像和无监督分割没有形状之前在图。二、表1：采用不同方法配置的消融研究的分割结果针对具有不同程度的遮挡和偏置场变化的正方形图像呈现平均IoU值它清楚地表明，从本征图像获得的分割结果是更好的跨越所有的偏差场的变化，而原始的分割质量恶化的偏差场的标准偏差的增加。它们基于联合的交集（IoU）的定量图4（左），其中X轴指示灰度的标准偏差，并且y轴指示从绿色的原始图像和粉色的固有图像我们给出了方形图像上的消融结果，包括从低（上）到高（下）不同程度的闭塞。原始固有的原始+形状内在+形状IOUIOU方法闭塞（%）偏置0.1 0.2(std)0.30.4200.8652 0.7808 0.7776 0.7394原始40600.74050.58800.58900.39610.58840.38710.55240.3544800.3164 0.2358 0.2151 0.1999200.8866 0.8971 0.8757 0.8714内在40600.76710.63320.77900.55760.75550.57810.75690.5770800.6319 0.4183 0.3451 0.3168200.9985 0.9962 0.9951 0.9923原始400.9918 0.9970 0.9256 0.8810+字形600.9007 0.6497 0.6201 0.6475800.6131 0.4053 0.3795 0.3911内在+字形(full型号）204060800.99900.99870.95550.89580.99830.99770.95700.78390.99830.94920.92780.74580.99910.93650.94900.76497330ˆ图5：从ShapeNet生成的渲染对象图像（顶部）及其形状图像（底部）的示例标准（h）0.63030.61900.5876残留量（h）0.60130.60130.5793表2：LSUN汽车上的分割IoU与我们的模型的不同网络架构的比较，其中结合形状先验。每一列表示不同的自动编码器网络g，并且每一行指示不同的鉴别器网络h。高（底部）除了固定程度的偏置场（0.4）在图。3 .第三章。没有形状先验的分割结果被示出遭受如（d）和（e）中所示的遮挡。类似地，具有偏置场的原始图像上的结果由于对图像模型的不满足的假设而产生部分失效，如（d）和（f）中所示，而示出了本征图像减轻了（e）和（g）中的劣化效应。我们的完整模型被证明对闭合和不均匀偏差都是鲁棒的，如（g）所示。图1中提供了在具有遮挡和偏置场的形状图像上使用不同方法的消融结果。图4（右），其中X轴指示闭塞程度，y轴指示IoU分数。使用具有不同程度的退化因素（遮挡和偏倚字段）的正方形图像的不同方法的平均IoU评分见表1。 1，其中我们的完整模型（内在+形状）产生最佳结果，并且性能差距随着退化因子的程度而增加。5.2. LSUN数据集数据集。在对我们的真实图像算法进行评估时，我们考虑了LSUN数据集[59]中的4个类别，包括飞机，船，汽车和椅子，其中图像是彩色的，大小为64 64。由于LSUN数据集中的对象分割的基础事实不可用，因此我们采用Mask R-CNN模型[28]，该模型已使用COCO数据集[35]进行训练，以获得对象分割的伪标签。在这个实验中，我们只考虑具有单个对象的图像，其尺寸在图像尺寸的5%和95%之间。对象图像及其伪标签的示例如图所示。6（a）和（d）。对于4个不同类别的飞机，船，汽车和椅子，表 3 ：使用不同方法在 LSUN 数据集上分割 IoU（intrinsic + shape）表示完整模型。使用的图像数量分别为71，590、49，642、75，973和60，606用于训练，7，954、5，516、8，441和6，734用于验证。dation，以及8，726、6，196、9，407和7，271用于测试。在为每个类别构建形状先验模型时，我们通过ShapeNet [14]中的三维对象模型我们应用形态学操作获得的投影图像，以便有简单的形状没有孔和生成的图像的数量分别为97，080，46，536，179，904和162，672的飞机，船，汽车和椅子，分别。图在图5中，渲染的投影图像及其二进制形状的示例分别在顶行和底部示出。超参数。我们将与第二节中相同的学习率调度应用于f。第5.1条我们使用1 e-03作为g和h的固定学习率。我们使用与Sec中相同的小批量大小第5.1条对于Eq.在公式15中，我们将λ、α和β设置为1 e-02、15和1 e-04。对于Eq.在公式（18）中，我们将γ1和γ2设置为1 e-02和0.1。评价我们基于LSUN数据集进行了消融研究和比较分析。在我们的比较中，我们考虑了最先进的技术，包括per-turbedGAN [7]，重绘对象（ReDO）[20]，Grab-Cut [51]。对于比较中的算法的实现由于将输入图像映射到生成器的网络在扰动GAN工作中不可用，因此我们将编码器添加到公开可用的代码中。对于GrabCut的初始条件，我们采用了使用中心正方形的通用条件。定性比较的示例见图1。6凡（a）正本─标准（g）跳过（g）残差（g）方法车船飞机椅原始0.3126 0.2002 0.2131 0.3543内在0.3250 0.2348 0.2307 0.3683原始+形状0.6303 0.4756 0.4544 0.4824内在+形状0.63400.49010.47140.4776扰动GAN0.5026 0.3122 0.3049 0.3902重做0.4637 0.3618 0.4110 0.4181GrabCut0.5122 0.3325 0.40260.51277331（a）（b）（c）（d）（e）（f）（g）（h）（i）（j）（k）图6：LSUN数据集上的分割结果。(a)原始. (b)获得内在的。(c)获得偏置场。(d)Mask R-CNN的伪标签（e）我们在没有形状先验的情况下的结果（f）我们关于无形状先验的内在的（g）我们对原始形状的先验。（h）我们关于具有形状先验的内在（完整模型）。（i）扰动GAN。（j）重做。（k）GrabCut。年龄，（b）获得的本征图像，（c）获得的偏置场，（d）通过Mask R-CNN获得的伪标签，以及通过（e）我们的在原始图像上没有形状先验的模型(g)示出了我们在原始图像上具有形状先验的模型，（h）我们在本征图像上具有形状先验的模型，（i）通过PerturbedGAN的结果，（j）通过ReDO的结果和⑹通过GrabCut的结果它直观地证明了我们的完整模型（内在+形状）优于其他算法进行比较。特别地，与（i）和（j）相比，我们的模型提供了更准确的结果，其中GAN框架考虑了外观和几何属性两者，这表明简化要由GAN学习的分布导致更鲁棒的性能。基于表中的IoU提供定量评价3 .第三章。我们的消融研究表明，使用的内在表示和形状先验显着提高了分割的质量。6. 结论我们已经提出了一种在深度学习框架中开发的无监督分割算法，其中形状先验由生成对抗网络并入。此外，我们还开发了一种无监督的深度学习技术，以获得对不期望的偏置场具有鲁棒性的内在表示。我们已经证明了我们的算法的有效性，偏见和闭塞使用合成图像。与LSUN数据集上最近的基准测试结果的比较分析表明，我们的方法的实际应用的潜力。确认这项工作得到了韩国政府的支持：NRF-2017 R1 A2B4006023和IITP-2021-0-01341，人工In-智能研究生院（CAU）。7332引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak. 具有像素间关系的实例分割的弱监督学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。我[2] PabloArbeláez ， JordiPont-Tuset ， JonathanTBarron，Fer- ran Marques，and Jitendra Malik.多尺度组合分组在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，第328-335页我[3] Martin Arjovsky 、 Soumith Chintala 和 Léon Bottou 。wasser-stein生成对抗网络。在第34届机器学习国际会议论文集-第70卷，第214-223页，2017年。一、四[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。i、ii[5] Anil S Baslamisli ， Thomas T Groenestege ， ParthaDas，Hoang-An Le，Sezer Karaoglu，and Theo Gevers.内在图像和语义分割的联合学习在欧洲计算机视觉会议（ECCV）的Proceedings中，第286-302页II[6] 亚尼夫·本尼和里奥·沃尔夫。Onegan：条件图像生成、前景分割和细粒度聚类的同时无监督学习。arXiv预印本arXiv：1912.13471，2019。我[7] Adam Bielski和Paolo Favaro扰动生成模型中对象分割神经信息处理系统进展，第7254-7264页，2019年一、二、七[8] AnselmBlumer ， AndrzejEhrenfeucht ， DavidHaussler，and Manfred K Warmuth.可学习性和vapnik-chervonenkis 维度 Journal of the ACM （ JACM ）， 36（4）：929-965，1989. 我[9] X avierBresson，SelimEsed oǵlu，PierreVande rgh e ynst，Jean-Philippe Thiran，and Stanley Osher. 活动轮廓/蛇模型的快速全局最小化。Journal of Mathematical Imagingand Vision，28（2）：151-167，2007. i、ii[10] Vicent Caselles Ron Kimmel和Guillermo Sapiro测地线活动等高线。国际计算机视觉杂志，22（1）：61-79，1997。一、四[11] 安东宁 · 钱博尔 mumford-shah 泛函的有限差分离散ESAIM：Mathematical Modelingand Numerical Analysis，33（2）：261-288，1999. i、ii[12] Tony Chan和Wei Zhu。基于水平集的形状先验分割。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。II[13] Tony F Chan和Luminita A Vese。没有边的活动轮廓IEEE Transactions on Image Processing ， 10 （ 2 ）：266i、iii[14] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese，Manolis Savva，Shuran Song，Hao Su，et al. Shapenet：一种信息-丰富的3D模型库。arXiv预印本arXiv：1512.03012，2015。VII[15] Liang-ChiehChen ， AlexanderHermans ， GeorgePapandreou ， Florian Schroff ， Peng Wang ， andHartwig Adam. Masklab：通过细化具有语义和方向特征的对象检测来进行实例分割。在IEEE计算机视觉和模式识别会议论文集，第4013-4022页，2018年。II[16] Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。我[17] Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义图像 IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834II[18] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意尺度：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集（Proceedings ofthe IEEE conference oncomputervisionandpatternrecognition），第3640-3649页，2016年。II[19] Liang-Chieh Chen ， Yukun Zhu ， George Papandreou ，FlorianSchroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。我[20] Mickaël Chen，Thierry Artières，and Ludovic Denoyer. 通过重绘进行非监督对象分割。神经信息处理系统进展，第12705-12716页，2019年一、二、七[21] Xinlei Chen ， Ross Girshick ， Kaiming He ， and PiotrDollár. Tensormask：密集对象分割的基础在IEEE计算机视觉国际会议论文集，第2061-2069页，2019年。II[22] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能汇刊，17（8）：790-799，1995。我[23] Dorin Comaniciu和Peter Meer。Mean Shift：A RobustApproach Toward Feature Space Analysis （ MeanShift ：一种稳健的特征空间分析方法） IEEETransactionsonPatternAnalysisandMachineIntelligence，24（5）：603-619，2002。我[24] Timothee Cour，Florence Benezit，and Jianbo Shi.多尺度图分解的光谱分割。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR’05），第2卷，第1124-1131页中。IEEE，2005年。我[25] Daniel Cremers，Nir Sochen，and Christoph Schnörr. 使用形状先验和动态标记的基于识别的变分分割。在计算机视觉中的尺度空间理论国际会议上，第388-400页。施普林格，2003年。II[26] Ioana Croitoru Simion-Vlad Bogolin和Marius Leordeanu。前景目标检测的无监督学习。 arXiv 预印本 arXiv ：1808.04593，2018。我[27] Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Sherjil Ozair、AaronCourville和7333Yoshua Bengio生成性对抗网。在神经信息处理系统的进展，第2672一、二、四[28] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick. 面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页二、七[29] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页v[30] 胡荣杭、彼得·多拉尔、何凯明、特雷弗·达雷尔和罗斯·吉希克。学会把每一件事都分割开来。在IEEE计算机视觉和模式识别会议论文集，第4233-4241页，2018年。II[31] Qin Huang，Chunyang Xia，Chihao Wu，Siyang Li，YeWang，Yuhang Song，and C-C Jay Ku

下载后可阅读完整内容，剩余1页未读，立即下载