基于域自适应的散焦地图估计网络（DMeNet）及其性能评估

2 浏览量更新于2023-10-19 收藏 1.88MB PDF 举报

深度估计

模糊检测

身份认证购VIP最低享 7 折!

30元优惠券

1基于域自适应的Junyong Lee1POSTECH成均馆大学Cho Sunghyun3DGISTSeungyong Lee11{junyonglee，leesy}@postech.ac.kr2sungkil@skku.eduscho@dgist.ac.kr3摘要在本文中，我们提出了第一个端到端卷积神经网络（CNN）架构，散焦地图估计网络（DMeNet），空间变化的散焦地图估计。为了训练网络，我们生成了一个新的景深（DOF）数据集SYNDOF，其中每个图像都用地面真实深度图进行了合成模糊。由于SYNDOF的合成性质，SYNDOF中的图像的特征特性可以不同于真实散焦照片的特征特性。为了解决这一差距，我们使用域自适应技术，将真实散焦照片的特征转换为合成模糊照片的特征。我们的DMEnet由四个子网组成：模糊估计、域自适应、内容保存和锐度校准网络。子网络相互连接，并以端到端的方式与其相应的监督进行联合训练。我们的方法进行评估公开可用的模糊检测和模糊估计数据集，结果显示了国家的最先进的性能。1. 介绍散焦图包含散焦模糊的量或散焦模糊（简而言之，散焦）图像的每个像素的模糊圈（COC）的大小从散焦图像估计散焦图可以极大地促进高级视觉信息处理，包括显著性检测[12]、深度估计[40]、前景/背景分离[22]和去模糊[39]。散焦图估计的典型方法首先从模糊图像检测边缘，然后测量边缘周围的模糊量，最后在边缘处内插估计的模糊量以确定均匀区域中的模糊量。以前的边缘驱动方法有一些局限性。首先，模糊图像中的边缘通常是模糊的，导致不准确的检测。其次，边缘的模糊估计固有地易于出错，因为在具有深度不连续性的对象边界处的像素在散焦图像中包含不同COC的混合物[18]。第三，这种不稳定性边缘处的模糊估计将导致均匀区域中的较不可靠的预测。也就是说，在对象边界的不同部分处估计的模糊量可能是不相干的，并且然后它们朝向同质对象内部的插值将仅产生平滑但不太准确的模糊估计。例如，具有单个深度的对象的估计模糊量可能不是恒定的，因为当边缘与附近对象具有不同的深度不连续性时，在相对边缘处单独测量的模糊量可能不相同。在本文中，我们提出了DMENet（散焦图估计网络），这是第一个端到端CNN框架，它直接估计给定散焦图像的散焦图。我们的工作是区别于以前的明确定义，其中COC，我们试图估计COC的混合物，其中我们推断的COC大小的像素使用的深度值在相应的针孔图像。使用我们的COC定义训练的网络可以更稳健地估计模糊量，特别是在对象边界处。该网络还通过扩大其感受野来更好地处理同质区域，以便将对象边缘和内部信息一起用于解决模糊性。因此，我们的网络显着提高了模糊估计的准确性，在存在COC的混合物。为了实现这种网络学习，高质量的数据集至关重要。然而，当前可用的数据集[29，4]是不够的，因为它们要么用于模糊检测[29]，而不是模糊估计，要么是小尺寸的[4]。为此，我们生成一个散焦模糊数据集，我们称之为“SYNDOF”数据集。这将是几乎不可能的，即使是手动，以产生地面实况散焦地图的散焦照片。因此，我们使用针孔图像数据集，其中每个图像都伴随着深度图，以合成具有相应地面真实散焦图的散焦我们的数据集的一个局限性是散焦模糊是合成的，并且在真实和合成散焦图像的特征之间可能存在域差异[9]为了解决这个问题，我们设计了我们的网络，包括域自适应，这是能够适应的功能，真正的散焦图像的合成，使网络可以估计模糊量的真实图像与1222212223使用合成图像训练散焦模糊估计。总之，我们的贡献包括：• 第一个端到端CNN架构，直接估计准确的散焦图，无需边缘检测;• SYNDOF散焦模糊数据集，包含合成散焦图像和地面实况散焦图;• 域自适应使得能够通过用于真实散焦图像的合成数据集进行学习2. 相关工作对于散焦图估计，大多数先前的工作首先估计明确检测到的边缘周围的模糊量，然后将它们传播到周围的均匀区域。Zhuo等[40] Karaaliet al.[13]使用图像梯度作为局部模糊线索，并计算原始图像和重新模糊图像的边缘之间的模糊线索的比率。Tang等人[32]估计图像边缘附近具有频谱对比度的稀疏模糊图。Shi等人[29]利用频域特征、学习特征和图像梯度来估计模糊量。Shi等人[30]采用稀疏表示来检测仅可察觉的模糊，其不能处理大模糊。Xu等[37]使用局部补丁的等级作为模糊量的线索。Park等人[24]构建由手工制作的特征以及从预先训练的模糊分类网络获取的深度特征组成的特征向量，然后将特征向量馈送到另一个网络以回归边缘上的模糊量所有这些方法通常依赖于仅在图像边缘周围定义的特征，因此从均匀区域的边缘插值的模糊量可能不太准确。最近，机器学习技术已经被用于密集地估计散焦图。 Andr e`s等。[4]创建一个数据集，其中地面实况散焦图在每个像素处标记有点扩散函数（PSF）的半径，这使散焦图像上的误差最小化它们训练回归树字段（RTF）来估计每个像素的模糊量然而，该方法不能容易地推广，因为不充分的训练图像，并且在不能准确测量地面实况模糊量的深度边界周围的像素处不鲁棒Zhang等人[38]通过将散焦图像的每个像素手动标记为四个像素来创建数据集模糊级别：高、中、低和无模糊，用于训练CNN分类。他们的方法在CUHK模糊检测数据集上显示了最先进的性能[29]，但它无法估计精确的模糊量，这对于去模糊和深度估计等应用至关重要领域自适应领域自适应[5]是为了解决基于学习的方法对尚未训练的其他领域的泛化能力而用于域适配。给定具有标记数据的源域和具有未标记数据的目标域，它们的框架训练用于源域数据的标记分类器以及用于对不同域进行分类的域分类器。他们表明，使用他们的框架训练的分类器可以很好地泛化到目标领域。自那时以来，已经制定了几种方法。Tzeng等人[33]使用对抗性判别损失函数，Longet al.[21]提出了一个残差域分类器。何夫曼等[10]扩展语义分割的领域自适应框架。Chen等人[2]提出了用于道路场景的语义分割的类域自适应。何夫曼等[9]当前循环一致对抗域适应以获得更好的适应性能。Bousmalis等人[1]建议学习像素空间中的变换，该变换将源域图像变换为看起来好像是从目标域绘制的。我们使用领域自适应来解决我们合成生成的训练图像和真实图像之间的差距。虽然以前的研究主要用于二进制或多标签分类任务，如语义分割，我们采用它的图像到图像的回归。3. SYNDOF数据集3.1. 数据收集我们首先收集了合成图像和真实图像及其相关的深度图;我们没有使用3D场景模型，以避免耗时的高质量渲染。我们的图像来自MPI Sintel Flow（MPI）[35]、SYNTHIA [27]和Middlebury Stereo 2014（Middlebury）[28]数据集。MPI数据集是游戏场景渲染的集合，SYN-THIA数据集包含合成道路视图，Middlebury数据集由具有精确深度测量的真实室内场景图像组成。MPI和SYNTHIA数据集包括相似场景的序列，因此我们只保留了峰值信噪比（PSNR）和结构相似性指数（SSIM）方面的不同图像，最终总共有2，006个不同的样本然后，我们重复从样本集中随机选择图像的过程，以生成具有相机参数和焦距的随机采样的散焦图像。我们生成的散焦图像总数为8，231。表1显示了详细情况。3.2. 薄透镜模型给定颜色深度对，我们使用薄透镜模型[25]生成散焦图像，这是计算机图形学中散焦模糊的标准（图10）。①的人。设焦距为F（mm），物方焦距为S1（mm），f数为N。图像空间焦距为f1=FS1，孔径D=F。然后S1− F NGanin等人 [5]提出了一种对抗学习框架，该框架包括位于图像中心的3D点的图像空间COC直径c（x）122244RBXfar1数据集样本数量#输出类型MPI1,0644,346合成Synthia8963,680合成米德尔伯里46205房总2,0068,231图1：薄透镜模型。物距x定义为：c（x）=α|x−S1|，其中α=f1D.（一）表1：我们的SYNDOF数据集的收集摘要。在混合物中的像素是不相关的，因为它们来自附近的前景或隐藏的表面（在清晰的图像中没有显示）[19]。在散焦图中估计哪些COC的这种澄清是对xS13.3. 散焦图像生成为了将散焦模糊应用于图像，我们首先分别从深度图中提取最小和最大深度边界xnear和xfar。然后，我们从[xnear， xfar]的范围内随机采样S1当使用Eq.（1），我们只需要抽象物理参数的α实际上，x不接近零（意味着非常接近镜头），有一定的限制。为了促进捕获条件的有意义但随机的生成，我们将COC大小限制为cmax。因此，α的上限，用αup表示，是：既往研究。4. 散焦图估计4.1. 概述网络设计我们的DMENet有一个新的架构，用于从散焦图像估计散焦图（图10）。2）的情况。该网络由四个子网组成：模糊估计（B）、域自适应（D）、内容保留（C）和锐度校准网络（S）。模糊估计网络B是主要组件αup=c max·最小.法尔|、|,x近|x接近− S1|Σ.（二）我们的 DMENet 和监督地面实况合成散焦地图从SYNDOF数据集预测模糊量给定的图像。为了使网络B能够测量现在α在[0，αup]内随机采样。然后，我们将高斯模糊应用于具有核标准差σ的图像，其中我们根据经验定义σ（x）=c（x）。为了基于计算出的COC大小模糊图像，我们首先将图像分解为离散层，到每像素深度值，其中最大层数限制为350。然后，我们使用σ（x）对每个层应用高斯模糊，模糊该层的图像和遮罩。最后，我们使用模糊蒙版作为alpha值，以从后到前的顺序对除了散焦图像之外，我们还生成标签（即，散焦图），其将σ（x）平凡地记录为每像素模糊的量。这种层驱动的散焦模糊类似于[15]的算法，但我们绕过了抠图步骤，因为我们没有将不同的深度放入同一层。我们的SYNDOF数据集使网络能够准确地对于真实散焦图像上的模糊量，我们将域自适应网络D附加到其上，这使得合成特征和真实特征之间的域差异最小化内容保存网络C补充网络B以避免模糊输出。锐度校准网络S允许实域特征，以通过通知网络B给定的实域特征对应于清晰像素还是模糊像素来在散焦图中引入正确的清晰度我们的网络结构的细节在补充材料中。培训我们的最终目标是训练模糊估计- 用模糊网络B估计真实图像的模糊量。为了实现这一点，我们使用三个不同的训练集联合训练分别由θB，θD和θS参数化的网络B，D和S请注意，网络C是固定的dur-.nnΣ由于以下特性，估计散焦图首先，我们的散焦图是密集的（每像素，而不是二进制）标记。密集标签尊重场景结构，包括对象边界和深度不连续性，并解决均匀区域中的模糊性。第二，物体位置我们的训练。DS=. . .，（IS，y），. . .是训练集合成散焦图像与地面实况散焦映射，其中In和yn是第n个图像，对应的S.Σ响应散焦图。DR= . . .，I n，. . . 是一没有标签的真实散焦图像的训练集。最后.nn当在散焦图像中用模糊量标记像素时，使用原始清晰图像然后，即使网络遇到COC的混合（称为部分遮挡[20]），模糊像素也会被监督以具有清晰图像中的COC大小请注意，其他COCDB= . . .，（IB，b），. . . 是一组真实散焦的图像In与地面实况二进制模糊映射bn，其中bn在每个像素处被标记为清晰或模糊。给定训练数据集，我们交替训练θB和一个是有损失的θS，一个是有损失的θD，DC（x）c（x）XS1Ff112225RSCITD训练阶段模糊估计网络（B）跳过连接VGG19预训练U-net解码器GT合成散焦图，y内容保存网。（C）合成散焦图像辅助模块（A）辅助损耗，Laux预测合成散焦图Sharpet校准网络（S）GT真实模糊贴图，b预测真实模糊贴图实散焦像域适应网络。（D）域适应丧失，Ladv和LD预测真实散焦图图2：DMeNet的架构。在训练期间，我们使用所有四个子网：模糊估计（B）、域自适应（D）、内容保留（C）和锐度校准（S）网络。它们被联合训练以从合成散焦图像学习模糊量，同时最小化合成散焦图像和真实散焦图像之间的域差异为了测试，我们仅利用网络B来估计给定真实散焦图像的散焦图。对抗训练的一种方式。损失Lg定义为：还使用网络C最小化内容保留损失LC以减少预测B（IS）中的模糊。Lg=1 .|.|.ΣLB（In，yn;θB）+λCLC（In，yn;θB）（三）具有二值模糊映射的实散焦图像，（IB， b）∈|DS|1Sn=1.|.|.SDB，用于校准锐度测量，主要转移特征。在b的监督下，清晰度校准损耗LS引导网络S进行分类+λadvLadv（In;θB）+λSLS（In，bn;θB，θS）估计的散焦图B（I）是否具有正确的模糊|DB|+λadv|DR|n=1.|DR|n=1B RLadv（In;θB），B量，最终校准网络B以从域转移特征估计正确的清晰度。最后，综合使用IS∈DS，IB∈DB，IR∈DR来最小化提取的特征之间的领域差异哪里|D|是集合D中元素的个数。 LB、LC、LS和Ladv分别是模糊图损失、内容保留损失、锐度校准损失和对抗性损失这将在后面讨论。λc、λS和λadv是平衡损失项的超参数。损失Ld定义为：合成的和真实的散焦图像。对于图像1S，地面实况域标签是合成的，而IB和IR被标记为真实的。我们以对抗的方式最小化竞争损失LD和对抗损失Ladv，其中我们训练网络D以正确分类来自不同输入的特征域，同时训练网络B以混淆D。L =λDd|DS|.|DS|n=1LD（In，1;θD）（4）在本节的其余部分，我们将描述四个网络及其相关的损失函数。你好|DR|公司简介LD（In，0;θD）+.|DB|nLD（I，0;θD）θ，4.2. 模糊估计|D R|+的|DB|Rn=1Bn=1模糊估计网络B是我们的DMENet. 我们采用全卷积网络（FCN）其中，LD是损耗，λD是用于平衡Lg和Ld的超参数。在训练期间，网络D、C和S根据输入的域而不同地影响B在具有真实散焦图的合成模糊图像的情况下，（IS，y）∈DS，我们使用模糊图直接最小化y与预测散焦图B（IS）之间的差异。LossLB，测量均方误差（MSE）。我们[10]，它基于U-net架构[26]，略有变化。我们使用预训练的VGG19 [31]初始化编码器，以便在训练的初始阶段获得更好的特征表示。解码器使用上采样卷积而不是去卷积来避免棋盘伪影[23]。我们还在每个上采样层应用尺度辅助损失来指导散焦图的多尺度预测这种结构使我们的网络不仅在各种情况下都是健壮的，VGG19预训练（固定）合成还是真实？测试阶段鉴别器残差卷积1X1 CNN12226我们的对象尺度，但也要考虑全球和当地的背景与大的接受领域。在解码器的最后一个上采样层之后，我们使用短跳过连接来附加卷积块以细化域适应特征。我们使用损失函数LB的均方误差（MSE）来估计散焦图的整体结构，并密集地预测区域中的模糊量。给定尺寸为W×H的合成散焦图像IS，LB被定义为：然后，我们训练网络B以最小化合成和真实散焦图像的特征之间的域差异。给定真实散焦图像IR，我们将域自适应的对抗损失Ladv定义为：Ladv=−log （ D （ Blast （ IR;θB ）， θD ）），（8）其中我们固定参数θD，只训练θB。这里的主要目标是训练模糊估计网络LB=1 .WWHi=1.H（B（IS;θB）i，j−yi，j）2+λauxLaux，（5）j=1B，以便将真实散焦图像和合成散焦图像视为来自同一域。随着我们的领域自适应网络D作为领域分类器变得更强，网络其中B（IS;θB）i，j是网络B在像素（i，j）处利用学习参数θB预测的IS的模糊量。yi ，j是对应的地面实况散焦值。Laux是按比例的辅助损失，定义为：B必须为真实域和合成域生成更多不可区分的特征，最小化提取特征方面的域差异4.4.内容保存L辅助=.LB=11 .W.HWlHli=1j= 1（B<$（IS;θB，θaux）i，j−y<$，i，j）2，（6）我们的模糊估计损失LB是MSE损失，并且具有产生模糊输出的性质，因为它取最小值其中B（I;θ，θ）=A（B（I;θ）;θ）是输出在[17]以人为本，以人为减少卡罗斯湾auxℓ ℓSBaux工件，我们使用内容保存损失[6]，通过由θaux参数化的小辅助网络A将网络B的第1/2上采样水平转换为散焦图。每个辅助网络A由两个卷积组成，第一层中的核的数量随着级别的变化而变化。λaux是平衡参数。W×H在特征空间φ中的距离，而不是在图像空间本身。我们将内容保存网络C定义为预训练的VGG 19 [31]。在训练期间，网络B被优化以最小化：在第三级别的散焦图的大小。y是地面，真值散焦图调整为W×H。LB是数LC=1 .一、W.H（φ（B（IS;θB））i，j−φ（y）i，j）2，（9）B中的上采样层。WHi=1j=14.3.域适应我们的域自适应网络D比较由模糊估计网络B捕获的真实散焦图像和合成散焦图像的特征。我们对网络D使用对抗训练，使得这两个域在提取的特征方面具有相同的原则上，D是GAN框架中的判别器[7]，但在我们的情况下，它使真实和合成散焦图像的捕获特征的特性无法区分。我们将D 设计为具有四个卷积层的CNN，每个卷积层后面都有一个批归一化层[11]和泄漏整流线性单元（ReLU）激活[36]。鉴别器损失我们首先将网络D训练为鉴别器，以使用鉴别器损失LD对来自合成域和真实域的特征进行分类，定义为LD=（z−1）·log（1−D（Blast（I;θB），θD））其中，W×H是VGG 19的第12个最大池化块中最后一个卷积层处的特征图φ（·）的大小4.5. Sharpable校准我们的域自适应网络D集中于在真实和合成散焦图像中调制提取特征的总体分布，并且它不具体地对齐与两个域之间的特征相对应的模糊量换句话说，由我们的模糊估计网络B针对合成散焦图像学习的模糊量不能容易地应用于真实散焦图像，并且我们需要校准针对两个域的估计模糊为了解决这个问题，我们的清晰度校准网络S通过将从网络B中的真实散焦图像捕获的特征与模糊检测数据集中可用的模糊信息相关联来提供用于所述特征的附加信息，其中图像中的每个像素被−z·log（D（Blast（I;θB），θD（七）））的情况下，标记为清晰或模糊。对于来自数据集的给定真实散焦图像，我们其中z是指示输入要素是否来自从真实的或合成的散焦图像，即，输入图像I是真实的还是合成的;如果特征是真实的，则z = 0，否则z= 1。Blast（I，θB）返回图像I的B的最后一个上采样层的特征12227图。请注意，这里我们只训练了θD的参数。- 训练网络S以根据估计的模糊度的正确性对网络B的输出进行只有当被估计为清晰的像素属于输入图像中的清晰区域时，预测才被认为是正确的我们建立具有1× 1卷积层的网络S，每个卷积层12228的bdc¨(a) 输入（b）DMENet B（c）DMENet BD （d）DMENet BDC （e）不含Laux的DMENet（g）地面实况图3：在我们的网络中增加子网所产生的输出顶行示出了从合成散焦模糊图像估计的散焦图，并且底行示出了给定真实DOF图像的结果我们可以观察到每个子网络都提高了输出的质量在（g）中，地面实况是SYNDOF数据集（顶部）中的散焦图和CUHK数据集（底部）中的二进制模糊掩模。之后是批量归一化和泄漏ReLU层，强制网络B密集估计模糊度。我们应用sigmoid交叉熵损失进行优化：数据集对于用于训练网络B的合成散焦图像IS（等式2），(5))，C（等式10）(9))，和D（Eq. (7))，我们使用SYNDOF数据集的图像我们限制了1 .W.H？1-COC的c最大值对于真实散焦图像，2域自适应，我们使用了2，200个真实散焦图像LS=WH<$1+exp（−S（B（I;θ）;θ））−bi，j<$，（10）图片来自Flickr，504张图片来自中大blur de-i=1j=1BBS i，j2保护数据集[29]。对于锐度校准，我们还使用其中b是地面实况二进制模糊图。我们使用1× 1核来保持网络B和S之间的接收场大小相同。否则，随着S的感受野变大，从S传递的梯度到B的信号将传播到比B的感受野更大的区域。S的较大内核最终导致B生成模糊的散焦贴图。更多详情请参阅补充材料。5. 实验本节报告了我们评估DMENet在生成散焦图中的性能的实验。我们首先总结了我们的实验设置，然后讨论了子网B，D，C和S之间的相互连接的影响。然后，我们将我们的结果与CUHK数据集[29]和RTF数据集[4]上的最先进方法进行比较，然后是我们的DMeNet的一些应用。评估结果的详细信息随附在补充材料中。5.1. 实验配置我们使用Adam [14]来优化我们的网络。该网络以批量大小为4进行训练，学习率初始设置为0.0001，每20个epoch的指数衰减率为0.8我们的模型-在大约60个纪元后接近在Eqs.(3)，（4）和（5）被设置为： λadv= 1e−3 ， λD= 1 。 0 ， λC= 1e−4 ，λS=2e−2，且λaux= 1。0.对于φ，我们使用φ=4，这表示第四个最大值之前的最后一个卷积层。VGG19 中的池化层。我们在配备 NVIDIA GeForceTITAN-Xp（12 GB）的PC上以端到端的方式来自CUHK数据集的相同504个图像用于真实散焦图像1B，其需要二进制模糊图。在训练过程中，我们使用随机翻转、旋转和裁剪来增强所有图像为了进行评估，我们使用了200张CUHK数据集的图像和22张RTF数据集的图像[4]，这些图像不用于训练。5.2. 子网评估图3示出了子网络的增量添加的效果，以从合成（上行）和真实（下行）图像估计散焦图。给定合成图像，DMEnetB相当好地估计散焦图。然而，对于真实的散焦图像，单独使用子网络B进行模糊估计失败（图2）。3b），确认在合成和真实散焦图像的特征之间存在显著的域差异。通过我们的域自适应，DMENetBD开始在一定程度上识别真实图像的模糊程度（图1）。3c），但具有模糊的输出。添加内容保留子网络（DMENet BDC）可以有效地从估计的散焦图中去除模糊伪影，从而增强纹理区域中的估计（图1）。第3d段）。最后，使用清晰度校准子网络S，DMENetBDCS正确地对与模糊或清晰区域对应的实域特征进行分类（图2）。第3f段）。我们还比较了有和没有尺度辅助损耗Laux的DMENetBDCS的结果（等式10）。（6））。图图3e展示了没有辅助模块的网络生成不太清晰和不准确的散焦图。5.3. 对香港中文大学和RTF数据集的评价我们将我们的结果与最先进的方法进行比较[40，30，24，13，38]。对于我们的，我们使用最终模型DMEnetBDCS。为了定量评估质量，我们的意思是-1222960 70 80 9087.3584.0877.8176.5472.96Zhou等人Karaali等人Shi等人Park等人我们的（DMEnetBDCS）准确度（%）图4：中大数据集的准确性比较。1.000.950.900.850.800.750.700.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0召回图5：CUHK数据集上的精确度-召回率比较。图6：与[38]的定性比较。从左至右：输入，由[38]和我们估计的散焦图。通过对200幅CUHK模糊检测数据集的测试图像进行对比实验，验证了每种方法的准确率和查全率。由于数据集只包含地面实况的二进制模糊图根据Parket al.[24]第24话对于二值化，τ=αvmax+（1−α）vmin，其中vmax和vmin是最大值和最小值在估计的散焦图，分别，和α= 0。3.图图4和图5示出了定量比较结果。我们的网络在准确性方面明显优于以前的方法，准确性是给定图像中正确分类像素的比率查准率-查全率曲线也显示了我们的方法在检测模糊区域方面的优越性，其中曲线使用用从vmin滑动到vmax的τ的不同水平标记的散焦图来计算。图7直观地比较了我们的网络与以前的方法产生的结果首先，与其他人相比，我们的散焦图显示了模糊程度的更连续的光谱在图7的第一行中，我们的结果显示出更少的噪声和更平滑的深度变化过渡第二，我们的网络估计更准确的模糊对象（例如，人、天空），因为它被训练为考虑具有对象边界处的COC和对象内部上的地面实况模糊量的混合的场景上下文。在图的第二行中，我们的结果显示了连贯标记的模糊量，同时清楚地尊重对象边界。在[第四十届][30个][4]美国[24日][13个国家]我们MSE0.0370.0820.0330.0240.0640.012Mae0.1430.2410.1060.1290.1990.088表2：在均方误差（MSE）和平均绝对误差（MAE）方面对RTF数据集上的散焦图估计结果的评估第三行，我们的方法估计一致的模糊量的盒子表面和它的符号，而其他一些方法不同地处理的符号，由于其强边缘。最后，我们的方法在均匀区域中更具鲁棒性。在第二行和第四行中，我们的结果显示一些物体周围几乎没有污迹，但它们在相对深度方面仍然是准确的。比如天空要比山远，不一定用其他方法保存下来。我们还报告了与最新方法相比的定性结果[38]，其实施尚未公布。图6表明，我们的模型可以处理更广泛的深度范围的场景。虽然我们的散焦图包括位于场景中整个深度范围内的所有人，但[22]的结果仅处理窄深度范围内的人。此外，我们对RTF数据集[4]进行了评估，该数据集由22个真实散焦图像和标记有盘PSF半径的地面真实散焦图组成对于所有考虑高斯PSF的计算方法（包括我们的），我们使用[4]的作者提供的转换函数重新缩放散焦图，该转换函数通过测量最接近的拟合将高斯PSF映射到光盘PSF。我们的网络在数据集上显示了最先进的准确性（表2）。更详细的评价见补充材料。5.4. 应用给定输入图像及其估计的散焦图，我们可以生成放大的散焦模糊图像（图 1 ）。（八）。我们首先使用DMENetBDCS估计每个像素的模糊量σi，j。然后，我们模糊每个像素对于高斯模糊核的σ，使用m·σi，j，其中m是放大尺度（图中m=8（八）。我们使用了与生成SYNDOF数据集相同的的散焦模糊放大结果证明了我们估计的散焦图的准确性。全聚焦图像生成我们估计的散焦图可以自然地用于去模糊（图1）。第9段）。从估计的散焦图，我们为每个像素生成具有估计的σ的高斯模糊核。然后，我们使用利用超拉普拉斯算子的非盲图像去卷积技术[16];为了处理空间变化的去模糊，我们将去卷积应用于分解层，并构成去卷积层图像。即使不存在与光学几何形状相关的精确参数（焦点、焦距、焦距、焦距），OPark等人Shi等人的.【2018[2011年]阿拉利等人hou等人KZ[二零一七年]2014年]etBDCS）URS（DMEN精度12230（a）（b）（c）（d）（e）（f）（g）图7：DMENet BDCS和其他方法之间的定性比较：（a）输入和散焦图估计（b）周等。[40]，（c）Shiet al.[30]，（d）Parket al.[24]，（e）Karaaliet al.[13]，（f）我们的，和（g）地面真实二进制模糊掩模。图8：使用DMENetBDCS估计的散焦图的散焦模糊放大率。从左到右：输入和我们的模糊放大结果。图9：使用我们的散焦图由DMEnetBDCS估计去模糊。从左至右：输入和去模糊结果。CAL长度和孔径数），我们可以在有限但常见的情况下使用缩放的散焦图来近似伪深度（即，焦点在深度Z近或Z远）。我们使用光场数据集[8，34]与地面实况深度图进行比较图10示出了我们估计的散焦图可以为深度图提供良好的近似图10：根据我们的散焦图估计的深度，DMENetBDCS。从左至右：输入、来自我们估计的散焦图的深度和地面实况深度。6. 结论SYNDOF数据集可以用更精确DOF绘制技术（例如，分布式光线跟踪[3]）和更真实的光学模型（例如，厚透镜或复合透镜模型）。更系统地捕获训练图像以覆盖更多种类的真实世界散焦图像也是未来工作的一个有趣方向。我们的网络最适合LDR图像和强高光（即，散景）可能无法正确处理。我们计划将散景和HDR图像也包含在我们的SYNDOF数据集中。致谢我们感谢审稿人的建设性评论。这项工作得到了韩国科学和信息通信技术部的支持，通过IITP资助（IITP-2015-0-00174）和NRF资助（NRF-2017 M3 C4A7066316，NRF-2017 M3 C4 A7066317）。这是也得到了DGIST启动基金计划（2018010071）的支持。12231引用[1] K. Bousmalis，N. Silberman，D. Dohan，D. Erhan和D.克里希南无监督像素级域适应与生成对抗网络。在Proc.CVPR，2017中。[2] Y. 陈威Chen，Y.陈湾，澳-地蔡氏F. Wang和M.太阳不再歧视：道路场景分段器的跨城市适应。InProc. ICCV，2017.[3] R. L. 库克，T. Porter和L. 卡彭特分布式光线追踪。SIGGRAPH Computer Graphics，18（3）：137-145，1984.[4] L. 安德烈·埃斯。 Sal vado r，A. Kochale和S. 暂停用于景深扩展的非参数模糊图回归。IEEE Trans. 图像处理（TIP），25（4）：1660 -1673，2016年。[5] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自在Proc.ICML，2015中。[6] L. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络进行纹理合成在Proc.NIPS，2015中。[7] I.古德费洛，J。普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网。在Proc.NIPS，2014中。[8] M. Hirsch，D. Lanman，G. Wetzstein和R. 拉斯卡张量显示。在 ACM SIGGRAPH 2012 Emerging Technologies中，第24：1-24：1页[9] J. 霍夫曼， E 。 Tzeng ， T.Park ， J Zhu ， P.Isola ，K.Saenko ， A.Efros 和 T. 达雷尔。 CyCADA ： Cycle-consistent adversarial domain adaptation。InProc. ICML，2018.[10] J.Hoff man，D. Wang，F. Yu和T.达雷尔。野生FCNS：像素级对抗和基于约束的适应。 CoRR ， abs/1612.02649，2016。[11] S. Iofefe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，2015年。[12] P. Jiang，H.Ling，J.Yu和J.朋不明飞行物显著区域检测：均匀性、聚焦性和目标性。在proc ICCV，2013年。[13] A. Karaali和C.俊作。具有自适应尺度选择的基于边缘的散焦模糊估计。 IEEE Trans. 图像处理（TIP），27（3）：1126 -1137，2018。[14] D. P. Kingma和 J. BA. Adam ：随机最佳化的方法。InProc. ICLR，2014.[15] M. Kraus和M.坚强。金字塔图像处理的景深绘制。InProc. Erugraphics，2007.[16] D. Krishnan和R.费格斯。使用超拉普拉斯先验的快速图像去卷积。NIPS，2009年。[17] A. B. L. Larsen，S. K. Sønderby，H. Larochelle和O.温瑟使用学习的相似性度量自动编码超出像素。InProc.ICML，2016.[18] S. Lee，E.Eschermann，和H.赛德尔实时镜头模糊效果和焦点控制。 ACM Trans. 图形（TOG），29（4）：65：1 - 65：7，2010年。[19] S.李，G. J.Kim和S.崔在每像素层上使用点溅射的实时景深27（7）：1955[20] S.李，G. J.Kim和S.崔使用各向异性滤波的mipmap插值实现实时景深绘制 IEEE Trans. Visualization andComputer Graphics（TVGC），15（3）：45312232[21] M.龙，H. Zhu，J.Wang和M. I.约旦.无监督域自适应残差传输网络。在Proc. NIPS，2016中。[22] M. McGuire，W.马图西克Pfister，J.F. Hughes和F.杜兰德。散焦视频抠图。ACM Trans. Graphics（TOG），24（3）：567[23] A. Odena，V. Dumoulin和C.奥拉反卷积和棋盘式伪影。Distill，2016.[24] J. 帕克湾，澳-地Tai，D.周和我S. 奎恩多尺度深度和手工特征的散焦估计统一在Proc. CVPR，2017中。[25] M.波特梅希尔和我。查克拉瓦蒂用于合成图像生成的镜头和光圈相机模型 ACM Trans. Graphics（TOG），15（3）：297 -305，1981.[26] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。在Proc.MICCAI，2015中。[27] G.罗斯湖Sellart，J. Materzynska，D. Vazquez和A. M.洛佩兹synthia数据集：一个大的合成图像集，用于城市场景的语义分割。在Proc. CVPR，2016中。[28] D. Scharstein，H.Hirschm uüller，Y.北岛湾克拉斯·沃赫尔，N. Nesic，X. Wang和P.韦斯特灵高分辨率立体数据集，具有亚像素精确的地面实况。在proc GCPR，2014年。[29] J. 什湖，加-地Xu和J.贾判别模糊检测功能。在Proc.CVPR，2014。[30] J. 什湖，加-地Xu和J.贾只是明显的散焦模糊检测和估计。在Proc.CVPR，2015中。[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/ 1409.1556，2014。[32] C. 唐角，澳-地Hou和Z.歌散焦图估计从一个单一的图像通过光谱对比。光学快报，38（10）：1706[33] E. Tzeng，J.何福民，K。Saenko和T.达雷尔。对抗性判别域自适应。在Proc. CVPR，2017中。[34] G. Wetzstein，D. Lanman，W. Heidrich和R.拉斯卡分层3D：用于基于衰减的光场和高动态范围显示器的层析成像图像合成。ACM Trans. Graphics（TOG），30（4）：95：1[35] J. Wulff，D.J. Butler，G.B. Stanley和M.J. 黑色. 创建合成光流基准的经验教训和见解在ECCV研讨会上，光流和立体估计中未解决的问题，2012年。[36] B. Xu，N. Wang，T. Chen和M.李卷积网络中整流激活的经验评估。CoRR，abs/ 1505.00853，2015。[37] G. Xu，Y. Quan和H.纪通过秩当地的补丁。InProc. ICCV，2017.[38] S. Zhang，X. 沈，Z. 林河，巴西-地 MeP.E. P. Costeira和J.M. F. 莫拉学习理解图像模糊。在Proc. CVPR，2018中。[39] C. Zhou和S.K. 纳亚尔什么是好的光圈散焦去模糊？载于国际刑事法院程序，2009年。[40] S. Zhuo 和T. SIM.从单个图像估计散焦图。PatternRecogn

下载后可阅读完整内容，剩余1页未读，立即下载