ARShadowGAN：端到端生成对抗网络实现增强现实单光源场景阴影生成

138 浏览量更新于2023-10-24 收藏 13.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

81390ARShadowGAN：用于单光源场景增强现实的阴影生成对抗网络0刘大全1，龙成江2�，张洪攀1，于汉宁1，董新志1，肖春霞1,3,4�01 武汉大学计算机学院 2 Kitware公司，纽约州克利夫顿公园 3武汉大学多媒体软件国家工程研究中心 4 武汉大学人工智能研究所0chengjiang.long@kitware.com，{daquanliu,zhanghp,fishaning,dongxz97,cxxiao}@whu.edu.cn0摘要0在计算机视觉和增强现实应用中，生成与真实环境光照效果一致的虚拟物体阴影非常重要但具有挑战性。为了解决这个问题，我们提出了一种用于增强现实单光源场景的阴影生成的端到端生成对抗网络，称为ARShadowGAN。我们的ARShadowGAN充分利用了注意机制，并能够直接建模虚拟物体阴影与真实环境之间的映射关系，而无需对光照和3D几何信息进行明确估计。此外，我们收集了一个图像集，为阴影生成提供了丰富的线索，并构建了一个用于训练和评估我们提出的ARShadowGAN的数据集。广泛的实验结果表明，我们提出的ARShadowGAN能够在单光源场景中直接生成合理的虚拟物体阴影。我们的源代码可在https://github.com/ldq9526/ARShadowGAN获得。01. 引言0增强现实（AR）技术将虚拟对象与真实场景无缝集成。它在医学科学、教育和娱乐领域具有广泛的应用前景。在合成的AR图像中，虚拟对象的阴影直接反映了虚拟对象与真实环境之间的光照一致性，这极大地影响了真实感。因此，为高质量的AR应用生成虚拟对象阴影并确保其与光照约束一致非常关键。自动生成插入虚拟对象的阴影0� 这项工作由龙成江和肖春霞共同指导。0图1.在单光源场景中为插入的对象投射虚拟阴影的示例。从左到右：原始图像，没有虚拟对象阴影的合成图像，虚拟对象掩码和带有虚拟对象阴影的图像。0物体的阴影生成极具挑战性。以往的方法基于逆向渲染[32]，其性能高度依赖于估计的几何形状、光照、反射和材质属性的质量。然而，这样的逆向渲染问题在实践中非常昂贵和具有挑战性。更糟糕的是，任何不准确的估计都可能导致不合理的虚拟阴影。我们的目标是在AR环境中探索虚拟物体阴影与真实环境之间的映射关系，而无需明确的逆向渲染。我们需要一个包含每个图像中AR阴影生成线索的阴影图像数据集，用于训练和评估AR阴影生成的性能。然而，现有的阴影相关数据集，如SBU [41]、SRD [38]和ISTD[44]，包含阴影图像和相应的无阴影图像对，但大多数阴影缺乏遮挡物，几乎所有阴影都在无阴影图像中被移除。这样的阴影数据集无法提供足够的线索来生成阴影。因此，有必要为AR应用构建一个新的阴影数据集。在这项工作中，我们构建了一个名为Shadow-AR的大规模AR阴影图像数据集，其中每个原始图像都包含遮挡物、相应的阴影和来自公共可用数据集（如ShapeNet[3]）的插入的3D物体。我们首先注释了真实世界的阴影及其相应的遮挡物，然后使用相机和照明校准确定了光照和几何信息。81400然后，我们可以应用3D渲染为插入的3D物体生成阴影，并将其作为训练和评估的真实虚拟阴影。我们观察到，像图像到图像转换网络这样的直接解决方案无法生成合理的虚拟阴影，因为它没有足够的注意力处理像真实世界阴影和相应的遮挡物这样更重要的区域。这个观察启发我们利用真实世界阴影和相应遮挡物的空间注意信息来为插入的虚拟物体生成阴影。在本文中，我们提出了一种用于直接生成虚拟物体阴影的生成对抗网络，称为ARShadowGAN。如图1所示，ARShadowGAN以不带虚拟阴影的合成AR图像和虚拟物体掩码作为输入，直接生成合理的虚拟物体阴影，使AR图像更加逼真。与基于逆向渲染的方法[22,23]执行几何、照明和反射估计不同，我们提出的ARShadowGAN在没有任何显式逆向渲染的情况下生成虚拟阴影。我们的关键见解是建立虚拟物体阴影与现实环境之间的映射关系。换句话说，ARShadowGAN通过现实环境提供的线索自动推断虚拟物体阴影。我们强调采用生成器和判别器之间的对抗训练过程[10]来生成AR阴影图像。随着训练轮次的增加，两个模型都会改善其功能，以至于越来越难以区分生成的AR阴影图像和真实的AR阴影图像。因此，在一定数量的训练轮次之后，我们可以利用生成器中学到的参数生成AR阴影图像。总之，我们的主要贡献有三个：0•我们构建了第一个大规模的Shadow-AR数据集，其中包含3,000个五元组，每个五元组包括一个不带虚拟物体阴影的合成AR图像及其相应的带有虚拟物体阴影的AR图像，一个虚拟物体的掩码，一个标记的真实世界阴影抠图及其相应的标记的遮挡物。0•我们提出了一种端到端可训练的生成对抗网络，名为ARShadowGAN。它能够直接生成虚拟物体阴影，无需照明和几何估计。0•通过大量实验证明，我们提出的ARShadowGAN优于基于最先进的直接图像到图像转换解决方案的基线。02. 相关工作0生成阴影的相关工作可以分为两类：具有逆向渲染和不具有逆向渲染。具有逆向渲染的阴影生成。以往的方法是基于逆向渲染来生成虚拟物体阴影的，这需要几何、照明、反射和材料属性。方法[39, 36, 48,1]通过已知标记估计照明，但当标记被阻挡时会失败。方法[22, 23,25]估计所有所需属性，但不准确的重建结果会导致奇怪的结果。近年来，深度学习在视觉识别[13, 18, 26, 28, 17, 30,27, 29, 16]、目标检测和分割[9, 42,31]等方面取得了重大突破。特别是基于深度学习的方法[7,45, 8, 6, 14,49]已经被开发出来，可以从单个LDR图像中估计HDR照明，但很少有方法能够在室内和室外场景中都表现良好，并且渲染需要用户交互。这种耗时和劳动成本巨大的方法使得自动阴影生成在AR中变得不可行。不具有逆向渲染的阴影生成。近年来，生成对抗网络（GAN）[10]及其变体，如cGAN[33]和WGAN[2]，已成功应用于各种生成任务，如阴影检测和去除[44,46, 5,50]，当然也可以扩展为特定风格的阴影生成。值得一提的是，胡等人的Mask-ShadowGAN[15]同时进行了阴影去除和基于掩码的阴影生成，使用了不成对的数据。张等人将图像补全cGAN[19]扩展到ShadowGAN[51]，用于为VR图像生成虚拟物体阴影，其中场景是由单个点光源合成的。然而，这些方法没有考虑到真实阴影的遮挡物。与以前的方法不同，我们提出的ARShadowGAN充分利用空间注意机制来探索遮挡物和相应阴影之间的相关性，为插入的物体投射出合理的虚拟阴影。0为了在单光源场景中为插入的虚拟物体投射阴影，我们需要探索虚拟物体与AR环境中阴影之间的映射关系。为了训练和评估虚拟阴影生成的性能，需要一个包含每个图像中生成虚拟阴影所需的阴影线索的必要阴影图像数据集。然而，现有的与阴影相关的数据集存在许多限制。SBU [41]和UCF[52]包含阴影图像和相应的阴影掩码对，但没有相应的无阴影图像。SRD [38]、UIUC [12]、LRSS [11]和ISTD[44]包含阴影图像和相应的无阴影图像对，但大多数阴影缺乏遮挡物，并且几乎所有阴影在无阴影图像中都被移除。这些阴影数据集无法提供足够的线索来生成阴影。因此，我们需要构建一个包含阴影图像和虚拟物体的Shadow-AR数据集。3.2. Mask Annotation and Shadow Rendering814103.2. 掩码标注和阴影渲染0图2. 我们Shadow-AR数据集中的两个图像示例。 (a) 是没有标记的原始场景图像，(b) 是没有虚拟物体阴影的合成图像，(c)是虚拟物体的掩码，(d) 是真实世界的遮挡物，(e) 是真实世界的阴影，(f) 是包含虚拟物体阴影的合成图像。0M0光源0相机0图3.数据标注示意图。在方形标记处建立了一个3D笛卡尔坐标系M。相机姿态通过标记识别进行计算。光源位置或方向在坐标系M中进行校准。0阴影缺乏遮挡物，几乎所有阴影在无阴影图像中都被移除。这些阴影数据集无法提供足够的线索来生成阴影。因此，我们需要构建一个包含阴影图像和虚拟物体的Shadow-AR数据集。03.1. 数据收集0我们使用LogitechC920相机拍摄的640×480分辨率的原始图像，其中场景是在不同的相机姿态下拍摄的。我们保留照片中的真实世界阴影和相应的遮挡物，因为我们认为这些可以作为阴影推断的一系列线索。我们从ShapeNet[3]选择了9个模型，从Stanford3D扫描库选择了4个模型，并将它们插入到照片中，以产生不同的前景（模型）和背景（场景）组合的图像。我们的Shadow-AR数据集包含3000个五元组。每个五元组包含5个图像：一个没有虚拟物体阴影的合成图像及其相应的包含虚拟物体阴影的图像，一个虚拟物体的掩码，一个标记的真实世界阴影抠图及其相应的标记的遮挡物。图20展示了我们的图像数据示例。0我们需要收集包含真实世界阴影抠图、相应的遮挡物掩码和带有合理虚拟物体阴影的合成图像的监督信息。需要注意的是，插入虚拟3D物体需要几何一致性，并且虚拟物体阴影需要与真实世界环境一致。这意味着我们需要同时校准真实世界环境中的相机姿态和照明，这是非常具有挑战性的。为了方便起见，我们使用一个简单的黑白方形标记完成数据标注。如图3所示，我们在该方形标记处建立了一个3D笛卡尔坐标系M作为世界坐标系。线索标注。如图2.(c)-(d)所示，我们标注了真实世界的阴影及其对应的遮挡物，这有助于推断虚拟物体的阴影。我们使用Robust-Matting软件标注真实世界的阴影，并使用LabelMe工具[43]标注遮挡物。相机和照明校准。我们通过Otsu的[35]分割进行自适应阈值的方形标记识别和跟踪。利用提取的四个标记角点，通过EPnP[24]计算相机姿态。对于室内场景，我们考虑一个单一的主光源，并将其建模为具有三维位置的点光源。为了确定最主要的光源，我们逐个手动阻挡或关闭每个室内光源（通常是点光源或面光源），选择产生最明显阴影的光源。然后，我们手动测量主光源的几何中心坐标Xm作为光源位置（如图3所示）。对于室外场景，主要光源是太阳，我们将其建模为定向光源。我们使用已知的兴趣点对应关系测量太阳光的方向。81420（a）遮挡物面积分布（b）真实世界阴影面积分布0（c）虚拟物体面积分布（d）虚拟物体位置分布0图4.虚拟物体和真实线索的统计数据。我们展示了我们的数据集具有合理的属性分布。0直线边缘及其阴影。渲染。通过校准的相机和照明，我们渲染3D对象及其相应的阴影。我们使用Phong着色[37]来渲染3D对象。我们实验性地将室内环境的环境光设置为白色，归一化强度为0.25，室外环境的环境光设置为白色，归一化强度为0.35。我们在3D对象的底部添加一个平面，并进行阴影映射[47]以及alpha混合来生成阴影。为了使生成的阴影与真实世界的阴影具有一致的外观，我们对阴影边界应用高斯核（5×5，σ=1.0）来模糊阴影边界，以获得柔和的阴影边界。图4显示了我们数据集分布属性的统计分析。面积分布表示目标（阴影、遮挡物或虚拟物体）面积与图像面积之间的比例。从图中可以看出，大多数遮挡物的面积在(0.0,0.3]范围内，大多数阴影的面积在(0.0,0.2]范围内，大多数虚拟物体的面积在(0.0,0.2]范围内。我们发现，落在(0.4,0.6]范围内的线索占据了大部分图像面积，这使得插入虚拟物体变得困难。同样，面积过大的插入物体将阻挡重要的线索。在我们的数据集中几乎没有这样的情况。此外，我们分析了虚拟物体的空间分布，我们计算了一个概率图（图4（d）），显示一个像素属于虚拟物体的可能性。这是合理的，因为放置在人眼视线周围的虚拟物体通常会产生最令人愉悦的视觉效果。04. 提出的ARShadowGAN0如图5所示，我们提出的ARShadowGAN是一个端到端的网络，它以没有虚拟物体阴影的合成图像和虚拟物体掩膜作为输入，并生成相应的带有虚拟物体阴影的图像。它由3个组件组成：一个注意力块0块，一个带有细化模块的虚拟阴影生成器，以及一个鉴别器来区分生成的虚拟阴影是否合理。04.1. 注意力块0注意力块生成真实阴影和相应遮挡物的注意力图。注意力图是一个矩阵，其元素范围从0到1，表示对真实世界环境的不同关注程度。注意力块以没有虚拟物体阴影的图像和虚拟物体掩膜的串联作为输入。它有两个相同的解码器分支，一个分支预测真实阴影的注意力图，另一个分支预测相应的遮挡物的注意力图。有4个下采样（DS）层。每个DS层通过一个残差块[13]提取特征，该残差块由3个连续的卷积、批归一化和LeakyReLU操作组成，并通过平均池化操作将特征图减半。然后，由DS层提取的特征被两个解码器分支共享。两个解码器分支具有相同的架构。每个解码器由4个上采样（US）层组成。每个US层通过最近邻插值将特征图加倍，然后通过连续的扩张卷积、批归一化和LeakyReLU操作来提取特征。最后的特征图通过sigmoid函数激活。对称的DS-US层通过跳跃连接进行连接。04.2. 虚拟阴影生成器0虚拟阴影生成器生成合理的虚拟物体阴影。它由一个具有5个DS-US层的U-net和一个细化模块组成。具有5个DS-US层的U-net生成粗糙的残余阴影图像，然后通过细化模块进行微调，该模块具有4个连续的复合函数[18]。最终输出是改进的残余阴影图像和输入图像的相加。在虚拟阴影生成器中，DS层与注意力块中的DS层相同，而US层使用卷积而不是扩张卷积。每个复合函数生成64个特征图。04.3. 判别器0判别器区分虚拟阴影是否合理，从而辅助生成器的训练。我们设计的判别器采用Patch-GAN[20]的形式。判别器包含4个连续的卷积层，使用valid padding、实例归一化和LeakyReLU操作。然后，一个卷积层产生最后的特征图，通过sigmoid函数激活。判别器的最终输出是激活的最后特征图的全局平均池化。在ARShadowGAN中，判别器接受没有虚拟阴影的图像的连接81430图像编码器0vShadow解码器0ResNet块0判别器0真/假0注意力编码器032x32x5120遮挡物解码器016x16x512016x16x5120细化0池化0 ⊕0⊕0�0�0�0�0图5.我们提出的ARShadowGAN的架构。它由一个注意力块、一个带有细化模块的虚拟阴影生成器和一个判别器组成。注意力块有两个分支，分别产生真实世界阴影和遮挡物的注意力图。虚拟阴影生成器利用注意力图产生粗糙的残差阴影图像。残差阴影图像经过细化模块进行微调。最终输出是输入图像和经过微调的残差阴影图像的相加。0虚拟物体阴影、虚拟物体掩码和带有虚拟物体阴影的图像作为输入。04.4. 损失函数0注意力损失。我们使用标准的平方损失来衡量预测的注意力图与真实掩码之间的差异。L attn 的定义如下：0L attn = ∥A robj(x, m) - M robj∥22 + ∥Arshadow(x, m) - M rshadow∥22，(1)0其中 A rshadow(∙) 是真实阴影的输出注意力图，A robj(∙)是真实物体的输出注意力图，基于输入的合成图像x，没有虚拟物体阴影和虚拟物体掩码 m。注意，M robj 和M rshadow都是真实世界阴影及其对应遮挡物的二值地图。对于 Mrobj，1表示像素属于真实物体，否则为0。类似地，Mrshadow中的1表示像素在真实阴影区域，0表示不在。阴影生成损失。L gen用于衡量真实图像与带有虚拟物体阴影的生成图像之间的差异。阴影生成损失由三个加权项组成，即 L 2、L per 和 Ladv，总损失为：0L gen = β1L2 + β2L per + β3L adv，(2)0其中 β1、β2 和 β3 是控制各项影响的超参数。L 2是生成图像与相应真实图像之间的逐像素损失。值得注意的是，我们的ARShadowGAN生成一个粗糙的残差阴影图像来生成一个粗糙的虚拟阴影图像 ¯y = x + G(x, m, A robj, Arshadow)。我们进一步改进残差图像以形成最终的阴影图像0通过细化模块 R(∙)，我们可以将 ˆy = x + R(G(x, m, A robj,A rshadow)) 定义为如下：0L 2 = ∥y - ¯y∥22 + ∥y - ˆy∥22，(3)0其中 y 是相应的真实阴影图像。L per是感知损失[21]，用于衡量生成图像与真实图像之间的语义差异。我们使用在ImageNet数据集[4]上预训练的VGG16模型[40]来提取特征。特征是第4个最大池化层的输出（14×14×512），即使用前10个VGG16层来计算特征图。L per的定义如下：0Lper = MSE(Vy, V�y) + MSE(Vy, V�y)，(4)0其中MSE是均方误差，Vi =VGG(i)是由训练良好的VGG16模型提取的特征图。Ladv描述了生成器和判别器之间的竞争关系，定义如下：0Ladv = log(D(x, m, y)) + log(1 - D(x, m, �y))，(5)0其中D(∙)是图像为“真实”的概率。在对抗训练过程中，判别器试图最大化Ladv，而生成器试图最小化它。04.5. 实现细节0我们的ARShadowGAN是在TensorFlow框架中实现的。在ARShadowGAN中，所有的批归一化和LeakyReLU操作共享相同的超参数。我们将批归一化的衰减设置为0.9，将LeakyReLU的泄漏率设置为0.2。我们的数据集中的所有图像都被调整为256×256的大小，使用三次插值进行训练和测试。81440合成图像和虚拟物体掩码被归一化到[-1,1]，而标记的线索图像被归一化到[0,1]。我们随机将数据集分成三部分：500个用于注意力块训练，2000个用于虚拟阴影生成训练，500个用于测试。我们采用两阶段训练。在第一阶段，我们单独训练注意力块，使用500个训练样本。我们使用ADAM优化器最小化Lattn来优化注意力块。学习率初始化为10^-5，β设置为(0.9,0.99)。注意力块进行5000次迭代，批大小为1。在第二阶段，注意力块被固定，我们使用2000个训练样本来训练虚拟阴影生成器和判别器。我们设置β1 = 10.0，β2 = 1.0，β3 =0.01用于Lgen。我们使用ADAM优化器来优化生成器和判别器。优化器的参数与第一阶段相同。虚拟阴影生成器和判别器进行150,000次迭代，批大小为1。在每次迭代中，我们交替优化生成器和判别器。05. 实验0为了评估我们提出的ARShadowGAN的性能，我们在我们收集的Shadow-AR数据集上进行实验。我们计算测试集上的平均误差进行定量评估。我们使用生成的阴影图像与真实图像计算均方根误差（RMSE）和结构相似性指数（SSIM）来衡量全局图像误差。我们使用生成的阴影掩码与真实阴影掩码计算平衡误差率（BER）和准确率（ACC），这些掩码是通过比率阈值获得的，用于衡量阴影区域和边界误差。一般来说，RMSE和BER越小，SSIM和ACC越大，生成的图像越好。注意，所有用于可视化的图像都被调整为4:3的大小。05.1. 生成注意力的可视化0注意力图用于辅助虚拟阴影生成器。如图6所示，真实世界的阴影及其对应的遮挡物被建议更多的注意力。值得一提的是，虚拟物体本身不是线索，掩码防止虚拟物体像真实世界的阴影和遮挡物一样受到更多的关注。为了验证掩码的作用，我们将掩码替换为全黑图像，表示没有虚拟物体。结果也显示在图6的第2行和第4行中。05.2. 与基准方法的比较0据我们所知，目前还没有现有的方法可以直接为插入的物体生成没有任何3D信息的AR阴影。尽管如此，我们仍选择以下方法作为基准方法进行竞争，因为我们可以在我们的任务上进行扩展和调整：0图6.注意力图示例。从左到右依次为：没有虚拟物体阴影的输入图像，输入掩码，真实世界阴影的注意力图和对应的遮挡物。还展示了没有掩码的对应情况。0Pix2Pix[20]是一个在配对数据上训练的条件生成对抗网络，用于一般的图像到图像的转换。它直接适用于我们的阴影生成任务。我们直接使用Pix2Pix输出阴影图像。Pix2Pix-Res是Pix2Pix的一个变种，其架构与Pix2Pix相同，但输出残余虚拟阴影图像，类似于我们的ARShadowGAN。ShadowGAN[51]在VR图像中为插入的物体合成阴影。ShadowGAN使用与我们的ARShadowGAN完全相同的输入项，并生成阴影图，然后将其与源图像相乘以生成最终图像。我们从我们的数据中计算阴影图来训练ShadowGAN，并使用生成的最终图像评估ShadowGAN。Mask-ShadowGAN[15]同时进行阴影去除和基于掩膜的阴影生成。我们将这个框架调整到我们的任务中。G s 和 G f是Mask-ShadowGAN的两个生成器，我们将 G s调整为执行虚拟阴影生成，而 G f调整为执行基于掩膜的虚拟阴影去除。为了公平比较，我们使用相同的训练数据和训练细节训练所有模型，并在相同的测试数据上进行评估。0模型 RMSE SSIM S（%） A（%） ACC（%）0Pix2Pix 9.514 0.938 41.468 27.358 90.631 Pix2Pix-Res 8.043 0.95929.597 26.476 96.689 ShadowGAN 8.041 0.961 28.347 24.54797.122 Mask-ShadowGAN 7.493 0.959 23.261 21.131 98.4430ARShadowGAN 6.520 0.965 22.278 19.267 98.4530表1.定量比较结果。在表中，S表示虚拟阴影区域的误差率，A表示整个阴影掩膜的误差率。最佳分数以粗体显示。0定量比较结果如表1所示。81450（a）（b）（c）（d）（e）（f）（g）（h）0图7.不同方法的可视化比较。从左到右依次为输入图像（a），输入掩膜（b），Pix2Pix的结果（c），Pix2Pix-Res的结果（d），ShadowGAN的结果（e），Mask-ShadowGAN的结果（f），ARShadowGAN的结果（g）和真实值（h）。0（a）输入图像（b）输入掩膜（c）无注意力（d）无 � ��（e）无细化（f）ARShadowGAN（g）真实值0图8. 网络模块定性消融研究示例。0图7显示了定性比较的示例。如我们所见，Pix2Pix-Res和ShadowGAN的整体性能优于Pix2Pix，这表明阴影图或残余阴影图的目标使网络更关注阴影本身而不是整个图像重建。Mask-ShadowGAN的性能略好于Pix2Pix-Res和ShadowGAN，但仍然会产生伪影。ARShadowGAN在阴影方位和形状方面优于基线模型，减少了伪影的产生，部分原因是注意力机制增强了有益特征并充分利用了它们。0模型 RMSE SSIM S（%） A（%） ACC（%）0w/o Attn 7.175 0.962 23.162 21.079 98.446 w/o Re�ne 7.0500.961 23.087 21.024 98.4500w/o L adv 7.781 0.959 29.093 26.354 97.487 w/o L per8.001 0.963 29.576 26.399 97.152 w/o L 2 9.696 0.92450.748 30.829 88.5480ARShadowGAN 6.520 0.965 22.278 19.267 98.4530表2. 消融研究结果。最佳分数以粗体显示。05.3. 消融研究0为了验证我们的损失函数和网络架构的有效性，我们将我们的ARShadowGAN与其消融版本进行比较：0• w/o Attn：我们删除了注意力模块。0• w/o Re�ne：我们删除了细化模块。0• w/o L adv ：我们删除了鉴别器（ β 3 = 0 ）。0• w/o L per ：我们从方程2中删除 L per （ β 2 = 0 ）。0• w/o L 2 ：我们从方程2中删除 L 2 （ β 1 = 0 ）。0对于没有注意力模块的模型，虚拟阴影生成器的输入被调整为合成图像（没有虚拟物体阴影）和物体掩膜的连接。我们在训练集上训练这些模型。消融研究的定量结果如表2所示，定性消融研究的示例如图8和图9所示。网络模块。如我们所见，我们的完整模型实现了最佳性能。如图8所示，没有鉴别器的模型主要产生奇怪的虚拟物体阴影，因为生成器尚未收敛，这表明对抗训练确实加速了生成器的收敛。我们的完整模型在整体虚拟物体阴影方位上优于没有注意力块的版本，这表明注意力块有助于保留对阴影推断有用的特征。没有细化模块的模型在阴影区域产生伪影，这表明细化模块通过非线性激活函数对细节进行微调虚拟阴影。损失函数。如我们所见，我们的完整损失函数实现了最佳性能。如图9所示，L per 在约束阴影方面起着重要作用。81460（a）输入图像（b）输入掩码（c）无 � 2 （d）无 � �� （e）ARShadowGAN（f）地面真实值0图9. 损失函数的定性消融研究示例。0形状。然而，L per是一个全局语义约束，而不是一个细节，因此像素级的强度和噪声没有很好地解决。L 2保持良好的像素级强度，但产生模糊的虚拟物体阴影，形状不好。L per + L 2 的效果优于 L per 和 L 2 ，这表明 L per和 L 2 互相促进。0图10.鲁棒性测试。从左到右：输入图像、输入掩码、真实世界阴影的注意力图及其对应的遮挡物和输出图像。05.4. 鲁棒性测试0我们在图10中使用Shadow-AR数据集之外的新案例对ARShadowGAN进行鲁棒性测试，以展示其稳健性。所有的图像、模型佛像、花瓶和杯子都是新的，没有地面真实值。插入模型在真实阴影中的案例显示在第3行。多个光源和多个插入模型的案例显示在第4行和第5行。可视化结果表明ARShadowGAN能够生成可信的阴影。06. 限制0ARShadowGAN存在以下限制：当存在大面积的黑暗区域或线索很少时，ARShadowGAN会失败。示例如图11所示。0图11.大面积黑暗区域和线索很少的失败案例。从左到右：没有虚拟阴影的输入图像、输入掩码、真实世界阴影的注意力图及其对应的遮挡物和输出图像。0（2）ARShadowGAN只产生与真实世界阴影不相交且不显示多个光源特征的平面阴影。（3）ARShadowGAN不改变插入对象的着色。限制（1）是因为ARShadowGAN依赖于线索来推断虚拟物体阴影，而大面积的黑暗区域严重干扰线索。限制（2）和（3）存在是因为训练数据不包含这样的示例。扩展Shadow-AR数据集是解决限制（2）和（3）的一种可能途径。07. 结论和未来工作0在这项工作中，我们构建了一个数据集，并提出了AR-ShadowGAN，以直接生成与真实世界的阴影效果一致的可信虚拟物体阴影，而无需对光照和几何进行明确估计。未来的工作包括解决插入对象的自阴影问题，并扩展当前的Shadow-AR数据集和ARShadowGAN以适用于更复杂的情况。0致谢0这项工作部分得到了湖北省重点技术创新项目（2018AAA062），武汉市科技计划项目（编号2017010201010109），中国国家重点研发计划（2017YFB1002600），国家自然科学基金委员会（编号61672390，61972298）的支持。通讯作者是肖春霞。81470参考文献0[1] Ibrahim Arief，Simon McCallum和Jon YngveHardeberg。用于移动设备上增强现实的实时光照方向估计。在《彩色和成像会议》中，卷2012，页111-116。图像科学和技术学会，2012年。[2] Martin Arjovsky，Soumith Chintala和L´eonBottou。Wassersteingan。arXiv预印本arXiv:1701.07875，2017年。[3] Angel XChang，Thomas Funkhouser，Leonidas Guibas，PatHanrahan，Qixing Huang，Zimo Li，Silvio Savarese，ManolisSavva，Shuran Song，HaoSu等。Shapenet：一个信息丰富的3D模型库。arXiv预印本arXiv:1512.03012，2015年。[4] Jia Deng，Wei Dong，RichardSocher，Li-Jia Li，Kai Li和LiFei-Fei。Imagenet：一个大规模的分层图像数据库。在《IEEE计算机视觉和模式识别（CVPR）会议论文集》中，页248-255。IEEE，2009年。[5] Bin Ding，Chengjiang Long，LingZhang和ChunxiaXiao。Argan：用于阴影检测和去除的注意力循环生成对抗网络。在《IEEE国际计算机视觉会议（ICCV）论文集》中，2019年10月。[6] Marc-Andre Gardner，Yannick Hold-Geoffroy，KalyanSunkavalli，Christian Gagne和Jean-FrancoisLalonde。深度参数室内照明估计。在《IEEE国际计算机视觉会议（ICCV）论文集》中，2019年10月。[7] Marc-Andr´eGardner，Kalyan Sunkavalli，Ersin Yumer，Xi- aohuiShen，Emiliano Gambaretto，ChristianGagn´e和Jean-Franc¸oisLalonde。学习从单个图像预测室内照明。《ACM图形学交易（SIGGRAPH Asia）》，9（4），2017年。[8] MathieuGaron，Kalyan Sunkavalli，Sunil Hadap，NathanCarr和Jean-FrancoisLalonde。快速空间变化的室内照明估计。在《IEEE计算机视觉和模式识别（CVPR）会议论文集》中，2019年6月。[9] GolnazGhiasi，Tsung-Yi Lin和Quoc VLe。Nas-fpn：学习可扩展的特征金字塔架构用于目标检测。在《IEEE计算机视觉和模式识别（CVPR）会议论文集》中，页7036-7045，2019年。[10] Ian Goodfellow，JeanPouget-Abadie，Mehdi Mirza，Bing Xu，DavidWarde-Farley，Sherjil Ozair，Aaron Courville和YoshuaBengio。生成对抗网络。在《神经信息处理系统进展》中，页2672-2680，2014年。[11] Maciej Gryka，Michael Terry和Gabriel JBrostow。学习去除软阴影。《ACM图形学交易（TOG）》，34（5）：153，2015年。[12] Ruiqi Guo，Qieyun Dai和DerekHoiem。配对区域用于阴影检测和去除。《IEEE模式分析与机器智能（T-PAMI）交易》，35（12）：2956-2967，2013年。[13]Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在《进展的神经信息处理系统（NeurIPS）》中，页2672-2680，2014年。0在《IEEE计算机视觉与模式识别会议(CVPR)论文集》中，页码：770-778，2016年。[14] Yannick Hold-Geoffroy、AkshayaAthawale和Jean-Francois Lalonde.用于单幅图像室外光照估计的深度天空建模.在《IEEE计算机视觉与模式识别会议(CVPR)论文集》中，2019年6月。[15] Xiaowei Hu、Yitong Jiang、Chi-WingFu和Pheng-Ann Heng. Mask-ShadowGAN:学习从非配对数据中去除阴影.在《IEEE国际计算机视觉会议(ICCV)论文集》中，2019年。[16]华刚、龙成江、杨明和高岩.用于识别的核机器集成的协作主动学习.在《IEEE国际计算机视觉会议(ICCV)论文集》中，页码：1209-1216，2013年。[17] 华刚、龙成江、杨明和高岩.从众包中协作的主动视觉识别: 一种分布式集成方法.《IEEE模式分析与机器智能杂志(T-PAMI)》,40(3):582-594，2018年。[18] Gao Huang、ZhuangLiu、Laurens Van Der Maaten和Kilian Q Weinberger.密集连接的卷积网络.在《IEEE计算机视觉与模式识别会议(CVPR)论文集》中，页码：4700-4708，2017年。[19] Satoshi Iizuka、EdgarSimo-Serra和Hiroshi Ishikawa. 全局和局部一致的图像补全.《ACM图形学交易(TOG)》, 36(4):107，2017年。[20] PhillipIsola、Jun-Yan Zhu、Tinghui Zhou和Alexei A Efros.条件对抗网络的图像到图像转换.在《IEEE计算机视觉与模式识别会议(CVPR)论文集》中，页码：1125-1134，2017年。[21] Justin Johnson、Alexandre Alahi和LiFei-Fei. 用于实时风格转换和超分辨率的感知损失.在《欧洲计算机视觉会议(ECCV)论文集》中，页码：694-711，2016年。[22] Kevin Karsch、Varsha Hedau、DavidForsyth和Derek Hoiem. 将合成对象渲染到传统照片中.《ACM图形学交易(TOG)》, 30(6):1-12，2011年。[23] KevinKarsch、Kalyan Sunkavalli、Sunil Hadap、NathanCarr、Hailin Jin、Rafael Fonte、Michael Sittig和David Forsyth.用于3D对象合成的自动场景推断. 《ACM图形学交易(TOG)》,33(3):32，2014年。[24] Vincent Lepetit、FrancescMoreno-Noguer和Pascal Fua. Epnp:PnP问题的一种O(n)精确解决方案. 《国际计算机视觉杂志(IJCV)》,81(2):155，2009年。[25] Bin Liao、Yao Zhu、Chao Liang、FeiLuo和Chunxia Xiao.使用场景结构估计的单幅图片中的照明动画和编辑.《计算机与图形学》, 82:53-64，2019年。[26] 龙成江、RoddyCollins、Eran Swears和Anthony Hoogs.基于完全连接的CRF中的深度神经网络用于图像标注和社交网络元数据.在《IEEE应用计算机视觉冬季会议(WACV)论文集》中，页码：1607-1615，2019年。81480[27] 龙成江和华刚.多类多注释者主动学习与鲁棒高斯过程在视觉识别中的应用.在《IEEE国际计算机视觉会议(ICCV)论文集》中，页码：2839-2847，2015年。[28] 龙成江和华刚.用于跨领域视觉识别的相关高斯过程.在《IEEE计算机视觉与模式识别会议(CVPR)论文集》中，页码：118-126，2017年。[29] 龙成江、华刚和Ashish Kapoor.众包中基于专家估计的主动视觉识别.在《IEEE国际计算机视觉会议(ICCV)论文集》中，页码：3000-3007，2013年。[30] 龙成江、华刚和Ashish Kapoor.一种联合高斯过程模型用于众包中基于专家估计的主动视觉识别.《国际计算机视觉杂志(IJCV)》, 116(2):136-160，2016

下载后可阅读完整内容，剩余1页未读，立即下载