没有合适的资源?快使用搜索试试~ 我知道了~
从单目摄像机渲染肖像及其他徐翔宇1、 2孙德清3刘思飞3任文琪4张玉金1杨明轩5、6孙健71清华大学2商汤科技3英伟达4腾讯AI Lab5 UC Merced6谷歌7Face++抽象。浅景深(DoF)是呈现艺术照片的照相术通常,它需要单镜头反光相机和一定的摄影技巧来产生这样的效果。最近,手机上的双镜头被用于估计场景深度和模拟人像拍摄的自由度效果然而,这种技术不能应用于已经拍摄的照片,并且对于主体与相机有一定距离的全身场景效果不佳在这项工作中,我们介绍了一个自动系统,实现肖像自由度渲染的单目相机。具体来说,我们首先利用卷积神经网络来估计相对深度和肖像分割图从一个单一的输入图像。由于来自单个输入的这些初始估计通常是粗略的并且缺乏精细细节,因此我们进一步学习像素亲和力以细化粗略估计图。与细化的估计,我们进行深度和分割感知模糊渲染的输入图像与条件随机场和图像抠图。此外,我们还训练了一个空间变量递归神经网络来学习和加速这个渲染过程。我们表明,该算法可以有效地产生逼真的自由度效果,使用一个单一的输入肖像。实验结果还表明,我们的深度和分割估计模块对国家的最先进的方法进行了有利的定量和定性。1介绍浅景深(DoF)拍摄可以增强照片并呈现艺术图像,其中包含距相机一定距离的主要对象的区域对焦良好,而其他像素则模糊[4]。通常情况下,需要一台大光圈的单反相机和一定的摄影技巧来渲染人像。肖像模式,允许用户拍摄自由度照片,是最新智能手机e.例如,在一个实施例中,iPhone 7+和Google Pixel 2。与单反相机时代不同,手机相机有一个小的,固定大小的光圈,它产生的图片与一切或多或少的焦点(图1(a))。因此,生成DoF效果需要深度信息,该深度信息已经通过专门的2X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙(a) 输入(b)分段(c)深度(d)我们的通用报告格式(e)我们的RNNFig. 1.所提出的方法使用从单目相机捕获的单个RGB图像(a)生成用于全身肖像的逼真DoF效果。(b)和(c)是(a)的分割和深度估计(d)和(e)分别是由基于CRF的渲染系统和学习的RNN滤波器生成的DoF结果高端手机的硬件。例如,iPhone 7+依靠双镜头来估计深度,GooglePixel 2使用相位检测自动对焦(PDAF),也可以看作是左右两侧的两个镜头。然而,使用专用硬件的现有系统具有若干限制。首先,它们对于与镜头相距相对较大距离由于两个透镜之间的基线很小,因此估计大的深度场是具有挑战性的其次,除了高端手机之外,实施这些硬件解决方案是不切实际的更重要的是,这些系统无法处理已经拍摄的数十亿张照片。在本文中,我们介绍了一个自动系统,实现自由度渲染的单目相机。具体来说,我们使用深度神经网络来估计深度并从单个图像中分割肖像虽然基于深度学习的方法已经在单个图像深度预测和肖像分割方面取得了显著进展,但是现有技术方法[23,25,20,10,9,7,11]的结果对于DoF渲染仍然太粗糙。为了获得更精确的深度和分割,我们使用空间传播网络(SPN)[22]改进了初始估计。随着细化的深度和分割,我们的系统应用深度和分割意识模糊的背景与条件随机场(CRF)和图像抠图。实验结果表明,我们的系统可以实现逼真的自由度效果的各种半身和全身肖像图像。为了进一步加速这个渲染过程,我们在深度和分割的指导下训练了一个空间变量递归神经网络(RNN)[21]过滤器,以学习生成DoF效果。由于它是非常困难的捕捉图像对,没有自由度的影响,为同一场景,我们使用的CRF为基础的系统生成的结果作为我们的训练样本。我们表明,该网络可以有效地和高效地近似基于CRF的系统,并产生高质量的自由度的结果。本工作的主要贡献总结如下。首先,我们提出了一个自动系统,实现了真实感的自由度渲染单从单目摄像机渲染肖像及其他3肖像图像。虽然该系统的一些组件在本领域中是已知的,但它需要细致的算法设计和努力来实现最先进的结果。其次,我们训练了一个深度和分割引导的RNN模型来近似和加速渲染过程,它优于以前基于深度学习的过滤方法。此外,我们实现了国家的最先进的性能上的肖像分割使用SPN。我们还表明,稀疏的深度标签可以用于训练SPN,深度估计可以通过使用额外的人像分割数据得到改善。2相关工作纵向分割。深度学习在许多应用中取得了有希望的结果[20,22,32,33,19]。对于语义分割,最近的许多工作都是基于CNN的。Long等人[23]引入全卷积神经网络(FCNN),它卷积分类网络,如VGG[26],以直接输出分割图。随后开发了许多分割方法。特别地,Shenet al. [25]通过使用附加的位置和形状通道,使FCNN适应自拍肖像分割。Liu等[20]通过添加循环模块扩展FCNN,并将其用于前期分割。然而,基于FCNN的方法并不明确地对成对关系进行建模(即,基于FCNN的方法)。像素的分割图(即亲和度)缺乏细节和细微结构。为了解决这个问题,Chenet al.[5]和Zhenget al.[35]应用密集CRF来对亲和力进行建模并细化由FCNN预测的分割图。Liu等[22]提出具有2D传播模块的空间传播网络,以端到端的方式学习像素亲和力。由于精细结构和准确的分割边界对于渲染逼真的DoF图像至关重要,因此我们将SPN应用于分割肖像,并在肖像分割数据集上实现了最先进的结果单幅图像的深度估计。基于深度学习的模型已被用于以监督和非监督方式从单个图像学习深度。对于监督式深度学习,Eigenet al.[10]提出了一种CNN架构,将粗尺度深度预测与细尺度预测集成在一起。此外,Eigenet al.[9]使用预先训练的分类网络来提高深度准确性,例如AlexNet [16]和VGG [26]模型。最近,Lainaet al.[17]使用基于ResNet的编码器-解码器架构来生成密集的深度图。这些监督学习方法需要密集标记的RGB-D图像,这些图像仅限于室内场景(例如室内场景)。例如,在一个实施例中,NYU数据集[24])。另一方面,几种方法[11,13,30]使用图像对齐损失以无监督的方式学习深度图预测,该图像对齐损失强制训练立体对的然而,这些方法仍然限于特定场景(例如,KITTI [12]和Cityscape [8]数据集中的场景),并且无法处理日常生活中通过手机拍摄的肖像。Chen等人[7]提出了野外深度(DIW)数据集,该数据集由具有稀疏采样点对之间的相对深度标签的日常图像组成。我们表明,SPN可以通过DIW数据集4X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙图二、所提出的算法概述我们首先使用现成的模型进行单幅图像深度估计和人像分割。然后,我们进一步训练SPN来学习图像的亲和力,以改进深度和分割。最后,我们通过利用细化的深度和分割图来生成DoF结果,并学习空间变化的RNN来加速渲染过程。用于精确的深度估计。此外,额外的人像分割数据集有助于改善人像的深度估计,因为我们可以强制要求人体上不同位置的深度应该一致。自由度渲染。自由度效应是计算机图形学中真实感图像合成的一个重要特征。已经提出了许多DoF渲染方法用于图像合成,例如渲染光场[34,27]和跟踪光线[28,18]。所有这些图像合成方法都假设场景的3D信息是已知的。相比之下,为从单眼相机捕获的RGB图像生成DoF效果更具挑战性。一些方法[14,36]依赖于3D相机来捕获深度图以及RGB图像,并利用所获得的深度生成DoF效果Barron等人[2]利用立体对来恢复深度以渲染散焦图像。Bae等人[1]通过检测和放大单个图像中的深度模糊,在不使用深度信息的情况下实现期望的DoF效果然而,他们的方法首先需要输入图像具有轻微的深度模糊,这在真实场景中并不总是可访问的,例如手机的小光圈。Shen等人[25]还通过肖像分割为单个图像生成DoF效果但他们的方法是为自拍设计的,不能用于全身图像。此外,他们使用的均匀模糊核可以带来边界效果,如图3(c)所示与上述方法不同,我们的方法不需要特殊的输入或拍摄设备,如3D相机。相反,我们使用深度神经网络来获得精确的深度和细节分割。然后,我们采用CRF模型分割图像层使用估计的深度和生成的自由度效果的全身肖像,利用深度和分割信息。此外,我们提出了分割和深度引导的RNN来加速和近似渲染过程。从单目摄像机渲染肖像及其他53该算法由于对于同一场景捕获具有和不具有DoF效果的图像对是极其困难的,因此我们不采用优雅的端到端方法进行DoF渲染。相反,我们建议将基于学习的和传统的视觉算法集成到一个不需要这样的训练集的新系统中。与Google Pixel2类似,我们的系统模拟真实的成像过程,并对输入图像应用深度相关模糊。虽然Google Pixel2依赖于硬件,缺乏技术细节,但我们基于软件的系统可以与任何类型的手机配合使用,也可以处理现有的照片。我们的系统概述如图2所示。具体来说,我们首先使用现成的模型进行单幅图像深度估计[7]和人像分割[20]来引导我们的系统由于初始估计图是粗略的,我们进一步训练SPN [22]来学习图像亲和度,以细化深度估计和分割。通过细化的深度和分割图,我们使用CRF模型将背景分成不同深度的层,然后执行分割和深度感知模糊渲染以生成DoF结果。同时,学习空间变化的RNN滤波器,将分割和深度作为指导图,并将上述DoF结果作为地面实况,以加速渲染过程。3.1肖像分割空间传播网络SPN [22]模型由学习输入图像I的亲和实体的深度CNN和细化粗掩模M的空间线性传播模块组成。在亲和度的指导下对粗模板进行细化。例如,学习任何像素对的成对关系所有模块都是可区分的,并且可以使用反向传播进行联合训练在这项工作中,我们采用具有级联跳过连接的编码器-解码器架构作为指导网络,其中我们使用从conv 1到pool 5的VGG-16 [26]预训练网络作为下采样部分。上采样部分具有完全对称的架构,并且是从头开始学习的。传播模块利用制导网络生成的权值,以粗模板为输入,将粗模板信息向四个方向传播,即:例如,从左到右,从上到下,另外两个相反方向损失函数对于肖像分割,通过前景分割模型[20]生成图像I的SPN的粗掩模。我们将SPN的输出表示为v,最终的分割图由sigmoid函数生成:m= 1/(1+exp(−v))。我们使用逐像素交叉熵损失进行训练,其定义为:L1(m)=−Σi∈Flogmi− Σj∈Blog(1−mj),(1)其中集合F和B分别包含地面实况的前景和背景掩模中的像素6X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙3.2深度估计由[7]预测的初始深度也由SPN细化,SPN具有与用于分割的网络架构相同的网络架构。我们使用包含来自不同场景的图像的Wild数据集[7]中的深度。由于该数据集的图像仅稀疏地注释了随机点对之间的相对深度,因此我们使用排名损失[7]进行训练。考虑训练图像I及其注释{i,j,γ},其中i和j是两个注释点,γ∈ {+1,−1}是i和j之间的真实深度关系:如果i比j远,则γ= 1,反之亦然。令z为预测的深度图,并且zi、zj为点i和j处的深度。排名损失定义为:.L2(z)=log(1 +exp(−zi+zj)),γ=+1,log(1 + exp(zi−zj)),γ=−1,(二)这促使zi和zj之间的预测深度差与地面实况顺序关系一致。除了具有深度注释的数据集之外,我们还利用了肖像分割数据集中的分割标签,以获得更好的深度估计肖像图像。由于肖像不同位置的像素应该具有相似的深度值,我们使用损失函数:ΣL3(z)= max{ 0,(zi−zj)2−δ},(3)i,j∈F其中i、j∈ F是人体上的像素。由于人体不同部位的深度值并不完全相同,我们采用了软约束其允许小的深度差并且仅惩罚大于裕度δ的深度差。3.3自由度渲染大多数智能手机都有两种拍摄模式,分别使用前置和后置摄像头。对于由前置摄像头捕获的自拍图像,背景总是比人更远。要生成DoF效果,我们可以简单地使用磁盘模糊内核模糊背景,并保持前景清晰。模糊过程被公式化为:Bi=miIi+(1−mi)ΣwijIj,(4)J其中I、B分别为清晰图像和模糊结果;并且m表示肖像分割掩模。盘模糊核w被定义为:.wij=1/C,pi−pjr,0,否则,(五)从单目摄像机渲染肖像及其他7(a) 输入(b)掩码(c)均匀(d)引导图3.第三章。分割引导模糊核的有效性均匀模糊导致边界伪影(c),而我们的方法生成具有更清晰边界的DoF效果(d)。(a)输入(b)无深度(c)深度层(d)有深度见图4。使用和不使用深度信息的全身DoF结果的比较。我们通过分割深度层(c)来生成更真实的结果(d)。其中pi是像素i的坐标,并且r是盘模糊核的半径。模糊核由常数C归一化。然而,在模糊处理中,均匀的核可能用前景像素污染背景像素,并且导致如图3(c)所示的边界效应。为了消除这种情况,我们采用新的块,其中该块由分割掩码m引导。引导模糊核被定义为:Σwij(m)=wij(1−mj)/Jwij(1−mj),(6)其中在模糊处理期间仅使用背景像素。我们的方法有效地消除了边界效应,如图3(d)所示。全身肖像。对于由后置摄像头拍摄的全身肖像,在不考虑深度信息的情况下天真地模糊背景无法生成逼真的结果。如图1(b)所示,背景地的某些部分与人体深度相似,也应该保持清晰。因此,我们利用深度估计来生成更好的模糊肖像。如图4(c)所示,即使利用SPN细化,来自单个图像的深度估计仍然是不完美的和有噪声的。因此,我们将图像分为8X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙LiIJ使用CRF模型的不同深度层在邻近地区。我们的深度标记问题的能量函数被公式化为:E(l|z)= Σu(li|z(i)+ λ我Σ(i,j)∈N,i je(li,lj|zi,zj),(7)其中N是像素上的4-最近邻域系统。此外,λ是平衡一元项u(l i)的超参数|zi)和成对项e(li,lj|zi,zj)。 我们将提取函数u(li|zi)从用于测量分配层标签li∈{1,2,…K}到像素i。具体来说,我们首先使用K均值算法为深度值找到K个聚类。我们假设每个聚类中的深度值遵循高斯分布,并且|z,i)可以被定义为属于每个聚类li的像素i的负对数似然:u(li|zi)= zi− Cl/σ2,(8)ili其中C11和σ2是聚类的聚类中心和方差。该对是集合(li,li,j|zi,zj)m等于等于sii,lj的大小的成本并施加空间平滑度:e(li,lj|zi,zj)=(li/=lj)exp(−fS(z)i→j),(9)其中R(·)是第i个像素或第j个像素,并且S是一个最佳像素或其中检测到像素i和j之间的深度变化。 我们使用图割算法[15]来最小化能量函数E(l|z)。在将图像I分割成K个深度层之后,我们用均匀的k个深度层来模糊每个层。我们认为,在这个时刻,人体应该保持清晰,不要考虑前景模糊。因此,我们将更远的层设置为更大的内核大小,而将更近的层设置为更小的内核大小。最终结果可以通过以下方式呈现:Bi=miIi+(1−mi)ΣKl=1Σgit(lt=l)不Σwl(m)Ij,(10)J如果数据段是一个在像素处使用的G空间,同时具有相应的数据量和并发性不同深度的层tgit(lt=l)测量像素i所属的程度到LayerL.图4(d)示出了渲染的DoF结果。3.4RNN滤波学习虽然在生成高质量DoF图像方面是有效的,但是基于CRF的方法由于CRF优化、图像抠图和引导模糊而在计算上是昂贵的。为了降低计算成本,我们训练了一个深度神经网络来近似渲染过程。由于DoF模糊是空间变化的,因此我们采用RNN滤波器[21]而不是使用具有从单目摄像机渲染肖像及其他9图五、我们的空间变异RNN模型的插图该网络包含两组用于图像过滤的RNN和一个深度CNN,用于通过我们的精细深度和分割估计来学习指导图。为了简化网络训练,我们添加了一个从输入到输出的跳过连接,并学习残差图而不是RGB图像。在不同的空间位置处具有相同的卷积核。然而,原始方法[21]不能直接应用于我们的任务,因为它从RGB图像中学习指导图,并且没有明确考虑分割和深度信息。为了解决这个问题,我们建议使用精细分割和深度估计来生成用于近似DoF效应的指导为了简化网络训练,我们添加了一个从清晰图像输入到RNN输出的跳过连接我们使用编码器-解码器CNN来生成以下RNN的指导图,该RNN在级联方案中组合了两组递归滤波器我们的RNN模型的流水线如图5所示。4实验结果我们在本节中展示了主要结果,并在补充材料中提供了更多的分析和评价。4.1实现细节网络培训。为了训练前置摄像头的分割网络,我们使用了[25]中的自拍图像数据集,该数据集由1428张训练图像和283张测试图像组成对于后置摄像头,我们使用百度人类分割数据集,该数据集有5387个密集标记的图像[29],其中500个用于测试,其余用于训练。在训练过程中,我们随机改变纵横比并翻转图像以进行数据增强。为了训练深度网络,我们使用Depth in the Wild [7]数据集,该数据集由421K训练图像和74K测试图像组成对于RNN训练,我们在百度人类数据集上进行基于CRF的DoF渲染方法,以生成5K训练图像对,并收集另外100张肖像图像进行评估。对于所有网络,我们使用标准SGD进行训练,动量为0.9,学习率为0.0001。10X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙(a) 输入(b)FCNN [23](c)PFCN+[25](d)我们的(e)GT图六、不同分割方法在自拍图像上的视觉比较(a)输入(b)FCNN [23](c)DHSnet [20](d)我们的(e)GT图7.第一次会议。不同分割方法在全身图像上的视觉比较DoF渲染。代替直接使用来自SPN的分割图,我们使用KNN抠图方法[6]来合成清晰的前景和模糊的背景图像。我们的估计分割结果提供了一个很好的三分图初始化图像抠图。我们通过将分割边界的10像素半径内的像素设置为“未知”来这种抠图方案表现良好,因为我们的分割提供了准确的初始分割边界。对于CRF模型,我们根据经验将图像分成K= 6层,并将(7)中的超参数设置为λ= 10。4.2纵向分割我们在自拍图像数据集[25]和百度人体分割数据集[29]上定量评估了我们的分割结果分段性能通过联合上的交互(IoU)度量来测量。如表1所示,我们的算法在自拍上达到了最先进的水平对于全身图像[29],所提出的方法实现了93.22的IoU,优于[20]的微调模型此外,我们在图6和图7中示出了两个用于定性评价的示例我们的方法的分割图具有精细的细节和小的结构,从而为生成良好的DoF效果提供准确的前景信息。从单目摄像机渲染肖像及其他11(a) 输入(b)Chen [7](c)Ours(d)Ours+seg见图8。我们的深度估计的可视化示例。(c)表示用(2)训练的SPN。(d)在附加的分割数据上用(3)进一步训练。4.3深度估计与[7]类似,我们使用预测的顺序关系和地面真实顺序关系之间的加权人类不一致率(WHDR)来评估我们在DIW测试集上的虽然我们在DIW数据集上的结果14.35仅略好于[7]的14.39,但它表明我们的SPN可以正确估计由于WHDR仅测量稀疏点对(每幅图像一对)的顺序关系,因此不能很好地评估深度估计性能我们在图8中呈现了用于定性比较的视觉使用SPN进行细化可以去除背景中的噪声,并生成更清晰的边界(例如:例如,在一个实施例中,图8(c)中左侧的背景如图8(d)所示,使用额外的分割数据和我们的新深度损失(3)进一步提高了人体上的深度一致性,并导致更好的人像深度估计4.4基于CRF的DoF渲染用户研究。由于DoF图像没有基础事实来执行定量评估,因此我们对生成的DoF结果进行以下用户研究。这项研究使用了30张全身肖像图像,其中:(a)由单镜头反光(SLR)相机捕获10个图像,(b)由我们的算法生成10个图像,以及(c)通过在不考虑深度的情况下天真地模糊背景来生成10个图像。这些图像以随机顺序呈现给22个受试者,他们被要求决定所呈现的图像是由计算机生成的还是由真实的SLR捕获的。79.1%的用户认为(b)是真实捕获的,而表1.自拍图像数据集上不同分割方法的定量比较[25]。GC表示图切割。FCNN已经在自拍训练集上进行了微调,以进行公平的比较。方法GC [3] FCNN [23] PFCN+ [25]我们的平均IoU(%)80.02 94.97 95.52 96.4012X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙(a) 输入(b)[25]的掩码(c)我们的mask(d)[25]第二十五话(e)我们的DoF图9.第九条。自拍图像上的DoF结果我们的方法生成更好的分割掩模和DoF结果,而没有边界效应(注意(d)中的发光边界)。(a) 输入(b)我们的掩码(c)深度层(d)我们的RNN(e)我们的自由度见图10。我们在全身图像上的DoF结果的可视化示例。我们的方法生成现实的自由度结果。(a)项占81.8%,(c)项占13.2%。用户研究表明,该方法可以有效地产生逼真的自由度的结果,而天真的模糊不考虑深度不能产生令人信服的结果。我们在图9-10中展示了几个自拍和全身图像的视觉示例。消融研究。如3.3节所述,我们的DoF渲染系统由不同的组件组成,即:例如,SPN、引导模糊核、深度感知滤波和CRF模型。图11示出了在渲染DoF图像中我们的系统的每个组件的消融研究首先,在没有深度信息的情况下,将均匀模糊应用于图11(b)中的背景,并且诸如人脚附近的地面的较近区域被过度模糊。第二,在不使用SPN的情况下,粗分割图导致不正确地模糊前景从单目摄像机渲染肖像及其他13(a) 输入(b)w/o深度(c)w/o SPN(d)w/o CRF(e)w/o guided kernel(f)最终结果见图11。在我们基于CRF的方法中对每个组件进行消融研究。区域,例如图11(c)中的帽子的顶部。第三,使用朴素阈值化方案来分割深度层而不是CRF模型在清晰区域和模糊区域之间生成不切实际的边界,如图11(d)的中间部分所示此外,去除引导模糊核导致图11(e)中的裤子周围的明显的边界伪影。相比之下,我们的系统有效地集成了不同的组件,并生成高质量的DoF结果(图11(e))。4.5RNN Filter我们针对最先进的深度滤波方法[31]和[21]评估了所提出的RNN滤波器。我们还训练了一个CNN网络,其中包含精细的深度和分割图作为额外的输入,以与我们的空间变量进行比较。表2.不同深度网络对百度人体测试集学习DoF效果的定量比较[29]。方法Xu等. [31]Liu等[21]我们的CNN我们的RNN峰值信噪比(dB)31.5533.5537.3540.74SSIM0.92350.94320.97230.986814X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙(a) 输入(b)Xu [31](c)Liu [21](d)我们的CNN(e)我们的RNN(f)我们的CRF见图12。RNN过滤结果的可视化示例。我们的方法生成逼真的自由度结果,而其他错误地模糊前景或包含显着的文物。RNN设计该CNN具有与第3.4节中的引导网络为了公平比较,我们对所有这些方法使用相同的设置如表2所示,所提出的滤波算法在PSNR和SSIM方面优于用于近似DoF效应的现有技术方法。对于定性评估,我们在图12中显示了一个可视化示例。基于CNN的方法(图12(b)和(d))错误地模糊了前景,例如纹理这是因为CNN在不同的空间位置使用统一的内核,并且不能很好地处理空间变化的DoF情况。Liuet al.由于缺乏有效的引导,在背景上包含显著的伪像。相比之下,所提出的RNN模型明确地使用深度和分割作为指导来学习空间变化的图像滤波器。因此,我们可以有效地近似基于CRF的渲染系统,并生成逼真的DoF结果(图12(e))。运行时间。我们实现了建议的算法在台式机上的Intel i7 CPU,8 GBRAM和Nvidia GTX 1060 GPU。基于CRF的方法处理500× 300的图像大约需要8秒。相比之下,学习的RNN过滤器只需要1.12秒,这大大加快了渲染过程,使其在实际应用中更加实用。5结论在这项工作中,我们提出了一个基于深度学习和CRF的系统,可以自动渲染单个肖像图像的真实DoF结果训练空间变化的RNN滤波器以在深度和分割的指导下加速渲染过程此外,我们实现了国家的最先进的perceptor上的肖像分割使用SPN。此外,我们证明了稀疏深度标签可以用于SPN训练。我们还表明,深度估计可以提高通过执行深度一致性的人体与额外的人像分割数据。鸣谢本工作得到中华人民共和国国家自然科学基金的部分资助。中国(不包括611711184,61673234,U1636124),the NSF CAREER Grant(No. 1149783),以及Adobe和Nvidia的礼物。从单目摄像机渲染肖像及其他15引用1. B ae , S. , Durand , F. : Def ocusmagnification.来 吧 。 Graph. F〇rum26,5712. B arron,J. T., Adams,A., Shih,Y., 他和他是C. :用于合成散焦的Fastbi later al a t e r a l a t e rapacesterer。参见:CVPR(2015)3. Boykov,Y.,Jolly,M.P.:n维图像中目标最优边界区域分割的交互式图割。In:ICCV(2001)4. Campbell,F.:人眼的景深。光学学报:International JournalofOptics4,157-164(1957)5. Chen,L.,中国地质大学,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:使用深度卷积网络和全连接crf的语义图像分割。载于:ICLR(2015)6. 陈昆,Li,D.,Tang,C.:KNN席子。PAMI(2013)7. 陈伟,傅志杨,D.,Deng,J.:在野外的单一图像深度感知在:NIPS(2016)8. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集见:CVPR(2016)9. Eigen,D. Fergus,R.:预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。In:ICCV(2015)10. Eigen,D. Puhrsch,C. Fergus,R.:使用多尺度深度网络从单个图像进行深度图预测。在:NIPS(2014)11. 加格河Bg V.K. Carneiro,G. Reid,ID:单视图深度估计的无监督cnn:几何拯救。In:ECCV(2016)12. Geiger,A.,Lenz,P.乌尔塔松河:我们准备好自动驾驶了吗KittiVision基准套件。在:CVPR(2012)13. 戈达尔角Aodha,O.M.,Brostow,G.J.:具有左右一致性的无监督单目深度在:CVPR(2017)14. Huhle,B.,Schairer,T.,Jenke,P. Straer,W.:具有范围数据的图像的真实深度模糊。在:Dyn3D研讨会(2009)15. Kolmogorov,V. Zabih,R.:什么样的能量函数可以通过图割最小化?In:ECCV(2002)16. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类在:NIPS(2012)17. 莱娜岛鲁普雷希特角Belagiannis,V.,Tombari,F.,Navab,N.:使用全卷积残差网络进行更深的深度预测。电影3DV(2016)18. Lee,S.,Eisemann,E.,Seidel,H.:实时镜头模糊效果和对焦控制。ACMTrans. Graph. (SIGGRAPH)29,119. 刘,C.,徐,X.,Zhang,Y.J.:行动建议的时间注意力网络。在:ICIP(2018)20. Liu,N.,(1996年),美国,Han,J.:Dhsnet:用于显着对象检测的深度层次显着网络。见:CVPR(2016)21. Liu,S.,Pan,J.,Yang,M.:通过混合神经网络学习低级视觉的递归滤波器In:ECCV(2016)22. Liu,S.和De Mello,S. Gu,J.和Zhong,G.和Yang,M.- H.和Kautz,J.:通过空间传播网络学习亲和力。In:NIPS(2017)23. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。参见:CVPR(2015)16X. Xu,L.孙习Liu,W.任,Y.Zhang,M.杨,J.孙24. Nathan Silberman Derek Hoiem P.K.Fergus,R.:rgbd图像的室内分割与In:ECCV(2012)25. 沈,X.,Hertzmann,A.,贾,J.,巴黎,S.,Price,B.L.,Shechtman,E.,Sachs,I.:用于图像风格化的自动人像分割。Comput. Graph. Forum(E urogra phics)35,9326. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。载于:ICLR(2015)27. 索勒角Subr,K. Durand,F.,Holzschuch,N.,Sillion,F.X.:傅立叶景深。ACM事务处理图表28、18(2009)28. 吴,J.,Zheng,C.,中国地质大学,Hu,X.,王玉,Zhang,L.:基于非光学图像的散景效果的真实感渲染。TheVisualC〇mputer26,55529. 吴志,黄,Y.,Yu,Y.,Wang,L.,美国,Tan,T.:通过卷积网络学习的早期分层上下文In:ICPR(2014)30. 谢,J.,Girshick,R.B.,Farhadi,A.:Deep3d:使用深度卷积神经网络的全自动2D到3D视频转换。In:ECCV(2016)31. 徐,L.,Ren,J.,阎青,越-地廖河,巴西-地Jia,J.:深度边缘感知过滤器。In:ICML(2015)32. 徐,X.,Pan,J.,Zhang Y.J.,Yang,M.H.:经由深度学习的运动模糊核估计。TIP27,19433. 徐,X.,孙,D.,Pan,J.,张玉,Pfister,H.,Yang,M.H.:学习超分辨率模糊的面部和文字图像. In:ICCV(2017)34. Yu,X.,王,R.,Yu,J.:经由动态光场生成和填充的实时景深渲染。C〇mputerGraphicsForum29,209935. Zheng,S.,中国科学院,Jayasumana,S.,Romeraparedes,B.,Vineet,V.,苏、Z. Du,D.,黄,C.,Torr,P.H.S.:作为递归神经网络的条件随机场。In:ICCV(2015)36. 周 , T. , Chen , J.X. , 普 伦 , J.M. : 实 时 精 确 的 景 深 模 拟ComputerGraphicsForum26,15
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功