小波合成网络在智能手机上实现高质量散景

99 浏览量更新于2023-10-23 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2407用于视差估计的小波合成网络在智能手机上合成DSLRChenchiLuo，Yingmao Li，Kaimo Lin，George Chen，Seok-Jun LeeChoi，Jihwan Choi+，Youngjun Francis YooYoo，Michael O.Polley三星美国研究院+三星电子{罗耀基，timothy.li，林凯模，陈乔治}@ samsung.com图1.我们的视差图和渲染散景的例子：（a）全聚焦图像。（b）视差图。（c）渲染散景。摘要由于引入了相机阵列和多帧处理，现代智能手机相机可以在许多领域与传统的数码单反（DSLR）相机相媲美。在所有类型的DSLR效果中，窄景深（DoF）或所谓的散景可能引起最大的兴趣。今天的智能手机试图通过引入计算方法来克服物理镜头和传感器的限制，这些方法利用深度图来从全聚焦图像合成窄DoF效果。然而，高质量的深度图仍然是计算散景和DSLR光学散景之间的关键区别。通过一种新颖的小波合成网络架构，我们比以往任何时候都缩小了DSLR和智能手机相机在散景方面的差距。我们描述了散景解决方案的三个关键推动因素：合成图形引擎，用于生成具有与真实智能手机捕捉相匹配的精确规定特征的训练数据，一种新颖的小波合成神经网络（WSN）架构，可在智能手机上迅速生成前所未有的高清晰度视差图，以及一种新的评估指标，从散景渲染角度量化真实图像的视差图的质量。实验结果表明，从我们的神经网络产生的视差图实现了更好的精度比其他国家的最先进的CNN为基础的算法。将高分辨率视差图与我们的渲染算法相结合，与DXOMARK手机上列出的现有顶级旗舰智能手机相比，我们展示了视觉上更出色的散景图片。1. 介绍智能手机摄像头时代和DSLR相机之间的主要区别之一是浅景深效果，这在焦点外的部分形成了美学模糊。一个形象这种效果可以通过使用具有大焦距和/或大孔径尺寸的透镜（例如，85mm f1.8）[1]。由于尺寸和重量的限制，智能手机相机无法产生与DSLR相同的散景。大多数智能手机制造商使用计算方法来打破这一限制，使用从双像素相机或立体相机获得的深度信息来模拟散景[2，3，4]。这类照片2408捕获模式在智能电话中通常被称为“肖像”、“肖像”或“实时聚焦”模式。尽管所有的努力，一个高分辨率和高质量的深度图仍然是关键的瓶颈，合成DSLR口径散景图像。虽然光时间（ToF）或结构光深度传感器在智能电话中变得越来越普遍，但是它们遭受低分辨率或对环境照明干扰的高敏感性。另一方面，单镜头相机深度算法[5，6，7，8]仅适用于特定场景，并且不足以处理所有场景。立体声深度[9，10，11，12]仍然是智能手机最成熟的解决方案。尽管硬件和算法的进步与人工智能，今天的顶级智能手机在DXOMARK手机仍然留下了落后于数码单反相机的很大一部分，由于劣质的深度质量。本文的目的是将立体视差估计提升到一个新的水平，以便智能手机可以在散景效果方面成为DSLR的合法挑战者。我们的计算散景流水线的流程图可以在图中看到。2.它包含以深蓝色显示的三个关键块。校准模块负责校正具有不同视场（FOV）、焦点等的异构相机对。在给定校准的立体对的情况下，WSN产生视差图。渲染器在给定焦点位置和视差图的情况下产生最终散景图像。输入图像对来自产生散景参考帧的主相机和具有较大FOV的子相机通常，智能手机上的长焦/广角镜头或广角/超广角镜头组合构成主/副相机组合。图1显示了我们的散景输出的一个例子。本文的范围是集中在无线传感器网络的视差估计模块，因为它是最关键的组成部分，产生数码单反相机口径散景图像。校准和散景渲染模块是标准程序，本文不涉及。由于智能手机摄像头具有光学影像稳定器（OIS）、自动对焦和镜头失真等特性，因此很难实现完美校准。出于这个原因，我们制定的视差估计问题作为一个约束的光学光流问题，以更好地适应智能手机相机的特点。我们忽略正交基线方向图，并将基线方向图视为视差输出。然而，由FlowNet框架表示的基于CNN的一般高性能光学卷积算法[13，14，15，16]太复杂，无法适用于智能手机。这些网络家族的一个共同点是，它们是在相同的现有公共数据集上训练的，例如KITTI，城市景观，椅子/物品和mpiSintel [17，13，18]。因此，他们都不能生产高质量的在存在小基线和异构镜头/ISP设置的情况下，智能手机捕获的真实图像上的视差图。我们的第一个贡献是我们创建了自己的合成图形数据引擎和相应的数据生成方法，以生成可为任何目标移动终端量身定制的高质量训练数据。我们提出了一种新的3阶段训练方法，通过可学习的图像增强来弥合合成图像训练和真实图像训练之间的差距。我们的第二个贡献是提出了一个有效的小波合成网络架构的视差估计。即使轻量级LiteFlowNet [16]在nvidiaGTX 1080上运行35.83ms，分辨率为1024×436，它仍然是非常困难的端口到智能手机在更高的分辨率为2048×1536，这是需要渲染数码单反相机口径散景。通过比较我们在高通骁龙855的移动GPU上，以2048 × 1536的输入/输出分辨率对无线传感器网络进行了1.8秒的基准测试为了进一步降低复杂度和提高训练收敛速度，我们在无线传感器网络中引入了两种新的层，可逆小波层和归一化相关层。应用可逆小波层迭代地分解和合成特征图。引入归一化相关层以实现稳健的密集特征图匹配，并与智能手机规格（包括基线距离和校准精度）高度耦合。通过新颖的网络架构和我们的混合合成数据训练方法，我们在智能手机上获得了质量，分辨率和运行时间方面最先进的视差图。我们的第三个贡献是引入了一个新的评价指标，称为最大IoU（mxIoU），以量化的视差图分割的前景对象从真实图像的背景的能力。我们将我们的神经网络与智能手机捕获图像上现有的最先进的方法进行比较。定量实验结果表明，我们的方法产生最好的视差图的智能手机摄像头。我们还将我们渲染的散景图像与DXOMARK手机上排名靠前的智能手机生成的散景图像进行了比较，我们的结果在视觉上优于所有现有的解决方案。本文的其余部分组织如下。在第2节中，我们公开了用于视差估计的WSN的细节，包括两种新类型的层。我们将在第3节和第4节中详细介绍我们的合成图形引擎以及实验结果。我们在第5节中得出结论。2. 小波综合网络网络拓扑和层的细节可以在图中看到。3.我们有一对校准的立体图像输入L2409图2.散景算法流程图。子摄像机被校准以匹配主摄像机的FOV。WSN计算关于主摄像机的视差。渲染器在给定所选焦点的情况下生成散景图像。和R，其中L是来自主摄像机的基准图像，在该基准图像上施加散景效果，R是从子摄像机捕获的校准图像。输出是从L到R的光链路。最后，我们忽略正交基线方向上的视差，并将基线方向的视差视为视差输出。该网络依次由三个主要组成部分组成：从输入图像对中提取高级特征的特征编码器、计算左和右特征图之间的互相关的归一化相关层、以及逐渐补充输出中的细节的特征解码器。与FlowNet框架中的现有技术相比，所提出的WSN具有两个独特的层，即，可逆小波层和归一化相关层。网络中的所有卷积模块对于其输入和输出特征图具有相同的空间分辨率。一个卷积模块包含一个或多个卷积块。每个卷积块都遵循MobileNet中的微架构[19，20]。在到达归一化相关层之前，通过小波层将特征图的空间分辨率降低8倍。保留早期阶段的细节特征图，以便通过逆小波层与后期阶段的特征图合成，以恢复输出的空间分辨率。补充资料中提供了详细的网络层级拓扑。2.1. 可逆小波层在卷积神经网络中，需要池化层来成倍地增加特征提取器的接收场。然而，池化层的一个缺点是它引入了信息丢失。例如，对于2×2池化图层，75%的细节信息被丢弃。然而，对于像素到像素的应用，作为语义分割、视差或光学光流估计，输出分辨率通常与输入分辨率相同。在这些应用中，我们需要更多的细节信息通过网络。出于这个原因，UNet [21，22，23，24]之类的架构被广泛用于馈送通过跳过分支转发低级特征图在本文中，我们提出了一个更优雅的方法来实现空间分辨率降低和信息的离散小波和逆小波变换。众所周知，小波变换是完全可逆的，它们在没有任何信息损失的情况下实现了与池化层相同的空间分辨率降低效果。图4（a）展示了所提出的可逆小波层的思想。我们应用2D小波变换将2D图像分解为四个象限：LL、HL、LH、HH，其中LL表示2D图像的低频分量或平均信息，而HL、LH、HH表示2D图像中的高频分量或细节。我们在通道维中堆叠HL，LH，HH以形成新的特征图。这一基本思想可以推广到（H，W，C）维的三维特征图，小波层产生两个（H/2，W/2，C）维和（H/2，W/2，3C）维的特征图，分别表示平均信息和细节信息。这两种类型的特征映射在神经网络中应该被区别对待。网络的主要分支应该迭代地处理平均特征图，以便在不受局部细节干扰的情况下对图像进行全局上下文理解。同时，细节特征图负责恢复输出的空间分辨率。自然，我们恢复网络空间分辨率的方法是逆小波变换，这也是一个无损的过程。可逆离散小波层具有两个主要优点。首先，它们是复杂度为O（NlogN）的线性变换，并且对于端到端训练是可微的。对于离散Haar小波，只需进行加法和减法运算.其次，变换是可逆的，因此在该层中没有细节信息丢失。2.2. 归一化相关层在[13]中的FlowNet-C体系结构中引入了相关层。本文提出了几个改进，如图所示。4（b）使其最有效地为我们的应用程序工作。引入原始的相关层来解决光学相干流问题。因此，搜索窗口大小是大的并且在所有方向上是对称的。然而，对于智能手机上的校准图像对，我们了解我们的校准算法的误差容限、聚焦对象范围（0.5 m-2.5 m）和基线距离（1 cm）。因此，我们可以精确地规定非对称搜索窗口大小，以减少欠拟合或过拟合的可能性。由于智能手机摄像头设置的限制，我们的搜索窗口也需要覆盖dx+，dy+，dy-方向上的一个小范围，其中dx-是基线方向，而不是只做一条直线-沿dx的耳朵搜索-当校准完美完成时。对于2048 × 1536的输入图像大小，我们的搜索窗口2410小波层逆小波层转换模块Concat层归一化相关层特征图小波层逆小波层Concat层归一化相关层转换模块特征图图3.无线传感器网络拓扑。L代表主摄像头图像。R代表校准的子相机图像。图4.（a）可逆小波层。小波层将维数为（H，W，C）的特征映射分解为低频特征映射FLow（H/2，W/2，C）和高频特征映射FHigh（H/2，W/2，3C）。逆小波层从低频和高频特征图合成原始特征图。(b)归一化相关层。F左和F右代表主和子相机图像分支中的特征图。输出特征图中的每个通道对应于搜索窗口中的F左和具有方向（u，v）的移位的F右之间的归一化相关性。图5.归一化相关层可视化（a）校准和叠加的立体输入图像对（b）最终视差估计(c)标准化相关图层要素地图输出的堆叠视图最后，我们发现，当从高丢弃率开始以避免过度拟合并逐渐降低丢弃率以改善视差细节细化时，可以获得更好的结果。第三个改进是归一化步骤，以确保输出特征映射被约束在[0，1]中，以提高训练收敛性和稳定性。对于搜索窗口中的搜索方向（u，v），我们有cu∈[-20，4]在基线方向，v∈[-4，4]在F（u，v）=R（一）正交基线方向。所述第二改进OV+var（F ）var（F（u，v））刚果（金）是特征图的预处理。我们独立申请（u，v）C−1以及向左的随机掩码或丢弃操作，c（i，j）=k=0[FL（i，j，k）−FL（i，j，：）]在应用相关操作之前，为了模拟一个特征中的一些特征[FR（i−u，j−v，k）−FR（i−u，j−v，：）]地图在另一个不可见这会加强网络其中F（u，v）是2D输出特征图，FF（u，v）oLR以基于上下文推断匹配在我们的实验中-是左和右移位的3D输入特征图，2411O（·）表示特征的方差和均值映射到通道维度上，并且= 10−6是为了避免除以零操作。我们保留上述流程，搜索窗口内的所有方向（u，v），并沿通道维度堆叠2D特征图F（u，v以公式化所提出的归一化相关层的3D特征图输出。根据我们的实验，归一化的迭代层显著提高了网络在训练过程中的数值稳定性和收敛速度。图5示出了由所提出的归一化相关层产生的特征图的可视化。3D特征图在图5（c）中被重新堆叠以显示它们对不同移位（u，v）的响应。如图所示，对于（u，v）=（0，0），网络响应最远的背景（视差= 0）。随着水平位移u的逐渐增大，网络对背景栅栏、身体和手的响应是有序的。然而，归一化相关层之后的特征图的空间分辨率仅为输入分辨率的1/8。我们仍然需要在早期阶段依靠细节特征图来恢复输出的空间分辨率。3. 数据和培训3.1. 综合训练数据在现实世界中，获取视差图的像素到像素的地面实况被认为是一个困难的问题。例如ToF相机、LiDAR的前向深度传感器不能产生完美的像素级深度图。这些深度传感器的性能由于环境光、遮挡、传感器噪声和反射材料而受到限制。另一个困难是我们仍然需要将深度地面实况与相机图像对齐。这就给基本事实增加了更多的不确定性。在本文中，我们仔细设计了我们的合成训练数据，以匹配智能手机摄像头工作场景的统计数据。现有技术[13]使用计算机图形软件和游戏引擎来生成用于虚拟立体相机的合成训练数据。我们的文献搜索表明，几乎所有以前的作品[13，14，15，16]都是在类似的公共数据集上训练的，例如，折叠物品，折叠椅子，MPISintels，KITTI等。然而，当使用这些已发表的作品对从日常生活中拍摄的智能手机捕获的图像进行测试时，性能并不像报道的那样好。我们的调查表明，根本原因是我们的散景应用程序中真实肖像图像的disaprity直方图分布在[0，60]像素范围内，具有类似于指数分布的概率密度函数（PDF），而FlyingThings数据集的直方图分布在[0，150]像素范围内，具有非常不同的形状PDF。为了解决这个问题，我们建立了自己的培训图6.基于深度的视差和真实光学视差之间的差异的图示。使用虚幻引擎进行数据处理[25]。我们建立了一个虚拟的3D空间与模拟深度和相机与已知的内在和外在参数。3D空间中的虚拟对象被随机地放置在某些深度范围中，并且利用随机生成的纹理来渲染。我们直接从深度生成视差地面实况。我们的数据在以下方法的指导下产生。照片写实主义。直觉上，人们可能认为照片般逼真的合成训练数据应该会导致更好的网络性能。然而，我们惊讶地发现，网络收敛速度要慢得多，使用真实感训练数据而不是使用具有最低绘制质量的训练数据的性能更差。事实证明，渲染引擎中的反射选项是罪魁祸首。如示于图6、反射表面之间的物理距离（例如，镜子），并且照相机是Dm。因此，物体在镜子中的图像的视差然而，在现实世界中，物体在镜子中的图像的视差在反射选项已打开的情况下我们实际上是在教网络错误的观点，在这种情况下学习。另一个有趣的发现是，网络性能与训练数据的语义无关，这与[13]报告的观察结果一致。训练数据中的虚拟对象可以是任何东西，即使它没有任何语义。例如，网络不需要照片逼真的人体模型就能很好地为人类服务。网络学习的只是使用全局上下文进行匹配。因此，我们的训练数据是在渲染引擎中没有打开任何照片级逼真效果的情况下渲染的，以避免任何可能的混淆。模式模糊。自定义训练数据的能力使我们能够控制网络的响应，以产生所需的结果，而不会产生深度伪影。立体声算法在同质区域如无特征的平面或重复图案处挣扎，因为它们不具有图像的全局上下文理解随着CNN的出现，我们有可能实现一个非常大的接收场，这样它们就可以更好地匹配密集的图像特征。为了从这个角度利用CNN的2412图7.无线传感器网络的迭代训练方法。(a)阶段1：使用共享特征编码器进行合成图像训练。(b)第二阶段：真实图像训练，学习立体图像对之间的光度变换（c）阶段3：使用独立特征编码器的合成图像训练(d)推理网络结构。图案和纹理随机应用于3D对象。3.2. 培训详细信息我们的网络在具有数据增强的合成数据和真实智能手机捕获的图像上进行训练。数据增强模块需要反映智能手机上的立体相机之间的几何校准缺陷和光度映射。为了实现这一点，我们使用了一个三阶段的混合训练方法，如图所示。7.第一次会议。第一阶段。在训练的第一阶段，WSN只使用我们的合成数据进行训练。两个立体图像编码器分支之间的权重在该过程期间被共享。我们已经产生了10万对同步-分辨率为1024×768，使用95K对的图像用于训练，其余的用于valida-第我们通过我们的增强管道传递训练数据，如图所示。8.扩充流水线包含两个模块，即，光度增强和几何增强。增强独立地对左图像和右图像应用随机扰动。光度增强模块将随机模糊度、色度、照明、伽马和噪声应用于立体对，使得网络对训练图像的光度离散是鲁棒几何增强对训练图像应用随机缩放、旋转、均匀失真、倾斜和裁剪。训练最小化l2端点误差（EPE）损失。使用ADAM求解器，学习率从1×10−3我们在归一化相关层之前应用dropout [26]层初始辍学率为0。25，我们将辍学率降低0。05每20个时期直到0。在训练过程中，我们每40个epoch将学习率降低2倍，整个训练大约需要400个epoch才能达到满意的结果。第二阶段。这个阶段的目的是学习图8.数据增强管道和示例效果。两个摄像机之间的光度映射。光度差异的来源源自以下事实：智能手机立体相机通常具有不同的镜头，并且ISP对于两个相机具有不同的设置和调谐。我们的目标是训练一个小的网络，使两个heterogeneous相机捕获的图像之间的光度差异最小化。因此，WSN的性能可以针对特定的摄像机平台进一步优化。我们构建了一个轻量级的三层全卷积网络，称为“PhotometricNet”，如图所示。第7（b）段。我们使用来自目标智能手机的800个校准的立体图像对作为我们的训练数据。我们将来自左（主）和右（子）相机的立体图像分别表示为IL和IR在训练过程中，无线传感器网络的权重保持锁定。我们通过WSN传递训练数据，并使用预测的图像质量w将来自右摄像机IR的图像变形为图像质量L，然后我们使用IL作为PhotometricNet和图像质量L的输入。在训练中作为标签培训过程开始学习率为1×10−5，并使用AD AM优化使净输出和可编程逻辑L之间的l2损失最小化米泽尔训练大约需要30个epoch来收敛，我们每10个epoch就将学习率降低一半。因此，PhotometricNet学习从主摄像机IL到子摄像机IR的光度映射。第三阶段。参见图7（c），在第三训练阶段，我们将PhotometricNet应用于子摄像机IR，然后将其传递给WSN。我们禁用了照片度量增强，只在我们的管道中使用几何通过这种方式，我们可以确保主摄像机和增强子摄像机合成图像馈入无线传感器网络具有相同的相对光度特性作为真正的主/子摄像机图像。在这个阶段，我们还禁用了左右编码器之间的权重共享，以微调WSN。因此，无线传感器网络学习以最佳方式处理真实世界图像中的照片差异路上了我们用我们的合成数据训练 WSN ，从1×10−5的学习率开始，持续200个epoch，然后每50个epoch后将学习率降低一半理想情况下，我们应该重复第二和第三阶段进行多次迭代，以确保WSN和2413表1.在真实图像和合成图像上的定量算法比较。算法EPE平均mxIoU中位数mxIoULiteFlowNet3.3980.868370.90511PWCNet3.6030.878840.89758FlowNet22.8780.911550.93914FlowNetCSS3.3290.880480.92008FlowNetCS3.3640.886480.91847FlowNetC4.0560.844810.86377FlowNetS4.4080.804020.81482WSN0的情况。5860的情况。952210的情况。98133图 9. mxIoU 计算示例。 (a) 参考图像。 (b)Ground truthforeground mask.（c）来自WSN的视差图（d）对应于d=7的视差阈值的前景掩模。0的情况。（e）对应于d=22的视差阈值的前景掩模。0的情况。(f)对应于d = 30的视差阈值的前景掩模。0的情况。PhotometricNet是最佳。然而，我们的实验表明，一次迭代通常足以达到令人满意的结果。在推理阶段，如图所示。在图7（d）中，将真实世界立体图像直接传递到WSN以预测视差。4. 实验结果为了测试无线传感器网络的性能，我们进行了三种类型的评估实验。合成图像的定量评价。为了更好地模拟用真实智能手机拍摄的图像的视差统计，我们通过计算标准EPE评分。我们将我们的WSN与其他最先进的基于CNN 的光学光流估计算法进行比较，例如LiteFlowNet ， PWCNet ， FlowNet 2 和 FlowNet 2-CSS[14，15，16]等。为作出公平比较，我们根据原始文件所述的方法，使用我们的合成数据对其他最先进的网络进行微调。我们制作了一个未经过任何算法训练的专用验证合成数据集，以评估所有算法的EPE评分，结果汇总在表中。1.一、我们的无线传感器网络EPE对所有其他方法。房地产的定量评价图像.一合成图像上的较低EPE不一定表示网络在真实世界图像上的较好性能。一般来说，对于任何给定的一般真实世界捕获的图片，获得每个像素为了解决这个问题，我们引入了一个新的度量称为最大IoU（mxIoU），以定量评估的视差质量的意义上的能力，从背景中分离一个给定的主题。联合交集（IoU）[27]的度量通常用于评估分割掩码的准确性。散景图像渲染的关键步骤也是将聚焦对象从背景中分割出来。在我们的工作中，我们借用了类似的想法。对于给定的肖像图片，我们选择从其背景中突出的主体，并手动标记主体以创建如图所示的地面真实掩模Mf。第9（b）段。为了评估视差图D，我们枚举视差图内的所有视差值，如图1B所示。9（d-f）。对于每个选择的视差d，我们在D上设置阈值以获得前景掩模Md，使得由掩模覆盖的所有像素具有大于或等于d的视差。同时，我们计算Md和Mf之间的IoU得分。mxIoU分数是我们为给定图像获得的最大IoU分数。在我们的实验中，我们使用三星Galaxy Note 10+拍摄了200张por- trait照片，并聘请Photoshop专业人员手动标记从其背景中明显突出的主题作为地面真实面具。不同算法的mxIoU评分均值和中位数见表。1.我们将每个算法的disparity图可视化，如图所示。10.与现有的国家的最先进的相比，从我们的算法生成的视差图显示视觉上优越的质量，除了更高的mxIoU分数。无线传感器网络在处理真实图像的细节和模糊模式方面比其他算法具有明显的优势。散景伪影的定性评估。此外，我们将WSN应用于图1所2和比较我们的散景质量对四个顶级在DXOMARK手机[1]上列出的排名的智能手机，即，华为Mate30 Pro、三星Galaxy Note 10+、iPhone 11 ProMax、谷歌Pixel 4。由于页数限制，样本测试图像可在补充材料中查看。在这些示例图像中，我们将深度伪影标记为红色。与市场上现有的散景解决方案相比，我们的散景图像具有最佳的细节和最少的深度伪影。5. 结论我们介绍了一种新的网络结构，无线传感器网络，用于视差估计，我们已经描述了合成训练数据的详细方法，2414图10.视差图比较示例。（a）参考图像。无线传感器网络。（c）PWCNet。（d）LiteFlowNet。（e）FlowNet 2。和用于异构智能手机立体相机设置的多阶段网络训练。我们已经证明，我们的方法优于所有现有的国家的最先进的方法，通过大幅度使用合成数据和现实世界的数据，定量和可视化。与卓越的视差质量，我们已经表明，我们渲染的散景图像在深度伪影和细节方面比排名靠前的智能手机要好得多，因此智能手机可以真正产生DSLR口径的散景。2415引用[1] W. 豪瑟 B. 奈芙 J. - B. 乔丹 C. Viard，以及F. Guichard，“计算散景的图像质量基准”，ElectronicImaging，vol. 2018，no.第12页。340-1，2018年。[2] H. 林角，澳-地Chen，S.Bing Kang和J.Yu，3451[3] N. 瓦德瓦R. 加格 D. E. 雅各布斯 B. E. 费尔德曼N.金泽河Carroll，Y. Movshovitz-Attias，J. T.巴尔龙，Y 。 Pritch 和 M.Levoy， “Synthetic depth-of-field with asingle-camera mobile phone ， ”ACM Transactions onGraphics（TOG），vol. 37，no. 4，第64页，2018年。[4] D.柳河，巴西-地Nicolescu和R. KLETTE，198-210，Springer，2015年。[5] D.艾根角Puhrsch和R. Fergus，2366[6] N. 瓦德瓦R. 加格 D. E. 雅各布斯 B. E. 费尔德曼N.金泽河Carroll，Y. Movshovitz-Attias，J. T.巴尔龙，Y 。 Pritch 和 M.Levoy， “Synthetic depth-of-field with asingle-camera mobile phone ， ”ACM Transactions onGraphics（TOG），vol. 37，no. 4，第64页，2018年。[7] R. Garg，V.K. BG、G.Carneiro和我Reid，“用于单视图深度估计的无监督cnn：从几何学到线索”，在欧洲计算机视觉会议上，pp. 740[8] B. Liu，S. Gould和D. Koller，1253[9] J. Zbontar ， Y. LeCun ， et al. ， Journal of MachineLearning Research，vol. 17，no. 1-32，第2页，2016年。[10] J. - R. Chang和Y.S. 陈，5410[11] M. Poggi ， D. Pallotti ， F. Tosi 和 S. Mattoccia ， 979-988，2019年。[12] Z. Liang，Y.冯，Y.Guo，H.Liu，W.陈湖，澳-地乔L. Zhou和J. Zhang，“Learning for disparity estimation throughfeature constancy”，2018年。[13] A.多索维茨基山口Fischer、E. Ilg，P. Hausser，C. 哈齐尔巴斯Golkov ，P. Van Der Smagt ，D. Cremers 和T. Brox ，“Flownet：用卷积网络学习光学流”，在IEEE国际计算机视觉会议论文集，第2004 - 2009页。2758[14] E. Ilg，N.Mayer，T.Saikia、M.Keuper，A.dosovitskiy和T. Brox，2462-2470，2017。[15] H. Zhao，J.Shi，X.Qi，X.Wang和J.Jia，2881-2890，2017年。[16] T.- W. Hui，X. Tang和C. Change Loy，“Lite电子报：Alightweightconvolutionalneuralnetworkforopticalcrossflow estimation ， ”in Proceedings of the IEEE Conference onComputerVisionandPatternRecognition，pp. 8981[17] A. Geiger ， P. 伦茨角 Stiller 和 R.Urtasun， “Vision MeetsRobotics：Kitti数据集，“国际机器人研究杂志，卷。32岁不第11页。1231[18] D. Butler，J. Wulff，G. Stanley和M. Black，[19] A.G.Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M.Andreetto和H.Adam，[20] M. Sandler ， A. Howard ， M. Zhu ，中国茶青冈 A.Zhmoginov和L.- C. Chen，“Mobilenetv2：倒置的残差和线性瓶颈”，在IEEE计算机视觉和模式识别会议论文集，pp. 4510[21] O.龙内贝格山口Fischer和T. Brox，“U-net：用于生物医学图像分割的卷积网络，”在医学图像计算和计算机辅助干预国际会议上，pp. 234[22] 哦。 Ci cek，A. Abdulkadi r，S. S. Lienkamp，T. 布洛克斯，还有O. Ronneberger，“3D U-net：从稀疏注释中学习密集体积分割”，在医学图像计算和计算机辅助干预国际会议上，pp. 424[23] Z. 张，智 - 地 Liu 和 Y. 王， “ 道路提取深残差 u- 网络，”IEEE地球科学和遥感Letters，第15卷，没有。第5页。749[24] A. Jansson，E.汉弗莱，N.蒙泰基奥河Bittner，A.Ku-mar和T.Weyde，[25] W. Qiu和A. Yuille，“Unrealcv：将计算机视觉连接到虚幻引擎”，欧洲计算机视觉会议，pp. 909[26] N. Srivastava、G. Hinton，A.克里热夫斯基岛Sutskever和R. Salakhutdinov，“Dropout：一种防止神经网络过度拟合的简单方法”，机器学习研究杂志，第15卷，第15期。第1页。1929[27] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤耶，“Deeplab：语义图像分割与深度卷积网络，atrous卷积，和完全连接的crfs，“IEEE transactionson pattern analysis and machine intelligence，vol. 40，不。第4页。834

下载后可阅读完整内容，剩余1页未读，立即下载