深度差分聚焦体的卷积神经网络模型

84 浏览量更新于2023-10-25 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12642使用差分聚焦体积从焦点获得的深度冯婷杨晓蕾黄子涵周宾夕法尼亚州立大学{fuy34，suh972，zuz22} @ psu.edu摘要焦深（DFF）是一种使用相机的焦点变化来推断深度的技术在这项工作中，我们提出了一个卷积神经网络（CNN）来找到焦点堆栈中的该网络的关键创新点是新的深度差分聚焦体（DFV）。通过计算不同焦距上堆叠特征的一阶导数，DFV能够捕获焦点和上下文信息以用于焦点分析。此外，我们还引入了一种概率回归的焦点估计机制来处理稀疏采样的焦点叠加，并为最终的预测提供不确定性估计综合实验表明，该模型在多数据集上具有较好的泛化能力和较快的运行速度，达到了目前最先进的性能。1. 介绍利用单个RGB摄像机恢复深度是三维视觉中的一个关键问题。许多应用程序都可以从这种技术中受益，包括3D重建，虚拟和增强现实以及图像编辑。在文献中，已经探索了各种线索来解决问题，例如焦点[33]，自我运动[40]和结构光图案[3]。但是像自我运动和结构光模式这样的线索需要额外的运动或额外的设备，这限制了它们在智能设备和手持相机上的应用。相比之下，聚焦（或散焦）提示是我们几乎可以“免费”获得的。为了捕获聚焦良好的图像，许多数码相机在其聚焦范围内快速扫过焦平面，从而产生一系列图像（即，焦点堆栈）具有不同的焦距。一项开创性的工作[45]表明，深度可以从手机拍摄的焦点堆栈中推断出来。图像语境是我们可以从图片中获得的另一种在此基础上，一系列工作[9，11，35，36]已经显示出从单个图像推断深度的能力。但是，将这些单视图方法推广到未知场景仍然是一个挑战。另外，由于规模模糊，即使照相机被很好地校准，也不能在没有场景先验的情况下从单个图像估计绝对深度在这项工作中，我们利用焦点和上下文线索，并开发了一个深度从焦点（DFF）网络的焦点分析和深度推理。我们更喜欢DFF的其他焦点为基础的技术，即从散焦深度（DFD），因为它的普遍性。对于DFD，需要建立深度和离焦模式之间的数学模型。这些方法通常假设物点集中在一个小平面上，并且点扩散函数（PSF）遵循一定的分布[25]。但这种假设在现实世界中可能不成立DFF仅假设焦点堆栈中的像素有且只有一个最佳聚焦帧，如果采样焦距足够密集，则理论上[39]可以保证薄镜头相机。最佳聚焦帧的焦距可以用作像素深度估计。发展筹资框架仍存在若干重大挑战第一部分是焦点测量设计。已经提出了大量的焦点测量，但没有一个在野外环境中是完美的[34]。第二个是关于无纹理区域。由于对焦点测量的响应在无纹理区域中保持较低，因此必须使用上下文信息来推断焦点状态[4，10]。第三是高采样频率要求。理论上，对于落入相机的景深中的对象点，在焦点扫描中必须存在一个最锐利的像素。但如果采样频率低，则可能不可见。因此，许多transmittedDFF方法[29，44]需要数十帧作为输入，这限制了它们的运行速度。为了克服这些挑战，我们建议使用卷积神经网络（CNN）学习深度聚焦度量。CNN提取的深层特征中嵌入的全局信息可以帮助无纹理区域的聚焦分析。此外，聚焦状态被表示为最佳聚焦像素的概率分布，其可以从有限数量的帧中学习。请注意，早期的作品[6，13，47]也试图解决CNN的DFF问题。但是他们的网络是从一般的密集预测任务[6，13]或视频表示任务[47]中采用的，而不是专门为DFF设计12643××我们的网络受到立体匹配和DFF [22，39]之间的密切关系以及最近深度立体匹配[5，26，50]的启发。该网络采用2D CNN来学习深度聚焦和上下文表示，将它们堆叠成4D聚焦体积（FV），并计算它们的帧维度的差异以构建深度差分聚焦体积（DFV）。DFV随后由3D CNN处理以预测像素的最佳聚焦概率。概率预测有助于定位像素的最佳聚焦帧，即使它们在焦点堆栈中不可见，从而减小所需的焦点堆栈大小。最后，通过概率回归得到深度估计.我们的流水线类似于传统的基于FV的DFF方法[10，24，44]，其首先使用手工制作的测量来计算焦点内分数，然后对分数体积进行累加以获得用于深度估计的最终焦点分析。除了深度预测，我们的模型还提供了一个不确定性估计，显示了预测的可靠性。据我们所知，这是第一个将深度4D聚焦体积引入DFF的作品我们已经进行了全面的实验，以评估我们的方法在合成和真实世界的数据集。我们的方法在消耗少量帧（例如，五）每焦点堆栈，优于所有DFF和DFD基线。我们的方法也很好地推广到未知的场景，无需微调。此外，该模型在256 256输入分辨率和约33.3 ms/stack下以约18.2 ms/stack在NVIDIA 1080Ti上具有383 552输入分辨率GPU，使其适合潜在的实时应用。2. 相关作品聚焦深度（DFF）。DFF也被称为焦点形状。由于物理限制，大多数相机只能在一定范围内捕获物体的清晰图像，称为景深（DoF）。范围外的点看起来是模糊的，并形成一个模糊圈（CoC）。研究人员一直利用这种现象来推断深度很长一段时间[30，32，34，42]。根据薄透镜模型[39]，给定密集采样的焦点堆栈，对于一个像素必须有且只有一个最佳聚焦（最清晰）帧帧的焦距可以用作具有DoF的不确定性的像素的深度估计。然而，在实践中，如果焦点堆栈的采样率低，则这样的帧可能不总是可见的因此，传统的DFF方法通常将焦点堆栈中的数十帧作为输入，并专注于找到好的焦点。CUS测量以识别最锐利的像素。一些已经提出了聚焦测量，包括基于梯度的测量[30]、基于拉普拉斯的测量[1，31]、基于频率变换的测量[48]和基于统计的测量[21]。我们建议读者参考[34]，以获得全面的评论。最近，[44]提出了一个环不同-ence filter measure，[37]将多个测量组合成一个复合，[29]试图用变分框架解决噪声预测。深度DFF方法在[6，13，47]中提出。然而，[13]和[6]从一般的密集预测任务中采用了他们的网络，[47]的网络来自视频表示工作[2]。但都没有充分考虑到DFF的特殊性。关注量和成本量。在DFF中，聚焦体积（FV）通常用于存储由聚焦测量计算的“聚焦”分数。一旦构建了FV，简单的方法可以将具有最高分数的像素的焦距作为深度估计。但这样的估计很可能是嘈杂的，由于不完善的焦点测量。因此，大多数作品将初始FV作为特征，并将其与平均滤波器[16，31]，双边滤波器[41]和引导滤波器[18]聚合，以获得更好的深度估计。值得注意的是，在传统的匹配任务中，称为“成本体积”的类似概念立体匹配[38，51]和光流[49]，其中存储匹配分数而不是聚焦分数，并且稍后进行聚合。[44]示出了针对立体匹配提出的传统成本聚合方法[51]可以适于聚合DFF中的FV。随着深度学习的进步，许多方法[5，7，8，17，20，26，43，50]构建深度成本量以结合上下文信息并使用2D或3D CNN执行成本聚合以提高估计准确性。在这项工作中，我们表明，深度成本量和深度成本汇总的核心思想也适用于DFF。此外，我们还考虑到DFF的特殊性，提出了一种深度差分聚焦方法。3. 方法图1展示了我们方法的整体流水线。与[13，47]一样，我们假设输入焦点堆栈通过光流[45]，单应性[18]或任何其他方法预先对准。该网络首先使用共享的2DCNN提取图像特征，然后通过计算堆叠特征的一阶导数来构建差分聚焦该体积由3D CNN进一步处理，以预测最佳聚焦概率。最后，通过概率回归得到多尺度深度预测。在下文中，我们首先简要回顾一下深层成本量（第二节）。3.1），并描述拟议的深焦点卷（第3.1节）。3.2）和深差聚焦体积（第3.2节）。3.3）用于DFF任务。然后，我们介绍我们的概率回归和不确定性估计方法（第二节）。3.4）并讨论实施细节（第3.5）。3.1. 深度成本量法述评深度代价体积目前广泛用于立体匹配[5，26，28，50]和光流[8，43，46]。虽然具体的实现方式各不相同，但主要有两种类型126442D CNNX 162D CNN…堆叠FVDiff.DFV3D CNN三线性上升X 82D CNNX 4…概率回归概率回归焦点概率（3级）焦点概率（4级）×××× ××X 32&&&&FocalStack2D Feat.N x 3xH x WCxHxW聚焦电位器CxN xHxWDiff. 聚焦电位器C x NxHxW3D Feat.C xNxHxW焦点概率体积N x H x W深度图高x宽不确定高x宽K、、、K，，你，你图1.我们的多尺度DFF网络。给定具有H W分辨率的N帧焦点堆栈，共享的2D CNN首先处理帧以构建4D FV，其中每个层对应于来自一个帧的特征。然后对体积进行微分以获得DFV，并将其发送到3D CNN以预测焦点概率。在概率回归中通过加权和估计深度，并计算标准差以指示预测不确定度。特征维度中的分母表示相应级别的分辨率尺度。体积设计：三维成本体积和四维成本体积。在这两种设计中，输入帧首先由2D处理器处理。CNN提取深度特征（特征通道高度宽度）。主要区别在于，对于3D成本量[8，28]，手工制作的相似性度量（例如，交叉相关）应用于深度特征以生成成本体积，而对于4D成本体积[5，26，50]，深度特征以新的“视差”维度堆叠视差维度中的每个索引表示视差提议。另一个区别是3D成本量由2D CNN聚合以直接预测disparity值，但是4D量之后是3D CNN以产生每个提议的概率。虽然3D成本体积涉及较少的计算，但4D成本体积已被报告为更好的实现，以集成上下文信息并提高模型精度。3.2. 深度聚焦体积如第2、聚焦体积（FV）在DFF中的应用由来已久。与立体匹配和光流中的成本体积相比，唯一的区别是FV用于找到最佳聚焦（最清晰）像素而不是最佳匹配对。考虑到第2节中描述的两种深度成本容量设计，3.1，我们可以自然地开发两种方法来在DFF网络中构建深度FV一方面，我们可以使用手工制作的焦点测量来构建3D FV，并使用2D CNN来处理它以预测最佳聚焦帧。另一方面，我们可以通过在新的“帧”维度中堆叠特征来由于我们希望消除使用手工制作的措施，我们采取了后一种方法。图2.差分特征和归一化特征的图示。蓝色和绿色分别表示正值和负值。这样，我们的网络将与图1中的网络相同，只是不包括DFV。节中4，我们证明了这种简单的方法已经在多个数据集上实现了最先进的性能。3.3. 深差聚焦体积尽管深FV的出色性能，我们认为，这样的设计并没有充分利用DFF的特点。理论上，在纹理区域中，如果比较块大于最宽CoC [32，39]，则DFF不会遭受匹配模糊。这意味着，如果我们有一个好的焦点测量，并在一个足够大的补丁上操作它，在像素的焦点曲线上总是有一个极值，指示最佳聚焦状态。这与立体匹配或光流不同，在立体匹配或光流中，由于重复的图案，参考片可以与多个目标匹配。我们利用这个单一的极值，并提出了深差分聚焦体积。众所周知，梯度是一个很好的指示单一极值。这在图2中示出。对于10帧图像中的单个像素，概率回归概率回归焦点概率（1级）焦点概率（2级）12645i=1我d=p·l，（2）j.−−（1）−.，ΣJ××JS MJJΣcalstack，我们选择正的焦点得分作为特征。有时，由于纹理较弱，最清晰像素的特征幅度可能并不显著-参见左图中帧4至8的分数。因此，网络很难找到最清晰的像素。然而，如果我们在特征上取不同，ij=Npj·i. 请注意，fetchij可以是浮点值，其指示最佳聚焦帧位于fetchij和fetchij之间。类似地，我们可以获得深度dj为：NiiJ将对应于零交叉，如中间的图所示。这是一个更有意义的模式来区分。我们还比较了微分和归一化之间的效果虽然归一化可以扩大相对分数差距，但它不会使最尖锐的像素像差分像素那样突出。因此，我们沿着构建差焦体积的帧尺寸：i=1其中L1是第i帧的焦距。如果摄像机被校准了，我们取实际的li值。否则，我们假设帧以递增的焦距进行排序在实践中，可以通过首先使用[45]中提出的方法估计最大尺度焦距来实现网络的预测置信度可以被揭示出来Vi=QiQi+1，i = 1，. - 是的- 是的，N1Qi，i=N不确定度Φ。我们计算像素的不确定度xj使用加权标准差：其中i是帧维度的索引，N是帧的总数。注意，V的前N1个维度包含相邻帧的一阶特征导数，而最后一个维度等于特征j=Ni=1 pi · (li − dˆj)2.（三）包含原始上下文信息。因此，3D CNN可以访问差分特征和上下文特征以进行焦点分析。这一点很重要，尤其是对于无纹理区域。可以说，由于散焦，最后一帧的某些部分可能是模糊的。但它仍然可以作为由于上下文的目的是捕捉图像区域之间的全局关系，因此缺乏某些精细细节不会影响其有效性。然而，更好的方法来收集上下文信息可以在未来的工作中研究。例如，我们可以沿着帧维度对Q执行平均池化或卷积，以从整个堆栈中学习上下文。根据通用近似定理[15]，网络最终可能能够自己学习类似的表示。但我们相信，明确地将已知的先验知识引入网络将有助于学习过程，就像匹配任务的深度成本一样。3.4. 深度回归和不确定性估计除了无纹理区域之外，所需的帧数是经典DFF中的另一个问题因为经典的DFF方法通过定位焦点堆栈中最清晰的像素来推断深度，所以它们通常需要数十帧作为输入。否则，最清晰的像素可能是不可见的，并且深度推断将是不准确的。在这项工作中，我们找到了除了作为信心指标，这种不确定性测量也可以用于多任务学习[19]和测量融合[52]等场景。3.5. 实现细节我们的网络设计采用了[50]中的设计，并针对DFF任务进行了优化。对于2D CNN，我们采用了ResNet-18-FPN [23]，它在ImageNet上进行了预训练。空间金字塔池（SPP）[53]模块插入编码器和解码器之间我们采用最后4个级别的特征，并以相应的分辨率构建四个DFV。对于每个DFV，我们使用两个3D-ResNet块[12]，然后使用3D-SPP进行聚集。使用2层3D卷积来预测聚焦概率。在上采样和3D卷积之后，聚合的DFV也被发送到下一尺度级别。请参阅我们的补充材料以了解更多详情。我们使用Pytorch实现我们的模型，并使用Adam（β1=0）对其进行优化。9和β2=0。999）在一个NVIDIA 1080Ti GPU上运行700个epoch。批量大小为20，学习率为1 10−4。给定一个训练焦点堆栈，我们首先随机选择5帧并将其裁剪为224 224分辨率，然后随机翻转。所有帧是按照焦距的升序排列在训练时，我们获取所有4级输出并比较所预测的像素像素深度dfs与地面实况深度dfs，通过学习proba-jj，子帧精度中的最锐利像素能力分布我们的网络的最终输出是焦点概率体积P，其中pi表示像素使用多尺度平滑L1损失，L.在测试的时候，我们只输出深度回归的最大尺度（图1中的水平1）聚焦第i帧中的xj是最佳聚焦的。4M的总和像素xj的概率被softmax ac约束为1JL= α。1层光滑s=1j=1（ds-ds），（4）激励因此，像素x是L112646Image/GT DDFF DefocusNet Ours-FVOurs-DFV叔叔我们的FV/DFV图3. FoD 500（前两行）和DDFF-12（后两行）的定性结果。第一列示出了输入焦点堆栈中的第一图像和对应的地面实况。接12647××××15151515下来的4列示出了深度（行1）和视差（行3）预测，以及对应的误差图（行2和4）。最后一列显示了Ours-FV（1和3）和Ours-DFV（2和4）的不确定度图颜色越暖或越亮，值越高。其中M是像素的总数，我们设置αs={8，4，2，1}用于所有实验。14. 实验我们进行了全面的实验来研究模型的性能。首先，我们使用两个注释数据集FoD 500 [27]和DDFF-12 [13]进行定量和定性比较。接下来，我们对模型对焦点堆栈大小和多尺度架构的敏感性进行了消融研究最后，我们在一个未标记的数据集Mobile depth上测试了模型的泛化能力[45]。4.1. 数据集FoD500[27]是一个合成的DFD数据集2，包含400个训练样本和100个测试样本。每个样本都有一个5帧的焦点堆栈，具有已知的焦距和地面真实深度图。图像分辨率为256 256。由于数据集最初是为DFD设计的，因此样本的焦距范围并不总是覆盖其地面实况深度范围。我们在训练和测试时屏蔽深度值超出焦距范围DDFF-12[13]是由光场相机从12个不同场景捕获的真实世界DFF数据集。六场戏，1代码可在https://github.com/fuy34/DFV2https://github.com/dvl-tum/defocus-net选择glassroom、kitchen、office41、championaroom、socialcorner、studentlab作为训练集，每个训练集包含100个样本。另外六个场景，自助餐厅，图书馆，更衣室，餐厅，办公室44，斯宾塞实验室，被选为测试集，每个场景20个样本。每个样本包含一个10帧的焦点堆栈与已知的焦点差异和地面真实视差图。图像分辨率383 552. 我们进一步通过随机选择将原始训练集划分为4个训练场景（厨房，更衣室，社交角，学生实验室）和2个验证场景（玻璃房，办公室41）。在[13]之后，我们评估了这个数据集的视差精度。移动深度[45]是由移动电话捕获的真实世界DFF数据集。该数据集由来自11个场景的11个对齐焦点堆栈和2个未对齐堆栈组成。图像分辨率在360640和518774和帧的数量范围从每堆栈14到33。既不提供地面实况深度，也不提供焦距。由于[45]仅在11个对齐的焦点堆栈上发布了他们的结果，并且没有代码可用，因此我们仅在对齐的场景上评估我们的方法以进行定性比较。4.2. 与最新技术水平的为了评估模型性能，我们比较了我们的差分聚焦体积网络，表示为12648Mj=1Σ方法MSE↓RMS↓日志RMS ↓ABS. rel.↓平方rel. ↓δ↑δ2↑δ3↑砰。↓avgUnc.↓时间（ms）↓[29]第二十九话29.66e−25.05e−10.871.1885.62e−217.9232.6650.311.12––RDF [18]11.15e−23.22e−10.710.4623.95e−239.4864.6576.131.54––DDFF [13]3.34e−21.67e−10.270.173.56e−272.8289.9696.261.74–50.6[27]第二十七话2.18e−21.34e−10.240.153.59e−281.1493.3196.622.52–24.7Ours-FV1.88e−21.25e−10.210.142.43e−281.1694.9798.081.450.2418.1我们的DFV2.05e−21.29e−10.210.132.39e−281.9094.6898.051.430.1718.2表1. FoD500测试集的评估结果。方法MSE↓RMS↓日志RMS ↓ABS. rel.↓平方rel. ↓δ↑δ2↑δ3↑砰。↓avgUnc.↓时间（ms）↓[29]第二十九话156.55e−412.14−20.981.38241.2e−315.2629.4644.890.43––RDF [18]91.81e−49.41e−20.911.00139.4e−315.6533.0847.481.33––DDFF [13]8.97e−42.76e−20.280.249.47e−361.2688.7096.490.52–191.7[27]第二十七话8.61e−42.55e−20.230.176.00e−372.5694.1597.920.46–34.3Ours-FV6.49e−42.28e−20.230.187.10e−371.9392.8097.860.425.20e−233.2我们的DFV5.70e−42.13e−20.210.176.26e−376.7494.2398.140.424.99e−233.3表2.DDFF-12验证集的评价结果DFV，我们还比较了我们的方法的一个变体，称为“我们的FV”，它使用深聚焦体积，如第二节所述。3.2.VDFF和RDF是经典的DFF方法。VDFF使用拉普拉斯聚焦测量和变分框架来生成平滑的深度估计。RDF使用环差滤波器作为聚焦度量，并使用引导滤波器聚合聚焦体积我们使用作者提供的代码，并使用默认参数在测试集上运行它。DDFF和DefocusNet分别是DFF和DFD的两种深度学习方法。我们以两种不同的方式从头开始用原始代码训练模型：（1）像我们的方法一样在混合数据集上训练，（2）首先在FoD 500数据集上训练，然后像DefocusNet那样在DDFF-12数据集上进行微调。对于这两种方式，我们都训练它，直到验证损失收敛，并选择DDFF-12验证集上性能更好的一个进行测试。由于我们的模型学习预测最佳聚焦概率，而不是深度或视差，因此在混合数据集训练中深度，反之亦然。但是我们发现，对于DDFF和DefocusNet，这样的统一提高了它们的性能。因此，我们将这两个数据集的基础事实转换为方法也就是说，在训练时，我们将DDFF-12中的地面真实视差转换为DefocusNets的深度，并将FoD 500中的地面真实深度因此，DDFF倾向于第一种训练方法，而DefocusNet倾向于第二种。AiFDepthNet是一种基于大量数据训练的深度学习方法，包括DDFF-12，FoD 500，Flying-ingThings 3D [28]和4D Light Field [14]。网络监督既可以是地面实况深度，也可以是相应的全聚焦图像。因为它不会释放训练代码，我们不能在我们的实验设置下重现他们的结果。因此，我们仅在DDFF-12测试集的比较中包括AiFDepth-Net，其中其结果直接复制自AiFDepthNet论文[47]。为了进行公平的比较，所有方法在训练时通过随机采样从输入焦点堆栈中取出五帧具有最小或最大焦距/视差的帧将始终在测试时进行采样。我们采用与[ 13 ]中使用的相同的度量，并引入一个新的度量，称为平均不确定性（a vgUnc.）： 1比较Ours-FV和Ours-DFV的预测置信度。FoD500上的结果。表1给出了FoD500的定量结果。由于有限的采样频率（5帧/堆栈），这两种经典的方法无法提供有竞争力的结果。相比之下，所有的深层方法都工作得很好。与DDFF和DefocusNet相比，我们的方法提供了更准确和平滑的结果，这也可以从图3中前两行的定性结果中看出。我们的方法更好地保留了物体的边界，如齿轮和左齿轮的中心孔，并显示出更平滑的物体表面上的深度推断。该观察验证了深4D FV的能力DFV的有效性在精度（前八个）和平滑度（凹凸）方面并不显著。由于数据集的简单性，但是avgUnc。Ours-DFV的置信度低于Ours-FV，表明Ours-DFV的置信度较高DDFF-12的结果。DDFF-12是一个更具挑战性的数据集，因为在现实世界的场景中有很大的无纹理区域为了在该数据集上达到高精度，方法必须捕获弱散焦信号并利用上下文信息来进行合理的估计。由于DDFF-12排行榜只允许参与者提交他们自己的方法，我们首先对12649方法MSE↓RMS↓日志RMS ↓ABS. Rel.↓平方rel.↓δ↑δ2↑δ3↑砰。↓DDFF [13]9.68e−49.01e−20.320.290.0161.9585.1492.980.59[47]第四十七话8.6e−4–0.290.250.0168.3387.4093.960.63Ours-FV6.54e−47.55e−20.250.200.0168.5891.2697.360.58我们的DFV5.58e−46.87e−20.230.190.0174.2692.3897.390.57表3.DDFF-12测试装置的评估结果除了AiFDepthNet的结果来自[ 47 ]之外，所有值都来自DDFF-12排行榜验证集。表2给出了定量结果。与FoD500的结果一样，深度学习方法的性能远远超过经典方法。我们的两种方法始终优于其他深度学习方法。得益于DFV模块，Ours-DFV能够更好地识别弱散焦信号，比Ours-FV更准确，更自信。例如，Ours-DFV的MSE比DDFF低36.4%，比DefocusNet低 33.8%，比Ours-FV低12.2%定性结果见图3的最后两行。补充材料中有更多的例子。在材料中，我们还说明了Ours-DFV的聚焦概率分布，这从经验上表明网络确实学会了定位最佳聚焦像素。最后，我们在训练集和验证集上训练Ours-FV和Ours-DFV模型，使用相同的方案和子模型。方法MSE↓RMS↓Abs.rel.↓时间（ms）↓DFV-L16.65e−42.30e−20.1824.1DFV-L26.16e−42.20e−20.1728.0DFV-L35.94e−42.16e−20.1730.9我们的DFV5.70e−42.13e−20.1733.3表4.不同多尺度变量的性能。跳转然而，我们注意到，随着帧数的增加，附加帧的影响正在减弱。[13]的作者还报告说，他们在DDFF-12数据集上的网络性能在帧数达到10（这是他们最终向公众发布的堆栈大小）后停止改善。需要进一步研究每个堆栈包含更多帧的新数据集，以找到实际原因。将测试结果提交到排行榜3。表3显示了结果，其中所有值都来自排行榜，除了AiFDepthNet的值来自他们的论文[47]。在提交时，Ours-DFV在排行榜上排名第一运行时间。我们比较了各种深度学习方法的运行速度。所有型号都在NVIDIA 1080Ti GPU上使用5帧焦点堆栈输入进行测试。结果以ms为单位示于表1和表2中。我们的方法比DefocusNet稍快，比DDFF快三到六倍。此外，我们的FV和我们的-DFV具有几乎相同的运行时间（±0.1ms），1086422 4 6 810#框架0.120.100.080.060.040.02显示了DFV模块的效率4.3. 消融研究焦点堆栈大小。在DFF中，输入焦点堆栈大小是方法性能的关键变量。我们通过训练不同大小的Ours-DFV来评估我们的模型对堆栈大小的敏感性，N = 2，.. . .在DDFF-12训练集上用相同的训练方案进行了测试，并在验证集上进行了测试。我们在实验中排除了FoD500，因为它的焦点堆栈只包含5帧。图4显示了图4.模型性能w.r.t.焦点堆栈大小。多尺度架构。我们的网络使用多尺度架构和深度监督（等式1）。4）在训练时应用为了研究这种设计的影响，我们训练了Ours-DFV模型的三个变体DFV-Lk，其中k=1，2，3。在每个变体中，我们只使用k个最大规模的DFV，并从网络中删除其余的DFV和相关的3DCNN模块。例如，对于DFV-L2，只有2个最大规模的DFV（1和1）及其asso-MSE和avgUnc。变更W.R.T.输入帧num-48ber.完整的指标表可在手册材料中找到。我们可以看到模型开始提供相当准确的MSE结果，只有3帧/堆栈。avgUnc。随着堆栈大小的增加而减少，表明模型3https://competitions.codalab.org/competitions/17807#results引用的3D CNN模块被使用。培训计划与我们的DFV相同DDFF- 12验证集的评价结果见表4。深度精度随着DFV模块的使用而增加，验证了多尺度设计的有效性。与表 2 相比，即使使用单个 DFV 模块（ DFV-L1），该模型仍然比现有的DFF和DFD方法好得多。这证明了DFV的有效性。10-4MSEavgUnc.MSE平均不确定性12650图像移动DFF DDFF DefocusNet AiFDepthNet Ours-FV Ours-DFV图5.移动深度数据集的定性结果颜色越暖，深度值越大4.4. 对未知场景模型对未知场景的泛化能力对于深度DFF方法很重要。为了评估我们模型4.2，在Moblie深度数据集上，并将它们与Mo- bileDFF [45]和AiFDepthNet [47]进行比较。MobileDFF是一种结合了DFF和DFD优点的传输方法。结果直接来自作者。对于AiFDepth- Net，由于作者只发布了他们的预训练模型，因此我们将他们的深度监督移动深度模型应用于实验。由于缺乏地面实况深度，我们将所有结果标准化并进行视觉比较。部分结果见图5，其余结果见补充材料。所有的深度方法都提供了合理的深度估计。与其他深度方法相比，Ours-DFV更好地保留了对象边界，第一排前面的瓶子和第二排的球。我们的DFV对背景图案也不太敏感，例如第一行中的瓷砖。但是，所有方法（DDFF除外）都对镜面反射（第三行的屏幕）敏感一个可能的原因是摄像机和屏幕上显示的物体之间的有效距离等于摄像机和屏幕之间的距离与屏幕和物体之间的距离之和CoC变得更大，所以所有五种方法都将其推断为更远距离的物体。DDFF网络是从一般的稠密预测任务中引入的，其可以更集中于上下文信息，并且因此在这样的区域中给出更好的估计。在所有方法中，MobileDFF似乎恢复了最多的细节。这部分是因为MobileDFF将整个焦点堆栈（范围从14到33帧/场景）作为输入，而深度模型（包括我们的模型）只使用5帧。此外，MobileDFF是一种优化方法，处理一个场景需要几分钟[45]。与此同时，我们的方法在几十毫秒内运行。5. 结论在这项工作中，我们为DFF任务开发了一种新的CNN架构在某种程度上，我们的网络设计是an-ogous传统的DFF方法和最近的深度立体匹配方法。所提出的深度差分聚焦体积模块能够结合焦点和上下文信息进行焦点估计。在不同数据集上的实验表明，我们的模型在准确性，效率和通用性方面具有优越的性能。目前，我们的模型只能在静态场景中对齐良好的焦点堆栈上工作。在未来，探索针对不完全对齐堆栈的特定数据增强方法是有趣的。我们还计划将光流[45]或单应性[18]对齐机制集成到模型中，并将其扩展到动态环境。谢谢。这项工作得到了NSF奖#1815491的部分支持。12651引用[1] Muhammad Bilal Ahmad和Tae Sun Choi图像聚焦三维形状在液晶显示器制造中的应用。IEEE Trans. Consum.电子学。，53（1）：1-4，2007. 2[2] 让-巴蒂斯特·阿莱拉克，若昂·卡雷拉，安德鲁·齐瑟曼。目视离心机：无模型分层视频表示。在CVPR中，第2457-2466页，2019年。2[3] Chadi Albitar，Pierre Graebling，and Christophe Doignon.用于三维重建的鲁棒结构光编码。在ICCV中，第1-6页。IEEE，2007年。1[4] Usman Ali ， Ik Hyun Lee ， and Muhammad TariqMahmood.聚焦形状中的引导图像滤波：比较分析。模式识别，111：107670，2021。1[5] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR中，第5410-5418页，2018年。二、三[6] Zhang Chen，Xinqing Guo，Siyuan Li，Yang Yang，and Jingyi Yu.深眼：使用单眼和双眼线索的联合深度推断。神经计算，453：812-824，2021。一、二[7] Xinjing Cheng，Peng Wang，and Ruigang Yang.使用卷积空间传播网络学习深度PAMI，42（10）：2361-2379，2019。2[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，第2758-2766页二、三[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度arXiv预印本arXiv：1406.2283，2014。1[10] 范天天和于宏斌。提出一种基于3d方向可调滤波器的聚焦形状方法，以提高对无纹理区域的处理性能。光学通信，410：254-261，2018。一、二[11] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在ICCV，第3828-3838页，2019年。1[12] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在ICCVW，第3154-3160页，2017年。4[13] Caner Hazirbas ， Sebastian Georg Soyer ， MaximilianChris-tianStaab，LauraLeal-Taix e'和DanielCremers。深度聚焦。在ACCV，第525-541页，2018年。一、二、五、六、七、八[14] Katrin Honauer，Ole Johannsen，Daniel Kondermann，and Bastian Goldluecke. 4d光场深度估计的数据集和评估方法。在ACCV，第19- 34页，2016年。6[15] 柯特·霍尼克，麦克斯韦·斯廷奇科姆，和哈伯特·怀特.多层前馈网络是通用的逼近器。神经网络，2（5），1989年。4[16] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。PAMI，35（2）：504-511，2012. 2[17] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR中，第2462-2470页2[18] Hae-Gon Jeon，Jaeheung Surh，Sunghoon Im，and In SoKweon. 环差滤波器，用于快速和噪声鲁棒的焦点深度。TIP，29：1045-1060，2019。二、六、八[19] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR中，第7482-7491页，2018年。4[20] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在ICCV，第66-75页，2017年。2[21] 埃里克·克罗特科夫。专注IJCV，1（3）：223-237，1988年。2[22] Jae Young Lee和Rae-Hong Park。复值不对称性：基于光场梯度的立体深度、聚焦深度和散焦深度的统一深度模型。PAMI，2019。2[23] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。4[24] 穆罕默德·塔里克·马哈茂德和崔泰善聚焦形状图像聚焦体积增强的非线性方法。TIP，21（5）：2866-2873，2012. 2[25] Fahim Mannan和Michael S Langer。什么是一个很好的模型从散焦深度？在CRV，第273-280页，2016年。1[26] Yamin Mao，Zhihua Liu，Weiming Li，Yuchao Dai，Qiang Wang ， Yun-

下载后可阅读完整内容，剩余1页未读，立即下载