没有合适的资源?快使用搜索试试~ 我知道了~
1用于单目深度估计和3D目标检测的斯坦福大学jchang10@stanford.edu戈登·韦茨斯坦斯坦福大学gordon. stanford.edu摘要深度估计和3D对象检测对于场景理解至关重要,但由于图像捕获期间3D信息的丢失,因此对单个图像执行仍然具有挑战性最近使用深度神经网络的模型已经提高了单目深度估计性能,但在预测绝对深度和在标准数据集之外进行在这里我们介绍了深光学的范式,即。光学和图像处理的端到端设计我们评估了几种光学编码策略以及三个数据集(包括NYU Depth v2和KITTI)上的端到端深度估计优化方案。我们发现一个优化的自由曲面透镜设计产生最好的结果,但色差从单透镜提供了显着改善的性能。我们建立了一个物理原型和validate色差改善深度估计的现实世界的结果。此外,我们在KITTI数据集上训练了对象检测网络,并表明针对深度估计优化的镜头也可以提高3D对象检测性能。1. 介绍深度感知对于许多3D计算机视觉任务至关重要,包括语义分割[33,38,10],3D物体检测[37,22,11,40,41],3D物体分类,阳离子[45,24,30]和场景布局估计[49]。所需的深度信息通常通过专用相机系统获得,例如使用飞行时间、结构化照明、脉冲LiDAR或立体相机技术。然而,对定制传感器、高功率照明、复杂电子器件或庞大的设备形状因子的需要通常使得在实践中采用这些专用设备是困难的或昂贵的。利用常规相机的单图像深度估计已经是研究的活跃领域。传统的方法利用预定义的图像特征,这些特征是图1.我们应用深层光学,即。光学和图像处理的端到端设计,以构建光学编码器、CNN解码器系统,用于改进的单目深度估计和3D对象检测。与深度统计相关,例如,阴影,透视失真,遮挡,纹理梯度和雾度[17,35,16,48,36,18]。最近,通过卷积神经网络(CNN)将手工制作的特征替换为学习的特征,已经取得了显着的改进[5,19,8,6]。虽然这些方法往往在一致的数据集内表现良好,但它们不能很好地推广到不属于训练集的场景。本质上,仅从图像线索估计深度图的问题是不适定的对深度相关场景信息进行光学编码有可能消除全聚焦图像中固有的一些模糊,例如使用(编码)散焦模糊[28,26,20,43,1]或色差[42]。然而,很大程度上不清楚不同的光学编码策略如何相互比较,以及针对特定任务的最佳策略可能是什么。受深度光学最近工作的启发[2,39,12],我们将编码离焦模糊的深度估计问题解释为可以端到端方式训练的光学编码器,电子解码器系统。尽管共同设计光学器件和图像处理是计算摄影中的核心思想,但是只有可微分估计算法(诸如神经网络)允许真正的端到端计算相机设计。在这里,训练期间的误差反向编程不仅优化了网络权重,而且优化了物理透镜参数。与建议的深1019310194光学方法,我们评估了两个重要的3D场景理解问题的几种光学编码策略:单目深度估计和3D对象检测。在一系列的实验中,我们证明了深度光学方法优化了多个数据集的深度估计的准确性。与以前的工作一致,我们表明,通常被认为是不可取的图像质量的光学像差是非常有益的编码深度线索。我们的研究结果证实,散焦模糊提供了有用的信息,我们还发现,增加散光和色差进一步提高精度。我们通过联合优化一个自由曲面透镜,即。透镜的空间变化的表面高度以及CNN的权重。然而,令人惊讶的是,我们发现优化透镜的精度仅略好于具有色差的标准散焦。这种洞察力激励使用简单的相机,只有一个镜头复杂的镜头系统时,优先考虑深度估计质量,我们验证了实验原型。我们还评估了深层光学对更高层次的3D场景理解任务的好处。为此,我们在KITTI数据集上训练PointNet[29] 3D对象检测网络。我们发现,与全聚焦单目图像相比,通过优化镜头捕获的图像在3D对象检测中也表现得更好,这是一项需要在深度估计之上进行语义理解以预测对象实例上的3D边界框的任务总之,我们的实验表明,与并行训练的神经网络配对的优化镜头可以在不牺牲更高级别的图像理解的情况下改善深度估计。具体而言,我们做出以下贡献:• 我们建立了一个可微分的光学成像模型,该模型考虑了固定的(散焦,像散,色差)或可优化的(自由形状或环形)。透镜设计,我们将其与可微重构算法相结合,即,CNN。• 我们在三个数据集(矩形,纽约大学)Depth-v2,KITTI)。优化的自由形式相位掩模产生最佳效果,色差紧随其后。• 我们建立了一个物理原型,并验证了捕获的图像与色差实现更好的深度比他们的所有重点同行估计。• 我们用优化的镜头训练了一个3D物体检测网络,并证明了改进的深度估计的好处贯穿到更高层次的3D视觉。请注意,我们的工作目标不是开发最先进的深度估计网络架构,而是了解深度光学相对于固定透镜的相对优势。然而,我们的实验表明,与采用全聚焦图像作为输入的更复杂的网络相比,使用非常简单的U-Net [34]在深度估计任务上实现了更低的均方根误差2. 相关工作深单眼深度估计人类能够从单个图像中推断深度,提供足够的上下文提示,允许观看者从过去的经验中绘制。深度单目深度估计算法旨在通过训练神经网络来执行该任务来模拟这种能力[5,19,8,6]。使用各种网络架构、损失函数和监督技术,单眼深度估计可以在一致的数据集上相当成功,例如KITTI [7]和NYUDepth [38]。然而,性能高度依赖于训练数据集。为了解决这个问题,最近的几种方法已经将物理相机参数并入其图像形成模型中,包括焦距[14]和散焦模糊[1],以将3D信息隐式编码为2D图像。我们以这些先前的见解为基础,进行了一项更广泛的研究,评估了几种类型的固定镜头以及用于单目深度估计和3D物体检测任务的完全可优化的相机镜头。用于深度估计的计算摄影修改相机参数以改进深度估计是计算摄影中的常见方法。例如,已经示出了对相机孔径的幅度[20,43,50]或相位[21]进行编码以改进深度重构。色差也已被证明可用于估计场景的深度[42]。而传统的散焦模糊是围绕焦平面对称的,即在焦平面前面的一个距离与焦平面后面的另一个距离具有相同的PSF,具有色差的散焦模糊是明确的。在所有这些方法中,深度信息被编码到图像中,以帮助算法成功完成某个任务,例如深度估计。在本文中,我们将相关的光学编码技术与更现代的深度学习方法相结合。与以前的工作相比,深度学习方法的主要好处是它允许将损失函数应用于高级视觉任务,例如,目标检测,然后可以以原则性的方式直接影响深度学习可用于联合训练相机光学和基于CNN的估计方法。这种方法最近被证明用于扩展景深和超分辨率成像[39]、图像分类[2]和超分辨率定位显微镜[25]。对于单目深度估计的应用,Haimet al.设计了一个由同心环10195不同深度自由空间传播自由空间传播PSFs点源点源.相位、振幅掩模|薄透镜传感器横截面强度深度:0.50米0.57米0.65m的的0.77m0.94米1.21米1.68米2.78米8.00米图2. PSF仿真模型(上)通过放置在薄透镜前面的相位掩模的点源的光学传播模型。通过计算传感器平面处的电场强度来模拟PSF。(底部)仅从薄透镜散焦、具有色差并且使用以像散初始化的优化掩模来采样PSF。以诱导可以用作深度线索的色差[12]。训练过程优化了两个或三个环形环内的环半径和相移,但不允许偏离该基于环的模板。同时,独立于我们的工作,吴等。还开发了用于基于CNN的深度估计的联合优化相位掩模[44]。然而,我们的论文独特之处在于,我们评估了非优化像差透镜以及完全可优化的自由曲面透镜的比较性能,使我们能够将优化的光学器件与这些类型的典型不良像差进行公平比较。此外,我们的工作为其他常用数据集提供了结果,并评估了我们的深度优化镜头对3D物体检测等高级视觉任务的好处3. 微分成像模型为了优化对深度相关场景信息进行最佳编码的光学镜头元件这不仅在物理上是精确的,而且还允许折射和衍射3.1. 传统相机建模我们首先建立一个相机模型,由一个单一的凸薄透镜组成,焦距为f,与传感器的距离为s(见图2)。2)的情况。对焦距离和传感器距离之间的关系由薄透镜方程给出:1/f= 1/d+ 1/s(1)因此,在透镜前方距离d处的物体在透镜后方距离s处当对真实世界场景进行成像时,可能存在以不同PSF成像的多个深度处的对象。为了模拟深度z处的PSF,我们考虑以光轴为中心的波长λ的点发射器,其位于距薄透镜的中心距离z处我们的一般方法是通过光学系统将光波传播到传感器。首先,我们首先将点发出的光(表示为球面波)传播到透镜。紧接在透镜之前的复值电场由下式给出:优化光学元件。由于大多数自然场景中的光是不相干的,我们只能依靠U在√(x,y)= exp(ik x2+y2+z2)(2)相干光传输模型来模拟系统的深度和波长相关的点扩散函数(PSF),然后我们使用它来模拟传感器图像。其中k= 2π/λ是波数。下一步骤是通过将输入乘以相位延迟t(x,y)来将该波场传播通过透镜。色差优化掩模仅散焦10196U1PSF2由透镜上每个位置处的厚度和折射率引起在近轴区域[9]中,焦距为f且折射率为n(λ)的凸薄透镜的厚度分布Δ(x,y)为X2+y2即具有附加的任意厚度分布λff(x,y)。相应的相位延迟为tff(x,y)=exp[jk(nff(λ)−1)<$f f(x,y)](9)其中nff(λ)是折射率的波长相关指数,∆(x,y)=∆0−2f(n(λ)−1)(三)镜片材料的选择。我们用Zernike基(索引1-36,[27]),这导致更平滑其中,φ0是中心厚度。请注意,表面。自由曲面透镜的强度PSF则为折射率是波长相关的,这在使用具有多个波长的固定单透镜时导致色差。将厚度转换为相应的PSFλ,z(x,y;λ)=|F−1{F{A·t透镜· tff · U在{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}|2(x,y)(十)相移φ=k(n−1)∆,忽略与∆0的恒定相位偏移,则相位变换为3.3. 深度相关成像我们可以用这些模拟的PSF来估算一个上限-Σt(x,y)=eiφ(x,y)= exp−ik2FΣ(x2+y2)(四)在RGB传感器上的3D场景的固定图像。我们使用分层表示,将场景建模为离散深度平面上的一组表面[13]。这使得预-此外,由于透镜具有一定的有限孔径尺寸,我们插入一个振幅函数A(x,y),它阻挡了开口孔径之外区域的所有光线。为了找到紧接着透镜之后的电场,我们将透镜的振幅和相位调制乘以输入电场:Uout(x,y)=A(x,y)t(x,y)Uin(x,y)(5)对应于每个深度平面的固定数量的PSF的插补。我们在这里做了一些修改,以适应我们的数据集,这些数据集由全聚焦RGB图像及其离散深度图组成 对于全聚焦图像L,一组j= 1。. . J离散深度层和遮挡masks{Mj},我们通过以下公式计算最终图像J最后,场以精确的传递函数传播到传感器的距离s[9]:Iλ=j=1(Lλ<$PSFλ,j)<$Mj(11)Σ 。ΣH s(fx,fy)=exp iks1−(λfx)2−(λfy)2(6)其中*表示每个颜色通道cen的2D卷积在λ上,和◦表示逐元素乘法。遮挡掩模{Mj}表示图像的各个层。量化的深度图,模糊和归一化,其中(fx,fy)是空间频率。这个转移函数-在傅立叶域中应用如下:′′−。Σ传感器(x,y)=F F{Uout(x,y)}·Hs(fx,fy) (7)其中F表示2D傅里叶变换。由于传感器测量光强度,我们采用幅度平方来找到最终PSF:′ ′ ′ ′λ,z(x,y)= |U传感器(x,y)|(八)通过遵循这一序列的正演计算,我们可以为每个感兴趣的深度和波长生成2D PSF。对于色差,我们计算每个颜色通道的t(x,y)(等式2)4),这导致三个略有不同的PSF。为了近似消色差透镜,我们使用所有颜色通道的中心波长PSF(图1B)。2)的情况。3.2.自由曲面镜片建模几个变量,如焦距,焦距和光圈大小由上述公式建模。为了使PSF成形的自由度最大,我们还可以通过假10197设将光学元件视为自由曲面透镜在每 个 像 素 处 j Mj= 1,以确保深度之间的平滑过渡(参见补充)。4. 深度估计在本节中,我们描述了我们使用深度光学器件进行具有编码模糊的单目深度估计的实验。4.1. 网络和培训对于深度估计,我们将我们的可微分图像形成模型连接到U-Net [34],该U-Net将模拟传感器图像或原始全聚焦数据集图像作为输入。该网络由5个downsam组成-采样层({Conv-BN-ReLU}×2→ MaxPool 2 ×2),之后 是 具 有 跳 跃 连 接 的 5 个 上 采 样 层 ( ConvT+Concat→{ Conv-BN-ReLU}× 2)。输出是预测的深度图,分辨率与输入相同形象我们使用ADAM优化器,在对数深度上具有均方误差(MSE)损失。我们以.001的学习率(对于矩形数据集,衰减到1 e-4)和3的批量大小训练了40,000次迭代。我们在(1)一个自定义矩形数据集上进行评估,该数据集由黑色背景上的白色矩形10198图3. 深度相关成像。给定一组镜头参数、全聚焦图像及其分箱深度图,图像形成模型生成适当的PSF,并应用具有掩蔽的深度相关卷积来模拟相应的传感器图像,然后将其传递到U-Net中进行深度估计。放置在随机深度(参见补充),(2)具有标准分割的NYU Depthv2数据集,以及(3)与对象检测数据集重叠 的 KITTI 深 度 数 据 集 的 子 集 ( 5500 train , 749val),[23]第10段。我们在全尺寸图像上训练我们在标准裁剪尺寸上计算NYU Depth的损失,并且仅在官方稀疏地面实况深度上计算KITTI的损失对于矩形和NYU深度数据集,我们将相位掩模初始化为f/8,50 mm焦距镜头,聚焦到1 m。对于KITTI数据集,我们初始化一个f/8,80 mm焦距的镜头,聚焦到7.6 m。当镜头被优化时,我们还使用固定镜头的优化权重初始化U-Net,并且每个训练步骤调整镜头的参数(自由形式的Zernike系数,环形的环高度)和U-Net。我们在模拟中使用12个深度仓,在反向深度中线性间隔。 当为KITTI数据集优化自由曲面镜头时,由于GPU内存限制,我们将其减少到6个间隔,并进行30,000次迭代训练;然后我们冻结镜头并增加到12个间隔,以微调U-Net额外的30,000次迭代。4.2. 分析与评价表1显示了所有数据集的结果总结。模拟传感器图像和来自NYU Depth和KITTI的预测深度图的示例在图1中示出4(见矩形的补充)。我们观察到所有数据集的共同趋势。当使用全聚焦图像时,误差最高。对于矩形数据集,这是最直观的理解。如果有一个随机大小的白色矩形漂浮在空间中,并且始终处于焦点位置,那么网络就没有深度线索可以识别,并且网络预测每个矩形的平均深度仅散焦的深度提高但是由于在从焦平面的两个方向上沿着逆深度的对称模糊,仍然存在模糊性散光(详见补遗)有助于解决这种模糊性,而单透镜的固有色差进一步改善了结果。我们为每个数据集优化两个自由曲面透镜。环形透镜由三个不同高度的同心层组成,灵感来自[12]。虽然这些优化的镜头优于全聚焦实验,但它们并没有比固定镜头的色差产生更高的精度相比之下,优化的自由曲面透镜显示出最好的结果,证明了端到端优化学习更好地编码深度信息的新自由曲面透镜的能力。对于NYU Depth,我们发现附加地初始化具有散光的BADFF产生更好的结果。表2比较了NYU深度测试集的默认指标与先前工作报告的结果。这些比较表明,添加模型的光学部分可以产生与具有更重量级和精心设计的网络的最新方法相当的结果4.3. 实验结果我们建立了一个原型的单目深度估计使用- ING色差对现实世界的场景。尽管完全优化的镜头在模拟中表现最好,但色差产生的效果令人惊讶地好,几乎与优化的光学器件不相上下。与定制制造的优化透镜不同,具有这样的像差的简单透镜是容易获得的、便宜的,并且提供小的形状因子。因此,我们选择利用具有畸变的现成透镜用于我们的物理实验。我们的相机由Canon EOS Rebel T5相机和具有圆形光圈(D=0.8 mm)。我们捕获了一系列点白光源的图像,以校准建模的PSF,主要是通过调谐,10199光学模型矩形NYU深度v2KITTI*RMSE线RMSE日志RMSE线RMSElog10RMSE线RMSE日志全聚焦0.46260.35880.95560.14522.91000.1083散焦,消色差0.22680.18050.48140.06202.54000.0776消色差散光0.13480.07710.45610.05592.36340.0752色差0.09840.05630.44960.05562.25660.0702优化,环形0.16870.12600.48170.06232.79980.0892优化,自由形式0.09020.05230.43250.05201.92880.0621表1.不同光学模型对不同数据集的深度估计误差报告深度(m或log(m))的线性和对数(以e或10为底)缩放的最低的错误以粗体显示,第二低的错误以斜体显示。KITTI* 数据集是我们的KITTI数据集子集。NYUDepthv2深度估计示例原始图像地面实况全聚焦散焦色差优化,自由形式优化透镜的传感器图像RMSE=1.001 RMSE=0.437 RMSE=0.417 RMSE=0.370RMSE=0.824RMSE=0.353RMSE=0.223RMSE=0.158KITTI深度估计示例RMSE = 1.022RMSE=0.484 RMSE=0.394RMSE=0.329(m)0 7或50原始图像地面实况全聚焦RMSE=6.089RMSE=10.165优化,自由形式RMSE=3.160RMSE=4.0783传感器图像图4. 深度估计。(顶部)来自NYU Depth v2数据集的RMSE(m)示例,包含全聚焦、散焦、色差和优化模型。还示出了来自优化系统的模拟传感器图像。(下)RMSE示例(m)来自KITTI数据集(裁剪以适应),具有全焦点和优化模型;还示出了来自优化模型的传感器图像。所有深度贴图都使用相同的色彩贴图,但NYU Depth的最大值为7 m,KITTI的最大值为50 m。计算球面像差参数。我们用NYU深度数据集重新训练用于校准的PSF的深度估计网络,包括由于与相机传感器相比数据集的图像尺寸较小而导致的下采样因子4对于这个网络,我们应用sRGB转换来生成模拟的传感器图像,这允许我们在评估期间直接输入sRGB相机图像。我们捕获的图像对与原型的描述随着一个全焦点图像获得的添加一个1 mm的针孔(见附录)。我们使用重新训练的深度估计网络从模糊图像预测深度图,并且我们使用全聚焦网络从全聚焦图像预测对应的深度图。图5显示了一些例子;更多的是包括在补充。利用光学模型的深度估计在捕获的图像上表现得明显更好,因为物理深度信息被编码到图像中,从而允许网络不仅仅依赖于数据集先验来进行预测。10200图5. 真实世界的捕捉和深度估计。(顶部)捕获和校准的深度相关PSF,以相同比例显示。(底部)使用我们的原型捕获的图像的示例,其中具有缩放区域插入、具有色差的深度估计以及来自对应的全聚焦图像(未示出)的深度估计。深度贴图的色阶对于所有深度贴图都是相同的。方法rellog10 RMSδ1δ2δ3Laina等人[19个]0.127 0.055 0.573 0.811 0.953 0.988MS-CRF [47]0.121 0.052 0.586 0.811 0.954 0.987DORN [6]0.115 0.051 0.509 0.828 0.965 0.992全聚焦0.293 0.145 0.956 0.493 0.803 0.936散焦0.108 0.062 0.481 0.893 0.981 0.996散光0.095 0.056 0.456 0.916 0.986 0.998色0.095 0.056 0.450 0.916 0.987 0.998自由形式0.087 0.052 0.433 0.930 0.990 0.999表2.在NYU Depth v2测试集上的比较性能,如[5]中所计算。单位为米或log10(m)。阈值表示为δ1:δ >1。25i.最低误差和最高δs用粗体表示。我们的原型的一个局限性是它的视场较小,主要是由于空间变化的性质,真正的PSF,这阻止了完整的室内场景的处理。这可以通过添加另一个透镜来校正离轴像差[4]或通过将这些变化包括在成像模型中[15]来改进。对空间变化的PSF进行建模是具有挑战性的,因为图像形成模型变成了计算密集度高得多的模拟,并且我们的基于U-Net的网络最适合于移位不变性,但可能不太适合。由于这些和其他原因,没有现有的类似深光学的方法实际上对离轴像差进行建模,但这将是未来工作的非常有价值的方向。表3.通过使用全聚焦和优化掩模模型对KITTI对象检测数据集进行验证分割,通过2D AP %(IoU = 0.5)和3D AP %(IoU = 0.5)测量对象检测性能。较高的值以粗体显示。5. 3D对象检测为了评估针对改进的深度估计进行优化的光学系统是否也有利于更高级别的3D场景理解,我们使用早期的深度优化镜头在KITTI数据集上评估3D对象检测性能。3D对象检测需要识别对象的不同实例并回归每个对象实例周围的定向3D边界框。深度信息,无论是隐含地包含在图像中,目标检测度量全聚焦优化2D地图78.0178.962D AP,汽车95.5095.152D AP,行人80.0680.222D AP,自行车手89.7788.113D AP,儿科,容易9.7413.863D AP,儿科,中度7.1011.743D AP,儿科,硬6.2111.903D AP,循环,容易2.277.183D AP,循环,中度2.364.893D AP,循环,硬1.984.9510201方法输入三维物体定位3D对象检测容易中度硬容易中度硬Mono3D [3]RGB5.225.194.132.532.312.31MF3D [46]RGB22.0313.6311.610.535.695.39MonoGRNet [31]RGB---13.8810.197.62VoxelNet [51]RGB+激光雷达89.684.8178.5781.9765.4662.85FPointNet [29]RGB+激光雷达88.1684.0276.4483.7670.9263.65(我们的)全方位聚焦RGB26.7119.8719.1116.8613.8213.26(Ours)优化、自由RGB37.5125.8321.0525.2017.0713.43表4. 3D对象定位AP %(鸟瞰图)和3D对象检测AP %(IoU = 0. (7)汽车类。文献中列出的数字在KITTI验证集上报告;我们的方法的结果在我们的KITTI* 验证分割中报告(第2.2节)。4.1)。由深度传感器明确提供的“RGB + LIDAR”对于该任务是关键的,如表4中的RGB和RGB+LIDAR方法之间的性能的大差距所证明的。我们训练了一个针对KITTI深度估计优化的自由曲面 镜 头 特 别 是 , 我 们 使 用 了 Frustum PointNet v1(FPointNet,[29]),它被证明可以与稀疏的LIDAR点云和密集的深度图像一起工作。FPointNet在RGB图像上使用2D边界框预测来生成约束3D搜索空间的平截头体建议;则在包含在每个平截头体内的3D点云上进行3D分割和框估计。在我们修改后的网络中,我们用投影到3D点云中的估计深度与原始方法一样,在训练期间使用随机平移和缩放增强的地面真实2D框,但在验证期间使用来自单独训练的2D对象检测网络(FasterR-CNN,[32])的估计2D边界框。为了比较,我们用全聚焦图像及其估计的深度图训练相同的更多的细节和视频包含在附录中。我们的对象检测实验的结果在表3和表4中示出。平均精密度(AP)值通过标准PASCAL方案计算,如KITTI开发套件中所述2D物体检测性能在全聚焦和优化系统之间是相似的,这意味着即使来自优化光学元件的传感器图像看起来比全聚焦图像更模糊,网络也能够从两组图像中提取可比信息。更值得注意的是,3D物体检测通过优化的光学系统得到了改善,这表明FPointNet受益于通过优化的镜头实现的改进的深度图。6. 讨论在我们的实验中,我们证明了一个联合的光学编码器,电子解码器模型优于相应的光学不可知模型使用全聚焦图像。我们建立了一个可微分的光学成像层,我们将其与深度估计网络连接,以允许从相机镜头到网络权重的端到端优化。完全优化的系统产生最准确的深度估计结果,但我们发现,本地的色差也可以编码有价值的深度信息。此外,为了验证改进的深度编码不需要牺牲其他重要的视觉内容,我们表明,优化深度估计的镜头保持2D对象检测性能,同时进一步提高3D对象检测从一个单一的图像。如前所述,我们的结论是从我们的结果之间的相对性能得出的。我们并不声称最终超越现有的方法,因为我们在模拟我们的传感器图像时使用地面真实或伪真实深度图这些模拟近似并不是直接的,除非整个数据集可以通过不同的镜头重新捕获。尽管如此,我们的真实世界实验结果在支持光学深度编码的优点方面是有希望的我们对未来的工作感兴趣,以了解光学层如何进一步改进领先的方法,无论是用于单目深度估计[19,47,6]还是其他任务。更广泛地说,我们的研究结果始终支持这样的想法,即将相机作为网络的可优化部分,与将图像处理与图像捕获完全分开考虑相比,提供了显着的好处在本文中,我们仅将相机视为单个静态光学层,但随着光学计算和计算机视觉研究的不断发展,可能会出现更复杂的设计。致谢我们感谢Vincent Sitzmann和Mark Nishimura的深刻建议。该项目得到了NSF CAREER Award(IIS 1553333)、OkawaResearch Grant、Sloan Fellowship、KAUST Office of Spon-sored Research 的 Visual Computing Center CCF Grant 和PECASE Award(W 911 NF-19-1-0120)的支持。10202引用[1] 马塞拉·卡尔,贝特朗·勒·索克斯,波琳·特鲁夫·埃·佩鲁,还有阿尔曼斯·阿,还有弗雷德里克·香槟。离焦深度:散焦模糊如何使用密集神经网络改进3D估计?在欧洲计算机视觉会议上,第307Springer,2018.一、二[2] Julie Chang,Vincent Sitzmann,Xiong Dun,WolfgangHei-drich,and Gordon Wetzstein.混合光电卷积神经网络与优化衍射光学图像分类。科学报告,8(1):12324,2018。一、二[3] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在IEEE计算机视觉和模式识别会议论文集,第2147-2156页,2016年。8[4] 奥利弗·科赛特和什里·纳亚尔光谱焦点扫描:扩大景深的色差。在2010年IEEE计算摄影国际会议(ICCP)上,第1-8页。IEEE,2010。7[5] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展,第2366-2374页,2014年一、二、七[6] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集,第2002-2011页,2018。一、二、七、八[7] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231-1237,2013. 2[8] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集,第270-279页一、二[9] 约 瑟 夫 · 古 德 曼 。 傅 立 叶 光 学 简 介 。 Macmil- lanLearnng,第4版,2017年。4[10] Saurabh Gupta、Pablo Arbelaez和Jitendra Malik。rgb-d影像室内场景的知觉组织与辨识。IEEE计算机视觉和模式识别会议论文集,第564-571页,2013年。1[11] Saura bhGupta,RossGirshick,PabloArbela' ez,andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议,第345-360页Springer,2014. 1[12] Harel Haim 、 Shay Elmalem 、 Raja Giryes 、 Alex MBronstein和Emanuel Marom。使用深度学习的相位编码掩模从单个图像进行深度估计。IEEE Transactions onComputational Imaging,4(3):298-310,2018。一、三、五[13] Samuel W Hasinoff和Kiriakos N Kutulakos。提出了一种基于图层的变孔径遥感影像物理学计算机视觉,2007年。ICCV 2007年。IEEE第11届国际会议,第1-8页。IEEE,2007年。4[14] Lei He,Guanghui Wang,and Zhanyi Hu.使用深度神经网络嵌入焦距从单幅图像学习深度。IEEE Transactionson Image Processing,27(9):4676-4689,2018。2[15] FelixHeide , MushfiqurRouf , MatthiasBHullin , BjoürnLab-itzke,Wolfgang Heidrich,and Andreas Kolb.通过简单的镜头实现高质量的计算成像。ACM Trans.Graph. ,32(5):149-1,2013. 7[16] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中 检 索 曲 面 布 局 International Journal of ComputerVision,75(1):151-172,2007。1[17] Berthold KP Horn从着色信息获取形状。计算机视觉心理学,115-155页,1975年。1[18] Lubor Ladicky,Jianbo Shi,and Marc Pollefeys.把事情扯远。在Proceedings of the IEEE conference on computervision and pattern recognition,第89-96页,2014中。1[19] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision(3DV),2016年第四届国际会议上,第239IEEE,2016. 一、二、七、八[20] 阿纳特·勒文、罗布·弗格斯、杜兰德和威廉·T·自由人。图像和深度从传统的相机与编码孔径。ACM图形交易(TOG),26(3):70,2007年。一、二[21] AnatLe vin , SamuelWHasinof f , PaulGreen , Fre´doDurand,and William T Freeman.用于景深扩展的计算相机在ACM Transactions on Graphics(TOG),第28卷,第97页中。ACM,2009年。2[22] 林大华,桑雅·菲德勒,拉奎尔·乌尔塔孙。基于rgbd相机的三维目标检测的整体在Proceedings of the IEEEInternational Conference on Computer Vision , 第 1417-1424页,2013年。1[23] Fangchang Mal和Sertac Karaman。稀疏到密集:从稀疏深度样本和单个图像进行深度预测。2018年IEEE机器人与自动化国际会议(ICRA),第1-8页IEEE,2018年。5[24] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议(IROS),第922-928页。IEEE,2015年。1[25] Tomer Michaeli,Yoav Shechtman,等.通过深度学习的多色局部化显微镜。arXiv预印本arXiv:1807.01637,2018。2[26] Shree K Nayar和H Murase。结构化环境中物体识别的光照规划1994年IEEE计算机视觉和模式识别国际会议,第31-38页,1994年。1[27] 罗伯特·诺尔。泽尼克多项式与大气湍流。JOsA,66(3):207-211,1976. 4[28] 亚历克斯·保罗·彭特兰。对景深的新感觉。IEEE模式分析与机器智能汇刊,(4):523-531,1987。110203[29] Charles R Qi , Wei Liu , Chenxia Wu , Hao Su , andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。在IEEE计算机视觉和模式识别会议论文集,第918-927页二、八[30] Charles R Qi,Hao Su,Matthias Nießner,Angela Dai,Mengyuan Yan,and Leonidas J Guibas.用于三维数据对象分类的体积和多视图cnn。在IEEE计算机视觉和模式识别会议的论文集,第5648-5656页,2016年。1[31] 秦增义,王静璐,陆燕。Monogrnet:一个用于单目三维物体定位的几何推理网络。arXiv预印本arXiv:1811.10247,2018。8[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。In C.Cortes, N. D. Lawrence ,D. D. 李, M 。Sugiyama 和R.Garnett , 编 辑 , Advances in Neural InformationProcessing Systems 28 , 第 91Curran Associates , Inc.2015. 8[33] 任晓峰,薄烈风,迪特尔·福克斯。RGB-(d)场景标记:特征和算法。2012年IEEE计算机视觉和模式识别会议,第2759- 2766页IEEE,2012。1[34] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234施普林格,2015年。二、四[35] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。神经信息处理系统的进展,第1161-1168页,2006年。1[36] Ashutos
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功