G. Payen de La Garanderie,A.Atapour Abarghouei,T.布肯
当代端到端CNN驱动的检测方法基于Girshick [23]引入的R-CNN架构。
Fast-RCNN [22]和Faster-RCNN [51]的连续改进通过在提案中分别共享特征
图并使用区域提案网络(RPN)而不是基于滑动窗口的传统技术生成提
案来提高性能。这允许网络的统一端到端训练,以解决组合检测和分类
任务。最近,Yanget al.
[62]和Caiet al. [6]引入了一种多尺度方法,通过汇集来自多个层的区域
建议,以减少所需的建议数量,并提高对较小对象(如远处对象)的性
能
虽然大多数工作集中在2D检测,但Chen等人的工作
al
. [9,10]利用
从立体声或L1- DAR模态获得的3D点云信息来生成使用Fast R-CNN修剪
的3D建议。虽然这些作品使用立体视觉,手工制作的功能或3D模型回归
的复杂安排,最近的进展[8,47,7]表明,它实际上是可以恢复的3D姿
态从单眼图像。Chen等人[8]在能量最小化框架内使用建议的后处理,假
设地平面是已知的。Chabot等人[7]使用3D CAD模型作为模板以在给定部
分检测的情况下回归对象的3D姿态;而Mousavian等人[47]示出了可以使用
仔细表达的几何约束在没有任何模板假设的情况下恢复3D姿态。在这项
工作中,我们提出了一种新的方法,类似于[47],但没有明确表达的几
何约束,它在直线和等矩形全景图像上执行,而不需要任何关于相机的
地平面位置的知识。
2.3
单目深度估计
传统上,密集场景深度使用多视图方法(诸如运动恢复结构和立体视
觉[54])来恢复,依赖于多个校准视图之间的几何约束然而,最近随
着深度学习的发展,已经表明密集场景深度也可以从单目图像中恢
复。
在基于经典学习的技术(如[52,53])取得初步成功之后,深度恢
复首先被Lad i ck y 'et al的
dep
t
h
cl
as
si
f
i
r
作为监督学习问题来处理
。
[
41
]
并如[15,
43]所示那样应用程序。然而,这些技术是基于高质量的地面实况深
度图的可用性,这是很难获得的。为了打击 在地面实况数据问题
上,[1]中的方法依赖于从虚拟环境捕获的容易获得的高分辨率合成深
度图和域转移来解决域偏差的问题。
另一方面,最近出现了能够执行深度恢复而不需要大量地面实况
深度数据的其他单目深度估计方法。Zhou等[64]使用深度和姿态预测
网络来估计单目深度和自我运动,所述深度和姿态预测网络经由