SphereNet：深度学习解决全向图像失真问题

7 浏览量更新于2024-06-20 收藏 1.63MB PDF 举报

"SphereNet: 一种通过深度学习解决全向图像失真的球面表示框架" 在当前的计算机视觉领域，全向摄像机因其宽阔的视野而在诸多应用场景中展现出巨大潜力，如虚拟现实、自动驾驶和机器人导航。然而，全向图像的处理面临一个问题：自然投影在平面时产生的严重失真。标准的卷积神经网络（CNN）设计并未考虑到这种失真，导致在处理全向图像时效果不佳。 SphereNet是由Benjamin Coors、Alexandru Paul Condurache和Andreas Geiger等人提出的一种创新的深度学习框架，专门针对全向图像的处理。该框架的核心在于将滤波器采样位置进行调整，以适应球面的几何特性，从而有效逆转失真。SphereNet的卷积滤波器被“包裹”在球体周围，使得滤波过程能够在球面上平滑进行，保持了图像信息的完整性。 SphereNet的设计基于传统的透视卷积神经网络，但通过修改滤波器布局，使其能直接应用于全向图像，而不需对原始网络进行大幅度的改动。这使得SphereNet能够利用已有的CNN模型，并将其迁移至全向图像的处理任务中，降低了重新训练和参数调整的需求。 SphereNet在图像分类和对象检测任务上的表现得到了验证，研究人员创建了两个新的半合成和真实世界的全向数据集来进行实验。这些实验结果证明了SphereNet在处理全向图像时的有效性和优势，特别是在对抗由等距矩形投影引起的极地区域失真方面。与传统的CNN相比，SphereNet的一个关键优点是它能够学习到对球面失真的不变性，而不需要大量的额外参数、训练样本或时间。这对于处理全向图像而言尤其重要，因为这类数据的标注通常非常耗时且困难。 SphereNet的工作流程可以简单概括为：全向相机捕获的图像首先被投影到球面上，然后SphereNet的滤波器在球面上进行操作，通过调整滤波器的位置来适应球面的曲率，从而避免了平面投影中的失真。这种方法在图1中得到了直观展示，比较了常规的3×3滤波器（c）和SphereNet的滤波器（d）在处理360°图像（b）时的不同效果。 SphereNet是一个开创性的框架，它解决了全向图像处理的关键问题，为全向成像在计算机视觉领域的广泛应用铺平了道路，同时也为未来深度学习在处理非平面数据结构方面的研究提供了新的思路。

Benjamin Coors，Alexandru Paul Condurache，Andreas

Geiger

每个补丁。我们通过为可以直接端到端训练的球形信号提供合适的表示来避免

这些问题

除了失真不变性的作品，几个作品集中在不变性的几何变换，如旋转或翻

转。Jaderberg等人[11]，介绍了一种分离的网络，该网络学习预测输入特征图的

空间变换的参数。散射卷积网络[1，25]使用预定义的小波滤波器将稳定的几何

不变量编码到网络中，而其他最近的作品将方差编码到学习的卷积滤波器中

[4，9，29，31]。这些工作与所提出的框架正交，并且可以有利地组合。

最近的几项工作也考虑动态[5]或静态[12，18]调整卷积网络的采样位置与我

们的工作不同，这些方法需要在训练过程中学习采样位置，这需要额外的模型

参数和训练步骤。相比之下，我们利用相机的几何特性，将这些知识明确地注

入到网络架构中。

方法

本节将介绍建议的SphereNet框架。首先，我们描述了采样模式的自适应，以实

现球面上的失真不变性（第3.1节）。其次，我们提出了一个近似，均匀采样的

球体，以提高我们的方法的计算效率（第3.2节）。最后，我们将详细介绍如何

将SphereNet纳入分类模型（第3.3节）以及如何对球形输入执行对象检测（第

3.4节）。

3.1

核抽样模式

SphereNet的中心思想是提升本地CNN操作（例如卷积、池化）从常规图像域到

球面，其中鱼眼或全向图像可以在没有失真的情况下表示。这是通过将内核表

示为与球体相切的小补丁来实现的，如图1B所示1d. 我们的模型专注于失真不

变性而不是旋转不变性，因为在实践中，360

◦

图像大多数是在一个主导方向上

捕获的。因此，我们考虑与球体的大圆对齐的直立斑块。

更正式地说，设S是单位球面，其曲面为S2每个点s

（φ

，

θ）∈

由纬度φ∈[−

，

]和经度θ∈[−π

，

π]唯一定义。让

2 2

另外Π表示位于s

（Φ

，

）处的切平面。我们用Π上的一点的坐标x ∈R2

来

表示它。Π的局部坐标系由此以s为中心并且竖直定向。令Π

表示位于s

（0

，

）处的切平面。球面上的点

通过球心投影与其切平面坐标

SphereNet：深度学习解决全向图像失真问题

球面失真图形进行操作

Kafka 17道面试题和答案（2025最新版）.docx

基于Vue的智能停车计费系统.js+SpringBoot+MySQL开发，高分成品毕业设

基于Matlab/Simscape的动静摩擦切换模型（速度转换法）

优质项目工具-使用Armadillo实现Matlab转C++-附完整使用流程教程.zip

Java集合部分面试题（2025最新版）.docx

SpringCloud 29 道面试题和答案（2025最新版）.docx

SLAM-针对低纹理环境的语义+单目+平面视觉SLAM实现-优质项目实战.zip

SpringMVC 35道面试题和答案（2025最新版）.docx

SLAM-具有SLAM功能+3D网格生成功能的视觉惯性里程计-优质项目实战.zip

最新资源