基于单光子相机的光子匮乏场景推断

33 浏览量更新于2023-10-14 收藏 4.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2512基于单光子相机的光子匮乏场景推断威斯康星大学麦迪逊分校{bhavya，mohitg} @ cs.wisc.edu摘要弱光条件下的场景理解是一个具有挑战性的问题。这是由于数量少这导致了由相机捕获的光子的低信噪比（SNR）。单光子相机（SPC）是能够以高灵敏度捕获图像的新兴感测模态。尽管具有最小的读取噪声，但是在光子匮乏条件下由SPC捕获的图像仍然遭受强散粒噪声，从而防止可靠的场景推断。我们提出光子尺度-空间-一个跨越很宽范围的高信噪比图像的集合的光子每像素（PPP）水平（但相同的场景内容）作为指导以在低光子通量图像上训练推断模型。我们开发的训练技术，推动不同的照明水平的图像更关键的想法是，在训练期间具有不同亮度水平的光谱能够实现有效的引导，并且即使在极端噪声情况下也增加对散粒噪声的鲁棒性。基于所提出的ap-proach，我们证明，通过模拟和真实的实验与SPAD相机，高性能的各种推理任务，如图像分类和单目深度估计在超低光下，低至 1PPP 。项目页面：https://wisionlab.cs.wisc.edu/project/photon-net1.弱光在过去的十年中，深度学习在几个复杂的现实世界场景推理任务上实现了无与伦比的准确性。随着这些技术的成熟，性能空间中的新轴正在出现，由应用驱动（例如，自主导航），其中在非理想成像条件下的可靠性能与整体精度一样重要。在这种安全关键型应用中，重要的是要考虑视觉系统的最坏情况性能，以确保全天候稳定运行。例如，对于要部署在自动驾驶汽车上的视觉系统，它必须在整个成像场景范围内可靠地执行，包括夜间和夜间。光线不足的场景和高速移动的物体，所有这些都会导致光子匮乏的图像。即使是最先进的推理算法也倾向于在传感器根本没有收集足够的光的情况下失败。本文的目标是开发即使在超低光下也能实现高精度的视觉系统，此时相机像素可以接收甚至少于每个像素一个光子在这种极端条件下，由常规相机捕获的图像被噪声淹没，导致信噪比（SNR）下降到下游推断算法提取有意义的场景信息所需的阈值以下。我们提出了一个双管齐下的方法来实现这些目标：（a）利用一类高灵敏度单光子探测器，以及（b）开发针对低通量操作优化的推理算法。单光子传感器：单光子雪崩二极管（SPAD）[31，37]是一种新兴的图像传感器技术，能够以高定时精度检测单个入射光子。在过去，这些传感器限于单像素或低分辨率设备（例如，32x32像素），因此仅限于科学应用[5，33，4]。但是，最近，由于它们与CMOS制造工艺的兼容性，已经基于SPAD [29]以及jots [27]技术开发了高分辨率相机（高达1MPixel）这些单光子相机能够以最小的读取噪声捕获二进制帧序列[41]，从而即使在低通量条件下也能够捕获高质量图像对低通量图像的高级推断到目前为止，SPAD主要用于恢复图像强度[2，21，28]和低/中级场景信息，例如作为3D形状[32，36，9，22，39，16，15]和运动[17]。我们能否超越低层次的成像和信号处理，并开发算法，直接从SPAD相机的高层次的推理？尽管读取噪声低，光子到达的随机性质导致SPAD相机捕获的单光子二进制帧中的相当大的散粒虽然最近已经有一些关于联合去噪和分类的工作[25，26，12]，但是对每个像素平均接收少于一个光子的超低光图像的推断仍然是一个棘手的问题。2513≈光子尺度空间[PPP：每像素光子数“干净S1（PPP=0.11）S4（PPP=0.44）S16（PPP=1.71）S64（PPP=6.89）S256（PPP=27.39）Photon NetMeta Architecture [培训]示例应用微光图像分类微光单目深度估计交叉熵，...ResNet概率矢量损失函数DenseNet（编码器+解码器）深度图损失函数图1：使用光子尺度空间在弱光下进行推断。(Top)光子尺度空间是图像的层次结构，每个图像具有不同的通量水平，但共享相同的场景内容。层次结构中的连续图像具有相似的通量，使得高通量图像可以在训练过程期间引导低通量图像（中）我们使用光子尺度空间来开发一种称为光子网络的Meta网络架构，其中网络使用具有相同场景内容但具有不同噪声水平的多个输入图像进行训练，以便将它们在特征空间中推到一起（底部）所提出的方法是模块化的和通用的，使其自身适用于广泛的推理任务，例如分类和深度估计。为了解决这个问题，我们设计了基于引导训练的概念的推理技术，其中高质量图像被用作训练低质量图像的指导。这在精神上类似于经典的引导滤波[18]，其中引导图像用于低级图像处理任务，例如去噪[18]和超分辨率[10]。最近，在学生-教师培训[14]的背景下探索了引导训练的想法，其中在高质量图像上预训练的教师网络引导在低通量图像上操作的学生网络。这些方法依赖于学生和教师网络的输入中的潜在相似性来辅助指导过程，并且因此在学生和教师的输入图像可能在每像素光子数量上具有巨大差异的极端情况下不是非常有效（<1对比>1000）。这些图像尽管表示相同的场景，但可能不具有结构相似性如果引导者和被引导者的形象没有共同的内容和特征，如何进行引导训练？光子尺度空间：我们建议使用一个层次的指导图像从一个广泛的光谱的光子水平，每个具有相同的场景内容，但不同数量的av-平均每像素光子数（PPP），从低至PPP 0。1，上升到PPP>100。关键思想是，尽管一起拍摄的所有图像跨越大范围的SNR值（包括在顶部的提供最准确标签的高SNR图像），但是层级中的连续图像具有相似数量的光子（并且因此具有相似特征），使得引导有效地向下渗透到最低水平，到具有最小PPP的图像。我们将这种图像层次称为光子尺度空间（图1），这是许多计算机视觉算法中使用的经典图像大小尺度空间[24]的Photon-Net引导培训：基于光子尺度空间，我们提出了光子网络，这是一种Meta架构和训练技术，用于对低通量输入图像进行推理（图11）。①的人。关键思想是用来自光子尺度空间的不同图像来训练给定的网络架构，使得具有相同场景内容（但不同通量水平）的图像被一起训练，从而导致从最高SNR训练图像到低SNR测试图像的有效引导。我们通过对高级特征（例如，网络的最终特征向量）。由于不同层次功能一致性共享权重功能一致性特征提取器网络损失函数共享权重特征提取器网络特征提取器网络光子尺度空间2514≥联系我们--在光子尺度空间中共享相同的场景内容，我们鼓励高级特征的相似性，尽管在低级图像统计（低级/中级特征）中具有大的差异我们对用于创建光子尺度空间的各种设计级别的数量），并建议用于良好性能的经验法则。由于已知的单光子成像过程的前向模型（泊松采样），可以使用从常规相机捕获的图像来创建光子尺度空间，使得所提出的方法适合于使用现有的大规模图像数据集进行训练。我们证明，通过广泛的模拟以及1/8百万像素SPAD阵列（SwissSPAD 2 [41]）的真实实验，考虑-在极端低光条件下（0.1PPP），各种推理任务的性能提高高达10%范围和影响：所提出的方法是模块化的和通用的-可以在同一框架中使用广泛的网络架构、损失函数和模型输出-因此将其自身用于各种推断任务，包括低光图像分类，甚至回归任务，例如黑暗中的单眼深度估计（图1B）。①的人。SPAD仍然是一种新兴的成像模式，并且还不能与已经优化了几十年的传统传感器直接竞争。然而，考虑到它们的灵敏度、高速和动态范围[2，21，28]，它们具有提供能力（例如，愿景该方法能够在各种场景推理任务中实现高性能。微光分类：在使用传统相机进行低光推理方面也有很多工作。在这方面最值得注意的是最近的方法，执行联合降噪和噪声图像的推断[25，26，12]。虽然这种联合去噪和推理技术优于传统的顺序去噪和推理方法，但它们不具有从高SNR图像进行有效引导的益处，因此无法在极低光下实现高性能条件（0. 1购买力平价）。图像大小比例空间：最近的工作[43]提出了使用图像大小比例空间的技术，即，多分辨率的图像，用于设计可以很好地执行非常低分辨率图像的姿态估计技术。我们从这项工作中借鉴了许多见解，因为我们创建了光子尺度空间和光子网络体系结构家族，用于在非常低光的图像上进行推断。3.被动单光子成像模型对于单光子相机，在τ秒的曝光时间期间到达像素（x，y）的光子的数量Z（x，y）被建模为泊松随机变量[44]，其分布被给出为：（τη）ke−τη在超低光和快速运动中），迄今为止被控制-P{Z=k}=、（1）k！认为不可能这项工作迈出了探索SPAD作为通用传感器的第一步，不仅能够进行低级成像，还能够在各种具有挑战性的成像条件下进行高级推理。2.相关工作单光子（量子）传感器：SPAD和Jots是目前用于大型单光子相机阵列的两种主要技术。Jots通过使用具有高转换增益的有源像素来放大单光子信号[13]。通过避免雪崩，点实现更小的像素间距、更高的量子效率和更低的暗电流，但具有更低的时间分辨率[27]。虽然我们证明了我们的方法使用SPAD，计算技术一般适用于单光子传感器，包括笔记。关于单光子传感器的推论：从早期（主要是理论）工作[6，7]开始，提出了直接对光子流执行计算机视觉任务而不是形成图像的想法，使用量子传感器用于各种场景干扰应用的趋势日益增长。这包括使用量子传感器的高速跟踪[17]，以及最近的对象识别[3]和图像分类[14]。我们的工作是在这个方向的下一步，提供一个通用的和多功能的其中（x，y）是在（x，y）处入射的光子通量（光子/秒），并且Onl是像素的量子效率。在二进制模式中，每个像素在曝光时间期间检测至多一个光子，并且返回二进制值B（x，y），使得如果Z（x，y）1，则B（x，y）= 1 ;否则，B（x，y）=0。由于光子到达的随机性，二元测量B（x，y）也是具有伯努利分布的随机变量P B= 0 =e−（τη+rqτ），（二）P{B=1}=1−e−（τn+rqτ）其中rq是暗计数率（DCR），其是伪光子检测的速率。图像噪声源传统传感器将入射光子测量为模拟电流，然后将其转换为离散数。这种模数转换（ADC）导致每帧固定的读取噪声，这导致暗场景中的低信噪比（SNR）相比之下，SPC直接测量光子计数，跳过中间ADC，从而避免读取噪声。1在每次光子检测之后，SPAD像素经历死区时间，在此期间它不能检测任何进一步的光子[38]。对于现代SPAD像素，死区时间显著小于曝光时间τ，并且因此在以下分析中不被考虑。2515S≪∈SSS s s SSSΣSS尽管SPC具有最小的读取噪声，但是由于散粒噪声，二进制帧在低通量环境图图1示出了干净图像的示例，其具有对应的二进制图像（1）。二进制图像中的散粒噪声（等式10）可以是：2)导致极端的降解。虽然可以通过对大量的二进制帧进行时间平均来增加SNR，但是由于运动模糊或大的计算复杂度，该方法在存在场景/相机运动我们选择参数（K，L，n），使得图像跨越SNR水平的大色域（即， KL）。选择水平的数量n呈现了一种交易-off：为了确保从高SNR到低SNR图像的有效引导，层次结构中的连续图像应当具有相似的通量水平，因此需要大的n。另一方面，较大的η将增加训练算法的计算成本。在我们的实现中，我们选择N作为几何级数1个2个运动补偿算法的要求[8，28]。这就提出了以下问题：是否有可能从单个（或少量）单光子二进制帧中提取有意义的场景信息？4. 光子尺度空间为了解决这个问题，我们开发了一种指导训练方法，其中高SNR图像作为训练低SNR图像的指导。为了方便这样的指导训练，我们提出了光子尺度空间的概念，一个层次的指导图像具有不同的通量水平，但每个具有相同的场景内容。关键的想法是，虽然所有的图像一起采取跨越大范围的SNR值（包括高SNR和最信息的图像在顶部），连续的图像在层次结构中具有类似的SNR水平（因此，类似的功能），使指导渗透有效地下降到最低水平。如何生成光子尺度空间？考虑一个N[K，K（L/K）n−1，K（L/K）n−1...，使得连续图像之间的通量水平的近似比率是恒定的。如果N是一个分数，我们将N的值四舍五入到最接近的例如，假设我们想要为1个图像（1个二进制帧）训练推理模型，但在训练期间使用高达256个（256个二进制帧）的高通量图像进行指导。对于具有例如5个级别的该设置的光子尺度空间将由1、4、16、64和256个图像组成。图1示出了来自光子尺度空间的图像的示例，其中K=l，L=256并且n=5，从而跨越宽范围的SNR水平，同时确保连续图像具有相似的SNR和特征。光子尺度空间所跨越的通量值的范围是多少？由于每个二进制帧是独立的，因此和图像S_N（x，y）的期望值为：E[SN（x，y）]=N*E[B（x，y）]如在高通量条件下由照相机捕获的“图像”。假设干净图像中的像素强度为=N（1 − e−（τη+rqτ））。（四）对应场景点2的地面真实通量值，我们可以使用第3节中描述的图像形成模型生成由单个光子相机捕获的多个随机二进制图像。假设场景是静止的，即在二进制帧之间没有运动，我们可以通过对N个二进制帧的序列求和来模拟具有不同通量水平的一系列图像（对于各种N的值）来获得N个和图像（S_N），其定义如下：清晰度4.1（N-图像N的总和）。N个二元帧NSN（x，y）= Bi（x，y）。（三）i=1使用N-Sum图像的定义，我们将光子尺度空间定义为具有连续更高通量水平的图像的层次结构，如下所示：定义4.2（光子尺度空间PSS（K，L，n））。n个N-Sum图像的集合，从最低SNR图像S K（噪声最大）开始，到最高SNR图像S L，其中K

下载后可阅读完整内容，剩余1页未读，立即下载