SaccadeCam：自适应视觉注意的单目深度感知

191 浏览量更新于2023-10-13 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6009SaccadeCam：用于单目深度感知的自适应视觉注意Brevin Tilmon Sanjeev J.佛罗里达大学摘要大多数单目深度感测方法使用在不考虑场景内容的情况下创建的常规捕获的图像。相比之下，动物眼睛具有快速的机械运动，称为扫视，其控制场景如何由中央凹成像，其中分辨率最高。在本文中，我们提出了SaccadeCam框架，用于自适应地将分辨率分布到场景中的感兴趣区域上我们的自适应分辨率算法是一个自我监督的网络，我们展示了端到端的学习单目深度估计的结果我们还展示了一个真正的SaccadeCam硬件原型的初步结果。1. 介绍来自单个视图的深深度估计已经有效地展示了图像中可用的丰富几何线索[51，49，36，52，10]。另外，通过使用其他线索（诸如稀疏L1- DAR或立体测量）来改善这些结果[55，66，35，6]。我们的关键思想是要注意到，大多数以前的单目方法，作为一个几乎相等的传感器像素分布在整个相机相比之下，动物眼睛使用快速机械运动或扫视不均匀地分配分辨率，其改变眼睛的中央凹以高敏锐度观看场景的位置在本文中，我们提出了扫视凸轮，一个新的算法和硬件框架，视觉注意力控制，自动分配分辨率到一个场景，以提高单目深度估计。1.1. 为什么要利用注意力进行深度感知？许多方法试图复制注意力的生物学优势，例如计算效率。然而，大多数努力在图像被捕获后在网络训练和测试中应用注意力[48，59，34，63，29]。我们的框架补充了现有的基于注意力的学习，因为SaccadeCam利用视觉注意力来在图像捕获期间分配分辨率，并且在捕获SaccadeCam图像之后仍然可以应用深度注意力机制。由于SaccadeCam可以利用图1：我们的方法学习将分辨率分布到区域上，从而提高自监督单目深度估计，同时使用与传统等角相机相同数量的像素注意，在图像捕获期间，它可以提取新的效率，特别是对于图像数据的带宽带宽减少的可能性是重要的-Marr观察到，要在任何地方都具有中央凹分辨率“……将是浪费的，不必要的，并违反我们自己的经验作为perceivers…”[39]第39段。SaccadeCam提取了注意力的生物带宽优势，这影响了需要在严格预算限制内感知的平台，例如小型机器人和远程无人机。我们展示了用于分布视觉注意力（使用图像分辨率的代理）以提高深度估计的SaccadeCam结果。我们的贡献包括：• 我们定义了在场景周围的固定相机带宽下分布图像分辨率的新问题，其目标是成功地进行深度估计（Sect.2和表2）。• 我们设计了一个端到端的网络，控制分辨率分布，显示SaccadeCam图像优于传统的分辨率分布，可以检测机器人导航的重要对象，如电线杆，标志和远处的车辆（节。图3，表3和图3，第5节4）.• 我们验证我们的方法在一个真正的硬件原型，图像多个中央凹每帧。我们还提出了一个广义的选择算法来提取离散的中央凹的注意掩模。（第二节）（五）。6010方法（有几个例子）自适应测试输入深度恢复图像捕获期间注意自我/半自我/引导深度注意力机制[59，62，29]压缩成像[14]单目深度估计[51，25]单目引导上采样[11，19]自适应引导上采样[4，6]端到端光学[9]学习变焦[65]自适应缩放[56]✓××✓××✓×单声道/单声道+X单声道/单声道+X单声道单声道+X单声道+X单声道✓✓✓✓✓✓××××××××××所有所有所有导者，导者，导者。自我SaccadeCam（我们的）✓单✓✓自我表1：SaccadeCam框架与其他替代方案：据我们所知，我们是唯一的工作，提供自适应，单目深度估计通过操纵注意力内的相机，在图像捕捉，同时自我监督。1.2. 相关工作扫视、注意力和相关概念已经在机器人和主动视觉中研究多年[1，3，17，42，12，18，7]。此外，中央凹设计能够实现高-高质量成像也很常见[43，26，41，13]。我们的Sac-cadeCam框架在三个重要方面有所不同。首先，我们探索了丰富的分布的分辨率与多个中央凹，这是从来没有被证明之前的深度估计。第二，我们应用端到端学习来找到在场景中放置中央凹的位置，以估计具有非均匀空间分辨率的单眼深度。最后，我们展示了一个工作的SaccadeCam与微机电（MEMS）镜，直接由我们训练的网络控制。我们现在讨论相关工作的特定组，总结在表1中。深度学习中的注意事项：深度学习中的注意力通常涉及学习内部权重的变换参数，以便网络可以不同地关注特定区域。循环注意力网络，空间Transformer网络和高斯注意力网络都学习这种变换[32，30，22，28]。[44]展示了如何在FOV内最佳地选择观看瓦片，以在VR头戴设备中进行有效的视频流传输。还有一些方法在可区分注意力模型不可用时使用强化学习进行注意力[61，56，57]。例如，在[56]中，目标是从少量固定数量的高分辨率补丁中进行选择，以获得更好的分类精度。相比之下，在我们的方法中，补丁可以被放置在FOV中的任何地方，并且SaccadeCam控制补丁被放置用于深度估计的位置。从这个意义上说，我们的目标是相机内部的深度注意机制，改变图像分辨率在固定相机带宽下的分布方式。单目和导向深度完井：单孔深度方法非常成功[51，49，36，52，10]。已经提出了通过应用“单声道+X”策略对这些方法进行的各种改进[5，11，38，37，55，50，27]，并在KITTI数据集[55]上提供了可用的基准。上采样已经用稀疏深度[58]、单光子成像器[6]和闪光激光雷达[23]示出。Sac-cadeCam可以被看作是朝向最近的深度估计方法的物理实例化的第一步，该深度估计方法寻求自我改进不完美的测量[55，66，35，6，46]。与这些其他方法相比，我们的方法是一种完全被动的方法，自适应地分配分辨率，以使能成功的单目估计，见表1。VR/AR中的小凹渲染：基于眼睛跟踪的视觉聚焦用于绕过在VR/AR头戴设备中渲染整个分辨率帧[24，31]。[31]提出了一种GAN重建网络，能够将大约10%的作为输入，并重建一个合理的视觉中心凹视频。而不是产生引人注目的观看，我们感兴趣的是用于深度估计的中央凹图像。视觉压缩感知：压缩信号处理在捕获期间使用编码光学器件用于诸如分类的应用[60，15，14]。压缩感测在图像捕获之后以计算（诸如L1优化）为代价优化带宽以解码测量。我们的方法是强调场景区域与新的测量在图像采集，减少带宽，而无需额外的计算。视觉自适应成像：相机内部的端到端学习已经影响了计算相机和计算机视觉中的许多应用。这些包括学习最佳结构光图案[2]、学习用于单目深度估计[9]和HDR成像[40]的最佳透镜参数以及学习最佳传感器设计[8]。SaccadeCam的不同之处在于，光学器件不是固定的，而是中央凹的，从而能够在相机内部实现主动的、自适应的成像变化。这也是我们与以前的工作的区别，以前的工作没有使用学习来决定在哪里分发分辨率[54]。从这个意义上说，我们的工作类似于自适应LIDAR工作[47，35，6，46]，但相反，我们寻求控制用于深度感测的单目分辨率。2. 自适应注意力可以提高深度吗？我们的假设是，在相机视场内分布像素可以积极地影响单眼深度估计。只有当不同带宽的模型在平滑一致的区域上表现相似时，这才是可能的。6011绝对相对值平方相对RMSERMSE日志δ1。25δ1。252δ1。253全分辨率（70像素/毫米）0.1090.8834.9600.2080.8650.9490.975目标分辨率（31像素/mm）0.1180.9885.1880.2140.8510.9440.974（一）广角摄像头（27像素/毫米）0.1190.9915.2380.2160.8460.9430.974光度Oracle0.1160.9415.1340.2130.8510.9450.975真正的神谕0.1140.8534.8500.2080.8570.9500.976（b）第（1）款广角摄像头（22像素/毫米）0.1211.0055.2750.2190.8400.9390.973光度Oracle0.1160.9315.1140.2140.8480.9430.974真正的神谕0.1110.8504.8460.2060.8630.9500.976（c）第（1）款广角摄像头（15像素/毫米）0.1281.0675.5070.2280.8240.9340.971光度Oracle0.1200.9605.2380.2190.8400.9410.973真正的神谕0.1120.8474.8480.2060.8660.9510.976表2：我们用KITTI数据集[20]中的一个引人注目的例子来激励我们的方法。我们想看看，如果增加在广角相机（WAC）中的高误差区域的分辨率降低了整体深度误差相比，目标分辨率的lution。我们比较一个完整的分辨率为70像素/毫米（传统的KITTI图像）与目标分辨率为31。如预期的，全分辨率比目标分辨率和三个不同分辨率的低分辨率WAC图像都好得多。光度Oracle基于WAC训练的深度网络和全分辨率训练的深度网络之间的每像素误差来分配分辨率True Oracle基于WAC训练的深度网络和地面实况LIDAR之间的误差区域分配分辨率对于True Oracle和Photometric Oracle，来自具有聚焦输入图像的聚焦训练深度网络的深度被放置在注意区域中，然后重新计算结果的误差。结果表明，自适应地分配分辨率在第3节中，我们描述了我们的算法来提取SaccadeCam的这种潜力。在关键区域上表现不同。我们希望测试这一假设，并建立学习机制，以自我监督的方式分布这些像素，而不需要像最近的工作所示的那样对地面真实标签进行标记[21]。在给定固定带宽的情况下，某些区域中分辨率的降低释放了分辨率以放置在关键区域上，例如行人、标志、汽车和树叶。在下一节中，我们将讨论如何决定在哪里放置分辨率，并证明我们的假设的有效性。现在，我们在表2中讨论我们的方法的含义。2.1. 带宽表2有三个不同带宽的基线。我们将带宽为跨越FOV的角度样本的数量，即我们的带宽概念与角分辨率相同因此，虽然出于实际原因，我们可以示出相同空间分辨率的图像（即，计算机存储器中的像素），它们具有非常不同的角分辨率。对于我们所有的实验，我们使用来自KITTI数据集[20]的具有相机内在函数的图像，从中我们模拟不同的相机分辨率。我们通过基于缩放的固有矩阵的下采样来模拟带宽，然后上采样回到原始分辨率。这模拟了一个相机，在实践中，将有更少的分辨率带宽在相同的视野。表2中的三个基线为全分辨率（70 px/mm带宽）、目标分辨率（31.30 px/mm6012带宽）和三个低分辨率图像，我们称之为广角相机（WAC）带宽的背景下的SaccadeCam硬件在节。五、2.2. 来自SaccadeCam图像的在我们的实验中，我们使用地面实况彩色图像作为全分辨率。我们的SaccadeCam图像中的高分辨率注意区域也是全分辨率的。我们将目标分辨率的等角采样与必须与目标分辨率具有相同带宽的SaccadeCam图像进行通过将高分辨率图像融合到低分辨率WAC图像内的注意区域中来创建SaccadeCam图像。WAC分辨率和注意区域的数量受到它们的和必须等于目标角分辨率的事实的约束。虽然具有等角分辨率的单目图像具有多种用于深度估计的方法，但是这些方法不能在没有训练或微调的情况下直接用于SaccadeCam图像这是因为SaccadeCam图像具有空间上变化的分辨率，并且在Sect.3我们讨论了如何从这样的单目图像中提取深度。现在，我们讨论的影响，什么是可能的，如果这样的扫视凸轮深度估计解决。2.3. 神使我们的方法是将等角图像的单眼深度估计与由创建的SaccadeCam图像进行比较。6013图2：我们的方法。我们使用自监督设置，其中网络由单个编码器（蓝色）和两个解码器（红色和绿色）组成。我们的框架在训练期间采用输入图像和附近的源图像，在测试期间采用单个输入图像。不均匀分布的分辨率。我们设计了Oracle实验，确定分配分辨率的理想位置，然后将聚焦深度预测作为注意区域中的完美颜色到深度映射。对于表2中的光度Oracle，使用[21]的方法基于来自完全训练的WAC网络的WAC深度预测误差与来自完全训练的全分辨率网络的全分辨率深度预测误差之间的差的前N个位置来计算注意区域。然后，我们用注意区域中的聚焦深度替换WAC深度。N是从我们的相机模型确定我们假设，聚焦深度误差应低于WAC的深度误差在高分辨率的注意区域和类似的WAC的深度误差在光滑的几何一致的区域。对于表2中的True Oracle，基于WAC深度与地面实况LIDAR之间的差的前N个位置来计算注意区域，其中N 根据LIDAR样本的数量与全分辨率进行缩放，以进行公平比较。然后，我们用注意区域中的聚焦深度替换WAC深度因此，如果WAC图像的最差深度估计被全分辨率图像的相同区域中的对应深度替换，则如表2所示，来自SaccadeCam的深度具有优于现有技术的潜力。我们的oracle实验支持我们的想法，即更好的分辨率可以帮助深度估计，如[39，21]中所建议的。3. 端到端学习适应性注意在图2中，我们描述了我们的自我监督方法的完整流程。我们的系统由一个编码器（蓝色）和两个解码器（红色和绿色）。这些中的每一个都被设计用于自我监督立体声，遵循[21]的方法。我们的方法也可以很容易地与自监督单目训练相结合，因为姿势可以可以使用姿态网络从单个相机的多个视图来估计。在测试时间，图中的流程2是单目的（单个图像），但在训练时，每个网络都需要一个立体对。适应性注意力：注意力解码器（图2中的绿色）使用一对低分辨率广角相机（WAC）图像进行训练。注意解码器输入是训练深度编码器的本征向量。然后，注意力解码器预测每像素注意力，并相对于由从训练深度网络计算的顶部光度误差区域给出的“真实”二进制注意力掩模计算二进制交叉熵损失。这将注意力掩码训练到1。我们的观点是，这些错误区域应该是额外的分辨率可能会有所不同的地方。然而，我们并不严格地依赖于光测误差，这一点我们很快就会看到.然后，我们使用预测的注意力掩模、聚焦图像和WAC图像可区分地渲染SaccadeCam图像。这里，带宽由在系统的最高分辨率下可能的样本的最大数量给出带宽是目标分辨率和已经被WAC图像用尽SaccadeCam渲染：我们的SaccadeCam渲染模块包括使用注意力遮罩作为混合权重将聚焦图像alpha混合到WAC图像上。我们使用它来创建SaccadeCam图像从学习或oracle注意力掩码M。这允许我们不同地训练我们的注意力网络端到端与下游单眼网络，I SaccadeCam= M ⊙（I focused）+（1 − M）⊙（IWAC）。（一）深度网络和注意力规则化：最后一个模块是编码器-解码器对（蓝色和红色），用于将SaccadeCam图像转换为深度。当计算视图合成光度损失[21]时，我们计算目标SaccadeCam图像与合成的目标图像之间的损失，该合成的目标图像也用相同的注意力掩模聚焦，但是用在注意力区域中的合成的使用的编码器和解码器6014图3：KITTI结果概述。在（I-III）中，我们示出了来自我们的SaccadeCam框架的测试结果，其中带宽逐渐增加。我们的方法是特别好的恢复薄的物体，如电线杆或标志，可以危险地忽略了传统的，等角采样的场景在低分辨率。在SaccadeCam深度估计中使用的WAC深度与在注意力估计期间获得WAC深度中使用的WAC深度相同。在注意力估计期间，深度编码器和解码器对的梯度被冻结。换句话说，编码器和解编码器朝向单目SaccadeCam图像深度重构漂移，同时还正则化注意力估计。实际上，这样的系统更有效，因为它与注意力模块共享SaccadeCam特征，并且允许灵活的注意力超出WAC光度误差。损失项：我们的最终损失为L = µ Lp + λ Ls+ αLa。L p和L s遵循单目深度估计中常见的视图合成光度损失和深度平滑损失。我们设置μ=1以避免掩蔽中央凹区域，并且λ=0。001。L α是由SaccadeCam深度网络给出的预测注意力和WAC光度误差之间的二进制交叉熵损失。我们冻结深度网络，并在训练注意力网络时设置μ=λ=0，α=1。我们发现，注意力解码器比深度网络学习得快得多（注意力大约5个时期，而高注意力大约20个时期）。带宽深度）。我们还发现，在单一带宽上训练的注意力网络可以很好地推广到不同的带宽。在在线设置中，我们假设不频繁地更新或显著降低注意力网络相对于深度网络的学习率将是有益的。4. 实验我们在一台NVIDIA GTX 1080 Ti上实现了PyTorch网络。我们的编码器架构是ResNet18，我们的解码器架构类似于[21]。我们所有的训练都是用ImageNet参数初始化的。在表3中，我们显示了我们的结果在几个不同的带宽. 我们发现我们的SaccadeCam深度网络比基于验证错误的等角图像训练的网络更早完成训练我们分别训练深度网络（a）、（b）、（c）17、11、2个epoch，并且训练注意网络（a）、（b）、（c）各5个epoch。我们训练了20个历元的所有等角分辨率模型。注意6015≥凹加权绝对相对值平方相对RMSERMSE日志δ1。25δ1。252δ1。253全分辨率（70像素/毫米）0.1090.8834.9600.2080.8650.9490.975（一）目标分辨率（35像素/mm）0.1171.0015.1440.2130.8550.9460.974广角摄像头（30像素/毫米）0.1191.0265.2020.2160.8500.9430.974我们的没有重量0.1150.9425.0870.2090.8530.9480.976我们的中心凹加权✓0.1160.9505.0380.2060.8520.9480.977颜色边缘不加权0.1220.9745.2780.2200.8360.9400.973彩色边缘中心凹加权✓0.1230.9585.2670.2200.8310.9400.974（b）第（1）款目标分辨率（27像素/mm）0.1181.0135.2090.2150.8480.9430.974广角摄像头（23像素/毫米）0.1210.9965.2640.2190.8390.9400.973我们的没有重量0.1211.0035.1920.2110.8440.9450.976我们的中心凹加权✓0.1190.9385.1610.2110.8420.9440.976颜色边缘不加权0.1371.1245.7210.2470.7970.9200.964彩色边缘中心凹加权✓0.1341.0565.6600.2400.8010.9240.967（c）第（1）款目标分辨率（8像素/mm）0.1942.7057.3780.2960.7300.8890.949广角摄像头（7像素/毫米）0.2344.1448.3170.3300.6860.8670.937我们的没有重量0.1671.5166.8150.2700.7430.9000.958我们的中心凹加权✓0.1641.4636.5550.2560.7540.9090.964颜色边缘不加权0.1671.5146.8360.2730.7410.8980.957彩色边缘中心凹加权✓0.1671.4726.5890.2600.7470.9070.963表3：SaccadeCam与等角（常规）图像的比较。对于全分辨率与目标分辨率，我们展示了如何SaccadeCam框架（如图所示）。2）优于具有跨FOV的常规均匀分布的分辨率的目标分辨率图像。不是所有的带宽都适合于扫视摄像机。例如，极高分辨率的图像可能无法从带宽优化中受益，而极低分辨率的图像可能导致极端的WAC深度误差。我们还探索了用加权基于高分辨率模型比低分辨率模型训练更长时间的观察，这支持在训练期间给予高分辨率注意区域更多权重，因为外围是较低分辨率。我们分别针对7、14、1个时期训练（a）、（b）、（c）的加权变体。总的来说，区域加权提高了性能并加快了训练。我们发现，在较高带宽的扫视- Cam数据下，区域加权增量必须较小，因为虽然外围的分辨率低于高分辨率注意区域，但它仍然足够高，需要更强的加权来训练。我们在表3中分别对（a）、（b）和（c）的光度误差1.15/0.85、1.25/0.75、1.5/0.5的中央凹/WAC区域进行加权。我们将我们的结果与单目自监督以目标分辨率进行深度重建。我们还比较了一个彩色边缘检测器作为一个注意代理。我们发现边缘在非常低的分辨率下表现良好，但在更高的分辨率下表现不佳，其中中央凹必须更智能地放置以有意义地影响性能。对于我们的SaccadeCam网络，我们首先使用WAC光度误差作为一个参数来训练我们的深度网络。注意力代理然后，我们使用相同的冻结深度网络，使用WAC摄影测量误差作为伪地面实况来训练注意力网络，如第3节所述。在测试时，我们使用学习的注意力面具。我们发现，对于跨带宽的测试集，预测的注意力掩模和错误区域之间平均有95%的重叠，这表明注意力掩模已经足够学习来表示。重新发送错误区域。图3示出了来自我们的SaccadeCam模型的视觉结果。我们的假设成立，我们执行类似的等角模型平滑和几何一致的场景区域，而优于等角模型不规则的边缘情况下的区域。请注意，SaccadeCam框架允许我们检测路标、电线杆和其他等角模型无法检测到的远距离物体，如汽车。5. SaccadeCam硬件原型在这里，我们讨论SaccadeCam的物理实例化，其可以基于我们训练的模型自适应地将分辨率分布到感兴趣的区域上。SaccadeCam由一个低分辨率广角摄像机（WAC）和一个窄FOV长焦摄像机组成，前者的这些组件共同构成图1中所示的SaccadeCam装置。1.一、与许多其它MEMS镜使能的装置（诸如6016--∈--∥ − ∥ ≤∈图4：用我们的SaccadeCam硬件原型捕获的真实数据的结果。我们的训练模型运行在我们的扫视凸轮硬件原型，以自适应地控制MEMS反射镜，用于基于贪婪算法近似学习到的注意力硬件注意力列描述了MEMS图像的原始输出，其近似于我们模型的预测注意力。我们的原型是足够快，以采取多个MEMS图像每WAC帧，使自适应分辨率分布到几个场景区域的设备上的视频速率。作为LIDAR[16，53，33]），我们不在共振下运行我们的MEMS反射镜。相反，我们使用特定的扫描模式，并且我们能够控制5个点（即5个中央凹）。这种速度对于深度推断的常见场景中的大多数对象来说是相当快的。我们的长焦和WAC相机由1.6 MP FLIRBlackfly S-U3 - 16 S2 C-CS组成，其中长焦相机具有30mm镜头，WAC相机具有6 mm镜头。长焦摄像头的意见，反射了3.6毫米Mirrorcle技术的MEMS镜与自定义修改，以防止鬼影文物引起的MEMS电子封装，荷兰。我们的主计算机是NVIDIA Jetson NANO，这是一款流行的嵌入式主板，具有GPU和CUDA功能。我们将我们的PyTorch模型跟踪到TorchScript，这样我们就可以在C++中在设备上运行我们的模型。Jetson NANO与自定义同步电路通信，该电路包含Teensy 4.0微控制器，可同步触发摄像机和MEMS镜。MEMS镜是物理控制的Teensy通过Mirrorcle技术的nologies PicoAmp 5.4X200数模转换器。我们的硬件原型能够进行设备上的培训，尽管我们将其留给未来的工作。5.1. 注意力面具在第3节中，我们讨论了如何处理输入的低分辨率WAC图像以产生跨WAC FOV的注意力掩模，目标是将该区域中的分辨率这样的注意掩模是可变形的并且是非凸的，在这个意义上，对以更高分辨率快速感测注意区域的光学可行性没有限制。在本节中，我们讨论如何从用于实际的基于MEMS反射镜的扫视摄像机的注意力掩模中提取离散我们还主张，它将适用于任何相机，是不能够产生可编程的空间变化的变形点扩散函数（PSF）。虽然相位掩模[64]可以实现这些类型的可变形注意力掩模，但它们都很慢，并且在相干光而不是来自场景的非相干光的情况下工作得最好我们的目标是最大限度地提高注意掩模覆盖n扫视，或镜像观点。这些对应于指定MEMS反射镜视点的η对电压，（θ（V（tl）），θ（V（tl），…（θ（V（tn）），θ（V（tn）.我们首先解决固定中央凹大小或中央凹FOV的问题，然后我们进行概括，使得每个观察方向i可以具有其自己的唯一FOV（可能使用液体透镜[67]）。贪婪注意力算法：贪婪算法需要一个注意力掩码和一个固定的角度凹大小ω fovea。给定FOV上定义的注意力掩码A（ω），其中ω ωfov，我们可以找到该掩码中最大注意力值ωmax的位置然后，我们遵循迭代过程，其中通过选择t1使得第一镜方向（θ（V（t1）），θ（V（t1）沿着由ωmax定义的立体角的中心轴指向来捕获中央凹。然后，我们破坏第一个最大值周围的注意力掩码信息，使得A（ω）=0，其中ω ω fov和ω ω fov = 0。ω max ωω中央凹。然后，我们对n个中央凹重复该过程n次，直到获得一组镜像电压（θ（V（tl）），（V（tl），…（θ（V（tn）），θ（V（tn）. 该方法的证明遵循对随后的最大注意值的贪婪选择，所有这些都是6017是单调递减的（即，t 1时的ω max小于t 2时的ω max，依此类推）。因此，在位置ωmissed处不可能存在大于ωmax的不同位置处的η个所选值的注意力值，因为否则它将在tl和tn之间的某个点处被选择用于测量。我们提出了一个先进的注意力覆盖算法的基础上，从[45]补充的光学背包算法的衍生物，虽然我们没有在硬件中实现该算法。5.2. 硬件原型结果我们在图中示出了用我们的SaccadeCam硬件原型捕获的真实数据的定性结果。4.第一章我们的结果是以视频速率在设备上获得的，如下所示。NVIDIAJetson NANO触发WAC摄像头并通过我们经过训练的注意力网络传递WAC图像。接下来，给定校准的MEMS反射镜、长焦和WAC相机，我们确定前十个像素位置（并且因此确定MEMS电压），其利用我们的贪婪算法最佳地覆盖反射镜被触发并移动到一位置，由此长焦相机随后被触发以捕获MEMS反射镜反射的图像我们为我们的硬件原型选择了十个中央凹，因此重复前面的步骤，直到捕获十个MEMS镜像;图中的Hardware Atten- tion列。图4示出了由长焦相机拍摄的十个捕获的MEMS镜像的示例。然后，我们对长焦相机图像进行伽马校正并将其混合最后，SaccadeCam图像通过我们的深度网络来获得我们的结果。对于我们的SaccadeCam硬件原型的结果，我们将目标分辨率带宽保持在35 px/mm，并且将SaccadeCamWAC带宽保持在31 px/mm，具有十个中央凹。这让我们可以使用在更大的KITTI数据集上训练的模型。对于目标深度，我们使用35 px/mm目标带宽的20个历元权重。我们在具有补丁中央凹的KITTI上以1 e-7的学习率微调SaccadeCam权重5个时期，以平滑在将中央凹图像叠加到WAC图像上时出现的粗糙方形边界边缘，因为中央凹图像是方形的并且不完全近似于学习的注意力。图4表明，我们的硬件原型可以定性地匹配图中KITTI测试集上看到的结果。SaccadeCam深度优于学习到的注意区域中的目标深度，这归因于观察MEMS镜的长焦相机的固有高角度分辨率。6. 讨论和限制在本文中，我们提供了一个新的框架，扫视凸轮，利用视觉注意力在图像形成。第我们的关键思想是自适应地将分辨率分布到场景中，以提高深度感测，这表明我们的框架可以比像素的等角分布更好地执行我们现在讨论一些我们希望在未来工作中改进的限制：实时演示：我们目前的硬件原型允许以近5 Hz的频率在设备上进行端到端学习我们希望用更快的硬件来展示动态场景的效果可变形注意力面具：我们的设置和理论已经允许可变形的注意力掩模，并且我们希望使用液体透镜来证明这一点。超越深度估计：SaccadeCam框架的可区分和模块性质鼓励将SaccadeCam集成到其他现有的视觉应用中，例如语义分割或行人检测。鸣谢：作者感谢以下资助机构的部分支持：海军研究办公室通过N 00014 -18-1-2663和国家科学基金会通过NSF CAREER 1942444和NSF 1909192。引用[1] John Aloimonos，Isaac Weiss，and Amit Bandyopadhyay.主动视觉。国际计算机视觉杂志，1（4）：333[2] 白承焕和菲利克斯·海德。波尔卡线条：学习主动立体的结构化照明和重建，2020年。[3] 鲁泽娜·巴伊奇主动感知。Proceedings of the IEEE，76（8）：966[4] JosephR Bartels ， Jian Wang ， William Whittaker ，Srinivasa G Narasimhan，等.使用三角测量光幕的敏捷深度感测。在IEEE/CVF计算机视觉国际会议论文集，第7900-7908页[5] RamyBattra wy ， Rene'Schuster ， Oliv erWasenmüller ，QingRao，and Didier Stricker.激光雷达流：从稀疏激光雷达和立体图像估计密集场景流。arXiv预印本arXiv：1910.14453，2019。[6] A. Bergman，D. Lindell和G.韦茨斯坦深度自适应激光雷达：在低采样率下对采样和深度完成进行端到端优化。ICCP，2020年。[7] 尼尔·布鲁斯和约翰·措措斯。注意力基于信息最大化。Journal of Vision，7（9）：950[8] 艾扬·查克拉巴蒂通过反向传播学习传感器多路复用设计，2016年。[9] Julie Chang和Gordon Wetzstein用于单目深度估计和3D物体检测的深度光学，2019。[10] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年[11] 赵晨，维贾伊·巴德里纳拉亚南，吉拉德·卓兹多夫，安德鲁·拉比诺维奇. 从rgb和sparse估计深度6018感测在欧洲计算机视觉会议（ECCV）的会议记录中，第167-182页[12] 唐纳德·G·丹瑟罗，伊恩·马洪，奥斯卡·皮萨罗，和斯特凡·B·威廉姆斯。全光流：封闭形式的视觉圆顶-尝试光场相机。2011年IEEE/RSJ智能机器人和系统国际会议，第4455- 4462页IEEE，2011年。[13] Trevor Darrell Baback Moghaddam和Alex P Pentland。交互式房间中的主动人脸跟踪和姿态估计。在ProceedingsCVPR IEEE Computer Society Conference on ComputerVision and Pattern Recognition中，第67IEEE，1996年。[14] Mark A Davenport 、 Marco F Duarte 、 Michael BWakin 、 Jason N Laska 、 Dharmpal Takhar 、 Kevin FKelly和Richard G Baraniuk。压缩分类和目标识别的粉碎滤波器。在 Electronic Imaging 2007 ，第 64980 H-64980 H页中。国际光学与光子学会，2007年。[15] Marco F Duarte 、 Mark A Davenport 、 DharmpalTakhar、Ja- son N Laska、Ting Sun、Kevin F Kelly和Richard G Bara- niuk。通过压缩采样的单像素成像。IEEE信号处理杂志，25（2）：83[16] 托马斯·P·弗拉特利。Spacecube：可重构混合机载科学数据处理器家族。2015年。[17] 西蒙妮·弗朗特洛普和帕特里克·詹斯费尔特视觉冲击的注意力标志和主动注视控制。IEEE Transactions onRobotics，24（5）：1054[18] Simone Frintrop，Erich Rome，and Henrik I Christensen.计算视觉注意系统及其认知基础：一个调查。ACMTransactions on Applied Perception（TAP），7（1）：6，2010.[19] Rahul Garg ， Neal Wadhwa ， Sameer Ansari ， andJonathan T Barron. 使用双像素学习单相机深度估计在IEEE/CVF计算机视觉国际会议论文集，第7628-7637页[20] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231[21] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J. Brostow.深入研究自我监督的单目深度预测。2019年10月[22] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。绘制：用于图像生成的递归神经网络，2015年。[23] Tobias Gruber、Frank Julca-Aguilar、Mario Bijelic和Fe-lix Heide。Gated2depth：来自门控图像的实时密集激光雷达。在IEEE/CVF计算机视觉国际会议论文集，第1506-1516页[24] Brian Guenter 、Mark Finch 、 Steven Drucker 、 DesneyTan 和 John Snyder 。凹点 3D 图形。ACM Trans.Graph. ，2012年。[25] Vitor Guizilini 、 Rares Ambrus 、 Sudeep Pillai 、 AllanRaventos和Adrien Gaidon。用于自监督单目深度估计的3d包装。在IEEE/CVF计算机视觉和模式识别会议论文集，第2485-2494页[26] 红花和刘胜。双传感器中心凹成像系统。应用光学，47（3）：317[27] Tak-Wai Hui，Chen Change Loy，and Xiaoou Tang.通过深度多尺度引导实现深度图超分辨率。欧洲计算机视觉会议（ECCV），2016年。[28] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络，2016年。[29] 阿德里安·约翰斯顿和古斯塔沃·卡内罗。自监督单眼训练深度估计使用自注意和离散视差体积。在IEEE/CVF计算机视觉和模式识别会议论文集，第4756-4765页[30] Samira Ebrahimi Kahou，Vincent Michalski，and RolandMemisevic. Ratm：Recurrent Attentive Tracking Model，2016.[31] 安东 S. Kaplan yan ， AntonSochenov ， ThomasLeimkuühler ， Mikhail Okunev ， Todd Goodall ， and GizemRufo.深凹：使用自然视频的学习统计数据进行中央凹渲染和视频压缩的神经重建。ACM事务处理图表，2019年。[32] 亚当河Kosiorek，Alex

下载后可阅读完整内容，剩余1页未读，立即下载