基于事件的条件生成对抗网络：从事件数据流生成图像/视频

19 浏览量更新于2023-10-18 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10081基于事件的条件生成对抗网络Lin Wang1，S.穆罕默德·穆斯塔法维岛2012年12月22日，Yo-Sung Ho和Kuk-Jin Yoon11视觉智能实验室，系机械工程，KAIST，韩国2计算机视觉实验室，部门韩国GISTwanglin@kaist.ac.kr，mostafavi@gist.ac.kr，hoyo@gist.ac.kr，kjyoon@kaist.ac.kr摘要与传统摄像机相比，事件摄像机具有许多优势，例如低延迟，高时间分辨率和高动态范围。然而，由于事件相机的输出是异步事件随时间的序列，而不是实际的强度图像，现有的算法不能直接应用。因此，要求从事件生成强度图像以用于其他任务。在本文中，我们释放了基于事件相机的条件生成对抗网络的潜力，以从事件数据流的可调整部分创建图像/视频。事件的时空坐标的堆栈被用作输入，并且网络被训练以基于时空强度变化来再现图像。事件相机的有用性，以产生高动态范围（HDR）的图像，即使在极端的照明条件下，也快速运动下的非模糊图像也示出。此外，还证明了生成非常高帧率视频的可能性，理论上高达每秒100万帧（FPS），因为事件相机的时间分辨率约为1 µ s。所提出的方法进行了评估，通过比较的结果与强度图像上捕获的同一像素网格线的事件使用在线可用的真实数据集和合成数据集的事件相机模拟器产生的。1. 介绍事件摄像机是生物启发的视觉传感器，模仿人眼接收视觉信息[14]。虽然传统相机以固定速率传输强度帧，但事件相机以异步事件的形式传输变化时的强度变化，该异步事件提供强度变化的时空坐标。与传统相机相比，它们有很多优点。微秒量级的低延迟，高时间分辨率，*这两位作者贡献相当图1. 从左到右，输入事件，来自DAVIS相机的有源像素传感器（APS）图像，以及我们的结果。我们的方法构建了具有更多细节的HDR图像，这些细节是普通相机无法像APS帧那样再现的。分辨率（约1 µs）和高动态范围。然而，由于事件相机的输出是异步事件随时间的序列，而不是实际的强度图像，大多数现有的算法不能直接应用。因此，尽管最近已经表明事件摄像机足以执行一些任务，例如6-DoF姿态估计[24]和3D重建[22，11]，但如果我们可以从事件生成强度图像以用于其他任务，例如对象检测，跟踪和SLAM，这将是一个很大的帮助。实际上，已经指出，事件摄像机原则上传输重建图像或完整视频流所需的所有信息[2，25，24]。然而，这一说法从未得到彻底证实。受深度学习在图像重建和翻译方面的最新进展的启发，我们解决了从事件生成强度图像的问题，并进一步释放了事件相机的潜力，以产生高质量的HDR强度图像和高帧率视频，而没有运动模糊，这在快速运动和极端照明条件的鲁棒性至关重要时尤其重要，如在自动驾驶中。据我们所知，我们的工作是第一次尝试专注于纯事件到HDR图像和高帧10082视频转换速率，并证明即使在快速运动和极端照明条件下，活动摄像机也可以生成高质量的非模糊图像和视频。我们首先提出了基于事件的域转换框架，与有源像素传感器（APS）帧和其他以前的方法相比，该框架可以从事件中生成质量更好的图像。针对该框架，提出了基于事件流移位的两种新颖主动的事件叠加方法：基于时间的叠加（SBT）和基于事件数的叠加（SBE），从而实现了高帧率、高动态范围的无运动模糊表现，而这在普通摄像机中是不可能实现的。事实证明，使用这些堆叠方法可以生成高达100万FPS的视频为了验证所提出的方法的鲁棒性，我们进行密集的实验和评估/比较。在实验中，使用来自动态和有源像素视觉传感器DAVIS的真实数据集，DAVIS是一种联合事件和强度相机[20]。传感器的像素网格线的事件和强度是在相同的位置，这有助于减少额外的步骤的整流和扭曲调整，ING两个我们制作了一个开放的数据集，其中包括由DAVIS相机捕获的超过17K的图像。此外，我们通过使用实验1的事件相机模拟器[ 23 ]制作了包含17 K图像的合成数据集。2. 相关工作2.1. 从事件重建强度图像从事件中视觉解释或重建强度图像的早期尝试之一是Cook等人的工作。 [6]，其中利用称为映射的循环互连区域来解释强度和光流。Kim等人[10]在仅旋转场景上使用纯事件在[3]中，在存在噪声的情况下，使用基于块的稀疏字典在模拟和真实事件数据上重建强度图像。Bardow等人 [2]与以前的仅旋转方案相比，通过重建强度图像和一般运动的运动场进一步采取了几个步骤。同时，Reinbacher et al. [25]介绍了一个变分去噪框架，迭代过滤传入的事件。他们引导事件通过一个关于其时间戳的流形来重建图像。Moeys等人提出了对带有RGBW彩色滤光片的事件相机的测量和模拟。在[19]中。他们提出了重建强度图像的简单计算方法上述方法确实主要通过纯事件来创建强度图像，然而，1可在http://vi.kaist.ac.kr查阅结构不真实。最近，Shedligeriet al.[28]介绍了一种混合方法，融合强度图像和事件来创建逼真的图像。他们的方法依赖于一组三个自动编码器。该方法对于正常照明的场景产生有希望的结果，但是由于其仅利用事件数据来找到6-DoF姿态，因此其在极端照明条件下恢复HDR场景时失败。2.2. 事件深度学习虽然深度学习在基于事件的视觉中的应用并不多，但最近的一些研究表明，深度学习可以成功地处理事件数据。Moeys等人[18]利用事件数据和APS图像来训练卷积神经网络（CNN），以控制捕食者机器人的转向。在[4，15]中还研究了通过使用纯事件和/或通过以端到端的方式合并APS图像来进行自动驾驶汽车转向预测的其他方法另一方面，在[ 22]中引入了堆叠的空间LSTM网络，其从事件中重新定位6-DoF姿态，并且在[ 33]中提出了基于自监督编码器-解码器网络的光流估计。在[5]中，采用监督学习来创建用于检测自我运动下的对象的伪标签通过在APS图像上训练CNN，将伪标签转移到事件图像。并且，如前一节所述，在[ 28 ]中引入了事件数据和APS图像的融合，其利用自动编码器来创建逼真的图像。据我们所知，我们是第一个将生成对抗网络应用于事件数据的公司。2.3. 基于图像平移的条件GAN实际上，没有定性研究表明条件GAN（cGAN）对事件数据的有效性。先前的工作集中于cGAN，用于从法线映射[29]进行图像预测，未来帧预测[16]和从稀疏注释[ 9 ]生成图像。使用GAN进行图像到图像转换对比和无条件对比之间的区别在于，无条件GAN高度依赖于限制损失函数来控制要调节的输出。cGAN已成功应用于帧图像域中的风格转换[13，1，8，34，12]，这些应用主要集中在基于监督设置将图像从一种表示转换为另一种表示。此外，它需要输入输出对的图形任务，同时假设域之间的某种关系。在事件视觉方面，cGAN还没有被定性和定量地研究，因此，我们试图释放cGAN在基于事件数据的图像重建中的潜力。然而，由于基于帧的图像翻译的一般方法通常不同于基于事件的方法，因此我们首先提出了一种基于帧的图像翻译方法。10083pppnnn深度学习框架来完成这一任务，并充分利用事件相机的优点，如低延迟、高时间分辨率、高动态范围。然后，我们定性和定量地评估所提出的框架与真实和合成数据集。3. 该方法为了从事件中重建HDR和高时间分辨率图像和视频，我们利用当前可用的深度学习模型，如cGAN，作为事件视觉的潜在解决方案cGAN是生成模型，其学习从观察图像x和随机噪声向量z到输出图像y的映射，G：{x，z}→y。发电机G被训练产生的输出与原始图像由一个adversarially训练的神经网络，D[7]。其目标是最小化地面实况和生成器输出之间的距离，并最大化来自GPS的观测。Pix2Pix [8]和CycleGAN [34]等cGAN已经证明了它们在图像到图像翻译方面的能力，带来了突破性的结果。cGAN的关键优势在于，在给定特定任务的情况下，不需要定制损失函数，并且它通常可以将自己的学习损失适应于训练它的数据域。然而，事件数据与基于cGAN的传统视觉方法所使用的数据有很大不同，因此我们提出了新的方法，可以为SEC中的神经网络提供现成的输入。3.1首先在Sec中构建网络。3.2.3.1. 事件叠加在事件照相机中，每个事件e被表示为元组（u，v，t，p），其中u和v是像素坐标，t是事件的时间戳，p=±1是事件的极性，其是亮度变化的符号（p=0无事件）。这些事件显示为图1左侧的流二、基于强度相机的帧速率，我们在两个连续的APS帧之间同步APS图像和异步事件。为了将事件数据输入馈送到网络，需要事件数据的新表示一种简单的方法是将3D事件体积形成为p（u，v，t），确保事件数据足以用于图像重建。当表示时间分辨率时，用δ t表示事件相机的分辨率，用td表示持续时间，则3D体积的大小为（w，h，n），其中w和h表示事件相机的空间分辨率，并且n = td/δt。这相当于将n通道图像输入到网络这种表示保留了关于事件的所有但问题是，渠道数量非常庞大。例如，当td设为10 m s时，n约为10 K，这是非常大的，因为事件相机的时间分辨率约为1 µs。为此，我们通过合并和堆叠每个通道来构造具有小n的3D事件体，小时间间隔内的事件事件堆叠可以用不同的方式来完成，但是作为回报，事件的时间信息必然会被牺牲。3.1.1基于时间的叠加（SBT）在该方法中，合并事件相机的两个连续强度图像（APS）的时间参考之间的流式传输事件，表示为APSt但并非所有事件都合并到单个帧中。相反，事件流的持续时间被分成n个等比例部分，然后n个灰度帧Si（u，v），i = 1，2，..， n，通过合并每个时间间隔[（i-1）<$t，i<$t]中的事件而形成。Si（u，v）是（u，v）处的极性（p）值的总和。这些n个灰度帧再次堆叠在一起以形成一个堆叠Sp（u，v，i）= Si（u，v），i = 1，2，.， n，它作为输入被馈送到网络。如前所述，这种叠加方法丢失了时间间隔Δt内事件的时间信息。然而，堆栈本身，作为来自从1到n在某种程度上仍然保持时间信息因此，较大的n可以保留更多的时间信息。图2说明了如何合并和堆叠事件。当n=3时（即将帧FA、FB和FC堆叠成一个堆栈），该堆栈可以被可视化为伪彩色帧，如图1B的左部分所示。2在APS图像上方。根据图中事件流形上显示的时间 2，从3D视图上的时间零开始，APS图像的位置在第三个红色矩形的位置附近，接近0.03秒（APS图像的帧速率为33 FPS）。3.1.2基于事件数的堆叠（SBE）不幸的是，SBT带来了一个源于事件相机的内在限制，即当场景或相机没有移动时，事件会缺失当时间间隔内的事件数据不足以用于图像重建时，不可避免地难以获得良好的HDR图像。这是图1左侧事件流的第四帧和第五帧的情况二、此外，另一个缺陷来自于在一个时间帧中有太多事件的情况，就像在第三个时间帧中一样。SBE更符合事件相机的性质，即与时间异步，并且可以克服SBT的上述限制。在该方法中，通过基于传入事件的数量合并事件来形成帧，如图1所示。二、前Ne个事件被合并到帧1中，并且接下来的Ne个事件被合并到帧2中，并且这一直持续到帧n以创建n个帧的一个堆栈然后，这个总共包含nN-e个事件的n帧堆栈该方法保证了丰富的事件数据足以根据Ne值重建图像。图2中的FE、FF、FG和FH分别是与不同数量的事件Ne、2Ne、 3Ne、4Ne相由于我们随着时间对事件的数量进行计数，因此我们可以自适应地调整每个帧以及一个堆栈中的事件数量。10084图2.事件流以及SBT和SBE的栈构造（Red（+），Blue（-））和（Green（+），Cyan（-））这两个主要颜色元组表示事件极性（正、负）。在主3D视图中，使用黄色高亮显示的时间显示两种类型的堆叠（左侧为SBT，右侧为SBE3D视图及其侧视图定期（每5000个事件）用（红色，蓝色）和（绿色，青色）进行颜色编码，以实现更好的可视化。所有图像和绘制的数据都来自[20]的“HDR框”序列3.1.3用于视频重建的SBT和SBE都可以应用于使用所提出的网络从事件进行视频重建，并且在这两种方法中，输出视频的帧速率可以通过控制用作网络输入的两个相邻事件栈的时移量来调整当时间间隔[i-t，i]中的事件用于一个输入堆栈时，视频中的图像I（i），图像的下一个输入堆栈视频中的I（i+ts）可以通过使用时间间隔[i−t′，i+ts]（对于SBTt′=t−ts）中的事件来构建，时间偏移为ts。然后，输出视频的帧速率变成1。值得注意的是，两个堆栈通过网络，在此过程中可能会丢失事件的详细特征，并在输出中引入噪声。出于这个原因，我们考虑了[8]中提出的类似方法，其中我们进一步将跳过连接添加到[25]中的“U-网”网络结构图图3示出了包括层数和输入/输出的详细信息。3.2.2鉴别器结构我们的网络起源于[31]中的网络图4说明了我们的网络体系结构的细节。我们的方法可以被认为是一种最小化ts′事件和强度图像之间的风格传递损失。大的时间重叠[i−t，i]，持续时间为t。如果t>>ts，时间一致性对于附近的跳转由于事件相机的时间分辨率是在数学上，目标函数定义为：LcGAN（G，D）=Ee，g[logD（e，g）]+大约1µs，我们可以达到高达100万FPS的视频时间一致性。这将在SEC中得到证明4Ee，（一）[log（1 − D（e，G（e，）]。3.2. 网络架构在本文中，我们描述了我们的生成器和驱动[13]。包括每层的大小的架构的细节可以在图中找到。3和图4.第一章3.2.1生成器架构事件到图像转换的核心是如何将稀疏事件输入映射到具有细节的密集HDR输出，共享相同的结构图像特征，例如边缘，角落，斑点等。编码器-解码器网络是图像到图像翻译任务中最常用的网络输入通过网络连续下采样，然后其中，e表示原始事件，g表示生成的图像，并且f表示作为到生成器的输入的高斯噪声同时，G试图最小化图像与事件的差异，而D则试图最大化图像与事件的差异。这里，对于正则化，L1范数用于收缩模糊，LL1（G）=Ee，g，<$[<$g− G（e，<$）<$1].（二）这种L1范数的目的是使神经网络更加关注从事件生成的图像的高频结构。最终，目标是估计从事件到图像转换的总损失为G_n=arg_min_max[L_cGAN（G，D）+λL_L_1（G）]，（3）上采样以获得转换结果。因为在GD10085事件到图像的转换问题，事件数据中存在大量高频重要信息其中λ是调整学习速率的参数有了噪声干扰，网络可以从事件e中学习映射，10086图3.生成器网络：一种U型网络[26，8]架构（具有跳过连接），其输入维度为256×256×n（本例中n=3），后面是对应于多通道特征图的灰色框通道的数量在每个框内表示。前两个数字（从下到上）表示过滤器大小，最后一个数字表示过滤器的数量图4.建议的框架与发电机和可再生能源网络。我们的网络类似于PatchGAN [31]，它需要两个图像（原始APS图像和由事件生成器生成的图像该方法首先将生成器最后一层的特征映射条件连接起来，并判断生成的图像是否符合从事件到强度的域转移条件。它可以匹配基于事件的分布，并有助于产生更具确定性的输出。3.3. 数据集准备我们的训练和测试数据集基于三种方法准备。我们通过参考[20]创建第一组数据集，其中包括许多真实世界的场景我们还自己制作了第二组数据集，用于各种训练和测试目的，并在之后向公众开放。这些数据集是使用DAVIS相机捕获的，并且有许多系列的场景。第三种类型的数据集是从ESIM[23]生成的，ESIM是一个开源的事件相机模拟器。真实的数据集包含许多不同的室内和室外场景，这些场景是通过DAVIS相机的各种旋转和平移捕获的。我们的训练数据由成对的堆叠事件组成，如第二节所述。3.1与来自真实世界场景的APS帧和在ESIM中生成的地面实况（GT）帧一起在这里，为了使用真实数据来训练网络，我们仔细准备了训练数据，以避免网络学习APS帧的不适当属性。实际上，APS帧在快速运动下遭受运动模糊，并且还具有限制。有限的动态范围导致细节的丢失，如图11所示。因此，直接使用真实的APS帧作为地面实况并不是训练网络的好方法因为我们的目标是通过充分利用事件相机的优势来产生模糊较少的HDR图像因此，与训练数据的黑色和白色区域相关的事件从输入中删除，以使网络学习从事件生成HDR图像。此外，基于BRISQUE评分（稍后将解释）和手动检查将APS图像分类为模糊和非模糊，并且我们避免在训练集中使用模糊的APS图像模拟序列主要由ESIM生成，在ESIM中，当虚拟相机向各个方向移动以捕获给定图像中的不同场景时，会产生由于事件和APS图像是从受控的仿真环境中生成的，因此APS帧被直接计数为图像重建的地面实况。因此，对于模拟数据集不需要上述训练数据细化。100874. 实验与评价为了探索我们的方法的能力，我们对第3.3节中描述的数据集进行了深入的实验，并使用另一个具有三个真实序列（Face，jumping和ball）的开源数据集进行比较。我们创建了一个训练数据集，约60K事件堆栈与相应的APS图像对的基础上，他们的精确时间-tamps，并测试我们的方法在两个场景与正常照明和HDR场景。从真实和模拟数据集中，我们随机选择了1，000个APS或地面实况图像以及相应的事件堆栈，这些图像未用于训练步骤，用于测试。在这里，值得注意的是，由于真实数据集不包括用于训练和测试的地面实况图像，因此我们将其APS图像用作训练目的的地面实况。然而，APS图像本身遭受运动模糊和低动态范围。因此，使用APS图像可能不是训练和评估结果的最佳方式。出于这个原因，我们准备了第2节中所述的训练APS图像。3.3，并使用结构相似性（SSIM）[30]、通过将结果与APS图像进行比较计算的特征相似性（FSIM）[32]以及使用无参考质量度量来评估结果。为了达到质量的整体测量，特别是在评估没有地面实况的真实数据集的重建质量时，应用盲/无参考图像空间质量评估器（BRISQUE）[17]，该评估器利用归一化亮度系数来量化图像中的自然度。另一方面，为了评估使用ESIM [ 23 ]创建的合成数据集的地面实况和生成图像之间的相似性，每个地面实况与具有最接近时间戳的相应重建图像相匹配，如[27]中所述采用SSIM、FSIM和峰值信噪比（PSNR）来评估非HDR场景和我们有可靠基础的4.1. SBT与SBE我们比较两个事件堆叠方法，SBT和SBE，使用我们的真实数据集。使用17 K事件堆栈-APS图像对进行训练，其中我们将SBT的时间间隔设置为0.03s，将SBE的一个堆栈中的事件数量设置为60 K。为了清楚地看到叠加方法的效果，对于两种方法，一个堆栈中的（n）都设置为3图5显示了分别使用SBE和SBT在我们的真实世界数据集上重建的图像，用于定性比较。实验结果表明，我们的方法（SBT和SBE）都具有足够的鲁棒性，可以在不同的序列上重建图像，并且生成的图像与APS图像非常接近。我们的方法可以成功地重建形状，外观的人，建筑物等。当比较SBT和SBE时，SBE通常产生更好的结果。表1显示了使用SBE的定量评价结果。请注意，大型SSIM图5.在不同的真实世界序列上使用输入事件堆栈（可视化为伪彩色图像）的重建结果[20]。从上到下，APS图像作为地面实况，使用SBE的事件堆栈，使用SBE的重建图像，使用SBT的事件堆栈和使用SBT的重建图像。表1.SBE在真实世界数据集上的定量评估BRISQUEFSIMSSIM我们的（n=3）37.79±5.860.85±0.050.73±0.16和FSIM值并不总是意味着更好的输出质量，因为它们只是表示与遭受运动模糊和低动态范围的APS图像4.2. 利用模拟数据集进行定量评估在第4.1节中，我们研究了我们的方法在现实世界数据上的潜力，这些数据表明SBE比SBT更鲁棒。因此，我们基于SBE进行实验，并显示我们的方法对ESIM [ 23 ]数据集的鲁棒性，可以生成大量可靠的事件数据。由于模拟器产生无噪声的APS图像与给定图像的相应事件，APS图像可以被视为地面实况，从而定量评估结果。此外，虽然我们的方法能够堆叠，即，将任意数量的帧（n）堆叠成堆栈，我们选择通道的数量n ={1，3}来检查不同通道数量的效果。一个堆栈中的事件数设置为60 K。表2显示了我们的方法的定量评价，其中n=1和n=3。结果表明，我们的方法与n=3产生更好的结果比与n=1，证明，10088GTn=1n=3图6.从ESIM生成的输入重建输出[23]。与其中图像由于过度累积的事件而失真的一帧堆栈相比，每堆栈使用3帧（n=3）导致更鲁棒的重建图7.将我们的方法（左起图2、图4和图6）与Reinbacher等人的方法进行比较。[25]（图像1，3和5）的数据集[2]。我们的方法产生更多的细节（例如，面部、胡须、跳跃姿势等）以及纹理较少的区域中的更自然的灰色变化表2. ESIM（模拟器）数据集上的实验。在一个堆栈中有更多的帧会产生更好的结果。峰值信噪比（dB）FSIMSSIM我们的（n=1）20.51±2.860.81±0.090.67±0.20我们的（n=3）24.87±3.150.87±0.060.79±0.12在一个堆栈中具有更多的帧确实提高了性能，因为它可以保留更多的时间信息，如在第2节中所提到的。第3.1条在图6中，我们示出了一些重建图像以及输入事件堆栈和地面实况图像。需要指出的是，n=1重建的面和建筑物顶部有点扭曲，这可能是由一个通道中累积的事件太多引起进一步的挑战性场景togtether与燃气轮机图。11个国家。4.3. 与相关作品的比较我们还将我们的方法在序列（面部，跳跃和球）上与流形正则化（MR）[21]和强度估计（IE）的结果进行了定性[2]在图7中。由于我们处理的是高度动态的数据，我们在补充视频中提供了更有说服力和更明确的解释和结果，它显示了数百帧的整个序列。为了定量地比较性能，我们使用BRISQUE评分，因为这些序列没有地面实况图像我们将我们的方法（SBE，n= 3）在序列（面部，跳跃和球）上的输出与表3中的MR [21]和IE [2]的结果进行比较。结果相当表3.定量地比较了我们的方法与[2]和[21]中的方法。报告的数字是应用于序列的所有重建帧的BRISQUE测量的平均值和标准差。我们的方法对所有序列都显示出更好的BRISQUE分数。序列脸跳球巴多[2]22.27±8。8129.39±7.2729.37±9.61蒙达[21]27.29±7.2748.18±6.7034.98±9.31我们的（n=3）48.26±3.1448.34±2.1839.18±3。49与图1的视觉印象一致7 .第一次会议。我们在所有面部、跳跃和球序列上的输出显示了更多的细节，并导致相对较高的BRISQUE分数。5. 讨论虽然从事件流本身创建强度图像是具有挑战性的，但是所得到的图像也可以用于其他视觉任务，例如对象识别、跟踪、3D重建、SLAM等。从这个意义上说，所提出的方法可以应用于许多使用事件相机的应用。这里，由于所提出的方法可以充分利用事件相机的优点，例如高时间分辨率和高动态范围，因此它可以生成甚至比APS图像更好的HDR图像和非常高的帧速率视频，如在第2.1.1节中所提到的。3.1.3，大大增加了所提出的方法的实用性。事件到HDR图像：在本文中，它清楚地表明，事件堆栈具有丰富的信息，HDR图像重建。在许多情况下，场景的某些部分10089图8. HDR成像对抗阳光直射（极端照明）。从左到右：APS，事件堆栈，我们的重建结果。（序列来自[27]）。图9.高帧率（高达106 FPS）视频重建。由于其低动态范围，在APS图像中不可见。但是，许多事件确实存在于事件相机中的这些区域中，如图2中桌子下面的区域中11或棋盘图案在左上部分的堆叠图像在图。二、虽然这两个例子都是来自黑暗的照明，但正常的相机也无法在相当明亮的照明。图8示出了在这种情况下所提出的用于HDR图像生成的高帧率视频的事件：由于相机或场景的快速运动而引起的运动模糊是具有挑战性的问题之一，这使得视觉方法不可靠。然而，我们的方法实际上可以生成非常高的帧速率（HFR）视频，在快速运动下具有更少的运动模糊，如第12节所述。3.1.3. 为了证明这种能力，我们使用重建的HFR视频进行了跟踪实验：利用基于事件的高帧率视频重建框架，我们可以恢复出一个安装在13000RPM风扇上的星形物体的清晰运动，结果如图所示。9显示它能够生成高达1百万fps的视频损失函数的作用：我们还对不同的损失项组合进行了消融研究。结果示于表4和图3中。10个。在PSNR方面，L1范数达到更高的值，而我们在整个实验中使用cGAN+L1，因为它反映了模拟输入中更高的BRISQUE分数。更高的PSNR并不总是意味着更好的输出质量，因为它只是表示与APS图像（用作GT）的相似性，这些图像受到噪声，运动模糊和低动态范围的影响。例如，更高的PSNR意味着图中L1的结果10更类似于低质量的APS图像。由于我们希望重建比APS图像（用作GT）更逼真且更好的图像，因此我们不使用L1，而是使用cGAN+L 1.此外，L1范数本身模糊了图像，并平均了精细的细节。表4.GAN、CGAN和标准L1损失函数对真实世界（R）和模拟（S）输入的影响cGAN+L1cGANL1GAN+L1GAN峰值信噪比（S）24.8222.9128.5925.138.09布里斯克。（S）40.739.239.740.339.7SSIM（S）0.8090.7290.8970.8230.120峰值信噪比（R）20.3618.5121.3419.7813.71布里斯克。（R）35.0633.3739.4736.2036.53SSIM（R）0.5870.5430.6700.5680.271APS↑，GT↓ cGAN +L1L 1图10.不同损失函数的结果（真实↑，模拟↓）图11.我们的结果（↓）与来自GT图像的模拟事件6. 结论我们展示了我们的基于cGAN的方法如何受益于事件相机的属性，以准确地从纯事件中重建HDR非模糊强度图像和高帧速率视频我们首先提出了两个主动事件堆叠方法（SBT和SBE）的图像和视频重建的事件使用网络。然后，我们展示了使用事件相机生成高动态范围图像和高帧率视频的优势，通过实验，我们的数据集的基础上，在线可用的真实世界的序列和模拟器。为了展示我们方法的鲁棒性，我们将我们基于cGANs的事件到图像框架与其他实验重建方法进行了比较，并表明我们的方法在公共可用数据集上优于其他方法我们还表明，即使在极端照明条件下也可以生成高动态范围图像，并且在快速运动下也可以生成非模糊图像。确认这项工作得到了韩国政府（MSIT）资助的韩国国家研究基金会（ NRF ）资助（ NRF-2018 R1 A2B3008640）的支持。10090引用[1] A. Atapour-Abarghouei和T.P. 我猜使用合成数据进行实时单目深度估计，通过图像风格转换进行域自适应。在IEEE计算机视觉和模式识别会议论文集，第18卷，第1页，2018年。2[2] P. Bardow，A.J. Davison和S.罗伊特内格从事件照相机的同时光流和强度估计。在IEEE计算机视觉和模式识别集，第884一、二、六、七[3] S. Barua，Y. Miyatani和A.维拉加万从事件摄像机直接进行人脸检测和视频重建。计算机视觉应用（WACV），2016年IEEE冬季会议，第1-9页。IEEE，2016. 2[4] J. Binas，D.尼尔，S.-C. Liu和T.德尔布鲁克Ddd17：端到端戴维斯驾驶数据集。 arXiv 预印本 arXiv ：1711.01458，2017。2[5] N. F. 尘用于动态视觉传感器数据的监督学习的伪标签，应用于自我运动下的对象检测。在IEEE计算机视觉和模式识别研讨会会议论文集，第6442[6] M.库克湖，澳-地Gugelmann，F.朱格角Krautz和A.斯蒂格交互式地图用于快速视觉解释。神经网络（IJCNN），2011年国际联合会议，第770-776页。IEEE，2011年。2[7] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.Warde-Farley，S.奥扎尔A.Courville和Y.本吉奥。生成式对抗网络。在神经信息处理系统的进展，第2672-2680页3[8] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。二三四五[9] L.卡拉坎角Z. Akata，A. Erdem和E. Erdem 学习从属性和语义布局生成户外场景的图像arXiv预印本arXiv：1612.00215，2016。2[10] H. Kim，A.汉达河Benosman，S. H. Ieng和A.戴维森。同时镶嵌和跟踪与事件摄像机。J. Solid State Circ，43：566-576，2008. 2[11] H. Kim，S. Leutenegger和A. J·戴维森利用事件摄影机进行实时三维重建与六自由度追踪。欧洲计算机视觉会议，第349-364页。施普林格，2016年。1[12] C. 莱迪格湖Theis，F.Huszár，J.Caballero，A.坎宁安A.阿科斯塔A. P. Aitken，A. Tejani，J. Totz，Z. wang等人使用生成对抗网络的照片级真实感单幅图像超分辨率。在CVPR，第2卷，第4页，2017年。2[13] C. Li和M.魔杖利用马尔可夫生成对抗网络进行预计算实时纹理合成。欧洲计算机视觉会议，第702-716页。施普林格，2016年。二、四[14] P. 利希特施泰纳角Posch和T.德尔布鲁克128×128120db15µs延迟异步时间对比度视觉传感器。IEEE Journal of Solid-State Circuits，43（2）：5661[15]A. I. Maqueda，A.洛克尔西奥湾Gallego，N.Garcıa，以及D.斯卡拉穆扎基于事件的视觉与深度学习自动驾驶汽车的转向预测在IEEE计算机视觉和模式识别会议论文集，第5419-5427页2[16] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440，2015。2[17] A. Mittal，A. K. Moorthy和A. C.波维克空间域中的无参考图像质量评估。IEEE Transactionson ImageProcessing，21（12）：4695 -4708，2012. 6[18] D. P. Moeys，F.Corradi、E.Kerr，P.Vance，G.Das，D.尼尔D. Kerr和T.德尔布吕克使用混合帧/事件驱动卷积神经网络操纵捕食机器人。基于事件的控制，通信和信号处理（EBCCSP），2016年第二届国际会议，第1-8页。IEEE，2016. 2[19] D. P. 莫埃斯角Li，J.N. Martel，S.班福德湖，澳-地朗吉诺蒂，V. Motsnyi，D. S. S. Bello和T.德尔布鲁克动态视觉传感器的颜色电路与系统（ISCAS），2017年IEEE国际研讨会，第1-4页。IEEE，2017年。2[20] E.米格勒Rebecq，G. Gallego，T.德尔布鲁克，D.斯卡拉穆扎事件相机数据集和模拟器：基于事件的数据，用于姿势估计、视觉里程计和 slam 。 TheInternational Journal of Robotics Research，36（2）：142-149，2017。二、四、五、六[21] G. 蒙达角Reinbacher和T.Pock 使用流形正则化的事件相机的实时强度图像国际计算机视觉杂志，126（12）：1381-1393，2018。7[22] A.阮T T.做吧D G. Caldwell和N. G.查加拉基斯堆叠空间lstm网络的事件摄影机实时6自由度位姿重定位arXiv预印本。一、二[23] H. Rebecq，D. Gehrig和D.斯卡拉穆扎一个开放的事件摄像机模拟器。在机器人学习会议上，第969-982页二五六七[24] H. Rebecq，T.Horstschaefer，G.Gallego和D.斯卡拉穆扎Evo：基于事件的6自由度并行实时跟踪和映射的几何方法。IEEE Robotics and Automation Letters，2（2）：593-600，2017。1[25] C. Reinbacher，G.Graber和T.Pock 使用流形正则化的事件相机的实时强度图像 arXiv 预印本 arXiv ：1607.06283，2016年。一、二、四、七[26] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。5[27] C. Scheerlinck，N. Barnes和R.马奥尼使用事件摄像机的连续时间强度估计。 arXiv预印本arXiv：1811.00386，2018。六、八[28] P. A. Shedligeri，K.沙阿角，加-地Kumar和K.米特拉基于混合强度和事件的传感器的Photore-alistic图像重建。arXiv预印本arXiv：1805.06140，2018。2[29] X. Wang和A.古普塔。使用样式和结构对抗网络的生成图像建模。在欧洲计算机视觉会议上，第318-335页。施普林格，2016年。210091[30] Z. Wang，中国山核桃A.C. Bovik，H.R. Sheikh和E.P. 西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：6006[31] Z. Yi，H. R. Zhang，P. Tan，and M. 龚Dualgan：用于图像到图像翻译的无监督双重学习。在ICCV，第2868-2876页，2017年。四、五[32] L.张丽Zhang，X. Mou，D. zhang等人一种用于图像质量评价的特征相似性指数。 IEEETransactions on ImageProcessing，20（8）：2378 -2386，2011。6[33] A. Z.朱湖，加-地Yuan，K. Chaney和K.丹尼尔迪斯Ev-flownet：基于事件的摄像机的自监督光流估计。arXiv预印本arXiv：1802.06898，2018。2[34] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对图像arXiv预印本，2017年。二、三

下载后可阅读完整内容，剩余1页未读，立即下载