EventSR：无监督的事件相机超分辨率图像重建

114 浏览量更新于2023-10-25 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1EventSR：通过端到端对抗学习Lin Wang1，Tae-Kyun Kim2，and Kuk-JinYoon11 Visual Intelligence Lab.，韩国KAIST2 ICVL实验室，为英国伦敦帝国学院wanglin@kaist.ac.kr，tk.kim @ imperial.ac.ukkjyoon@kaist.ac.kr摘要事件摄像机感测强度变化，并且比传统摄像机具有许多优点。为了利用事件相机，已经提出了一些方法来从事件流重建强度图像。然而，输出仍然是在低分辨率（LR），噪声，和不现实的。低质量输出源于事件相机的更广泛应用，其中需要高空间分辨率（HR）以及高时间分辨率、动态范围和无运动模糊。Weconsider the problem of re- constructing and super-resolving intensity images from LR events, when noground truth (GT) HR images and down- sampling kernelsare available.为了应对这些挑战，我们提出了一种新的端到端流水线，该流水线从事件流重建LR图像，增强图像质量，并对增强的图像进行上采样，称为EventSR。由于没有真实的GT图像，我们的方法主要是无监督的，部署对抗学习。为了训练EventSR，我们创建了一个开放的数据集，包括真实世界和模拟场景。这两种数据集的使用提高了网络性能，网络结构和每个阶段的各种损失函数有助于提高图像质量。整个管道分为三个阶段进行训练。虽然每个阶段主要是为了在这三个任务中，网络在较早阶段中以端到端的方式通过各自的损失函数进行微调。实验结果表明，EventSR重建高质量的SR图像从事件的模拟和真实世界的数据。实验的视频可在https://youtu.be/OShS_MwHecs上获得。1. 介绍事件相机是生物启发的传感器，其在强度发生变化时感测强度变化并产生异步事件流[24，44，18]，而传统相机以固定的帧速率捕获强度变化。这一独特的特征引发了一系列的冰毒-图1：从纯事件重建真实的HDR SR强度图像。EventSR重建LR HDR强度图像，恢复真实的LR图像，并最终从阶段1、2和3中的事件生成SR图像（比例因子为0.04）。ODS专门针对事件摄像机[37]开发，并且直到最近，通用学习算法才成功地应用于基于事件的问题[44，53，46，32，7]。事件摄像机（例如，DAVIS 240）传达了清晰的优势，例如非常高的动态范围（HDR）（140dB）[24]，无运动模糊和高时间分辨率（1µ s），并且已经证明，单独的事件相机足以执行高级任务，例如对象检测[27]，跟踪[14]和SLAM [19]。此外，由于其潜力，事件流可能包含完整的视觉信息，用于重建具有HDR且无运动模糊的高质量强度图像和视频。然而，由于堆叠事件中的累积噪声和模糊（失焦）以及事件相机的低分辨率（LR），强度图像重建的最新技术水平（SOTA）[44，32，29，3]受到影响。有源像素传感器（APS）图像具有低动态范围、LR和模糊。因此，重建图像通常处于LR中并且具有伪影。虽然[19，35]分别关注事件相机的HR，即球形HR图像拼接和事件的HR全景，但他们没有考虑图像平面HR强度图像重建及其感知现实性。在这项工作中，我们努力回答这个问题，83158316是否能够直接超分辨LR事件流以重建图像平面高质量高分辨率（HR）强度图像？上述挑战使得HR强度图像的重建不适定。重建、恢复（例如，去噪/去模糊），并且来自纯事件流的超分辨率强度图像尚未被令人信服地挖掘和证实。我们深入研究了重建高质量的SR强度与HDR和无运动模糊图像的问题对于传统的相机图像，基于深度学习（DL）的方法已经使用LR和HR图像对在单图像超分辨率（SISR）上实现了显着的性能增益[36，23，45]。大多数的作品假设下采样方法是可用的，LR图像是原始的。当涉及到事件相机时，堆叠的事件或APS图像都是嘈杂和模糊的，GT HR图像不可用，更不用说退化模型了。不太清楚这种DL方法是否适用于事件摄像机。受DL在图像平移[54，43]，去噪/去模糊[49，22]和SISR [47，52]方面的发展以及DL最近在事件相机数据[53，44]方面的一些成功的启发，我们探索了无监督对抗学习从LR事件流重建HR强度图像的问题。所得结果证明了我们方法的有效性。据我们所知，这是第一个通过超分辨LR事件流重建HR强度图像的工作。拟议的管道包括三项主要任务。首先，1）我们从LR事件流重建LR图像。然而，这些重建图像通常是嘈杂的，模糊的和不真实的。2)因此，我们然后从事件中恢复（去模糊/去噪）真实的LR强度图像。3)最后，我们将恢复的LR图像超分辨为来自事件的SR图像，如图所示。1.一、我们的框架是一个端到端的学习方法，为了更有效的训练，我们提出了阶段到阶段的网络训练策略。较晚相位的损耗反向传播到较早相位的网络。各种损耗函数和详细的网络架构对最佳质量也很重要。我们使用事件相机模拟器[31]，事件相机数据集[28]以及RGB SR数据集[48，41]构建了一个包含110K图像的开放数据集，用于事件到SR图像重建EventSR的真实世界和模拟数据的结合和交替使用有效地提高了网络性能。使用模拟数据集[44]和真实世界数据集[28]的实验结果表明，EventSR的结果明显优于SOTA [44，3，29]。总之，我们的贡献是：1）考虑图像恢复的从LR事件重建图像平面HR强度图像的第一流水线，2）训练EventSR用于基于事件的超分辨率的开放数据集和使用它进行高性能训练的技巧，3）所提出的详细架构、损失函数和端到端学习策略，以及4）比SOTA用于图像反射的效果更好。我们的数据集在https://github.com/wl082013/ESIM_dataset上打开。2. 相关作品事件到强度图像重建从事件重建强度图像的第一次尝试是通过[8]使用旋转视觉解释。后来[18]尝试从旋转事件相机重建2D全景梯度图像，[19]进一步深入研究基于球形3D场景重建HRmasaic图像。此外，Bardow等人[3]提出通过变分能量函数同时估计光流和强度变化。类似地，Mundaet al. [29]将图像重建视为定义在由事件时间戳引起的流形上的能量最小化问题。与[29]相比，Scheerlincket al. [37]建议在积分之前用高通滤波器过滤事件。近年来，基于DL的方法在强度图像和视频重建方面取得了很大的进展。Wang等人[44]提出使用GAN[15，4，43]重建强度图像并实现SOTA性能。与此相反，Zeroqet al. [32]利用循环网络从事件中重建视频他们还使用了VGA（640 × 480像素）分辨率的事件传感器来重建更高分辨率的视频，然而，这个问题与我们的工作有本质的不同。基于事件视觉的深度学习Reinbacheret al.[35]第35话，我的朋友然而，用于以高得多的事件空间分辨率跟踪，而不是用于强度图像重建。 Alonso等[1]进一步使用了一种编码器-解码器结构来进行事件分割。相比之下，Zhuetal. [53]利用编码器-解码器网络经由无监督学习进行光流、深度和自运动估计此外，坎尼奇等人。[7]改进的YOLO [33]用于基于事件的对象检测。此外，[46]和[6]都利用CNN进行人类姿势和动作识别。同时，为了分析事件对齐，Gallegoet al.[12，11]提出了一些损失和优化函数，这些函数进一步应用于运动补偿[39]、流量估计[53]等。图像恢复/增强的深度学习图像恢复解决了场景表示不令人满意的问题，目标是通过从降级版本中去模糊和去噪，以某种方式操纵图像，使其在某种意义上更紧密地描绘它所代表的场景[34]。而图像增强的目的是对图像进行处理（例如，对比度改进、图像锐化、超分辨率），从而更好地适合于进一步的处理或分析[2]。近年来，CNN在图像恢复和增强中得到了广泛的应用开创性的工作包括用于图像去噪的多层感知[5]和用于图像SR的三层CNN [9]。为了节省计算量，采用了反卷积技术8317DrDdDs事件嵌入GrGDGsFrFdFs第一阶段：重建第二阶段：恢复第三阶段：超分辨率图2：由三个阶段组成的提议EventSR的说明：事件到图像重建（阶段1），事件到图像恢复（阶段2），以及通过无监督对抗学习的事件到图像超分辨率（阶段3）。通过精心设计的训练和测试数据集，EventSR不仅适用于模拟数据，而且适用于具有HDR效果和运动模糊的真实数据降低成本，加快推理速度[10，38]。在[20，25]中，非常在[51]中包括了各种残余块之间的密集连接。类似地，在[26，22，47，52]中开发了基于CNN和GAN的图像去噪方法。3. 提出方法我们的目标是从事件流E中重建SR图像ISR。为了向网络提供事件，我们考虑根据传入事件的数量合并事件，以将它们嵌入到图像中，如[44，53]所做。然后，我们提出了一种新的无监督框架，该框架包括即事件到图像重建（阶段1）、事件到图像恢复（阶段2）和事件到图像超分辨率（阶段3），如图所示。二、我们以一种顺序的阶段到阶段的方式训练整个系统，而不是从头开始学习这逐渐增加了最终重建SR图像的任务在每个阶段中，较早阶段的网络因此以端到端的方式更新。更多细节见Sec. 3.2.3.1. 事件嵌入和数据集事件嵌入为了使用CNN处理事件流，我们需要将事件堆叠到图像或固定的张量表示中，如[44，53]所示。事件摄像机将强度变化解释为异步事件流。事件e被表示为元组pu，t，pq，其中u自然选择是在时空3D体积或体素网格中编码事件[53，44]。在这里，我们考虑通过基于如图3所示的事件的数量合并事件来表示3D事件体积。我们通过调整事件锐度和变化（对比度）来减少事件模糊（失焦），如[11]所示。前Ne个事件被合并到帧1中，并且接下来的Ne个事件被合并到帧2中，图3：用于训练EventSR的事件嵌入和数据集创建的说明。更多细节在主要内容中。重复直到帧n以创建具有n个帧的一个堆栈。因此，包含nN-e事件的堆栈将作为输入馈送到EventSR。在图3中，S1、S2、S3和S4分别是包含不同数量的事件Ne、2Ne、3Ne、4Ne的事件嵌入方法保证了丰富的事件数据作为EventSR的输入，并允许我们自适应地调整每个帧中的Ne和一个堆栈中的nEventSR数据集这项工作的一个关键贡献是构建一个包括模拟和真实场景的数据集，用于训练EventSR。如第1、真实的事件是嘈杂的，是失焦的。此外，真实APS图像存在模糊、噪声和低动态范围等问题。因此，仅使用真实世界数据的训练不是最佳的，也在[44]中显示，并且不足以重建SR图像。我们提出了一个新的EventSR数据集，包括真实和模拟事件。如图所示，我们在训练的每个阶段结合和交替地利用这两种数据。3、桌子1，并证明它运行良好。对于模拟数据，有三个类别用于不同的目的。首先，我们使用[44]提出的数据集进行强度图像重建的比较。其次，为了更好地处理由真实世界数据引起的不适定问题[44]，我们利用参考彩色图像ESIM数据集[44] Ref Img [28]SR img [41，48]事件相机数据集[28]RW事件ESIM原始事件流事件叠加S1框架1S2框架2聚焦补偿图像锐化S3S4框架3框架4Img方差事件嵌入模块美国[44]ESIM-SR1/SR2SR-RWEv-RWEv-RW（HDR）Phase3Phase2Phase18318DR表1：用于训练EventSR的数据源。（R/S代表真实/合成，P1/P2/P3代表阶段1/2/3，Eval代表数值评估，Gen.对于实际数据的泛化，C/N表示是/否，这对训练EventSR非常重要。）数据名决议R/SP1P2P3Eval将军ESIM数据[44]256x256SCCCC✗ESIM-RW256x256S✔✔C✗CESIM-SR1256x256SCCC✗CESIM-SR21024x1024SCC✔C✗Ev-RW（HDR）256x256R✗✔✗CCSR-RW1024x1024R✗✔✔✗C在获取SR图像时，我们首先从事件流中重建图像我们的目标是学习一个映射ILR“G r p E q，由一个事件反馈映射E“F r p I L R q辅助，以及一个事件反馈映射E”F r p I L R q。输入是未配对的训练事件E和LR强度图像ILR。事件到图像恢复（阶段2）由于重建的图像是嘈杂的、模糊的和不现实的，因此我们的目标是使用事件E和干净的LR图像IcLR来恢复（去噪/去模糊）图像。阶段2的目标是学习映射IcLR“G p G p E qq ，事件反馈映射-从事件相机数据集[28]。这带来了一个使用事件模拟器（ESIM）的模拟数据集ESIM-RW（约60K）[31]。使用数据集训练的网络很好地概括了真实事件数据。我们还采用标准RGB SR数据集[48，41]来制作ESIM-SR数据集（约50K）。然而，请注意，ESIM在给定一个HR彩色图像的情况下生成多个合成事件和APS图像（裁剪和降级），这使得SR问题没有真实的GT，因此难以评估从事件重建SR图像的质量。我们使用ESIM创建ESIM-SR 1数据集，图像大小为（256× 256），用于训练阶段1和阶段2。为了在数字上评估SR质量，我们创建ESIM-SR 2数据集，其中我们将ESIM设置为输出1024x1024），如表所示。1，1，然后被下采样（例如，双三次的）到更小的尺寸（例如，256x256）作为LR图像。然而，重建LR图像达到这些“HR”APS图像的质量水平并不能实现我们的目标，因为我们想要生成逼真的因此，我们利用真实世界的数据集进行阶段3。对于真实世界的数据集，我们使用事件相机数据集[28]直接制作Ev-RW数据集，包括一般、运动模糊和HDR效果。已经表明，使用真实事件和APS对重建SR图像是困难的[44]。相反，在第1阶段，我们使用ESIM-RW数据集，这对于训练EventSR至关重要在阶段2中，我们首先通过阶段1来细化真实的（4）），然后将它们用于事件图像恢复。最后，在第3阶段，我们将RGB SR图像转换为灰度作为SR-RW数据集，事实证明它们对于训练EventSR至关重要。经过训练的EventSR对于模拟和真实数据以及具有HDR效果的数据都有很好的概括性，如图所示3、桌子1.一、3.2. EventSR的损失函数和训练策略如图所示。2、EventSR由三个阶段组成：事件到图像重建、事件到图像恢复和事件到图像超分辨率。EventSR包括三个网络泛函G、F和D。事件到图像重建（第1阶段）pingE“F d p I c L R q，以及pffID d p I c L R q。输入是未配对事件E和干净图像IcLR。事件到图像超分辨率（阶段3）然后，我们利用堆叠的事件E和真实世界的HR图像IHR从事件重建SR图像。问题是要学习映射ISR“G s p G d p G r p E qqq，事件反馈映射E“F d p I SR q，以及事件反馈映射E”F d p I S R q。3.2.1EventSR训练的损失函数每个相位的损耗函数被定义为四个损耗的线性组合，如下所示：L（一）其中，LAdv、LSim、LId、LVar分别是事件相似性损失、事件相似性损失、同一性损失和总变化损失。注D和F是每一阶段的相关网络，G是累积网络，即 Gr ，GdpGrq，GspGdpGrqq，在阶段1、2和3中。相位1、2和3的损耗分别表示为Lr、Ld和Ls对抗性损失LAdv给定堆叠事件E，生成器G<$学习生成与数据集上的g类似的内容即分别是重建的、恢复的和超分辨的。在这种情况下，所述BHD学习经由 BHD从给定的目标图像中区分所生成的图像。对抗性损失是：LAdvpG<$，Dq“'E r l o g p 1 ′ D p G <$p E qqq s.（二）我们观察到标准的GAN训练在第3阶段很困难。为了稳定训练并使优化更容易，我们使用基于相对论GAN的对抗损失[17]。事件相似性损失LSim由于事件通常是稀疏的，我们发现使用像素级损失的限制太多，效率也不高。在这里，我们提出了一种新的事件相似性损失，该损失基于像素级损失的插值和受[16]启发的基于感知损失的VGG 19也就是说，我们测量重建事件FpG<$pEqq和输入事件E的相似性损失。我们线性插值像L2的像素级损失和感知损失为：吕1与一般SR问题不同，这些SimpG，Fq“Eα||FpGpEqq′ E||2`中国（3）低质量（边缘和角落不清晰），由于固有的属性，1p1′αq||ΦpFpG¯pEqqq´ ΦpEq||事件摄像机然而，它们可以用来评估SR的质量i i2我爱你8319其中，Φi是来自第i个VGG19层的特征图，Ci、Hi和Wi分别是特征图的通道数、高度和宽度为了更好地从事件中学习，并且还为了避免不同迭代之间的亮度和对比度变化，我们利用身份损失LId。此外，由于Ev-RW APS图像是嘈杂的，我们使用LId优化G r作为使用干净的合成APS图像的去噪器。当训练G r时，Ev-RW APS图像被馈送到去噪器以获得干净的真实世界图像IcLR以在阶段2中训练G d。LIdpG<$q“Er||G¯pIq´ I||2s（4）其中I和G是每个相位中的目标图像和生成器。由于在阶段3的Gs中存在上采样操作，因此我们建议使用下采样的HR图像作为Gs的输入。同一性的丧失有助于保持G′pIq和I之间的阴影和纹理组成。由于堆栈事件是稀疏的，因此所生成的图像在空间上是不平滑的。为了使生成的图像具有空间平滑性，我们添加了总变化损失：LVarpG<$q“Er||hG<$pEq`||2秒，（5）我们设计Gr，Gd共享相同的网络结构。对于Gs，我们采用SOTA SR网络[45，23]。我们还设置Dr、Dd和Ds以共享相同的网络架构。为了更好地利用事件中的丰富信息，我们还设计了一个事件反馈模块，包括Fr，Fd和Fs，共享基于ResNet块的相同网络结构。然而，对于Fs，它具有下采样操作，因此我们将步幅设置为2。通过事件反馈模块，生成器学习充分利用事件中丰富的信息，对事件图像进行重构、恢复和超分辨率处理。4. 实验与评价实施和培训细节为了促进我们的网络的有效培训，我们利用所提出的阶段到阶段的培训策略来实现端到端学习的目标在第一阶段，我们用反馈网络Fr训练Gr和Dr. 我们设置α“0。6在Eq. 3和λ1- 10、λ 2 - 5和λ 3 - 0。5在Eq.1.一、然后，我们在第2阶段用Fd从头开始训练GdpGrpEq）和Dd我们将λ11.一、在第3阶段，我们用Fs从头开始训练和GrpGdpGspEqqq。该阶段中的参数设置为等式中的λ11.一、我们初始化其中，以及是G的梯度。动态学习率网络我们将单个GPU的批量大小设置为1，并通过随机旋转和水平翻转来增加训练数据我们使用亚当求解器[21]4.1.1学习策略与网络结构端到端学习我们已经描述了从事件中重建、恢复和获得SR图像的流程。然后，我们将探讨如何统一三个阶段并以端到端的方式训练EventSR在统一学习下，第二阶段成为第一阶段的辅助，第三阶段成为第二阶段和第一阶段的辅助。总损失为：Ltotal阶段到阶段学习不是从头开始学习所有网络参数，为了便于训练，我们提出了一种称为阶段到阶段学习的学习策略，我们从一个简单的任务开始，然后逐渐增加任务难度。具体地说，我们首先从Gr开始，Dr，Fr。然后通过融合Gr和Gd来加强任务难度。我们从头开始训练Gd和Dd，Fd，同时微调Gr。注意，每个损失项都有G<$，它是级联重建函数，即第二阶段的GdpGrq。反向传播到Gr和Dr、Fr的损失梯度也分别被更新。最后将事件的Gs与事件的Gr和Gd融合。我们从头开始训练Gs，D s，F s，同时同时对G r，G d进行微调。生成函数G<$“G s p G d p G r qq。网络架构如图所示。2、EventSR包括三个生成元Gr、Gd和Gs，以及三个判别元Dr、Dd和Ds。为了方便和效率，β1- 0。9和β2- 0。999优化我们的框架。使用3个堆栈（每个堆栈N个e10K我们使用SSIM、FSIM和PSNR来评估每个相位输出的质量。为了与SOTA作品[32，29，3]进行比较，我们还使用LPIPS [50]来测量图像质量。对于所有数据集，为了测量相似性，将每个APS图像与具有最接近时间戳的相应重建图像进行匹配。我们主要关注104的缩放因子，因为它更具挑战性和意义，正如SOTA SR作品[45，23]中所研究的那样。4.2. 模拟数据集评价我们首先使用[44]中提出的数据集与[44，32图4显示了事件到图像重建（第1阶段）、恢复（第2阶段）和比例因子为4的SR（第3阶段）的定性结果。结果表明，EventSR能够恢复网格并消除模糊伪影，这可以在裁剪的补丁（第二行）中进行视觉验证。此外，在阶段1和阶段2中生成的LR图像接近APS图像。表. 2显示了第1阶段和第2阶段结果的定量评价以及与[44，32]的比较事实证明，我们的阶段1（Ours-Rec（n由于堆叠的事件图像是有噪声的且失焦的，因此重建的图像也是有噪声的、模糊的且不真实的。然而，我们的第二阶段成功地处理了这些问题，8320[32]中国农业机械工业协会[44] 第二阶段休息。III期SR（x4）图4：ESIM数据集的视觉比较[44]。第一行显示了我们的结果，第二行显示了裁剪的补丁。EventSR在第1阶段实现了类似的性能，在第2阶段获得了更好的结果。APS事件第1阶段第2阶段第3阶段（x4）图5：我们开放的ESIM-SR数据集上的可视化结果。第一行显示我们的结果，第二行显示裁剪的补丁。图6：ESIM-RW数据集的结果。EventSR从事件中恢复重要的视觉结构。使用ESIM-RW数据集来训练EventSR，它也可以很好地处理真实世界的事件。表2：基于数据集[44]的阶段1和阶段2与[44，32]（监督）我们的第1阶段取得了与[44，32]相当的结果，第2阶段取得了更好的结果。峰值信噪比（SNR）FSIM（FSIM）SSIM（中国）E2VID [32]22.741.960.84 0.060.75 0.10Wang[44](n“1)20.512.860.81升0.09升0.67 0.20王[44]（n24.873.150.87 0.060.79磅0.12磅Ours-Rec（n23.263.600.85 0.090.78 0.24Ours-Rest（n26.752.850.89元0.05元0.81升0.23升比[44，32]和第1阶段的结果好得多。ESIM-SR数据集上的评估我们还在ESIM-SR数据集上图5显示了ESIM-SR 1数据集的定性结果。我们的方法可以重新覆盖非常复杂的对象，如人脸。我们可以看到EventSR可以利用高频信息（例如，边缘/角），以比APS图像（第二行）更好地重建SR图像。如第3.1，ESIM-SR 1没有GT图像，因此难以定量评价SR图像。但是，我们使用ESIM输出8321表3：采用BI降解模型对ESIM-RW数据集进行的第3阶段定量评价。峰值信噪比（SNR）SSIM（中国）双三44.2 2.560.98- 0.19我们的-阶段3 SR x4（n47.62.170.990.12表4：第1阶段的定量比较（建议）基于Ev-RW数据集的EventSR的最先进作品[28]。LPIPS（低）FSIM（FSIM）SSIM（中国）HF [37]0.53–0.42[29]第二十九话0.55–0.46E2VID [32]0.42–0.56王[44]（n–0.85 0.050.73 0.16Ours-Rec（n0.350.86 0.070.75 0.20Ours-Rest（n0.320.88元0.09元0.780.18然后下采样（例如，双三次）将其转换为比例因子为4的LR图像（ESIM-SR 2数据集）。因此，我们可以定量评估SR上EventSR的质量，如表所示。3 .第三章。虽然ESIM-RW数据集上的结果我们还评估了EventSR在我们的ESIM-RW数据集上的性能，如第2节所述。第3.1条这个新的数据集是使用来自事件相机数据集的参考彩色图像[28]制作的，旨在增强EventSR在真实世界数据上的性能。我们使用这个数据集训练阶段1的Gr，令人惊讶的是，Gr不仅在ESIM-RW事件上表现良好，而且在现实世界的事件上也表现良好图6显示了ESIM-RW数据集上的实验结果。EventSR可以从事件中恢复正确的线条和纹理，这些线条和纹理可以在第二行的裁剪补丁中进行视觉验证。4.3. 真实世界数据集Ev-RW数据集上的评估我们证明EventSR在真实数据上显示出更令人印象深刻的结果如SEC中所述。3.1、仅仅使用真实世界的数据是无法应对三个阶段的挑战的。我们表明，在第1阶段使用ESIM-RW数据集训练Gr和在第2阶段使用干净的真实世界APS图像训练Gd更容易理解。请注意，由于我们在阶段1中使用LId，因此我们通过Gr获得干净的RW APS图像，以获得干净的RW APS8322[32]中国农业机械工业协会[44] 第二阶段休息。III期SR（x4）图7：Ev-RW数据集的目视比较[28]。第一阶段使用ESIM-RW进行训练，我们的方法能够重建边缘和角点等视觉特征，并取得更好的性能。APS堆叠事件第1阶段记录第二阶段休息。III期SR（x4）图8：使用事件相机数据集的HDR效果的实验结果[28]。EventSR在重建HDR图像时也能很好地Stacked Events Blurry APS Tao等.[40] Panet al. [30]第二阶段休息。第3阶段SR（x4）图9：RW数据集上运动模糊的定性结果[28]。EventSR比Tao等人获得了更好的质量。[40] Panet al.[30 ]第30段。训练阶段2之前的图像。图7显示了Ev-RW数据集的实验结果。在第一阶段，我们的方法可以成功地重建形状，建筑物等，但重建的图像是相当嘈杂，模糊和不真实的。在阶段2中，EventSR可以从事件中恢复逼真的LR图像。这表明，从阶段2中的事件恢复真实图像是SR图像重建的非常关键的步骤。虽然真实事件是有噪声的，但在第三阶段，EventSR可以恢复高频结构（例如，线条和纹理）和非模糊SR图像，事件与APS图像相比，第二行和第四行中的裁剪贴片清楚地描绘了每个阶段的有效性。表. 图4定量地示出了EventSR实现了比关于阶段1的现有技术[44，32，29，3]更好的结果。我们的无监督方法显示出比监督方法更低的LPIPS和更高的SSIM/FSIM分数，表明第1阶段的重建效果更好。高动态范围图像在这项工作中，显然表明事件具有丰富的信息，用于HDR图像重建，恢复和超分辨率。虽然8323AdvSIMAdvSIMAdvSIMSIM堆叠事件SR（DeflurGAN）SR（EDSR）第3阶段SR（x4）图10：使用现有的去模糊和SR网络进行视觉比较。由于APS图像的动态范围较低，部分场景在APS图像中是不可见的，在这些区域中确实存在许多事件我们使用ESIM-RW数据集训练的Gr（阶段1）和使用Ev-RW数据集训练的Gd（阶段2）评估HDR效果[28]图8和图1示出了EventSR从纯事件完全重建HDR SR图像。虽然在第一阶段重建的图像是嘈杂的，模糊和不切实际的，第二阶段恢复正确的形状和纹理的海报和盒子。在阶段3中，恢复正确的结构和信息细节，这可以在第二行和第四行中的裁剪块中进行验证我们还证明了EventSR可以从事件中重新存储去模糊图像如图9，我们直观地比较我们的方法与陶等人。[18]和潘等人。[30]（能量最小化）基于Ev-RW模糊效应[28]。尽管APS图像是模糊的，但是我们的方法可以从阶段2中的事件恢复清晰和逼真的图像（清晰的边缘、拐角、纹理等），这进一步增强到来自阶段3中的事件的非模糊SR图像。4.4. 消融研究为了验证EventSR中提出的损失函数的有效性，我们通过选择性地去除损失函数来比较不同的网络结构。去掉F和D我们去掉G和D，即去掉-5. 讨论计算成本、观察窗口和延迟我们的模型有大约1700万个参数，这比一些SOTA SR DNN要少，比如EDSR[25]，RDN [51]，因此训练时间与其他人相当。使用NVIDIA 1080 TiGPU时，平均推断时间约为300到500毫秒。在我们的实验中，平均在5 ms的持续时间内收集了10K事件事件可以与固定观察窗口叠加，如[44]中的SBT。使用现有的去模糊和SR网络人们可能认为可以通过在阶段1之后直接使用先前的去模糊和SR网络来实现SR结果。然而，我们需要澄清的是，我们的方法不仅仅是以一种天真的方式组合网络，第二阶段不仅仅是去模糊，而是恢复。为了验证这一点，我们用预先训练的SOTA去模糊和SR网络（例如，DeblurGAN[22]和EDSR [25]）。如图10所示，可以清楚地看到，所提出的方法（第4列）优于这种简单的组合。在没有连续利用事件信息的情况下，应用现有的去模糊和SR网络放大了噪声水平，并且不能提高图像质量。来自事件的SR视频在这项工作中，我们专注于来自LR事件的超分辨HR图像，并且我们没有完全考虑视频的时间一致性。然而，我们将研究如何为超解决视频事件在我们未来的工作。6. 结论和未来工作本文提出了第一种新的事件到超分辨率图像重建框架.面对现实世界中所有三个阶段都没有GT图像的挑战，我们提出了EventSR，以无监督的方式学习从事件到SR图像的映射为了训练EventSR，我们制作了一个开放的数据集，包括模拟场景和真实场景。它们的连接和实验结果表明，EventSR在较短的时间内取得了令人满意的效果，ingLsLs.我们将嵌入的事件映射到clean在第一阶段和第二阶段取得的成果，以及在第三阶段取得的理想成果LR图像和重建SR图像使用GspGdpGrqq。然而，在没有Fs和Ds的情况下，事件中的一些噪声被映射到SR图像，从而影响视觉质量。移除F d和D d我们还从EventSR中移除F d和D s，即移除Ld和Ld。我们使用EventSR进行事件到SR的图像重建，其中前向网络是GspGdpGrqq，Fs是反馈网络。我们加载预训练的Gr和Gd并将其添加到Gs。然而，如果没有Ld和Ld，则Gd无法从事件中获得干净的图像。我们最后去掉Fr和Dr，即然而，在这项工作中，我们没有深入考虑如何事件栈的形式影响EventSR的整体性能。我们将研究更好的方法来嵌入事件作为EventSR的输入，如[13，42]及其在以下工作中对其他任务的潜在应用。此外，我们还旨在从事件流重建SR视频。确认这项工作得到了韩国国家研究基金会（NRF）的支持，该基金由韩国政府（MSIT）资助（NRF-2018 R1A2 B3008640）和下一代信息计算发展r高级Lr. 然而，它表明，Ir总是与国家研究基金会（National Research Foundation of Ko-不期望的伪像和训练是不稳定的。很难重新-从没有这些损失的事件构建SR图像。信息和通信技术部（NRF-2017M3C4A7069369）。L8324引用[1] 我是阿朗索和安娜C穆里略。Ev-se gnet：基于事件的摄像机的语义分割在IEEE计算机视觉和模式识别研讨会（CVPRW），2019年。2[2] 赛义德·安瓦尔萨尔曼·汗和尼克·巴恩斯超分辨率的深度之旅：一个调查。arXiv预印本arXiv：1904.07523，2019。2[3] Patrick Bardow ， Andrew J Davison ， and StefanLeutenegger.从事件照相机的同时光流和强度估计。在IEEE计算机视觉和模式识别会议论文集，第884-892页，2016年。一、二、五、七[4] 帕特里克·亚历山大·巴多。从事件摄像机估计一般运动和强度。博士论文，伦敦帝国理工学院，2018年。2[5] HaroldCBurger 、 ChristianJSchuler 和 StefanHarmeling。图像去噪：普通神经网络能与bm3d竞争吗？2012年IEEE计算机视觉和模式识别会议，第2392-2399页。IEEE，2012。2[6] Enrico Calabrese ， Gemma Taverni ， Christopher AwaiEast- hope，Sophie Skriabine，Federico Corradi，LucaLonginotti，Kynan Eng，and Tobi Delbruck.动态视觉传感器3d人体姿态数据集。在IEEE计算机视觉和模式识别研讨会会议论文集，第0-0页，2019年。2[7] Marco Cannici 、 Marco Ciccone 、 Andrea Romanoni 和Matteo Matteucci。用于神经形态相机中的对象检测的异步卷积网络。在IEEE计算机视觉和模式识别研讨会会议上，第0-0页，2019年。一、二[8] Matthew Cook ， Luca Gugelmann ， Florian Jug ，Christoph Krautz和Angelika Steger。交互式地图用于快速视觉解释。2011年神经网络国际联合会议，第770-776页。IEEE，2011年。2[9] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上，第184-199页。Springer，2014. 2[10] Chao Dong，Chen Change Loy，and Xiaoou Tang.加速超分辨率卷积神经网络。欧洲计算机视觉会议，第391施普林格，2016年。3[11] 吉列尔莫·加列戈，马蒂亚斯·格里克，和戴维德·斯卡拉穆扎。专注就是你所需要的：基于事件的视觉损失函数在IEEE计算机视觉和模式识别会议论文集，第12280-12289页二、三[12] GuillermoGallego ， HenriRebecq ， andDavideScaramuzza.一个统一的对比度最大化框架的事件相机，与应用程序的运动，深度和光流估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[13] Daniel Gehrig 、 Antonio Loquercio 、 Konstantinos GDerpanis和Davide Scaramuzza。异步基于事件的数据的表示的端到端学习arXiv预印本arXiv：1904.08245，2019。8[14] Daniel Gehrig，Henri Rebecq，Guillermo Gallego，andDa- vide Scaramuzza.使用事件和帧的异步光度特征跟踪。在欧洲计算机视觉会议（ECCV）的会议记录中，第750- 765页，2018年。1[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。4[17] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器：标准GAN中缺少的关键元素。arXiv预印本arXiv：1807.00734，2018. 4[18] Hanme Kim、Ankur Handa、Ryad Benosman、Sio-HoiIeng和Andrew J Davison。同时镶嵌和跟踪与事件摄像机。英国机器视觉会议（BMVC），43：566-576，2014。一、二、八[19] Hanme Kim，Stefan Leutenegger，and Andrew J Dav

下载后可阅读完整内容，剩余1页未读，立即下载