神经形态事件改善滚动图像校正

48 浏览量更新于2023-10-25 收藏 16.65MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Figure 1: Left (illustration): We build a hybrid imaging system consisting of a rolling shutter (RS) sensor and an event sensor.The event sensor encodes motion and intensity change information, which are well explored by the proposed EvUnrollnetwork to correct the edge distortion (e.g., rotating blades) and restore the intra-frame region occlusion (e.g., occluded logo)in RS images. Right (example result): RS correction results comparison among DSUN [26], JCD [54], and our method.177750EvUnroll：基于神经形态事件的快门滚动图像校正0周新宇1# 段培琪1# 马毅1 石博信1,2,301 北京大学计算机科学学院视觉技术国家工程研究中心02 北京大学人工智能研究院 3 北京人工智能学院0时间0RS校正0RS +事件混合图像系统0输入RS帧输入事件帧真实值0DSUN [26] JCD [54] 我们0S +0摘要0本文提出使用神经形态事件来纠正快门滚动（RS）图像，使其成为连续的全局快门（GS）帧。RS效应通过CMOS传感器的逐行读出引入了边缘失真和区域遮挡到图像中。我们引入了一个新颖的计算成像系统，由RS传感器和事件传感器组成，并提出了一个名为EvUnroll的神经网络来通过探索事件的高时空分辨率特性来解决这个问题。我们使用事件来建立RS和GS之间的时空连接，建立一个流估计模块来纠正边缘失真，并设计了一个基于合成的恢复模块来恢复被遮挡的区域。两个分支的结果通过一个细化模块进行融合，生成校正后的GS图像。我们还提出了由高速相机和RS-Event混合相机系统捕获的数据集，用于训练和测试我们的网络。在公开数据集和提出的数据集上的实验结果表明，与最先进的方法相比，我们的方法在性能上有系统的改进。0# 作为第一作者对本文做出了相等的贡献0通讯作者：shiboxin@pku.edu.cn项目页面：https://github.com/zxyemo/EvUnroll01. 引言0由于低功耗和成本低廉，CMOS成像传感器是移动电话和机器视觉相机的主流选择[15]。然而，CMOS传感器通常的逐行读出方案会在相机或局部物体运动的场景中导致快门滚动效应（也称为果冻效应）。与每个像素的曝光周期同步的全局快门（GS）传感器相比，RS效应限制了CMOS传感器在消费者或工业应用中的适用性，因为会导致边缘失真和区域遮挡[14, 22, 24,54]。因此，RS校正是弥补这些不足的一种方法。0RS校正面临的一个众所周知的挑战是估计RS和GS图像之间的变换[22, 26,54]。与许多图像恢复任务（如视频帧插值[16, 32,36]和图像去模糊[17,23]）假设局部区域的边缘结构保持不变不同，RS校正需要处理边缘失真。为了解决这个问题，基于几何模型的方法[2,12, 12, 29,39]通过不同的假设简化了RS到GS（RS2GS）变换，例如场景是静态的[29,30]，直线保持直线[43]，并使用单应性混合或相机姿态估计来2. Related work177760实现RS校正[12]。然而，这些简化假设与复杂运动的兼容性差，并且这种优化问题的计算成本很高[26]。深度神经网络自从首次在[42]中展示以来，通过学习相机运动参数[42,57]、光流图[7]或者从单个或多个连续RS帧中直接映射RS到GS[26,54]，已经证明了其在RS校正中的有效性。然而，即使是多帧图像也缺乏在帧间期内提供运动的能力，这使得问题仍然是不适定的。RS校正的另一个瓶颈是帧内区域的遮挡，这是由于全局和局部运动的混合模型，或者3D场景中的深度差异引起的。深度依赖的RS失真可以通过将3D场景建模为平面层，并从三个以上的帧中联合估计深度和相机运动来处理[49]，但这需要解决一个复杂的优化问题。深度神经网络也可以用于学习底层相机运动属性和深度图以恢复帧内被遮挡的区域[57]，但它主要处理由于单幅图像问题的挑战性而产生的小遮挡伪影。神经形态学事件相机是一种新颖的视觉传感器，使得每个像素能够异步工作，比较当前/后续的光强状态，并在对数光强变化超过预设阈值时触发二进制事件[1,10, 25,47]。由于其微秒级灵敏度的高时间分辨率特性，事件相机能够解决传统基于帧的动态场景任务的几个限制。过去的一些方法已经致力于基于事件的图像重建任务[3, 5, 6, 35, 40,51]，并且一些文献证明了事件对高帧率视频重建的好处[13,48]。因此，基于图像的RS校正的瓶颈和事件的好处激发了我们的思考：我们能否将RS帧和事件信号协同起来，利用事件的高速特性来辅助RS校正？为了回答这个问题，我们提出了EvUnroll，一个神经网络，它同步和融合事件信号来校正RS图像并恢复连续的GS帧。事件编码了像素级的运动信息和强度变化，因此我们使用它们在RS和GS帧之间建立了基于光流的连接和基于合成的连接，并相应地建立了一个光流估计模块来校正边缘失真和一个恢复模块来恢复遮挡区域。这两个分支是并行的，它们的输出通过一个细化模块进行融合，最终在输入RS图像的曝光期内恢复GS图像。为了处理模糊的RS图像，设计了一个可选模块来处理真实场景中的模糊问题。我们还从以5700fps拍摄的真实视频中收集了一个新的训练数据集，并使用RS-事件混合相机系统拍摄了一个测试数据集。总的来说，本文的贡献如下：0•我们构建了一个名为Gev-RS的GS-事件-RS三元组数据集，使用高速相机的RS无失真帧来训练网络，并构建了一个RS-事件混合相机（图1左侧）来收集一个真实的测试数据集。0•EvUnroll是第一个通过涉及事件信号来改进RS校正的尝试，包括运动估计和遮挡区域恢复。02. 相关工作0•EvUnroll在常用数据集上优于最先进的RS校正方法，并获得2.98dB的PSNR数值增益，伴随着视觉质量的提高（图1右侧）。0基于几何模型的RS校正。现有的基于几何模型的方法对RS校正问题应用不同的假设，以简化问题，例如假设相机运动是简单的旋转或平移[21,29]，或者直线保持直线[43]。Meingast等人[29]首次开发了基于平移运动的RS效应的几何模型。Grundmann等人[12]提出了一个参数化的单应性混合模型。Cho等人[2]考虑了缩放运动，Purkait等人[39]利用了曼哈顿世界假设下的底层场景几何。为了准确估计相机运动[21, 27,38]，可以应用RANSAC[9]。0基于学习的RS校正。RowColCNN[42]是第一个通过学习相机运动参数的深度学习RS校正方法。Zhuang等人[57]进一步提出了SMARSC网络，通过学习预测相机扫描线速度和深度图来校正单个RS图像。Liu等人[26]将两个相邻的RS帧作为输入，通过运动估计网络学习密集位移场。为了弥合合成数据和真实数据之间的差距，JCD[54]通过建立GS-RS混合相机系统收集了一个真实的捕获数据集，并提出了一个处理RS失真和图像模糊的网络。最近，Fan等人提出了一个端到端的RS校正网络，称为SUNet[8]，它由一个上下文感知的去畸变流估计器和一个对称一致性强化模块构成。他们还设计了一个名为RSSR[7]的网络，根据扫描线依赖性来预测GS视频从两个连续的RS图像。0基于事件的图像增强。由于事件相机的高速特性，最近它被用于改善图像增强任务的性能。Synthesis-based connectiontimelineEvents recording intensity change1 M(IGSt=ypk = Γ log( It=ts(xk, yk) + bIt=ts−1(xk, yk) + b), ϵ ,(2)IGSt=ts(p) = IRS(p + V (x, y, t = yTH )S(y, ts)),(3)177770物体运动0GS成像0GS图像 RS图像0RS成像正事件负事件0失真的边缘0遮挡区域0图2：两个潜在块在一个维度上相互移动。它们的时空轨迹、事件触发、RS和GS帧成像过程沿时间线记录。我们用不同的颜色表示强度值（绿色<黄色<白色）。请注意，由于边缘失真（黄色像素的边缘位置不正确）和遮挡区域（缺少绿色像素），RS图像无法准确记录场景信息。我们探索事件编码的光流和强度变化，建立基于流的连接和基于合成的连接来实现RS校正。0以仅事件或图像+事件融合方式。Reinbacher等人[41]仅使用事件流作为输入，使用流形正则化重建高帧率视频，Scheerlinck等人[45]通过提出互补滤波器解决相同问题。E2VID[40]提出使用LSTM模块学习视频帧合成网络。Pan等人[34]利用事件的高速优势通过联合光流估计去模糊运动图像。Mostafavi等人[31]和Han等人[13]也尝试使用基于学习的方法解决图像超分辨率重建任务。TimeLens[48]建立了一个混合相机系统，并使用事件辅助RGB相机实现视频帧插值。03. 方法0在本节中，我们简要回顾RS成像和事件感知的基础知识，在第3.1节中展示事件形成模型与其RS/GS基于帧的对应关系，在第3.2节中介绍EvUnroll网络框架，在第3.3节中介绍实现细节。03.1. RS成像和事件感知基础知识0让我们考虑一个3D潜在时空体积(Ω∈R^3)，记录我们想要在时间范围[0,T]内捕捉的场景，并且在任何时刻t=t_s形成一个虚拟GS图像IGS_t。0mentt_s∈[0,T]。对于逐行读出的RS成像情况，我们假设读出方向是从上到下，分辨率为H×W；连续行之间的曝光时间延迟为T0H。然后RS图像可以表示为：0IRS = �H0H,y)，(1)0H表示每一行的扫描时刻，M(I,y)是一个操作符，用于从图像I中屏蔽第y行。在事件侧，t=t_s时的事件触发输出可以表示为：0其中 Γ { θ, ϵ } 是一个事件触发函数，ϵ 是对比度阈值，b是一个无穷小的正数，用于防止 log(0) 。当 | θ | ≥ ϵ时触发事件。极性 p k ∈ { 1 , − 1 }表示强度变化的方向（增加或减少）。在这个时空体积上，事件流输出可以表示为一个集合 { e k } N k =1 ，其中 N表示事件的数量，每个事件可以表示为一个四属性元组 e k= ( x k , y k , t s , p k ) 。03.2. 通过事件连接RS和GS图像0如图2所示，RS和GS成像通过两种方式连接：基于流的连接和基于合成的连接，分别通过事件编码的运动信息和强度变化形成。这两种连接是我们通过事件将GS和RS图像连接起来并实现RS校正以消除边缘失真和填充帧内遮挡区域的关键约束。0基于流的连接：我们估计一个RS2GS流场，将RS图像中的GS图像在时间 t s ∈ [0 , T ]上进行变形。方程（1）的逆运算可以表示为：0其中 p = ( x, y ) 是像素位置， V ∈ R H × W × T × 20被定义为每个时刻每个像素的速度向量，单位为像素/秒，而 S ( y, t s ) = y T0H − t s 表示第 y 行与目标GS帧时间戳 t s之间的时间偏移量。然后 V ( ∙ ) S ( ∙ )成为RS2GS的流场，表示坐标平移。我们使用事件辅助估计速度向量，通过 V ( x, y, t ) = F ( { e k } ) ，其中 F ( ∙ )是先前被制定为一个监督网络 [ 55 ] 或一个光度一致性公式[ 34 ]的基于事件的流估计函数。我们提出了一个基于流的模块通过事件学习速度向量，并使用基于变形的约束来校正每个移动物体的边缘失真。��ConvLSTMConvLSTMlog(IGSt=ts(x, y)) = log(IRS(x, y)) + ϵtsi=177780图像去模糊模块（可选）0� �0流0网络0��0�0时间0偏移量0对数残差0��0��0�0�0n0意0�0双向LSTM0细化模块0基于合成的连接模块0基于流的连接模0输入RS图像0RS2GS流网络输出G0输入事件0RS2GS流场0基于合成的结果0基于流的结果0连接模块0特征提取器0� �� 融合网络0ti0GS0GS20图3：EvUnroll的网络架构。它由三个模块组成：基于流的连接模块、基于合成的连接模块和细化模块。在输入RS图像之前，可以嵌入一个可选的去模糊模块来处理输入RS图像中的运动模糊。0基于合成的连接对于配对的RS和GS图像之间的每个像素，强度变化通过对数空间阈值操作编码为事件流。根据EDI[35]等事件到图像合成模型，我们表示基于合成的连接为：0H p t =i，（4）0其中每个像素的求和操作是指在RS2GS时间间隔内触发的事件的积分。我们提出了一个基于合成的模块来学习一个映射，以满足每个时间线上的帧内遮挡区域。03.3. EvUnroll框架0EvUnroll由三个模块组成，用于完成RS图像校正任务，包括基于流的连接模块，基于合成的连接模块和细化模块，如图3所示。可以选择添加处理输入RS图像中的运动模糊的去模糊模块。EvUnroll网络以RS图像I RS，相应的时空事件{ek}和目标时间t s ∈[0，T]作为输入，生成相应的GS图像。我们的网络能够通过设置不同的目标时间输出连续的GS帧。我们的网络的主干是基于U-Net [44]构建的。0基于流的连接模块这个模块旨在学习一个RS2GS映射，将RS图像变形为修正的GS图像。为了充分利用事件流中的运动先验，输入{ek}被分成两个时间间隔[0，t s]和[ts，T]，并且两个事件子集都通过像素累积事件极性被分成一个8通道的事件堆栈。我们首先学习两个速度0向量V t =0和V t =T通过GS到GS（GS2GS）流动网络从相应的事件子集中学习，并将它们转换为RS图像的每个像素的速度向量，即时间变化的速度向量V（x，y，t = y T0H）描述在Eq.（3）中。根据光流假设，一个元素V（x 0，y 0，t = y 0 T0H）可以表示为{V t =0（x'，y'）}的向量均值，其中集合收集了通过时空位置（x 0，y0，t = y 0 T0H）。证明见补充材料。通过相同的过程，我们还可以计算出另一个结果V（x，y，t = yT0H）从V t =T计算。然后，网络通过Eq.（3）对输入的RS图像IRS进行变形处理，并输出两个粗略校正的GS图像，随后将它们与事件子集一起输入RS2GS流动估计网络，进一步预测出一个精细的RS2GS光流图。最后，通过精细的RS2GS光流图对基于流的GS图像预测I GS F t = t s 进行变形。0基于合成的连接模块这个模块应用基于合成的连接来恢复一个修正的GS图像，特别关注处理遮挡区域。我们从事件中学习RS和GS图像之间的对数域残差。输入的事件流{ek}首先通过相同的累积过程被分成一个16通道的事件堆栈，并发送到特征提取器进行局部事件特征提取。我们采用双向ConvLSTM（Bi-LSTM）[11,46]架构来相关相邻时间段的特征，并将时间信息融合到特征Flstm中。为了使网络能够感知RS图像中的行特定读出时间差异，采用注意力块来分配时间偏移量y T0H到F lstm，并进一步获得特征ture Fattn that encodes the connection between the RS/GSimage pair as shown in Eq. (4). Finally, we concatenate andfeed Fattn and the input RS image into a fusion network,and obtain the log-domain residual to predict the synthesis-based GS image IGS St=ts , as shown in Fig. 3.We compare EvUnroll with recent RS correction meth-ods DSUN [26], JCD [54], RSSR [7], and SUNet [8] onFastec-RS [26] dataset.The input settings of the abovemethods are shown in Fig. 4. For a fair comparison, we seta target time t for testing samples and each method outputsa corrected GS image at this time. We evaluate DSUN [26]and JCD [54] with their released testing code, and obtainthe results of RSSR [7] and SUNet [8] from the authors.We simulate the corresponding events stream by V2E [4]and EvUnroll is also retrained using the same Fastec-RSDSUN [26]177790改进模块：引入基于注意力U-Net[33]的模块来融合粗糙的预测结果I GS F t = t s和I GS S t =t s。我们使用生成的掩码m和残差图像I r t = ts通过以下方式混合得到最终的GS结果I GS t = t s：0I GS t = t s = m ∙ I GS F t = t s + (1 - m) ∙ I GS S t = t s + I rt = t s. (5)0去模糊模块：该模块旨在恢复与每行曝光时间的中点相对应的RS清晰图像。我们剪辑在每行曝光时间之间触发的事件，并将事件的时间戳偏移，使得所有行的事件都落入相同的时间间隔内。这样，RS图像的去模糊与GS图像完全相同。03.4. 实现细节0我们经验性地发现，与端到端训练相比，独立训练每个模块在我们的情况下效果更好。可以选择性地在输入RS图像和基于流的连接模块之间插入预训练的图像去模糊模块，以增强输入图像的质量。然后，依次训练基于流的连接模块和基于合成的连接模块，最后训练改进模块，并固定前面模块的权重。我们定义地面真实性和预测结果之间的损失为Charbonnier loss[20]、感知损失[18]和总变差（TV）损失[28]的混合：0L = λ1Lc + λ2Lp + λ3Ltv. (6)0我们使用感知损失来保留预测的细节，并添加TV损失来鼓励估计的光流图的平滑性。超参数{λ1，λ2，λ3}设置为：{1，0.05，0.05}用于基于流的连接模块，{1，0.05，0}用于其他模块。我们使用PyTorch[37]实现了我们的网络，使用NVIDIA TITANRTX进行训练。使用Adam优化器[19]来最小化损失，初始学习率为0.001，每10个epoch衰减0.2倍。每个模块训练30个epoch。数据增强采用256×256的随机裁剪，用于RS图像和相应事件。04. 实验0在本节中，我们介绍了我们在第4.1节中收集的数据集，并在公共数据集Fastec-RS[26]（第4.2节）和我们收集的Gev-RS数据集（第4.3节）上定性和定量比较了我们的方法与最先进的RS校正方法。0在第4.3节中介绍了Gev-RS数据集，第4.4节介绍了我们的真实捕获数据。在第4.5节中，进行了消融实验以评估所提出模块的有效性。04.1. Gev-RS数据集收集0尽管现有的大多数RS校正数据集已经有效改善了RS校正的性能，但仍存在一些不现实的情况。作为一种流行的RS校正数据集，Fastec-RS [26]以640×480的分辨率和2400fps的帧率收集GS图像，然后合成模拟的RS图像。尽管Fastec-RS[26]数据集相对于之前的数据集（如[56]）显示出了很大的改进，但捕获的图像存在质量问题。JCD[54]发布了由GS-RS混合相机系统捕获的BS-RSCD数据集，但帧率仅为15fps，不适合模拟事件流。为此，我们使用高速相机（Phantom VEO 640，F/1.8 85mm镜头）以5700fps的速度收集1280×720分辨率的高质量GS帧序列。我们从相机（全局）运动到物体（局部）运动，共捕获了29个序列，以涵盖具有物体遮挡和高速运动的真实挑战场景。原始分辨率被降低到一半（640×360）以抑制地面真实性的噪声水平。然后，我们将捕获的视频输入到事件模拟器V2E[4]中，以生成相应的事件流，使用与Fastec-RS[26]相同的RS效果模拟过程生成RS帧。最终，我们获得了3700个“GS-event-RS”三元组剪辑，并将此数据集称为“Gev-RS”。04.2. Fastec-RS数据集上的比较0目标时间 �0SUNet [ 8 ]JCD [ 54 ]0图4：比较方法的输入设置。橙色双向箭头表示RS帧的总成像时间。每种方法在目标时间t处输出校正后的GS图像。177800（a）RS帧0（b）DSUN [ 26 ]0（c）JCD [ 54 ]0（d）SUNet [ 8 ]0（e）Ours0（f）GS帧0图5：Fastec-RS [ 26]数据集上的滚动快门校正结果。彩色框中的物体（红色：灯杆；黄色：阳台）表示有明显差异的区域。（a）具有滚动快门效果的帧。（b）-（e）不同方法对（a）的校正结果。（f）对应于（a）的全局快门帧。0（a）RS帧0（b）RSSR [ 7]（c）Ours（d）GS帧0（a）0（b）0（c）0（d）0图6：Fastec-RS [ 26 ]数据集上的多帧GS校正结果。0表1：Fastec-RS [ 26]数据集上的PSNR、SSIM和LPIPS的定量比较。较低的LPIPS值和较高的PSNR/SSIM值意味着更好的性能。0方法 PSNR ↑ SSIM ↑ LPIPS ↓0Zhuang等[ 56 ] 21.44 0.71 0.218 DSUN [ 26 ]26.52 0.79 0.122 ESTRNN [ 53 ] 27.41 0.84 0.189JCD [ 54 ] 24.84 0.78 0.107 RSSR [ 7 ] 21.26 0.780.142 SUNet [ 8 ] 28.34 0.84 -EvUnroll（我们的方法）31.32 0.88 0.0840[ 26]训练数据如上所述。图5和图6显示了视觉质量比较结果。在图5中，EvUnroll纠正了0由于其纠正边缘畸变的能力，以及在第二个示例中有效恢复被遮挡的阳台（黄色框），EvUnroll在两个示例中都纠正了输入RS帧的畸变的杆子（红色框）。请注意，我们只使用单个RS帧以及相应的事件流作为输入，而其他方法使用至少两个帧。在图6中，我们将我们方法的多帧输出与高帧率GS帧重建方法RSSR [ 7]进行了比较；EvUnroll纠正了畸变的边缘，恢复了被遮挡的区域，而不像RSSR [ 7]那样产生畸变或黑边。定量比较结果列在表1中（Zhuang等[ 57 ]和ESTRNN [ 53 ]的结果来自JCD [ 54]）。我们评估了GS帧与每种方法的恢复结果之间的平均峰值信噪比（PSNR）、结构相似性（SSIM）[ 50]和学习感知图像块相似性（LPIPS）[ 52]。EvUnroll的性能优于其他方法。177810（a）RS帧0（b）DSUN [ 26 ]0（c）JCD [ 54 ]0（d）Ours0（e）GS帧0图7：我们的Gev-RS数据集上的滚动快门校正结果。（a）具有滚动快门效果的帧。（b）-（d）不同方法对（a）的校正结果。（e）对应于（a）的全局快门帧。0表2：我们的模拟数据集上的PSNR、SSIM和LPIPS的定量比较。0方法 PSNR ↑ SSIM ↑ LPIPS ↓0DSUN [ 26 ] 23.10 0.70 0.166 JCD [ 54 ] 24.900.82 0.105 EvUnroll (我们的方法) 30.14 0.910.0610在所有三个指标上均优于，并且PSNR至少提高了2.98 dB。04.3. Gev-RS数据集比较0我们使用我们收集的Gev-RS数据集来评估EvUnroll，与可用的DSUN [ 26 ]和JCD [ 54]进行比较。我们将Gev-RS数据集按7:3的比例划分为训练集和测试集。我们使用划分后的训练数据对EvUnroll进行训练，并重新训练DSUN [ 26 ]和JCD [ 54]。图7显示了一些具有挑战性场景的定性比较结果。第一个示例是在行驶的车辆上拍摄的道路街景，方向平行，第二个示例是一个被RS效应严重扭曲的建筑物。可以看到EvUnroll在第一个示例中恢复了不同深度的纹理和形状，在第二个示例中矫正了建筑物的垂直边缘。图1的右侧区域还显示了由静止相机拍摄的高速列车示例，我们的方法恢复了被街灯遮挡的列车车厢的帧内部分。我们的去模糊模块有效地处理了真实场景中的广泛运动模糊，优于同时进行RS校正和去模糊处理动态场景的JCD [ 54 ]。表2列出的定量比较结果显示0EvUnroll在所有指标上都优于DSUN [ 26 ]和JCD [ 54]。附加结果请参见补充材料。04.4. 真实采集数据比较0为了测试EvUnroll在真实场景中的表现，我们构建了一个混合相机系统，由一个RS机器视觉相机（LUCID TRI054SIMX490，分辨率为2880×1860，帧率为20fps）和一个事件相机（PROPHESEEGEN4.0，分辨率为1280×720，延迟约为1μs）通过一个光束分束器（ThorlabsCCM1-BS013）组成，安装在两个相机前面，光学分束率为50%（详细信息可在补充材料中找到）。我们拍摄了室内和室外的场景，包括全局或局部运动。我们将我们的方法与最先进的方法DSUN [ 26 ]和JCD [ 54]进行比较，视觉比较结果如图8所示。我们纠正了第一个示例中的扭曲棍，并恢复了被扭曲区域遮挡的背景场景，以及恢复了最后两个示例中的方形彩色棋盘的形状和建筑物边缘。相比之下，DSUN [ 26]引入了恢复错误和部分扭曲的边缘，JCD [ 54]的校正效果由于我们的测试数据中具有挑战性的运动场景而不明显。04.5. 消融0在本节中，我们评估了所提出的基于光流的连接模块和基于合成的连接模块的有效性，并通过将其分别添加到上述两个模块中来验证可选的去模糊模块。因此，我们考虑了四种基线情况，每种情况禁用一个/两个模块。训练过程中的最小损失值被用作评估指标，如表3所总结。定性消融结果和(c) DSUN [26](d) JCD [54]#2×✓×29.020.8980.066#3✓×✓26.020.8320.082#4×✓✓29.500.9030.065EvUnroll✓✓✓30.140.9120.061(b) DSUN [26](c) JCD [54]177820(a) 事件帧0(b) 输入RS帧0(e) 我们的方法0图8：在我们的真实采集测试数据集上进行滚动快门校正结果。(a)事件帧在输入RS图像的总读出时间内进行分组。(b)不同方法对(b)的校正结果。(c)-(e)红色虚线曲线(在(b)-(e)中位置和形状相同)作为RS图像中畸变边缘的参考。0表3：EvUnroll中不同模块组合的消融研究。0案例流程综合去模糊 PSNR ↑ SSIM ↑ LPIPS ↓0(a) 滚动快门帧0(d) 我们的方法0图9:失败案例：从滚动快门图像中恢复高速旋转风扇的叶片。0分析结果请参见补充材料。05. 结论0本文提出使用神经形态事件来校正滚动快门图像作为连续的全局快门帧。我们介绍了一个由滚动快门传感器和事件传感器组成的新型成像系统，并提出了一个名为EvUnroll的神经网络。0EvUnroll用于解决这个问题。我们使用事件来建立滚动快门和全局快门之间的时空连接，建立流估计模块来校正边缘失真，并设计基于合成的连接模块来恢复被遮挡的区域。通过一个细化模块将两个分支的中间结果融合，生成校正后的全局快门图像。对新收集的Gev-RS和真实捕获的数据集进行的实验结果证明了EvUnroll的优势。0局限性：在我们当前的简单混合相机系统原型中，很难确保在拍摄高速运动场景时滚动快门图像与事件流的微秒级同步，这会影响滚动快门校正的性能。图9展示了一个失败案例。尽管EvUnroll恢复了叶片的形状和位置，比其他最先进的方法更接近真实情况，但仍然存在明显的伪影，这是由于帧和事件之间的错位引起的。此外，我们没有考虑滚动快门相机和事件相机之间的动态范围差异，这可能会影响我们的方法在图像中过曝或欠曝区域的有效性。0致谢0本工作得到了中国国家重点研发计划（2021ZD0109803）和国家自然科学基金（No.62136001,62088102）的支持。177830参考文献0[1] Shoushun Chen and Menghan Guo. 实时演示: CeleX-V:一种100万像素多模式事件传感器.在计算机视觉和模式识别研讨会上的论文集, 2019年. 20[2] Won-ho Cho, Dae-Woong Kim, and Ki-Sang Hong.CMOS数字图像稳定技术. IEEE消费电子学会刊 , 53:979 – 986,2007年. 1 , 20[3] Jonghyun Choi, Kuk-Jin Yoon, 等.学习从事件中超分辨率恢复强度图像.在计算机视觉和模式识别国际会议上的论文集, 2020年. 20[4] Tobi Delbruck, Hu Yuhuang, and He Zhe. V2E:从视频帧生成逼真的DVS事件相机流. arxiv , 2020年6月. 50[5] Peiqi Duan, Zihao Wang, Boxin Shi, Oliver Cossairt, TiejunHuang, 和 Aggelos Katsaggelos. 引导事件滤波:强度图像和神经形态事件的协同作用实现高性能成像.IEEE模式分析与机器智能学会刊 , 2021年. 20[6] Peiqi Duan, Zihao Wang, Xinyu Zhou, Yi Ma, and BoxinShi. EventZoom: 学习去噪和超分辨率的神经形态事件.在计算机视觉和模式识别国际会议上的论文集, 2021年. 20[7] Bin Fan and Yuchao Dai. 反转滚动快门相机:将滚动快门图像转换为高帧率全局快门视频.在计算机视觉国际会议上的论文集, 2021年. 2 , 5 , 60[8] Bin Fan, Yuchao Dai, and Mingyi He. SUNet:对滚动快门图像进行对称去畸变的网络.在计算机视觉国际会议上的论文集, 2021年. 2 , 5 , 60[9] Martin A. Fischler and Oscar Firschein. 随机采样一致性:一种模型拟合的范例及其在图像分析和自动制图中的应用.在《计算机视觉读物》中, 726–740页, 1987年. 20[10] Guillermo Gallego，Tobi Delbruck，Garrick Orchard，ChiaraBartolozzi，Brian Taba，Andrea Censi，StefanLeutenegger，Andrew Davison，Joerg Conradt，KostasDaniilidis等。事件视觉：一项调查。《IEEE模式分析与机器智能交易》，2020年。20[11] Alex Graves和J¨urgenSchmidhuber。使用双向LSTM和其他神经网络架构的逐帧音素分类。《神经网络》，18：602-10，2005年。40[12] Matthias Grundmann，Vivek Kwatra，DanielCastro和IrfanEssa。无需校准的滚动快门去除。《计算摄影国际会议论文集》，2012年。1，20[13] Jin Han，Yixin Yang，Chu Zhou，Chao Xu和BoxinShi。EvIntSR-Net：事件引导的多个潜在帧重建和超分辨率。《计算机视觉国际会议论文集》，2021年。2，30[14] Johan Hedborg，Per-Erik Forss´en，Michael Felsberg和ErikRingaby。滚动快门捆绑调整。《计算机视觉与模式识别会议论文集》，2012年。10[15] James Janesick，Jeff H. Pinter，Robert Potter，Tom S. El-liott，James Andrews，J. R. Tower，John Cheng和Jeanne0Bishop。CMOS和CCD成像器之间的基本性能差异：第三部分。《光学工程+应用》，2009年。10[16] Huaizu Jiang，Deqing Sun，VarunJampani，Ming-Hsuan Yang，Erik Learned-Miller和JanKautz。SuperSloMo：用于视频插值的多个中间帧的高质量估计。《计算机视觉与模式识别会议论文集》，2018年。10[17] Meiguang Jin，Stefan Roth和PaoloFavaro。无噪声图像去模糊。《计算机视觉与模式识别会议论文集》，2017年。10[18] Justin Johnson，Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。《欧洲计算机视觉会议论文集》，2016年。50[19] Diederik P Kingma和JimmyBa。Adam：一种随机优化方法。arXiv预印本arXiv:1412.6980，2014年。50[20] Wei-Sheng Lai，Jia-Bin Huang，Narendra Ahuja和Ming-HsuanYang。使用深度拉普拉斯金字塔网络的快速准确图像超分辨率。《IEEE模式分析与机器智能交易》，41（11）：2599-2613，2019年。50[21] Yizhen Lao和OmarAit-Aider。使用自动特征选择的线条进行强滚动快门效果校正的鲁棒方法。《计算机视觉与模式识别会议论文集》，2018年。20[22] Yizhen Lao和OmarAit-Aider。滚动快门单应性及其应用。《IEEE模式分析与机器智能交易》，43（8）：2780-2793，2021年。10[23] Junyong Lee，Hyeongseok Son，JaesungRim，Sunghyun Cho和SeungyongLee。用于单幅图像虚焦去模糊的迭代滤波自适应网络。《计算机视觉与模式识别会议论文集》，2021年。10[24] Chia-Kai Liang，Li-Wen Chang和Homer H.Chen。滚动快门效应的分析和补偿。《IEEE图像处理交易》，17（8）：1323-1330，2008年。10[25] Patrick Lichtsteiner，Chris

下载后可阅读完整内容，剩余1页未读，立即下载