时间镜头：基于事件的参数化非线性流帧插值和多尺度融合

107 浏览量更新于2023-10-25 收藏 4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17755Time Lens++：基于事件的参数化非线性流帧插值和多尺度融合Stepan Tulyakov1Alfredo Bochicchio1Daniel Gehrig2StamatiosGeorgoulis1 Yuanyou Li1Davide Scaramuzza21华为苏黎世研究中心2部苏黎世大学信息学系苏黎世大学和苏黎世联邦理工学院(a)鲁棒融合（b）快速时间一致运动（c）对事件稀疏性的图1.与最先进的基于事件和图像的视频插值方法Time Lens的比较[22]。我们的方法进行了一系列关键的创新，以解决当前方法的局限性首先，它使用对融合图像中的伪影具有鲁棒性的特征级多尺度融合（a）。其次，它计算连续流，由样条参数化，具有固有的时间一致性（b，右下对左），可以有效地采样，从而显着减少多帧插值的计算（b）。最后，它结合图像和事件来生成流，即使在很少事件被触发的情况下，也是如此，从而减轻了（c）中的伪影摘要最近，使用基于帧和基于事件的相机的组合的视频帧内插然而，当前的方法仍然遭受（i）互补内插结果的脆弱的图像级融合，其在融合图像中存在伪影的情况下失败，（ii）潜在地时间上不一致和低效的运动估计过程，其针对每个插入帧运行，以及（iii）不触发事件的低对比度区域，并且因此导致仅事件的运动估计产生伪影。而且，以前的方法只在由平面和遥远场景组成的数据集上进行了测试，这些数据集并没有捕捉到真实世界的全部复杂性。在这项工作中，我们解决上述问题通过引入多尺度特征级融合和从事件和图像计算单次非线性帧间运动（其可以被有效地采样用于图像我们还收集了第一个大规模的事件和帧数据集，包括100多个具有深度变化的具有挑战性的场景，这些场景是用基于分束器的新实验装置捕获的。我们表明，我们的方法提高了重建质量高达0.2 dB的PSNR和高达15%的LPIPS分数。多媒体素材有关视频、数据集和更多信息，请访问https：rpg.github.io/timelens-pp/。177561. 介绍高速摄像技术通过制作令人惊叹的高速现象的慢动作镜头来捕捉公众的想象力[1，10，22]。虽然在历史上，这是唯一可能的专业和昂贵的设备，今天这项技术是来我们的智能手机感谢高速摄像头和视频帧插值（VFI）技术。VFI技术通过在低帧率输入视频的连续帧之间插入中间帧来生成高帧率视频为此，他们在连续帧之间的盲时间内估计大多数现有的VFI方法依赖于原始视频中包含的信息来估计这些变化。然而，在低帧速率下，基于图像的运动估计不能准确地捕获帧间运动，尤其是在存在大的和非线性运动的情况下。虽然使用高帧速率摄像机可以缓解这个问题，但是它们通常是昂贵的并且产生过量的数据，这些数据不能被记录延长的时间量。例如，华为P40只能以1920 fps录制0.5s的720p视频，这将填满其2GB的帧缓冲区。事件摄像机解决了这两个问题。它们不像标准相机那样测量绝对亮度的同步帧，而是仅测量每个像素处的异步亮度变化，这导致事件的稀疏和异步流，每个事件编码测量变化的位置、时间和极性（符号）。该事件流同时是稀疏的，提供低数据带宽，并且具有微秒量级的高时间分辨率，能够捕获高速现象，例如枪声和爆裂的水球1。最近推出的时间镜头[22]通过将传统相机与事件相机相结合来利用这种压缩的视觉信息流来执行视频帧插值。它的关键创新在于通过注意力机制结合了基于变形和基于合成的插值方法的优点基于扭曲的内插通过使用从事件估计的非线性运动扭曲原始视频的帧来产生中间帧，而基于合成的内插通过将由帧间事件捕获的强度变化“添加”到原始视频的帧来产生中间帧Time Lens结合了这两种方法，因为它们是互补的：虽然基于扭曲的插值通常会产生高质量的结果，但由于违反亮度恒定假设，运动估计不可靠。相比之下，基于合成的插值不依赖于亮度恒定性，并且可以容易处理具有照明变化的对象，例如火和水，然而，由于事件的稀疏性，它扭曲了精细的纹理动机尽管其令人印象深刻的性能与纯图像为基础的方法，2以前的工作suf- fers从几个缺点。首先，结合扭曲和合成为基础的插值，它依赖于图像级融合，可以失败的工件中的一个输入，如图1（a）所示，其中其次，它依赖于非参数运动估计，其以O（N）的计算成本独立地针对每个插入帧运行，其中N是插入帧的数量，并且产生潜在的时间上不一致的运动估计。第三，为了利用关于非线性运动的信息，它依赖于仅事件的运动估计，这导致在没有事件的低对比度区域中的伪影（参见图1（c））。这项工作解决了所有这些开放的挑战。我们的方法在运动估计方面进行了关键创新，如图2所示。我们使用图像和中间事件（a）来预测连续流场（d），而不是使用来自事件（c）的线性流（b）或分块线性流通过这样做，我们的流方法本质上是时间上一致的，可以有效地重用多帧插入。此外，我们引入了一种新的多尺度融合模块，融合事件和图像特征的特征级，而不是图像级，从而限制鬼影文物。我们在这项工作中做出了以下贡献1. 我们介绍了一种新的运动样条估计，它产生的事件和帧的非线性连续流。它是时间上一致的，可以有效地采样，使插值的N个中间帧与O（1），而不是O（N）计算。此外，利用图像也可以在没有事件的情况下产生准确的流程。2. 我们引入了一个多尺度特征融合模块，该模块具有多个编码器和联合解码器，具有门控压缩机制，该机制在每个尺度上从每个编码器中选择信息量最大的特征，并改进了基于扭曲和合成的插值结果的融合。3. 我们比较我们的方法在现有的数据集和一个新的大规模混合数据集，包含123个视频收集与分束器设置，具有时间同步和对齐的事件和帧。我们在包括该新数据集的多个基准上比较了我们的方法，发现在数据集上，与现有技术相比，PSNR提高了0.2 dB，感知得分提高了15%[30]1https://youtu.be/eomALySSGVU2https://youtu.be/dVLyia-ezvo177570→t0→t2. 相关工作基于帧的视频插值是一个很好的研究课题，有大量的先前工作[9，15 它的目的是使用原始视频的连续帧（称为关键帧）在任意或固定时间戳处重建中间潜在帧。大多数基于图像的帧插值方法采用以下四种方法之一：直接方法[10]，直接从关键帧回归中间帧;基于核的方法[17，18]，将卷积核应用于关键帧以产生潜在帧;基于相位的方法[14]，估计潜在帧的相位最流行的方法是基于扭曲的[9，15，16，19，20，27]，它明确估计关键帧之间的运动，然后扭曲和融合关键帧以产生潜在帧。这种融合通常是在图像层面上完成的，使用可见性掩模[9]，或者最近在特征层面上[1，16]。大多数处理VFI的作品都是基于图像的，因此受到两个主要限制。首先，它们依赖于基于图像的运动估计，这仅在满足亮度恒定性时才被很好地定义其次，它们不能在关键帧之间的盲时间内捕获精确的运动动态，并且通常诉诸于简单的线性运动假设。运动估计：实际上，运动估计主要是在线性情况下研究的，其中，假设像素之间的响应遵循线性轨迹。然而，在旋转相机自我运动和非刚性对象运动的情况下，通常违反该假设只有少数作品使用更复杂的运动模型，如二次[26]或三次[2，3]。虽然[2，26]直接回归多项式系数，[3]使用B样条将像素轨迹参数化拟合这些非线性模型需要多个帧和长时间窗口，因此它们仍然无法对关键帧之间的高速和非线性运动进行建模。附加传感器的使用：为了捕获该运动，可以使用来自具有高时间分辨率的附加传感器的信息。特别是[6，19]使用辅助低分辨率，高速相机来提供这些addi-将它们与高分辨率图像相结合然而，额外的高帧速率图像传感器增加了数据速率要求。这是帧相机捕捉高速运动的基本限制，因为它们对图像进行过采样，导致浪费的数据采集。事件摄像机：是理想地解决这一限制的传感器，因为它们通过仅在强度变化的位置提供数据来减轻这种过采样，并且这两者的优点是，它可以处理具有亮度恒定性的区域和具有光照变化的区域，其中光流是不明确的。[29]通过执行渐进式多尺度特征级融合来改进融合部分。然而，[29]使用从原始关键帧计算的流将关键帧与潜在帧相反，[22]计算来自事件的流，捕获非线性帧间动力学，并直接预测关键帧和潜在帧之间的一系列非参数线性流然而，该模型没有考虑事件的连续性质，并且由于流是非参数的，因此它不能被重用并且必须被重新计算。虽然这导致了显著的运行时间增加，但它也导致了时间上的不一致性，这表现在抖动的纹理中。最后，由于流量是根据事件计算的，因此在不触发事件的低对比度区域中流量是稀疏和在这项工作中，我们结合了[22]和[29]的优点首先，我们在运动估计方面进行了关键的创新，如图所示2. 我们使用图像和中间事件，而不是使用来自事件的线性流（b）或分块线性流（c(a)基于三次样条预测连续流场（d），类似于[3]。图2显示了它们之间的差异。所得到的流具有几个优点：（i）它是非线性的，以微秒分辨率捕获高速和高度非线性的动态，（ii）它是密集的，因此即使在存在很少事件的情况下也产生流，以及（iii）它可以在多帧插入期间被有效地重用，从而导致低推理时间和高时间一致性。3. 方法问题表述。我们给出在时间0和1处获取的前进I0和跟随I1的关键帧以及由在时间0和1处触发的事件组成的事件序列E0→1作为输入。时间间隔t∈[0，1]，我们的目标是在关键帧之间的某个时间t∈[0，1]插入一个或多个潜在帧I_t与以前的作品类似，我们代表事件作为体素网格[32]。我们将使用Va→b来表示通过在时间ta和tb之间转换事件而形成的体素网格。系统概述。整个系统如图3所示，关键部分用粗轮廓突出显示我们的系统首先生成多尺度翘曲插值功能在两个步骤。使用扭曲编码器对第一图像10然后使用从体素网格V0→ 1导出的样条这对于每个像素是独立的。 [7，13，22，和图像I0，I1，得到{CwW1→t{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}曲速-25，29]使用了一个辅助事件摄像机的VFI，恶魔，ING插值功能相结合的合成，从而具有高精度和低带宽。时间透镜[22]，插值要素{CsS1→t}从I0计算，从基于变形的帧插值生成帧插值，基于合成的模块，并使用学习的alpha混合参数在图像级别上融合它们。通过组合I1，使用新提出的多尺度特征融合模块，并产生在时间t的潜在帧I_0_t。系统对I0和I1执行对称处理，因此我们得双曲余切值.得双曲余切值.177581775917760方法15帧[ms] SSIM PSNR [dB]方法SSIM PSNR [dB]我们计算最终内插帧的误差。运动模块的结果总结见表2，融合模块的结果总结见表3Spline Flow表1.我们的方法与基于帧和混合帧+事件的方法在PSNR（越高越好）和LPIPS（越低越好）方面的定量比较。对于HS-ERGB数据集[22]我们对近子集和远子集的得分取平均值网络从事件而不是图像学习运动，因此在存在单个编码器网络的情况下，网络简单地收敛到局部最小值，并且大多数情况下忽略图像。4. 实验接下来，我们证明我们的设计多尺度融合和样条运动估计模块与一系列的消融研究。然后，我们将我们的VFI方法与其他最先进的图像和基于事件的方法在几个基准数据集上进行比较，包括我们新引入的光束分裂器事件RGB（BS-ERGB）数据集。所有的实验都是使用PyTorch框架完成的[21]。我们使用Adam优化器[12]，批量大小为4，学习率为10-4，每 12 个epoch减少 10 倍我们训练每个模块27 个epoch。为了训练，我们使用一个大规模的数据集，其中包含使用视频到事件转换方法[5]从Vimeo90k七元组数据集[27我们分别训练运动样条和多尺度融合模块，然后一起微调它们首先，我们用L1和带权值的SSIM损失0.15 0.85。然后，我们冻结运动网络，并使用LPIPS[30]和L1损失训练融合网络，权重为1.0和2.0。对于每个模块的训练，我们还使用多级训练，首先用虚拟解码器分别训练每个编码器，然后冻结编码器和训练解码器，最后训练模块。这个训练过程显著提高了我们方法的性能。由于时间限制，如果没有明确说明，我们不会在消融中使用这种方法。对于真实数据，我们使用用于训练融合模块的损失来微调整个网络。为了测量插值图像的质量，我们使用峰值信噪比（PSNR）和结构相似性（SSIM）[23]度量和LPIPS。4.1. 消融研究接下来，我们消融我们方法的各个组件。对于消融研究，我们从Vimeo90k [27]数据集中随机抽取4k个训练我们首先烧蚀运动估计模块，然后是融合模块。对于运动模块，我们计算变形帧的非遮挡区域中的误差。对于核聚变，图像的重要性图像0.80824.51事件0.85326.82图片和活动（我们的）0.86327.41与最新技术水平的EV-FlowNet0.75622.31时间镜头流0.86627.22我们0.87928.10表2.运动估计模块的消融：虽然样条运动有利于多帧插值的运行时性能，但使用图像和事件可提高精度。与时间透镜流[22]和EV-FlowNet [31]方法相比，我们的方法实现了卓越的性能。融合的重要性翘曲0.88629.42合成0.86829.77Synth. &翘曲（我们的）0.91231.87门控的重要性无门控0.90731.67门控（我们的）0.91231.87与最新技术水平的时间镜头融合0.90631.25我们0.91932.73表3.融合模块的烧蚀研究：结合合成和翘曲功能，提高性能，门控压缩机制也是如此。与[22]中的图像级融合相比，我们的方法实现了优越的性能。4.1.1运动估计模块样条运动的可视化。我们在图6中可视化样条估计器的输出（右，黄色）。通过将图像与事件相结合，它可以模拟足球的高度非线性轨迹。事件是非线性建模不可或缺的一部分，因为当它们被移除时（蓝色，右），流模块默认仅使用图像并预测线性运动。Spline Motion的重要性我们在表2中比较了线性运动和非参数运动。结果表明，非参数运动估计实现了更高的精度（28.20 dB对27.41 dB），但对于15个流预测具有更高的运行时间（2700 ms对220 ms），因为它需要为每个插入帧运行，而样条运动可以有效地重新采样一次计算。方法BS-ERGBHS-ERGB [22]7次跳跃PSNR ↑LPIPS ↓1跳PSNR ↑LPIPS↓3跳PSNR ↑LPIPS↓[10]第10话25.950.08620.900.15127.420.031DAIN [1]25.200.06721.400.11329.820.022超级慢动作[9]--22.480.11530.050.103[26]第二十六话--23.200.11026.280.143[22]第二十二话28.360.02627.580.03133.480.017我们28.560.022227.630.02633.090.016线性2000.85626.83非参数27000.87728.20Spline（我们的）2200.86327.4117761图6.样条运动可视化。左图显示了带有特写镜头的地面实况图像序列（可以在Adobe中查看动画）。右图显示了由建议的运动样条估计器从图像事件（绿色）和仅从图像（蓝色）估计的运动。当插入多个帧时，这种差异变得特别明显。相比之下，线性运动估计具有低运行时间，但也具有低性能。图像的重要性。我们训练我们的运动模块的两个变体：一个仅使用事件，一个仅使用帧，并在表2中报告结果。我们注意到，将两个传感器输入结合起来可以获得最佳结果，图7.门控压缩权重可视化。上图显示了关键帧和潜在插值帧。下图显示了通过门控压缩对每个尺度上的合成和变形特征进行的平均权重预测（较小的权重以较冷的颜色显示）。有关详细信息，请参阅第4.1.2节中的表4.拟议BS-ERGB数据集与类似GEF数据集相比的详细信息[24日]与单传感器相比，性能提高0.6 dB或2.9 dB输入。这强调了它们的信息的互补性：当事件提供非线性运动提示时，图像提供事件缺失的信息。与最新技术水平的比较。我们比较了光流方法EV-FlowNet [31]和Time Lens [22]的光流模块，这两种方法都仅从事件预测非参数流。由此产生的翘曲在PSNR方面的误差在表2中。我们的方法在PSNR方面比亚军[22]高出0.88 dB请注意，这里我们使用第4节中解释的多阶段训练。4.1.2多尺度融合门控压缩。我们首先通过训练没有门控压缩的融合网络来确认门控压缩的重要性。如表3（门控的重要性）所示，门控压缩改进了融合模块。接下来，在图7中，我们示出了由图4中所示的门控压缩模块预测的用于特定示例的每个尺度上的合成和扭曲特征的我们得出结论：（i）合成特征用于非刚性对象，如火，而扭曲特征用于刚性对象，如瓶子（com-bottle 1 2）;（ii）在较近的左帧I0中被遮挡的区域从右帧I1填充（例如，见3 4）;（iii）在较精细尺度的翘曲内插特征优于合成特征。融合的重要性：我们首先研究在融合过程中组合合成和扭曲特征的效果，如表3所示。我们看到，将两个模块的功能结合起来，性能提高了2.1 dB。与最先进技术的比较：我们还与[22]中的图像级融合模块如表3所示，多尺度特征级融合的性能好1.48dB。请注意，对于最后的比较，我们使用第4节中解释的多阶段训练。4.1.3分束器事件和RGB数据集我们构建了一个新的混合设置，使用FLIR 4096×2196RGB全局快门相机和Prophesee Gen 4 1280×720 Event相机安装在刚性外壳上，并使用50/50单向镜共享入射光。与此BS-ERGBOurs）全球环境基金[24]活动摄像机970× 625190 ×180双列12320场景动态高速低速RGB相机970×625，28 fps1520×1440，20 fps相机运动动静态动静态Seq. 长度100-600帧200-250帧1776217763引用[1] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在 IEEE Conf. Comput. 目视模式识别（CVPR），第3703-3712页，2019年。二三六八[2] Zhixiang Chi，Rasoul Mohammadi Nasiri，Zheng Liu，Juwei Lu，Jin Tang，and Konstantinos N Plataniotis.一次全部：时间自适应多帧插值与先进的运动建模。EUR.确认补偿目视（ECCV），2020年。3[3] S. Y. Chun，T.G. Reese，J.Ouyang、B.盖林角卡塔纳，X. Zhu，N. M. Alpert和G.法赫里同步PET/MRI中基于MRI的非刚性运动校正。核医学杂志，2012。3[4] Guillermo Gallego，Tobi Delbruck，Garrick Michael Or-chard，Chiara Bartolozzi，Brian Taba，Andrea Censi，Stefan Leutenegger ， Andrew Davison ， Jorg Conradt，Kostas Dani-illen，et al. Event-based Vision：A survey.PAMI，第1页，2020年。5[5] Daniel Gehrig，Mathias Gehrig，Javier Hidalgo-Carrió，and Davide Scaramuzza.视频到事件：回收视频数据集用于事件摄像机。在IEEE Conf. Comput.目视患者记录（CVPR），2020年6月。6[6] Ankit Gupta ， Pravin Bhat ， Mira Dontcheva ， BrianCurless，Oliver Deussen和Michael Cohen。增强和体验时空分辨率与视频和剧照。见ICCP，第1-9页。IEEE，2009年。3[7] 靳寒，杨一心，楚州，朝旭，石伯信。Evintsr-net：事件引导的多个潜在帧反射和超分辨率。在Int. Conf.Comput. 目视（ICCV），第4882-4891页，2021年10月。3[8] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et al. Spatial Transformer networks. 在会议上。神经信息。过程系统（NIPS），第2017-2025页，2015年。5[9] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz. Superslomo：用于视频插值的多个中间帧的高质量估计。在IEEE Conf. Comput.目视模式识别（CVPR），第9000-9008页，2018年。三、六[10] Tarun Kadhi，Deepak Pathak，Manmohan Chandraker和Du Tran。FLAVR：流无关的视频表示，用于快速帧插值。2021. 二、三、六[11] 罗伯特·凯斯数字图像处理中的三次卷积插值。IEEE声学、语音和信号处理汇刊，29（6）：1153-1160，1981。5[12] Diederik P. Kingma和Jimmy L. BA. Adam：随机最佳化的方法。国际会议学习。代表（ICLR），2015年。6[13] Songnan Lin，Jiawei Zhang，Jinshan Pan，Zhe Jiang，Dongqing Zou，Yongtian Wang，Jing Chen，and JimmyRen.学习事件驱动的视频去模糊和插值。EUR.确认补偿目视（ECCV），2020年。3[14] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在IEEE Conf. Comput.目视模式识别（CVPR），2018. 317764[15] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在 IEEE Conf. Comput. 目视患者记录（CVPR），第1701-1710页，2018年。3[16] 西蒙·尼克劳斯和凤琉。Softmax splatting用于视频帧插值。在 IEEE Conf. Comput. 目视模式识别（CVPR），第5437-5446页，2020年。三、五[17] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧内插在IEEE会议Comput.目视模式识别（CVPR），2017. 3[18] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧内插。在Int. Conf.Comput.目视（ICCV），2017. 3[19] Avinash Paliwal和Nima Khademi Kalantari。用混合成像系统进行深度慢动作视频重建IEEE传输模式分析马赫内特尔，2020年。3[20] Junheum Park，Keunsoo Ko，Chul Lee，and Chang-Su Kim.双边运动估计与双边成本卷视频插值. EUR.确认补偿目视（ECCV），2020年。3[21] Pytorch 网站。 https://pytorch.org/ 访问日期：2022年3月28日。6[22] StepanTulyakov ， DanielGehrig ， StamatiosGeorgoulis ， Julius Erbach ， Mathias Gehrig ，Yuanyou Li，and Davide Scaramuzza.时间镜头：基于事件的视频帧插值。在IEEE/CVF计算机视觉和模式识别会议论文集，第16155-16164页，2021年。一二三四六七八[23] Zhou Wang，Alan C Bovik，Hamid R Sheikh，andEero P Si-moncelli.图像质量评价：从误差可见性到结构相似性。IEEE图像处理学报，13（4）：600-612，2004。6[24] 王子豪、段培奇、奥利弗·科萨伊特、阿格洛斯·卡特-萨格洛斯、黄铁军和施博信。强度图像和神经形态事件的联合滤波，在IEEE Conf. Comput.目视模式识别（CVPR），2020. 七、八[25] Ziwei Wang，Yonhon Ng，Cedric Scheerlinck，andRobert Mahony.混合事件摄影机之非同步卡尔曼滤波器。在国际会议计算中目视（ICCV），第448-457页，二零二一年十月。3[26] 徐翔宇，李思瑶，孙文秀，殷倩，杨明轩.二次视频插值。会议室神经信息处理。系统（NIPS），第1647-1656页，2019年。三、六[27] Tianfan Xue ， Baian Chen ， Jiajun Wu ， DonglaiWei，and William T Freeman.具有面向任务流的视频增强。国际计算机目视，127（8）：1106-1125，2019. 三、六[28] Yingsen Yan，Dong Gong，Qinfeng Shi，Anton vanden Hen- gel，Chunhua Shen，Ian Reid，and YanningZhang.无重影高动态范围成像的注意力引导网络。在CVPR中，第1751-1760页，2019年。4[29] Zhiyang Yu ， Yu Zhang ， Deyuan Liu ， DongqingZou，Xijun Chen，Yebin Liu，and Jimmy S Ren.用事件训练弱在ICCV，第14589-14598页，2021年。三、四[30] Richard Zhang 、Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在 IEEE Conf. Comput. 目视模式识别（CVPR），第586-595页，2018年。二、六17765[31] Alex Zihao Zhu，Liangzhe Yuan，Kenneth Chaney，andKostas Daniilidis.EV-FlowNet：基于事件的摄像机的自监督光流在机器人：科学与系统（RSS），2018年。六、七[32] Alex Zihao Zhu，Liangzhe Yuan，Kenneth Chaney，andKostas Daniilidis.使用运动补偿的无监督的基于事件的光流以Eur.确认补偿目视工作-商店（ECCVW），2018年。3

下载后可阅读完整内容，剩余1页未读，立即下载