没有合适的资源?快使用搜索试试~ 我知道了~
基于稀疏深度的视频增强框架及其性能评估
4492××快速准确:基于稀疏深度的视频增强罗彻斯特大学yfeng28@ur.rochester.eduPatrick HansenTenstorrent Inc.phansen@tenstorrent.com保罗·N.Whatmough Arm研究paul. arm.com佐治亚大学gl72151@uga.edu朱宇浩罗切斯特yzhu@rochester.edu摘要本文提出了一个通用的框架,以建立快速和准确的视频增强任务,如超分辨率,去模糊和去噪算法。对我们的框架来说,重要的是认识到像素流的准确性,而不是密度,是高质量视频增强所需要的。大多数以前的作品采取相反的方法:它们主要使用计算成本高的算法来估计密集(每像素)但通常不太鲁棒的流。相反,我们提出了一个轻量级的流量估计算法;它融合了稀疏点云数据和现代自治代理中可用的(甚至更稀疏和更不可靠的)IMU数据来估计流信息。建立在流估计之上,我们展示了一个通用框架,该框架将流以即插即用的方式与不同的任务特定层集成在一起。在我们的框架中构建的算法实现了1.78 - 187.41的加速比,同时提供了0.42 dB1. 介绍从超分辨率[32,3,29,16]、去模糊[26,38,21]和去噪[28,9]的视频增强任务对于智能手机和增强现实(AR)眼镜等智能系统变得越来越重要。高质量的视频对于各种机器人任务也至关重要,例如SLAM[25,7],视觉测距[15],对象检测[22]和监视[24]。视频增强系统今天面临着一个根本的困境。高质量增强受益于跨相邻帧准确地提取时间流,然而,这难以从低质量视频(例如,低分辨率、噪声)。因此,视频增强通常需要昂贵的光流算法,通常采用深度神经网络的形式(DNN),以提取密集流,导致低执行速度。由于视频增强任务在资源有限的移动设备上执行并且可能是实时的,因此需要高速和高质量的视频增强。我们提出了一种方法,同时提高视频增强任务的质量和执行速度我们的工作是基于实现的准确性,而不是密度,流量估计是什么高品质的增强要求。我们提出了一种算法,估计准确,但稀疏,流量使用激光雷达生成的点云。再加上流量估计算法,我们展示了一个通用的框架,该框架将流量整合到视频增强DNN中,通过精确流量的辅助设计,DNN是轻量级的。我们的流量估计是准确的,因为它不依赖于图像内容,这是必然的低质量的视频增强任务。相反,我们生成流使用的准确的深度信息从激光雷达点云辅助不太可靠的IMU信息。通过利用场景深度的空间几何结构和代理在轻量级流量估计的基础上,我们展示了一个通用框架,该框架集成了视频增强的流量。该框架由一个常见的时间对齐前端和一个特定于任务的后端。前端通过使用估计的流扭曲和连接帧来在时间上对齐帧序列;后端提取特定于任务的特征以合成高质量视频。不同于以往的作品,专门为特定的任务的时间对齐模块,我们统一的时间对齐模块适用于不同的任务,因此,使算法开发人员集中精力在特定的任务后端。我们在一系列视频引擎上展示了我们的框架-4493−×增强任务,包括在广泛使用的KITTI数据集上的超分辨率,去模糊和去噪[14]。在所有任务中,我们的系统具有比在诸如峰值信噪比(PSNR)和结构相似性指数测量(SSIM)[33]的常见度量中测量的最先进算法更好的增强质量同时,我们将所有任务的执行速度平均提高了8.4倍(高达187.4倍)。代码将是开源的。2. 相关工作视频增强当今视频增强算法的一般主题许多先前的创新在于如何更好地对齐帧。对齐可以显式或隐式进行。显式方法在帧之间执行显式流量估计[3,28,16]。然后,这些流用于在图像空间[3,16]或特征空间[28]中对齐帧。获得准确的流通常需要昂贵的流估计算法(例如,密集光流[16]或复杂的DNN [28,3]),这导致执行速度低。相反,隐式方法使用诸如可变形卷积[29,32]或递归神经网络[38]等算法在潜在空间中对齐帧。经典示例包括EDVR[32]、TDAN [29]和ES-TRNN [38]。这些算法往往是更准确的比显式的方法时,时间相关性是不明显的像素空间。我们的工作与以前的工作有两个主要的不同之处。首先,隐式和显式方法都是计算繁重的,因为它们纯粹从视觉模态中提取流。我们证明了一个非常快速的算法,以额外的流量融合激光雷达和IMU数据。我们表明,准确的流量可以实现简单的下游DNN设计,实现最先进的任务质量,同时速度快一个数量级。第二,先前工作中的对齐模块通常专门用于特定的增强任务。相反,我们显示了一个共同的对齐模块的基础上,我们的估计流量广泛适用于一系列的视频增强任务。这极大地简化了实际开发和部署工作。已知融合点云和图像可以提高视觉任务的质量,例如物体检测[4,35,36],分割[10,19]和立体匹配[6,31],但用于视频增强的LiDAR相机融合的文献很少。融合网络通常从(LiDAR生成的)点云和图像中提取特征,并在将它们馈送到特定任务块之前对齐/融合两组特征。与现有的从点云提取特征的融合算法不同,我们提出了一种不同的使用点云数据的方法从点P = T激光雷达2camx P*场景Pt+1 = T凸轮 x T自我 xPTlidar2cam帧t+1Tlidar2camPt = T凸轮 xP帧t我Fig. 1.激光雷达引导的流量估计。P是时间t时LiDAR坐标系中的点的3D坐标。 Tlidar2cam是从LiDAR坐标系到相机坐标系,假设LiDAR和相机的配置是刚性的,相机坐标系随时间固定。Tcam是相机矩阵。Tego是从帧t到帧t+1的相机自运动。云估计的流量是准确的,因此,提供有针对性的指导视频增强任务。流估计估计帧之间的流是一个基本的构建块。基于视频的流量估计通过DNN取得了长足的进步[12,23,27]。然而,这些方法是计算密集型的。当结合到高级视觉任务中时,如去模糊和去噪,流量估计很快就成为速度瓶颈。许多流量估计算法仅使用视频帧,这虽然限制较少,但也意味着在低质量视频上操作时流量准确性会降低。我们的方法与图像内容无关,因此可以更好地估计低质量视频的流量。它也很快,因为它依赖于简单的几何变换。现有的视频增强任务通常使用密集和每像素流估计[16,3,28]。相比之下,我们的方法从点云生成稀疏流。我们工作的一个关键贡献是证明,即使是稀疏的流可以大大提高视频增强的质量3. 主要思想和优化我们首先描述轻量级流量估计算法(第二节)。3.1),其次是一个通用的DNN架构,集成了视频增强的流程(第3.1节)。3.2)。3.1. 轻量级和精确的流量估计整体算法的关键思想是使用来自LiDAR的深度数据以轻量级的方式生成流。图1说明了这个想法。对于点云中的任何点P,它由两个连续的相机帧捕获在时间t处,摄像机坐标系中的P1的坐标是P=T激光雷达2camP2,其中T激光雷达2cam是Li-DAR到摄像机的变换矩阵,其通常被预校准. 因此,在时间t的图像中的对应像素坐标4494×××pR通用前端(时间特征提取)Ft-1图二.我们的两阶段视频增强DNN架构概述。前端执行轻量级流估计以在时间t将(先前和稍后)帧与当前帧对准,以便提取时间特征。提取的特征携带跨帧的时间相关性,然后由特定于任务的层处理以产生增强帧。我们在流量估计之前合并点云(使用估计的自我运动),并在流量估计之后扭曲补丁中的像素,两者都是为了减轻LiDAR生成的点云的稀疏性。相机矩阵。其中,Ry3×3,Rp3×3,Rr3×3 表示三个旋转在时间t+ 1处,场景中的同一点在相机坐标系中的坐标是Tego P,其中Tego是相机自运动的变换矩阵。因此,在t+ 1处的点的像素坐标是Pt+1=Tcam Tego P。因此,像素δt=Pt+1−Pt=Tcam×Tego×Tlidar2cam×Pcam矩阵,这些矩阵是使用欧拉方法从ω ε中的三个旋转位移积分得到的。或者,可以通过点云配准[2,37]来估计Tego,这通常成本更高但更准确。正如我们稍后将展示的那样(第二节)。5.3),即使IMU的估计精度相对较低,我们的方法仍然可以可靠地提供更高的任务精度,同时大大减少执行时间。当给予更精确的自我运动(例如,从点云配准),我们的框架将具有更高的视频增强质量。−T凸轮 ×T激光雷达2摄像头×P(一)视频增强从我们的流估计中受益的一个关键原因是,我们的算法纯粹基于3D自运动摄像机自运动T自我可能会-几何和几何变换,图像内容。没有像素内容参与流用一系列不同的方法来制作。在我们的系统中,我们使用IMU的测量结果来估计Tego,IMU在几乎所有智能设备中都是广泛可用我们注意到,IMU数据虽然是一种现成的传感器模态,但已知是对真实自运动的粗略且不精确的估计[8]。我们的贡献之一是展示了粗糙自运动估计如何为高质量视频增强提供梯度流估计。IMU提供平移加速度(ωa)和角速度(ωb)。因此,Tego中的平移分量T3×1T3×1=xyz(2)式中,λx、λ y和λz是使用欧拉方法从λa积分的三个平移位移。类似地,Tego中的旋转分量R3×3由ω估计:估计方程1.因此,即使在图像内容为低质量时,低分辨率或噪声,这正是视频增强任务的目标。3.2. 一种通用DNN体系结构我们的流量估计是一个积木,同时提高视频增强的质量和执行速度。我们提出了一个通用的DNN架构,它结合了一系列视频增强任务的估计流量。图2示出了架构的概述,其由两个主要模块组成:公共帧融合前端和特定于任务的后端。时间特征提取我们的网络使用跨不同增强任务共享的通用前端。前端的目标是提取跨帧的时间相关性,为特定任务的处理做准备。图2示出了跨三个帧提取时间特征的示例:当前帧Ft和下一帧Ft。R3×3 =Ry3×3 ×R3×3 ×R3×3(三)在当前帧之前(Ft-1)和之后(Ft+1)的帧,我们称之为时间帧。更多的时间框架点云变换F流量估测t(从t-1到t)前向整经补片WFt-1不F点云变换F不流量估计(从t+1到t)Ft+1后翘曲WFt+1关于PatchingF不卷积帧t+1卷积卷积帧t-1增强帧t帧t(当前)任务特定层4495×(a) 单点云投影(b) 合并点云投影(c) 使用合并点云的扭曲帧,无块(d) 使用合并的块扭曲帧点云相邻像素在3D空间中具有相似的运动,因此它们的像素流相似。我们使用阻塞流将时间帧(Ft−1或Ft+1)扭曲到当前帧结果见图3(d),其中有很多密集的像素(更少的“孔”)比图。3(c)款。最后,每个变形的时间帧(例如,WFt-1),以及其未扭曲的对应物(例如,Ft-1)和当前帧(Ft)被级联并通过卷积层以提取图3.第三章。提高点云密度的技术的有效性(a):与投影的单点云重叠的帧(红色像素为投影点)。(b):与五个合并点云的投影重叠的帧。(c):使用从五个合并点云估计的流而没有阻塞的扭曲帧。(d):使用来自五个合并点云的流进行帧扭曲,并以5×5块进行扭曲。原则上是可能的前端首先使用第2节中描述的算法计算每个时间帧和当前帧之间的流。3.1.我们面临的一个关键挑战是,估计的流量必须比相应的图像稀疏,因为激光雷达通常具有比相机低的例如,Velodyne HDL64E LiDAR是一款高端高密度LiDAR,每帧可生成约130,000个点,而720p分辨率的图像图3(a)示出了使用稀疏点云的效果,其中当将单个点云投影到图像时,仅少量像素具有与其相关联的点。为了减轻激光雷达生成的点云的稀疏性,我们建议将多个点云配准到一起以形成密集的点云。我们通过使用从IMU测量计算的自我运动Tego简单地变换相邻的点云来配准点2和Eqn.(3)第三章。图3(b)示出了当投影多个配准的点云时,更多的像素与点相关联。或者,可以利用计算密集型但可能更准确的配准算法(例如,使用迭代最近点[2,5])。即使有多个点云,Ft−1(或Ft+1)有一个对应的流。因此,当使用流扭曲图像时,扭曲的图像将具有许多“孔”,如图1所示。3(c)款。虽然可以合并更多的点云以增加点密度,但是这样做容易发生配准错误,这在合并长序列的点云时尤其重要,其中误差可能累积。为了解决这个问题,我们提出了分块扭曲,它将像素的流复制到其相邻像素(例如,5× 5块)。这类似于常规视频压缩中的基于块的运动补偿。假设对应的点时间帧和当前帧。当前帧的特征被独立地提取。任务特定层我们的架构的后端采用提取的时间特征来执行视频增强。后端层的确切设计是特定于任务的。本文的目标不是演示新的特定于任务的层;相反,我们表明,我们的节奏特征提取前端是与不同的任务层,即插即用的方式兼容。为此,我们为三个视频增强任务实现了三个后端设计,包括超分辨率,去噪和去模糊,直接使用其他算法的设计(略有修改,以便界面匹配我们的前端)。用于超分辨率和去模糊的层以循环方式连接来自前端的时间特征,分别类似于RBPN [16]和ESTRNN [38]的设计。去噪层连接时间特征,然后进入一组卷积层,类似于DVDnet [28]。4. 评价方法我们评估了三个视频增强任务,即超分辨率、去模糊和去噪。• 超分辨率:我们比较两个基线:[16]和VESPCN[3]。RBPN使用递归编码器-解码器来学习时间相关性;VESPCN在像素空间中扭曲图像,并通过CNN融合多个扭曲的帧以进行上采样。• 去模糊:我们与ESTRNN[38]进行了比较,后者使用RNN来学习时间特征;我们还与DEEPGYRO[20]进行了比较,后者将IMU与图像数据融合以进行单图像去模糊。• 去噪:我们与DVDNET[28]进行比较,后者使用CNN来提取显式运动和扭曲帧。此外,我们还为每个任务设计了一个简单的LiDAR-相机融合基线。这个基线,我们称之为VEF USION,类似于许多LiDAR/相机融合DNN [13]:首先将投影点云与图像拼接;连接的数据然后进入任务特定层。我们提出的方法还利用了点4496×××××××云用于视频增强,但以不同的方式使用点云:而不是融合点与像素,我们使用点云来生成流。这个基线使我们能够评估使用点云进行视频增强的有效性我们确保VEFUSION与我们提出的方法具有大致相同的参数数量,因此性能差异是由于算法。我们评估了我们方法的两种变体:O URS-S使用单点云进行流量估计,O URS-M使用五个点云进行流量估计。数据集我们使用KITTI数据集[14],该数据集提供同步LiDAR、相机和IMU数据的序列遵循常见的做法,我们为不同的任务预处理数据集。对于超分辨率,我们使用双三次插值在两个维度上将视频缩小4,类似于VESPCN [3];对于去模糊,我们向视频添加高斯模糊,类似于EDVR [32];为了去噪,我们对视频应用随机噪声,类似于DVDnet [28]。评价指标为了评价我们的方法的有效性,我们使用两个指标,PSNR和SSIM,来定性评价结果。通过在两个平台上测量不同方法的执行时间,我们还展示了不同方法的运行时性能,一个是Nvidia RTX 2080 GPU;另一个是Nvidia最近的Jetson Xavier平台上的移动VoltaGPU [1]。每次试验时间平均超过1000次运行。设计参数除非另有说明,我们在超分辨率中使用3 3的块大小,在去模糊和去噪任务中使用7 7的块大小。五个点云被注册用于流量估计。我们将研究对这两个设计参数的5.4)。5. 评价我们表明,我们的方法的执行速度平均比现有方法快一个数量级,同时在客观和主观上提供更高的任务质量(第二节)。5.1)。我们研究我们的流量估计的准确性(第二节)。5.2)以及我们的方法对关键设计参数的敏感性(第二节)。5.4)。5.1. 总体评价结果概述OURS-M和OURS-S在质量和速度方面都优于基线。通过使用多个点云进行流量估计,OURS-M略优于OURS-S。一个简单的点云和图像的融合,由VEFUSION完成,具有显着低于我们的方法的质量,虽然具有类似的速度。超分辨率Tbl. 1比较了不同的超分辨率算法。我们还显示了不同的方法归一化为OURS-M。总体而言,OURS-M在所有方法中在PSNR和SSIM方面都实现了最高的视觉质量。表1.超分辨率比较。执行时间归一化为O URS-M上的时间; H和M分别表示高端2080 Ti GPU和移动Volta GPU。RBPNVESPCNVEF使用OURS-SOURS-M峰值信噪比(dB)27.0824.7826.9527.4327.50SSIM0.8600.7870.8540.8730.872时间(H)36.100.551.001.001.00时间(M)7.240.131.001.001.00OURS-S具有类似的SSIM,但PSNR较低。O URS-M在2080 Ti上实现了相对于RBPN的36.10加速比,在移动GPU上实现了7.24加速比,显示了我们的轻量级流估计算法的有效性,该算法在GPU上的执行时间约为10µs。O URS-M和O URS-S实际上具有相同的速度,因 为 将 点 云 转 换 为 一 帧 的 开 销 可 以 忽 略 不 计 。VEFUSION与我们的方法具有相同的速度,但质量较低。VESPCN是最快的,但由于更简单的CNN,其超分辨率质量要低得多。表2.去模糊比较。ESTRNNDEEPGYROVEF使用OURS-SOURS-M峰值信噪比(dB)34.7831.2035.2235.5036.61SSIM0.9450.8060.9490.9500.957时间(H)1.786.201.001.001.00时间(M)1.0811.961.001.001.00去模糊Tbl. 2比较了不同的视频去模糊方法我们的方法,OURS-M ,达到最高的质量无论 是在PSNR和SSIM 。 与 ESTRNN 相 比 , OURS-M 在 PSNR 上 高 出1.83,SSIM上涨0.012。我们的方法也比两个GPU上的基线更快。ESTRNN上的加速并不显著,因为ESTRNN中的流量估计一开始就很小(在移动GPU上为DEEP GYRO的任务质量最低,速度最慢。其低质量归因于它使用单个图像去模糊的事实,而其他方法使用时间信息。表3.去噪比较DVDNETVEFUSIONOURS-S OURS-M峰值信噪比(dB)27.1931.6033.3433.89SSIM0.8380.9510.9530.961时间(H)187.411.000.991.00时间(M)68.971.000.991.00去噪对于视频去噪,OURS-M在PSNR和SSIM方面都达到了最高的质量,如Tbl所示3.第三章。O URS-M比VEFUSION和DVDNET提高了很大的幅度-PSNR分别为2.29 dB 和 6.70 dB 同 时 , O URS-M 在 2080 Ti 上 与DVDNET加速来自于避免DVDNET中使用的昂贵的流量估计算法DeepFlow [34]。4497图4.第一章不同方法在各种视觉增强任务中的视觉比较主观比较我们的方法在视觉上也优于主观比较的基线。图4显示了不同任务的视觉比较从基线到O URS-M的改进最为显著。OURS-M最擅长揭示细节,比如道路和灌木丛,因为它是通过合并点云获得的密集运动。5.2. 流量估算精度和速度我们的轻量级流量估计算法提供准确的流量信息。为了证明估计流的有效性,我们使用估计流量并计算PSNR。TBL.图4示出了在不同网络中使用的不同流估计算法的结果。我们还显示了不同的流量估计算法归一化到我们的速度。表4.流量估算比较。执行时间和我们的一样。DVDNETVESPCN RBPN OURS峰值信噪比(dB)14.7116.6422.6818.74时间(H)4147.51420.098694.01.0从扭曲图像的质量来看,我们的流量估计-4498××的估计方法优于DVDNET和VESPCN中使用的估计方法,如表1所示。4.这也解释了任务质量的差异。有趣的是,虽然使用我们的流估计进行变形的帧与RBPN中的帧相比具有较低的PSNR,但我们能够实现表6.块大小和合并点云数目对OURS-S超分辨率的敏感性。贴片尺寸1×1 3×3 5×5 7×7峰值信噪比(dB)27.0227.4327.29 27.26点云数量1 3 5 7比RBPN更好的超分辨率质量。原因是我们的方法使用扭曲的帧来提取时间特征(图1)。2)而RBPN使用实际流量值。我们的流量估计至少比基线中使用的其他方法快三个数量级这解释了前面显示的整体速度差异,因为我们的任务特定层与基线中使用的层相似。5.3. 点云配准的在本节中,我们展示了点云配准的更准确的自运动可以进一步提高任务的准确性。在这里,我们比较了两种都使用单点云进行流量估计的变体:• OURS-S(I):从IMU获得自运动。• OURS-S(R):从点云配准获得自运动。表5.不同自我运动来源的比较。I和R分别表示从IMU和点云配准获得自运动。峰值信噪比(dB)超分辨率去模糊去噪OURS-S(I)27.4335.6933.34OURS-S(R)27.3235.9133.45TBL. 5显示了OURS-S(I)和OURS-S(R)在三个视觉任务上的准确性比较。 OURS-S(R)通常具有比OURS-S(I)更高的质量,因为前者使用配准来生成更准确的相机自运动(与使用IMU相比)。同时,有限的精度改进也表明,来自IMU的粗略自运动足以使DNN模型学习输入像素值与估计流之间的相关性。5.4. 灵敏度研究我们使用超分辨率作为一个例子来研究如何块变形中使用的块大小和流量估计中使用的合并点云的数量影响任务质量。其他任务也有类似的趋势。块大小较大的块最初会提高任务质量。TBL.图6示出了超分辨率质量如何随块大小而变化。当块大小最初从11增加到33时,PSNR提高,因为流密度增加。增加块大小会进一步降低质量。这是因为,峰值信噪比(dB)27.43 27.47 27.5027.52从相邻像素复制流,而不是使用深度信息来计算流,这降低了流的精确度。合并的点云数量合并更多的点云可实现更密集、更准确的流量估计,从而提高任务质量。这在TBL中是显而易见的。6,这表明PSNR随着合并点云数量的增加而增加。6. 结论我们展示了一个通用的框架,以建立快速,准确的视频增强算法。其关键是使用精确的深度驱动的流估计算法来辅助视频增强我们的流量估计是准确的,因为它利用了基于物理上合理的场景模型从LiDAR生成的准确深度信息。我们展示了克服激光雷达点云稀疏性的策略。我们的流量估计是轻量级的,因为它只依赖于简单的几何变换,从而实现精益的端到端算法。我们提出了一个通用的框架,集成了流估计与特定任务的层在一个即插即用的方式。我们实现了一个数量级的加速,同时提高了任务质量的计算方法。虽然融合点云与图像最近在视觉任务中得到了广泛的研究,但我们表明,使用点云进行流量估计,而不是简单地将其与图像融合,可以实现更好的性能。我们的框架的一个含义是,点云数据必须附加到视频内容,这可能会增加存储和传输开销。然而,开销可能很小,因为点云数据的大小小于图像的大小例如,从高端Velodyne HDL-64 E LiDAR [30]获得的一个点云帧约为1.5 MB,而一个1080 p图像的大小约为6.0MB。随着点云压缩技术变得更加成熟,未来的开销将变得更小[11,17,18]。7. 确认这项工作得到了NSF奖#2126642和#2044963以及Meta研究资助的部分支持。引用[1] 杰特森·泽维尔https://www.nvidia.com/en-us/4499嵌入式系统/jetson-agx-xavier/.[2] Paul J Besl和Neil D McKay。三维形状配准方法。在Sensor Fusion IV 中 : Control Paradigms and DataStructures,第1611卷,第586-607页。国际光学与光子学学会,1992年。[3] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,第4778-4787页[4] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集,第1907-1915页[5] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算,10(3):145[6] 程雪莲,钟怡然,戴玉超,潘冀,李宏东.噪声感知的无监督深度激光雷达-立体融合。在IEEE/CVF计算机视觉和模式识别会议论文集,第6339-6348页[7] 赵英君和金碧云。基于水下光散射模型的水下可见光增强在IEEE机器人与自动化国际会议(ICRA),第710-717页[8] Young-Shin Cho、Seong-Ho Jang、Jae-Sung Cho、Mi-Jung Kim、Hyeok Dong Lee、Sung Young Lee和Sang-Bok Moon。基于惯性测量单元的步态分析系统的有效性和可靠性评估。Annals of Rehabilitation Medicine,42(6):872,2018.[9] 米歇尔·克劳斯和简·范·格默特。Videnn:深度盲视频去噪。在IEEE/CVF计算机视觉和模式识别研讨会论文集,第0-0页[10] Khaled El Madawi,Hazem Rashed,Ahmad El Sallab,Omar Nasr,Hanan Kamel,and Senthil Yogamani.基于Rgb和lidar融合的自动驾驶三维语义分割2019年IEEE智能交通系统会议(ITSC),第7-12页。IEEE,2019。[11] Yu Feng,Shaoshan Liu,Yuhao Zhu.实时时空激光雷达点云压缩。在IROS,2020年。[12] Philipp Fischer , Alexey Dosovitskiy , Eddy Ilg ,PhilipH ?usser , CanerHazirbas , VladimirGolkov ,Patrickvander Smagt , Daniel Cremers , and ThomasBrox.Flownet:使用卷积网络学习光流第15届IEEE计算机视觉集,2015年。[13] Chen Fu,Christoph Mertz,and John M Dolan.激光雷达和单目摄像头融合:自动驾驶的道路深度完成2019年IEEE智能交 通系统会议 (ITSC ),第 273-278页。IEEE,2019。[14] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集 。 InternationalJournalofRoboticsResearch(IJRR),2013。[15] Ruben Gomez-Ojeda , Zichao Zhang , Javier Gonzalez-Jimenez,and Davide Scaramuzza.基于学习的图像在具有挑战性的HDR环境中对视觉里程计的增强。在IEEE机器人与自动化国际会议(ICRA),第805-811页[16] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第3897-3906页[17] E. S.张,M。Preda,K. Mammou、A. M. Tourapis,J. 金姆,D. B. Graziosi,S. Rhyu和M.布达卡维MPEG中基于视频的点云压缩标准:从证据收集到委员会起草[简而言之标准]。IEEE信号处理杂志,2019年。[18] 塞巴斯蒂安·拉塞尔,德·维德·弗林和曲寿星。使用相邻节点压缩表示点云几何形状的八叉树2019年第10届ACM多媒体系统会议论文集[19] Gregory P Meyer 、 Jake Charland 、 Darshan Hegde 、Ankit Laddha和Carlos Vall-Gonzalez。联合三维目标检测和语义分割的传感器融合。在IEEE/CVF计算机视觉和模式识别研讨会上,第0-0页[20] JanneMustaniemi , JuhoKannala , SimoS ?rkka? ,JiriMatas,and Janne Heikkila.使用深度网络的陀螺仪辅助运动去模糊。2019年IEEE计算机视觉应用冬季会议(WACV),第1914IEEE,2019。[21] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议,2017年7月。[22] Jinay Parekh,Poojan Turakhia,Hussain Bhinderwala,and Sudhir N Dhage.图像增强与目标检测方法综述计算机,通信和计算科学进展,第1035-1047页[23] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流估计。在IEEE计算机视觉和模式识别会议论文集,第4161-4170页[24] 饶云波,林伟耀,陈雷霆。基于图像融合的夜间监控视频增强。Op-tical Engineering,49(12):120501,2010.[25] Monika Roznere和A Quattrini Li水下环境中slam与图像增强的相互关系。在ICRA水下机器人感知工作-商店,2019年。[26] 申贤俊和金文哲一种基于每像素自适应内核的深度运动去模糊网络,具有残差上下和上下模块。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第0-0页[27] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集,第8934-8943页,2018年。4500[28] 马蒂亚斯·塔萨诺朱莉·德隆托马斯·维特Dvdnet:一个用于深度视频去噪的快速网络。在2019年IEEE国际图像处理会议(ICIP),第1805-1809页。IEEE,2019。[29] Yapeng Tian,Yulun Zhang,Yun Fu,and Chenliang Xu.Tdan:用于视频超分辨率的时间可变形对齐网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第3360-3369页[30] Inc. Velodyne激光雷达。Hdl-64 e数据表,2018年。[31] 王俊轩、胡厚宁、林杰、蔡怡萱、邱伟臣、孙敏。 三维激光雷达和立体融合使用立体匹配网络与条件成本体积归一化。arXiv预印本arXiv:1904.02917,2019。[32] Xintao Wang,Kelvin CK Chan,Ke Yu,Chao Dong,and Chen Change Loy. Edvr:使用增强的可变形卷积网络进行视频恢复。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第0-0页[33] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Si-moncelli.图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,13(4):600[34] PhilippeWeinzaepfel,JeromeRevaud,ZaidHarchaoui,and Cordelia Schmid. Deepflow:深度匹配的大位 移光 流。在 Proceedings of the IEEE internationalconference on computer vision , 第 1385-1392 页 ,2013中。[35] Danfei Xu,Dragomir Anguelov,and Ashesh Jain.点融合:三维包围盒估计的深度传感器融合。 在IEEE计算机视觉和模式识别会议论文集,第244-253页[36] Jin Hyeok Yoo、Yecheol Kim、Ji Song Kim和Jun WonChoi。3d-cvf:使用交叉视图空间特征融合生成联合相机和激光雷达特征以用于3d对象检测。arXiv预印本arXiv:2004.12636,3,2020。[37] 张正友。自由曲线曲面配准的迭代点匹配法。国际计算机视觉杂志,13(2):119[38] Zhihang Zhong , Ye Gao , Yinqiang Zheng , and BoZheng.用于视频去模糊的高效时空递归神经网络。欧洲计算机视觉会议,第191-207页。Springer,2020年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功