没有合适的资源?快使用搜索试试~ 我知道了~
1Ev-NeRF:基于事件的神经辐射场Inwoo Hwang1,Junho Kim1,and Young Min Kim1,2,*1首尔国立大学2首尔国立大学摘要我们提出了Ev-NeRF,一个来自事件数据的神经辐射场。虽然事件相机可以在高帧速率下测量细微的亮度变化,但在低照明或极端运动下的测量会受到复杂噪声的显著域差异的影响。因此,基于事件的视觉任务的性能不会转移到具有挑战性的环境中,在这种环境中,事件摄像机预计会比普通摄像机更出色。我们发现NeRF的多视图一致性提供了强大的自我监督信号,用于消除虚假测量并提取一致的底层结构,尽管有高噪声输入。不是原始NeRF的姿态图像,Ev-NeRF的输入是伴随传感器移动的事件测量。使用反映传感器测量模型的损失函数,Ev-NeRF创建了一个集成的神经卷,该神经卷对约2-4秒捕获的非结构化和稀疏数据点进行了汇总。生成的神经体积还可以从具有合理深度估计的新颖视图中生成强度图像,这可以作为各种基于视觉的任务的高质量输入。我们的研究结果表明,Ev-NeRF在极端噪声和高动态范围成像下实现了具有竞争力的强度图像重建性能。1. 介绍事件相机是神经形态传感器,其中单个像素检测超过阈值的亮度变化事件摄像机的输出是一个序列的asyn-animals事件组成的极性,像素位置,和时间戳,只发生在一个稀疏的一组loca- tions的亮度变化被检测到。与传统相机相比,它们具有许多优点,例如高时间分辨率、低能耗和高动态范围[15]。然而,同一物体的测量值在不同的运动或光线下会发生显著变化-*Young Min Kim是通讯作者。在实际部署中导致域差异的条件[24,12,63]。虽然事件相机有望在极端环境条件下蓬勃发展,但基于事件的视觉任务的性能通常会由于严重噪声的显著域偏移而恶化事件流的输出与普通图像有很大的不同,普通图像是一个具有密集颜色值的二维数组。许多使用事件数据的现有方法将它们编译成更结构化的形式以用于去噪[10,11,29,14,2,13],或者直接在下游例如运动估计[33,28,36,52]或姿态估计[34,5]的任务。尽管如此,训练数据通常是有限的,并且基于事件的视觉的性能通常不如使用传统图像执行相同任务的复杂的噪声特性和域的差异进一步复杂的事件相机开发实用算法。受神经辐射场(NeRF)最近成功的启发[32],我们提出了Ev-NeRF,一种直接从原始事件数据构建的Ev-NeRF构建了一个3D体积表示,可以同时解释与相机移动相关的事件。给定位置和观察方向的5D输入,NeRF输出体密度和发射颜色,其可以被聚合以通过体绘制从任意视点合成图像虽然NeRF被训练为最小化合成图像和地面实况图像之间的颜色差异,但Ev-NeRF使用新的损失函数进行训练,该损失函数包含传感器移动和由亮度差异触发的结果事件。Ev-NeRF在没有地面实况监控的情况下妥善处理了事件摄像机中的复杂噪声,同时享受了传感器相对于传统摄像机的技术优势。公式中的体积聚合有效地降低了事件测量中的普遍噪声此外,Ev-NeRF中的相关联的强度值在高动态范围(HDR)中,因为所提供的事件相机的测量结果对超出动态范围的极端照明敏感。837838场景事件降噪图像重建深度估计新颖的视图重建高动态范围成像(a) Ev-NeRF设置(b)Ev-NeRF的应用图1. (a)Ev-NeRF使用从移动事件相机获得的事件数据进行操作。(b)Ev-NeRF通过传感器的原始事件输出学习隐式体积,并作为各种基于事件的应用的解决方案,例如高动态范围成像,降噪,深度估计,强度图像重建和新视图强度图像重建。传统的相机。有趣的是,创建的体积表示是以前使用事件数据解决的许多视觉问题虽然事件数据只包含亮度的相对变化而不是绝对项,但训练的体积可以合成普通计算机视觉的强度图像,这是社区中经常解决的问题之一[9,22,3,44,43,42,37,53,62,46,57,6,56]。此外,本发明还重建的密度体积可以表示场景的近似3D结构。这是执行多视图一致性的原始NeRF公式所固有的,并且3D重建的质量优于根据先前方法构建的3D结构[23,41,65]。我们的贡献可归纳如下:• 我们建议Ev-NeRF,它首次将流行的NeRF公式与neu- romorphic相机的原始事件输出相结合。• Ev-NeRF对事件噪声具有很强的鲁棒性,并构建了一个连贯的3D结构,可以提供高质量的观测。• 所创建的神经体积用作各种基于事件的应用的解决方案,即强度图像重建、新视图图像合成、3D重建和HDR成像。• Ev-NeRF证明了与许多现有的事件视觉算法相当的性能,这些算法在实验结果中被指定为特定任务。鉴于强大的实验结果,我们预计Ev-NeRF将扩大基于事件的视觉的可能应用领域,充分利用传感器的潜力。2. 相关作品在本节中,我们将回顾基于事件的视觉中的关键任务,以及神经隐式3D表示的现有工作。处理事件数据虽然事件摄像机可以在低光照或极端运动等具有挑战性的条件下获取视觉信息,但由于大量噪声而出现显著的域间隙,这进一步导致性能下降[24,49,39,12,25]。Wu等人[63]首先证明,基于事件的视觉可能会由于噪声水平的增加而恶化,尽管评估主要是在合成事件中进行的。Kim等人[24]进一步介绍了一个大规模的数据集,可以对对象识别任务进行系统评估,并证明了大的相机运动或照明变化会导致更大量的噪声,最终会降低性能。现有方法对原始数据进行降噪以应对此类对手[63,58,59],或建议堆叠事件以克服极端照明条件下的域间隙[50]。另一方面,Ev-NeRF可以通过强制场景几何形状的多视图一致性来补偿寄生噪声。许多方法不是处理来自原始数据的复杂数据特征,而是将顺序测量聚合成普通图像或3D几何形状。强度图像重建的早期尝试受到统计方法的启发[9,22,3]。几种子方法建议各种网络架构设计,以提高图像质量或计算成本[46,57,6,56,62]。由于传感器具有高动态范围,因此可以针对HDR图像[66,57]或通过应用839联系我们Σ∈·我l=1ΣLlN[51]第51话阳光下的生活为了估计3D几何形状,最近的基于事件的SLAM方法利用经典技术[23,22,16,21,65,17],最小化在类似图像的事件表示上制定的能量函数。另一方面,对于基于事件的深度估计,经典方法[19,60]和基于学习的方法[20,55]共存。然而,对于任何上述任务,都需要获得具有地面实况标签的大规模数据集[43,44]建议使用模拟器生成训练数据[42]。[53]研究了统计方面以缩小差距。[37]提出了一个自我监督的学习框架的帮助下的光流,并不需要地面真理,但他们的重建图像的特点是由几个文物。相反,Ev-NeRF在没有地面实况或合成数据的情况下工作,并显示出稳定的结果事件生成模型不是记录图像像素的绝对颜色值,而是事件照相机将亮度的异步变化记录为事件序列 Ek=(uk,vk,tk,pk),指示像素坐标(uk,vk)处的亮度变化在时间tk处达到特定阈值B,|≥|B|其中L = log(I)是亮度I和δt的对数|,(1)where L = log (I) is the logarithm of brightness I and δt是自上次事件以来所经过的时间。PK+、是表示亮度变化是正还是负的极性。众所周知,触发正事件的阈值与触发负事件的阈值不同[15],我们分别表示为B+和B-。如果我们累积在给定时间段内发生的事件,则特定像素的亮度变化可以近似为[15]与强度图像重建或深度估计中的现有技术相当。L(u,v,t)=tk<$t,(uk,vk)=(u,v)P K|B PK|.(二)神经隐式3D表示由于其对记忆要求、空间分辨率不受限制和表示能力的强大优势而越来越受欢迎几项工作[38,30,8]显示了神经隐式表示与3D监督的优势。NeRF(神经辐射场)[32]提出了3D坐标和观察方向的隐式表示,可以使用体绘制技术合成图像。所得到的神经体积包含关于3D体积密度和用于渲染图像的发射辐射的信息。受所产生图像的照片般逼真的质量的激励,大量后续作品被激发来克服原始NeRF的限制,包括:实现快速收敛和渲染[35,54,1];处理具有未知或噪声相机姿态的输入图像[61,27];恢复带有噪声的原始图像的HDR场景[31];或处理动态场景[40,26]。我们的方法使用事件数据学习NeRF通过加强所收集测量的多视图一致性,Ev-NeRF在新视图中产生高质量图像或深度,并有效地去除事件相机的伪噪声。虽然也存在一个并发的工作学习隐式卷与事件[45],Ev-NeRF广泛揭示了实践能力。3. 背景为了讨论的完整性,我们包括传感器的事件生成模型,然后是事件生成模型。神经辐射场(NeRF)的校准公式,阈值B pi在各种物理条件下可能不同,这除了传感器的复杂噪声特性之外,还进一步挑战了基于事件的视觉。神经辐射场Ev-NeRF从NeRF [32]中获得灵感,NeRF经过训练,可以在2D监督下积累体积信息。NeRF的监督信号是渲染的和真正的 pix el颜色。 基本上,神经网络工作器Fθ(·)接收三维坐标xi∈R3和光线方向di∈S2的输入,并输出密度σi∈R和辐射亮度ci∈R3F θ:(γ x(xi),γ d(di))→(σi,ci).(三)这里γ()是正弦位置编码函数,其成功地捕获了沿空间方向的高频信息。利用位置编码和由粗到细的采样技术,训练神经网络来合成高质量的新颖视图图像。遵循经典的体绘制技术,通过采样N个点x1,. . .,xN的体积密度沿射线r(x0,d)。x0是位于使用针孔照相机模型的照相机的焦点处的光线的初始点。像素的最终渲染颜色沿光线聚合为C(r)= Aiαici.(四)i=1A=实验−i−1σδ表示累积的反式,作为推导Ev-NeRF的两个主要成分沿射线的导磁率,αi= 1−exp(−σi δi)表示840ETT∥ −∥N·E{|联系我们LL不N我L我我渲染技术,以找到像素的强度Jinterval[Tj,Tj+1).KJBj,Bj相邻渲染图像之间的事件差异时间相机姿势事件渲染损失2D投影积累图2.我们的方法概述 根据传感器的测量模型,在短时间间隔[Tj,Tj+1)期间累积的事件j应该反映亮度的差异。 使用隐式体积,我们从两个相邻事件相机姿势j和j+1的视点渲染强度帧。事件渲染损失是累积的事件Bj(r)与相邻渲染帧的强度的差ΔLj(r)之间的差异。alpha值,其中δi=xi+1xi是相邻样本之间的距离。此外,沿着射线方向的深度可以用类似的公式近似当我们将公式与事件生成模型相结合时,除了隐式神经网络外,我们还联合优化了未知阈值B+和B−。J J问题:D(r)=Aαs,(5)i=1体积Fθ()。我们假设阈值是时间和极性的函数,但是对于所有像素在空间上是相同的。更具体地,我们假设阈值在每个时间间隔[Tj,Tj+1)中是恒定的,但是当时间间隔[T j,T j+1)其中si表示x0和xi之间的距离。4. 方法Ev-NeRF创建神经隐式表示Fθ的间隔变化。用于训练Ev-NeRF的总损失由下式给出:Ltotal=Levent + λLthres。(八)NeRF的静态场景 由于事件在亮度改变时被触发,因此我们在小的持续时间[ T j,T j +1)期间使用事件序列j=E k=(uk,v k,p k,t k)T jt kB+,对应于[Tj,Tj+1),我们添加等于训练期间在时间片[Tj,Tj+1)处发生的事件数量的5%的随机事件。我们发现,额外的随机噪声稍微提高了模糊区域中神经表示的质量,并对此进行了进一步描述fB+,B−(x)=0,如果B−≤x≤B+,−x+B−,如果x
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功