没有合适的资源?快使用搜索试试~ 我知道了~
7803E-CIR:事件增强连续强度恢复陈松启星黄昌德拉吉特·巴贾杰德克萨斯大学奥斯汀{song,huangqx,bajaj} @ cs.utexas.edu摘要当我们按下快门按钮时,照相机就开始感觉到光线。在曝光间隔期间,场景和相机之间的相对运动导致运动模糊,这是一种常见的不期望的视觉伪影。本文提出了E-CIR,它将模糊图像转换成清晰的视频,表示为从时间到强度的参数函数。E-CIR利用事件作为辅助输入。我们将讨论如何模糊框事件流清晰视频利用时间事件结构构造参数基。我们演示了如何训练深度学习模型来预测函数系数。为了提高外观的一致性,我们进一步引入了一个细化模块来传播连续帧之间的视觉特征。与最先进的事件增强去模糊方法相比,E-CIR生成更平滑、更逼真的结果。E-CIR的实施可在https://github.com/chensong1995/E-CIR上查阅。1. 介绍快门速度或曝光间隔的长度控制着有多少光线从环境中到达图像传感器。如果曝光间隔过短,相机只有时间捕捉极少的光子。因此,所得到的图像不仅是未照明的,而且缺乏精细的细节。另一方面,如果曝光间隔太长,则场景和相机之间的相对运动可能非常显著。所得到的图像然后是移动轨迹的时间平均,从而导致模糊伪影。因此,假定在曝光间隔期间的任何运动(包括相机抖动和对象移动)都是不需要的,因此应该被移除。在过去的几十年里,研究人员广泛研究了如何将模糊图像转换为清晰图像[1,5,6,10,11,13直到最近,重建完整运动轨迹的几项工作受到了广泛关注[9,28]。这些作品引入了将模糊图像转换为清晰视频的算法,描述了导致模糊伪影的确切运动。图1.问题描述。在这个想象的场景中,我们沿着黑色圆盘的边缘放置一个白色正方形。传统相机拍摄的图像是模糊的,因为磁盘旋转速度为速度很快。这就好像圆盘的周边不知何故变成了一个灰色的衣领。在曝光间隔期间,事件传感器产生事件的螺旋。我们的方法将模糊的帧和事件作为输入,并产生清晰的视频序列作为输出。输出的视频解释了运动模糊的需要完整的运动轨迹的旋转盘。清晰视频重建是一个不适定问题,因为存在无限多个运动轨迹,其时间平均值对应于同一模糊帧。为了补偿模糊性,以前的作品[7,8,20,24,25,35,39,40,43]利用事件数据作为辅助输入,其在曝光间隔期间以更精细的时间分辨率提供附加信息,如图1所示。即使有事件输入,困难的挑战仍然存在。事件无法捕获完整的运动信息。视频重建质量不仅取决于每个单独帧的外观,而且还取决于时间平滑度。事件的巨大密度对有效和高效的处理造成了视频去模糊的成功与否取决于如何将模糊图像、事件和视频序列的先验信息综合在一起。这就需要合适的视频表示和预测算法。本文在视频表示和恢复准确和时间一致的视频方法方面做出了根本性的贡献。具体来说,我们提出了一个连续的视频表示,其系数是高度可解释的,易于学习,由于它们的强相关性的事件。对于每个像素(x,y),我们表示-我们的方法7804将其强度重新发送为参数多项式函数Lxy(t),允许我们在曝光间隔期间在任何给定的时间戳t处呈现清晰的图像。我们展示了如何选择多项式基,使得Lxy(t)的导数插值显着的强度变化。我们还演示了如何训练一个深度神经网络来回归多项式系数。我们的方法不是将视频作为一个体积来处理,而是在卷积滤波器中隐式地编码运动,而是明确地要求模型详细描述已经由事件描述的运动。为了进一步提高帧质量,我们引入了一个细化模块,该模块可以在连续帧之间传播视觉特征,该模块可以与模型的其余部分以端到端的方式进行训练所提出的回归和细化范例很好地结合了用于执行时间平滑的递归模块的强度和用于避免漂移的回归的强度。我们在合成REDS数据集上定量评估了我们的方法[21]。在重建质量方面,E-CIR实现了0.114的MSE,表示比最先进算法提高了37.4%。我们还提出了一个定性评价潘等人提供的实际捕获[25 ]第20段。与基线方法相比,我们的方法噪声更小,更真实,时间上更平滑。总而言之,我们的主要贡献是:1. 我们用每像素参数多项式表示视频。我们讨论了为 什么 这种 表 示集 成容 易 与事 件机 制 ,显 示parallelism函数衍生物和事件之间。2. 从模糊图像及其曝光间隔中的相关事件,我们演示了如何使用深度学习模型来预测由所提出的参数多项式表示的清晰视频3. 为了克服多项式表示的局限性,我们讨论了如何制定一个细化目标,并鼓励时间传播的尖锐的视觉特征。4. 我们提供了源代码和文档,用于将原始REDS数据集转换为事件for- mat。这清除了以前作品中评估数据集的不确定性,并为未来的比较建立了开源基准。2. 相关工作2.1. 事件增强去模糊事件摄像机于2006年首次商业化[18],是一种新兴的视觉传感器类型,它将环境演变建模为强度变化,并将场景表示为事件。每个事件都是一个4元组(x,y,t,p),包含强度变化的位置,时间和极性。这简单的表示允许事件摄像机支持快速的数据速率(高达1 MHz),比传统摄像机的帧速率高几个数量级曝光间隔期间的事件密度提供了有价值的运动信息来解释模糊图像。Pan等人提出了基于事件的双积分(EDI)模型[24,25],该模型从模糊帧及其相关事件中解析重建高帧率清晰视频。Jiang等人[8]制定了一个最大后验问题,并在深度神经网络的帮助下,在马尔可夫假设下解决潜在的清晰图像。Lin等人。[20]认为直接从事件阈值计算清晰和模糊帧之间的强度残差是不够的,并建议使用深度学习来预测强度残差。同时,EDI模型和模糊核公式之间的结构相似性启发了Wang等人。[39]将清晰图像表示Shang等人[35]假设输入序列包含模糊帧和清晰帧的混合,并且建议包裹清晰帧以使模糊帧去模糊。Zhang等人[43]强调连续帧之间的时间相关性,并设计多块卷积LSTM来利用这种相关性。Han等人[7]通过对相邻清晰帧之间的强度残差进行建模来扩展此想法Xu等人[40]还确定了时间相关性的重要性,并提出利用光流估计来代替。与去模糊密切相关,事件增强帧插值也引起了越来越多的关注[23,38]。虽然这两个任务的目的是构建一个高帧速率的视频,帧插值方法通常假设输入帧是免费的运动模糊。一些工作尝试直接从事件中重建高帧率视频,而无需传统的帧输入[4,30,31]。然而,这些仅事件的方法不如其双输入对应方法稳健[20,43]。2.2. 视频表示据我们所知,计算机视觉中的大多数现有作品将视频 处 理 为 离 散 的 帧 集 合 。 唯 一 的 例 外 是 Vid-ODE[26],它通过连续的潜在状态来表示视频。可以在任何给定的时间戳评估潜在状态,从而允许以无限高的帧速率呈现视频。在每像素参数多项式的帮助下,我们提出的表示还支持无限高的速率渲染,并享有两个额外的优点。首先,选择多项式基来紧密地模仿事件机制,这使得算法对合成训练数据和真实测试数据之间的域差异具有鲁棒性。第二,多项式系数比隐藏在深层网络中的潜在代码更具可解释性。7805联系我们2--||·· ·≫||||···≫| |2222我我 我 我 我2我222--TT∈ −这使得人类能够轻松地解释和调试模型。3. 预赛3.1. 事件摄像机模型令Lxy(t)为像素(x,y)在时间t.在自然对数空间中,tref和t之间的时间对比由[18]给出:ln[Lxy(t)] =ln[Lxy(t)]−ln[Lxy(tref)](1)其中t_ref表示与像素(x,y)相关联的最后事件的时间戳。[Lxy(t)]的大小决定硬件是否产生事件。令(x,y,t,p)表示事件,其中p1 , +1 是 强 度变化的极性[18]:两个边缘以相同模式移动的场景。第一边缘与背景具有强烈的对比度,并为其移动产生显著的强度变化。第二边缘与背景的对比度较弱,并产生较小的强度变化。假设这两组强度变化都超过了事件阈值。这意味着摄像机生成的事件数量仅由边缘长度决定。这两个边缘将产生相同数量的事件,只要它们的长度相等,即使第一边缘的强度的绝对变化比第二边缘的强度的绝对变化高几倍。第二,重建质量不仅取决于每个单独帧的外观,而且还取决于时间平滑度。独立优化每个潜在帧的质量的朴素模型我们指的是-+1ln[Lxy(t)] ≥c+p=0(无事件) c− α2>α n表明标准表示容易出现数值问题,因为高阶系数预计非常接近于零。Lxy(t)的时间导数揭示了强度如何随时间变化。与像素(x,y)相关联的事件提供了一组时间戳,其中是n+ 1个多项式系数。最简单的参数-7806强度显著变化。这些时间戳7807拉格朗日基导数多项式。关键点DTDT≤ ≤DT−DT× ××2× ×2DTLxy(t)=--22−XYdLdL-T/2T/2-T/2T/2DT2连续函数dLxy(t)通过n个离散1个关键点(ti,dLxy(ti)),其中1i n.然后,我们可以恢复原始强度信号Lxy(t)从其导数dLxy(t)通过取不定积分:2dLxy(a)(b)第(1)款图2. 关键点选择算法。 (a)假设有n= 5个不同的事件分散在暴露间隔内,用蓝色圆圈表示。我们首先从曝光间隔[T,T]中采样n个均匀间隔的枢轴(橙色十字)。然后,我们将枢轴移动到它们最近的事件,并获得n个关键点(绿色三角形)。这种选择方案不仅迎合了时间事件结构,而且还提供了支持的事件未覆盖的区域(b)在每个关键点处,只有一个拉格朗日基的值为1,而所有其他拉格朗日基的值为0。我们使用神经网络来预测这n个关键点处的dLxy(t)它们的插值给出了一个n1次多项式,利用该多项式通过不定积分恢复原始强度信号Lxy(t).在拉格朗日表示下,多项式系数与预测的导数一致预计会有很大的规模。我们提出的参数化的关键思想是插值事件时间戳处的强度信号的时间导数。与每个像素相关联的事件的数量是不同的,这对高效计算提出了挑战。为了解决这个问题,我们为每个像素提取固定数量的n个关键点,而不管像素最初拥有多少个事件我们的关键点提取算法的细节如图2(a)所示。该算法确保所选择的关键点与事件时间戳相对应,并且尽可能彼此远离统一枢轴的使用进一步建立了不同像素之间关键点选择的空间设pixel(x,y)的n个关键点的集合为:DLKxy={(ti,dt(ti))|1≤i≤n}(5)其中−T≤t1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功