CodedRecon：基于深度学习的编码曝光成像视频重建

10 浏览量更新于2024-01-25 收藏 484KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响8（2021）100064原始软件出版物CodedRecon：编码曝光成像技术的视频重建PrasanShedligeria，Sunday，AnupamaSb，1，Ka ushikMitraaa印度马德拉斯理工学院，印度b高通印度公司，印度A R T I C L E I N F O保留字：计算摄影视频重建编码曝光技术A B标准我们提出了CodedRecon，这是一个基于深度学习的框架，用于从编码曝光成像技术中重建视频。它是一个完全可区分的框架，由编码曝光传感器模拟模块和深度神经网络模块组成，深度神经网络模块学习从输入编码曝光测量中重建视频序列。重建神经网络是完全卷积的，并结合了一个空间变化的卷积层，用于从编码的曝光测量中提取曝光感知特征。用户可以输入来自全局和逐像素编码曝光技术的测量值，并重建每个输入测量值具有16帧的视频序列。该框架可用于对各种编码曝光技术进行基准测试，并且该框架代码元数据当前代码版本v1.0.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-8可再生胶囊的永久链接https://codeocean.com/capsule/7960381/tree/v1合法代码许可证Apache-2.0使用git的代码版本控制系统使用Python和Shell的软件代码语言、工具和服务编译要求，操作环境依赖Ubuntu Linux 16.04LTS，Cuda 10.2，Pytorch 1.6.0，torchvision 0.7.0如果可用开发人员文档/手册链接github.com/asprasan/unified_framework/blob/main/Readme.md问题支持电子邮件ee16d409@ee.iitm.ac.in1. 介绍近年来，高帧率成像（慢动作视频）已经获得了很大的普及。若干智能手机提供记录高帧速率视频的功能。然而，由于大的带宽要求，记录通常仅限于几分之一秒。为了解决这个问题，已经进行了利用自然视频序列中的时空一致性从低帧速率视频重建高帧速率视频的研究。这些工作包括帧内插[1模糊图像[5，6]和其他计算摄影技术，如编码曝光成像[7基于深度学习的算法在大多数计算机视觉和图像处理任务中取得了最先进的结果。近年来，由于深度学习的功效[17-来自编码曝光技术的视频再现涉及对图像的本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址：ee16d409@ee.iitm.ac.inwww.example.com Shedligeri）。网址：https://asprasan.github.iowww.example.com Shedligeri）。1Anupama S在IIT Madras时对工作做出了贡献https://doi.org/10.1016/j.simpa.2021.100064接收日期：2021年1月26日;接受日期：2021年2月12日2665-9638/©2021作者。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsP. Shedligeri，Anupama S和K。Mitra软件影响8（2021）1000642表1在框架中设置各种变量的重要选项及其相应描述的列表。Nr.选项描述1--blocksize编码曝光掩模2要预测的输出帧的数量3--mask要用{随机或优化}4--intermediate是否重建intermediateSVC层场景与二进制掩码和软件解码的编码测量到视频序列。基于深度学习的方法大大简化了编码掩码和解码算法的联合学习，从而实现了比传统算法更优越的视频重建。在这里，我们讨论CodedRecon的影响，CodedRecon是一种基于深度学习的框架，用于编码曝光掩码和视频重建算法的联合优化。在第2节中，我们提供了概述以及软件中的一些示例选项，可以帮助控制不同的设置。CodedRecon框架的当前和进一步影响已在第3节中给出。最后，在第4节中，我们提供了现有软件版本的一些限制，以及如何克服这些限制的指导方针。2. 描述CodedRecon是一个基于Python的框架，它利用PyTorch [22]构建基于深度学习的算法，用于从编码曝光技术进行视频重建。它可以将来自诸如抖动快门[7，8]和逐像素编码曝光[9]等曝光技术的单个灰度测量或来自编码2桶传感器[20，23，24]的两个灰度测量作为输入。不同的曝光技术可以在图1中看到。框架的输出是形成连续视频的16个灰度帧的序列。然而，输出帧的数量可以通过适当的再训练来修改，如[25]所示该框架是通过采用深度学习和编码曝光图像处理中的最新和最佳技术构建的，使其能够获得最先进的重建结果[25]。该框架的第一阶段由传感器模拟模块组成，该模块使用二进制掩模来模拟编码曝光传感器中的帧采集。它可以模拟三个目前流行的编码曝光技术，如图所示。1：颤振快门，单像素编码曝光和编码2桶传感器。传感器模块是完全可微分的，使框架能够学习传感器掩码以实现最佳视频重建。该框架的下一阶段是用于视频重建的全卷积神经网络。它将传感器测量值作为输入，并将其分解为视频帧序列。神经网络的第一层由移变卷积（SVC）层组成，该层被证明在从编码曝光图像中提取特征时非常有效[26]。我们的框架提供了第一个开源的SVC层的实现，鼓励在这一领域的进一步研究。目前，神经网络经过预训练，可以从输入的编码测量中预测16个灰度帧。为了便于使用所提出的框架，我们使用Python的argparse库提供选项名称及其功能如表1所示。我们的框架的关键亮点是它能够接受来自3种不同传感技术的输入图像。对于3个不同的输入中的每一个，在神经网络的第一层中进行微小的调整。默认情况下，在框架中，单像素编码曝光传感器模型为激活通过指定以下两个选项之• --two-bucket：指定此选项将激活编码- 2-bucket传感器模型• --flutter：指定此选项将激活flutter shutter传感器模型。目前，该框架可以在从高速摄像机获得的视频模拟的合成数据上进行测试。已经提供了神经网络的预训练权重。研究人员还可以利用框架中可用的训练代码来训练他们选择的新数据集。3. 影响概述最初开发该框架是为了从定性和定量两个方面公平比较不同的编码暴露技术[25]。多年来，已经提出了几种编码曝光技术用于压缩视频恢复。最近，提出了一种编码2桶传感器，该传感器每次曝光可以获得两个压缩众所周知，两个测量应该比单个压缩测量提供更好的视频恢复。然而，还没有对不同的传感技术进行全面和公正的定性和定量比较。在[25]中，建议的框架被用来进行这种公平的该框架提供了最初在[26]中提出的移位变卷积（SVC）层的第一个开源实现。传统上，卷积神经网络在整个图像中共享权重，并利用小邻域中的空间相关性。最近，研究一直活跃在使用空间自适应神经网络，其中图像的每个区域都有自己的权重[27]。我们的开源实现的SVC层可以进一步发展这个主题的研究。目前，它也可以直接用于涉及编码暴露技术的研究编码2桶传感器的当前最新结果见[25]。然而，在这项工作中还没有探索的掩模设计的彻底调查。我们的框架提供了设计/学习光学编码掩码以及计算视频解码神经网络的能力。重建性能的进一步改进，以及噪声测量下的重建性能的彻底分析，在未来是可能的。用于从编码曝光技术进行视频重构的当前算法独立地处理每个帧。这忽略了长距离视频重建所必需的节奏一致性。该框架也可以为进一步研究从视频输入而不是单个图像输入中提取视频奠定基础。4. 限制框架只能接受图像作为输入。的处理视频序列是独立地逐帧完成的。这可能导致可能会影响时间一致性该框架还缺乏处理彩色RGB帧的能力，目前只能从灰度编码曝光图像输出灰度视频。收集适当的数据本身将证明具有挑战性，因为编码的曝光传感器具有有限的访问权限。不是每个人都可以从编码曝光传感器捕获图像。有效运行代码需要支持CUDA的GPU，这可能会限制其在普通受众中的广泛使用。然而，由于基于云的计算资源（如Google Colab，Amazon EC2等）的可用性，现在获得计算资源可能不是很有挑战性。P. Shedligeri，Anupama S和K。Mitra软件影响8（2021）10006435. 结论Fig. 1. 不同编码曝光技术的表示。[11]B. Wilburn，N.Joshi，V.Vaish，E.诉Talvala，E.Antunez，A.Barth，A.亚当斯，M. Horowitz，M. Levoy，使用大型相机阵列的高性能成像，我们提出了CodedRecon，这是一个基于深度学习的框架，用于从编码曝光技术中重建视频。该框架是完全可区分的，能够实现曝光传感器掩模以及视频重建网络的端到端联合训练。用户可以利用该框架从编码的曝光传感器测量中提取视频序列。该框架也可以用于研究人员在编码曝光传感技术领域的新研究思路的快速原型。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]E. Herbst，S. Seitz，S.贝克，使用光流进行时间内插的遮挡推理，技术。Rep.UW-CSE-09-08-01，计算机科学与工程系，华盛顿大学，2009年。[2]S.尼克劳斯湖迈角，加-地Liu，通过自适应卷积的视频帧插值，在：IEEE计算机视觉和模式识别会议论文集，2017年，pp. 670-679[3]H. Jiang，中国粘蝇 D. Sun，V. Jampani，M.- H. Yang， E. Learned-Miller，J.Kautz，Super slomo：用于视频插值的多个中间帧的高质量估计，在：IEEE计算机视觉和模式识别会议论文集，2018年9000-9008[4]S.尼克劳斯湖迈角，加-地Liu，通过自适应可分离卷积进行视频帧内插，在：IEEE计算机视觉国际会议论文集，2017年，第103页。261-270。[5]K. Purohit，A.沙阿，A. Rajagopalan，使模糊的时刻变得生动起来，在：IEEE计算机视觉和模式识别会议论文集，2019年，pp. 6830-6839[6]M. Jin，G. Meishvili，P. Favaro，学习从单个运动模糊图像中提取视频序列，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp. 6334-6342。[7]R. Raskar，A. Agrawal，J. Tumblin，编码曝光摄影：使用抖动快门的运动去模糊，在：ACM图形交易（TOG），卷。25，ACM，2006，pp. 795-804[8] J.Holloway，A.C. Sankaranarayanan，A. Veeraraghavan，S. Tambe，Flutter shutter videocamera for compressive sensing of videos ， 2012 IEEEInternationalConference on Computational Photography （ ICCP ）， IEEE ，2012，pp. 一比九[9]D.雷迪A.韦埃拉拉哈万河Chellappa，P2C2：用于高速成像的可编程像素压缩相机，载于：CVPR 2011，IEEE，2011.ubrkpp。329 -336[10] R.G. Baraniuk，T.戈尔茨坦，AC。桑卡拉纳拉亚南角 Studer，A. Veeraragha-van，M.B. Wakin，压缩视频传感：算法，架构和应用，IEEE信号处理。麦格34（1）（2017）52ACM SIGGRAPH 2005 Papers，ACM，2005，pp. 765-776。[12]E.谢克特曼，Y。Caspi，M. Irani，时空超分辨率，IEEE Trans.PatternAnal.马赫内特尔27（4）（2005）531-545。[13]A. Agrawal，M.古普塔A。Veeraraghavan，S.G. Narasimhan，用于时间超分辨率的最优编码采样，在：2010年IEEE计算机协会计算机视觉和模式识别会议，IEEE，2010年，pp. 599-606[14]P. Shedligeri，K. Mitra，来自混合强度和基于事件的传感器的逼真图像重建，J.Electron. Imaging 28（6）（2019）063012。[15]Z.W.公司Wang，W. Jiang，K.他，B. Shi，中国山核桃A. 卡察杰洛斯岛 Cossairt，事件驱动的视频帧合成，在：IEEE计算机视觉研讨会国际会议论文集，2019年。[16]Z.W.公司Wang，P. Duan，O. Cossairt，A. Katsaggelos，T.黄湾，澳-地Shi，联合滤波高分辨率噪声鲁棒成像的强度图像和神经形态事件，在：IEEE/CVF计算机视觉和模式识别会议论文集，2020年，pp. 1609-1619年。[17]M.伊利亚迪斯湖Spinoulas，A.K. Katsaggelos，用于视频压缩感知的深度全连接网络，Digit。信号处理。72（2018）9[18]M.伊利亚迪斯湖Spinoulas，A.K. Katsaggelos，Deepbinarymask：学习视频压缩感知的二进制掩码，Digit。信号处理。96（2020）102591。[19]M.吉田A. Torii，M. Okutomi，K. Endo，Y.杉山河- I.谷口H. Nagahara，硬件约束下的压缩视频传感和重建的联合优化，在：欧洲计算机视觉会议（ECCV）会议记录，2018年，pp. 634-649[20]N. Sarhangnejad，N. Katic，Z. Xia，M. Wei，N.古谢夫湾杜塔河 Gulve，H.Haim，M.M. 加西亚湾Stoppa等人， 5.5双抽头流水线代码存储器编码的CMOS图像传感器，用于多次曝光单帧计算成像，在：2019 IEEE国际固态电路会议-（ISSCC），IEEE，2019年，pp。102比104[21]S.J.Carey，A.Lopich，D.R.巴尔湾Wang，P. Dudek，100，000 fps的视觉传感器与嵌入式535 GOPS/W 256×256 SIMD处理器阵列，在：2013年超大规模集成电路研讨会上，IEEE，2013年，pp. C182-C183[22]A. 帕斯克河格罗斯，F。Massa，A.Lerer，J. Bradbury，G. Chanan，T.基林，Z.林，N.吉梅尔辛湖Antiga等人，Pytorch：一个命令式的高性能深度学习库，收录于：神经信息处理系统的进展，2019年，第10页。8024-8035[23]Y. Li，M.齐河，巴西-地Gulve，M. 韦河，巴西-地 Genov，K.N. Kutulakos，W.Heidrich ， End-to-end video compressive sensing using anderson-acceleratedunrolled networks，2020年IEEE国际计算摄影会议（ICCP），2020年，第100页。1-12号。[24]P. Shedligeri，A.帕尔，K. Mitra等人，通过模糊编码图像对的时空融合进行视频重建，2020，arXiv预印本arXiv：2010.10052。[25]P. Shedligeri，K. Mitra等人，从编码曝光技术中进行压缩视频恢复的统一框架，在：IEEE/CVF计算机视觉应用冬季会议论文集，2020年，pp.1600-1609.[26]T. Okawara，M. 吉田，H。 Nagahara，Y. Yagi，从单个编码图像中识别动作，在：2020年IEEE国际计算摄影会议（ICCP），2020年，pp。1比11[27]T.R. Shaham，M.加尔比河Zhang，E. Shechtman，T. Michaeli，Spatially-adaptivepixelwise networks for fast image translation ， 2020 ， arXiv preprint arXiv ：2012。02992

下载后可阅读完整内容，剩余1页未读，立即下载