没有合适的资源?快使用搜索试试~ 我知道了~
19830××通过单次编码图像Ryoya Mizuno< $,Keita Takahashi<$,Michitaka Yoshida<$,Chihiro Tsutake<$,Toshiaki Fujii<$,Hajime Nagahara<$日本名古屋大学、日本大坂大学摘要我们提出了一种通过单次拍摄编码图像(2-D测量)压缩采集动态光场(5-D体积)的方法。我们设计了一个成像模型,在一个单一的曝光时间内同步应用光圈编码和逐像素曝光编码。这种编码方案使我们能够有效地将原始信息嵌入到单个观察图像中。然后将观察到的图像馈送到卷积神经网络(CNN)以进行光场重建,该卷积神经网络与相机侧编码模式联合我们还开发了一个硬件原型来捕捉随着时间推移而移动的真实3D场景我们成功地获得了动态光场,从单个观察图像在4个时间子帧(总共100个视图)上的5个视点随着时间的推移重复捕获和重建过程,我们可以以相机的帧速率获得动态光场。 据我们所知,我们的方法是第一个实现更精细的在压缩光场采集中,时间分辨率高于相机本身。我们的软件可从我们的项目网页。11. 介绍光场被表示为一组多视图图像,其中数十个视图以微小的视点间隔排列在2-D网格上。该表示包含目标场景的丰富视觉信息,因此可以用于各种应用,例如3-D显示[14,38],视图合成[20,58],深度估计[34,51],合成重构[34,51 ],以及其他应用cusing [13,25]和对象识别[17,45]。如果目标场景能够随时间移动,应用范围将进一步扩大然而,随时间变化的光场动态光场由于与视图数量和帧速率两者成比例的巨大数据速率如图1所示,已经研究了几种获取光场的方法。最直接的方法是构建一个相机阵列[5,37,49],这需要庞大而昂贵的硬件。第二个ap-1https://www.fujii.nuee.nagoya-u.ac.jp/Research/CompCam2时间储备斯佩尔水透镜阵列照相机相机阵列编码孔径照相机编码曝光照相机我们角水库图1.我们的成就与以前的代表性作品(相机阵列[49],透镜阵列相机[24],编码孔径相机[12]和编码曝光相机[54])进行了比较轴是相对于t的相对尺度。相机方法是在图像传感器前面插入微透镜阵列[1,2,24,25,29,46],这使得我们能够在单次拍摄图像中捕获光场然而,每个视点图像的空间分辨率被牺牲为角分辨率(视图的在上述两种方法中,所获取的光场的帧速率至多等于相机的帧速率。此外,数据速率没有被压缩,因为每个光线被单独采样第三种方法旨在通过使用配备有编码掩模或光圈的单个相机来全面地获取光场[3,6,7,12,16,18,22,23,39,41,43]。这种相机用于获得少量的编码图像,从这些图像中可以重建具有全传感器空间分辨率的光场。对于静态场景,采用不同的编码模式拍摄更多的图像有利于获得更高的重建质量。然而,对于运动场景,使用多个编码图像涉及与场景运动相关的附加复杂性。Hajisharif等人[8]使用了一个跨越多个时间帧的高维光场字典。然而,他们基于字典的光场重建需要非常长的计算时间。Sakai等人。[31]通过随时间交替使用两种编码模式并在动态场景上训练他们的基于CNN的算法来处理场景运动。然而,仅针对每两个时间点重建光场。19831×××帧(在0.5相机的帧速率本文将压缩方法进一步推进了几个步骤,以革新动态光场的成像方法。如图1所示,我们的方法追求全传感器空间分辨率和比相机本身更快的帧速率为此,我们设计了一个成像模型,同步应用孔径编码[12,16,23],在单个曝光时间内的逐像素曝光编码[9,30,48,54]这种编码方案使我们能够有效地将原始信息(动态光场的5-D体积)嵌入到单个编码图像(2-D测量)中。然后将编码图像馈送到CNN以进行光场重构,其与相机侧编码图案联合训练。我们还开发了一个硬件原型,以捕捉随着时间的推移移动的真实3D场景。其结果是,我们成功地获得了动态光场与5 - 5个视点超过4个时间子帧(100个视图)从一个单一的编码图像。随着时间的推移重复捕获和重建过程,我们在4相机的帧速率。据我们所知我们的方法是第一个实现更精细的时间分辨率的方法比相机本身在压缩光场采集中更有效。2. 背景2.1. 计算摄影在计算摄影的文献中,孔径编码已被用于对光场的视点(角度)尺寸进行编码[6,12,16,23],而曝光编码已被用于对单目视频中的快速时间变化进行编码[9,28,30,48,54]。我们的方法将它们结合起来,同时对视点(角度)和时间维度进行编码。我们的方法也被认为是快照压缩成像的极端情况[44,56,57],其中更高维(通常为3-D)数据量被压缩到2-D传感器测量中。我们注意到Vargas等人。[42]最近提出了一种与我们类似的成像架构,用于压缩光场采集。然而,他们的方法是为静态光场设计的。因此,他们的图像形成模型隐含地假设目标光场在曝光时间期间(在应用时变编码图案的时段此外,他们没有报告逐像素曝光编码的硬件实现。相比之下,我们的方法被设计成在每个曝光时间期间处理运动,并且它完全实现为硬件原型。我们将整个成像管道(编码图像采集和光场重建)建模为深度神经网络,并联合优化相机端编码模式和重建算法。这种设计符合深度光学的最新趋势[4,11,12,15,26,31,36,52,54]其中光学元件和计算算法在深度学习的框架下联合优化。然而,我们的方法是设计来处理更高维的数据(动态光场)比以前的作品。2.2. 光场重建从编码/压缩测量的光场重建被认为是一个逆问题,可以使用几类方法。传统方法[3,18,19]将该问题表述为具有相当简单的显式定义的先验项的能量最小化,并使用迭代算法求解。这些方法通常导致重建质量不足和计算时间长。最近,基于深度学习的方法[7,12,22,41,47,53]由于数据驱动的隐式先验的出色表示能力这些方法在合适的数据集上进行训练,可以获得高质量的检索能力。此外,在预先训练的网络上进行重构(推理)不需要太多的计算时间。混合方法也已被研究。算法展开方法[6,21]将迭代算法的过程展开为可训练的网络,而即插即用方法[56,57]使用预先训练的网络模型作为迭代算法的构建块。我们采用基于深度学习的方法,并本着深度光学的精神共同优化整个过程(编码图像采集和对于重建部分,我们使用了一个相当简单的网络架构,以平衡重建质量和计算效率。进一步的改进将被期望与更复杂的和光场特定的网络架构[6,53]。我们把这作为未来的工作,因为本文的主要重点是设计的图像采集过程,而不是重建网络。近年来,从一个单一的图像[10,27,33,35,40,50]的视图合成已经引起了广泛的关注。原则上,从普通单目图像(没有编码)的3-D重建/渲染是一个不适定的问题;通过使用从训练数据集而不是物理线索中学习的隐式场景先验,结果被幻觉化相比之下,我们的方法旨在通过相机端编码过程恢复嵌入到单个图像中的3D和运动信息3. 该方法3.1. 符号和问题表述我们假设的相机的示意图如图2所示。进入相机的每条光线都用五个变量(u,v,x,y,t)进行参数化,其中(u,v)和(x,y)分别表示与孔径平面和成像平面的交点,t表示在一个采样周期内的时间19832联系我们Σ--∈∈Lx,y(n,n,n)图2.动态光场示例(左)和相机示意图(右)。1.00.80.60.40.20.0图3.应用于孔径和像素平面的编码图案。Lx,y(u,v,t)随时间的变化,这将原始5-D体积减少为3-D时空张量Jx,y(t),如下所示:相机的曝光时间。我们将变量空间离散成一个5维整数网格,其中每个变量的范围Jx,y(t)=a(u,v,t)Lx为oh(u,v,t)。(三)可以描述为S=[0,N)(x,y,u,v,t)。通过使用这些变量,光线的强度被描述为Lx,y(u,v,t)2。由于(u,v)与视点(角度)相关联,因此Lx,y(u,v,t)等效于多视图视频的集合,即,动态光场。我们的目标是从单个编码图像Ix,y获取潜在动态光场Lx,y(u,v,t):具有Nx Ny Nu Nv Nt未知数的5-D 体积:具有Nx Ny可观测量的2-D测量。此后,除非另有说明,否则我们假设Nu=Nv=5且Nt=43.2. 图像采集模型如果相机没有编码功能(在普通相机的情况下),则观察到的图像由下式给出:(u,v)∈SU×SV接下来,通过使用px,y(t)随时间的逐像素曝光编码,将3-D张量Jx,y(t)进一步简化为2-D测量Ix,y,如下所示:I x,y=p x,y(t)J x,y(t).(四)t∈St通过结合这两个步骤,我们对视点(u,v)和时间(t)维度进行编码,并将它们嵌入到单个2-D图像中。编码模式的示例在图3中示出。如后所述,这些模式直接与CNN(AcqNet)的参数相关联,该参数与另一个CNN(RecNet)联合Ix,y= 0L x,y(u,v,t).(一)因此,这些编码模式针对训练数据集进行了优化,以便保留尽可能多的光场信息。(u,v,t)∈SU×SV×ST每个像素值Ix, y是视点(u,v)和时间(t)维度上的光线之和。因此,沿着u、v、t维的变化被简单地模糊掉,使得难以恢复。同时,设计了一种能有效保留原始5维信息的成像方法。我们利用的光圈编码和逐像素曝光编码的组合是同步变化的一个单一的曝光时间。观察到的图像如下所示:尽可能地在观察到的图像中。图4示出了通过两种成像模式从测试场景获得的两个图像(相同部分的特写):普通相机(等式1);(1)和我们的(Eq。(2)译注。普通相机获得的是简单的模糊观察,而我们的相机由于编码模式而获得的图像是斑驳的为了进一步分析编码的效果,我们还使用了具有前平行平面的原始场景(原始平面场景)。如图在图5中,我们准备了具有九个亮点的图像G(x,y)然后,我们使用2D的参数来合成动态光场Ix,y= 0a(u,v,t)p x,y(t)L x,y(u,v,t).(二)横向速度(αx,αy)[每单位时间像素]和视差d[每个视点的像素](对应于深度),(u,v,t)∈SU×SV×ST其中a(u,v,t)[0,1](半透明)和px,y(t)0,1(开/关)分别是应用在孔径和像素平面上的编码图案。该成像过程可以被认为是如下的两步编码。首先,将一系列孔径编码图案a(u,v,t)应用于2为了简单起见,我们假设光场只有一个颜色通道。当处理RGB颜色的光场时,我们将每个颜色通道视为单独的光场。(,(,Lx,y(n,n,n)孔(成像器x,y(x)逐像素曝光编码模式x,y(x)孔径编码图案(透射率19833Lx,y(u,v,t)=G(x−du−αx t,y−dv−αy t)(5)我们用它来计算观察到的图像, 当量(二)、在图5中示出了用不同参数获得的一些结果图像(亮度被校正以用于可视化)。这些图像可以被解释为点扩散函数(PSF)的各种运动和disparity值。值得注意的是,这些PSF彼此不同此外,即使在一个单一的图像,19834(X,Y)−101(0((1(1××××××孔径虚拟成像仪(与成像器共轭)中继透镜主透镜分束图像传感器LCOS(与孔径共轭)图4.通过普通相机获取的示例图像Eq.(1)(左)和我们的成像模型方程。(2)(右)。W. 曝光控制图6.我们的相机原型(左)和光学图(右)。时间���+���*���)���(���5���&���7���$ ……曝光时间(x,y(x)图7.我们相机的时间表。曝光定时对于图像传感器上的四个垂直划分的区域是不同的。图5.我们的成像模型针对不同的运动和视差值产生不同的PSF(使用图3中的点彼此不同。这些结果表明,与沿时间(t)和视点(u,v)维度的变化相关联的运动和视差都由取决于空间坐标(x,y)的PSFs的各种形状来编码。编码的信息不是人类可读的,但可以由与编码模式联合训练的RecNet解密。3.3. 硬件实现我们开发了图6所示的原型相机,其可以在单个曝光时间内应用光圈编码和逐像素曝光编码。我们使用Nikon Rayfact(25 mm F1.4 SF2514MC)作为主镜头。孔径编码是使用硅上液晶(LCoS)显示器(第四维度显示器,SXGA-3DM),它有1280 ×1024像素。我们将LCoS显示器的中心区域划分为55个区域,每个区域150个150像素。 因此,光场的角分辨率被设置为5 × 5。逐像素曝光编码使用具有656 512像素的行列曝光传感器[54]来实现。我们通过外部电路将LCoS显示器与图像传感器同步,以便在单个曝光时间内同步应用四组编码图案。时序图如图7所示。分配给每个编码模式的持续时间被设置为17 ms。因此,目标光场的单位时间也是同时,照相机的单个曝光时间的范围在4个时间单位(时间子帧)上,因此,两个曝光图像之间的间隔为68 ms(就照相机的帧速率而言为14.7 fps我们提到了图像传感器硬件的几个限制首先,传感器没有配备RGB滤光片,因此无法获得颜色信息。第二,编码模式不是自由可设计的,因为它们是由每88个像素重复的列和行控制信号产生的。因此,适用的编码模式仅限于二进制,8 8像素周期性,和行列可分离的。这个限制在我们的网络设计中被考虑到了,如后所述.最后,由于垂直扫描的定时,单个曝光图像覆盖的持续时间取决于垂直位置。更确切地说,如图所在图7中,图像传感器被垂直地分成4个区域,每个区域具有与相邻区域相差17 ms的独特曝光定时。因此,这些区域由相同的四组编码模式调制,但顺序不同。为了适应这些差异,我们为AcqNet使用了单个实例,但分别对4个区域的输入光场中的时间单位的顺序进行了调整。我们准备了对应于4个区域的4个RecNet实例,并使用编码模式对它们进行联合这种扩展需要并行进行的四个区域重建过程,但仍然保持比照相机高4主透镜图像传感器LCOS装置19835××××××××××××××××××××{−}±∈图8.我们的网络架构由AcqNet和RecNet组成,分别对应于编码图像采集和光场重建过程。动态光场范围超过四个时间单位的处理一次。3.4. 网络设计和培训如图8所示,我们的方法被实现为一个完全卷积的网络,由AcqNet和Rec- Net组成AcqNet是具有可训练编码模式的图像形成模型的可微分表示,其中目标光场被压缩成单个观察图像。RecNet被设计为接收观察到的图像作为输入,并重建原始光场。整个网络使用地面实况光场的平方误差作为损失函数进行端到端训练。通过这样做,图像采集和光场重建过程被联合优化。当使用真实相机时,相机的编码模式根据AcqNet的训练参数进行调整。然后,在成像硬件上物理地进行图像采集,并且仅在计算机上进行重建(RecNet上的推理)。AcqNet将4个连续时间单位上的动态光场作为输入,其具有4个时间单位上的NXNy像素和5个视点。视点维度被展开到单个通道中,从而产生具有25Nx Ny形状的4个输入张量。AcqNet的第一块对应于孔径编码(Eq.(三))。为了实现这一过程,我们遵循Inagaki等人。[12];我们使用了具有11个内核并且没有偏差的2-D卷积层,其中每个内核权重对应于每个视点的孔径我们为4个时间单元准备了4个这些层的输出沿通道维度堆叠,从而产生4的张量N x纽约。 第二个块对应于逐像素曝光编码(等式2)。(4)),其中应用8个重复图案。对于这个过程,我们准备了64个单独的卷积层(1×1无偏核),每个卷积层都采用一个张量4×Nx/8×Ny/8作为输入(每提取8×8个像素从4 N x的张量N y),并减少4个通道一个单一的频道。为了将编码模式约束为硬件可实现的(二进制和行列可分离),我们使用了与Yoshida等人相同的训练技术。[55](参见[55]中的第4.1节)。这些层的输出沿 通 道 维 度 堆 叠 , 从 而 产 生 64 的 张 量N x/8Ny/8,相当于具有Nx Ny像素的单个观察图像。最后,为了考虑采集过程中的噪声,高斯噪声(零均值和σ=0. 005w.r.t.像素值的范围[0,1])被添加到所观察的图像。RecNet接受来自AcqNet的输出(或从真实相机获取的图像)作为64Nx/8Ny/8的张量。前5个卷积层逐渐将通道数增加到256,同时保持空间大小不变。然后,使用像素重排操作将张量重塑为4Nx Ny[32]。随后的两个卷积层将通道数量增加到100,然后是19个卷积层和用于细化的剩余连接RecNet的输出是表示为100Nx Ny的张量的潜在动态光场,其中100个通道对应于4个时间单位(时间子帧)上的5个如3.3中所述,应并行使用RecNet的四个实例来处理四个垂直区域之间的时间差。最后,我们来谈谈训练数据集。我们首先从51个具有强度增强的静态光场中收集了223,020个光场补丁接下来,Sakai et al. [31]中,我们将2-D横向运动(平面内平移)给予所收集的片以合成虚拟移动的光场样本。我们使用具有恒定速度的线性运动:(αx,αy)[单位时间像素],其中αx,αy2,1,0,1,2;这相当于最多8个像素的trans-mitting。在相机的帧速率方面的每帧的lation。 这运动模型简单且有限,但是对于在足够短的单个曝光时间内的运动,它将是足够的我们总共有25种运动模式重新排列8张图片8张图81×1Conv888y1×1Conv4通道x1通道64 ch64 ch128 ch1x1 Conv8岁10x/8128频道128频道256频道像素混洗4 ch16通道64通道8岁4 ch10/8+阿克斯25通道观察图像输入动态光场AcqNet19埃什基分裂阿克斯100通道100通道100通道RecNet输 出 动态光场4重塑1×125通道滤波器孔径编码8第8章重塑1×14通道滤波器逐像素曝光编码3x3 Conv + ReLU5x5转换3x3转换19836×××××/×∈××其中的每一个被施加到每个光场贴片。总而言之,我们有5,575,500个动态光场样本,每个样本在4个时间单位内的55个视点处具有6464个 请注意,即使是单个训练样本也有很大的大小(409,600个元素),这就需要网络是轻量级的。我们使用PyTorch实现了我们的软件。该网络使用Adam opti- mizer进行了五个时期的训练。培训在配备NVIDIA Geforce RTX 3090的PC上进行了大约七天。我们还用8训练了我们的模型8视图和不同的范围,假设运动(αx,αy)。请参阅柔软的-详细资料。4. 实验我们使用计算机生成的场景进行了几次定量评估,并使用我们的原型相机进行了实验。总之,我们成功地获得了比相机本身更精细的时间分辨率的动态光场。请注意,这里没有竞争的基准,因为据我们所知,以前的作品都没有达到我们的目标。请参阅软视频更好地可视化我们的结果。4.1. 定量评价消融研究的编码方法。为了验证我们的图像采集模型在方程。(2),我们需要分析编码对孔径(a(u,v,t))和像素(px,y(t))平面的影响。除了我们原来的方法(记为A+P)之外,我们还训练了我们方法的三个变体,如下所示。普通:不应用编码(a(u,v,t)=const,px,y(t)=const),其对应于来自单个未编码图像的光场重建。仅A-only:仅启用孔径编码(px,y(t)=const)。 仅P-:仅启用逐像素曝光编码(a(u,v,t)=const)。此外,为了评估理论上限,我们还准备了5-D空间上的自由形式编码(表示为Free 5D),由下式给出:这是由Sakai等人[31]提供的行星场景渲染的。3图9显示了几个重建视图(左上角视点)、沿绿线的水平epipolar平面图像(EPI)以及与地面实况的差异(3个像素值)。图中沿着时间帧绘制了25个视点上的平均峰值信噪比(PSNR)值10个。从这些结果中可以看出,我们的方法明显优于其他变体,甚至达到了接近理想Free5D情况的质量。同时,仅A-和仅P-导致重建质量差,显示其作为编码方法的不足。此外,普通情况下的差结果表明,尽管从训练数据集中学习了隐式场景先验,但仅凭它们不足以进行高质量的重建。与此相反,我们的方法的成功可以归功于同时应用于孔径和成像平面的实验编码方法,这有助于有效地将原始5-D信息嵌入到单个观察图像中。然而,我们的方法的重建质量随着时间的推移表现出小的波动。这与四个时间单位(时间帧)作为一组处理此外,我们的方法没有包括可以明确鼓励时间一致性的机制,这将在未来的工作中解决。工作范围分析。我们还评估了有效的工作范围对运动和视差使用一个原始的平面场景。下式(5),我们通过使用图11(左)中的自然图像作为纹理。用我们的方法(A+P)和三种变体(仅A、仅P和普通)获得的平均PSNR值如图11(右)所示。显然,我们的方法(A+P)可以比其他方法覆盖更宽范围的运动/视差值; P-仅在d=0时表现不佳; A-仅和普通除了d=αx=0之外,都不适用。在我们的方法(A+P)中,重建质量随着速度和视差值逐渐下降,皱了皱。这意味着大的运动/差异是挑战-Ix,y= 0m(x,y,u,v,t)Lx,y(u,v,t)(6)为我们的方法干杯。 工作范围为dis-(u,v,t)∈SU×SV×ST其中m(x,y,u,v,t)[0,1]是在8 × 8像素上周期性的完全可训练的调制模式。请注意,这只是一个软件模拟;没有硬件实现是可用的。这五种方法的成像模型各不相同,但目标相同:从单个观测图像重建动态光场(4个时间单位内5个视图对于所有方法,具有相同网络结构的RecNets在相同训练数据集上使用相应的编码模式联合训练相同数量的epochs。为了定量评价,我们使用了计算机生成的光场,具有200个时间段的5×5视点奇偶性主要由包含在原始光场数据集中的3-D场景结构确定,而速度的工作范围与我们在从静态光场合成动态数据集时假设的虚拟运动有关。注意,我们的成像系统具有密集定位的视点(由孔径限定)和高时间分辨率(4 相机的帧速率因此,运动和视差通常都是有限的在小范围内。与其他方法的比较。最后,我们将我们的方法与其他三种方法进行了比较。前两种方法[6,31]基于编码孔径成像。从3https://www.fujii.nuee.nagoya-u.ac.jp/Research/CompCam/19837××××地面实况(第50帧)地面实况(第100帧)A+P(ours)Free5D仅限A仅限P普通A+P(ours)Free5D仅限A仅限P普通图9.我们的方法(A+P)、Free5D(理想情况)和三种消融情况(仅A、仅P和普通)的视觉结果重建的左上视图伴随着沿着绿线的水平EPI和与地面真实值的差异(×3亮度)。343230282624图10.Free5D(上限)A+P(我们的)仅P仅限A普通0 40 80 120 160 200帧随着时间的推移,帧(在0. 5、相机的帧速率。我们重新训练了郭等人。s和Sakai et al.在同一个数据集上,直到收敛。此外,我们模拟了一个Lytro样的相机,其中每个5 5视图被捕获的1/5 1/5的空间分辨率在相同的帧速率的相机。所获得的5 - 5视图被上采样到原始分辨率,使用双三次插值和对地面真实值的com-candidate。对于定量评估,我们使用Planets,假设相机的帧速率与我们的相同;因此,在这三种方法中,仅在每四个时间帧进行图像采集。 注意只有我们的方法可以获得4倍帧频的光场方法(A+P)、Free5D(理想情况)和三种消融情况(仅A、仅P和普通)。Guo等人[6],我们采用了一种模型,其中从单个观察图像重建每个时间单位的光场,这导致逐帧观察和与相机相同的帧速率下的光场重建Sakai et al.[31]观察了三个连续的图像随时间的变化,并重建了中心时间的光场每两个人的光场被重建因此,此比较仅用作参考。随时间变化的平均PSNR值如图12所示。Sakai等人的方法。[31]未能遵循快速场景运动,导致重建质量差。Guo等人的方法。[6]重建了一个精细纹理但几何不一致的结果,而Lytro类相机产生了一个几何一致但模糊的结果。我们的方法实现了最佳重建质量与×4更精细的时间分辨率比相机。不同训练条件下的详细分析请参考补充资料.峰值信噪19838××××目标场景相机3432302826P-仅普通240 40 80 120 160 200帧图11.针对各种运动的性能评估图12. 相对于其他时间的定量质量和原始平面场景上的视差值。方法(Guo et al.[6],Sakai et al.[31]和类似Lytro的相机)。实验装置重建光场图13.使用我们的原型相机进行实验:实验装置(左)和重建的左上视图,伴随着沿绿色和蓝色线的两个EPI(中),以及重建的光场(右)。4.2. 使用相机原型进行我们准备了一个目标场景,通过使用几个对象(微型动物)放置在一个电子转盘,它产生的运动在各个方向。我们的原型摄像机用于以14.7 fps捕获场景,从中我们以58.8 fps重建动态光场(来自每个曝光图像的4个时间帧)。重建的光场有5 5个视图,每个视图的全传感器分辨率(656 512像素)为每个时间单位。我们的实验装置和部分结果如图13所示。重建的光场表现出随时间的自然运动和视点之间的一致松弛(参考补充视频)。5. 结论我们提出了一种通过单次拍摄编码图像(2-D测量)压缩采集动态光场(5-D体积)的方法。我们的方法体现为一个相机,同步应用光圈编码和逐像素曝光编码,结合用于光场重建的基于深度学习的算法。编码模式与重建算法联合优化,使尽可能多的原始信息嵌入实验结果表明,该方法仅使用一台摄像机,就能快速获得动态光场,5视图在4 相机的帧速率。我们认为这是一个信号-压缩光场方面的重大进展收购,这将激励计算摄影社区进一步研究。我们未来的工作将包括改进网络设计,以获得更好的重建质量,并推广到不同的配置有关的视图数量和时间单位的数量包括在一个单一的曝光时间。鸣谢:特别感谢滨松光子公司的杉山幸信和远藤健太。用于提供图像传感器。X0 1 2 3 4(01234A+P(我们的)仅限AA+P(我们的)10×fps郭1×fpsLytro样1×fps酒井0.5×fps峰值信噪峰值信噪19839引用[1] Edward H Adelson和John YA Wang。具有全光相机的单镜头 立体 声。 IEEE模式 分析 与机器 智能 学报 ,14(2):99-106,1992。1[2] 新井纯,冈野文雄,星野春夫,汤山一郎基于实时积分摄影的梯度折射率透镜阵列三维成像方法应用光学,37(11):2034-2045,1998. 1[3] S. Derin Babacan,Reto Ansorge,Martin Luessi,PabloRuizMataran , RafaelMolina , andAggelosKKatsaggelos.压缩光场感测。IEEE Transactions on imageprocessing,21(12):4746-4757,2012. 一、二[4] 艾扬·查克拉巴蒂通过反向传播学习传感器复用设计。神经信息处理系统国际会议,第3089-3097页,2016年。2[5] Toshiaki Fujii,Kensaku Mori,Kazuya Takeda,KenjiMase,Masayuki Tanimoto,and Yasuhito Suenaga.多点测量系统的视频和声音- 100-摄像机和麦克风系统。在IEEE多媒体和博览会国际会议上,第437-440页,2006年。1[6] Mantang Guo , Junhui Hou ,Jing Jin , Jie Chen , andLap-Pui Chau.编码孔径上用于压缩光场重构的深度空间-角度正则化。在欧洲计算机视觉上,第278一二六七八[7] Mayank Gupta、Arjun Jauhari、Kuldeep Kulkarni、SurenJayasuriya、Alyosha Molnar和Pavan Turaga。使用深度学习的压缩光场重建。在IEEE计算机视觉和模式识别研讨会会议上,第1277-1286页,2017年。一、二[8] Saghi Hajisharif,Ehsan Miandji,Christine Guillemot,and Jonas Unger.单传感器压缩光场摄像机。计算机图形论坛,39(2):463-474,2020。1[9] Yasunobu Hitomi , Jinwei Gu , Mohit Gupta , TomooMit-sunaga,and Shree K.纳亚尔视频从一个单一的编码曝光照片使用学习过完整的字典。国际计算机视觉会议,第287- 294页,2011年2[10] 放大图片作者:Ronghang Hu,Nikhila Ravi,AlexanderC.Berg和Deepak Pathak。Worldsheet:将世界包装在3D工作表中,以便从单个图像进行视图合成在国际计算机视觉会议上,2021年。2[11] Michael Iliadis,Leonidas Spinoulas,and Aggelos K.凯特-萨格洛斯。Deepbinarymask:学习视频压缩感知的二进制掩码,2016年。2[12] 稻垣泰孝,小林裕人,高桥敬太,藤井俊昭,和长原一.学习通过编码光圈相机捕捉光场。在欧洲计算机视觉会议上,第418-434页,2018年。一、二、五[13] 亚伦·伊萨克森,伦纳德·麦克米伦,史蒂文·J·戈特勒。动态重新参数化的灯光场。在ACM SIG中-GRAPH,第297-306页,2000年。1[14] Seungjae Lee,Changwon Jang,Seokil Moon,JaebumCho,and Byoungho Lee.加性光场显示:实现用全息光学元件增强现实的概念。ACM Transactions on Graphics,35(4):1-13,2016。1[15] 李宇奇,缪琦,拉胡尔·古夫,魏勉,罗曼·吉诺夫,基里亚科斯·N。Kutulakos,and Wolfgang Heidrich.基于安德森加速展开网络的端到端视频压缩感知。在国际计算机摄影会议上,第137-148页,2020年。2[16] Chia-Kai Liang , Tai-Hsu Lin , Bing-Yi Wong , ChiLiu,and Homer H Chen.可编程孔径摄影:多路光场采集。ACM Transactions on Graph-ics,27(3):1-10,2008. 一、二[17] 前野一树,长原一,岛田敦,谷口林一郎。用于透明物体识别的光场畸变特征在IEEE计算机视觉和模式识别上,第2786-2793页,2013年。1[18] Kshitij Marwah,Gordon Wetzstein,Yosuke Bando,andRamesh Raskar.使用过完备字典和优化投影的压缩光场摄影。ACM Transactions on Graphics,32(4 ):1-12,2013. 一、二[19] Ehsan Miandji,Saghi Hajisharif,and Jonas Unger.用于光场和光场视频的压缩和压缩感测的统一框架ACMTransactions on Graphics,38(3):1-18,2019。2[20] Ben Mildenhall , Pratul P. Srinivasan , Rodrigo Ortiz-Cayon,Nima Khademi Kalantari,Ravi Ramamoorthi,Ren Ng,and Abhishek Kar.局部光场融合:具有规定采样 指 南 的 实 用 视 图 合 成 。 ACM Transactions onGraphics,38:1-14,2019。1[21] Vishal Monga,Yuelong Li和Yonina C.灵族算法展开:用于信号和图像处理的可解释、高效的深度学习。IEEE信号处理杂志,38(2):18-44,2021。2[22] Ofir Nabati,David Mendlovic,and Raja Giryes.压缩彩色光场的快速精确重建。在计算摄影国际会议上,第1-11页,2018年。一、二[23] 长原一,周长银,渡部拓哉,石黑浩,纳亚尔.使用LCoS的可编程孔径相机。欧洲计算机视觉会议,第337-350页,2010年。一、二[24] 吴仁数字光场摄影。斯坦福大学博士论文,2006年。1[25] RenNg , MarcLevoy, Ma thieuBre' dif , GeneDuv al ,MarkHorowitz,and Pat Hanrahan.使用手持式全光相机的光场摄影。计算机科学技术报告CSTR,2(11):1-11,2005年。1[26] Shijie Nie,Lin Gu,Yinqiang Zheng,Antony Lam ,Nobutaka Ono,and Imari Sato.用于高光谱重建的深入学习的滤波器响应在IEEE/CVF计算机视觉和模式识别会议上,第4767- 4776页,2018年。2[27] 西蒙·尼克劳斯、龙迈、杨继美、刘峰。3D肯烧伤效果从一个单一的形象。ACM Transactions on Graphics,38(6):1-15,2019。2[28] Ramesh Raskar,Amit Agrawal,and Jack Tumblin.编码曝 光 摄 影 : 用 抖 动 的 快 门 消 除 运 动 模 糊 。 ACMTransactions on Graphics,25(3):795-804,2006。219840[29] Raymond:. 3D光场相机技术,2021年。https://www.raytrix.de/网站。1[30] DikpalReddy , AshokVeeraraghavan , 和 RamaChellappa.P2C2:可编程像素压缩相机,用于高速成像。在IEEE计算机视觉和模式识别会议上,第329-336页2[31] Kohei Sakai , Keita Takahashi , Toshiaki Fujii , andHajime Nagahara.通过编码孔径相机获取动态光场。在欧洲计算机视觉会议上,第368-385页,2020年。一、二、五、六、七、八[32] 放 大 图 片 作 者 : WenzheShi , JoseCaballero ,FerencHusza'r , JohannesTotz , Andrew P.Aitken , RobBishop,Daniel Rueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE计算机视觉和模式识别会议上,第1874-1883页,2016年。5[33] 施梦丽,苏世扬,约翰内斯·科普夫,黄家斌。使用上下文感知分层深度修复的3D摄影。IEEE/CVF计算机视觉和模式识别会议,2020年。2[34] Changha Shin、Hae-Gon Jeon、Youngjin Yoon、In SoKweon和Seon Joo Kim。EPINET:一个使用对极几何的全卷积神经网络,用于光场图像的深度。在IEEE计算机视觉和模式识别会议上,第4748-4757页1[35] Pratul P. Srinivasan,Tongzhou Wang,Ashwin Sreelal,Ravi Ramamoorthi,and Ren Ng.学习从单个图像合成4DRGBD光场在IEEE计算机视觉国际会议上,第2262-2270页2[36] 何孙,阿德里安V.达尔卡,和凯瑟琳L.布曼学习计算成像传感器选择的概率策略。在计算摄影国际会议上,第81-92页2[37] Yuichi Taguchi,Takafumi Koike,Keita Takahashi,andTakeshi Naemura.TransCAIP:一种实时3D电视系统,使用摄像机阵列和集成摄影显示器,可交互控制观看参数 。 IEEE Tra
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功