没有合适的资源?快使用搜索试试~ 我知道了~
学习通过编码孔径相机稻垣康隆1[0000 - 0001 - 6199 - 3139]、小林裕人1[0000 - 0003 - 1615 - 2183]、高桥敬太1[0000 - 0001 - 9429 - 5273]、藤井俊明1[0000 - 0002 - 3440 - 5132]、长原一2[0000 - 0003 - 1579 - 8767]1日本名古屋大学工学研究生院{inagaki,kobayashi,takahasi,fujii}@ fujii.nuee.nagoya-u.ac.jp2日本大坂大学数据性科学研究所nagahara@ids.osaka-u.ac.jp抽象。 我们提出了一个基于学习的框架,通过编码孔径相机获取光场。由于数据量,获取光场是一项挑战性任务 为了使采集过程高效,成功地采用了编码孔径相机;使用这些相机,从利用不同孔径图案采集的若干图像计算重建光场。然而,仍然难以仅从几个获取的图像重建高质量的光场为了解决这个限制,我们从自动编码器的角度制定了光场采集的整个该自动编码器被实现为完全卷积层的堆栈,并通过使用训练样本的集合进行端到端的训练我们的实验表明,我们的方法可以成功地学习良好的图像采集和重建策略。用我们的方法,只需要几幅采集的图像就可以成功地重建出由5×5或8×此外,我们的方法实现了优于几个国家的最先进的方法的性能 我们还将我们的方法应用到一个真正的原型相机,以表明它能够捕捉一个真正的3-D场景。关键词:光场,CNN,编码孔径1介绍光场的概念描述了在3-D自由空间中行进的所有光线[1一些研究人员已经发表了光场数据集[19光场数据集通常表示为一组多视图图像,这些图像以微小的视点间隔密集对齐。由于数据量,采集光场是一项具有挑战性的任务,因为光场通常由数十个图像组成几位研究人员2Y. 稻垣小林K.高桥T.Fujii和H.Nagahara已经采用了直接的方法,例如使用移动相机机架[2]或多个相机[23-25]来从不同的视点捕获目标。这些方法在硬件或捕获所需的时间方面是昂贵的整个光场。同时,基于透镜阵列的相机[26、27、11、28]和编码孔径/掩模相机[29-35]也被用于实现更有效的采集。在基于透镜阵列的相机的情况下,整个光场可以用单个获取的图像来捕获,但是每个图像的空间分辨率与视点的数量处于折衷关系。相比之下,编码孔径/掩模相机可以捕获具有与图像传感器相同的空间分辨率的光场,但是光场的质量与所获取的图像3的数量处于折衷关系。其他研究人员使用视图合成技术[7,6,36,37]从以稀疏间隔或甚至从一个图像获取的几个图像中生成密集光场。然而,视图合成涉及在从给定图像准确地估计深度/视差以及再现诸如非朗伯反射和遮挡的视图相关现象方面的增加的困难。研究了利用编码孔径相机有效获取光场的问题。使用该相机,从利用不同孔径图案获取的若干图像计算地重建光场。早期的方法[30-32]不能大幅减少重建光场所需的图像数量。然而,使用最近的方法[33,35],对于由5× 5视点组成的光场,所获取的图像的数量已经减少到仅几个。我们想要进一步改善所获取的图像的数量与重建光场的质量之间的权衡关系。实现这一目标的关键是找到好的孔径模式和相应的好的重建算法。了解减少数量背后的原理是很重要的获取的图像。在先前的工作中,已经从压缩感测的角度解决了这个问题[38-40]。 压缩感测是用于从减少数量的样本重构信号的框架,其中利用目标信号中的固有结构来寻求最佳采样和重构策略。沿着这个主题,光场采集已经从稀疏表示的角度使用学习字典[33]和使用最重要的基向量[35]的近似进行了这些方法可以成功地重建光场从只有少数采集的图像。然而,他们往往无法重建的光场的细节,由于有限的表示能力的字典和基础。此外,由于所使用的迭代算法的固有复杂性,稀疏重构需要大量的计算时间。相比之下,我们从自动编码器的角度来看待获取光场的问题[41,42]。自动编码器采用简单的结构,其中编码器网络连接到解码器网络,并且它被训练为最佳地近似输入和输出之间的恒等映射。在我们的方法中,3斑点摄影[29]被归类为编码掩模方法,但在最大空间频率和角频率之间存在权衡。学习通过编码孔径相机3编码器和解码器分别对应于图像获取和重建过程,因为原始光场通过编码孔径照相机的物理成像过程一度被减少(编码)为仅几个图像我们将这个自动编码器实现为一个完全卷积神经网络(CNN),并通过使用一组训练样本对其进行端到端的训练。经训练的网络的参数对应于在训练数据集上联合优化的孔径图案和重建算法。简而言之,我们的方法可以通过利用深度神经网络(DNN)的强大框架来学习通过编码孔径相机捕获和重建光场。我们通过使用Chainer [43]实现了我们的方法,并通过使用从51个光场数据集中获取的样本对其进行训练。我们的实验表明,我们的方法可以成功地学习良好的图像采集和重建策略。利用该方法,可以从少量的图像中重建出高质量的5×5或8×8图像组成的光场。此外,我们的方法实现了优于几种最先进的方法[33,6,35,36]的性能,包括基于压缩感知和基于视图合成的方法。我们还将我们的方法应用到一个真正的原型相机,以表明它能够捕捉一个真正的3-D场景。我们简要回顾了DNN在类似应用中的使用的相关工作。DNN已被用于优化成像流水线,包括用于彩色图像采集[44]、深度估计[45]和高速视频采集[46]的相机设计。基于学习的方法也用于光场视频的时间内插[47]。作为与我们最相似的工作,在[48]中使用DNN成功地重建了压缩采样光场然而,与我们的方法相反,[48]中的压缩过程(相机设计)在训练阶段没有优化,而是事先确定的据我们所知,我们是第一个使用DNN来设计用于光场采集的计算相机的整个流水线的人。此外,网络架构之间的差异导致重建时间的显著差异:[48] 6.7分钟,我们只有1秒。2该方法2.1通过编码孔径相机编码孔径照相机的示意图在图1中示出。1.等效于该图的架构可以通过使用中继光学器件和LCoS(硅上液晶)器件来实现[31,33,49]。在这里,我们提出了一个数学公式,用于获取通过编码孔径相机的光场。将由该相机记录的所有入射光线用四个变量(s,t,u,v)参数化,其中(s,t)和(u,v)分别表示与孔径和成像平面的交点因此,定义了光场4Y. 稻垣小林K.高桥T.Fujii和H.Nagahara孔LCoS(共轭孔径)中继透镜主透镜虚拟成像器(与成像器共轭)成像器分束器中继透镜图1:编码孔径相机的示意图和实现。在4-D空间(s,t,u,v)上,其中光强度被描述为l(s,t,u,v)。光场被等效地描述为被称为“子孔径图像”我们考虑编码孔径设计,其中可以针对每个位置和每次采集控制孔径的透射率 令an(s,t)是第n次采集(n = 1,. . .,N)。观察图像yn(u,v)形成为∫∫yn(u,v)=∫∫an(s,t)l(s,t,u,v)dsdt=an(s,t)xs,t(u,v)dsdt。(一)当孔径平面被量化为有限数量的正方形块时,它们可以通过整数m(m= 1,. . . ,M)。等式⑴重写为∑Myn(u,v)=m=1an,mxm(u,v),(2)其中M是块的总数,并且an,m[相当于an(s,t)]是第n次采集的位置m处的孔径重建光场等效于从N个给定观测yn(u,v)估计M个子孔径图像xm(特别地,我们对NM的情况感兴趣,其中整个光场可以仅从少数观察到的图像重建。为此,我们需要找到良好的透射率图案an,m和相应的重建方法。在本文的其余部分中,为了简单起见,我们假设每个图像只有一个通道,这适用于xm(u,v)和yn(u,v)。在处理彩色图像时,我们简单地将其分为三个独立的单通道图像,并对它们应用相同的程序。2.2卷积神经网络编码孔径相机的观察(图像获取)过程由等式(1)给出。(2),可以以映射的形式写成f:X-Y⑶(s,t)(u,v)(s,t,u,v)孔成像器学习通过编码孔径相机5采集光场编码孔径照相机重建重建光场掩模真实相机仿真25重塑11191 × 1过滤器2 ch5通12架25通25通64 ch64 ch64 ch55+5525通511353获取的图像N = 233输入光场M = 255尝试性重建M = 2533输出光场M = 252一5 55 × 5过滤器R1R233图2:使用CNN其中X表示包含xm(u,v)的所有像素的向量,对于所有m∈{1,…, M}。当每个图像具有U×V像素时,向量的长度为UV M。类似地,Y表示包含yn(u,v)的所有像素的向量,其中y n(u,v)为所有像素。n∈ {1,…,N}个。重建也写为g:Y → X(四)其中X对应于X的估计。复合映射h=g◦f应该尽可能接近恒等式,条件是NM。这个问题可以被认为是自动编码器的问题,其中编码器和解码器分别对应于f和g。优化的目标用平方误差损失公式表示为∑ ∑阿革米因|X−X|2=argmin|xm(u,v)−xm(u,v)|二(五)f、gf、gm u,v当xm (u,v )的一个时间点e被写为xm(u,v)时,在这个公式的基础上,我们将复合映射h=gf实现为2-D卷积层的堆栈。整个网络可以端到端地进行训练最后使用一组训练样本。f和中的学习参数g分别对应于孔径图案a、n、m简而言之,我们的方法可以通过利用DNN的强大框架来学习通过编码孔径相机捕获光场。该网络可以很容易地应用于物理编码孔径相机。进行映射f通过照相机的物理成像过程,照相机的光圈图案根据f中的学习参数来配置。然后,由相机获取的图像被输入到对应于g的网络,通过该网络,我们可以计算地重建目标光场。在图1中示出了具有M= 25和N= 2的示例二、我们的网络架构总结如下。请注意,这只是我们拥有的一个示例6Y. 稻垣小林K.高桥T.Fujii和H.Nagahara′通过反复试验发现的,并且人们可能会发现其他架构在精神上基本上是等同的,但可以比我们的表现更好。在2-D卷积网络中,数据被表示为具有多个通道的2-D图像对于第l个卷积层,输入xl(u,v)和输出xl+1(u,v)之间的关系(其中,不进行卷积)被表示为:cc′∑xl+1(u,v)=k′(u,v)*xl(u,v)+b′(6)c′c,cccC其任选地跟随有激活函数。由kc,c′(u,v)和偏置项bc′表示的2-D卷积核通过训练阶段进行优化。我们使用一个像素的步幅和适当的零填充来保持卷积前后的图像大小不变。同时,通道数(c和c′的范围)可以在输入和输出之间任意改变。因此,图像大小(高度和宽度)在整个网络中保持恒定,但随着数据在网络中的传输,只有通道数发生变化。将此数据结构应用于为了我们的目的,我们将索引n和m作为信道。因此,视点m对应于输入和输出数据中的通道,并且所获取的图像n的索引对应于f和g之间的中间数据的通道。映射f具有一些限制,因为它对应于由等式(1)描述的物理成像过程。(2)透射率αn,m应限制在[0,1]内,每个像素(u,v)不能与其他相邻像素混合,通道数应从M减少到N。我们使用具有1 × 1卷积核的单个2-D卷积层实现了这一点,其中权重被限制在范围[0,1]内,并且对于所有c,bc′=0。在这种情况下,kc,c′等价于ac′,c,并且等式(6)对应于Eq.(二)、为了在训练阶段保持范围限制,我们每次通过使用从小批量获得的梯度信息更新网络时,都将权重修剪在[0,为了更好地模拟物理成像过程,该网络的输出中加入了标准差为σ的高斯噪声。这两个任务称为“信息获取任务”,但不称为NA。同时,映射g可以采取任意形式,因为它是一个真正的计算过程。我们将该映射分解为两个网络,分别表示为NR1和NR2,其中R代表重建。在前一个网络NR1中,通过使用几个具有5×5核和线性激活的卷积层,通道数从M逐渐增加到N该试验性结果由采用极深超分辨率(VDSR)结构的后一网络NR2进一步细化[50]。在这里,19个卷积层具有3× 3内核和ReLU激活,然后添加了试验性光场本身,这迫使网络只学习残差(试验性结果和地面实况之间的差异)。前者和后者的网络也被称为“网络结构和网络接口”。学习通过编码孔径相机7表1:用于重建的MN尝试性重建细化25(5×5)11→ 2→ 5→12 → 2525 → 64 →64,……64 →2522→ 5→12 → 2544→ 7→13 → 2564(8×8)11→ 2→ 4→ 8→ 16→ 32→ 6464 → 64 →64……64 →6422→ 4→ 8→ 16→ 32→ 6444→ 8→ 16→ 32→ 64表2:用于培训和测试的数据集M阶段数据集25(5×5)培训国际象棋,乐高推土机,乐高卡车,桉树花,紫水晶,手镯,斯坦福兔子,果冻豆,乐高骑士,塔罗牌和水晶球(小角度范围),宝箱(斯坦福[20]),红龙,快乐佛,梅塞施米特,骰子,绿龙,迷你库珀,蝴蝶,露西(麻省理工学院[19]),卧室,自行车,草药,折纸,盒子,棉花,餐具柜,Antinous,棋盘游戏,菜肴,希腊,Mu- seum,笔,枕头,柏拉图式,迷迭香,表,墓,镇,乙烯基(新HCI [21]),佛,佛2,静物,Papillon,MonaRoom,我-dieval,Horse,Couple,Cube,Maria,Pyramide,Statue(OldHCI [22])测试龙和兔子,鱼(麻省理工学院[19]),恐龙,厨房,中世纪2,塔(New HCl [21])64(8×8)培训国际象棋,乐高推土机,乐高卡车,桉树花,紫水晶,手镯,斯坦福兔子,果冻豆,乐高骑士,塔罗牌和水晶球(小角度范围),宝箱卧室(斯坦-福特[20]),自行车,草药,折纸,盒子,棉花,餐具,Antinous,棋盘游戏,菜肴,希腊,博物馆,钢笔,枕头,柏拉图式,玫瑰-玛丽,表,墓,镇,乙烯基(新HCI [21])测试恐龙,厨房,中世纪2,塔(新HCI [21])2.3实施和培训详情我们考虑了不同M和N值的几种网络配置,如表1所示。将目标光场(M)中的视点的数量设置为25(5× 5)或64(8× 8)。采集图像的数量(N)设置为1、2或4。我们采用不同的网络架构为NR1为不同数量的N。表中由箭头连接的数字指示通道数量的转变这里的设计原理是将通道的数量从N逐渐增加到M。同时,NR2仅服从M,并且对于M=25和M= 64两者,用于中间层的通道的数量被设置所有这些架构都是通过反复试验发现的,可能还有改进的空间。在训练阶段,每个训练样本是从多视点图像中的相同位置提取的具有64×64像素的二维图像块的集合。如前所述,视点被认为是通道,因此,每个样本被表示为具有64× 64像素的M通道图像从[19-22]中提供的几个光场数据集收集训练样本每个数据集的三个颜色通道被用作三个单独的数据集。此外,我们通过改变2-D块;我们在水平和垂直方向上每32个像素取一个块。我们还通过均匀地改变每个样本的强度水平来增强数据;我们将原始样本乘以1.0、0.9、0.8、0.7、0.6和0.5。太光滑的样品,即,其中强度为8Y. 稻垣小林K.高桥T.Fujii和H.Nagahara340.00532300.00128正+A+R1(分层)2200.00050.001零点零五分培训噪音峰值信噪比[dB]图图3:我们的方法在不同噪声水平(左)和不同网络架构和训练方案(右)下的性能分析在64× 64像素上几乎均匀的,从训练样本中去除最后,我们分别收集了M= 25和M= 64的295,200和166,680个样本。与VDSR [50]的情况类似,我们的网络可以用一个小的训练数据集进行训练,因为它只由具有小内核的卷积层组成,因此,参数的数量不会增加太多。在测试阶段,整个光场可以一次处理,因为全卷积网络可以接受任意大小的图像。我们的方法是通过使用Chainer [43]版本3.2.0实现的,这是一个基于Python的神经网络框架。训练的批量大小设置为15。我们使用了内置的Adam优化器[51]。对于所有实验,时期的数量固定为M= 25和N= 2的训练在配备有NVIDIA Geforce GTX 1080 Ti的PC上花费大约4小时。在测试阶段,用840× 593像素和25个视点重建整个光场大约需要0.5秒。我们的软件将很快公开[52]。3实验3.1网络设计和性能我们网络的关键因素之一是添加到所获取图像中的噪声。理想情况下,在训练阶段假设的噪声水平应该接近真实情况。然而,针对所有可能的噪声水平训练不同的网络是不切实际的更有可能的是,用特定噪声水平训练的网络将被应用于不同的噪声水平。为了了解噪声水平差异的影响,我们在训练和测试阶段使用了不同的这里,噪声水平σ是相对于所采集的图像y ,n(u,v)的图像强度范围[0,1]来定义的。使用Dragon和Bunnies数据集和N = 2获得的结果总结在图中。3(左)4.当测试阶段的噪声大于训练阶段的噪声时,重建质量大大降低。同时,在相反的情况下,降解是中度的。因此,我们得出结论,假设在4从所有视点、像素和颜色通道的均方误差获得PSNR值。这些值对应于由等式(1)给出的损失函数的对数表示。(五)、测试噪音测试26一R1R20.000524A+R1+R2(端对端)02024262830 3234学习通过编码孔径相机9N = 1(5 × 5)N = 2(5 × 5)N = 4( 5× 5)N = 1(8 × 8)N = 2(8 × 8)N = 4( 8× 8)5 × 58 × 84038363432302826242220迪诺厨房Medieval2塔图4:获得的孔径图案(左)和PSNR(右)。基本事实N= 1N = 2N = 4图5:通过我们的方法重建的中心视图还呈现了与地面实况(放大5倍)的差异训练阶段是一个安全的策略。在本文的剩余部分中,我们在训练阶段使用σ接下来,我们比较了不同的网络架构和训练方案。我们测试了三个案例:(a)NA+ NR1,(b)NA+ NR1 + NR2,其中NA+ NR1和NR2被单独训练,然后被级联和微调,以及(c)NA+ NR1+ NR2,其中整个网络从头开始端到端地训练。如图3(右),细化网络N R 2的重要性显而易见。同时,尽管(b)需要额外的训练阶段的复杂性,但(b)和(c)之间的差异可以忽略不计因此,我们在本文的其余部分采用了训练策略(c)。然后,我们在几个数据集上评估了我们的方法的性能。视点M的数量被设置为25(5× 5)和64(8× 8),并且获取图像N的数量被设置为1、2和4。测试的噪声水平设定为0.005。所获得的孔径图案和PSNR中的定量分数总结在图1B中。4.几个重建图像如图所示。5.从这些结果中,我们可以看出,重建质量随着所采集图像的数量增加而提高。当N=1时,我们的方法不能= 4= 2= 1峰值信噪比[dB]10Y. 稻垣小林K.高桥T.Fujii和H.Nagahara(a) 孔图案38343230282624222018我的天vưჴჵ(b) 平均PSNR33282318迪诺厨房中世纪2塔龙与兔鱼(c) 单个数据集图6:对M= 25和N= 2的孔径图案的分析。正确地再现视点之间的差异然而,通过将N从1改变为2,重建质量显著提高;成功地产生了精细的细节(参见特写),并且在视点之间观察到了正确的视差量同时,从N= 2到N= 4的质量改善我们在M= 25和64时观察到相同的趋势,尽管M= 64比25更具挑战性,因为视点数量增加,训练样本数量减少。3.2孔径方向图为了分析孔径图案的效果,我们进行了另一个实验。我们使用了几种孔径模式,M= 25,N= 2,如图所示第6(a)段。 对于(i),我们使用了正常训练的一组孔径图案,其不被定义为“我们的(正常的)”或简单的“我们的”。对于(ii)-我们为(ii)生成了一组随机孔径图案,并且针对(iii)-(v)不断地改变其亮度用于(vi)的图案对应于来自一对立体图像的光场重构(vii)中的图案采用随机化的二进制值,其用作二进制孔径的模拟。最后,在第二模式是旋转90度的第一模式的约束下,在数据集这通过使用用于第一和第二图像采集的相同卷积核但是调整输入数据中的通道的顺序来容易地实现 该图案集可以具有实用价值,因为它可以通过使用具有简单的旋转方式的静态孔径图案(诸如印刷的图案,而不是诸如LCoS的昂贵的电子设备)来实现。 这不是“我们的”(“我们的”)。”()-(v)()()()()×1.00()×0.75()×0.50(v)(一)ivPSNR峰值信噪比[dB]学习通过编码孔径相机11373533312927251234123412341234Ours MarwahYagi(PCA)Yagi(NMF)Ours MarwahYagi(PCA)Yagi(NMF)图7:与基于压缩感测的方法的比较[33,35]。(顶部)定量重建质量。(底部)重建图像和与地面实况的差异(放大5倍)。3.3与最新方法的从图1所示的结果中发现了几个有趣的迹象。6(b)(c)。首先,即使使用诸如(ii)和(vii)的非优化孔径图案也获得了良好的重建质量,这可能是因为重建网络能够适应不同的孔径图案。第二,光圈的亮度(光的总量)对于质量是重要的在(iii)-(vi)中观察到的最后,(viii)中的旋转图案实现了接近于正常训练图案(i)的质量,表明未来开发具有可旋转静态孔径的相机我们将我们的方法与四种最先进的方法[33,6,35,36]进行了比较,我们使用了各自作者提供的软件为了使比较公平,方法的配置尽可能保持与原始实现要更详细地查看结果,请参阅补充视频。我们首先呈现与两种基于压缩感测的方法的比较:使用稀疏化的Marwah的方法[ 33]和使用通过PCA或NMF选择的最有效基向量的Yagi的方法[ 35]。根据原始实施方式,视点的数量M被设置为25(5X5)噪声水平设置为σ = 0和σ = 0。005.结果总结见图。7.第一次会议。 如图的曲线图所示,我们的方法明显比Yagi的方法表现得更好。Marwah的中世纪2=00.005龙与兔0峰值信噪比[dB]12Y. 稻垣小林K.高桥T.Fujii和H.Nagahara35我们30Srinivasan25KalantariDino Medieval2厨房塔40201234123412341234Srinivasan(左上)我们的(左上,N=1)Kalantari(中间)我们的(中间,N=4)图8:与基于视图合成的方法的比较[6,36]。(Top)定量重建质量。(底部)重建图像和与使用Dino和Kitchen获得的地面实况(放大5倍)的差异。对于N=1,但对于N=2和N=4,它不如我们的方法具有significntargins。此外,Marwah方法的主要工作是计算复杂性;在我们的台式计算机上重建单个光场需要11-90小时。底部显示的是重建的中心视图以及与使用Dragon和Bunnies获得的地面实况的差异,N=2,σ =0.005。我们可以看到,我们的方法比其他方法获得了更好的视觉质量。峰值信噪比[dB]学习通过编码孔径相机13接下来,我们展示了与两种基于视图合成的方法的另一个比较。Kalantari的据报告,该方法的性能优于该方法中的某些文献。我在山上,我在山上[36]可以仅从与中心视点(实际上,它位于右下角)对应的一个图像重建具有8×最接近中心的邻居)。对于这两种方法没有施加噪声。对于我们的方法,视点的数量M也被设置为64(8 × 8),但是噪声σ=0。005已使用结果总结于图18中。8. 作为一种方法,它以大约30 - 60秒的计算时间在普通的图像中再现正确的差异,但它未能再现这些视点之间的正确差异。 Kalantar的方法比S riniv的方法更有效,但它需要四个图像作为输入,并且在没有GPU提升的情况下花费了大约30分钟。我们的方法实现了整体更好的重建质量比其他两个更少的计算时间(约1秒)。3.4使用真实相机进行最后,我们进行了一个实验,使用一个真正的编码孔径相机。我们采用了与[31,33,49]中报告的相同的硬件设计。相机(FLIR GRAS-14 S5 C-C)的分辨率为1384 × 1036像素,这与用其获取的光场的空间分辨率相对应。曝光时间设定为40毫秒。我们使用Nikon Rayfact镜头(25 mm F1.4SF2514MC)。该光圈被实现为具有1280× 1024像素的LCoS显示器(第四尺寸显示器,SXGA-3DM)。我们将LCoS显示器的中心区域划分为5× 5个区域,每个区域具有150× 150像素。因此,光场的角分辨率为5× 5。我们发现,使用黑色光圈(所有25个区域都设置为0)无法完全关闭光线,这意味着使用黑色光圈获取的图像不是完全黑色的。因此,我们在使用它们进行重建之前,从每个采集的图像中减去用黑色光圈采集的图像。实验装置和重建光场如图所示9.第九条。我们使用了四组光圈图案:我们的(正常),我们的(旋转),NMF[35]和顺序针孔。5对于前三种方法,所获取的图像的数量被设置为2。使用第一个和第二个训练的重建网络以及[35]中提出的方法对第三个进行重建最后一个,顺序针孔,对应于25个图像的直接采集,其中孔径上的25个区域中仅1个区域被顺序打开。如图中底部所示。9,我们的方法实现了一个惊人的重建质量,只有两个采集的图像。我们的方法的结果甚至比那些获得25个连续采集的图像,因为针孔图案遭受由于缺乏光的噪声我们也5WedidntetMar wahh的方法[ 33 ],其中所述方法被设计用于与我们的相机不同的光学配置,并且使用该方法的重构将需要昂贵的计算。14Y. 稻垣小林K.高桥T.Fujii和H.NagaharaLCoS器件主透镜相机实验装置重建光场我们的(正常)我们的(旋转)八木(NMF)顺序图9:使用真实编码孔径相机的在重建结果中观察到视点之间的自然差异。请参阅补充视频了解更多详情。4结论我们提出了一个基于学习的框架,用于通过编码孔径相机获取光场,以将所需的获取图像的数量减少到只有几个。该框架是从自动编码器的角度制定的该自动编码器被实现为完全卷积层的堆栈,并通过使用训练样本的集合进行端到端的训练我们的实验表明,我们的方法可以成功地学习良好的图像采集和重建策略。利用我们的方法,可以从少量的采集图像中重建出高质量的5×5或8×8图像组成的光场。此外,我们的方法实现了优于几种现有技术方法的性能我们还将我们的方法应用到一个真正的原型相机,以表明它能够捕捉一个真正的3-D场景。我们未来的工作包括几个方向。我们的方法的性能可以通过调整重建网络的结构或增加训练样本的数量来提高我们的方法中使用的平方损失可以用更接近感知图像质量的其他损失函数来代替或补充,例如VGG损失和生成对抗网络(GAN)的框架具有可旋转静态光圈图案的相机的开发也将是一个有趣的方向。学习通过编码孔径相机15引用1. 阿德尔森E.H. Bergen,J.R.:全光函数和早期的Visin元素。 In:C〇mputtati onatinat (1991)32. Levoy , M. , Hanrahan , P. : 光 场 渲 染 。 见 : Proceedings of the 23rdannualconnfereceonComputergraphicsandinteractivechniques,ACM(1996)313. Gortler,S.J.,Grzeszczuk河塞利斯基河Cohen,M.F.:光显仪。第23届计算机图形与交互式技术年会论文集。(1996年)434. Tanimoto , M., 德 黑 兰 议 员 Fujii , T. , Yendo , T. : 自 由 视 角 电 视 。IEEESignalProcessingMagazine28(1)(2011)675. Shi,L.,美国,Hassanieh,H.,戴维斯,A.,Katabi,D.,Durand,F. : 利 用 连 续 傅 立 叶 域 中 的 稀 疏 性 重 建 光 场 ACM Transactions onGraphics(TOG)34(1)(2014)126. Kalantari,N.K.,Wang T.C. Ramamoorthi,R.:基于学习的光场相机视图合成。ACM Transactions on Graphics(Proceedings of SIGGRAPH Asia 2016)35(6)(2016)7. Wanner,S.,Goldluecke,B.:用于视差估计和超分辨率的变分光场分析 。 IEEE Transactions on pattern analysis and machineintelligence36 ( 3 )(2014)6068. Wang T.C.埃夫罗斯,匿名戒酒会Ramamoorthi,R.:使用光场相机的具有 遮 挡 建 模 的 深 度 估 计 IEEE Transactions on pattern analysis andmachineintellige nce38(11)(2016)21709. Williem,W.帕克,I.K. Lee,K.M.:使用遮挡噪声感知数据成本的鲁棒光场深度估计。IEEE Transactions on Pattern Analysis andMachineIntelligencePP(99)(2017)110. Isaksen,A.,麦克米兰湖Gortler,S.J.:动态重新参数化的灯光场。在:Proceedings of the 27th Annual Conference on Computer Graphics andInter-activeTech niq ues.(2000年)29711. Ng , R. , 莱 沃 , M.我 知 道 了 , M.你 好 GH 〇 r 〇 witz , M. ,Hanrahan ,P. : 使 用 手 持 式 全 光 相 机 的 现 场 摄 影 。 Computer ScienceTechnicalReprtCSTR2(11)(2005)1-1112. Bishop , T. E.Zanetti , S. , Favaro , P. : 光 场 超 分 辨 。 In :ComputationalPhotogra py( ICCP) ,2009IInternationalCo nfere nceo n,I(2009)113. Wetzstein,G.,Lanman,D.,Hirsch,M.,Raskar,R.:张量显示:使用具有定向背光的多层显示器的压缩光场合成。ACMTrans. Graph. (Pr oc.SIGGRAPH)31⑷(2012)114. Huang,F.C.,Chen,K.,Wetzstein,G.:光场立体镜:通过具有聚焦提示的因子化近眼光场显示器的沉浸式计算机图形。ACM Transactions onGraphics(TOG)34(4)(2015)6015. Lee,S.,Jang,C.,Moon,S.,周,J.,Lee,B.:加性光场显示器:用全息光学元件实现增强现实。ACM Transactions on Graphics(TOG)35(4)(2016)6016. 齐藤,T.,Kobayashi,Y.,Takahashi,K.,Fujii,T.:显示具有堆叠的乘法层的真实世界光场:用于输入多视图图像的要求和数据转换。JounlofDisplayTechnology12(11)(2016)129017. Maeno,K.,Nagahara,H.,Shimada,A.,R.I.谷口:用于透明物体识别的光 场 失 真 特 征 。 在 : IEEE 计 算 机 Visin 和 Pater nRec gnitin 会 议 上 。(2013)278616Y. 稻垣小林K.高桥T.Fujii和H.Nagahara18. 和 朱 军 燕 T.C.W. Hiroaki , E. , Chandraker , M. , Efros , A. ,Ramamoorthi,R.:用于材料识别的4d光场数据集和cnn架构。在:E〇peanC〇 nfere nceo nC 〇n p uterVis ion(ECCV)中。(2016)12119. MITMediaLab的请参阅http://cameraculture.media.mit.edu/projects/compressive-light-field-camera/。20. 斯坦福大学计算机图形学实验室:(新)斯坦福光场档案(2018)http://lightfield.stanford.edu。21. 海 德 堡 图 像 处 理 合 作 实 验 室 : 4D 光 场 数 据 集 ( 2018 ) http://hci-lightfield.iwr.uni-heidelberg.de/。22. 海德堡图像处理合作实验室:密集采样的4D光场的数据集和基准。http://lightfieldgroup.iwr.uni-heidelberg.de/?第713页(2016)23. Wilburn , B. Joshi , N. , Vaish , V. , Talvala , E.V. , Antunez , E. ,Barth,A.,Adams,A.,Horowitz,M.,Levoy,M.:使用大型相机阵列的高性能成像ACMTransacti o nso nGr a pi cs(TOG)24(3)(2005)76524. Fujii,T.,莫里K.武田K. Mase,K.,Tanimoto,M.,Suenaga,Y.:视频和声 音 的 多 点 测 量 系 统-100- 摄 像 机 和 麦 克 风 系 统 。 在 : 2006IEEEInternatinalConf ernceonMultimediandExpo,IEEE(2006)437- 440中25. 田口Y.小池T. Takahashi,K.,Naemura,T.:TransCAIP:一种实时3D电视系统,使用摄像机阵列和集成摄影显示器,可交互控制观看参数。IEEETransactions on Visualization and ComputerGraphics15(5)(Sept2009)84126. 阿德尔森E.H. Wang,J.Y.:具有全光相机的单镜头立体声。IEEETRANSACTIO N PATE NALYSA N AL S A NAL Y SAN A L S A N A27. Arai,J.,Okano,F.,星野,H. Yuyama,I.:基于实时积分摄影的梯度折射率透镜阵列三维成像方法。应用光学37(11)(1998)203428. Ng,R.:数字光场摄影。斯坦福大学博士论文(2006)29. Veeraraghavan , A. , 拉 斯 卡 尔 河 阿 格 拉 瓦 尔 , A. , Mohan , A. ,Tumblin,J.:斑点摄影:用于外差光场和编码孔径重聚焦的掩模增强型相机ACM Transactions on Graphics(TOG)26(3)(2007)6930. Liang,C.K.,Lin,T.H.,黄,B.Y.,刘,C.,Chen,H.H.:可编程孔径摄影:多路复用光场采集。ACM Transactions on Graphics(TOG)27(3)(2008)5531. Nagahara,H.,Zhou,C.,中国地质大学,Watanabe,T.,Ishiguro,H.,Nayar,S.K.:使用LCoS的可编程孔径相机。在:欧洲计算机视觉会议,Springger(2010)33732. Babacan, S.D.,安索尔日河,Luessi,M.,Mataran,P.R.,莫利纳河Katsaggelos,A.K.:压缩光场感测。IEEE Transactions on image processing21(12)(2012)474633. Marwah,K.,Wetzstein,G.,Bando,Y. Raskar,R.:使用过完备字典和优化投影的压缩光场照相术。ACM Trans- actions on Graphic
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功