没有合适的资源?快使用搜索试试~ 我知道了~
1广义深度图像到图像回归Vlad I. Venkataraman SantanamLarry S. Morariu戴维斯UMIACS马里兰大学帕克分校[venkai,morariu,lsd]@umiacs.umd.edu摘要我们提出了一个深度卷积神经网络架构,它可以作为一个通用的图像到图像回归器,可以在没有任何进一步的机器的情况下进行端到端的训练。我们提出的架构,递归分支解卷积网络(RBDN),开发了一个廉价的多上下文图像表示很早就使用了一个有效的递归分支方案,广泛的参数共享和可学习的上采样。该多上下文表示通过我们的网络的剩余部分进行高度非线性局部化变换,该网络包括一系列卷积/解卷积,而没有任何空间下采样。RBDN架构是完全卷积的,可以在推理过程中处理可变大小的图像我们提供3个不同任务的定性/定量结果:重新照明、去噪和着色,并表明我们提出的RBDN架构在没有任何后处理或任务特定架构修改的情况下现成使用时,在这些任务中的每一个上获得了与现有技术水平相当的结果。1. 介绍在 过 去 的 几 年 里 , 通 用 深 度 卷 积 神 经 网 络(DCNN)架构,如VGG [49]和ResNet [28]的变体,在解决各种分类问题方面取得了巨大的成功,并在开箱即用时在大多数基准上实现了最先进的性能。 的关键特征这些体系结构具有极高的模型容量以及对较小的不需要的(例如,平移/旋转/照明)变化。给定合适的训练数据,这样的模型可以以可靠的端到端方式进行区分训练。然而,由于分类任务只需要一个单一的(潜在的多变量)类标签对应于整个图像,早期的架构只专注于开发强大的全球图像功能。语义分割是最早的应用之一,图1.用于不同Im2Im回归任务的建议RBDN:(从左至右)去噪、重亮、着色。见证DCNN的扩展以输出密集像素预测[42,46,12,22,27]。这些方法使用VGG或ResNet(没有完全连接的层)作为其主干,并引入了结构变化,如跳跃层[42],解卷积网络[46,4],超列[27]或拉普拉斯金字塔[22],以促进局部输入-输出对应的保留/重建。虽然这些方法在分割基准上表现得很好,但它们引入了局部性和上下文之间的权衡。由于该任务仍然是分类任务之一(尽管是在像素级),因此权衡偏向于合并更多上下文并随后从全局激活重建局部对应性。这也许就是为什么这些方法中的一些不得不依赖于辅助方法,如条件随机场(CRF)[46,12]来增强其预测的粒度。图像到图像(Im 2 Im)回归需要生成密集的已经提出了几种基于DCNN的方法用于特定的Im2Im回归任务,例如去噪、重新照明、着色等。这些方法通常涉及高度任务-56095610特定的体系结构与微调的辅助后处理方法相结合然而,与分类DC-NN不同,还没有提出真正通用的Im 2Im回归架构,该架构在各种任务上都表现良好。这可能是任务依赖的本地上下文权衡加上将VGG/ResNet架构并入非分类任务的有害趋势,阻碍了这方面的进展。我 们 提 出 了 一 个 通 用 的 Im 2 Im DCNN 架 构 ,RBDN,它消除了这种权衡,并根据手头的任务自动学习需要多少局部/上下文,通过使用重新计算的廉价计算的丰富多尺度图像表示的早期开发草书多尺度分支,可学习的上采样和广泛的参数共享。2. 相关工作我们首先描述了两种最近提出的Im2Im DCNN方法[59,51],它们也具有相当通用的架构,并比较了与我们提出的RBDN方法的相似性和差异。然后,我们描述了一些相关的工作,具体到重新照明,去噪和colorization。2.1. 通用Im2Im回归Deep End-2-End Voxel-2-Voxel预测[51]提出了一种视频到视频回归器,用于解决3个任务:语义分割、光流和彩色化。他们的架构由VGG [49]风格的网络组成,他们在网络上不像Hypercolumns [27],它们使上采样具有可学习性,并通过权重共享以更有效的方式执行。虽然[51]使用上采样来恢复局部对应性,但DnCNN [59]另一方面完全消除了下采样,并使用一个简单的18层全卷积网络,带有剩余连接来处理3个任务:去噪,超分辨率和JPEG去块。我们提出的RBDN架构可以被视为[59,51]的混合体。虽然我们确实利用了像[51]这样的多尺度随后,我们将合成映射传递到一个线性卷积网络,如[59]。2.2. 脸部重新发光在人脸识别/验证领域,虽然大多数研究都集中在提取光照不变特征,但重新照明是直接对图像进行光照校正/归一化的相对较少探索的替代方案[11]。传统的面部重新照明方法使用Retinex [37]/Lambertian反射率[5]理论,并使用球面[54,5]/半球[2]谐波,子空间-基于[10,8]或基于字典[60,61,29,43,53,47]的照明校正。深度朗伯网络[50]将朗伯模型/照明校正直接编码到其网络架构中。然而,这限制了网络的表达能力,特别是由于强烈的朗伯假设各向同性和镜面高光的缺乏,这很少适用于人脸图像。在第4.2节中,我们展示了使用我们的通用RBDN架构,可以在不做任何朗伯假设的情况下训练一个性能良好的重光照模型。2.3. 去噪去噪方法通常假设已知/未知变化的加性高斯白噪声( AWGN ) 。 传 统 的 去 噪 方 法 包 括 Cluster-ingSR[19], EPLL [65], BM3D [16], NL-Bayes [39],NCSR [20]、WNNM [25]。其中,BM3D [16]是最受欢迎的,设计得非常好,仍然被广泛用作最先进的去噪方法。早期基于DCNN的去噪方法[1,32,7,57,64]需要为每个噪声方差训练不同的模型,这限制了它们的实际使用。最近,提出了一种基于Gaussian-CRF的DCNN方法(DCGRF [52]),该方法可以对噪声方差进行明确建模。然而,DCGRF只能在合理的范围内可靠地模拟噪声水平,必须使用两种模型:低噪声DCGRF(σ<25)和高噪声DCGRF(25≤σ≤50)。在第4.3节中,我们证明了我们提 出 的 RBDN 方 法 的 单 个 模 型 在 广 泛 的 噪 声 水 平(σ≤50)上进行训练,取得了有竞争力的结果,并且在所有噪声水平σ∈[25,55]下都优于所有先前提出的方法。2.4. 彩色化大多数物体固有的颜色模糊性使得彩色化成为一个非常困难和不适定的问题。早期的彩色化工作[14,44,9,55,26,41,15,18]需要一个参考彩色图像,通过参数/非参数方法从该参考彩色图像推断输入图像中局部块的颜色。直到最近,DCNN方法[17,30,38,62]才被用于解决彩色化,作为从灰度到彩色的Im 2 Im分类/回归问题,而不需要辅助输入。[17,38]使用Hypercolumns [27],而[30]使用复杂的双流体系结构,该体系结构同时识别/分类图像中的对象类,并使用类标签对输入灰度图像进行着色。他们网络的分类分支与VGG [49]相同,而他们网络的着色分支模仿DeconvNet [46]架构。然而,尽管使用了相当简单的VGG [49]风格的架构和扩张的卷积,[62]还是获得了最好的着色结果。的5611图2. 提出的具有3个分支的通用RBDN方法的架构。各种分支提取多个尺度的特征。具有高效参数共享的可学习上采样用于递归上采样每个分支的激活,直到它与POOL1输出合并,从而产生输入的廉价多上下文表示。这个多上下文映射受到一系列9个卷积的影响,这些卷积可以提供足够的非线性,并根据手头的任务自动选择需要多少上下文[62]的关键贡献是他们在Lab颜色空间中ab值的量化概率分布上的新的基于分类的损失函数。他们进一步添加了一个类别重新平衡方案,将预测从统计上可能的灰色中推出来,从而产生非常丰富多彩的色彩。在第4.4节中,我们使用与[62]相同的损失函数,但用我们提出的RBDN架构替换了他们的VGG风格架构,并获得了出色的着色效果。3. 通用Im2Im DCNN许多Im 2 Im方法使用VGG/ResNet作为其骨干,因为它们的有效性和可用性。然而,这导致了这些类型的任务的次优架构(3.1),因为固有的偏向于以牺牲局部性为代价包括更多的上下文。相反,我们提出了RBDN(3.2),它使用递归分支在网络的早期获得廉价的多上下文在第3.3、3.4、4.2.1节中,我们将更详细地描述我们的网络架构,并分析其各个组件。在中间层的通道中被切断。重复上采样的恢复不可避免地是一个有损过程,这对于要求连续像素预测的回归任务尤其有害或者,可以保留局部对应(例如,跳过层、超列)。这种方法的缺点是,来自非常早期的层(其包含大部分局部对应)的激活对非线性建模的能力很差为了使DCNN成功地作为通用Im2Im回归器,它必须保持局部像素特征,每个特征在整个管道中发展强大的全局表示,同时独立地保留局部信息。3.2. 推荐方法:RBDN图2显示了我们提出的具有三个分支的递归分支反卷积网络的架构。在高层次上,网络首先提取尺度为1(最大局部性)、1、1、1(最大上下文)的特征,并合并24 83.1.分类DCNN是一个糟糕的起点分类DCNN通常包含大量交织的下采样层(最大池化或步幅卷积),最终将图像压缩为一维向量。 由于GPU内存是训练DCNN的主要瓶颈,下采样层可以探索非常深的架构,同时提供自然的平移不变性。然而,当试图直接为Im2Im回归任务移植这些网络时,会出现问题。需要更改设计以保留/恢复本地通信,因为这些通信会变得模糊-所有这些早期的激活产生一个合成图,然后对该图像进行一系列卷积(非线性变换),随后进行去卷积(重构)以产生输出图像。该网络的关键特征是多尺度合成图以及如何使用递归分支和可学习的上采样有效地生成该合成在训练过程中,该网络在早期就有广泛的本地背景范围。随后的一系列卷积层可以根据手头的任务选择上下文的数量,并应用足够的非线性。 这转化为一系列建模功能:从上下文感知回归映射到高度低-5612图3. 线性9-64-3-9网络B0的架构。图4. 将第一个分支添加到B0。calized非线性变换(这是以前提出的DCNN难以实现的)。我们的通用K分支RBDN网络有两个主要组成部分:主分支 B0(其用作网络的主干 )和递归分支(B1,...,B K)(作为网络的负责人)。3.3. 线性基网络B0受传统稀疏编码方法的启发,我们用具有三个不同阶段的简单网络(由其参数K-c-T-D表示)来处理Im 2Im回归问题:• 面片提取:conv(KxK xc)+最大池化• 非线性变换:D转换层(TxT xc)• 重建:取消池化(使用最大池位置)+反褶积(K×K×c)我们使用ReLU [45]作为激活函数,并在每次卷积/反卷积之后使用批量归一化[31]层。我们在执行重新照明实验时独立地对值K、c、T、D进行了实验,发现增加K、c、T仅产生微小的改进,而增加网络深度D产生了显著的单调改进,直到9个卷积层,之后性能饱和。我们最终的网络产生了最好的结果,如图3所示。我们从这里开始将这个网络记为B0。(我们将其用作所有RBDN网络的主要分支)。3.4. 递归分支B0,. BK虽然基础网络B0本身对于重新照明表现良好,但其限制之一是非常低的视场。与传统的DCNN不同,我们不能在中途添加下采样,因为这会破坏我们的局部对应性。因此,我们保持B0及其局部对应关系不变,而是在第一个池化层向网络添加分支B1(见图4在B1中,CONVB11 +POOLB1 +CONVB12计算半图5.定义递归分支模块BK,N. 在上半部分,带有黑色粗边框的框BK+1,N包含递归分支。图的下半部分显示了基本情况(不包含任何递归的最后一个分支该比例尺和UNPOOLB1 +DECONVB11提供了可学习的上采样。然后,B1的输出在POOL1本身与B0合并,这使得网络的其余部分(调用大量非线性)可以访问2个不同尺度的特征。我们可以将B1推广到多个分支B1,. B K.为了做到这一点,我们首先定义图5中的递归分支模块B K,N,它对应于N分支网络中的第K个分支。注意,分支BK+1,N起源于分支BK,N并在分支BK,N内合并。这种递归构造的优点是双重的:• 在与主分支合并之前,来自更深分支的激活必须被上采样多次。递归构造有助于更深入地分支部分地受益于浅分支中的可学习的上采样机制。• 除了参数共享的好处之外,递归构造还迫使来自更深分支的激活遍历更长的路径,从而积累了许多ReLU激活。这使得更深的分支能够对更多的非线性进行建模,这是有益的,因为它们覆盖更大的视场并且对应于全局特征。4. 实验我们为三个不同的任务训练我们的通用RBDN架构:重新照明、去噪和着色。我们在Nvidia Titan-XGPU上训练所有模型,并使用Caffe [33]深度学习框架。对于我们的去噪/着色实验,我们使用噪声策略的效用层来增强Caffe(使用σ在用户指定的范围内随机选择)和图像转换(RGB到YCbCr/Lab空间),这些转换使训练过程流化,并允许使用实际上任何开箱即用的图像数据集,而无需任何预处理。我们使用ReLU [45]作为激活函数,并在所有RBDN模型中的每个卷积/反卷积层之后执行批量归一化[31]。我们所有的RBDN模型和代码都可以在https上公开获得://github.com/venkai/RBDN网站。5613图6. 分析可学习的上采样(左)和递归分支(右)的效果。CMU-MultiPIE [24]验证集上的误差图显示了可学习的上采样和递归分支的积极影响除非另有说明,否则我们使用均方误差(MSE)作为损失函数来训练我们的RBDN模型,裁剪大小为128(从全尺寸训练图像中随机选择,没有任何额外的训练),学习率为1 e-7,小批量大小为64,步长为100000,并使用随机梯度下降训练我们的模型500000次迭代[6](SGD),具有动量和重量衰减。在推断期间,网络凭借完全卷积可以处理可变大小的输入。 推理需要100秒320x480的图像。训练需要101天重新点火,每种颜色/去噪时间约24.1. 训练数据集CMU-MultiPIE [24]:在4个会话中记录了337名在一个会话中,每个对象的面部图像表现出13个姿势x19个照明x2-3个表情变化。我们使用了208名受试者的图像,这些图像没有出现在训练我们重新点亮的RBDN的所有会话中,并使用了64名其他受试者的图像进行验证。[48]第四十八章:一个女人200万个训练图像和150,000个图像用于验证和测试。MS-COCO [40]:80,000个训练图像和40,000个每个图像进行验证和测试。为了训练我们的去噪/着色RBDN,我们融合了ImageNet和MS- COCO的训练/验证集(总共1。4700万张训练图像)。4.2. 脸部重新发光我们在CMU-MultiPIE的20786张图像上训练我们的重新照明RBDN,该图像以具有不同照明的正面图像作为输入,并仅在环境照明下输出图像。我们使用了224的裁剪大小,12000的步长,并训练了我们的模型40000次迭代。4.2.1RBDN分析与基础网络B0相比,K分支RBDN有两个主要的增加:递归分支和可学习图7. 从CMU-MultiPIE [24]验证集中重新点亮受试者的RBDN结果。顶行:输入图像(地面实况是左上角的图像)。第2行:B0输出(无分支;可见强伪影。)第3- 6行:分别为1、2、3、4个结果随着分支数量增加至3个分支而改善。网络在4个分支处开始过拟合。上采样我们进行两组重新照明实验以独立地观察两者对K分支RBDN(K=0、1、2、3、4)的功效,如下所示:• 我们删除了合并不同分支的CONCAT层这导致了一个线性网络(仅BK),其结构类似于去卷积网络-用于语义分割的作品[46,4]。• 我们用固定的双耳上采样代替了可学习的上采样图6显示了CMU-MultiPIE [24]验证集上的对数重建误差与两个实验的训练迭代的误差图图显示,可学习的上采样和递归分支都独立地对性能产生积极影响。4.3. 去噪我们训练了一个用于去噪的三分支RBDN模型,该模型以标准差均匀随机的附加WGN在[8,50]的范围内选择。我们使用与[52]相同的评价方案,使用300张图像测试集(BSD 300 [3]测试集的所有100张图像和PASCAL VOC 2012 [21]数据集的200张图像)。 预先计算的噪声测试[52]中的图像用于比较所有方法,以获得公平的现实评估。4.4. 彩色化我们首先将彩色图像转换到YCbCr颜色空间,并使用RBDN从亮度(Y通道)输入输入Y通道5614图8. 重新照亮测试集的结果。目标是将各种未知光照条件下的面渲染到固定光照条件下。奇数行:输入,偶数行:3分支RBDN输出。请注意,该模型仅在CMU-MultiPie [ 24 ]中具有受约束照明变化的正面人脸图像上进行训练,但在各种姿势,照明,表情,遮挡,启示(帽子,眼镜等)下,仍然合理地推广到Janus-CS 0 [ 36 ]中的无约束人脸图像。).试验σ1015202530354045505560[19]第十九话33.2730.9729.4128.2227.2526.3025.5624.8924.2823.7223.21EPLL [65]33.3231.0629.5228.3427.3626.5225.7625.0824.4423.8423.27BM3D [16]33.3831.0929.5328.3627.4226.6425.9225.1924.6324.1123.62NL-Bayes [39]33.4631.1129.6328.4127.4226.5725.7625.0524.3923.7723.18NCSR [20]33.4531.2029.5628.3927.4526.3225.5924.9424.3523.8523.38WNNM [25]33.5731.2829.7028.5027.5126.6725.9225.2224.6024.0123.45TRD [13]-31.28-28.56-------MLP [7]33.43--28.68-27.13--25.33--DCGRF [52]33.5631.3529.8428.6727.8027.0826.4425.8825.3824.9024.45DnCNN [59]33.3231.2929.8428.6827.7026.8426.0525.3424.6824.0523.39三分支RBDN32.8531.0529.7628.7727.9727.3126.7326.2425.8025.2223.25表1.300张测试图像上各种去噪方法的平均PSNR单个去噪模型用于报告RBDN(在σ∈[8,50]上训练)和DnCNN [59](在σ∈[0,55]上训练)的所有结果对于其他比较方法,请注意,在每个噪声水平下性能最好的模型用于报告结果。然后与预测的Cb、Cr通道组合并转换回RGB以产生预测的彩色图像。我们将该模型表示为RBDN-YCbCr。受最近提出的Colorful Colorizations [63]方法的启发,我们训练了另一个RBDN模型,该模型将Lab空间中彩色图像的L通道作为输入,并尝试预测概率的313维向量对于每个像素(对应于313个AB对结果,从以10的网格大小量化ab空间开始)。随后,问题被视为多项式类-我们使用softmax-cross-entropyloss和classrebalancing , 如 [63] 所 示 。 代 替 SGD , 我 们 使 用Adam[35]求解器进行训练,学习率为3。16 e-3(γ=0.316),步长为45000,minibatch大小为128,并训练我们的模型200000次迭代。在推断过程中,我们使用softmax分布的退火均值来获得预测的ab通道,如[63]所示。 我们表示这个模型就是RBDN-Lab。5. 结果重新照明:图7显示了CMU-MultiPIE验证集中受试者的RBDN输出(0、1、2、3、4个分支)从B0(无分支)到1-分支RBDN的结果改善非常显著,之后随着分支数量增加到3个而逐渐改善。当转换到4分支RBDN时,结果会恶化(可能是由于相对较小的数据集上的过拟合)。我们在CMU-MultiPIE和Janus-CS 0 [36]的测试集上对3分支RBDN的结果进行了定性评估(图8)。虽然RBDN在CMU-MultiPIE上实现了近乎完美的重新照明,但令人惊讶的是,它在Janus-CS 0中可以很好地推广(无需任何微调)无约束图像。5615图9. 在WGN为σ=50的BSD 300测试图像上对各种去噪方法进行视觉比较。图10. 说明单个RBDN模型处理一系列噪声水平的能力(黄色框)。顶行:噪声测试图像(红框中的PSNR)。底行:使用3−分支RBDN的去噪结果(绿色框中的PSNR)去噪:表1显示了300个基准测试图像上各种去噪方法的平均PSNR。除了RBDN,DnCNN [59]和DCGRF[52]之外,所有其他方法都为每个噪声水平训练单独的模型。对于DCGRF [52],使用低噪声模型报告结果对于试验σ≤25和高噪声模型对于试验σ≥30。然而,DnCNN [59]和我们的3分支RBDN的结果都对应于一个经过自动训练的单一模型处理所有噪音水平。我们的模型在测试噪声σ∈[25,55]上优于所有其他方法。图9显示了BSD 300测试图像的各种去噪方法的视觉比较图10突出显示子单个RBDN模型noise levels.图11说明了RBDN在非常高的噪声水平σ=55(超出了我们的训练范围)下可靠降噪事实上,我们的9层RBDN(没有任何残余连接[28])优于18层残余DnCNN [59],这表明廉价的早期递归分支比增加深度更着色:图12显示了MS-COCO测试集上各种模型的颜色。3,4分支RBDN-YCbCr模型产生不错的着色,但非常沉闷和高度欠饱和。这不是一个架构限制,而是MSE损失函数,它倾向于将结果推向平均值。着色对于大多数对象(例如汽车、人、动物、门、器具等)来说本质上是模糊的,其中几个可以呈现宽范围的允许颜色。另一方面,基于MSE的模型能够合理地为草、天空、水着色,因为这些通常呈现固定范围的颜色。基于Softmax交叉熵损失的模型与类重新平衡([63]和4分支RBDN-Lab)能够通过将问题作为分类任务并强制将结果推离平均值来克服欠饱和问题最后,4分支RBDN-Lab和[63]的线性扩张卷积网络之间的唯一区别是架构。这两种模型都提供了非常好的着色,对于某些图像,一种看起来比另一种更好,反之亦然,尽管RBDN-Lab的着色具有更高的饱和度,并且对于所有图像都显得稍微更丰富多彩。6. 结论和未来工作我们提出了一种用于Im2Im回归的DCNN架构:RBDN,它在3个不同的任务上给出了有竞争力的结果:重新照明、去噪和着色,当使用现成的而没有任何特定任务的架构修改时。 RBDN的主要特点是在早期开发了一种廉价的多上下文图像表示方法,5616图11. 说明RBDN18层DnCNN [59](尽管使用σ=55进行训练)优于我们的9层RBDN。红色、黄色、绿色方框显示PSNR。图12.MS-COCO测试集图像的着色结果(更多比较请参见补充资料该网络,通过递归分支和可学习的上采样,这说明了本地上下文权衡的关注固有的设计Im2Im DCNN。我们认为可以对RBDN架构进行几项改进首先,RBDN架构可能会受益于剩余连接、扩张卷积以及ReLU之外的其他激活功能其次,我们在所有任务中使用了一个固定深度的网络最近提出的结构化稀疏方法[56]允许网络在通过Group Lasso [58]正则化进行训练的同时,以高效的方式同时优化其超参数(滤波器大小,深度,局部连通性)第三,对于要求感知愉悦的图像输出的任务,MSE是一个非常差的[34虽然[63]中用于着色的损失函数克服了MSE另一方面,基于对抗网络的损失函数[23]可以是通用的MSE替代。7. 确认这 项 研 究 是 基 于 由 国 家 情 报 总 监 办 公 室(ODNI),情报高级研究项目活动(IARPA),通过IARPA 研 发 合 同 号 支 持 的 工 作 & 。 2014 -14071600012。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可(无论是明示还是暗示)。政府的美国政府被授权为政府目的复制和分发重印本,尽管上面有任何版权注释。5617引用[1] F. Agostinelli,M.R. Anderson和H.李你自适应多列深度神经网络及其在鲁棒图像去噪中的应用。神经信息处理系统的进展,第1493-1501页,2013年。2[2] A. Almaddah,S.Vural,Y.Mae,K.Ohara和T.新井基于判别二维球面空间的人脸重光照人脸识别。MachineVision and Applications,25(4):845 2[3] P. Arbelaez,C. Fowlkes和D.马丁Berkeley Segmentation数 据 集 和 基 准 。 参 见 http : //www. eecs 。 伯 克 利edu/Research/Projects/CS/vision/bsds,2007. 5[4] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv:1511.00561,2015。一、五[5] R. Basri和D. W.雅各布斯朗伯反射率和线性子空间。IEEE模式分析与机器智能学报,25(2):218-233,2003。2[6] L.博图随机梯度下降技巧。在神经网络中:贸易的技巧,第421-436页。Springer,2012. 5[7] H. C.伯格角J. Schleman和S.伤害。图像去噪:普通神经网络能与bm3d竞争吗?在计算机视觉和模式识别(CVPR), 2012年IEEE会议上,第2392-2399页。IEEE,2012。二、六[8] J. Burnstone和H.尹本征光:从人脸图像中恢复光照。在智能数据工程和自动学习国际会议上,第490-497页。Springer,2011. 2[9] G. Charpiat,M. Hofmann和B. Sch oülk opf. 通过多模态预测的自动图像欧洲计算机视觉会议,第126-139页。Springer,2008. 2[10] C.- P. Chen和C.- S.尘人脸识别中的通用本征光照子空间光照 归一 化。在 第十 届IEEE计算 机视 觉国际 会议IEEE,2005年。2[11] H. F. Chen,P. N. Belhumeur,D. W.雅各布斯寻找照明不变量。计算机视觉和模式识别,2000年。诉讼IEEE会议,第1卷,第254-261页。IEEE,2000年。2[12] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv:1606.00915,2016。1[13] Y. 陈威Yu和T.Pock 学习优化的反应扩散过程以实现有效的图像恢复。在IEEE计算机视觉和模式识别会议的Proceedings,第5261-5269页,2015年。6[14] Z. 成角,澳-地Yang和B.盛深着色。在IEEE计算机视觉国际会议的Proceedings,第415-423页2[15] A. Y.-- S. Chia,S.卓河K.古普塔,Y.- W. Tai,S.- Y. 小周,P. Tan 和 S. 是 林 书 网 络 图 像 的 语 义 着 色 。ACMTransactions on Graphics(TOG),第30卷,第156页。ACM,2011年。2[16] K.达博夫河Foi,V.Katkovnik,and K.埃吉亚扎利安人稀疏三维变换域协同滤波图像去噪。IEEE Transactionson image processing,16(8):2080二、六[17] R.达尔http://tinyclouds.org/colorize/,2016. 2[18] A. 德什潘德Rock和D.福赛斯学习大规模图像自动着色。在IEEE计算机视觉国际会议论文集,第567- 575页2[19] W. Dong,X.利湖,澳-地Zhang和G.石基于字典学习和结构 聚类 的图 像去 噪。 在计算 机视 觉和 模式 识别(CVPR),2011 IEEE会议上,第457-464页。IEEE,2011年。二、六[20] W.东湖,澳-地Zhang,G. Shi和X。李用于图像恢复的非 局 部 中 心 化 稀 疏 表 示 IEEE Trans-actions on ImageProcessing,22(4):1620-1630,2013. 二、六[21] M. 埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I. 威廉斯,J.Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision , 88 ( 2 ) :3035[22] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔表示和细化欧洲计算机视觉会议,第519-534页施普林格,2016年。1[23] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展,第2672-2680页,2014年。8[24] R.格罗斯岛Matthews,J. Cohn,T. Kanade和S.贝克多派图像视觉计算。,28(5):807 五、六[25] S.古湖,澳-地Zhang,W. Zuo和X.峰加权核范数最小化及其在图像去噪中的应用。在IEEE计算机视觉和模式识别会议论文集,第2862-2869页,2014年。二、六[26] R. K. 古普塔A。Y.-- S. Chia,D.Rajan,E.S. Ng和H.智英。使用相似图像的图像着色。第20届ACM国际多时间数据会议论文集,第369-378页。ACM,2012年。2[27] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。IEEE计算机视觉和模式识别会议论文集,第447-456页,2015年。一、二[28] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。1、7[29] G.- S. Hsu和D.- Y.是林书人脸识别使用稀疏表示与照明规范化和组件功能。在2013年亚洲信号与信息处理协会年度峰会和会议(APSIPA)上,太平洋,第1-5页。IEEE,2013。2[30] S. Iizuka、E. Simo-Serra和H.石川要有颜色!:联合端到端学习全局和局部图像先验知识,用于自动图像彩色化 和 同 时 分 类 。 ACM Transactions on Graphics(TOG),35(4):110,2016。25618[31] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移 来 加 速 深 度 网 络 训 练 。 arXiv 预 印 本 arXiv :1502.03167,2015。4[32] V. Jain和S.胜自然图像去噪与卷积网络。神经信息处理系统的进展,第769-776页,2009年。2[33] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快 速 特 征 嵌 入 的 卷 积 架 构 arXiv 预 印 本 arXiv :1408.5093,2014。4[34] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。arXiv预印本arXiv:1603.08155,2016年。8[35] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。6[36] B. F. 克拉尔湾克莱因,E.Taborsky,A.Blanton,J.切尼K. Allen,P. Grother,A.是的,M。Burge和A. K.贾恩。推动无约束人脸检测和识别的前沿:Iarpa janus基准测试。在2015年IEEE计算机视觉和模式识别会议(CVPR)上,第1931-1939页IEEE,2015年。6[37] E. H.兰德和J. J。麦肯 亮度和视网膜理论。JOSA,61(1):1-11,1971. 2[38] G. Larsson,M. Maire和G.沙赫纳洛维奇学习自动着色的表示。arXiv预印本arXiv:1603.06668,2016年。2[39] M. Lebrun,A. Buades和J M.莫瑞尔一种非局部小波图像 去 噪 算 法 。 SIAM Journal on Imag-ing Sciences , 6(3):1665-1688,2013. 二、六[40] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。在欧洲计算机视觉会议上,第740-755页。Springer,2014. 5[41] X. 柳湖,加-地万,Y。Qu,T.-T. 黄,S.林角,英-地S.Leung和P. -A.衡内在的彩色化。ACM Transactions onGraphics(TOG),27(5):152,2008。2[42] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 。在 IEEE计算 机视 觉和模 式识 别会议 论文 集(Proceedings of the IEEEConference on Computer Visionand PatternRecognition),第3431-3440页,2015年。1[43] L.马角,澳-地王湾,澳-地Xiao和W.舟基于区分性低秩字典学习的稀疏表示人脸识别。在计算机视觉和模式识别(CVPR),2012 IEEE会议,第2586IEEE,2012。2[44] Y. Morimoto,Y. Taguchi和T.内村使用网络上的多个图像对灰度图像进行自动着色。在SIGGRAPH'09中:海报,第32页。ACM,2009年。2[45] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。第27届国际机器学习会议(ICML-10),第807-814页,2010年。4[46] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集,第1520- 1528页一、二、五[47] V. M. Patel,T. Wu,S. Biswas,P. J. Phillips和R.切-拉帕。基于光照鲁棒字典的人脸识别。2011年第18届IEEE图像处理国际会议,第777-780页。IEEE,2011年。2[48]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。5[49] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。一、二[50] Y.唐河,巴西-地Salakhutdinov和G.辛顿深层朗伯网络。arXiv预印本arXiv:1206.6445,2012年。2[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功