没有合适的资源?快使用搜索试试~ 我知道了~
1基于递归神经网络的乔治·托德里奇谷歌研究gtoderici@google.com达米安·文森特damienv@google.com尼克·约翰斯顿nickj@google.com黄成珍sjhwang@google.com大卫·明嫩dminnen@google.com乔尔·肖尔joelshor@google.com米歇尔·科维尔covell@google.com摘要提出了一套基于神经网络的全分辨率有损图像压缩方法。我们描述的每种架构都可以在部署过程中提供可变的压缩率,而无需重新训练网络:每个网络只需训练一次。我们所有的架构包括一个基于递归神经网络(RNN)的编码器和解码器,一个二进制化器,和一 个 神 经 网 络 的 熵 编 码 。 我 们 比 较 了 RNN 类 型(LSTM,关联LSTM),并引入了GRU和ResNet的新混合。我们还研究了我们与以前的工作相比,显示出4.3%-8.8%AUC(率失真曲线下的面积)的改善据我们所知,这是第一个神经网络架构,能够在柯达数据集图像的速率失真曲线上的大多数比特率上在图像压缩方面优于JPEG,无论是否借助熵编码。1. 介绍传统上,图像压缩一直是神经网络被怀疑擅长的任务之一[17]他表示,有可能训练单个递归神经网络,并且对于给定的质量实现比现有技术更好的压缩率,而不管输入图像如何,但是受到限制32×32图像在这项工作中,没有努力捕捉图像补丁之间的长期依赖关系。我们的目标是提供一个神经网络,这是竞争力的压缩率对任意大小的图像。有两种可能的方法来实现这一点:1)设计一种更强的基于块的残差编码器;以及2)设计能够捕获长期依赖性的熵编码器在图像中的补丁在本文中,我们解决这两个问题,并结合两种可能的方法来提高压缩率为一个给定的质量。为了衡量我们的架构做得有多好“quality”), we cannotrely on typical metrics such as Peak Signal to Noise Ratio(PSNR), or 这种思想被利用在有损图像压缩方法,如JPEG。为了能够测量这样的差异,我们需要使用人类视觉系统启发的测量,其理想地应该与人类如何感知图像差异相关。此外,如果这样的度量存在,并且是可微的,我们可以直接优化它。不幸的是,在文献中有各种不同质量的指标,其中大多数是不可微的。出于评估目的,我们选择了两个常用的指标,PSNR-HVS[7]和MS-SSIM [19],如第4所述。1.1. 以前的工作自动编码器已被用于降低图像的维数[9],将图像转换为压缩的二进制代码以供检索[13],并提取可用于其他应用的紧凑的视觉表示[18]。最近,变分(循环)自编码器已被直接应用于压缩问题[6](结果在大小高达64×64像素的图像上),而非变分递归神经网络用于实现可变的速率编码[17]。大多数图像压缩神经网络使用基于瓶颈层大小的固定压缩率[2]。这项工作扩展了以前的方法,支持可变速率压缩,同时保持超出缩略图大小的图像的高压缩率。530653072. 方法在本节中,我们将描述我们探索的高级模型架构这些小节提供了关于我们实验中不同的循环网络组件的更多我们的压缩网络由编码网络E、二进制化器B和解码网络D组成,其中D和E包含递归网络组件。首先对输入图像进行编码,然后将其转换为可以存储或传输到解码器的二进制代码。解码器网络基于接收到的二进制码创建原始输入图像的估计。我们重复这个过程与残留误差,原始图像和解码器的重建之间的差异。图1显示了我们模型的单个迭代的架构虽然网络权重在迭代之间共享因此,残差在不同的上下文中在不同的迭代中被编码和解码。注意,二进制化器B在我们的系统中是无状态的。我们可以将我们的网络的单个迭代压缩表示为:隐藏内核的空间范围都是1×1,除了单元D-RNN#3和D-RNN#4中的隐藏内核是3×3。与[ 17 ]中专门使用的1×1隐藏内核相比,更大的隐藏内核始终导致改进的压缩曲线。在训练过程中,L1损失是在每次迭代生成的加权残差上计算的(参见第4节),因此我们的网络总损失是:Σβ|Rt|(三)不在我们的网络中,每个32×32×3的输入图像每次迭代都被简化为2×2×32的二值化表示这导致每次迭代表示每像素1/8位(bpp)。如果仅使用第一次迭代,这将是192:1压缩,甚至在熵编码之前(第3)。我们探索的组合经常性的单位变量和重建框架,我们的压缩系统。我们将这些压缩结果与[17]中描述的去卷积网络的结果进行比较,在本文中称为基线网络。bt=B(Et(rt−1)),xt=Dt(bt)+γxt−1,(1)2.1. 经常性单位的类别rt=x−x<$t,r0=x,x=0(2)在本小节中,我们将介绍不同类型的其中,Dt和Et分别表示解码器和编码器在迭代t时的状态,bt是渐进式二进制表示;xt是原始图像x的渐进式重构,对于“单次”重构,γ = 0,对于加法重构,γ= 1( 参见 第2.2 节 ); r t是x和 重构x t之 间的 残差。在每次迭代中,B将产生二进制化的比特流我们检查的重复单位。LSTM:我们检查的一个递归神经网络元素是具有[20]提出的公式的LSTM [10]。令xt、ct和ht分别表示迭代t时的输入、单元和隐藏状态。给定当前输入xt、非连续单元状态ct−1和先前隐藏状态ht−1,新单元状态ct和新隐藏状态ht计算如下:bt∈ {−1,1}m其中m是每次迭代后产生的位数,使用[17]中报告的方法后[f,i,o,j]T=[σ,tanh]T .Σ(Wxt+Uht−1)+b,(4)k次迭代,网络总共产生m·k比特以来我们的模型是完全卷积的,m是输入大小的线性函数。对于32×32的图像块,m= 128。用于创建编码器和解码器的循环单元包括两个卷积核:一个在从先前层进入单元的输入向量上,另一个在提供单元的递归性质的状态向量上。我们将把状态向量及其核上的卷积称为在图1中,我们给出了输入向量卷积核的空间范围以及输出深度。所有卷积核都允许在深度上进行完全混合比如说,单元D-RNN#3具有256个卷积核,它们对输入向量进行操作,每个卷积核具有3×3的空间范围和完整的输入深度范围(在该示例中为128个,因为D-RNN#2的深度在其通过“深度到空间”单元时被减小四倍ct=f<$ct−1+i<$j,(5)ht=otanh(ct),(6)其中,k表示逐元素乘法,b是偏差。激活函数σ是sigmoid函数σ(x)=1/(1+exp(−x))。LSTM层在迭代t时的输出是ht。分别应用于xt和ht−1的变换W和U是卷积线性变换。也就是说,它们是Toeplitz矩阵与填充和步幅变换的组合W卷积的空间范围和深度如图1所示。正如本节前面5308所指出的,U卷积与W卷积具有相同的深度更详细的解释见[17]。关联LSTM:我们研究的另一个神经网络元素是关联LSTM [5]。关联LSTM使用全息表示扩展了LSTM其新5309不输入(浮点)尺寸H×W×3二进制化器B-Conv编码(浮点)Conv(H/16)×(W/16)×5121×1×32步幅:1×1二进制码(位),大小(H/16)×(W/16)×32It(floats)尺寸H×W×3解码器D-Conv#1D-RNN#1深度D-RNN #2深度D-RNN #3深度D-RNN #4深度D-Conv#2Conv RNN ConvtoRNN Conv to RNN ConvtoRNN ConvtoRNN ConvtoConv1×1×5122×2×512空格3 × 3×512空格3×3×256空格3×3×128空格1×1×3步幅:1×1 步幅:1×1步幅:1×1步幅:1×1步幅:1 × 1步幅:1×1步幅:1×1编码器E-Conv E-RNN#1 E-RNN#2 E-RNN#3转换RNN转换RNN转换RNN Conv 3×3×643×3×256 3×3×512 3×3×512步幅:2×2步幅:2×2步幅:2×2步幅:2×2图1. 我们共享的RNN架构的单次迭代。状态计算为[f,i,o,j,ri,ro]T=[σ,bnd,bnd,bnd] T.(Wx)Σt+Uht−1)+b,(7)隐藏状态ht:ht=(1−zt)ht−1+zttanh(Wxt+U(rtht−1))+αhWhht−1,(14)ho=h+α Wx.(十五)ct=fct−1 +ri 中国(8)ttx牛tht=obnd(roct),(9)ht=(Re ht,Im ht).(十)Associativ e LSTM在迭代t时的输出是ht。输入xt、输出ht和gate值f、i、o都是实数。值,但其余的量是复值的。复z的函数bnd(z)是z,如果|z| ≤1且为z/|z|否则,请执行以下操作。与非关联LSTM的情况一样,我们使用卷积线性变换W和U。通过实验,我们确定了关联LSTM只有在解码器中使用时才有效。因此,在我们使用关联LSTM的所有实验中,在编码器中使用非关联LSTM。门控重复单元:我们研究的最后一个递归元素是 门控递归单元[3](GRU)。具有输入xt和隐藏状态/输出ht的GRU的公式为:zt=σ(Wzxt+Uzht−1),(11)rt=σ(Wrxt+Urht−1),(12)ht=(1−zt)ht−1+zttanh(Wxt+U(rtht−1)).(十三)与LSTM的情况一样,我们使用卷积而不是简单的乘法。受ResNet [8]和Highway Networks [16]核心思想的启发,我们可以将GRU视为一个计算块,并在块周围传递残差信息以加快收敛。由于GRU可以被看作是一个双索引块,一个索引是迭代,另一个是空间,我们可以用公式表示GRU的残差版本,它现在有两个残差连接。在下面的等式中,我们使用ho来表示我们的公式的输出,这将不同于5310其中我们使用αx= αh= 0。1为本文中的所有实验。这个想法与高阶RNN [15]中所做的工作相似,其中在迭代之间添加线性连接,但不是RNN的输入和输出之间。2.2. 重建框架除了使用不同类型的递归单元,我们还研究了三种不同的方法来从解码器输出中创建最终的图像重建我们将在本小节中描述这些方法,以及损失函数所需的更改。一次性重建:如在[ 17 ]中所做的,我们在解码器的每次迭代之后预测完整图像(在(1)中γ =0)。每次连续迭代都可以访问更多的位由编码器产生,这允许更好的重构。我们称这种方法为“一次性重建”。尽管尝试在每次迭代时重建原始图像,但我们仅将上一次迭代的残差传递这减少了权重的数量,并且实验表明,传递原始图像和残差并不能改善重建。加法重建:在传统图像编码中应用较为广泛的加性重构中,每次迭代只试图重构前一次迭代的残差。最终的图像重建则是所有迭代的输出之和(在(1)中γ=1残余缩放:在添加剂和建筑,剩余开始大,我们希望它随着每次迭代而减少。然而,编码器和解码器可能难以跨宽范围的值有效地操作此外,残余物收缩的速率取决于含量在一些贴片中(例如,均匀区域),则下降将比在其它块中显著得多(例如,高度纹理化的贴片)。5311rt−1Gt÷gt−1缩放×残余rt−1−Rt编码解码增益估计器图2.将依赖于内容、依赖于迭代的残差缩放添加到加性重建框架。残差图像的大小为H×W×3,具有三个颜色通道,而增益的大小为1,并且每个像素的所有三个通道都应用相同的增益因子为了适应这些变化,我们扩展了我们的加性重建架构,包括一个内容相关的,迭代相关的增益因子。图2显示了我们使用的扩展。从概念上讲,我们查看先前残差图像rt−1的重建,并为每个补丁导出增益乘数。然后,我们将进入当前迭代的目标残差乘以处理前一次迭代输出所给出的增益。等式1变为:gt=G(x<$t),bt=B(Et(rt−1 <$ZOH(gt−1),(16)r<$t−1=Dt(bt)<$ZOH(gt−1),(17)x<$t=x<$t−1+r<$t−1,rt=x−x<$t,(18)g0=1,r0= x.(十九)其中,ZOH是逐元素划分,ZOH是通过零阶保持进行的空间G(·)使用五层前馈卷积网络估计增益因子,gt,每个步幅为两个的层前四层的输出深度为32,使用具有ELU非线性的3×3卷积核[4]。最后一层的输出深度为1,使用2×2卷积核,具有ELU非线性。由于ELU的范围为(−1,∞),因此将常数2添加到该网络的输出中,以获得范围为(1,∞)。3. 熵编码在推理期间生成的代码的熵不是最大的,因为网络没有被明确地设计为使其代码中的熵最大化,并且模型不一定在大的空间范围内利用视觉冗余添加熵编码层可以进一步提高压缩比,如在标准图像压缩编解码器中通常所做的那样。在本节中,图像编码器是给定的,仅用作二进制代码生成器。这里考虑的无损熵编码方案是完全卷积的,以渐进顺序处理二进制代码,并且对于光栅扫描或der.我们所有的图像编码器架构都生成大小为H×W×D的形式为c(y,x,d)的二进制代码,其中H和W是图像高度的整数分数,宽度,D是m×迭代次数。我们consider一个标准的无损编码框架,结合了条件概率模型的当前二进制代码c(y,x,d)与算术编码器做实际的压缩。更正式地,给定上下文T(y,x,d),仅取决于流顺序中的前一位,我们将估计P(c(y,x,d))|T(y,x,d)),使得c(y,x,d)的期望理想编码长度是P(c)|T)和P(c|T)。我们不考虑小的通过使用需要P的量化版本的实际算术编码器所涉及的损失|T)。3.1. 单次迭代熵编码器我 们 利 用 PixelRNN 架 构 [14] 并 使 用 类 似 的 架 构(BinaryRNN)来压缩单层的二进制代码在此架构中(如图3所示),线路y的条件代码概率估计直接取决于某些相邻代码而且还通过大小为1×W×k的状态线S间接地对先前解码的二进制码进行处理,该状态线S捕获一些短期和长期依赖性。状态行是前面所有行的汇总。实际上,我们使用k=64。概率估计和状态是使用1×3LSTM卷积逐行更新端到端概率估计包括3个阶段。首先,初始卷积是一个7×7卷积,用于增加LSTM状态的感受野,感受野是代码c(i,j, ·)的集合,它可以影响代码c(y,x,·)的概率估计。如在[14]中,该初始卷积是掩蔽卷积,以便避免依赖于未来的代码。在第二阶段,线LSTM将此初始卷积的结果z0作为输入,由于LSTM隐藏状态是通过处理先前的扫描线产生的,因此线LSTM捕获短期和长期依赖性。出于同样的原因,输入到状态的LSTM转换也是一个掩码卷积。最后,两个1×1卷积-增加连接以增加网络的容量,记住更多的二进制代码模式。由于我们试图预测二进制代码,因此可以使用S形激活直接估计Bernoulli分布参数。53121×1Conv光栅顺序线性LSTMS1×3转换更新1×2Convz01×1ConvP(c|T)图3. 二进制递归网络(BinaryRNN)架构用于单次迭代。灰色区域表示在解码时可用的上下文。最后一个卷积。我们希望最小化熵编码后使用的比特数,这自然会导致交叉熵损失。在{0,1}二进制代码的情况Σ−clo g2(P(c|T))−(1−c)lo g2(1−P<$(c|(20)y,x,d3.2. 渐进熵编码当处理多个迭代时,基线熵编码器将重复单次迭代熵编码器的次数与迭代次数一样多,每个迭代都有自己的行LSTM。然而,这样的架构不会捕获迭代之间的冗余。我们可以使用来自先前层的一些信息来增加传递到迭代#k的行LSTM的数据:图3中的线LSTM不仅像在单次迭代方法中那样接收z 0,而且还接收使用如图4所示的递归网络从先前迭代估计的z 1。计算z1不需要任何掩蔽卷积,因为先前层的代码是完全可用的。4. 结果培训设置:为了评估我们描述的递归模型,我们使用了两组训练数据。第一个数据集是[ 17 ]中收集的“32×32”数据集。第二个数据集从网上随机抽取了600万张1280×720的图片, 将图像分解为非重叠的32×32瓷砖和样本100瓷砖,具有最差的压缩比时,使用PNG压缩-Sion算法通过选择在PNG下压缩最少的补丁,我们打算创建一个具有“难以压缩”数据的数据集。假设在这样的补丁上训练应该会产生更好的压缩模型。我们将此数据集称为所有网络架构都使用Tensor-flow [1] API和Adam [11]优化器进行训练。每个网络都使用[0]的学习率进行训练。1、…2]。L1损失−1(see方程3)通过β=(s×n)加权其中s等于B×H×W×C,其中B=32是批量大小,H=32和W=32是图像高度和宽度,C=3是颜色通道的数量。n=16是RNN展开迭代的次数。评估指标:为了评估我们的模型的性能,我们使用感知,全参考图像度量比较原始的,未压缩的图像压缩,降级的。重要的是要注意,在该领域没有达成共识,哪种指标最能代表人类的感知,因此我们所能做的最好的事情就是从可用的选择中进行采样,同时承认每个指标都有自己的优点和缺点。我们使用多尺度结构相似性(MS-SSIM)[19],一种用于比较有损图像压缩算法的成熟度量,以及最近的峰值信噪比-人类视觉系统(PSNR-HVS)[7]。我们将MS-SSIM独立地应用于每个RGB通道并对结果进行平均,而PSNR-HVS已经包含了颜色信息。MS-SSIM给出0和1之间的分数,并且PSNR-HVS以分贝测量。在这两种情况下,较高的值意味着测试图像和参考图像之间的更接近的匹配。在每次迭代之后,针对重建图像上的所有模型计算这两个度量。为了对模型进行排名,我们使用计算为率失真曲线下面积(AUC)的聚合度量。我们在广泛使用的Kodak Photo CD数据集上收集这些指标[12]。该数据集由24个768×512 PNG图像(风景/肖像)组成,这些图像从未使用有损算法压缩过。架构:我们运行了由{GRU,残差GRU,LSTM,关联LSTM} × {一次重建,加法重建,加法重新缩放残差},并报告100万个训练步骤后性能最佳的模型的结果。很难选择一个使问题进一步复杂化的是,一些模型在低比特率下可能表现得更好为了短程特性:7×7掩蔽卷积nLSTM状态LSTM逻辑C 0 0 00 0 0 0 0 0 00 0 0 0 0 0 00 0 0 0 0 0 0输入状态5313代码来自先前迭代3×3Conv643×364Convz1图4.描述用于计算渐进熵编码器的附加行LSTM输入的神经网络这允许将信息从先前迭代传播到当前迭代。为了尽可能公平,我们选择了那些曲线下面积最大的模型,并将它们绘制在图5和图6中。高熵训练集的效果可以在表1中看到。一般来说,模型受益于在这个数据集上训练,而不是在32×32数据集上训练,这表明使用“硬”示例训练模型很重要对于每种方法的压缩图像示例,我们请读者参阅补充材料。当使用32×32的训练数据时,GRU(One Shot)在这两个指标中的性能最高。具有残差缩放的LSTM模型具有第二高的MS-SSIM,而残余GRU具有第二高的PSNR-HVS。在高熵数据集上训练时,LSTM的One Shot版本具有最高的MS-SSIM,但PSNR-HVS 最差。具有“一次”重建的GRU我们在图7中描述了从Kodak数据集压缩图像5的结果。我们邀请读者参考补充材料,以获得来自柯达数据集的压缩图像的更多示例。熵编码:渐进熵编码器是针对特定的图像编码器进行训练的,我们比较了我们模型的子集。为了训练,我们使用一组1280×720的图像,这些图像使用之前的图像编码器之一进行编码(导致80×45×32位图或每个RNN迭代每个像素1 / 8位)。图5和图6显示了所有模型都受益于这个额外的熵编码层。由于Kodak数据集的图像分辨率相对较低,因此收益并不是很显著-对于最佳模型,我们在2 bpp时获得了5%,在0.25 bpp时获得了32%。这种模型的好处只有在大图像上才能真正实现。我们将熵编码模型应用于Baseline LSTM模型,比特率节省范围从2bpp时的25%到0.25 bpp时的57%。5. 讨论我们提出了一个通用的架构,用于使用RNN、基于内容的残差缩放和GRU的新变体进行压缩由于我们的网络类产生的图像失真不能很好地被现有的感知度量捕获,因此很难声明最佳模型。然而,我们提供了图6.柯达数据集上的率失真曲线,以PSNR- HVS与位每像素(bpp)。虚线:在熵编码之前,普通线:在熵编码之后。上图:在32x32数据集上训练的两个表现最好的下图:在高熵数据集上训练的两个表现最好的根据这些指标表现良好的一组模型,平均而言,我们在 MS-SSIM AUC 和 PSNR-HVS AUC 上 的 性 能 优 于JPEG,无论是否使用熵编码。也就是说,我们的模型确实受益于熵编码的附加步骤,因为在早期迭代中,递归编码器模型产生空间相关的代码。此外,我们正在https://github.com/tensorflow/models/tree/master/compression中开源我们最好的残差GRU模型和熵编码器培训和评估。下 一 个 挑 战 将 是 来 自 视 频 压 缩 编 解 码 器 ( 如WebP)的最佳压缩641×1Conv641×1Conv1×1Conv LSTM5314表1. 柯达数据集上的性能以指定指标的曲线下面积(AUC)衡量,最高可达每像素2位。所有模型都经过了大约1,000,000个训练步骤的训练。没有使用熵编码。在熵编码之后,基于网络的方法的AUC将更高。在32×32数据集上训练。模型秩MS-SSIM AUC秩PSNR-HVS AUCGRU(一次拍摄)11.8098153.15LSTM(残差缩放)21.8091452.36LSTM(One Shot)31.8062352.57LSTM(AdditiveReconstruction)41.8041652.22残留GRU(一次发射)51.8030252.73残余GRU(残余缩放)61.7983851.25关联LSTM(One Shot)71.7980552.33GRU(残差缩放)81.7948751.37基线[17]1.722548.36在High Entropy数据集上训练。LSTM(One Shot)11.8166848.86GRU(一次拍摄)21.8139253.07残留GRU(一次发射)31.8119153.19残余GRU(残余缩放)41.8076749.61LSTM(残差缩放)51.8000451.25LSTM(加法)61.7953550.67关联LSTM(One Shot)71.7912352.09GRU(残差缩放)81.8065649.97基线LSTM [17]1.740848.88JPEGYCbCr 4:4:41.774851.28YCbCr 4:2:01.799852.61图5. 柯达数据集上的率失真曲线,以MS-SSIM与位每像素(bpp)。虚线:在熵编码之前,普通线:在熵编码之后。左图:在32x32数据集上训练的两个性能最好的模型右图:在高熵数据集上训练的两个性能最好的模型(其源自VP8视频编解码器),因为它们采用诸如重用已经解码的补丁的技巧。另外,联合训练熵编码器(BinaryRNN)和基于块的编码器,应该允许我们在基于块的编码器的效率和熵编码器的预测能力最后,需要强调的是,感知差异的范围是5315图7. Kodak Image 5上的压缩结果比较。顶行是0.25 bpp的目标,底行是1.00 bpp。左列是JPEG 420,右列是我们的残差GRU(一次拍摄)方法。我们的方法的比特率是在熵编码之前。在第一行(0.25 bpp)中,我们的结果更能够捕获颜色(注意JPEG上的颜色块)。在第二行(1.00 bpp)中,我们的结果1 bpp的结果可能难以在打印页上看到。其他结果见补充材料。积极发展。没有一个可用的感知指标真正与人类视觉很好地相关,如果它们确实相关,它们只与特定类型的失真相关如果一个这样的指标能够与人类评分员对所有类型的失真进行关联,我们可以直接将其纳入损失函数,并直接对其进行优化。引用[1] M. Abadi、A. Agarwal,P. Barham,E. Brevdo,Z. 陈先生,C. 西特罗湾S. Corrado,A.Davis,J.Dean,M.Devin,S.盖-马瓦特岛。Goodfellow,A.Harp,G.Irving,M.Isard,Y.贾,R. 约泽福维奇湖凯泽湾Kudlur,J.Levenberg,D.马内,R. Monga、S. 穆尔,D. 默里角 奥拉山舒斯特J. 什 伦 斯 湾 施 泰 纳 岛 Sutskever , K. 塔 尔 瓦 尔 山 口Tucker , V. 范- 霍 克 , V 。 Vasudevan , F. 别 加 斯 岛Vinyals,P. 典狱长M. Wattenberg,M. Wicke,Y. Yu和X.郑张量-流量:异构 系 统 上 的 大 规 模 机 器 学 习 , 2015 年 。 软 件 可 从tensorflow.org获得。5[2] J. Ballé,V. Laparra和E.西蒙切利感知质量的非线性变换码的端到端优化在图片编码研讨会,2016年。1[3] 钟杰角,澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。3[4] D. Clevert,T. Unterthiner和S. Hochreiter。通过指数线性单元(elus)进行快速准确的深度网络学习。CoRR,abs/1511.07289,2015年。4[5] I. 丹尼赫尔卡湾 韦恩湾 Uria,N. Kalchbrenner,以及A. Graves.联想长短期记忆。在ICML 2016,2016。2[6] K. Gregor,F. Besse,D.希门尼斯·雷兹岛Danihelka,和D.维尔斯特拉走向概念压缩。ArXiv电子打印,2016. 15316[7] P. Gupta,P.斯里瓦斯塔瓦河Bhardwaj和V. Bhateja一种基 于 hvs 的 改 进 psnr 彩 色 图 像 质 量 评 价 方 法 。IEEEEXplore,2011年。一、五[8] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。arXiv预印本arXiv:1512.03385,2015。3[9] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science,313(5786):504-507,2006. 1[10] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8),1997。2[11] D. P. Kingma和 J. BA. Adam :随机最佳化的方法。CoRR,abs/1412.6980,2014。5[12] E. 柯 达 柯 达 无 损 真 彩 色 图 像 套 件 ( PhotoCD PCD0992)。5[13] A. Krizhevsky和G. E.辛顿使用深度自动编码器进行基于内容的图像检索。在欧洲Sym-2011年人工神经网络。1[14] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。arXiv预印本arXiv:1601.06759,2016。4[15] R. Soltani 和 H. 蒋 高 阶 递 归 神 经 网 络 。 arXiv 预 印 本arXiv:1605.00064,2016。3[16] R. K. Srivastava,K. Greff和J.施密特胡博高速公路网。国际机器学习会议深度学习研讨会,2015年。3[17] G. Toderici、S.M. J. Hwang,D.黄氏D.文森特,D。Min- nen,S.巴卢哈山Covell和R.苏克坦卡基于递归神经网络的可变速率图像压缩。ICLR 2016,2016. 一二三五七[18] P. Vincent,H. Larochelle,Y. Bengio和P A.曼扎戈尔使用去噪自动编码器提取和合成鲁棒特征。Journal ofMachine Learning Research,2012。1[19] Z. Wang,中国山核桃E. P. Simoncelli和A. C.波维克图像质量评价的多尺度结构相似性信号,系统和计算机,2004年。第三十七届阿西洛马会议记录,第2卷,第1398-1402页。IEEE,2003年。一、五[20] W.扎伦巴岛Sutskever和O. Vinyals递归神经网络正则化。arXiv预印本arXiv:1409.2329,2014。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功