没有合适的资源?快使用搜索试试~ 我知道了~
110116学习用几种颜色构建图像澳大利亚国立大学Stephen{firstname.lastname}@anu.edu.au摘要色彩和结构是构成图像的两大支柱通常,结构通过丰富的颜色光谱很好地表达,允许图像中的对象被神经网络识别。然而,在颜色空间的极端限制下,该结构趋于消失,因此神经网络可能无法理解图像。有兴趣探索这种颜色和结构之间的相互作用,我们研究的科学问题,识别和保存信息量最大的图像结构,同时约束的颜色空间只有几位,这样得到的图像可以识别可能的高精度。为此,我们提出了一个颜色量化网络ColorCNN,它以端到端的方式学习从分类损失中构造图像。给定颜色空间大小,ColorCNN通过生成颜色索引图和RGB调色板来量化原始图像中的颜色。然后,将该颜色量化的图像馈送到预先训练的任务网络以评估其性能。在我们的实验中,只有1位颜色空间(即,两种颜色),所提出的网络在CIFAR 10数据集上实现了82.1%的在实际应用中,当采用PNG编码时,所提出的颜色量化方法在极低比特率的情况下显示出优于其他 图 像 压 缩 方 法 的 性 能 。 该 代 码 可 在https://github.com/hou-yz/color_distillation上获得。1. 介绍色彩和结构是自然图像的两个重要方面结构被视为形状,纹理等的组合,并与颜色密切相关。特别地,只有当存在足够的颜色集合时,该结构才被很好地呈现。在本文中,我们感兴趣的是如何在颜色约束下最好地呈现结构。在文学作品中,与之密切相关的一条线是色彩量化。颜色量化研究如何在受限的颜色空间中保持视觉相似性[17,29]。这(a) 原始(b)4位(c)2位(d)1位图1:颜色量化图像(顶行)和类激活图[50],其中地面真值类(底行)的softmax概率在颜色空间大小递减 。 在 “Original” ( a ) 中 , 颜 色 由 24 位 描 述 。 在(b)、(c)和(d)中,使用较少的比特。我们使用MedianCut [17]作为量化方法。当颜色空间缩小时,神经网络的焦点偏离(a)中的信息部分(正确识别(绿色)),导致(b),(c)和(d)中的识别失败问题是以人为中心的,因为它通常集中于人类观看的视觉质量。特别地,大多数现有方法是在相对大的颜色空间下设计的,8位,因此量化图像在视觉上仍然与原始图像相似。在较小的颜色空间中,例如,2位或1位,颜色量化仍然是一个悬而未决的问题。自然图像通常包含丰富的色彩和结构。当颜色空间有限时,它们的连接将损害结构。例如,在图1的第一行中。1,随着颜色空间的减小,结构消失。此外,我们认为,在原始自然图像上训练的神经网络在识别颜色较少的量化图像时可能是无效的。事实上,量化的颜色和受损的结构会转移神经网络的注意力,这可能导致识别失败。例如,在图2的第二行中。1,在原始图像上训练的神经网络发现头部和身体对识别狗最关键。当颜色空间逐渐缩小时,神经网络首先不能注意头部,然后是身体,从而导致识别失败。110117Cat:IDLE 001Cat:2.0%Cat:IDLE 001分类:1.7%分类:15.1%原始MedianCut+抖动MedianCut OCTree ColorCNN量化图像图2:1位颜色量化结果和评估。量化结果:“MedianCut + Dither”[17,12],“Median-Cut”[17]和“OCTree”[14]是传统的颜色量化方法。“ColorCNN”是所提出的方法。评估:我们首先在原始图像上预训练分类网络然后,我们使用这个网络来评估量化的图像。传统的方法只根据颜色对原始图像进行去噪,因此可能会丢失重要的形状和纹理。在输入传统方法的结果时,预先训练好的分类器未能注意到有信息的部分,从而产生错误。相比之下,通过学习结构,由我们的方法量化的图像保持最相似的激活图,从而被预先训练的分类器成功识别。在这篇文章中,我们研究了一个科学问题:如何在极小的颜色空间下保留关键结构?该问题与传统的颜色量化问题正交,因为它是以任务为中心的:神经网络识别精度是其主要焦点,而不是人类观看。如图2、我们用一个在原始图像上预先训练好的分类器来评估(量化)图像。为了优化识别精度,我们设计了一种颜色量化方法ColorCNN,它以端到端的方式学习结构化图像。与仅依赖颜色值进行决策的传统颜色量化方法不同,ColorCNN利用颜色、结构和语义来发现和保留关键结构。它通过计算颜色索引图和分配调色板值来量化图像。在图2中,通过彩色CNN量化的图像使分类器能够成功地聚焦于猫虎斑猫和前肢。在这个例子中,注意信息区域导致正确的识别。我们证明了ColorCNN量化对分类任务的有效性。用几种颜色,我们表明,所提出的方法优于传统的一个很大的保证金。四个数据集,包括CIFAR 10 [20],CIFAR 100 [20],STL 10 [8]和tiny-imagenet-200 [22],以及三个分类网络,包括AlexNet [21],VGG [34]和ResNet [16],用于测试。对于应用,ColorCNN图像量化可以用于极低比特率的图像压缩。2. 相关工作颜色量化。颜色量化[29,10,1,11,45]对颜色进行聚类,以减少颜色空间,同时保持视觉相似性。Heckbert等人[17]提出流行的MedianCut方法。后来,Gervautzet al. [14]设计了另一种常用的颜色量化方法OC-树抖动[12]通过添加噪声模式来消除视觉伪影,也作为可选步骤进行了研究。颜色量化的图像可以表示为索引颜色[30],并使用PNG [6]编码。以人为中心的图像压缩。许多图像压缩方法都是以视觉为基础设计的。这些方法分为两类,无损压缩,例如,PNG [6]和有损压缩,例如,JPEG [41,35]和颜色量化。最近,深度学习方法被引入图像压缩问题。两种递归方法[28,19,39,38]和卷积方法[27,23,40,3,2,37]进行了研究。Balle等[5]提出了广义分裂归一化(GDN)的图像压缩。Agustsson等人[3]在生成对抗网络(GAN)中提出一种多尺度的低比特率压缩方法。在[24,18]中,研究人员应用图像压缩方法来抵御对抗性攻击。以任务为中心的图像压缩。传统的或基于深度学习的上述图像压缩方法是以人为中心的。Liu等[25]指出,对于分割,以人为中心的压缩不是3D医学图像的最佳选择。对于2D地图数据和3D场景模型,以任务为中心的压缩方法被设计用于定位[43,7]。压缩数据的神经网络识别。 一些研究人员使用压缩数据进行某些任务。例如,用压缩视频解决动作识别问题[44,47,48,33]。Wang等人[42]通过利用压缩数据加速视频对象识别3. 动机在一个极小的颜色空间中,我们发现传统的颜色量化方法不能保持临界结构。预训练原始图像任务网络测试110118自动编码器自动编码器激活(一)原始图像ColorCNN彩色量化图像分类器激活输出层培训:(b)第(1)款(c)第(1)款����任务网络������彩色抖动测试:������联系正则化项总损失=损失额,损失额+损失额可微����不可微原始图像列车时间输出�����������测试时间输出地面真值标号基于训练时间输出的预测标签图3:我们的颜色量化方法概述。ColorCNN可以识别(自动编码器激活)并保留(量化图像)原始图像中的关键结构。它的输出具有与原始图像相似的类激活映射。(b):我们在训练期间用近似值替换不可微部分。(c):引入一个正则化项以保持近似类似于原始网络。此外,我们加入了颜色抖动的量化图像,以防止过早收敛。ColorCNN网络以端到端的方式使用分类损失进行训练真的。这是因为这些方法通常采用仅颜色值的方法来聚类颜色,完全忽略结构。然而,正如一些人[13,15]所建议的那样,具有语义意义的关键形状和纹理在神经网络识别中起着重要作用。事实上,我们看到,当结构没有得到很好的保护时,图像x,通过计算颜色索引图M(x)和调色板T(x)。 我们将Col-orCNN的前向传递表示为一个函数x= g(x),参数为。我们的目标是用很少的颜色来构造图像使得预先训练的分类器对彩色量化图像具有可能的高准确性。它被写成图1和图2.这进一步导致识别失败。受这一失败的启发,在下面的章节中,我们将进一步研究如何有效地保护最小值= argminψ(xΣ,y)∈DL(y,fθ<$(g<$(x)+γR,(2)一个非常小的颜色空间。4. 该方法为了识别和保留原始图像中的关键结构,我们设计了ColorCNN(见图1)。(3)第三章。在本节中,我们首先用数学公式表示学习结构问题。接下来,我们介绍ColorCNN架构。最后,我们提出了一种端到端的训练方法。4.1. 问题公式化不失一般性,我们可以定义一个参数为θ的分类网络为fθ(·)。 对于一个图像标签对(x,y),该网络估计其标签y∈fθ(x). 去火车网络工作,我们在数据集D上最小化它的损失L(y,y),其中,表示ColorCNN的优化参数,给定由θ参数化的预训练分类器。R是正则化项,γ表示其权重。4.2. ColorCNN架构我们在图中显示了ColorCNN架构。4.它的第一个组件是一个U网[31]自动编码器,它识别关键和语义丰富的结构(图中的自动编码器激活图)。(3)第三章。对于第二个分量,两个深度方向(1×1内核大小)卷积层创建了一个softmax概率图,每个像素采用一种特定的颜色。这导致C信道概率图m(x)(C信道上的softmax)。然后,对于每个输入图像x,映射M(x)被计算为C通道上的arg maxθ= arg minθ(xΣ,y)∈DL(y,fθ(x)),(1)概率图m(x),M110119(x)=argmax m(x)。(三)其中θθ表示最佳参数。对于颜色量化,我们设计了ColorCNN架构。给定输入图像x,它可以输出量化的颜色CRGB颜色调色板T(x),其形状为C×3,被计算为落入某些像素的所有像素的平均值。110120˜布拉奇˜˜X=C[T(x)] c·I(M(x)= c)。(五)相同的参数,它们的行为非常不同。 看到图6,用于输出之间的并排比较ΣΣ���������相同颜色索引的像素argmax平均对应颜色������������˜所有像素所有颜色加权平均���˜图4:ColorCNN架构(测试时)。首先,卷积层输出C颜色的C通道概率图m(x)。 接下来,1通道颜色索引图M(x)通过arg max函数创建。然后,调色板T(x)被计算为具有相同颜色索引的所有像素的平均值。最后,通过查表会话创建颜色量化图像x量化的颜色索引,图5:可微近似(训练时间)。使用C通道概率图m(x)代替arg_max颜色索引图M(x)。接下来,调色板t(x)被调整为所有像素上的加权平均最后,代替查表,量化图像x被计算为调色板中所有这里,C通道概率分布[m(x)]u,v被用作像素(u,v)对C颜色的贡献率。这将导致稍微不同的调色板t(x)。[T(x)](u,v)[x]u,v·I=.[M(x)]u,v=c 、 (四)最后,我们将表查找过程从将原始的正向传递转化为加权和。的量化C(u,v)I.[M(x)]u,v=c对于索引为c的颜色,我们使用[m(x)]c作为整个图像上的表达强度。从数学上讲,量化图像x被计算为其中[·]i表示索引为i的元素或张量。 I(·)是一个指标函数。·表示逐点乘法。第对于W×H图像中的像素(u,v),[x]u,v表示输入图像中的像素及其RGB值,并且[M(x)]u,vx= n[t(x)]c·[m(x)]c。(七)表示其计算的颜色索引。 [T(x)]c 表示所述量化颜色c的RGB值。通过结合Eq. 6,7,ColorCNN可以用公式表示为x=g(x)。最后我们˜˜ψ最后,量化图像x被创建为:替代G(·)与g (·)在Eq.二是端到端培训。即使两个前锋传球g(·)和g (·)使用通过结合Eq. 3,4,5,我们完成了ColorCNN,ward passx=g(x).4.3. 端到端学习4.3.1可微逼近图5显示了训练中的可微近似。首先,我们移除等式2中的arg max 1通道颜色索引图M(x)3.相反,我们使用C通道softmax概率图m(x)。接下来,我们更改以下调色板设计。对于每个量化的颜色,不是平均相同颜色索引的像素,而是将其RGB颜色值[t(x)]c设置为所有像素的加权平均值,[m(x)]Σ110121˜Σ测试时输出x只有C种颜色,而火车-时间输出x具有多于C种颜色。的主要原因这种不匹配可以归结为一个热softmax向量如图4.独热方法只允许从某些像素到一个量化颜色的影响,以及从一个颜色到任何量化像素的影响。另一方面,在Fig. 5、使用softmax函数,所有pix-els影响调色板中的所有颜色,调色板中的所有颜色对输出图像中的每个像素都有贡献。4.3.2正则化在训练过程中,每个像素中的softmax概率分布可能会远离一个独热向量,这可能会导致过拟合。[t(x)]n(u,v)[x]u,v·[m(x)]u,v,c(u,v)u,v,c为了减少这种差异,我们提出了一个规则-larization术语它鼓励概率分布在=C、(6)110122˜˜˜Σ������������˜(a) 测试时间结果(b) 列车时间结果(a)Original(b)MedianCut(c)OCTree(d)ColorCNN图6:测试时结果x和训练时结果x之间的比较。x中的每个像素都是其调色板中所有颜色的加权平均值。因此,引入了更多的颜色。每个像素更像是一个独热向量。对于像素(u,v),我们最大化概率分布[m(x)]u,v的最大值。正则化项被设计为图7:6位颜色量化结果。传统冰毒-ODS将颜色量化公式化为聚类问题。相反,我们将此问题公式化为逐像素分类。当假设更大数量的聚类(颜色空间大小C)时,基于分类的方法(Col或CNN)不能与基于聚类的方法竞争。有关更多详细信息,请参见第5节。R=log2C ×1 −1C × max [m(x)]u,vC(u,v).(八)ColorCNN与基于聚类的颜色量化。使用每像素分类公式,当颜色空间很大时,Col- orCNN不能提供与基于聚类的方法竞争的结果(图2)。(七). 这我们取总和的负数,因为我们希望最小化这个正则化项R。我们还将正则化项偏移1,以使其为正。4.3.3颜色抖动我们用预训练的分类器fθ(·)训练所提出的ColorCNN(参见等式10)。2)。在训练过程中,只要Color-CNN能提供勉强令人满意的结果,预训练的分类器就有很好的机会做出正确的决定。然而,在训练时间结果中给予更多的自由度,当网络收敛时,测试时间结果可能仍然很难我们把这种现象称为预收敛。为了防止这种过早收敛,在训练过程中,我们在归一化后的颜色量化图像x上添加抖动×n噪声n是从高斯分布N(0,1)中采样的。表示其重量。首先,训练输出延迟收敛的方差较高(更多难以拟合具有更高方差的数据),从而允许更好地训练网络。第二,具有颜色抖动(较高方差)的训练输出的特征分布可能与测试输出的特征分布有更多重叠。由于classi- fier可以识别颜色抖动的训练输出,它可以在测试过程中表现得更好。5. 讨论更大的色彩空间不是这项工作的重点。当颜色空间更大时,更丰富的颜色自然支持更多的结构,使结构保持不太成为科学问题。此外,许多传统的方法研究这个问题,他们的量化结果达到了很好的精度上预先训练的分类器。事实上,在6位颜色空间中,量化图像的精度仅略微落后于原始图像(见第6.2节)。是非常正常的,因为每像素分类单独处理每个像素的特征具有全局信息,但这是不够的:需要在全球和集体作出决定。通过一种有能力的端到端神经网络聚类方法,ColorCNN可能会超过传统方法,即使在大的颜色空间中也是如此。有人可能会问,为什么不在事实上,使用神经网络来解决聚类问题是不平凡的,并且本身就是一个具有挑战性的问题神经网络聚类中的一些pi- oneer工作研究端到端特征更新或特征降维[46,4]。尽管如此,他们在测试过程中仍然必须依赖k-means或其他聚类事实上,神经网络聚类本身是一个不同的工作线,超出了本文的范围6. 实验6.1. 实验装置数据集。我们在多个数据集上测试了ColorCNN的性能。CIFAR10和CIFAR100数据集[20]分别包括10和100类一般对象。与CIFAR10类似,STL 10数据集[8]也包含10个图像类。然而,STL 10中的图像具有更高的96×96分辨率。我们还评估了tiny-imagenet- 200数据集[22], 这是 ImageNet数 据集 [9]的 子集 。 它有 200类64×64的通用对象图像。我们比较了表1中的四个数据集。评价为了进行评估,我们报告了上述数据集的前1分类准确性。分类网络。我们选择AlexNet [21],VGG16 [34]和ResNet18 [16]作为分类网络。所有分类器网络都训练了60个epoch,批次大小为128,除了STL 10,我们将批次大小设置为.Σ110123CIFAR10CIFAR100STL10小200AlexNet [21]86.862.573.850.2VGG 16 [34]93.573.179.862.6ResNet18 [16]94.676.384.369.1表1:数据集比较。“Tiny200”表示微小图像网200数据集。†表示我们使用验证集进行测试,因为在线测试集不可用。尺寸为32。我们使用动量为0的SGD优化器。5,L2-归一化为5×10−4。我们选择1cycle学习率调度器[36],峰值学习率为0。1.一、ColorCNN. 我们在原始图像预训练分类器的基础上训练ColorCNN。我们将超参数设置为如下对于正则化和颜色抖动权重,我们设置γ=1和λ=1。我们还将量化图像归一化为原始图像的4倍默认方差,以防止过早收敛。对于训练,我们运行梯度下降60个epoch,批量大小为128。与分类网络类似,我们 还 将 STL 10 数 据 集 的 批 量 大 小 减 少 到 32 用 于ColorCNN训练的SGD优化器与分类器网络相同。对于学习率调度器,我们选择Cosine-Warm- Restart[26],峰值学习率为0。01,最小学习率为0,均匀重启周期为20。所有的实验都是在RTX-2080 TI GPU上完成的6.2. ColorCNN的评价分类网络性能。 我们在表2中报告了分类网络的top-1测试准确度在所有四个数据集上,从AlexNet到VGG16再到ResNet18,准确性都有一致的提高可视化为ColorCNN低比特量子化 如图8、ColorCNN有效地保留了形状、纹理和其他结构。例如,飞机机翼,汽车轮胎和挡风玻璃,以及鸟的脸颊和腹部。在列(d)中,我们发现通过自动编码器提取的特征图在信息边缘、细节和纹理上显示出高激活。我们进一步表明,从这些关键结构图中的精度增加。9.第九条。低位色彩量化性能。我们使用图中的三个网络在所有四个数据集上报告了彩色量化图像的前1分类精度。9.我们选择MedianCut [17]、OCTree [14]和带有抖动的MedianCut[12]进行比较。首先,所提出的ColorCNN方法在小颜色空间中比传统的量化方法带来了一致和显著的改进。使用AlexNet作为分类网络,Col- orCNN的1位量化结果这意味着37.6% 、 8.6% 、 9.6%和 14.5% 的 绝 对 准 确 度 提 高 ,92.9%,表2:分类网络的前1名测试准确度(%)(a) 原始(b)MedianCut (c)ColorCNN (d)激活图8:1位颜色量化结果的示例基于其自动编码器输出可视化,列(d)示出了由ColorCNN识别的关键结构。与传统的颜色量化方法相比,相对准确度分别提高了56.5%、66.5%和75.3%。由于与10向分类相比,100向分类中的任务要求更高(在相同数据上),因此与CIFAR10相比,CIFAR100的改进(绝对尽管如此,这些非平凡的精度增加仍然证明了所提出的方法的有效性我们指出,在原始图像上训练的分类器1)在低比特图像上的性能明显较低,2)但仍然能够对一些低比特图像进行分类。彩色量化图像与原始图像可以看作是两个不同的域。这两个域在外观上有很大的不同,但也有相同的类集合和一些外观相似之处。因此,它们的特征分布非常不同,但仍有一定程度的重叠,这解释了现象的两个方面。其次,ColorCNN在大颜色空间下通常不如传统方法。如第5节所述,ColorCNN没有将颜色量化公式化为聚类问题。这自然会导致在更大的聚类数(颜色空间大小)下的结果较差,因为ColorCNN中的逐像素方法无法强制执行聚类内相似性。第三,发现通过抖动来保持结构是没有用的。抖动基于颜色值的量化误差它可以进一步消除CIFAR10CIFAR100STL10小200#类1010010200火车图像50,00050,0005,000100,000测试图像10,00010,0008,00010,000†决议32 ×3232 ×3296 ×9664 ×64101247˜˜CIFAR10@AlexNet1 2 3 4 5 6CIFAR100@AlexNet1 2 3 4 5 6STL10@AlexNetColorCNNMedianCutOCTreeMedianCut+抖动全色1 2 3 4 5 6Tiny200@AlexNetColorCNNMedianCutOCTreeMedianCut+Dither全色1 2 3 4 5 6CIFAR10@VGG161 2 3 4 5 6CIFAR100@VGG161 2 3 4 5 6STL10@VGG16ColorCNNMedianCutOCTreeMedianCut+抖动全色1 2 3 4 5 6Tiny200@VGG16ColorCNNMedianCutOCTreeMedianCut+Dither全色1 2 3 4 5 6CIFAR10@ResNet181 2 3 4 5 6调色板大小(位)CIFAR100@ResNet181 2 3 4 5 6调色板大小(位)STL10@ResNet18ColorCNNMedianCutOCTreeMedianCut+抖动全色1 2 3 4 5 6调色板大小(位)Tiny200@ResNet18⋆⋆⋆ColorCNNMedianCutOCTreeMedianCut+抖动全色1 2 3 4 5 6调色板大小(位)图9:彩色量化图像在四个数据集和三个网络上的Top-1分类精度。我们观察到ColorCNN在低位量化下明显优于MedianCut,OCTree和MedianCut+Dither。统计学上的差异意味着ColorCNN和MedianCut之间的准确性差异在统计学上非常显著(即,p-值<0。001),1位颜色空间,tiny-imagenet-200数据集和ResNet 18分类器。注意,在大颜色空间下的量化不是这项工作的重点。第5节提供了关于这一考虑的更多讨论。平坦的颜色区域和假轮廓。不考虑-收敛。考虑到训练时间和考试时间的差异-结构和语义的变化,抖动仍然未能时间向前传递(·)和g (·),这个不太成熟的转换器-用有限的颜色保留语义丰富的结构空间,这进一步导致较差的精度。不同分类网络的影响。我们在图的不同行中比较了不同分类网络的量化性能。9.研究发现,在极小的颜色空间中,较强的分类器具有较低的准确性更强的分类器可以向图像数据添加更多的变换,提取更多的表达特征,从而具有更高的准确性。然而,当颜色空间有限时,这些颜色和结构都是暗淡的。这可能导致更强分类器在特征空间中的较大漂移,因为它们向输入添加了更多变换,最终导致准确性降低。我 们 还 发 现 , 当 使 用 更 强 的 分 类 器 训 练 时 ,ColorCNN的性能并不总是更高。事实上,更强的分类器可以在训练期间容易地对量化图像x进行分类,这可能导致更早的、不太成熟的控制。梯度可能导致更多的过拟合和更低的准确度。低位色彩量化作为图像压缩。 在图10中,随着颜色空间大小从1比特增长到6比特,量化图像在用PNG编码时采用更高的比特率,并且具有更高的测试精度。与传统的颜色量化方法相比,ColorCNN可以在较低的比特率下达到更高的测试精度。如图7、即使允许6位颜色空间,Color- CNN也只对大部分图像使用少数颜色。不均匀地使用所有颜色将引入较低的信息熵[32],这导致通过PNG压缩时的比特率较小。这表明ColorCNN可以更有效地提取图像的关键结构。此外,在每像素0.2位的情况下,1位ColorCNN量化甚至可以比JPEG压缩性能高出13.2%,后者具有2种以上的颜色。这证明了ColorCNN的有效性ColorCNNMedianCutOCTreeMedianCut+抖动全色ColorCNNMedianCutOCTreeMedianCut+抖动全色ColorCNNMedianCutOCTreeMedianCut+抖动全色ColorCNNMedianCutOCTreeMedianCut+Dither全色ColorCNNMedianCutOCTreeMedianCut+Dither全色ColorCNNMedianCutOCTreeMedianCut+Dither全色准确度(%)准确度(%)准确度(%)810125Tiny200@AlexNet准确度(%)#color/image#bit/pixelColorCNN69.78.00.425无正则化67.55.10.323无色彩抖动67.88.00.390表3:3位颜色量化下的测试结果,STL 10数据集,AlexNet分类器。00.40.81.2 1.62(%) 3位:STL 10@AlexNet(%)3位:STL 10每像素比特图10:不同码率下的分类精度。实线表示通过PNG编码的彩色量化图像虚线表示JPEG编码作为参考。对于颜色量化方法,从低到高的比特率是在从1比特到6比特的颜色空间大小下量化图像。6.3. 消融研究0.11重量10AlexnetVGG16任务网络ResNet18我们设置正则化权重γ=0或颜色抖动权重γ=0,以查看没有这两者的ColorCNN性能。结果如表3所示首先,我们发现去除正则化项会导致精度下降。事实上,如果没有正则化,在测试时选择的颜色会更少。这是因为在训练期间softmax颜色填充可以在图像中引入更多颜色,如图所示。6.这种颜色填充的差异会导致过度拟合和2.2%的准确率下降。其次,没有颜色抖动也会导致精度下降。在没有颜色抖动的情况下,训练时间量化对于预先训练的分类器来说可能太容易了。这可能导致预收敛,从而进一步降低精度1.9%。第三,更高的比特率并不一定导致更高的精度,重要的是保持关键结构。在类似的精度下,没有正则化的ColorCNN实际上比没有颜色抖动的ColorCNN具有更小的比特率。在正则化和颜色抖动的情况下,比特率甚至更高。然而,这一次,由于引入的结构可以帮助识别,ColorCNN实现了最高的准确性。我们发现这与图1中的压缩率曲线是一致的。10,其中ColorCNN在较低的比特率下实现了更高的准确性,因为它保留了更关键的结构。6.4. 变更研究我们比较了ColorCNN及其变体的识别准确性,包括具有不同超参数的变体,以及具有不同自动编码器主干的变体(图1)。第11段)。当正则化权重太小或太高时,ColorCNN的性能会降低。同样,颜色抖动太小或太大也会导致精度大幅下降。这是因为将权重设置得太小或太大会导致影响太小,或完全覆盖其他任何内容。对于正则化和颜色图11:不同权重和不同自动编码器主干的性能比较。jitter,当权重设置为1时,我们见证了最高的精度,这与我们的超参数设置相对应。当自动编码器骨干被DnCNN [49]取代时,ColorCNN的性能在所有分类网络下都会下降。与U-Net不同,DnCNN没有有旁路来维持当地的结构。其结果是,其量化结果可能会有结构错位,这会影响分类精度。7. 结论在本文中,我们研究了在极小的颜色空间下保持信息结构的科学问题。在这种情况下,传统的颜色量化方法往往会丢失颜色和结构,使其输出无法被神经网络理解。为了保持量化图像中的关键结构,使它们能够被正确识别,我们设计了Col- orCNN颜色量化网络。通过整合多个线索进行综合量化决策,ColorCNN即使在极端条件下也能有效地识别和保留信息结构。为ColorCNN设计了一种端到端的训练方法,以最大限度地在四个具有三个分类网络的数据集上证明了该方法的有效性。8. 确认梁铮博士是澳大利亚政府资助的澳大利亚研究委员会发现早期职业奖(DE200101283)的获得者。ColorCNNMedianCutOCTreeJPEG正则化色抖动准确度(%)59.559.665.767.066.0DnCNN U-Net69.7810126引用[1] Radhakrishna Achanta , Appu Shaji , Kevin Smith ,Aurelien Lucchi,PascalFua和SabineSüsstrunk。切片超像素与最先 进 的 超 像 素 方 法 的 比 较 。 IEEE Transactions onPattern Analysis and Machine Intelligence,34(11):2274[2] EirikurAgustsson,FabianMentzer,MichaelTschannen , Lukas Cavigelli , Radu Mrs. fte , LucaBenini,and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化。神经信息处理系统的进展,第1141-1151页[3] EirikurAgustsson , MichaelTschannen , FabianMentzer,Radu Timofte,and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。arXiv预印本arXiv:1804.02958,2018。[4] Elie Aljalbout , Vladimir Golkov , Yawar Siddiqui ,Maximilian Strobel,and Daniel Cremers.使用深度学习进行 聚 类 : 分 类 学 和 新 方 法 。 arXiv 预 印 本 arXiv :1801.07648,2018。[5] JohannesBall e',ValeroLaparra,andEeroPSimoncelli. 端到端优化的图像压缩。arXiv预印本arXiv:1611.01704,2016。[6] 托马斯·布泰尔。Png(便携式网络图形)规范1.0版。一九九七年。[7] Federico Camposeco,Andrea Cohen,Marc Pollefeys,and Torsten Sattler.用于视觉局部化的混合场景压缩。在IEEE计算机视觉和模式识别会议论文集,第7653-7662页[8] Adam Coates,Andrew Ng,and Honglak Lee. 无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集,第215-223页,2011年[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[10] Yining Deng,Charles Kenney,Michael S Moore,andBS Manjunath.对等群滤波与知觉彩色影像量化。在ISCAS'99。1999年IEEE电路与系统VLSI国际研讨会论文集( 目 录 号 99 CH 36349 ) , 第 4 卷 , 第 21-24 页 。IEEE,1999年。[11] Yining Deng and BS Manjunath.图像和视频中颜色纹理区域的无监督分割。IEEE模式分析与机器智能学报,23(8):800[12] RW弗洛伊德和L斯坦伯格。空间灰度的一种自适应技术。在Proceedings of the Society of Information Display,第17卷,第78-84页[13] Robert Geirhos,Patricia Rubisch,Claudio Michaelis,Matthias Bethge , Felix A Wichmann , and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以 提 高 准 确 性 和 鲁 棒 性 。 arXiv 预 印 本 arXiv :1811.12231,2018.[14] 迈克尔·格沃兹和维尔纳·普加斯特一种简单的颜色量化方法:八叉树量化。计算机图形学的新趋势,第219-231页。Springer,1988年。810127[15] Ian Goodfellow Yoshua Bengio和Aaron Courville 深度学习 麻 省 理 工 学 院 出 版 社 , 2016. http : //www.deeplearningbook.org的网站。[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[17] 保罗·赫克伯特彩色图像量化的帧缓冲显示,第16卷。ACM,1982年。[18] Xiaojun Jia,Xingxing Wei,Xuxun Cao,and HassanForoosh. Comdefend:一种有效的图像压缩模型,用于防御对抗性示例。在IEEE计算机视觉和模式识别会议论文集,第6084-6092页[19] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell、Saurabh Singh、Troy Chinen、Sung JinHwang、Joel Shor和George Toderici。改进的有损图像压缩与启动和空间自适应比特率的回流网络。在IEEE计算机视觉和模式识别会议论文集,第4385- 4393页[20] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[22] 雅乐、玄阳。微型图像网视觉识别挑战。CS 231 N,2015年。[23] 慕丽、左望梦、古书航、赵德斌、张大卫。学习卷积网络用于内容加权图像压缩。在IEEE计算机视觉和模式识别会议论文集,第3214-3223页[24] 刘子豪,刘奇,刘涛,王延智,温武杰。特色蒸馏:面向dnn的jpeg压缩对抗性示例。arXiv预印本arXiv:1803.05787,2018。[25] Zihao Liu , Xiaowei Xu , Tao Liu , Qi Liu , YanzhiWang , Yiyu Shi , Wujie Wen , Meiping Huang ,Haiyun Yuan,and Jian Zhuang.机器视觉引导的三维医学图像压缩,用于云中的高效传输和准确分割。arXiv预印本arXiv:1904.08487,2019。[26] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:Stochas-tic 梯 度 下 降 与 热 重 启 。 arXiv 预 印 本 arXiv :1608.03983,2016。[27] FabianM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 迷你jar(在没有java环境下的机器也能运行)
- ASP NET编程中的技巧.doc
- 帮忙调试一下程序,怎么用c#算不出来最优解?谢谢
- 基于Struts,Hibernate和Spring的J2EE架构研究
- 小区物业管理信息系统设计论文
- RealView 编译工具
- eclipse的使用教程
- c语言笔试题目大全(很全的题目哦)
- 基于ASP语言的考试系统软件设计
- 基于单片机的遥控技术的引用
- weblogic.jdbc.wrapper.Clob_oracle_sql_CLOB 类型转换解决办法
- Visual C++ MFC 简明教程
- EP93XX系列ARM--嵌入式Linux开发详解-
- 王珊、萨师煊《数据库系统概论》(第四版)课后习题解答
- jBPM的学习心得 希望对你有帮助
- 案例_结构化方法的需求分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功