没有合适的资源?快使用搜索试试~ 我知道了~
自我监督在着色任务中的有效性和效果分析
6874Ex. 3:着色(预测给定强度的颜色)、,、你好,.着色作为视觉理解的代理任务芝加哥大学larsson@cs.uchicago.eduMichael MaireTTI芝加哥mmaire@ttic.eduGregoryShakhnarovich TTI芝加哥greg@ttic.edu摘要通过(x,y)对学习表示分类我们调查和完善自我监督作为一个下降的,替代ImageNet预训练,专注于自动着色作为代理任务。自我监督列车-“flamingo”,“flamingo”,“hay“,。. .已经证明,利用联合国更有希望标签数据比其他传统的无监督学习方法。我们建立在这一成功的基础上,并评估我们的自我监督网络在几种情况下的能力。对自我监督Ex. 1:修复(删除补丁,然后预测它)VOC分割和分类任务,我们提出的结果是国家的最先进的方法不使用进口,快,快,快,你好,. .预训练表示的ageNet标签此外,我们提出了第一个深入的分析自我监督通过彩色化,得出的结论是,制定的损失,培训细节和网络架构发挥重要作用,其有效性。通过重新审视ImageNet预训练范式,进一步扩展了这项调查,提出了以下问题:需要多少训练数据?需要多少个标签?微调后功能会有多大变化?我们将这些问题与自我监督联系起来,表明着色提供了与各种ImageNet预训练类似的强大监督信号1. 介绍深度前馈网络的成功源于它们能够通过更多的训练数据进行扩展。更多数据的可用性通常可以承受模型复杂性的增加。然而,这种对昂贵、繁琐和容易出错的人工注释的需求受到严重限制,降低了我们为新领域以及注释特别昂贵的领域(例如,图像分割)。与此同时,我们可以访问大量未标记的视觉数据,这些数据基本上是免费的。这项工作是一种尝试,以改善手段,利用这种丰富。我们设法使其更接近使用标记数据的结果,但自我监督的最终长期目标可能是完全取代监督预训练。替代监督培训,不需要la-Ex. 2:上下文(给定两个补丁,预测它们的空间关系)..你好..Σ Σ、,、、、, ,的。 . .图1.使用最初训练用于(x,y)对分类的表示来初始化网络已成为计算机视觉中的标准实践。自我监督是一系列替代预训练方法,不需要任何标记数据,因为标签是通过未标记数据“制造”的。我们专注于彩色化,其中图像被分为其强度和颜色分量,前者预测后者。beled数据取得的成功有限。无监督学习方法,例如通过最小化重建误差训练的压缩嵌入,在图像合成[18]中比表示学习更成功。半监督学习,联合训练监督和无监督损失,提供了一个中间地带[7,35]。然而,最近的工作倾向于选择顺序组合(无监督预训练,监督微调)[4,5],可能是因为它防止了无监督损失在训练后期的破坏性。无监督学习的一个相关努力是开发与较弱形式的监督一起工作的模型[2,40]。这只在一定程度上减轻了人类的负担,6875模型性能的价格。最近,自我监督已经成为无监督学习的一种新形式关键的观察是,标记数据的部分好处可能是它导致使用区分损失。这种类型的损失可能比重建或基于可能性的损失更适合于表示学习。自我监督是一种通过将每个输入样本分为两部分来对未标记数据使用区分性损失的方法,预测部分的关联。我们专注于自监督着色[20,42],其中每个图像都被分为其强度和颜色,使用前者来预测后者。我们对自我监督的主要贡献是:• 在不使用ImageNet标签的方法中,VOC 2007分类和VOC 2012分割的最新结果。• 第一次深入分析通过着色的自我监督。我们研究了损失、网络架构和训练细节的影响,表明有许多重要的方面会影响结果。• 一项关于ImageNet预训练的各种公式的实证研究,以及它们与自我监督的比较。2. 相关工作在我们为下游监督任务替换基于分类的预训练的工作中,首先要考虑的是巧妙的网络初始化。被初始化以促进跨层激活的统一规模的网络更容易和更快地收敛[6,9]。然而,统一的尺度仅在广泛的数据假设下进行统计预测,因此可以通过查看实际数据的激活和归一化来进一步理解这个想法[23]。使用一些训练数据来初始化权重模糊了初始化和无监督预训练之间的界限。例如,使用分层k均值聚类[3,19]应该被认为是无监督的预训练,即使它可能是一个特别快的预训练。无监督预训练可用于促进优化或将网络暴露于数量级更大的未标记数据。前者曾经是一种流行的动机,但由于改进的训练技术(例如引入非饱和激活[27],更好的初始化[6]和训练算法[32,17])而变得不必要,因此不再受欢迎。第二个动机是利用更多的数据,这也可以实现为半监督训练,这是一个开放的问题,目前最好的方法很少用于竞争视觉系统。最近的自监督特征学习方法有几种形式,大致分为利用自然视觉数据中的时间或空间结构的方法暂时的 已经存在使用相邻视频帧之间的相关性作为学习信号的各种各样的方法。一种方法是尝试预测未来的帧,这是一个类似于语言建模的任务,并且经常使用基于RNN和LSTM的类似技术[36,33]。也可以训练嵌入,其中时间上接近的帧被认为是相似的(使用对[25,14,15]或三元组[38])。另一种使用三重丢失的方法呈现三个帧,并试图预测它们是否正确排序[24]。Pathak等人。 [30]通过基于光流预测显着性来学习通用表示。Owens等人。 [29],一些从时间类别突破的东西,对单个视频帧进行操作,以预测来自整个剪辑的音频的统计摘要第一个基于视频的自我监督方法是基于独立分量分析(ICA)[37,10]。最近的后续工作将其推广到非线性设置[11]。空间。对单帧输入进行操作的方法通常使用空间维度来划分样本以进行自我监督。给定来自图像的一对块,Do- erch等人。 [4]通过预测两个块具有八种可能的空间组成中的哪一种来训练表示。Noroozi Favaro[28]更进一步,通过解决一个3乘3的拼图来学习表示。内绘任务(删除一些像素,然后预测它们)被Pathak等人用于表示学习。[31]。也有研究使用双向生成对抗网络(BiGAN)来学习表示[5]。这不是我们通常认为的自我监督,但它确实类似地构成了一个监督学习任务(真实与真实)。synthetic)在未标记的数据上驱动表示学习。着色。最后是着色[20,42,43]。一般来说,前面的两个类别沿着时空线分割输入样本,要么预测一个给定的另一个,要么预测线本身。自动着色与此不同,因为它要求预测与输入中心相同的像素上的颜色,而不丢弃任何空间信息。我们推测,这可能使它更适合类似性质的任务,如语义分割;我们在这个基准上取得了很好的成绩。通过着色的表示学习首先作为两篇自动着色论文的一部分提出[20,42]。Zhang等人。 [42]展示了所有PASCAL任务的结果,并显示着色是自我监督的领先者。然而,像大多数自我监督论文一样,它仅限于AlexNet,因此与最近的监督方法相比,结果并不理想。Larsson等人。 [20]介绍了PASCAL VOC语义分割的最新结果,我们将其从50.2%提高到60.0% mIU,提高了近10个点。这两篇论文都提出了几乎没有分析或调查的结果。6876微调前微调后图2. 功能重用/再利用。 左列显示了来自彩色化网络的顶部激活(与图1相同)。(五)。右列显示了网络经过语义分割微调后的相应特征。功能可以按原样重用(顶部)、专用化(中间)或废弃和替换(底部)。定量研究见图3。1.00.80.60.40.20.0conv1_1 conv2_1 conv3_1 conv4_1 conv5_1 fc6 fc7图3. 特征转移。语义分割微调前后VGG-16各层特征激活之间的相关性条高表示中值相关性,误差条表示四分位距。定性示例见图2。3. 着色作为目标任务为了能够将灰度照片转换为彩色,训练自动着色器是一个活跃的研究领域最近的方法训练深度卷积神经网络来预测颜色[12]或颜色分布[20,42]。后一种方法之后是从直方图预测中确定颜色,以产生最终结果。为了获得最佳的着色结果,这些网络使用基于分类的网络进行初始化,以利用其高级特征,从而更好地预测颜色。在本节中,我们将描述如何训练着色,重新审视一些设计决策,3.1. 培训我们的实验设置大量借鉴了Larsson等人。 [20],使用Caffe [16]及其公共源代码版本来训练着色网络。对于下游任务,我们使用TensorFlow [1]并提供测试代码和训练模型。1损失 我们考虑L*a*b颜色值的回归损失[20,42,12]以及色调/色度直方图的KL发散损失[20]。对于后者,直方图是从每个目标像素周围的7 × 7窗口计算的,并放置在32个色调箱和32个色度箱中。我们评估它们学习表示的能力,忽略它们进行着色的能力。在我们的比较中,我们确保损失的规模相似,以便它们的有效学习率尽可能接近。超列。网络使用超列[22,26,8]进行稀疏训练[20]。这意味着对于每个图像,仅计算超列的小样本。这降低了内存需求,并允许我们在更大的图像上进行训练。请注意,超列可用于着色预训练,以及作为下游任务的分割。由于我们有理由相信超列训练可能会破坏剩余训练,因此我们不使用超列来训练ResNet着色器。数据集。我们通过结合ImageNet [34]中的1.3M和Places205 [45]中的2.4M来训练3.7M未标记的图像。数据集包含一些灰度图像,但我们没有努力将它们分类,因为没有办法区分合法的消色差图像和去饱和图像。训练所有训练都是使用标准的随机梯度下降完成的,动量设置为0.9。着色网络使用Xavier初始化[6]进行初始化,并使用批量归一化进行训练,而无需重新偏置或重新缩放参数[13]。每次处理图像时,它都会被随机镜像,并且图像会被随机缩放,使得最短边在352和600之间。最后,一个352 × 352补丁被提取和去饱和,然后通过网络馈送。在我们的比较研究中,我们使用着色损失进行了3个epoch的训练(在初始学习率上花费了2个epoch)。在我们更长时间的实验中,我们训练了大约10个epoch。对于我们最好的ResNet模型,我们训练的时间要长得多(35个epoch),尽管输入较小(224 × 224);我们发现在下游训练中,大的输入量更重要4. 着色作为代理任务将我们的重点转移到纯粹用于其视觉表示的着色网络,我们描述了它如何帮助改善分类和分割的结果。以产生美学色彩图像为目标,而是考虑它们对学习表征的影响。1https://github.com/gustavla/self-supervision狗狗ρ =. 68运动员运动员.56建筑圆顶/建筑物.42监测.28红色车.17南瓜灯狗.12TV/监视器特征稳定性上校Cls.相关中位数68774.1. 培训下游任务通过初始化从头开始着色网络的权重来训练。一些关键考虑因素如下:提前停止。在小样本量上训练容易出现过拟合。我们发现,防止这种情况的最有效不同初始化的模型(随机、彩色、分类)需要非常不同的早期停止时间表.找到一种在所有这些情况下都有效的方法是我们研究的关键。我们将训练数据分成90/10,只训练90%;其余部分用于监控过拟合。每当10%的验证分数(不是替代损失)停止改善时,学习率就会下降。这样做两次 后 , 培 训 结 束 。 对 于 我 们 最 具 竞 争 力 的 实 验(Tab.1),然后我们使用100%的数据重新训练,交叉验证的学习率时间表固定。感受场。 以前的工作语义段-(+FoV)VGG-1677.256.0已经显示出大的感受野的重要性[26,(+FoV)ResNet-15277.360.041]。 实现这一点的一种方法是使用扩张卷积[41,39],然而,这重新定义了滤波器的解释,因此需要重新训练。相反,我们在网络的顶部添加了两个额外的块(步幅2的2 × 2最大池,具有1,024个特征的3 × 3卷积),每个块都以每个块160个像素扩展感受野我们在大的输入图像(448 × 448)上进行训练,以充分欣赏放大的感受野。超列。请注意,当下游任务是语义分割时使用超列是一个单独的设计选择,不需要在着色预训练期间与超列的使用相结合。在任何一种情况下,后超列参数权重都不会被重用。对于ResNet,我们使用完整超列的子集2批量归一化。从头开始训练的模型使用无参数批量归一化。然而,对于下游训练,我们将均值和方差吸收到权重和偏差中,并在不进行批量归一化的情况下进行训练(ResNet除外,根据我们的经验,它有助于)。对于没有经过批量归一化训练并且在各层之间规模不平衡的网络(例如ImageNet预训练的VGG-16),我们重新平衡网络,以便每个层服装双对于ImageNet预训练实验,我们观察到从分类网络到完全卷积网络可能会由于每层的零填充而引入边缘效应。原始VGG-16没有表现出的问题,使我们怀疑这可能是由于引入了批处理规范化。为表1. VOC比较。与其他初始化和自我监督方法在VOC 2007分类(测试)和VOC 2012细分(验证)上的比较。 注意我们的基础-线AlexNet结果(38.4%)也是AlexNet模型中最具竞争力的使用超列代替FCN部分原因是:Running Zhang et al. ’scolorization model with切换到ResNet,添加更大的FoV,训练时间更长,结果显着更高,为60.0% mIU。注意,NorooziFavaro使用的修改后的AlexNet与AlexNet具有相同数量的参数,从conv1到pool5的空间减少了2,增加了中间激活的大小边缘,即使感受野越来越多地悬在图像的边缘上,减少了语义信息的量。对这3 项的修正使得激活行为良好,这对于适当地可视化顶级激活是很重要的。然而,它并没有对下游任务提供可测量的改进,这意味着网络可以在微调阶段对此进行校正。颜色. 由于着色网络的域是灰度,除非另有说明,否则我们的下游实验都是在灰度输入上操作的。当重新引入着色时,我们将conv1 1中的灰度过滤器转换为RGB(复制到所有三个通道,除以三),并让它们在下游任务中进行微调。新训练的网络,激活增加接近3我们用前一层的偏置填充,而不是用零填充。2ResNet-152超列:conv 1,res 2{a,b,c},res 3b{1,4,7},res 4 b{5,10,15,20,25,30,35},res 5c这是对期望值的估计,因为我们使用了无参数的批量归一化,均值为零,只留下偏差。初始化架构课隔离区%mAP %mIUImageNet(+FoV) VGG-16 86.9 69.5随机(我们的)AlexNet46.223.5随机[31]AlexNet53.319.8k-均值[19,5]AlexNet56.632.6k-均值[19]VGG-1656.5-k-均值[19]GoogLeNet55.0-Pathak等人[三十一]AlexNet56.529.7王古普塔[38]AlexNet58.7-Donahue等人[五]《中国日报》AlexNet60.135.2Doersch等人 [4,5]AlexNet65.3-Zhang等人(col)[42]AlexNet65.635.6Zhang等人(s-b)[43]AlexNet67.136.0[28]第二十八话Mod. AlexNet68.6-Larsson等[20个]VGG-16-50.2我们的方法AlexNet65.938.46878训练前损失隔离区(%mIU)体系结构初始化隔离区+FoV ImNt-100k10k回归48.0%mIU前5名的百分比直方图(无超列)52.7AlexNetRnd23.524.639.16.7直方图52.9AlexNetCol36.240.848.217.4表2.自我监督的缺失。( VGG-16)损失的选择对下游业绩产生重大影响。 然而,预-VGG-16 RndVGG-16山口32.8 35.150.7 52.9 59.0用超列训练似乎对学习没有我们在VOC 2012分割(val)上使用模型对此进行评估,ResNet-152Rnd*9.9*10.542.58.1使用超列,而不管它是否在ResNet-152Col52.353.963.129.6预训练5. 结果我们首先介绍了两个已建立的PASCAL VOC基准测试的结果,然后在第6节中对不同的设计选择和预训练范例进行了5.1. PascalVOC 2012语义分割。我们在标准扩展分割数据(10,582个样本)上进行训练,并在验证集(1,449个样本)上进行测试。我们以原始比例对随机作物取样。使用具有扩展视野的ResNet-152模型,我们实现了60.0% mIU(参见表1)。1),在这个基准上报告的最高结果,不使用监督预训练。值得注意的是,该值大大高于基于AlexNet的FCN [21](48.0%),甚至略高于基于VGG-16的FCN(59.4%4),这两种方法都是在ImageNet上训练的VOC 2007分类。我们在trainval(5,011个样本)上进行训练,并在测试集(4,952个样本)上进行测试。我们使用与[5]中相同的10种作物测试的训练过程。我们的结果为77.3% mAP(见表1)。1)在没有使用ImageNet标签的情况下,它们是最先进的。6. 实验我们提出了广泛的实验,突出了我们的竞争结果的重要方面对于这些研究,除了VOC 2012语义分割,我们还使用了我们构建的两个分类数据集:ImNt-100k/ImNt-10k。类似于1000个类的ImageNet分类,除了我们将训练数据分别限制为100和10个样本/类。此外,所有图像都转换为灰度。我们在ImageNetval上测试了大小为224 × 224的单中心作物,使结果易于与完整的ImageNet训练进行比较对于我们在Tab中的预训练实验。4,我们还使用这些数据集来看看它们在多大程度上能够替代整个ImageNet数据集进行表示学习。4这两个值均参考VOC 2011,仅对736个样本进行了评估,这意味着比较不精确。表3. 建筑。我们比较了各种网络在随机初始化(Rnd)和着色预训练(Col)的下游任务上对于我们的分割结果,我们还考虑了增加感受野大小(+FoV)的影响。从头开始的训练残差(用 * 标记)可能会受到超列的影响,导致低值。6.1. 损失如Tab中所示2,在L*a*b空间中对颜色进行回归产生的这表明损失选择对表征学习至关重要。这比Lars-son等人[20]报告的两种方法之间的着色性能差异大得多(24. 25和2445dB PSNR/0. 318和0的情况。299RMSE)。直方图预测旨在解决颜色不确定性的问题。 然而,他们通过使用直方图预测的汇总统计来实例化图像,意味着在某种程度上重新引入了这个问题。由于我们不关心实例化图像,因此我们不会遭受这种惩罚,因此使用基于直方图预测的损失可以看到更大的改进。我们在色调/色度空间中预测单独直方图的选择也产生了图11中的有趣发现。5,其中我们似乎具有响应于具有高色度以及低色度的输入的非语义过滤器,明显地迎合色度预测。6.2. 网络架构对网络架构影响的调查一直是最近自我监督工作中被忽视的一个方面,该工作仅关注AlexNet。我们提出了第一个详细的研究使用更现代的网络的未开发的潜力这些结果见表1。3.第三章。模型复杂性的增加并不完全明显,因为我们的重点是小样本数据集,较小的网络可能会提供正则化效果。以ImNt-100 k为例,AlexNet、VGG-16和ResNet-152 在 从 头 开 始 训 练 时 的 表 现 都 相 似 ( 39.1% 、43.2%、42.5%)。然而,使用着色预训练时的百分比改善遵循明显的趋势(+9.1,+15.8,+20.6)。这表明,自我监督6879初始化分类着色灰度输入66.556.0颜色输入69.555.9表5. 颜色与灰度输入。 (VOC 2012细分,%mIU)尽管我们基于分类的模型使用颜色时提高了3个点,但重新引入颜色不会带来任何好处。示例:H3(3个分层标签桶)标签#1标签#2标签#3示例:R3(3个随机标签桶)标签#1标签#2标签#3表4. ImageNet预训练。我们评估了ImageNet的各种修改对VOC 2012 Segmentation(val- gray)的有用性。我们通过减少样本大小或减少标签空间来创建新的数据集。前者是通过简单地减少样本量或通过引入10%(E10)或50%(E50)的标签噪声来完成的。后者使用分层标签桶(H16和H2)或随机标签桶(R50和R16)来完成训练了80个epoch的模型是公开的VGG-16(训练了76个epoch),我们针对灰度进行了4个epoch的微调。其余的模型是在灰度图像上从头开始训练的。使我们能够受益于更高的模型复杂性,即使在小样本制度。将其与k均值初始化[19]进行比较,当增加模型复杂度时,k均值初始化没有显示任何改进(表1)。①的人。从头开始训练ResNet进行语义分割是表中的离群值。这是唯一一个从头开始训练残差网络和超列的实验;这可能是一个破坏性的组合,因为低数字表明。6.3. ImageNet预训练我们通过重新审视和重新考虑这种范式的各个方面,将自我监督预训练与ImageNet预训练联系起来( 参 见 表 1 ) 。 4 ) . 首 先 , 我 们 研 究 了 1000 类(C1000)的重要性。为此,我们根据ImageNet类在WordNet层次结构中的位置将它们连接在一起我们发现,H16在具有21个类的下游任务上的性能仅略低于C1000,而H2则明显更差。如果我们将其与我们的着色预训练进行比较,它比H2好得多,只比H16略差。接下来,我们使用第6节中描述的子集ImNt-100 k和ImNt-10 k研究样本量的影响。ImNt-100 k与自我监督着色类似(57.1% vs. VGG-16为56.0%),这表明我们的方法已经用370万个未标记的样本大致替换了10万个标记的样本。将样本减少到每类10个会导致下游结果的更大下降。这个结果与H2相似,这有点令人惊讶:将标签空间折叠成二进制预测与使用1/100的训练数据大致一样糟糕。回顾从回归到直方图预测的彩色化改进,标签空间的丰富性似乎对表示学习至关重要。我们将1000个ImageNet类随机放置在50个(R50)或16个(R16)桶中,我们将其命名为新标签。这意味着我们正在训练一个高度复杂的决策边界,它可能会决定金毛猎犬和小巴属于同一个标签,但金毛猎犬和边境牧羊犬不属于同一个标签。我们认为这类似于自监督着色,因为监督信号类似地认为红色汽车任意地更类似于红色邮筒而不是蓝色汽车。毫不奇怪,我们人为的数据集R50导致我们的下游任务下降了5个点,R16下降了20个点。然而,我们注意到,在20个epoch之后,训练损失仍然在积极减少相反,40个时期的训练换句话说,复杂的类可以为表示学习提供有用的监督,但训练可能需要更长的时间。这与我们对自我监督着色的印象是一致的;虽然收敛速度较慢,但它不断提高其特征通用性,预训练样品历元隔离区(%mIU)没有一--35.1C10001.3M8066.5C10001.3M2062.0C1000100k25057.1C100010k25044.4E10(1.17米)1.3米2061.8E50(0.65M)1.3M2059.4H161.3M2060.0H21.3M2046.1R501.3M2057.34059.46880%mIU2.92.82.72.62.565微调层(VGG-16)60秒QQQQQQ55fc6,fc7QQQQQ□□50conv4 1.. fc7QQQ□45conv11.. fc7□Rnd Col Cls3.6 36.5 60.8-42.6 63.1-53.6 64.235.1 56.0 66.52.42.32.20.0 0.5 1.0 1.5 2.0历元2.53.040353010.0表6. VOC 2012细分。(%mIU)基于分类的预训练(Cls)比基于着色的方法(Col)需要更少的微调这与我们的研究结果一致,即我们的网络经历了更高水平的特征转移(图1)。(3)第三章。我们还包括随机初始化网络(Rnd)的结果,如果不进行微调(3.6%),它根本 这是为了表明它是图4. 学习率。蓝线表示着色训练损失,垂直虚线表示预定学习率下降。红色方块是由着色网络的相应快照初始化的下游任务(VOC 2012 Segmentation)的结果。一些重要的意见:我们很快就获得了物有所值的效果,比随机初始化提高了6个点,只需要0.2个训练周期。Furthermore, im- provementson the downstream task do not quickly saturate, with resultsimproving further when trained 10 epochs in total.降低预训练任务的学习率有助于下游任务,与大约2个epoch的训练损失一样,也有类似的突然改善训练完整的3个epoch而不会降低学习率,结果为49.1%(黄色方块),而52.9% mIU。更多训练。最后,我们测试了标签噪声的影响。当10%的训练图像被重新分配一个随机标签(E10)时,它对下游性能的影响很小。将标签噪声增加到50%(E50)会导致2.6分的惩罚,但它仍然能够学习竞争性表示。6.4. 培训时间和学习率我们在图中显示4,在预训练期间降低学习率对于下游任务的良好性能至关重要这个结果对我们来说并不明显,因为低学习率的训练后期可能过于特定于任务,不利于特征的通用性。此外,我们通过证明三倍长的训练(10个epoch,37M个样本)将VOC 2012分割的结果从52.9%提高到56.0% mIU来展示训练时间的重要性。我们的ResNet-152模型(60.0% mIU)在单个GPU上训练了4个月。6.5. 潜在表示在次要任务上的良好结果只是证明了我们的自我监督网络有潜力被塑造成一个有用的表示。我们调查,如果通过着色学习的表示是立即有用的,或者只持有一个潜在的表示。如果是后者,那么我们的表示与一个好的初始化方案有何不同?首先,我们将特征可视化,以了解颜色是如何而不仅仅是凭借超列,我们能够做得很好(36.5%),而无需对基础网络进行任何微调orization网络已经将输入组织成特征。我们相信我们会找到预测颜色的特征,因为我们知道着色网络能够以良好的准确度预测颜色。在图5中,我们可视化了网络最高层的顶级激活然而,我们也发现了语义特征,这些语义特征将具有很大类内变化(颜色,照明,姿势等)的高级对象分组。这是值得注意的,因为没有使用标记数据来训练网络。物体的概念纯粹是通过它们共同的颜色和视觉属性出现的(与[44]相比)。特定于对象的特性应该具有很高的任务通用性,并对下游任务有用。特定于物体和颜色的特征(图中右下象限)。5)可分为两类:第一种是当对象通常具有单峰颜色分布(例如,红砖,棕色木材);第二种是当网络已经学习了具有多模态颜色分布的对象的颜色子类别(例如,白色的衣服,黄色的车。这些都应该具有高的任务通用性,因为任务特定层很容易将几个颜色子类别合并为对象的颜色不变概念那么,微调后的特性会有多大变化呢?我们在图中可视化了之前和之后的顶部激活。2,如图所示。3、彩色化特征的变化要比基于标签的特征大得多。有些功能是完全重新利用,许多只是枢轴,和其他人仍然或多或少相同。这些结果与图4中的四个象限一致。5,这表明一些特征是特定于彩色化的,而另一些特征似乎具有通用目的。接下来,我们看看下游任务需要进行多少微调。选项卡. 6告诉我们,即使微调比监督预训练更重要(与图6中的相关性结果一致)。3),它能够单独使用彩色化特征来执行任务,类似于随机初始化网络并从头开始端到端地训练它。上校隔离区训练损失6881颜色非特异性织物明亮的太阳犬或人垃圾黄色红色低色度(高对比度输入)高色度人鸟夜空山服装车辆脸砖木材硬地白衣黄色车辆图5. 特征可视化。对于选定数量的fc 7特征(VGG-16),显示了保持图像中激活周围的补丁。尽管网络只接受灰度输入,但为了读者的利益,我们以原始颜色可视化每个补丁。因此,如果所有激活的颜色一致(右列),则该特征是颜色的预测类似地,如果一个特征在语义上是一致的(底行),则意味着该特征可以预测对象类。每个功能的名称都是根据顶部激活手动设置的。在没有微调的情况下,结果有些差,并且特征重用的百分比较低,这支持了着色网络部分地保持潜在特征的观点然而,可视化的功能和强大的结果总体上表明,我们已经学到了比一个好的初始化方案更强大的东西。6.6. 颜色我们在Tab中显示。5,重新引入颜色不会产生任何益处(与Zhang等人的发现一致。[42])。然而,并发工作[43]提出了一种更好的方法,通过单独训练网络来实现“相反”的任务(从颜色预测强度)来利用颜色通道。这两个独立的网络合并起来供下游使用.7. 结论我们已经为ImageNet预训练提供了一个替代方案,在语义分割和小样本分类方面具有最先进的结果,而不使用ImageNet标签。对自监督彩色化的详细研究表明了损失、网络结构和训练细节在实现竞争结果中的重要性。我们在这与ImageNet预训练之间进行了比较,表明自我监督与使用注释数据的几种方法相当。致谢我 们 非 常 感 谢 NVIDIA 公 司 捐 赠 用 于 本 研 究 的GPU。对象特异性非特定对象6882引用[1] TensorFlow:异构系统上的大规模机器学习,2015年。软件可从tensor-flow.org获得。[2] A. Bearman,O. Russakovsky,V. Ferrari和L.飞飞重点是什么:基于点超视的语义分割。在ECCV,2016年。[3] A. Coates,H. Lee和A. Y. Ng.单层网络在无监督特征学习中的分析。载于AISTATS,2011年。[4] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV,2015年。[5] J. 多 纳 休 山 口Kr aühenbuühl 和 T. 达 雷 尔 。adversarialfeature-ture learning.在ICLR,2017。[6] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。AISTATS,2010年。[7] Y. Grandvalet和Y.本吉奥。基于熵最小化的半监督学习。NIPS,2004年。[8] B.哈里哈兰山口A.火箭筒Girshick和J.马利克用于对象分割和细粒度定位的超列。CVPR,2015年。[9] K.他,X。Zhang,S. Ren和J. Sun.深入研究整流器:在imagenet 分 类 上 超 越 人 类 水 平 的 性 能 CoRR ,abs/1502.01852,2015。[10] J. Hurri和A. Hyv arinen. 简单单元样接收场最大化自然视频中的时间相干性神经计算,15(3):663[11] A. Hyvarinen和H.盛冈基于时间对比学习和非线性独立分量分析的无监督特征提取在NIPS,2016年。[12] S. Iizuka、E. Simo-Serra和H.石川让我们有颜色!:联合端到端学习全局和局部图像先验知识,用于自动图像着色和同时分类。ACM Transactions on Graphics(Proc.of SIGGRAPH 2016),35(4),2016.[13] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML,2015。[14] P. Isola,D.Zoran,D.Krishnan和E.H. 阿德尔森从空间和时间的共同出现中学习视觉组。arXiv预印本arXiv:1511.06811,2015年。[15] D. Jayaraman和K.格劳曼缓稳特性分析:视频中的高阶时间相干性。在CVPR,2016年。[16] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快 速 特 征 嵌 入 的 卷 积 架 构 arXiv 预 印 本 arXiv :1408.5093,2014。[17] D. P. Kingma和J. BA. Adam:随机最佳化的方法。2015年,国际会议[18] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR,2014年。[19] P. Kr aühenbuühl,C. Doersch,J. Donahue和T. 达雷尔。卷积神经网络的数据相关初始化。ICLR,2016年。[20] G. Larsson,M. Maire和G.沙赫纳洛维奇学习自动着色的表示。在ECCV,2016年。[21] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。[22] M.迈尔,S。X. Yu,and P. Perona.用于轮廓检测和语义标记的重构稀疏代码传输。InACCV,2014.[23] D. Mishkin和J.马塔斯所有你需要的是一个好的初始化。arXiv预印本arXiv:1511.06422,2015。[24] I.米斯拉角L. Zitnick和M.赫伯特使用顺序验证的无监督学习用于动作识别。2016年。[25] H. 莫巴希河Collobert和J.韦斯顿从视频中的时间相干性进行深度学习InICML,2009.[26] M. Mostajabi山口Yadollahpour和G.沙赫纳洛维奇具有缩小功能的前馈语义分割。CVPR,2015。[27] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。在ICML,第807-814页,2010中。[28] M. Noroozi和P.法瓦罗通过解决拼图游戏进行视觉表示的无监督学习。在ECCV,2016年。[29] A. Owens,J. Wu,J. H.麦克德莫特W. T. 弗里曼和A.托拉尔巴环境声音为视觉学习提供监督。在ECCV,2016年。[30] D. 帕塔克河B. Girshick,P. 多尔,T。Darrell和B. 哈瑞-哈 兰 。 通 过 观 察 物 体 移 动 来 学 习 特 征 。 CoRR ,abs/1612.06370,2016。[31] D. Pathak,P. Kr aehenbuhl,J. 多纳休,T. Darrell和A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。在CVPR,2016年。[32] N. 乾梯度下降学习算法中的动量项神经网络,12(1):145[33] M. Ranzato、A. Szlam,J. Bruna,M.马蒂厄河Collobert和S.乔普拉 视频(语言)建模:基线用于自然视频的生成模型。arXiv预印本arXiv:1412.6604,2014。[34]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。International Journal of Computer Vision(IJCV),115(3),2015.[35] M. Sajjadi,M. Javanmardi和T.塔斯迪森用于深度半监督学习的随机变换和扰动正则化。NIPS,2016年。[36] N. Srivastava、E. Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的非监督学习。ICML,2015。[37] J. H. van Hateren和D. L.鲁德曼自然图像序列的独立成分分析产生类似于初级视觉皮层中简单细胞的时空滤波器。伦敦皇家学会学报B:Biologi- cal Sciences,265(1412):2315 -2320,1998.[38] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习在ICCV,2015年。[39] Z.吴角,加-地Shen和A.范登亨格尔。使用非常深的全卷 积 网 络 进 行 高 性 能 语 义 分 割 。 CoRR ,abs/1604.04339,2016。68
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功