无需自然图像的VisionTransformer预训练：性能分析与比较

3 浏览量更新于2023-12-01 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文}{视觉转换器可以在没有自然图像的情况下学习4*大坂新坂急酒店酒店，大坂松本朝1岩田健二1井上中政2产业技术综合研究所1东京工业大学2{nakashima.kodai，hirokatsu.kataoka，matsumoto-a，kenji.iwata}@aist.go.jpinoue@c.titech.ac.jp摘要在没有自然图像和人工标注标签的情况下，我们能否完成Vision Transformers（ViT）的预训练虽然预先训练的ViT似乎严重依赖于大规模数据集和人工注释的标签，但最近的大规模数据集包含违反隐私、公平保护不足和劳动密集型注释方面的若干问题。在本文中，我们预训练ViT，而无需任何图像收集和注释劳动。我们通过实验验证，我们提出的框架部分优于复杂的自监督学习（ SSL ）方法，如 SimCLRv2 和MoCov2，而无需在预训练阶段使用任何自然图像。此外，虽然没有自然图像的ViT预训练产生了一些与ImageNet预训练ViT不同的可视化，但它可以在很大程度上解释自然图像数据集。例如，CIFAR-10数据集上的性能比率如下：我们的提案97.6 vs. SimCLRv 2 97.4vs. ImageNet 98.0。代码、数据集和预训练模型将公开提供11. 介绍在当代视觉识别中，Transformer架构[35]正在逐渐取代卷积神经网络（CNN）的使用。后者被认为是计算机视觉（ CV ）领域的核心。例如，残差网络（ResNet）[15]是包括图像分类在内的各种视觉任务中的事实上的标准模型之一。目前ImageNet上的高标准分数是基于ResNet的架构，例如，EfficientNet [32，11，26]，BiT [18].Transformer体系结构，它由一个自*表示平等贡献1https://hirokatsukataoka16.github.io/Vision-Transformers-without-Natural-Images/.图1. 微调阶段的精度过渡。该图表明，FractalDB-1 k预训练的 ViT 在早期训练阶段表现出更 FractalDB-1 k 的精度与ImageNet-1 k预训练的精度相似。注意机制最初被用于自然语言处理（NLP）任务，如机器翻译和语义分析。我们见证了划时代方法的发展，例如，BERT[8]、 GPT- 1、2、3[27、28、2]，带Transformer模块。这一趋势正逐渐从NLP转向CV。最活跃的主题之一无疑是用于图像分类的视觉变换器（ViTs）[10]。ViTs有效地处理和recg- nize基于变压器的图像与最小的修改。尽管重新实现是相当简单的，但已经表明ViTs通常至少与最先进的迁移学习一样好。然而，值得注意的是，ViT架构往往在预训练阶段需要大量的数据。Dosovit- skiy等人[10]报告说，除非ViT预先训练了超过1亿张图像，否则准确性不如CNN 。预训练问题通过数据高效图像 Transformer（DeiT）[34]得到了一定程度的缓解。另一方面，从隐私保护的角度来看，使用大规模图像数据集可能会有问题监督ViTarXiv：2103.13023v1 [cs.CV] 2021年3月+v：mala2255获取更多论文图2. 概述：我们考虑Vision Transformer（ViT）是否可以在没有自然图像的情况下进行预训练。在上一篇文章[10]之后，我们列出了（a）RGB嵌入滤波器，（b）位置嵌入相似性，（c）在FractalDB的公式驱动监督学习（FDSL）框架中的平均注意力距离，SimCLRv2的自监督学习（SSL）和人类注释的ImageNet的监督学习（SL）我们用FDSL取代了基于人类标记图像数据集的预训练与SSL和SL相比，FDSL预训练的ViT能够采集略有不同的滤波器、相同的位置嵌入和更宽的感受野。注释劳动和人工智能伦理。事实上，包括由相机拍摄的自然图像的代表性数据集仅限于学术或教育用途。即使我们分配自监督学习（SSL），例如，MoCo[13，6]， Simplified[4，5]和SwAV[3]，用于自然图像的自动标记。在自然图像数据集上进行训练仍然会引起隐私侵犯和公平保护方面的担忧。其他大规模数据集（例如，Ima-geNet[37]和80 M Tiny Images[33]2）中与人类相关的图像由于人工智能伦理问题而被删除。迄今为止，JFT-300 M和Instagram-3.5B等大型数据集尚未公开。此外，YFCC-100 M显然具有绘制数据集访问权限3。这些与网络相关的问题大大限制了这一领域的研究机会研究界必须仔细考虑大规模数据集的可用性和可靠性，同时克服与数据集相关的问题。在这种情况下，公式驱动的监督学习（FDSL）于2020年底提出[17]。该概念涉及基于包括渲染函数和真实世界规则的数学“公式”自动生成图像图案及其标签在最初的论文中，Kataoka等人阐明了分形几何[22，1]是在FDSL框架中构建数据集的最佳方法。因此，在本文中，我们考虑是否可以在FDSL中使用FractalDB预训练尽管迄今为止已经指出了FractalDB预训练CNN的缺点4，但我们相信视觉变换器可以成功地用FDSL框架进行预训练，因为自注意机制能够消除分形和自然图像之间的背景效应，并且可以理解由迭代递归模式组成的整个分形形状图1和图2说明了训练属性的准确度转换和特征。本文的主要贡献如下：阐明了 FDSL 框架下的FractalDB是2https://groups.csail.mit.edu/vision/TinyImages/3 www.example.com中的http://mmcommons.org/4https://www.technologyreview.com/2021/02/04/1017486/+v：mala2255获取更多论文--p2∈与CNN相比，ViT更有效。FractalDB-10 k预训练ViT的性能类似于监督学习的方法（见表7），并略优于具有Sim-CLRv 2预训练ViT的自监督ImageNet（见表8中的在CIFAR-10数据集上，分数如下：FractalDB97.6对比SimCLRv2 97.4和ImageNet 98.0。重要的是，FractalDB预训练的ViT在预训练中不需要任何自然图像和人类注释。2. 相关工作我们想讨论视觉转换器和预训练数据集的几个主题。我们主要关注图像分类的体系结构和大规模数据集。2.1. 用于图像识别的卷积神经网络（CNN）在视觉识别中很受欢迎。在这十年中，通过大量的试验，出现了几种定义明确的结构[19，30，31，15，36，16，32]。最近，在2020年底，该架构转向了源自自然语言处理的transformer[35]。变压器基本上由几个模块组成，具有多头自注意层和多层感知器块。该机制使得能够构建革命性模型（例如，BERT [8]，GPT- 1，2，3 [27，28，2]）。因此，COM-计算机视觉社区正集中于用基于变换器的体系结构来代替实际标准的卷积。其中最具洞察力的架构是Vision Transformer（ViT）[10]。虽然ViT在图像输入方面是基本的Transformer架构，但该模型在多个数据集上执行了最先进的替代方法。然而，ViT在表示学习中需要超过千万阶的标记图像JFT-300 M/ImageNet-21k预训练的ViT通过实验验证，在准确性方面表现良好通过引入数据高效图像Transformer（DeiT），缓解了大规模数据集的学习问题[20]。然而，预训练问题仍然存在于图像分类中。2.2. 图像数据集和训练框架据说深度学习时代始于ILSVRC [29]。毫无疑问，大规模图像数据集的迁移学习有助于加速视觉训练[14]。最初，ImageNet[7]和Places[40]预训练模型被广泛用于各种任务，而不仅限于图像分类。然而，即使在百万规模的数据集中，也存在诸如AI伦理和版权问题等几个问题公平保护、侵犯隐私和冒犯性标签。如上所述，由于这些敏感的信息，图像中的人类相关标签geNet[37]和80M Tiny Images[33]被删除。我们必须注意大规模图像数据集的使用条款，并相应地创建预训练模型。一方面，为了减轻人类注释者所需的图像标记劳动，自监督学习（SSL）近年来取得了显着进展。早期的方法基于语义概念创建伪标签[9，23，25，24，12]并通过图像重建训练特征表示[39]。相比之下，SSL方法在性能率方面更接近于具有人类注释的监督学习（例如， MoCo [13，6]，Simplified [4， 5]，SwAV [3]）。在这种情况下，公式驱动的监督学习（FDSL）[17]被提出来克服人工智能伦理和版权以及注释劳动的问题。该框架类似于自我监督学习。然而，FDSL方法不需要由相机拍摄的任何自然图像该框架同时自动生成图像模式和成对的标签，用于预训练图像表示。我们想研究公式驱动的图像数据集是否同时，我们将通过FDSL框架将预训练的ViT与监督和自监督预训练进行比较。如果监督/自监督预训练可以由FDSL代替，则未来可以在不使用任何自然图像的情况下预训练视觉变换器。3. 视觉Transformer（ViT）如前所述，我们相信FractalDB预训练可以通过与ViT架构相结合来取代自然图像数据集的FDSL框架包括FractalDB，可以用数学公式自动生成无限数量的训练类别及其图像标签。在ViT特性中，FractalDB预训练的ViT必须比CNN更好。此外，尽管FractalDB不包含图像内部的背景区域，但自注意机制有效地聚焦于分形图案，而忽略背景区域。此外，Frac-talDB预训练的ViT在隐私保护、AI伦理和注释劳动方面也优于使用自然图像数据集进行的预训练。在这里，我们探讨了Transformer在视觉任务中的潜力。基本的Transformer在输入层中需要一个1D的to-kens序列。为了处理2D图像，图像x∈RH×W ×C被整形为平坦化的图像块xRN ×（P ·C），其中（H，W）是原始图像大小，C是通道的数量，（P，P）是每个图像补丁的大小，N=HW/P2是补丁的数量。将展平的图像块转换为D维通过可训练的线性投影生成向量，并在所有层中以固定维度进行处理。在线性投影之后，+v：mala2255获取更多论文∈∈∈∈×××K--×}{×布吕德ppΣΣ因此，将可训练的1D位置嵌入添加到补丁表示并连接类似于BERT的分类令牌成为Transformer编码器的输入序列Transformer编码器块由多头自注意层和多层感知器（MLP）组成。自我注意，称为缩放点积atten-首先计算一组查询Q=XW Q，一组关键字K=XWK，和一组值V=XW V，其中XR（N+1）×D是输入序列，W QRD×d，W KRD×d，W VRD×d是可训练权重，d是向量大小。自我注意力计算如下：. QKT4.1. 定义FDSL的目标是在没有任何自然图像的情况下完成预训练。该框架自动cree-ates配对的图像模式和他们的标签通过以下的数学公式。与监督学习中的预训练框架不同，FDSL不需要任何自然图像和人类注释标签。更具体地，FDSL被公式化如下：argmaxEy，s[l（M（x），y）]s.t. x=F（θ，s），y=θ，（8）M其中M是要预训练的网络，l是损失函数，x是生成的图像图案，y是图像中的标签年龄图像图案是通过数学其中softmax函数应用于矩阵的每一行。在多头自注意（MSA）中，h个头被添加到自注意中，如下所示：MSA（Q，K，V）= concat（head1，.，头h）W（2）头h=注意力（Qh，Kh，Vh）（3）每个头提供大小为（N+1）d的序列。这些h序列被重新排列成（N +1）dh序列，该dh序列被MLP重新投影成（N+1）D。总之，Transformer编码器按如下方式处理图像z0=x类;MLP（x1）;. ; MLP（xN）+Epos（4）zl′= MSA（Norm（zl−1））+zl−1（5）公式F，其输入是参数θ和随机种子s。网络学习预测用于生成x的参数θ。为了简单起见，我们假设y在预定义的离散参数集上遵循均匀分布Θ=θkK。这让我们可以引进K级分类损失，例如对于l的交叉熵损失。4.2. FractalDBFDSL中最成功的方法之一依赖于分形。 FractalDB由迭代函数系统（IFS）生成的1k到10k对分形图像组成[1]。选择分形几何来生成数据集的原因是该函数可以呈现复杂的图案，z= MLP（范数（z′））+z′（六）每个参数集都有不同的形状。ll ly= Norm（z0）（7）在方程 8, F和 θi对应到 IFS和（a，b，c，d，e，f，p）。参数Li我我我我我我我们进行了一个特性的评价机制的ViT架构，如线性嵌入，位置嵌入和注意力地图。虽然在实验部分描述和可视化了详细的特性，但我们产生了有趣的结果。例如，FractalDB预训练中第一个线性嵌入的过滤器与ImageNet预训练模型不同（见图2（a））。然而，位置嵌入（见图2（b））是相似的。此外，FractalDB预训练的ViT专注于特定于对象的区域，以理解图像中的对象，因为渲染过程没有任何背景区域（参见图4）。在下一节中，我们将解释数据结构和生成，以便更好地理解FractalDB。4. 公式驱动的监督学习本节介绍用于视觉转换器（ViT）的公式驱动监督我们从FDSL框架下的FractalDB[17]的简要回顾开始。我们还描述了如何将自动生成的预训练数据集应用于ViT。随机搜索，当由参数生成的图像块超过填充率阈值时，将采用该算法，填充率阈值通过将分形点的像素数除以像素总数来的图像。为了保持类中的形状，类内实例通过三种考虑类配置的方法扩展生成：略微改变参数、旋转和用面片绘制改变参数是将IFS的6个参数之一乘以权重的过程。我们可以从这个参数生成图像，它改变了详细的表示，同时保持了类别的一般形状通过将每个参数中的一个乘以4个权重，生成图像的25个（原始1 +参数6权重4）不同变化。在第二种方法中，旋转，我们操纵图像中的翻转操作。有4个旋转无，水平翻转，垂直翻转，水平垂直翻转。面片绘制是用面片代替点绘制分形图像的过程。在FractalDB中，使用10个不同的3 × 3 [像素]补丁来生成分形图像最后，采用所有三种方法可以创建1，000（25×4 × 10）个类别内实例。Attention（Q，K，V）=softmax第1005章V（一）+v：mala2255获取更多论文基本的FractalDB由1，000或10，000个不同的分形类别和1，000个实例组成。在实验中，使用FractalDB预训练的 ResNet-50 作为 CNN 模型部分优于使用ImageNet和Places等人工注释数据集预训练的模型。4.3. FractalDB for Vision Transformers我们根据架构规范对FractalDB预训练模型进行了两项修改：（i）彩色分形图像和（ii）训练时期。我们调查FractalDB预训练的ViT的性能率表1. 在FractalDB和其他公式驱动的图像数据集之间进行ViT预训练的比较，这些图像数据集具有贝塞尔曲线（Bezier-CurveDB）和柏林噪声（PerlinNoiseDB）。C10C100汽车花刮伤78.357.711.6七十七点一PerlinNoiseDB 94.577.862.396.1BezierCurveDB 96.780.382.898.5FractalDB-1k96.881.686.098.3表2. 在FractalDB上探索更大的类别。我们将FractalDB-1 k预训练与FractalDB-10 k预训练相结合。预培训#cat C10 C100汽车鲜花通过以下方式用自然图像进行自我监督学习的成功我们认为有必要利用彩色图像进行预训练，以便在较长的训练时间内识别自然图像彩色分形图像。传统FractalDB的图像是通过移动灰度中的点或块来绘制的。然而，通常用于预训练的自然图像不仅是灰度的，而且是各种颜色组合。使用构建的自然图像数据集预训练的模型具有与自然中的颜色分布相关的表示 [38]。因此，我们生成了彩色的FractalDB。生成过程是在每次迭代中随机绘制点或面片通过对彩色分形图像数据集进行预训练，该模型获得了与颜色相关的特征表示。训练时间。最近的自监督学习（SSL）方法考虑了更长的训练时间。例如，Simplified尝试了更长的训练epoch，最高可达1k [epoch][4]。因此，尽管FDSL [17]中的第一项工作仅使用90 [epoch]进行，但我们进一步验证了合适的训练项。因此，我们还计划参考最近的SSL方法实现更长的训练时间。在这里，在实验部分，我们评估了多达 300 个 epoch，以进一步改进FractalDB预训练的ViT。4.4. 浏览参数在FractalDB中，对与数据集配置和图像生成方法相关的参数 Kataoka 等人。 [17] 探索了 #cat-gory 和#instance，patch vs. point，填充率，类别内分形的权重，#dot和图像大小。在这里，我们只调查有效的参数，探索研究在ViT架构。根据他们的研究，我们进一步在#category/#instance（见图3），1 k/10 k category（见表2），patch vs. point（见表3），以及上述灰度vs.颜色（见表4）和训练时期（见表5）。同时，我们首先将FractalDB预训练与其他FDSL框架和从头开始的训练进行比较（见表1），并评估补丁大小，这是ViT中的重要参数之一（见表6）。1000万96.8 81.7 86.0 98.310公里97.6 83.5 87.7 98.85. 实验我们在多个方面验证了FractalDB预训练ViT的有效性首先，我们探索一个更好的配置FractalDB的ViT。然后，我们根据论文[20]在几个图像数据集上评估FractalDB预训练ViT中的最佳配置，即CIFAR-10/100（C10/C100），Stanford Cars（Cars）和Flowers-102（Flowers）。此外，我们将FractalDB预训练的ViT与具有代表性的大规模图像数据集（例如，ImageNet-1k，Places-365）和架构（例如，ResNet-50）。在这里，为了确认FractalDB预训练模型的属性，我们简单地使用原始的ViT模型（更具体地说，我们分配DeiT;此后，我们为论文中的实验分配DeiT）而不进行任何修改。我们研究了各种参数的预训练方法例如，我们在预训练阶段探索不同的学习率，因为DeiT已知是对不同训练数据集敏感的架构参数。微调设置与[20]相同。5.1. 勘探研究我们在Kataoka等人的参考文献下探索了DeiT的有效FractalDB配置。[17]。根据以前的工作，全面的探索将是非常耗时的。因此，我们试图实现第4.4节中描述的最具影响力的参数。与其他公式驱动图像数据集的比较（见表1）。除了FractalDB，Kataoka等人。[17]还提出了基于Perlin噪声（Per- linNoiseDB）和Bezier曲线（BezierCurveDB）的数据集。我们尝试在DeiT架构上使用这些公式驱动的图像数据集进行预训练和微调。这使我们能够确定所提出的FractalDB是否通过预训练表现最好。从表1中，我们可以确认，与所有公式驱动的图像数据集相比，存在更高的准确度。改善-+v：mala2255获取更多论文×{}××------}××我们的优势关于我们100908070#类别#实例0 500 1000类别/实例（#）(a) C108070600250500750 1000类别/实例（#）(b) C1008060402000250500750 1000类别/实例（#）(c) 汽车10090807060#类别#实例0 500 1000类别/实例（#）(d) 花图3. #category和#instance的效果。另一个参数固定为1,000，例如，#Category固定为1，000，因为#Instance在{16，32，64，128，256，512，1，000}之间变化。表3.修补程序与点C10 C100汽车鲜花表5.训练时间。#Epoch C10 C100汽车鲜花表4.灰度与颜色.C10 C100汽车花卉灰度97. 182. 6 87. 1 98. 3表6.贴片尺寸。文档大小C10 C100CarsFlowersImageNet-1 k1698. 0 85. 5 89. 9 99.4使用FractalDB-1 k在C10、C100、Cars、Flowers数据集上的精度最高可达+18.5、+23.9、+74.4、+21.2。请注意，该配置基于原始和标准的FractalDB-1 k，其中包含1，000 [catory] 1，000 [instance]。在公式驱动的图像数据集中，FractalDB预训练的DeiT优于其他预训练的模型。BezierCurveDB预训练DeiT的精度为+0.1、+1.3、+3.2、-0.2。根据这一结果，我们使用FractalDB进行了以下实验#个类别和#个实例（见图3（a）、3（b）、3（c）、3（d））。图3显示了增加类别和实例对FractalDB预训练的影响。我们将category和instance设置为变量，将其中一个固定为1000，将其他变量更改为16，32，64，128，256，512，一千从实验结果来看，更大的类别和实例往往会导致微调数据集的更高准确性。特别是在FractalDB预训练中，类别增加对于图像数据集的迁移学习更有效。这个结果是直观的，因为对于类别较少而实例较多的数据集，任务更容易。我们用1,000个[分类] 1,000 [instance]作为FractalDB的基本设置。由于增加类别数量对提高准确性的有效性，我们也尝试优化10，000 [类别] 1，000[实例]当Transformer的预训练数据集更大时，它会更好我们较大类别（见表2）。我们在FractalDB上进行了较大类别的实验。该表表明，更大的FractalDB预训练增强了Transformer，32 95.5 78.4 76.0 95.7图像分类事实上，通过在CIFAR-10上进行FractalDB-1k、10 k预训练，准确率分别提高到96.8、97.6。贴片与点（见表3）。表3指示了33 [像素]块渲染和11[像素]点渲染之间的对比。我们进行了实验，以寻找一种更好的分形绘制方法。虽然点渲染表示分形图像中的详细图案，但补丁渲染增强了类别内部的实例。我们可以确认，补丁渲染在C10，C100，汽车，花朵上每单位时间增加+2.6，+4.7，+20.6，+3.2。通过实验，我们在FractalDB中分配了补丁渲染灰度与颜色（见表4）。该表显示FractalDB上的预训练对灰度图像的效果比彩色图像更好。特别是，在C100和Cars数据集中，与使用彩色分形图像的预训练相比，改进差距为+1.0 pt和+1.1 pt。我们确认了在DeiT架构中不需要彩色表示。训练时间（参见表5）。在FractalDB预训练中，更长的训练时间往往会获得更好的性能，类似于SSL方法。300个epoch预训练的准确性在四个不同数据集中的三个中记录了最好的分数。DeiT中的贴片尺寸（见表6）。为了将图像输入到DeiT，图像被划分为多个块。虽然DeiT中的补丁大小得到了验证，但我们也通过比较ImageNet-1 k和#类别#实例#类别#实例准确度（%）准确度（%）准确度（%）准确度（%）第94.2点77.365.495.110096.181.182.096.5补丁96.881.686.098.320096.882.185.398.230096.881.686.098.3颜色96.881.686.098.33297.584.786.498.0FractalDB-1k1696.881.686.098.3+v：mala2255获取更多论文----×}{关于我们--联系我们表7. 在几个数据集上比较预训练DeiT-Ti。优化设置基于[34]。我们展示了预训练图像的类型（PT img），包括自然图像（Natural），公式驱动的图像数据集（Formula）;以及预训练类型（PT Type），包括监督学习（Supervised Learning），公式驱动的监督学习（Formula-supervision）。我们使用了CIFAR-10（C10）、CIFAR-100（C100）、Stanford Cars（Cars）、Flowers-102（Flowers）、Pascal VOC 2012（VOC 12）、Places-30（P30）、ImageNet-100（IN 100）数据集。带下划线的粗体和粗体分数分别显示最佳和次佳值。PTPT ImgPT类型C10C100汽车花VOC12P30IN100划痕––78.357.711.677.164.875.773.2地点-30自然监督95.278.569.496.777.6–86.5地点-365自然监督97.683.989.299.384.6–89.4ImageNet-100自然监督94.777.867.497.278.878.1–ImageNet-1k自然监督98.085.589.999.488.780.0–FractalDB-1k式配方监督96.881.686.098.384.578.087.3FractalDB-10k式配方监督97.683.587.798.886.978.588.1FractalDB-1 k预训练。如表6所示，我们在每个预训练设置下计算了具有不同补丁大小（16 16、32 32 [像素]）的DeiT。从桌子上，16 16补丁大小在ImageNet-1 k和FractalDB-1 k中都是四分之三的数据集中更好的配置。5.2. 比较我们比较了FractalDB预训练DeiT与ImageNet-1 k，ImageNet-100，Places-365，Places-30预训练DeiT在代表性数据集上的性能，以及使用额外微调数据集的训练。ImageNet-100和Places-30是从[17]中的ImageNet-1k和Places-365中随机选择的类别。此外，我们还在ImageNet-1 k 上使用 Jigsaw ， Rotation ， MoCov 2 ，SimCLRv 2评估了SSL方法。在这里，我们展示了所提出的方法在比较属性方面的有效性，即人类对自然图像的监督（表7）和自然图像的自我监督（表8）。FDSL与监督学习。我们在预训练阶段比较自然图像数据集和FractalDB。表7描述了预训练（PT）、架构（Arch.）和训练前图像（PT img）以及它们在准确性方面的表现。一开始，FractalDB-1 k/10 k预训练的DeiTs在100 k阶标记数据集（ImageNet-100和Places-30）上的表现优于预训练的模型。尽管FractalDB-10 k预训练的DeiT没有超过百万阶标记数据集（ImageNet-1 k和Places-365）的平均值，但得分与ImageNet-1 k预训练模型相似。FDSL与SSL. 通过与SimCLRv 2的比较，我们澄清了FractalDB-10 k预训练DeiT在代表性数据集上的平均准确度略高（ FractalDB-10 k 88.8 vs. SimCLRv 288.5 ）。 FractalDB-10 k 预训练在 C10 （ 97.6 vs.97.4 ）、 Cars （ 87.7 vs. 84.9 ）和 VOC 12 （ 86.9 vs.86.2）上的表现优于SimCLRv 2预训练;在C100（83.5vs. 84.1）、Flowers（98.8 vs. 98.9）和P30（78.5 vs. 80.0）。除了SimCLRv 2之外，我们还实现了Jigsaw，Rotation，MoCov 2，以与我们的FractalDB-10 k进行比较。尽管FractalDB-10 k预训练模型的性能与SimCLRv 2相似，但除了P30数据集外，该方法的准确率高于其他SSL与其他SSL方法的进一步比较见表8。5.3. 另外的实验我们通过使用更多参数在DeiT与ResNet中进行额外的实验（见表9）。我们还通过第一线性嵌入、位置嵌入、平均注意距离（图2）和注意图（图4）展示了可视化。DeiT与ResNet（见表9）。我们还发现-将DeiT和ResNet与不同的架构大小相结合。我们测试了ResNet-18、34、50和DeiT-Ti，B，16 × 16贴片。我们将数据扩充与DeiT的设置相结合。ResNets和DeiT的性能比率列于表9中。在开始时，与论文[17]不同，ResNet-50的准确性比以前的更好（例如，从C10上的94.1到96.1）。然而，FractalDB预训练的DeiT在微调数据集上仍然优于FractalDB预训练的ResNets。可视化（见图2和图4）。对于DeiT，第一线性嵌入的过滤器，位置嵌入的相似性和平均注意力距离可以通过遵循先前的工作[10]来可视化。我们将过滤器列为ImageNet-1 k和FractalDB-1 k预训练模型的代表。图2（a）显示了使用ImageNet-1 k和FractalDB-1 k训练的过滤器。尽管在ImageNet-1 K和FractalDB-1 K上预训练的DeiT都获得了类似的过滤器，但FractalDB-1 k预训练的DeiT往往会在这些过滤器的广泛区域中传播。一方面，ImageNet-1 k预训练DeiT的过滤器似乎集中在中心区域。图2（b）示出了对应于每行和每列处的输入块的位置嵌入的余弦相似性。从可视化的数字来看，+v：mala2255获取更多论文表8.FDSL（FractalDB-10 k）与SSL（Jigsaw、Rotation、MoCov2、SimCLRv2）。增加表6中的列显示了在预训练阶段是否使用了自然图像。“平均”表示表中所有数据集的平均准确度。ImageNet-100从表中删除，因为列出的SSL方法是由ImageNet-1 k上的图像训练的。带下划线的粗体和粗体分数分别显示最佳和次佳值。方法使用自然图像？C10C100汽车花VOC12P30平均拼图是的96.482.355.798.282.180.682.5旋转是的95.881.270.096.881.179.884.1MoCov2是的96.983.278.098.585.380.887.1SimCLRv2是的97.484.184.998.986.280.088.5FractalDB-10k没有97.683.587.798.886.978.588.8表9. DeiT vs. ResNet与FractalDB-1 k预训练。Arch.ParamsC10 C100汽车花FractalDB-1 k预训练的DeiT在每行和每列获得了与ImageNet-1 k预训练的DeiT相似的位置嵌入。这些预训练数据集ImageNet-1 k和FractalDB-1 k允许我们从相同的图像位置获取特征。图2（c）显示了原始DeiT [10]中的平均注意距离。与ImageNet-1 k预训练相比，FractalDB-1 k预训练的DeiT倾向于查看图像中的广泛区域该指标类似于CNN中感受野的大小。图4展示了DeiT中具有不同预训练数据集的注意力地图FractalDB-1 k预训练ViT专注于对象区域（图4（b））以及ImageNet预训练（图4（a））。此外，与FractalDB-1 k预训练相比，FractalDB-10 k预训练DeiT着眼于更具体的区域（图4（c））。图4（d）显示了分形图像中的注意力地图从图中，Frac-talDB预训练似乎通过观察轮廓线来识别。关于图2（c），我们认为，识别复杂和遥远的轮廓线能够从广阔的区域提取特征。6. 结论与讨论我们通过公式驱动的监督学习（FDSL）框架成功地训练了视觉变换器（ViT），其中没有任何自然图像和人类注释的标签我们的FractalDB预训练ViT实现了与人类注释的ImageNet预训练模型相似的性能，部分优于SimCLRv 2自监督ImageNet预训练模型，并超过了其他自监督预训练方法，包括Mo-Cov 2。根据实验结果，得出以下结论.(a)ImageNet-1k（b）FractalDB-1k（c）FractalDB-10k(d)使用FractalDB-1 k预训练DeiT的分形图像中的注意力图。较亮的区域显示出较受关注的区域。图4. 注意力地图。FractalDB预训练ViT的特征表示从可视化结果来看，与ImageNet-1 k预训练模型相比，FractalDB预训练的ViT在第一个线性嵌入（图2（a））中获得了不同的特征表示，并且类似地安排了位置嵌入（图2（b）此外，图4（d）说明ViT倾向于在预训练阶段关注轮廓区域。我们认为，预训练模型能够在比ImageNet-1 k预训练模型覆盖更广的区域中进行特征获取（图 2（c））。我们还理解了在预训练阶段用于分类分形类别的复杂轮廓线。我们可以在没有自然图像和人工标注标签的情况下完成ViT的预训练吗？根据与SSL方法的比较（表8），我们表明，（百万）ResNet-181194.877.665.296.3ResNet-342195.979.479.884.9ResNet-502596.180.082.598.2DeiT-Ti/16596.881.686.098.3DeiT-B/168697.183.286.597.9+v：mala2255获取更多论文FractalDB-10 k的性能与SimCLRv 2预训练ViT的准确性相当，后者是由ImageNet上的1.28 M自然图像训练的尽管FractalDB-10 k中使用了1000万张图像，但在预训练阶段根本没有使用自然图像。因此，我们可以使用基于FDSL的预训练数据集在AI伦理和图像版权方面安全地训练ViT，如果我们可以超过人类注释的监督学习的准确性（表7）。确认• 本文是根据新能源和工业技术开发组织（NEDO）资助的一个项目所获得的结果。• 该方法使用了美国国家先进工业科学技术研究所（AIST）• 我们要感谢福原义弘、三口宗隆、山形英辅、铃木亮太、佐藤丰、岳秋和山本慎太郎在研究讨论期间提供的引用[1] M. F.巴恩斯利到处都是分形。中国科学出版社. 纽约，1988年。[2] T. B. Brown 等，《 Language Models Are Few- ShotLearners》。在神经信息处理系统（NeurIPS），2020。[3] M.卡伦岛Misra，J. Mairal，P. Goyal，P. Bojanowski，和A. 朱琳基于对比聚类的视觉特征无监督学习在神经信息处理系统（NeurIPS），2020年。[4] T. Chen，S. Kornblith，M. Norouzi和G.辛顿视觉表征对比学习的一个简单框架 2020 年国际机器学习会议（ICML）[5] T. 陈先生，S. 科恩布利斯，K. 斯沃斯基，M.Norouzi和G.辛顿大的自监督模型是强半监督学习器。在神经信息处理系统（NeurIPS），2020年。[6] X. Chen，H.范河，巴西-地Girshick和K.他外通过动量对比

下载后可阅读完整内容，剩余1页未读，立即下载