公式驱动的监督学习中使用自动生成的轮廓替换真实图像数据集，实现了与ImageNet-21k相当甚至超过的性能

149 浏览量更新于2023-10-26 收藏 2.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21232用自动生成的轮廓替换标记的真实图像数据集Hirokatsu Kataoka1，Ryo Hayamizu1，Ryosuke Yamada1，Kodai Nakashima1，SoraTakashima1，2，Xinyu Zhang1，2，Edgar Josafat Martinez-Noriega1，2，Nakamasa Inoue1，2，Rio Yokota1，21产业技术综合研究所2东京工业大学https://hirokatsukataoka16.github.io/Replacing-Labeled-Real-Image-Datasets/摘要在目前的工作中，我们证明了公式驱动的监督学习（FDSL）的性能可以匹配甚至超过ImageNet-21 k，而无需在Vision Transformers（ViTs）的预训练期间使用真实图像，人类和自我监督。例如，在ImageNet-21 k上预训练的ViT- Base在ImageNet-1 k上微调时显示出81.8%的top-1准确率，而FDSL在相同条件下预训练时显示出82.7%的top-1准确率。预训练图像注意力图像【【【微调@ ImageNet-1k Top-1 Acc.81.882.782.4条件（图像数量、超参数和时期数量）。由公式生成的图像避免了隐私/版权问题、标记成本和错误以及真实图像所遭受的偏见，因此在预训练通用模型方面具有为了理解合成图像的性能，我们测试了两个假设，即（i）对象轮廓在FDSL数据集中是重要的，以及（ii）增加用于创建标签的参数数量会影响FDSL预训练中的性能改善。为了测试前一个假设，我们构建了一个由简单对象轮廓组合组成的数据集我们发现这个数据集可以匹配分形的性能。对于后一个假设，我们发现增加预训练任务的难度通常会导致更好的微调准确性。1. 介绍图像识别极大地受益于标记的真实图像数据集。传统的图像数据集包括由人类注释的一般背景上的各种对象的真实图像。可以通过从具有这种注释的真实图像学习来获取视觉表示。监督学习（SL）是最值得信赖的方法。然而，近年来，自监督学习（SSL）已经取得了进展[6SSL方法最近被用于预训练视觉变换器（ViTs）[13];然而，具有数百个图1.我们发现，视觉转换器（ViT）可以在没有真实图像、人类和自我监督的情况下成功地进行预训练，并且在ImageNet-1 k上进行微调时，可以超过ImageNet-21 k预训练的准确性。我们构建了一个新的数据集径向轮廓数据库（RCDB）的基础上，假设轮廓是什么问题的预训练的ViT。RCDB也超过了ImageNet-21 k预训练的性能，同时仅由轮廓组成。需要数百万张图片[11，32]。学习方法DINO [5]和MoCoV 3 [10]表明，可以在相对较小的数据集上进行训练，例如ImageNet-1 k（ILSVRC）[31]。SSL方法消除了数据集的耗时标记，但在使用真实图像时，并没有解决隐私，版权和社会偏见[2，37]。公式驱动的监督学习（FDSL）对由数学公式生成的合成图像进行训练，从而避免了此类问题[1，3，19可以基于用于生成图像的方程的参数自动对图像进行分类和标记。因为图像是由数学公式生成的，所以它们避免了与标记的真实图像数据集相关的伦理问题。如果FDSL可以用于预训练模型，达到与真实图像相同的精度，那么它可以取代SL/SSL以避免道德问题。为了改进FDSL方法，Kataoka等人。 [21]基于分形是一种自然现象的假设使用分形几何。他们发现，实际性能取决于超参数的数量21233创建FDSL数据集。在目前的工作中，我们investigate的最重要的因素，从公式和使用替代分形的可能性生成合成图像。我们建立了一些基本的指导方针，导致更好的FDSL方法，以避免渲染和预训练的迭代过程。在本文中，我们在预训练ViTs的背景下增强了FDSL的性能[13]。我们首先检验以下两个假设。假设1：对象轮廓是FDSL数据集中的问题。假设2：参数数量的增加会影响FDSL预训练的性能改善。导致这些假设的初步研究见第3.1节。通过这些假设的验证，我们生成了一个改进的合成数据集，使我们能够以比真实图像数据集更高的准确性预训练ViT论文的影响。我们表明，使用FDSL预训练 ViT的性能可以匹配甚至超过使用ImageNet-21 k预训练ViT的性能。当在ImageNet-1 k上进行微调时，在ImageNet-21 k上预训练的ViT-Base具有81.8%的top-1准确率，而在扩展分形数据库（ ExFractalDB ）和径向轮廓数据库（RCDB）（每个类具有相同数量的类和实例）上预训练的ViT-Base分别具有82.7%和82.4%的准确率（图1，表7）。假设1的影响为了理解分形图像的性能，我们探索生成图像的替代公式。在我们的初步研究中（见3.1节），我们发现分形图像中的物体轮廓起着重要的作用。因此，我们创建了一个数据集，是专门为绘制对象轮廓而定制的（称为RCDB）。该数据集的性能与FractalDB的性能相匹配（表3）。假设2的影响我们发现，数学生成图像的更高复杂性提高了FDSL的准确性（表5）。可以通过调整公式驱动图像生成的参数来增加图像的复杂性。例如，当顶点数量增加时，RCDB变得更加复杂;其复杂性也可以通过调整轮廓平滑度、多边形数量和半径来改变（表2）。FractalDB的复杂性可以通过在三维（3D）空间而不是二维（2D）空间中应用迭代函数系统（IFS）2. 相关工作监督训练是准确性方面最可靠的训练模式。因此，它被用作衡量其他培训模式有效性的基线。代表性的数据集，如ImageNet [11，31]和Places [40]，使用云资源收集，标记和交叉检查。最近，基于ViTs的大型模型在巨大的数据集上训练时达到了很高的准确性可能需要数以亿计的工时来收集预训练ViT架构所需的数据集。此外，JFT-300 M/3B [38]和Instagram-3.5B（IG-3.5B）[26]等数据集目前尚未公开，这严重限制了ViT研究的可访问性和再现性。SSL通过根据可以学习的规则自动生成标签来消除注释成本[12，15，29，30，39]。对比SSL方法[6例如，Sim- Siam [9]可以在没有负样本和较小批量的情况下学习。DINO [5]和MoCoV3 [10]已经在ViT上证明了SSL。标签成本并不是大型图像数据集的唯一问题。流行的数据集存在隐私和公平性问题，例如ImageNet（人类相关标签）[11]和80M Tiny Images [33]中的道德问题[4，37]，这些问题导致其出版物被暂停。SSL可以消除标签成本，但它不解决道德问题。即使是PASS[2]，一个在Creative Commons（CC-BY）许可下许可的图像数据库，其中不包括人物图像，也可能有一些有害内容。FDSL有可能完全消除这些伦理问题，因为它可以仅使用方程及其参数生成和标记数据集。人们对FDSL[1，3，19然而，现有FDSL的性能不能与SL的性能相匹配，因此FDSL方法还不是实际的替代方案。Nakashima等人使用FractalDB进行预训练ViT，并匹配SSL（SimCLRV2）的准确性[27]。然而，他们只研究了一个数据集（FractalDB），没有分析FDSL的性能或其故障模式。在目前的工作中，我们进行了更广泛的搜索可能的FDSL方法，并分析了相关的特点，与良好的预训练性能。我们还展示了FDSL完全失败的参数和配置范围，为预训练ViTs提供了有利的合成图像数据集的组成部分。3. 方法我们首先展示了我们初步研究的结果，从中我们推断出以下假设：（i）对象轮廓是图像表示中的重要因素，（ii）参数数量的增加会影响FDSL预训练的性能提升。然后，我们提出了一组人工生成的数据集，在这两个方面具有不同程度的复杂性，以验证我们的假设。为了验证关于图像中对象轮廓的重要性的假设为了验证第二个假设，我们增加了1https：//groups.csail。mit.edu/vision/TinyImages/21234×R∪∈{···}LnJj−1J0nJoysin（2πj/n）（p）（p）图像1注意1图片2注意2图片3注意三图2.物体轮廓上的分形图像和注意力地图。表1. FractalDB-1 k与标记的关系。FDSL（Fractal）对应于原始FractalDB，并且FDSL（Fractal，restricted）仅改变三个参数（ai，ci，ei），其他三个（bi，di，fi）是固定的。最好的价值是粗体。C10型C100轿车花SSL（MoCov2）92.6 73.7 33.6 93.9SSL（SimCLRv2）94.8 78.9 61.799.6FDSL（Fractal，restricted） 96.8 82.0 86.8 98.2使用FDSL创建图像模式，而不是使用SSL分配我们还发现，使用更多参数创建的FractalDB会导致更高的准确性。因此，我们假设FDSL的准确性可以通过增加方程中的参数来创建FDSL标签来改善。3.2. 公式驱动的监督学习FDSL根据公式自动生成图像模式及其相应的标签。与SL/SSL中的预训练不同，FDSL不需要真实图像。FDSL的定义假设θ是一个要用参数集θ进行预训练的网络。FDSL解决了以下问题：FDSL（Fractal）97.0 82.4 87.998.3用于生成图像的方程中的参数θ=argminEθ（x，y）[L（θ（x），y）]（1）在ExFractalDB和RCDB中增加数据集的大小。3.1.初步研究作为基线，我们首先报告FractalDB-1 k的结果[21]，它有1，000个类，每个类有1，000个实例。我们选择具有16个16[像素]补丁的ViT-tiny作为基线模型。超参数和数据扩充根据先前的工作选择[34]。假设1：对象轮廓是FDSL数据集中。使用FractalDB-1k训练ViT的注意力图如图2所示，其中注意力集中在分形的外轮廓上。在数据集中的其他图像中观察到相同的结果我们以前认为，分形生成自然界中发现的重复模式的能力使它们能够被用作真实图像的替代品然而，这些初步实验表明，通过生成具有足够高复杂性的对象轮廓可以实现相同的有效性假设2：FDSL中的参数数量增加训练前。对于FDSL和SSL，手动标记是不必要的。FDSL会在以下过程中它的创建，这是从根本上不同于SSL。为了研究标签在FDSL中的作用，我们分别将分形图像的预训练与FDSL和SSL进行比较（表1）。对于SSL，我们选择MoCoV2 和 SimCLRV2 。我们比较了两种类型的FractalDB，原始方法有6个参数，FDSL（Fractal），另一种只改变3个参数，而其他3个参数是固定的，FDSL（Fractal，受限;更多细节请参见补充材料我们更改的三个参数（ai，ci，ei）被设置为与FractalDB论文[21]相匹配。我们的研究结果表明，FDSL产生更高的准确性比SSL时，使用FractalDB。这一结果表明，最好使用数学公式中的标签，其中x是合成图像，y是对应的标签，并且是损失函数。合成图像由x=F y（s）生成，其中y一二得双曲余切值.是离散标签，Fy是用于生成类内图像的第y个数学公式请注意，要创建类内变异，Fy涉及随机性，因此输入随机种子s。这导致等式中的（x，y）的两步采样。其中，首先对y进行均匀采样，然后使用均匀采样的种子s用F y（s）生成图像图案x。3.2.1径向轮廓数据库（RCDB）RCDB的定义建议的径向轮廓R2是由多边形叠加而成的物体。它由多边形的并集定义如下：NR=Rp（2）p=1其中Rp是第p个多边形，N是多边形的个数.每个多边形Rp由如下n条边Rp=Ve（v（p），v（p））（3）j=1其中v（ p ）∈R2是第j个顶点.注意，我们定义顶点j=0，1，· · ·，n，但vv是多余的。e（·，·）是两个顶点之间的边，e （ p ， q ） ={tp+ （ 1−t ） q+c∈R2 ： 0≤t≤1}（4）其中c是多边形的中心我们的算法使多边形从中心到边界如下。第一个多边形R1是由一个n-正多边形构成的，即，顶点由下式给出：v（1）=r（oxcos（2πj/n））（5）21235i=1→···→×······R∈{···}×vj=vj+图3.用于生成径向轮廓R的程序。显示了n=3个顶点和N=5个多边形的示例表2.RCDB类别的参数集（η）参数集（η）多边形的数量（N）{1，2，3，.，200}顶点数（n）{3，4，5，.，502}生成分形为F y（s）= GIFS（η y，s），其中GIFS是基于IFS的渲染过程（详细信息请参见[21]），s是用于创建类内变化的随机种子。超参数ηy={（wi，pi）}N由af fine组成，半径（r）[0.0，100.0]线宽（lw）[0.0，0.1]尺寸因子（o）[1.0，4.0]柏林噪声（λ）[0.0，4.0]对于j = 0，1，2，n，半径为r，且λ因子为o =（ox，o y）。该步骤如图3（a）所示在第二步中，复制顶点并将其移向边界。具体地说，给定Rp−1的顶点，Rp的新顶点定义为变换函数wi：R2R2和概率-质量函数FractalDB由C=1k个类组成，每个类有1k个随机生成的图像。ExFractalDB. MV-FractalDB [36]由2D图像组成，这些图像是3D分形的投影。分形是由3D-IFS生成的，它用3D函数代替了ηy中的2D函数，即，wi：R3R3.生成的分形通过虚拟相机投影到图像上。ExFractalDB由C=1k个类组成。MV-FractalDB从固定的视点生成12个图像，而ExFractalDB随机选择并投影2D imm。（p）（p−1）（（lw+λx <$j，p−1）cos（2πj/n））（lw+λy <$j，p−1）sin（2πj/n）3D模型的年龄。（六）扩展ExFractalDB。. ViTs的潜力只能通过在庞大的数据集上进行预训练来实现。然而，在这方面，其中l w是线宽，λj=（λ j，1，λ j，2，λ j，N）是一维柏林噪声序列，λ=（λ x，λ y）是噪声缩放因子。对于p=2，3，N.R2和如图所示，分别见表3（b）和（c）最后，在黑色背景上用白色的线宽lw渲染径向图像大小为512 512。RCDB-1k。令η =（N，n，r，l w，o，λ）是用于生成径向轮廓的超参数集。所提出的数据库由C = 1k个径向轮廓类组成，每个径向轮廓类具有参数集η y（y1，2，，C）。通过上述表示为GRC的生成过程，该数据库中的F y的定义由F y（s）=GRC（η y，s）给出，其中随机种子s用于随机选择等式中的中心c。（4）生成一维Perlin噪声序列。超参数在范围上均匀分布如表 2 所示。对于每个类，生成 1k 个图像。扩展RCDB。为了探索大规模RCDB预训练的可能性，我们准备了另外三个数据库，类的数量C=10k、21k和50k。对于所有数据库，每个类的图像数量设置为1k。3.2.2扩展FractalDB（ExFractalDB）FractalDB. [21]中提出的原始FractalDB由IFS生成的2D分形图像组成。它有C个分形类，每个分形类都有一个超参数集ηy先前在FDSL预训练模型上的工作仅在相对较小的数据集上进行（大约1M图像）。在目前的工作中，我们通过简单地增加类的数量将数据集的大小增加到10M，20M和50M，这对于FDSL来说是一个微不足道的任务。这将分别产生C=10k、21k和50k的数据集。对于每个类，生成25个3D分形实例。为了增加投影图像的变化，每个实例由虚拟相机从40个位置捕获，这些位置是从单位球体的表面随机结果，为每个类生成25个[实例]40个[视点]=1，000个有关FDSL数据集和预训练的更多详细信息，请参见补充资料4. 实验4.1. 验证假设1和假设2在验证中，我们选择与先前研究[27，34]相同的数据集进行微调，即CIFAR- 10/100（C10/C100）[23]，Stanford Cars（Cars）[22]和Flowers [28]。我们使用与[34]中相同的超参数和数据增强。在这些实验中，FractalDB有1k个类，每个类有1k个实例。我们在所有实验的预训练和微调期间更新所有层。下表及其说明对应于假设1或2。2123688.382.176.2--表3.FDSL方法的比较此后，最佳值以粗体显示。培训前C10 C100汽车鲜花刮擦78.3 57.7 11.6 77.1柏林噪音[21] 95.0 78.4 70.6 96.1[3] 100.0 100.0 100.0 100.0贝塞尔曲线[21] 96.7 80.3 82.8 98.5RCDB96.884.298.7表5. FDSL方法中增加参数的影响。BC代表贝塞尔曲线。括号中的值表示与参数较少情况的预训练C10C100汽车花BC96.9（0.2） 81.4（1.1） 85.9（3.1） 97.9（-0.6）RCDB 97.0（0.2）82.2（0.6） 86.5（2.4） 98.9（0.2）ExFractalDB97.2（0.4）81.8（0.2） 87.0（1.0） 98.9FractalDB [27]96.8 81.6 86.0 98.3Perlin Noise Dead Leaves Bezier Curves RCDB FractalDB90#聚丙烯898887868590半径898887868590线宽7050301090大小调整因子888684828090柏林噪声8988878685(a) N(b) R(c) Lw(d) O(e) λ表4.RCDB中顶点数与精度之间的关系#顶点C10 C100汽车花3–10295.5 79.4 78.4 96.4103203303403图4.RCDB上的参数调整调整是用C10，C100，汽车，花。图中的值显示了四个数据集的平均比率。表6. 类定义类型的比较（来自2D IFS和3D IFS ）和实例增强（ MV-FractalDB ：固定视点和ExFractalDB：随机视点）。预培训IFS C10 C100汽车花卉FractalDB [21] 2D 96. 8 81.6 86. 0 98. 3顶点数：103顶点数：203顶点数：303顶点数：403假设1：FDSL方法的比较（表3）。我们比较了各种类型的数学生成的数据集。柏林噪声和贝塞尔曲线来自[21]。结果表明，使用RCDB和FractalDB进行预训练在RCDB中，我们只改变了顶点的数量（参数集η中的n）。关于Hy假设1，我们确认使用对象轮廓的图像表示往往会产生更高的分数。假设1：RCDB中对象轮廓的复杂性（表4）。在RCDB中，对象轮廓的复杂性可以通过改变顶点的数量来控制。我们根据顶点的数量来划分类。表4显示了各种类别范围的RCDB结果将3-对于ViTs，最好的结果是在103- 202个顶点（100个类）的情况下获得的302个顶点（100个类）。RCDB预培训，203302、303这意味着过于复杂的物体轮廓会抑制预训练阶段的视觉表征。假设2：FDSL预训练中的参数数量增加（表5）。我们增加了PA 的数量-参数来创建FDSL标签。贝塞尔曲线（BC;更多细节见补充材料）、RCDB和ExFractalDB的结果见表5。假设2：RCDB的参数搜索（图4（a）我们探索了参数集η，以便除了#顶点之外还组合这些参数。图4（a）表2中的RCDB参数基于此参数搜索的结果。假设 2 ： FractalDB [21] 、 MV-FractalDB [36] 和ExFractalDB的比较（表6）。ExFractalDB渲染3D分形并将其投影到2D图像上。MV-FractalDB在将3D分形投影到2D图像上时使用固定视角;然而，目前的工作使用随机视角。MV-FractalDB除了分形类之外还根据透视来标记图像;然而，我们不考虑透视标签。如可视化（图1）所示，从3D模型中获取2D图像可使注意力集中到多个位置，这似乎对分类有用（与图2中对轮廓的注意力不同），并提高了准确性本身。4.2. FDSL的故障模式我们已经证明，使用仅由简单轮廓组成的合成图像进行预训练，即使在相当大的范围内，也可以匹配真实图像的我们现在投资-88.888.187.788.887.888.188.188.315.988.387.487.483.788.588.887.987.687.73–50296.480.783.098.5[36]第三十六话96.981.486.598.5顶点数：3ExFractalDB 3D97.281.887.098.921237--}{}--联系我们100806040200100806040200100806040200100806040200100806040200(a) C10(b) C100(c) 汽车(d) 花(e) RCDB w/ or w/o corruption10k点5万积分注意w/10 k点关注w/50 k点相同的img关注轮廓破损关注相同的img(f) （左，中左）FractalDB-1 k中的点渲染，具有10 k和50 k点。我们在FractalDB-1 k中执行了500，1 k，10 k，50 k，100 k，200 k点的预训练。（中右，右）分别使用10k和50k点的FractalDB上的预训练模型的注意力图。(g) （左）具有断开轮廓的RCDB示例我们自由地画1k条与背景颜色相同的（中，右）分别使用RCDB上的预训练模型（有和没有破碎的物体轮廓）绘制注意力图。图5.点渲染的FractalDB-1 k（a，b，c，d，f）和RCDB中的结果、图像示例和注意力图（e，g）。尽管具有50k（或更高）点和径向轮廓的分形图像成功地训练了视觉表示，但具有10k（或更低）点和具有损坏的径向轮廓的分形图像失败了。1类（1条线）Class 999（999lines）1008060数据集。用于预训练ViT的图像的最小简单性我们创建了一个非常简单的数据集，其中的图像只包含随机绘制的线条（LineDB）。这些课程是-第五类（5行）注意（999行）(a) LineDB的例子402000 200 400 600 800 1000(b) #类别对准确性的影响通过计算每个图像中的行数来标记。在这个实验中，我们在预训练阶段分配LineDB- 16，32，64，128，256，512，1,000个类别（见图6）。 LineDB对于预训练很有用。模型预-用LineDB-512训练的人有{95.6，77.7，71.9，96.8}图6.使用Line Counting进行预训练。门控FDSL何时以及如何发生故障。最小渲染点数。我们研究了在FractalDB中渲染分形所使用的最小点数。图5显示了点渲染FractalDB中的结果和图像示例。根据图5（a）-5（添加损坏（损坏的对象轮廓）。我们验证RCDB图像与不破碎的对象轮廓，如图5（g）所示。我们故意用与背景相同的颜色绘制1k条线。线的长度和位置是完全随机的。我们调整线条的粗细，使得RCDB的对象轮廓被破坏，但主帧不会像图5（g）中那样消失。从图5（e）的结果来看，发生腐败的比率从95.5、79.4、78.4、96.4变为46.2、22.1、1.1、8.8。这些结果支持假设1，即对象轮廓是FDSL中的重要因素C10、C100、汽车、鲜花（远高于表9中的划痕训练）。然而，对于1k个类别，预训练效果略有下降。这与表4所示的轮廓复杂度的最佳程度有关。此外，为了使数据集具有积极的预训练效果，需要为非平凡图像分配一致的标签LineDB-512的性能与随机每-C10，C100，Cars，Flowers的突变率为13.5，1.9，0.8，3.4。4.3. 假设1和假设2这里，我们总结假设1和假设2的结果。假设1：对象轮廓是FDSL数据集中的问题。图1和图2所示的初步可视化实验表明，在ViT预训练期间，自我注意力集中在轮廓上这导致了我们的第一个假设，即对象轮廓是预训练ViTs数据集中的重要内容。为了验证这一假设，我们构建了各种合成数据集。从表4中，我们看到主要由BezierCurves、RCDB和FractalDB等轮廓线组成的数据集具有最高的准确性。这支持了我们的假设，1.51.97.60.8 0.8 0.83.43.13.11.18.8C10C100汽车鲜花十四点五三十一点五35.0九十六点一九十六点零80.480.880.681.780.980.497.497.497.0九十五点五四十六点二79.422.1七十八九十六点四21238表7. ImageNet-1 k微调的比较。列出了使用ViT-Ti/B架构获得的精度。21 k/50 k表示预训练阶段的类数给定数据集的最佳值和次佳值分别以下划线粗体和粗体显示。预训练Img类型ViT-Ti维生素B划痕––72.679.8ImageNet-21k房SL74.181.8FractalDB-21kSynthFDSL73.081.8FractalDB-50kSynthFDSL73.482.1ExFractalDB-21kSynthFDSL73.682.7ExFractalDB-50kSynthFDSL73.782.5RCDB-21kSynthFDSL73.182.4RCDB-50kSynthFDSL73.482.6对于预培训虚拟技术人员来说确实至关重要。图5显示了改变呈现FractalDB的点数的效果我们看到，使用少于50k的点会导致轮廓线断裂，预训练失败。我们还通过在形状上绘制白线来打破RCDB中的轮廓线，如图5（g）所示。从图5（e）中，我们看到这也阻止了ViT学习良好的视觉表示。表5显示，将RCDB中的顶点数量增加到203-302以上会使预训练完全失败。另一方面，使用较少数量的顶点，同时通过引入额外参数来增加类别数量，导致准确性显著提高，甚至高达50k个类别，如表8所示。图6显示当行数超过512时LineDB的准确性也会降低。假设2：FDSL预训练中的参数数量增加表1示出了使用FractalDB的预训练导致比使用具有SSL的外部标签的预训练更高的分数。此外，发现变化的分形参数越多（表1中比较了3个和6个参数），预训练效果越好。对于FractalDB，我们将IFS从2D扩展到3D，并将方程中的参数数量从6个增加到12个，这导致类的数量显着增加，每个类都具有不同的特征。当将3D分形投影到2D图像上时，我们使用随机透视而不是一套固定的观点。对于RCDB，我们改变了参数集（表2），包括轮廓数、半径、线宽、反射系数和柏林噪声，以及顶点数，每种组合都被归类为不同的类。参数由图4中的探索决定。对于RCDB，我们改变参数集η，其中每个组合被分类为不同的类。表5显示，这些修改中的每一个都导致准确性的显著提高。对于RCDB，表7显示，随着数量的增加，表8.目标检测和实例分割的比较在COCO数据集上验证了几个预训练模型。每种学习类型的最佳值以粗体显示。预训练COCODetAP50/AP/AP75COCO InstSegAP50/AP/AP75划痕63.7加/ 42.2 /46.160.7 1999年12月31日ImageNet-1k69.2/ 48.2 /53.066.6 43.1 /46.5ImageNet-21k70.7/48.8/53.267.7/43.6/47.0ExFractalDB-1k69.1/48.0/52.866.3/42.8/45.9ExFractalDB-21k69.2/48.0/52.666.4/42.8/46.1RCDB-1k68.3 1999年1月至1999年12月，65.7/ 42.2 /45.5RCDB-21k67.7 1996年至1997年，64.8/ 41.6 /44.7的类继续高达50k类。4.4. SL、SSL和FDSL在比较实验中，我们创建了与基线方法具有相同数据集大小的FDSL方法，并在预训练后比较它们。ImageNet-1 k微调（表7）。我们比较在大型真实和合成数据集上进行预训练后，在ImageNet-1 k上进行微调的结果。我们使用具有 21 k 和 50 k 类的RCDB/ExFractalDB进行预训练，并将其与ImageNet-21k预训练进行比较。我们将实例的数量固定为1k，并改变类的数量，就像以前的工作[21，27]一样，但是对于更大数量的类。对于大型数据集，预训练使用较少的时期进行，以保持用于预训练的图像总数在一定程度上恒定。对于具有21k和50k类的数据库，分别使用90 和 40 个时期。模型尺寸从 ViT-Tiny 增加到 ViT-Base。表7中的结果显示，ViT-Base的ImageNet-1 k准确率在从头开始训练时为79.8，在使用ImageNet-21 k进行预训练时为81.8。ExFractalDB-21 k（82.7）、RCDB-21 k （ 82.4 ）和 RCDB-50 k （ 82.6 ）的预训练优于ImageNet-21 k。我们可以将ImageNet-21 k上的预训练精度与相同大小的合成数据集相匹配，这一事实COCO检测/实例分割（表8）。我们还使用COCO [35]验证检测和实例分割。我们使用Swin Transformer [25]主干，Mask R-CNN [17]头，并进行60个epoch的预训练。我们的预训练模型的得分与使用ImageNet-1 k预训练的模型的得分相似。FDSL与SSL/SL（表9）。对于以下比较，我们扩展了用于微调的数据集。除了C10/100，汽车和鲜花，我们还包括ImageNet-21239×表9.SL/SSL方法的预训练比较对于SSL，（D）表示DINO [5]。每种学习类型的最佳值以粗体显示预训练Img类型C10C100汽车花VOC12P30IN100平均划痕––78.357.711.677.164.875.773.262.6地点-365房SL97.683.989.299.384.6–89.4–ImageNet-1k房SL98.085.589.999.488.780.0––ImageNet-1k房SSL（D）97.782.488.098.574.778.489.086.9通过房SSL（D）97.584.086.498.682.979.082.987.8FractalDB-1k [27]SynthFDSL96.881.686.098.380.678.488.387.1RCDB-1kSynthFDSL97.082.286.598.980.979.788.587.6ExFractalDB-1kSynthFDSL97.281.887.098.980.678.088.187.4ExFractalDB-1k*SynthFDSL97.582.690.399.681.479.489.288.6* 针对140万张图像计算的比率，这与PASS数据集中的图像数量相同表10.ViT、gMLP和ResNet与FractalDB-1 k、ExFractalDB-1k、RCDB-1 k和LineDB-1 k预训练的比较Arch训练前C10 C100汽车鲜花有关实验结果和可视化的更多详细信息，请参见补充材料FractalDBResNet95.779.080.996.95. 结论FractalDBgMLP95.477.478.794.2我们研究了使用各种形式的可能性FractalDBViT96.881.686.098.3用于预训练视频技术人员。我们扩展了原来的ExFractalDBResNet96.180.480.397.4FractalDB到纯粹关注对象轮廓的公式ExFractalDBgMLP96.780.084.598.6增加了配方监管的复杂性，ExFractalDB ViT97.2 81.8 87.0 98.9RCDB ResNet 95.6 78.4 71.6 94.2RCDB gMLPRCDB ViT97.0 82.2 86.5 98.9LineDB ResNet 91.8 65.5 15.6 71.1LineDB gMLP 93.9 73.2 30.2 85.3LineDB ViT95.6 77.7 71.9 96.8100（IN100）[21]、Places30（P30）[21]和Pascal VOC2012年（VOC12）[14]。我们在ImageNet-1 k和PASS[2]上比较了RCDB和FractalDB与DINO，在Places-365和ImageNet-1 k上比较了人类注释。所有微调数据集的平均准确度比较表明，ExFractalDB-1 k（1.4k个实例）的平均准确度（88.6）高于自监督 PASS （ PASS+DINO 87.8 ）。 PASS 和FDSL都试图改善数据集的道德规范。FDSL表明，使用相同大小的合成数据集可以实现更高的精度。FDSL 预训练在 ExFractalDB-1 k 的 Cars （ 90.3 vs.89.9）和ExFractalDB的Flowers（99.6 vs. 99.4）中部分优于ImageNet-1 k预训练。虽然FDSL并没有在所有情况下都优于ImageNet预训练，但它在广泛的微调中具有竞争力。在gMLP和ResNet上的性能。表10显示了gMLP [24]和ResNet [18]的结果。我们使用带有16 16补丁的gMLP-Tiny和带有50层的ResNet。结构分别包含6.0 M和25.0M参数（ViT-Ti为5.0 M）。根据结果，ViT似乎比gMLP和ResNet更好地匹配FDSL。观察其效果。我们的主要发现之一是，我们可以使用我们的FractralDB-21 k数据集超越在ImageNet-21 k上预训练的ViT的准确性在目前的工作中，我们提供了支持我们的两个假设的经验证据我们创建了具有不同特征的各种合成数据集。当这些数据集用于ViT的预训练时，主要由轮廓组成的数据集提供了最高的微调精度，这验证了我们的第一个假设。我们还通过改变FDSL参数的数量来控制预训练的难度我们发现，更困难的预训练任务会导致更好的微调准确性，这验证了我们的第二个假设。我们相信，轮廓形状的进一步改进和更复杂的分类任务是可能的，这使得有可能在合成数据集上扩大预训练，以便有一天超过JFT-300 M/3B [32，38]和IG-3.5B [26]。确认本文是根据新能源和工业技术开发组织（NEDO）委托的一个项目JPNP20006的结果编写的。该模型使用了美国国家高等工业科学技术研究院（AIST）提供的人工智能桥接云计算结构（ABCI）我们要感谢Junichi Tsujii 、 Yutaka Satoh 、 Kensho Hara 、 Yoshi-hiro Fukuhara、Hiroaki Aizawa、Shintaro Yamamoto、Take- hiko Ohkawa、Ryo Takahashi在研究讨论中提出的有益意见21240引用[1] 康纳 · 安德森和瑞安· 法雷尔。改进分形预训练。IEEE/CVF计算机视觉应用冬季会议（WACV），2022年。一、二[2] YukiMAsano ， ChristianRupprecht ， AndrewZisserman，and Andrea Vedaldi.Pass：一个imagenet替代没有人类的自我监督预训练在NeurIPS跟踪数据集和基准，2021年。一、二、八[3] Manel Baradad，Jonas Wulff，Tongzhou Wang，PhillipIsola，and Antonio Torralba.通过观察噪音来学习观察。arXiv预印本arX

下载后可阅读完整内容，剩余1页未读，立即下载