合成数据在跨领域下游任务中的预训练模型性能优化

72 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9194...来自不同领域的下游任务（真实图像）Task2Sim：从合成数据SamarthMishra <$1RameswarPanda 2ChengPerng Phoo <$3Chun-Fu（Richard）Chen12Leonid Karlinsky 2KateSaenko 1，2VenkateshSaligrama 1Rogerio S. Feris21波士顿大学2麻省理工-IBM沃森人工智能实验室3康奈尔大学摘要在Imagenet或其他大量真实图像数据集上的预训练模型已经导致了计算机视觉的重大进步，尽管伴随着与策展成本、隐私、使用权和道德问题相关的缺点在本文中，我们第一次研究了基于图形模拟器生成的合成数据的预训练模型到来自不同领域的下游任务在使用这种合成数据进行预训练时，我们发现不同任务的下游性能受到不同模拟参数配置的影响（例如，照明、对象姿态、背景等），而且没有一个放之四海而皆准的解决方案。因此，最好将合成的预训练数据定制为特定的下游任务，以获得最佳性能。我们引入了Task2Sim，这是一个统一的模型，它将下游任务表示映射到最佳仿真参数，以生成合成的预训练数据。Task2Sim通过训练来学习这种映射，以找到一组“看到”任务的最佳参数集。一旦经过训练，它就可以用于一次性预测新的“看不见的”任务的最佳模拟参数，而无需额外的训练。给定每个类的图像数量预算，我们对20个不同的下游任务进行了广泛的实验，结果表明，与在可见和不可见任务上非自适应地选择模拟参数相比，Task2Sim它甚至可以与Imagenet的真实图像预训练相媲美。1. 介绍使用从网络收集的大规模标记（如ImageNet [9]）或弱标记（如JFT-300 M [5，18]，Instagram-3.5B [34]）数据集一直是预训练分类器的首选方法，用于标记数据相对稀缺的下游任务先前的工作已经证明，当我们转向更大的数据集进行预训练时，†在麻省理工学院-IBM沃森人工智能实验室实习时完成的工作现隶属于JPMorgan Chase，FLARE。当春福在麻省理工学院-IBM沃森人工智能实验室工作时。项目页面：https://samarth4149.github.io/projects/task2sim.html合成数据预训练ChestX素描花SVHN EuroSAT图1.我们探索了如何将合成数据有效地用于训练模型，这些模型可以从各个领域转移到广泛的对于所有下游任务来说，通用的预训练模型是最好的方法吗？流准确性平均提高[34，56]。然而，大规模的真实图像数据集除了隐私或版权等其他问题外，还需要承担此外，像JFT-300 M和Instagram-3.5B这样的大型数据集还没有公开，这在算法的可重复性和公平比较方面构成了瓶颈。通过图形引擎生成的合成图像提供了一种替代方法，可以消除这些问题的很大一部分。利用3D模型和场景，可以通过改变各种场景或图像捕获参数来生成潜在的无限图像。尽管合成数据已被用于各种专业任务中的迁移学习[2，48，55，59]，但之前还没有专门研究其可迁移性，以适应不同领域的一系列不同识别任务（见图1）。在进行这一首次（据我们所知）研究时，我们首先提出一个问题：在针对不同下游的合成预训练中9195预训练数据下游精度EuroSAT SVHN Sketch DTD构成87.0128.4937.8937.39+照明88.5732.3638.8140.32+模糊90.2035.5835.5337.66+材料84.5444.8430.8138.51+背景80.4429.9314.60三十二点三十九分表1. 使用线性探测的下游任务精度，Resnet-50主干在具有不同变化参数的合成数据集上进行预训练（连续添加）。我们看到不同的模拟参数对下游任务有不同的影响分类任务，一个尺寸适合所有的解决方案（即，所有任务的通用预训练模型）工作得好吗？使用图形引擎，我们可以控制各种模拟参数（照明，姿势，材料等）。因此，在一个实验中，我们将不同参数的更多变化连续引入到来自237个不同类别的100k合成图像的预训练数据集中（与三维世界中可用的类别一样多 [11] ）。我们预先训练了 ResNet-50[16]，并在不同的下游任务上使用线性探测评估了这个骨干。结果在表1中。我们看到，一些参数（如随机对象材质）可以提高一些下游任务（如 SVHN 和DTD）的性能，同时降低EuroSAT和Sketch等其他任务的性能。一般来说，不同的预训练数据属性似乎有利于不同的下游任务。为了最大化预训练的益处，可以为每个特定的下游任务找到不同的最佳模拟参数。由于不同仿真参数配置的组合很大，因此不可能进行强力搜索然而，这可能仍然表明，每个下游任务都需要一些可能昂贵的学习过程，以获得用于预训练的最佳我们证明这不是事实。我们引入了Task2Sim，这是一个统一的模型，它将下游任务表示映射到最佳模拟参数，用于预训练数据生成，以最大限度地提高下游准确性。使用一组下游任务的矢量表示（以Task2Vec [1]的形式），我们训练Task2Sim找到并学习到集合中每个任务的最一旦在这组“可见”任务上进行了训练这种针对新任务的高效一次性预测具有重要的实用价值，如果开发为最终用户应用程序，可以自动生成和提供预训练数据，给出一些下游示例。我们使用20个下游分类数据集进行的广泛实验表明，在看到的任务上，给定每个类别的图像数量，Task2Sim评估预训练数据集，这些数据集对于下游性能来说比域随机化[2，25，74]等非任务自适应的方法要好得多。此外，我们还展示了Task2Sim也可以很好地推广到看不见的任务，在与Imagenet预训练竞争的同时，保持了对非自适应方法的优势。总之，（i）我们解决了一个新颖且非常实用的问题-如何最佳地利用合成数据来自适应地预训练深度学习模型以转移到不同的下游任务。据我们所知，这是第一次在迁移学习研究中提出这样的问题。(ii)我们提出了Task2Sim，一个统一的参数模型，学习映射下游任务的Task2Vec表示到模拟参数，以进行最佳的预训练。(iii)Task2Sim可以概括为新的（iv）我们提供了对下游准确性行为的彻底分析，其中具有不同大小的预训练数据（在类别、对象网格或简单图像的数量中）和不同的下游评估方法。2. 相关工作使用合成数据进行训练。自计算机视觉早期以来，从合成数据中学习的方法已经被广泛研究[31，39]。近年来，已经提出了许多依赖于合成数据表示的方法用于图像分类[11，36]，对象检测[43，44]，语义分割[50，67]，动作识别[49，61]，视觉推理[22]和体现感知[27，53，71]。与以前的工作不同，我们专注于一个不同的问题：如何从合成数据中构建任务自适应的预训练模型，这些模型可以转移到来自各个领域的广泛下游数据集。合成到真实的转移。提出的用于弥合现实差距（模拟和真实数据之间）的大多数方法都是基于域自适应[8]。这些包括基于重建的技术，使用编码器-解码器模型或GAN来提高合成数据的真实性[19，47，54]，基于差异的方法，旨在对齐两个域之间的特征[51，75]，以及对抗方法，依赖于域判别器来鼓励域独立的特征学习[13，45，60]。与这些技术相比，我们的工作旨在从合成数据中构建预训练模型，并且不假设源和目标域的标签集相同。在与我们类似的环境中，最流行的方法是域随机化[2，25，44，59，74]，它从随机变化的模拟器参数生成的数据集中学习预训练模型。相比之下，Task2Sim学习模拟器参数以生成最大化迁移学习性能的合成数据集。9196∈∈X任务1Task2Vec嵌入模拟参数发生器合成图像数据集姿势光凸轮分类器Task2Sim预训练任务N分类器更新参数奖励构建下游模型并评估图2. 说明我们提出的方法。给定一批由Task2Vec表示的任务，我们的方法（Task2Sim）旨在将这些表示映射到最佳模拟参数，以生成合成图像数据集。然后，下游分类器对任务集的准确性被用作更新Task2Sim的参数的奖励。一旦经过训练，Task2Sim不仅可以用于模拟器参数的优化。最近，已经提出了一些通过优化模拟器参数来学习合成数据生成的方法[3，26，52，73]。[12][13][14][15][16][17] Desc. [74]最小化模拟数据和真实数据的分布之间的距离。学习模拟[52]使用策略梯度优化模拟器参数，最大限度地提高特定任务的验证准确性，而Auto-Sim [3]使用目标的可微近似加速搜索过程。Meta-Sim [10，23]学习修改从概率场景语法中获得的属性以这些方法专门针对自动驾驶中的应用而值得注意的是，我们提出的方法与以前的方法有很大的不同，因为它通过统一的参数模型将任务表示映射到仿真参数，即使对于看不见的任务，也可以一次性生成合成数据，而不需要昂贵的训练。条件计算尽管不明显，但我们的方法也与动态神经网络相关，动态神经网络根据输入自适应地改变计算[15]。这些方法已被有效地用于跳过以输入为条件的深度神经网络中的计算[62，66，69]，执行自适应微调[14]，并动态分配跨帧的计算以进行有效的视频分析[35，70]。特别是，Adashare [57]在单个多任务网络模型中为每个任务学习不同的计算路径，目的是提高效率并最大限度地减少多任务学习中的负面干扰类似地，我们的方法使用单个参数模型为每个任务学习不同的数据模拟路径（通过自适应地决定使用哪些渲染参数），目标是生成特定于任务的预训练数据。3. 该方法我们的目标是创建一个统一的模型，映射任务表示（例如，使用task2vec [1]获得）来模拟参数，这些参数进而用于渲染合成的预训练数据集，不仅用于训练期间看到的任务，而且用于新任务。这是一个具有挑战性的问题，因为可能的模拟参数配置的数量组合很大，使得当参数数量增加时，蛮力方法不可行。3.1. 概述图2显示了我们的方法的概述。持续时间在训练中，提供一批“看到的”任务作为输入。它们的task2vec矢量表示作为输入被馈送到Task2Sim，Task2Sim是将这些下游task2vec映射到模拟参数（诸如照明方向、模糊量、背景变化性等）的参数模型（在所有任务之间共享）。然后，数据生成器（在我们的实现中，使用三维世界平台[ 11 ]构建）使用这些参数来生成合成图像的数据集。然后，分类器模型在这些合成图像上进行预训练，然后将骨干用于评估特定的下游任务。这个任务的分类器的准确性被用作更新Task2Sim参数的奖励。一旦经过训练，Task2Sim还可以用于一次性有效地预测训练过程中没有遇到的“看不见”任务的模拟参数3.2. Task2Sim模型让我们用θ表示Task2Sim给定下游任务x的task2vec表示作为输入，Task2Sim输出模拟参数a。该模型由M个输出头组成，每个模拟头一个，9197∈∈{1}|∈}∈QT{|}Max5设置噪音level0=∈Max拉瓜MaxΣ∈siMaxθ我我作用参数。在下面的讨论中，就像在我们的实验中一样，每个模拟参数都被离散到几个级别，以限制可能输出的空间每个头输出一个分类分布π i（x，θ）<$ki，其中k i是参数i [ M ]的离散值的个数，<$ki是一个标准k i-单形。argmax输出的集合ν（x，θ）=νiνi=argmaxj[ki]πi，j我[M]是用于合成数据生成的模拟参数值的集合。随后，我们放弃注释π和ν对θ和x的依赖性。3.3. Task2Sim培训由于Task2Sim的目标是在预训练后最大限度地提高下游准确率，因此我们将此准确率作为训练优化1的奖励。请注意，这种下游精度是输出模拟参数的不可微函数（假设任何模拟引擎都相反，我们使用REIN-FORCE [68]来近似下游任务性能相对于模型参数θ的梯度。Task 2Sim对应于M的集合的不同值的”选项“其中，作为提醒，ν是来自Task2Sim模型头的分布argmax参数值的集合。我们的方法的伪代码在算法1中示出。具体来说，我们使用从一组“看到的”任务中采样的小批量任务来更新模型参数θ与[41]类似，我们也采用了自我模仿学习，偏向于发现有更好回报的行为这是通过跟踪学习过程中遇到的最佳动作并将其用于对模型的额外更新来完成的，除了算法1的第12行中的更新之外。此外，我们使用5-最近邻分类器的测试准确性，该分类器对由预训练的骨干生成的特征进行操作，作为下游任务性能的代理，因为它在计算上比迁移学习中使用的其他常见评估标准快得多线性探测或全网络微调。我们的实验表明，这种代理评估措施确实与线性探测或全网络微调相关，因此有助于最终的下游性能。算法一：培训Task2Sim1 输入：一组N个模拟参数P（a）=采摘动作i∈[M] πi（ai）是概率，由task2vecs=xii[N]表示。2给定初始Task2Sim参数θ0和初始在策略π= [πi]i∈[M]下，a= [ai] i∈[ M].记住，输出π是参数θ和任务表示x。培养噪音水平1003 初始化a（i）|i∈ [N] the maximum reward action模型，我们最大化其政策下的预期回报，定义为Σ对于每个可见任务4对于t∈[T]do不R=E[ R（ a）]=a∈a∈P（a）R（a）⑴来自T的大小为n的6个样本minibatch τ7获取T ask2Sim输出分布π（i）|i∈[n]其中，R（a）是所有输出a的空间，R（a）是当选择与动作a相对应的参数值时的回报。由于奖励是下游的准确度，R（a）[0，100]。使用REINFORCE规则，我们有8采样输出a（i）<$π（i）+<$9通过生成一个合成的R（a（i））来获得奖励具有参数a（i）的数据集，在其上预训练骨干，并使用该骨干θR=E ∈Ω [（θlogP（a））R（a）]（2）10更新a㈠如果R（a（i））> R（a（i））a∈Σ∇θi i11使用等式11获得小批量中每个任务的奖励梯度dr（i）的点估计。（四）=Ei∈[M]logπ（a）<$R（a）<$（3）12θt，0←θt−1+dr（i）i∈[n]n其中第二步来自导数的线性。在实践中，我们在样本a（π+π）上使用上述期望的点估计（π是一些探索13为j[Tsi]do//自模仿14从下式获得奖励梯度估计dr（i）：噪声添加到Task2Sim输出分布）与自关键基线遵循[46]：当量（4）fora←a（i）Σdr（i）Rlogπ（a）（R（a）−R（v））（4）15θt，j←θt，j−1+16端部17θt← θt，Tsii∈[n]sini∈[M]1请注意，我们的奖励仅取决于task2vec输入和输出操作，不涉及任何状态，因此我们的问题可以被认为类似于无状态RL或上下文强盗问题[29]。θ919818 端19 输出：训练模型，参数为θT。9199∀∈4. 实验4.1. 细节下游任务。我们使用了一组20个分类任务来进行Task2Sim实验。我们使用[21]中的12个任务作为我们模型的“可见”任务集我们所有的任务可以大致分为以下6类（S：看得到，U：看不见）：• 自然图像：[40][42][43][44][45][46][47][48][49]• 航拍图像：欧洲卫星（S）[17]，Resisc45（S）[4]，AID（U）[72]，CactusAerial（U）[32]• 符号图像：SVHN（S）[38]，Omniglot（S）[28]，USPS（U）[20]• 医学图像：ISIC（S）[7]，ChestX（S）[65]，ChestX-肺炎（U）[24]• 说明性图片：[58]第一届中国国际航空航天博览会（2014年）[64]• 纹理图像：[76]第六届世界卫生组织（卫生组织）大会Task2Sim详细信息。我们使用Resnet-18探针网络来生成下游任务的9600维Task 2 Vec表示。Task2Sim模型是一个具有2个隐藏层的多层感知器，具有ReLU激活。该模型为所有M个头共享其前两个层，然后是分支。它在看到的任务上训练了1000个epoch，具有批量大小为4和5的自我模仿步骤（即，n= 4，Tsi=5和T= 1000）。我们使用Resnet-50模型对Task 2Sim的奖励进行预训练和下游评估。补充资料中有完整的详细信息合成数据生成。我们使用三维世界（TDW）[11]来生成合成图像。该平台提供来自237个不同类别的2322个不同对象模型，其中 57 个与 Imagenet 重叠。使用TDW，我们从上述集合中生成单个对象的合成图像（参见图1的示例）。在本文中，我们尝试了预训练数据集的参数化，其中M= 8且ki= 2i[M]（使用第3节中的术语）。这8个参数是：• 对象旋转：如果为1，则在数据集中显示对象的多个姿势，否则，对象在每个图像中以规范姿势出现。• 对象距离（从相机）：如果为1，则对象与相机的距离在一定范围内随机变化，否则保持固定。• 照明强度：如果1，主照明强度• 照明方向：如果为1，则主光源的方向是变化的，否则为常数。• 对焦模糊：如果是1，相机对焦点和光圈被随机扰动，导致图像模糊，否则，所有图像内容始终在焦点上。• 背景：如果为1，则对象的背景在每个图像中都会改变，否则保持固定。• 材质：如果为1，则在每个图像中，对象的每个组件都从140种不同的材质中随机选择一种材质，否则对象具有其默认材质。因此，在我们的实验中，对于上述8个参数中的每一个，Task2Sim决定它是否会在数据集中表现出不同为了在训练Task2Sim时加快数据集生成速度，我们使用了来自100个不同类别的780个具有简单网格的对象的子集，并为每个类别生成了400张图像进行预训练。4.2. Task2Sim结果基线。我们将Task2Sim的下游性能与以下基线（预训练数据集）进行了比较(1)随机：对于每个下游数据集，选择一个随机的8位长度的位串作为模拟参数集。(2)领域随机化：在每个模拟参数中使用1，从而在每个图像中使用模拟的所有变化。(3)Imagenet：使用Imagenet的一个子集，其类和图像的数量与其他基线相同2. (4)Scratch：不涉及分类器1009080706050403020数据集图3.使用全网络微调评估的237类/100 k图像预训练数据集的12个可见任务的Task 2Sim与基线的性能。最好用彩色观看。查看任务的性能表2显示了使用Resnet- 50主干的不同评估方法对Task 2Sim的12个可见下游任务和所有基线的平均精度。对于最后两列，我们包括了所有源（在一定距离处类似太阳的点光源）是变化的，否则，它是固定的。• 照明颜色：如果为1，则主光源的RGB颜色是变化的，否则是固定的。2我们还比较了使用Imagenet进行的预训练与1K类和相同数量的图像，但平均而言，下游性能比类较少的子集差。为了简洁起见，表2和3以及图3和4下游精度Task2SimR做安东主Rparam安东S伊扎蒂奥nIm阿杰尼不9200预训练数据集平均下游准确度-可见任务100类/40 k图像237类/100 k图像5NN线性探测Finetuning线性探测Finetuning划痕--64.85-64.85随机25.3054.0670.7755.1472.18领域随机化19.4235.3162.9645.3168.51Imagenet28.9163.1274.2668.4477.61Task2Sim30.4662.7075.3462.7176.87表2.比较Task2Sim选择的预训练数据集和其他基线的下游准确度。通过Task2Sim在看到的任务上找到的模拟参数生成合成预训练数据，该数据比其他方法（如使用随机模拟参数或域随机化）更适合下游任务使用Task2Sim的数据进行预训练在Imagenet的图像上进行训练Imagenet已被二次采样为与列顶部所示相同数量的类和图像粗体=最高，下划线=列中第二预训练数据集平均下游精度-不可见任务100类/40 k图像237类/100 k图像5NN线性探测Finetuning线性探测Finetuning划痕--76.86-76.86随机51.8074.6883.9774.1183.49领域随机化45.0656.9672.6469.1278.15Imagenet54.1275.4784.7881.3387.84Task2Sim53.0679.2587.0582.0588.77表3.比较Task2Sim选择的预训练数据集和其他基线在看不见的任务上的下游准确度Task2Sim还可以很好地推广到“看不见的”任务，在训练过程中不会遇到，保持了对其他合成数据的优势，同时仍然与Imagenet竞争。Imagenet二次采样如表2所示。粗体=最高，下划线=列中第二1009080706050403020数据集100k图像预训练集。执行看不见的任务。表3显示了在不同数据集上预训练的Resnet-50在8个看不见的数据集上的平均下游准确度我们看到，Task2Sim通用性很好，仍然优于DomainRandomization和Randomsimulationparameterselection。此外，对于这些任务，它的平均效果略好于Imagenet预训练。图4显示了表3最后一列中8个单独的不可见任务的准确度。4.3. 分析图4.使用全网络微调评估的237类/100 k图像预训练数据集的8个未知任务的Task 2Sim与基线的性能最好用彩色观看。从237个类别中提取TDW对象，并保持每类约400幅图像，总共产生约10万幅图像，用与不同合成图像生成方法对应的模拟参数重新生成新的数据集平均而言，在12个任务中，Task2Sim发现的模拟参数优于DomainRandomization和Random selection，并且与Imagenet预训练具有竞争力，无论是对于Task2Sim训练使用的类子集，还是当使用更大的类集合时。图3显示了在237类别Task2Sim输出。图5显示了不同的可见和不可见任务的Task2Sim模型的输出分布。每个输出显示了模型在该特定模拟参数中分配给输出1的概率。从输出中，我们看到模型确定，通常对于所考虑的任务集，最好看到对象的单个姿势而不是多个姿势，并且最好在不同图像中具有场景照明强度变化而不是在所有图像中具有恒定强度的照明。一般而言，添加材料变异性被确定为对大多数数据集更差，SVHN除外。比较对可见任务和不可见任务的预测例如，ChestXPneumonia的输出类似于ChestX，而输出化随机化不域Imageneparams随机Task2Sim下游精度9201CactusAerial的数据集与EuroSAT的数据集类似，都是航空/卫星图像数据集。在PacsS和Sketch中也可以看到类似的趋势，这两个都包含手绘草图，并且对于CUB和CropDisease，这两个都是自然图像数据集。另一项检查显示，Task2Sim对某些任务做出了非常合乎逻辑的决定。例如，Task2Sim关闭CUB的“Light Color”参数。在这里，颜色在区分不同的鸟类中起着重要作用，因此需要一个不应该对颜色变化保持不变的分类器表示。实际上，从图9中，我们可以看到Task2Sim的邻居具有相似的颜色。预训练班级数量的影响。在图6中，我们绘制了12个下游任务的完整网络微调的平均准确率。在x轴上，我们改变了用于预训练的类的数量，平均每个类1000张图像（200个类=200k张图像）。我们看到所有的预训练方法都以近似的速度随着更多的类（以及相应的更多的图像）而改进Task2Sim比Domain Randomization更好，并且与Imagenet的等效子集（在类别和图像数量方面）的预训练（大约2%每个类的不同对象数量的影响。在TDW中，我们有来自237个不同类别的2322个对象网格。在图7中，我们改变了每个类别使用的对象网格的数量。x轴上最右边的点有200k个图像，所有对象都被使用，向左移动，图像的数量随着这些对象的一小部分被使用而成比例地减少（类别的数量相同）。我们发现，随着用于每个类别的不同对象数量的增加，域随机化以略高于我们提出的Task2Sim的速率提高下游性能。预训练图像数量的影响。在图8中，我们评估：全网络微调。平均下游性能807876747270686625 50 100 150 200用于预训练图6.在不同数量的预训练课程中，平均表现超过12个任务所有方法都以类似的速度提高性能，并添加更多的类。评估：全网络微调。平均下游性能78767472706866641/4 1/3 1/2 1用于预训练图7.在每个类别用于生成合成预训练数据的不同数量的对象网格下，12个可见任务的平均性能合成数据生成的两种方法都通过添加更多对象来提高性能，其中域随机化以略高的速率提高。评估：全网络微调。平均下游性能82.580.0对象旋转凸轮距离光强度光颜色光方向焦点模糊背景材质查看任务看不见的任务1.00.80.60.40.20.077.575.072.570.067.565.050k 100k 200k 500k 1M预训练的图像图8.Task2Sim性能（平均超过12个看到的任务）与其他方法在不同数量的图像进行预训练。Task2Sim在较少的图像上非常有效。增加图像的数量可以提高所有方法的性能，在足够高的数量时达到饱和。更多讨论见第4.3图5. Task2Sim输出不同的可见和不可见的任务。所示的值是特定模拟参数中值1的预测概率。最好用彩色观看。显示平均下游任务精度，对于12个看到的任务，具有用于预训练的不同数量的图像。除Imagenet-1 K和Scratch外，所有方法都使用237种图像类别，合成数据集使用所有可用的SIMain随机化Task2Dom下游精度下游微调精度下游精度Task2Sim域随机化Imagene不Task2Sim域范围穹状化Imagenet 2Imagenet-137K划痕9202Task2Sim领域随机化ImageNet*Task2Sim领域随机化ImageNet*Task2Sim领域随机化ImageNet*图9.基于不同预训练特征表示的CUB数据集的三个测试示例的3个最近邻（顶部：Task2Sim，中间：域随机化，底部：ImageNet*）。带有蓝色框的邻居与左侧的锚点图像共享同一个类对于Task2Sim，类似于Imagenet，邻居具有相似的颜色，这表明预训练的表示捕获了颜色相似性，这对于识别不同的鸟类物种至关重要。最好用彩色观看。对象模型Imagenet-237是Imagenet-1 K的一个子集，包含随机挑选的237个类别。我们看到Task2Sim在可用于预训练的图像较少的情况下非常有效，甚至比使用Imagenet进行50k图像的它保持了非自适应预训练的优势，直到500k图像的显着外推，仅使用较小的数据集（100类和40k图像）进行训练。在100万张图像中，它仍然与Imagenet预训练竞争，并且比从头开始训练要好得多。我们还观察到，当有更多的预训练图像可用时，所有方法都有所改善，尽管随着我们沿着正X方向移动，改善率会降低。最初，Domain Randomization的改进速度比Task2Sim更高，并且在1M预训练图像上与其性能相匹配。这可能是因为在更高数量的图像处，即使当存在来自每个图像中的模拟的所有可能的变化（对应于Do_main随机化）时，深度特征提取器对变化增长鲁棒性，这可能不会向特定下游任务的表示添加任何值。我们的假设是，在固定数量的类别中，当上述鲁棒性足以匹配Task2Sim的下游性能时，预训练图像的数量可能存在某个点在TDW的237个类别限制下，并使用我们选择的8个参数的变化集，1M图像似乎就是这一点。然而，随着类的数量增加，这一点向更高数量的图像转移。作为证据，考虑图6，我们看到随着更多的对象类添加更多的数据，不同的方法以相似的速度改进沿着正X进一步移动，如果这适用于更多的类，即使在更高数量的图像上，Task2Sim也保持了其对域随机化的优势。这表明，像Domain Randomization这样的非自适应预训练方法有可能与Task2Sim一样有效，但代价是需要更多的预训练图像。然而，随着预训练数据包含更多的对象类别，这种成本将不断增加，并且在没有实验的情况下将是有关其他结果和讨论，我们请读者参阅补充资料。5. 结论我们看到，在使用合成数据进行预训练时，最适合下游性能的方法是专门将合成数据适应不同的下游任务。在本文中，我们通过来自图形引擎的不同模拟参数来参数化我们的合成数据，并引入了Task2Sim，它学会将下游任务表示映射到最佳模拟参数，以获得任务的合成预训练数据。我们展示了Task2Sim可以在一组“可见”任务上进行训练，然后可以生成新的“不可见”任务，一次性预测它们的参数，这使得它对于合成预训练数据生成非常实用。虽然当代表征学习的大部分研究都集中在自我监督以避免使用标签，但我们希望我们的Task2Sim演示能够激励进一步研究使用图形引擎的模拟数据来实现这一目的，重点关注下游应用程序的自适应生成。鸣谢。本材料是基于美国国防高级研究计划局（DARPA）根据合同号FA8750-19-C-1001。本材料中表达的任何观点、发现和结论或建议均为作者的观点，不一定反映国防高级研究计划局（DARPA）的观点。这项工作还得到了陆军研究办公室赠款W 911 NF2110246，国家科学基金会赠款CCF-2007350和CCF-1955981，以及波士顿大学哈里里研究所的我们还要感谢TDW-Seth Al- ter、Abhishek Bhandwaldar和JeremySchwartz的开发人员，感谢他们对平台及其使用的帮助。9203引用[1] Alessandro Achille ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran ， Subhransu Maji ， Charless CFowlkes，Stefano Soatto，and Pietro Perona.Task2vec：元学习的任务嵌入。在ICCV，2019年。二、三[2] Peter Anderson ， Ayush Shrivastava ， Joanne Truong ，Arjun Majumdar，Devi Parikh，Dhruv Batra，and StefanLee.模拟到真实的视觉和语言导航传输在CoRL，2021年。一、二[3] HarkiratSinghBehl ， AtilimGuéne sBaydin ， RanGal ，Philip HS Torr和Vibhav Vineet。自动模拟：（快速）学习合成数据生成。在ECCV，2020年。3[4] 宫成、韩俊伟、卢小强。遥感图像场景分类：基准和最新技术水平。 IEEE Proceedings of the IEEE ， 105（10）：1865-1883，2017。5[5] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE conference on computervision and pattern recognition ，第 1251-1258 页， 2017年。1[6] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。IEEE计算机视觉和模式识别会议论文集，第3606-3613页，2014年。5[7] Noel Codella，Veronica Rotemberg，Philipp Tschandl，M Emre Celebi，Stephen Dusza，David Gutman，BrianHelba ， Aadi Kalloo ， Konstantinos Liopyris ， MichaelMarchetti，et al. 2018年黑色素瘤检测的皮肤病变分析：由国际皮肤成像合作组织（isic）主办的挑战赛。arXiv预印本arXiv：1902.03368，2019。5[8] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。arXiv预印本arXiv：1702.05374，2017。2[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。1[10] Jeevan Devaranjan Amlan Kar和Sanja Fidler Meta-sim 2：场景结构的无监督学习，用于合成数据生成。在ECCV，2020年。3[11] ChuangGan ， Jeremy Schwartz ， Seth Alter ， MartinSchrimpf ， James Traer ， Julian De Freitas ， JonasKubilius，Abhishek Bhandwaldar，Nick Haber，MegumiSano，et al. Threed-世界：交互式多模态物理仿真平台。在NeurIPS，数据集跟踪，2021年。二三五[12] Yaroslav Ganin、Tejas Kulkarni、Igor Babuschkin、SMAli Eslami和Oriol Vinyals。使用强化对抗学习合成图像程序。在ICML，2018。3[13] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。2[14] Yunhui Guo，Honghui Shi，Abhishek Kumar，KristenGrau-man ， TajanaRosing ， andRogerioFeris.Spottune：通过自适应微调迁移学习。在CVPR，2019年。39204[15] Yizeng Han ， Gao Huang ， Shiji Song ， Le Yang ，Honghui Wang，and Yulin Wang.动态神经网络：一份调查报告。arXiv预印本arXiv：2102.04906，2021。3[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。2[17] Patrick Helber，Benjamin Bischke，Andreas Dengel，Damian Borth.欧洲卫星组织：土地利用和土地覆盖分类的新型数据集和深度学习基准。IEEE Journal ofSelected Topics in Applied Earth Observations andRemote Sensing，12（7）：2217-2226，2019。5[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。 arXiv 预印本 arXiv ： 1503.02531 ，2015。1[19] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Ef

下载后可阅读完整内容，剩余1页未读，立即下载