任务感知的合成数据生成方法及其在不同目标网络上的性能提升

18 浏览量更新于2023-10-18 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

461学习通过合成Shashank Tripathi1，2悉达多·钱德拉1AmitAgrawal1 Ambrish Tyagi1James M.ViseshChari11亚马逊实验室1262卡内基梅隆大学{shatripa，chansidd，aaagrawa，ambrisht，jameoblog，viseshc}@amazon.com摘要我们提出了一个任务感知的方法来合成数据生成。我们的框架采用了一个可训练的合成器网络，该网络经过优化，通过评估“目标”网络的优势和劣势来产生有意义的训练样本。合成器和目标网络以对抗的方式进行训练，其中每个网络都以超越另一个网络为目标进行更新。此外，我们确保合成器通过将其与在真实世界图像上训练的训练器此外，为了使目标分类器对混合伪影不变，我们将这些伪影引入到训练图像的背景区域，因此目标不会过拟合到它们。我们通过将其应用于不同的目标网络，包括AffNIST上的分类网络和不同数据集上的两个对象检测在AffNIST基准测试中，我们的方法仅用一半的训练样本就能够超过基线在VOC每- son检测基准测试中，我们显示了高达二、7%，这是我们的数据增长的结果。同样，在GMU检测基准测试中，我们报告性能提升了3。5%的mAP超过基线方法，优于先前最先进的方法高达7。5%的特定类别。1. 介绍合成数据生成现在越来越多地用于克服创建用于训练深度神经网络的大型监督数据集的负担。在文献中已经提出了广泛的数据合成方法，范围从照片逼真的图像渲染[22，35，48]以及基于学习的图像合成[36，40，46]，用于数据增强的方法，其自动化用于从现有训练生成新示例图像同等贡献†在亚马逊实验室126图1：使用SSD的物体检测结果比较Baseline：在VOC数据上进行培训，Ours：在VOC和使用我们的方法生成的合成数据上进行绿色和红色边界框表示正确和遗漏的检测结果。SSD与我们的合成数据微调显示小，闭塞和截断的人实例的性能提高。集合[9，14，15，33]。传统的数据扩充方法利用了保留类标签的图像变换[3，46]，而最近的作品[15，33]使用了更通用的图像变换集，甚至包括合成图像。对于对象检测的任务，最近的工作已经探索了一种基于合成的数据增强方法，其中通过将裁剪的前景对象粘贴在新背景上来生成额外的训练图像[6，7，10]。合成方法是这项工作的基础，与图像合成相比有两个主要优势1)原始图像示例和增强图像示例之间的域间隙趋向于最小（主要由混合伪像导致），以及2）该方法是广泛适用的，因为它可以应用于具有对象注释的任何图像数据集。现有方法的局限性在于，基线我们基线我们462合成图像真/假前景掩模真实图像图2：我们的管道由三个组件组成：合成器S，目标网络T和自然图像T。D. S将经过最佳变换的前景图像粘贴到背景图像中，以生成一个合成的合成图像，该合成图像不能使用合成图像更新T以提高其精度。D向S提供反馈以提高合成图像的真实性。T和D用合成数据更新，与S同步。生成合成数据的过程与训练目标分类器的过程解耦。因此，数据增强过程可能产生许多在提高目标网络的性能方面价值不大的示例。我们认为合成数据生成方法必须生成具有三个重要特征的数据。它必须是a）高效的：生成更少的有意义的数据样本，b）任务感知的：生成有助于提高目标网络性能的硬示例，以及c）现实的：生成有助于最小化域差距和提高泛化的现实示例我们通过开发一种新的数据合成方法来实现这些目标。我们在合成器网络、目标网络和搜索引擎网络之间建立了一个三方竞争机制synthe- sizer的任务是通过将给定的背景与最佳变换的前景相结合来生成合成图像，这样它就可以欺骗目标网络，如图2所示。目标网络的目标是正确地分类/检测合成图像中的前景对象的所有实例合成器和目标网络以锁定步骤迭代地更新。为了保证合成器生成的合成图像与真实图像一致，我们还引入了一个真实图像合成器。增强真实性可以防止模型生成不太可能出现在真实图像中的人工示例，从而提高目标网络的泛化能力。所有基于组合的方法的一个关键挑战是训练模型对混合伪影的敏感性。目标和反向传播网络可以很容易地学会抓住混合伪影，从而使数据生成过程无效。为了解决混合的这些问题，Dwibediet al. [7]采用了5种不同的混合方法，使目标网络不会过度拟合特定的混合伪影。我们提出一个替代方案-通过合成在背景中包含类似混合伪影的示例来解决这个问题。通过在背景图像中粘贴前景形状的剪切来生成伪影。这使得目标网络对前景对象周围的任何混合伪影不敏感，因为相同的伪影也存在于背景图像中。我们应用我们的合成流水线来展示任务的改进，包括AffNIST数据集[45]上的数字分类，Pascal VOC [8]上使用SSD [29]的对象定位，以及 GMU Kitchen [11]数据集上使用Faster RCNN [34我们证明了我们的方法是有效的：我们使用不到50%的数据实现了与基线分类器相似的性能（第二节）。4.1），b) 任务感知：在我们的数据上训练的网络实现了到2. 7%的人员检测改进（第二节）4.2）和3. GMU厨房数据集上所有类别的mAP比基线增加5%4.3）。我们还表明，与最先进的人员检测技术[6，7]相比，我们的方法产生>本文的贡献如下：• 我们提出了一种新颖的图像合成器网络，它可以学习创建复合材料，专门用来欺骗目标网络。我们表明，合成器是有效的在生产困难的例子，以改善目标网络。• 我们提出了一种策略，使目标网络不变的合成图像中的文物，通过生成额外的幻觉文物在后面，地面图像。• 我们证明了我们的框架的适用性，图像分类，对象检测和实例检测。目标网络（T）合成器网络（S）鉴别器（D）463范例来训练我们的合成器，目标和网络。以前的工作，如A-Fast-RCNN [49]和对抗空间Transformer（ST-GAN）[26]也采用对抗学习来生成数据A-Fast-RCNN方法使用对抗空间丢弃来模拟遮挡和对抗空间Transformer网络来模拟对象变形，但不生成新的训练样本。ST-GAN方法使用生成模型来合成逼真的合成图像，但不针对目标网络进行优化。渲染：最近的作品[1，16，35，40，47，50]使用模拟引擎渲染合成图像以增加训练数据。这种方法允许细粒度的控制前地物体的比例、姿态和空间位置，从而减少对人工和图3：使用一个渲染器可以提高生成的图像。(Top)在循环中生成的合成图像不含（底部）使用合成生成的合成图像。2. 相关工作据我们所知，我们的方法是第一种通过以任务感知的方式合成图像来生成合成数据的方法。关于合成数据生成的先前工作可分为三组：1）图像合成，2）对抗生成，以及3）渲染。图像组成：我们的工作受到最近剪切和粘贴方法[6，7，10]的启发，以合成用于对象检测任务的阳性示例。这些方法的优势来自于产生新颖多样的jux-前景和背景的分离，这可以实质上增加可用的训练数据。我们工作的出发点是Dwibedi等人的方法。[7]，他们第一个通过剪切和粘贴程序证明了性能的实证提升。他们的方法使用随机抽样来决定前景补丁在背景图像上的位置。然而，它可以产生不切实际的组合物，这限制了推广性能，如[6]所示。为了帮助概括，先前的作品[6，10]利用上下文线索[4，30，31]来指导前景补丁的放置并提高生成的示例的真实性。我们的数据生成器网络隐式编码上下文线索，用于生成现实的积极的例子，指导下的的情绪。因此，我们避免了构建明确的上下文模型的需要[4，6]。其他作品使用图像合成来改善图像合成[44]，多目标跟踪[20]和姿态跟踪[37]。然而，与我们的方法不同，这些先前的工作都没有在生成合成数据的同时优化目标网络。对抗学习：对抗学习已经成为图像合成、生成采样、合成数据生成等任务的强大框架。[2，5，26，43]我们采用对抗学习符号。基于绘制的方法的一个关键问题是合成数据和真实数据之间的域差异。通常，域自适应算法（例如，[40]是弥合这一差距的必要条件。然而，我们通过仅使用真实数据合成图像来避免这个问题。Hard example mining：以前的工作已经表明了训练鲁棒模型的硬示例的重要性 [19，27，38，51，52，29]。然而，大多数的AP-接近挖掘现有的训练数据，以识别困难的例子，并受到训练集的限制与我们的方法不同，这些方法不会生成新的示例。最近，[18，53]提出了数据增强，用于生成生成额外的伪负训练示例的转换。相比之下，我们产生了硬性的正面例子。3. 任务感知数据合成我们用于通过图像合成生成硬训练示例的方法需要作为输入的背景图像b和分割的前景对象掩模m，感兴趣的对象类。学习问题被表示为合成器S、目标T和目标D之间的3路竞争。我们优化S以产生可以欺骗T和D的合成图像。T被更新以优化其目标损失函数，而D继续提高其分类精度。所得到的合成图像是T.以下部分描述了我们的数据合成管道和端到端训练过程更详细。3.1. 合成器网络合成器对输入b和m进行操作，并输出变换函数A。这种变换被应用于前景掩模以产生复合的合成图像f=b<$A（m），其中f表示alpha混合[26]操作。在这项工作中，我们将A限制为2D仿射变换的集合（由6-di参数化）。464迭代生成的数字0 12 3451412192358696 7 89图4：我们的方法在AffNIST实验的多次迭代中生成的数据（第4.1节）。随着训练的进行（从上到下），合成的示例变得更加复杂，从目标网络的单一故障模式到后期的多种模式。Mensional特征向量），但是该方法可以平凡地扩展到其他类别的图像变换。b、f、A然后被馈送到空间Transformer模块[17]，其产生合成图像f（图2）。合成图像被馈送到目标网络和目标网络，目的是欺骗它们。合成器与目标和目标同步训练，如以下部分所述混合人工制品：为了将前景区域粘贴到背景中，我们使用[ 17 ]中描述的标准alpha混合方法。如[7]中所讨论的，一个实际挑战是目标模型可以学习利用由混合函数引入的任何伪影，因为这些伪影将始终与正面示例相关联，从而损害分类器的泛化在[7]中使用多个混合策略来阻止目标模型利用混合伪影。然而，具有足够容量的目标模型仍然可以设法在所使用的所有不同混合函数上过拟合。此外，由于需要确保端到端学习中的差异性，因此生成大量候选混合函数是具有挑战性的。我们提出了一个简单而有效的策略来解决这个问题。我们明确地将混合伪影引入到合成图像的背景区域中（见图11）。（五）。为了实现这个策略，我们（i）从我们的训练集中随机选择一个前景蒙版，（ii）从一个图像中复制形状类似于这个蒙版的背景区域，(iii)使用与S相同的混合函数将其粘贴到另一个图像的背景区域上。作为该过程的结果，图像中合成区域的存在不再具有任何区分价值，因为该区域可以由前景或背景组成图5：粘贴到训练图像的背景区域中的混合伪影的示例，以便移除与合成相关联的任何区别性线索一个随机的前景形状从不同的背景图像切出粘贴在给定图像的背景区域显示了来自COCO（顶行）和VOC（底行）的图像。3.2. 目标网络目标模型是针对特定目标（例如图像分类、对象检测、语义分割、回归等）训练的神经网络。通常，我们首先用标记的数据集训练目标T，以获得基线性能水平。然后，这个预先训练的基线模型T与S和D同步微调。我们的合成数据生成框架适用于广泛的目标网络。在这里，我们推导出图像分类和目标检测这两种常见情况下的损失。图像分类：对于图像分类任务，目标损失函数LT是训练数据集上的标准交叉熵损失。目标检测：对于SSD [29]和faster-RCNN [34]等检测框架，对于每个边界框建议，目标网络输出（a）概率分布，在数据集（包括背景）中的L+1个类上p=（p0，···，pL），（b）边界盒回归偏置r∈R4.虽然SSD使用固定的锚盒，但更快- RCNN使用基于CNN的边界框建议的每个提议的基础真值类标签和边界框偏移分别由C和V表示相交于并集（IoU）重叠大于0的情况。5个具有真实边界框的边界框被标记为边界框的类，其余的被分配给背景类。对象检测器目标T被训练以优化以下损失函数：像素这个简单的策略使得混合模型和目标模型对于任何混合伪影都是不变的。LT（p，c，r，v）= −log（pc）`联系我们分类目标+λ[c>0]Lloc（r，v）联系我们定位目标（一）465m，b共享功能网络图6：合成器架构前景掩模M和背景图像B，（ii）以及用于M，B，以及（iii）将m，b的中级特征的级联作为输入的并且输出表示仿射变换参数的6维特征向量。对于AffNIST实验，我们使用2层网络作为骨干。对于PascalVOC和GMU数据集的实验，我们使用VGG-16 [41]网络直到Conv-5。每个中级特性分支都包含2个瓶颈，其中，Lloc是[12]中定义的光滑L1损失函数Iverson括号指示器函数[c>0]对于c >0（即，对于非背景类）评估为1，否则评估为0换句话说，只有非背景锚框有助于本地化目标。3.3. 自然图像鉴别器一个不受约束的剪切-粘贴方法来增加数据可能会产生不真实的合成图像（例如，见图1）。（3）第三章。以这种方式生成的合成数据仍然可以潜在地改善目标网络，如Dwibedi等人所示。[7]的文件。然而，正如其他人[4，30，31]所示，生成上下文突出和现实的合成数据可以帮助目标网络更有效地学习，并更有效地推广到现实世界的任务。我们没有像前面提到的那样学习特定的上下文和示能模型，而是采用了一种对抗性的训练方法，并将合成器的输出作为负面示例输入到一个神经网络中。该中心还收到了真实世界图像形式的正面例子。它充当区分真实图像r和合成图像F. 对于图像I，ADC输出D（I），即我是真实图像的概率D被训练以最大化以下目标：LD= Erlog（D（r））+Eflog（1 − D（f））。（二）如图3所示，该工具可以帮助合成器生成看起来更自然的图像。3.4. 培训详细信息三个网络S、T和D根据以下目标函数进行训练：LS，T，D= max minLT+ min maxLD（3）公司简介对于给定的训练批次，S的参数被更新，同时保持T和D的参数固定。类似地，通过保持S的参数固定来更新T和D的参数。S可以被看作是T和D的对手。合成器架构。我们的合成器网络（图-ure6）包括（i）共享的低级特征提取主干，其在卷积层，然后是ReLU和BatchNorm层。回归网络由2个卷积层和2个全连接层组成。合成器超参数。我们使用Adam [21] opti- mizer，在AffNIST数据集上的实验的学习率为1e−3，在所有其他实验中的学习率为1e−4我们将权重衰减设置为0。0005在所有的结果。调整超空间参数对于AffNIST基准测试，目标分类器使用SGD优化器进行微调，学习率为1e-2，动量为0的情况。9和重量衰减为0。0005 对于人员检测，VOC，SSD使用Adam优化器进行微调，学习率为1e-5，权重衰减为0。0005对于GMU数据集上的实验，使用 SGD 优化器微调更快的 RCNN 模型，学习率为1e−3，权重衰减为0。0001，动量为0。9 .第九条。4. 实验结果我们现在提出定性和定量的结果来证明我们的数据合成方法的有效性。4.1. AffNIST数据实验我们展示了使用我们的方法在AffNIST [45]手写字符数据集上生成的数据的效率。它是通过随机采样仿射变换MNIST [24]数字生成的。为了用我们的框架生成合成图像，我们对MNIST数字应用仿射变换，并将它们粘贴到黑色背景图像上。目标体系结构：目标分类模型是由两个5 × 5卷积层组成的神经网络，分别具有10和20个输出通道。每一层使用ReLU激活，然后是dropout层。然后，输出特征由两个完全连接的层处理，输出大小分别为50和10我们用AffNIST数据集进行了两个实验高效的数据生成：基线分类器在MNIST上训练。如[45]所述，通过递增添加经历随机仿射变换的样本来微调AffNIST模型。类似地，我们的方法的结果使用由S.后台分支FC回归网络前台店466硬例子简单的例子合成数据AffNIST Our数据对合成数据训练的比较训练数据量图7：当使用（i）AffNIST训练数据（红色），（ii）我们的合成图像（绿色）逐步增强时，MNIST分类器对AffNIST测试数据的性能。我们方法实现了基线精度（±90%）与不到一半的数据（12K样本与25K样本）。请注意，即使使用5K样本，我们也可以达到80%的准确度，而基线准确度为40%。表1：与之前的AffNIST数据集上数字来自相关文件。方法DCGAN[32]WGAN-GP[13]ICN[18][25]第二十五话ITN[53]我们误差（%）2.782.762.972.561.520.99图7显示了目标模型在AffNIST测试集上的性能，方法是逐步增加训练集的大小。当仅在MNIST数据集上训练时，目标模型的分类准确率为17%。目标概率图8：我们的方法与剪切-粘贴-学习[7]和上下文数据增强[6]的比较，关于为人员类生成的硬阳性的分数。基线[29]AP 0. 5→78。93AP 0. 八→二十九。52色谱柱编号123456Ann. 清理✓✓✓✓✓辍学✓✓✓✓共混✓✓✓1：1比例✓✓鉴别器✓AP 0. 579岁。0279岁。1379岁。0279岁。3479岁。6179岁。53AP 0. 829岁64三十72三十8031岁2531岁96三十二22表2：消融研究。我们的方法的性能上的设计选择的效果通过在背景区域中引入混合伪影，观察到显著的改善（col. 4）以及在训练期间保持真实图像和合成图像之间的1：1比率（第5列）。增加一个额外的增益在AP 0时提供额外的增益。8.生成方法[53，25，18]通过实现0的低错误率。百分之九十九更多详情，请参阅《...AffNIST测试集。我们反复微调MNIST通过使用来自AffNIST训练集（红色曲线）或来自S生成的合成图像（绿色曲线）的500张图像来增强训练集，从这一点开始建立模型请注意，我们的方法实现了基线精度，一半以上的数据。此外，如图7所示，仅使用5K示例，我们的方法将准确度从40%提高到80%。图4中的定性结果显示了S生成的示例的进展。作为培训专家，女士们，我们的方法产生了越来越多的硬例子in a variety品种of modes模式.提高准确性：在表1中，我们将我们的方法与最近的方法[53，32，13，25，18]进行了比较，这些方法生成合成数据以提高AffNIST数据的准确性。对于表1中的结果，我们使用55000，5000，10000分割进行训练，验证和测试，如[53]以及相同的分类器架构。我们的表现优于硬否定特里。4.2. Pascal VOC数据实验我们使用我们的方法在Pascal VOC数据集[8]上进行人员检测，使用SSD-300网络[29]证明了改进的结果我们使用地面实况人物分割和边界框注释从VOC 2007和2012训练和评估中恢复实例掩码设置为前台。从COCO数据集获得背景图像[28]。我们对这些注释进行了初步清理，因为我们发现对于大约10%的图像，注释的分割和边界框不一致。为了进行评估，我们用我们的合成图像增强了VOC 2007和2012训练数据集，并报告了所有实验在VOC 2007测试集上检测的mAP。测试精度467数据集古柯可乐咖啡mate蜂蜜猎人串酱Mahatma水稻性质v1性质v2棕榄橙色流行塞克里特品客烧烤红色公牛地图基线Faster-RCNN81. 9九十五392.087386岁。5 九十六。888岁9八十592. 388岁9五十八686岁。3[7]第七话88岁5九十五594 1881九十3九十七291. 8八十194 092. 2六十五488岁8我们86岁。9九十五9九十三 9902九十0九十六。692. 087岁694 9九十969岁。289岁。8表3：我们的方法与基线Faster-RCNN和[7]在GMU厨房数据集上的比较。我们的方法提高了整体的mAP和优于其他方法在大多数类。4.2.1与以往剪切-粘贴方法的比较我们将我们的结果与基线SSD网络的性能进行比较，然后使用[6，7]中最近方法生成的数据对其进行微调。我们使用[6，7]作者提供的公开可用软件生成与我们在实验中使用的相同数量的合成数据为了确保公平的比较，我们使用相同的前地面面具和背景图像，并添加混合伪影来生成合成数据。我们在表4中报告了多个IoU阈值的详细结果，并在图1中报告了一些定性结果。IOU基线[七]《中国日报》[6]美国我们的D号我们的+D0的情况。578岁93七十六。65七十六。8179岁。61（+0. 第六十八章）79岁。53（+0.第六十章）0的情况。669岁。6166岁。8866岁。91七十39（+0.78）七十67（+1.06）0的情况。752岁9752岁1250块21五十三71（+0.74）五十四50（+1. （53）0的情况。829岁5428岁8228岁1431岁96（+2.44）三十二22（+2）。第六十八章）表4：VOC 2007人员检测测试数据的结果。我们的增强将不同IoU阈值的基线提高了2。7%，IoU为0。8.在背景中，（iv）用真实数据和合成数据进行微调，以及（v）添加SNR。我们的表现正如在[6]中所观察到的，我们注意到将[7]生成的数据添加到训练中会导致性能下降我们还注意到，添加[6]生成的数据也会导致SSD性能下降相比之下，我们的方法将SSD性能提高了2. 7%，0。8.合成数据的质量：我们开发了另一个指标，评估人员检测任务的合成数据质量。硬度度量被定义为1-p，其中p是根据基线SSD的合成合成图像包含人的概率我们认为，如果如果基线网络能够很容易地检测到合成图像中的人，那么这是一个简单的例子，并且在添加到训练集时可能不会提高网络以前的作品[19，39，49，52]已经提出了一个类似的度量来评估真实数据的质量。在图8中，我们将我们的方法生成的数据的硬度与[6，7]进行了比较。X轴表示SSD置信度，Y轴捕获生成的样本分数我们使用所有方法生成相同数量的数据，并对多个实验运行取平均值如图8所示，我们生成了比[6，7]更难的示例。请在补充材料中找到更多定性的例子和实验。4.2.2消融研究表2研究了各种参数对SSD网络性能的影响，该网络根据我们的数据进行了微调。特别是，我们研究的效果（i）排除噪声前期地面分割注释在生成过程中，（ii）使用的合成器中的辍学，（iii）添加混合文物468度量是IoU阈值为0时的mAP。五、虽然我们注意到我们的性能与每个附加的逐步改善，我们看到一个轻微的性能下降后，增加了额外的。我们在表4中进一步研究了这一点，并注意，添加该值可以提高我们在所有高于0的IoU阈值上的性能。5，允许我们预测边界框，这些边界框与地面实况框更好地对齐4.3. GMU数据实验最后，我们应用我们的数据合成框架来改进Faster-RCNN [34]的实例检测。我们将我们的方法与基线Faster-RCNN和[7]的方法在GMU厨房数据集[11]上进行了比较。GMU厨房数据集包括11个类，并具有3倍的训练/测试分裂，如[7]中所报告的。我们使用来自BigBerkeley实例识别（Big- BIRD）[42]数据集的前景和来自UW场景的数据集[23]。表3报告了GMU测试集上的每类准确度和平均我们的方法比基线Faster-RCNN和[7]的性能高出3倍。在mAP中分别为5%和1%。有趣的是，我们提高了一些类别的准确性，如“棕榈橙”高达7。百分之五5. 结论深度学习最近的成功得益于需要人工注释的监督训练。大型训练集对于在具有挑战性的现实世界环境下提高性能至关重要，但获得困难，昂贵且耗时。合成数据生成469图9：VOC 2007测试集在使用我们的合成数据训练SSD之前和之后的定性结果。绿色框和红色框分别显示正确检测和遗漏检测。请注意，合成数据有助于提高SSD在严重遮挡和小实例上的性能。Eration提供了有前途的新途径来增强训练集，以提高深度神经网络的准确性。在本文中，我们引入了任务感知的合成数据生成的概念，以提高目标网络的性能。我们的方法训练合成器生成有效和有用的合成样本，这有助于提高目标网络的性能。目标网络向合成器提供反馈，以生成有意义的训练样本。提出了一种新的方法，通过在训练图像的背景区域中添加相似的伪影，使目标模型对混合伪影不变性。我们证明了我们的方法是有效的，与随机数据增强相比，需要更少的样本数才能达到一定的精度。此外，我们还展示了一个2。7%的改善，在国家的最先进的人德-使用SSD进行保护因此，我们认为，为改进深度学习技术而定制的合成数据生成的最新技术。我们的工作为未来的研究开辟了几条途径。我们的合成器网络输出仿射变换参数，但可以很容易地扩展到输出额外的可学习的前景蒙版和非线性变形的光度变换。我们展示了使用前景和背景图像的合成，但是合成多个图像可以提供进一步的增强。虽然我们使用2D剪切在2D中显示了增强，但我们的工作可以扩展到将渲染的3D模型粘贴到2D图像中。我们的方法也可以扩展到其他目标网络，如回归和分割网络。未来的工作包括明确增加多样性指标的数据合成，以进一步提高其效率。6. 确认我们要感谢Kris Kitani就这一主题进行的宝贵讨论470引用[1] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。欧洲计算机视觉会议，第611-625页。Springer，2012. 3[2] Ching-Hang Chen，Ambrish Tyagi，Amit Agrawal，Dy-lan Drover，Rohith MV，Stefan Stojanov，and James M.瑞格具有几何自监督的无监督三维姿态估计在IEEE计算机视觉和模式识别会议论文集，2019。3[3] EkinDogusCu b uk ， BarretZoph ， DandelionMan e´ ，VijayVa-sudevan，and Quoc V.乐自动扩增：从数据中学习增强策略。CoRR，abs/1805.09501，2018。1[4] 桑托什K放大图片作者：James H.阿列克谢·海斯埃夫罗斯和马夏尔·赫伯特物体检测中语境的实证研究。正在进行IEEE会议计算机视觉和模式识别（CVPR 09），第1271-1278页，2009年。三、五[5] Dylan Drover 、 Ching-Hang Chen 、 Amit Agrawal 、Ambrish Tyagi和Cong Dauchoc Huynh。3d姿势可以从2d投影中学习吗？在欧洲计算机视觉研讨会上，第78-94页Springer，2018. 3[6] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。IEEE欧洲计算机视觉会议，2018年。一二三六七[7] Debidatta Dwibedi，Ishan Misra，and Martial Hebert.剪切、粘贴和学习：令人惊讶的简单合成，例如检测。IEEE计算机视觉和模式识别会议（CVPR），2017年。一、二、三、四、五、六、七[8] 放大图片作者： Mark Everingham ， Luc Gool ，Christopher K.Williams ， John Winn ， and AndrewZisserman.pascal视觉对象类（voc）的挑战。国际计算机Vision，88（2）：303- 338，June 2010. 二、六[9] Alhussein Fawzi，Horst Samulowitz，Deepak Turaga，and Pascal Frossard.用于图像分类的自适应数据增强InProc. IEEE Intl.图像处理会议（ICIP 16），第3688-3692页，2016年。1[10] Georgios Georgakis，Arsalan Mousavian，Alexander C.Berg和Jana Kosecka。合成用于室内场景中的对象检测的训练数据。CoRR，abs/1702.07836，2017。第1、3条[11] Georgios Georgakis，Md. Alimoor Reza，Arsalan Mousa-vian，Phi-Hung Le和Jana Kosecka。用于对象实例检测的多视图RGB-D数据集CoRR，abs/1609.07826，2016。二、七[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。5[13] Ishaan Gulrajani ， Faruk Ahmed ， Mart´ın Arjovsky ，Vincent Dumoulin，and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。CoRR，abs/1704.00028，2017年。6[14] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像文本定位的合成数据。在proc IEEE会议计算机视觉和模式识别（CVPR 16），第2315-2324页，2016年。1[15] 放大图片作者：John W.费舍尔三世和拉尔斯·凯·汉森梦想更多数据：学习数据扩充的类依赖分布。在第19届人工智能和统计国际会议（AISTATS 16）的会议记录中，JMLR卷：W& CP，第342-350页，2016年。1[16] Stefan Hinterstoisser，Vincent Lepetit，Paul Wohlhart，and Kurt Konolige.关于用于深度学习的预训练图像特征和合成图像CoRR，abs/1710.10710，2017。3[17] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu. 空间 Transformer 网络。 CoRR ，abs/1506.02025，2015年。4[18] 龙进，贾斯汀·拉扎罗，涂卓文。使用卷积网络的内分辨分类。在重症盖永联合V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vish-wanathan和R.Garnett，编辑，Advances in NeuralInformation Processing Systems 30，第823-833页CurranAs-Sociates，Inc. 2017. 三、六[19] S. Jin，杨花A. RoyChowdhury，H. Jiang，中国茶条A.辛格A.普拉萨德角Chakraborty和E.学习米勒。无监督的硬例子-从视频中挖掘改进的对象检测。欧洲计算机视觉会议（ECCV），2018年。三、七[20] Anna Khoreva、Rodrigo Benenson、Eddy Ilg、ThomasBrox和Bernt Schiele。多目标跟踪的清晰数据梦。arXiv预印本arXiv：1703.09554，2017。3[21] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[22] Phi l ippKr ahenbuhl. 从视频游戏免费监督。在procIEEE会议计算机视觉和模式识别（CVPR 18），第2955-2964页，2018年。1[23] Kevin Lai，Liefeng Bo，Xiaofeng Ren，Dieter Fox.一个大规模层次多视图rgb-d对象数据集。2011年IEEE机器人和自动化国际会议，第1817-1824页，2011年。7[24] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010. 5[25] Kwonjoon Lee，Weijian Xu，Fan Fan，and Zhuowen Tu.Wasserstein 内省神经网络 CoRR ， abs/1711.08875 ，2017。6[26] Chen-Hsuan Lin ， Ersin Yumer ， Oliver Wang ， EliSchecht- man，and Simon Lucey.ST-GAN：用于图像合成的空间Transformer在IEEE计算机视觉和模式识别会议（CVPR 18）上，2018年。3[27] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andPiotrDoll a'r.密集目标检测的焦面损失。CoRR，abs/1708.02002，2017。3[28] 作者：Michael Maire，Serge J.卢博米尔？罗斯？布尔德夫 Girshick ， James Hays ， Pietro Perona ， DevaRamanan ， PiotrDol la'r ， andC.劳伦斯 · 齐特尼克。MicrosoftCOCO ：上下文中的通用对象。 CoRR ，abs/1405.0312，2014。6[29] 刘伟，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy，Scott E. Reed，Cheng-Yang Fu和Alexan- der C.伯格。 SSD ：单次触发多盒探测器。 CoRR ，abs/1512.02325，2015。二三四六471[30] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.上下文在野外对象检测和语义分割中的作用。在IEEE计算机视觉和模式识别会议，第891-898页，2014年。三、五[31] 奥德·奥利瓦和安东尼奥·托拉尔巴语境在物体识别中的作用 Trends in Cognitive Sciences ， 11 （ 12 ）： 520-527，2007. 三、五[32] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习。 CoRR ，abs/1511.06434，2015。6[33] 亚历山大·J·拉特纳，亨利·R·埃克斯堡，泽山·侯赛因，贾里德·邓蒙和克里斯托弗·R·e。学习编写用于数据增强的特定于域的转换。神经信息处理系统进展31（NIPS17），2017。1[34] 任少卿，何开明，Ross B.Girshick和Jian Sun。更快的R-CNN ：朝向利用区域建议网络的实时对象检测。CoRR，abs/1506.01497，2015。二四七[35] Stephan R Richter，Zeeshan Hayder，and Vladlen Koltun.为基准而战。InICCV，2017. 第1、3条[36] 蒂姆·萨利曼斯，伊恩·古德费洛，张薇琪，亚历克·拉德福德，陈曦.用于训练GANs的改进技术神经信息处理系统进展30（NIPS 16），第1-10页，2016年。1[37] I. 是的，T。 Linde r，K. O. Arras和B. Leibe 2018年ECCV PoseTrack挑战赛3D人体姿势估计的合成闭塞增强与体积热图。ArXiv电子印刷品，9月2018. 3[38] Abhinav Shrivastava，Abhinav Gupta和Ross Girshick。训练基于区域的对象检测器与在线硬示例挖掘。在IEEE计算机视觉和模式识别会议论文

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

任务感知的合成数据生成方法及其在不同目标网络上的性能提升

最新资源