没有合适的资源?快使用搜索试试~ 我知道了~
1主题和背景:野外图像合成&操作Aayush Bansal Yaser Sheikh Deva Ramanan卡内基梅隆大学{aayushb,yaser,deva}@ cs.cmu.edu输入输出输入输出输入输出图1.我们的方法合成的图像从标签掩模的形状,零件和像素的非参数匹配。 我们展示了包含大量对象组成和变形变化的各种“野外”场景的示例结果摘要我们引入了一个数据驱动的模型,用于从语义标签输入掩码交互式地合成野生图像。我们的方法与这个领域的最近工作有很大的不同,因为我们没有学习。相反,我们的方法使用简单但经典的工具来匹配场景上下文,形状和部件到存储的样本库。虽然简单,但这种方法与最近的工作相比有几个显着的优势:(1)因为没有学到任何东西,所以它不限于特定的训练数据分布(例如城市景观,立面或面孔);(2)可以合成任意高分辨率的图像,仅受样本库分辨率的限制;(3)通过适当地组合形状和部件,它可以生成指数级大的可行候选输出图像集合(也就是说,可以由用户交互式地搜索)。我们在不同的COCO数据集上展示了结果,在标准图像合成指标上显著优于基于学习的方法。最后,我们探讨了用户交互和用户可控性,表明我们的系统可以作为一个平台,用户驱动的内容创作。1. 介绍我们引入了一个数据驱动的模型,用于交互式地从语义标签输入掩码中合成不同的图像。具体而言,我们寻求设计一种用于可控制和可解释的野生图像合成的系统虽然内容创作本身就是一项引人注目的任务(经典的计算机图形学的目标),图像合成也可用于生成可用于训练有区别的视觉识别系统的数据[29]。合成数据可用于探索难以或太危险而无法直接采样的场景在不安全的城市场景中训练自主感知系统[31])。图1显示了使用我们的方法合成的图像,其中输入是语义标签图像。参数与非参数:当前用于图像合成和编辑的方法可以大致分为三类。第一类使用参数化机器学习模型。目前最先进的技术[10,33,55]依赖于使用对抗损失(GAN)[21]或感知损失[34]训练的深度神经网络[39这些方法在训练具有有限多样性的数据集时效果非常好,例如城市景观[11],面孔[2,52]或立面[54]。 但目前还不清楚如何将这种方法扩展到“野外”图像合成或编辑:在一个数据分布上训练的参数模型(例如,城市景观)似乎并没有向其他人(例如,立面),这是一个被广泛称为数据集偏差的问题[53]。第二类工作[1,14,15,27,38,48]使用非参数最近邻来创建内容。这些方法已在交互式图像编辑任务中得到验证,例如对象插入[38]或场景完成[25]。虽然这对我们的工作有很大的启发,但有趣的是,这种方法在近代历史上已经失宠了。更多数据有帮助吗?许多参数综合方法的一个独特属性是,它们用更少的数据做得更好[2,21,33,45,58,62]。罪魁祸首似乎是,23172318城市景观Cocopix2pix我类似于平均标签图的标签图示例输入pix2pix我们的原始(一). 约束与 野外数据分布(b)。具有不同前景/背景的简单示例输入我们的(全局形状)我们的(完整)输入我们的(全局形状)我们的(完整)(c)。全局形状是不够的图2. 当前图像合成方法的局限性:(a)当前的图像合成模型倾向于在具有有限多样性的数据集上进行训练,例如城市景观[11],人脸[52]或立面[54]。例如,Cityscapes [11]的平均标签掩码清楚地显示了冗余结构,如汽车引擎盖,道路和树叶。相比之下,COCO [40]的平均图像结构要少得多,这表明它是一个更加多样化的数据集。(b)事实上,我们在COCO上训练最先进的神经架构[33,55],并观察到收敛性差(即使经过一个月的训练!)导致模式崩溃和平均输出。(c)相比之下,我们简单的基于匹配的方法能够通过匹配到范例形状来合成逼真的图像内容为了生成高质量的图像,我们发现在匹配过程中对场景上下文和部分变形进行编码至关重要-即,单独匹配全局形状将产生由于形状失配而具有丢失区域的差图像。方法这与真正的非参数方法相反,后者在更多数据下做得更好[25]。图2-(a)突出了有限和多样化数据集之间的差异,使用Cityscapes [11]和COCO [40]的说明性示例。虽然参数方法在有限的数据分布上表现良好,但它们在不同的数据集上表现不佳。最近的作品[9,43]试图通过使用极大的模型尺寸和疯狂的大计算来克服这一挑战。各部分组成:在这项工作中,我们做了三个观察,影响我们的最终方法;(1)人类可以想象多个合理的输出图像给定一个特定的输入标签掩码。我们把这种丰富的潜在产出空间视为人类想象和创造能力的重要组成部分。大多数参数网络倾向于将合成公式化为一对一的映射问题,因此很难提供不同的输出(这种现象也被称为模式崩溃)。重要的例外包括[3,10,20,63],通过采用各种修改生成多个输出。(2)视觉场景是指数复杂的,构成物体和部件的许多可能的组成。结合这两种观察,并通过将场景元素组合在一起来生成多个输出是很诱人的。但是这些构图不能是任意的--人们不能随意地用轮子换出一张脸,或者把大象放在棒球场上。为了确保一致性,我们的匹配过程中使用隐含的上下文语义存在于样本标签掩码库给定足够大小的示例集合,最近邻方法仍然可以很好地执行未学习的简单特征(例如,像素值)。我们结合我们的观察,构建一个图像合成系统,使用简单的像素特征的形状和部分的范例。我们的贡献:(1)我们研究了在野外环境中的视觉内容创建和操作问题,并观察到依赖于参数模型会导致平均或模式崩溃的输出;(2)我们提出了一种利用形状和上下文来生成图像的方法,该图像由不同背景、不同环境和光照条件下的刚性和非刚性对象组成;(3)我们展示了可控和可解释的方面城市景观平均标号图2319我们的方法,使用户能够影响生成和选择的例子,从许多输出。2. 背景我们的工作结合了各种想法的形状,可变形的零件,上下文和非参数化的方法在过去的二十年。我们将每一个单独的位置和具体的见解,为他们的特定用途。非&参数方法:[37,41,46]自然出现在我们的世界由于其组成结构。如果我们有一个无限的数据源,其中包含所有对象的所有潜在形状,那么我们的世界就可以被表示为由不同形状的线性组合发出[23,46]。在这项工作中,我们的目标是从语义和实例标签映射作为输入生成图像。有意义的形状和轮廓[5,24]为这种输入提供了明显的解释。在由刚性和非刚性对象组成的无约束的野外数据分布中,为一对多映射建模这种形状变得很重要。因此,我们希望通过简单的复制-粘贴来明确地利用公式中来自训练数据的形状信息。非参数方法[14,15,16,19,27,35]可用于各种计算机视觉任务,如纹理合成[15,16],图像超分辨率[19],动作识别[14]或场景完成[25]。我们的工作与场景合成的想法相似[32,44,49,48]。Russell等人[48]使用形状或场景组合来查询匹配,以使用LabelMe数据集[50]进行语义分割在另一项工作中,Russell等人[49]使用了类似的复合对象发现思想。Isola和Liu [32]使用这种复合的想法来进行场景解析和拼贴。最近,Qi等人[44]使用半参数形式的形状从语义标签映射合成图像然而,这些关于场景合成或形状的不同方法[44,48]被约束到来自受约束数据分布的刚性和不可变形对象,例如来自LabelMe [50]或Cityscapes [11]的路边场景我们的工作扩展了以前的工作,非刚性和可变形的形状,从一个不受约束的野生数据分布。图2-(c)显示了全局形状是如何不够的,人们需要考虑关于零件和像素的局部信息。可变形对象部件:对于不可变形对象,可以可靠地估计全局形状拟合,但考虑时需要局部形状或部件[7,18,22]非刚性物体。关于局部成分[7]、区域[22]或部分[18,51,57]的先前工作主要集中在识别上。另一方面,我们的工作从构图匹配的想法中汲取了见解[8,17],我们使用部分,组件和区域来合成图像。在这项工作中,我们从各种全球形状生成部分做图像合成。这使我们能够考虑当地没有任何显式部件标签的信息。上下文作为主要线索:语境是一种自然而有力的工具,可以让人们正确地看待事物[6,30]。有大量关于计算机视觉社区中上下文使用的文献[13,42],并且超出了本工作的范围,无法完全说明它们在这项工作中,我们使用上下文信息在全球和本地级别做更好,更快的匹配的全球形状,零件和像素。上下文信息,而本身留在背景中,使我们能够做一个有效的非参数匹配。用户可控的内容合成操作:计算机图形中的多个作品[3,4,38,61,59,55]ICS和视觉文献已经证明了用户控制的图像操作的重要性 。 Grab-cut [47] 允 许 基 于 用 户 的 给 定 场 景 分 割Lalonde等人[38]使用非参数方法在给定图像中插入对象。Kholstan等人[36]演示了用户控制的3D对象操作。在这项工作中,我们演示了如何形状可以自然和直观地用于用户可控的内容创建和操作。3. 方法给定语义和实例标签映射X,我们的目标是合成新图像Y。我们的公式是分层非参数匹配,确保以下阶段按顺序进行:(1)全局场景上下文;(2)实例形状一致性;(3)局部一致性;最后(4)微小的像素级一致性全局场景上下文:在拥有数十万和数百万示例的大数据环境中,做最近邻可能是一个耗时的过程。我们通过使用全局场景上下文来修剪训练示例列表,从而使该过程更快,其中形状应该被显示。只有那些属于以下三个类别之一的例子才被考虑:(1)它们的全局图像具有与输入相同的标签;(二)、输入中的标签是它的子集;(三)、输入中的标签是它的超集。这将搜索空间从几十万个形状减少到几百个。通过计算全局覆盖率和像素覆盖率得分,我们进一步将它们修剪为前N个计算全局覆盖分数以确保最高-训练集中的N个标签图具有相似的分布,标签,如在给定的查询标签映射中。我们计算标签(查询和训练)的归一化直方图,并计算查询和训练标签映射之间的l2计算像素覆盖分数以确保我们选择具有最大像素间重叠的图像。这个分数是通过对齐查询标签映射和训练集的示例来计算的,然后是汉明距离。他们之间的距离。为了使其更快,我们将图像大小调整为100×100,然后计算各个标签之间的归一化汉明距离。我们对全局覆盖率和像素覆盖率得分求和,并选择N2320形状大小调整为256x256分级组合图3. 非参数匹配的三个阶段:(1)形状一致性-给定输入标签掩码,我们提取各种形状。我们通过使用形状和上下文特征从查询形状的训练集中提取形状。我们展示了左侧查询形状的前3个检索形状的示例。然后,通过考虑查询形状和检索形状的掩模,从检索形状中提取图像信息;(2)部分一致性-我们观察到在最后阶段中检索的全局形状缺少关于查询形状(在这种情况下是人类)的手和腿的信息。我们定义了一个局部形状匹配的方法,看起来在附近的合成部分。查询形状和前k个形状的大小调整为256×256,并分成16×16个bin,每个bin是16×16的补丁。每个补丁由包含在其中的标签信息和另外8个相邻补丁表示。这提供了关于周围环境的上下文信息。在相邻的112×112区域内查找零件,并考虑具有最小汉明距离的零件。(3)分层组成:给定一个输入标签掩码(左上),我们展示了非参数匹配方法的三个阶段的输出。第一列显示了使用我们的形状一致性算法提取的全局形状的组合的输出第二列显示了通过将局部部件一致性引入到先前的输出而改进的输出最后,我们的像素一致性算法填充微小的像素级漏洞更多详情请参见第3训练集中得分最低的图像。这种全局场景上下文的使用大大减少了我们的非参数方法的搜索空间,并使得能够进行合成。Sshape(wi,wj)=wlwl+XNs I(wc-wc),(1)它拥有不起眼计算能力(单核CPU而不是GPU)。I jk=1i,kj,k形状一致性:我们寻找形状作为第一步来定义图像中的不同组件。我们将实例中的形状和语义标签掩码表示为{x1,x2,...,其中N是给定输入的形状的总数。每个形状具有相关联的语义标签l:l∈{1,2,.,其中L是唯一标签的数量。然后我们在这个形状使得它可以被用作矩形卷积滤波器(Wi)以从训练数据中检索类似的形状。我们使用以下方式表示此过滤器:(1)一个简单的逻辑运算符-TOR:滤波器(Wi)中的形状(Xi)的部分被设置为1,其余部分设置为-1。这迫使过滤器搜索具有边界和细节的组合;(2).上下文操作符:我们从该过滤器的输入标签掩码中提取标签。这些信息将迫使我们的匹配函数提取具有相似上下文的形状。我们使用逻辑运算符(wl)和上下文运算符(wc)来使用评分函数对查询组件的其余形状进行其中I是指示器函数,并且Ns是给定查询分量中的像素的总数。由于我们在公式中将大小固定为50×50,因此Ns=2500。我们使用这个评分函数(等式2)。1)在我们的修剪列表中为给定的形状评分不同的形状RGB组件用于提取的形状是其与查询形状的交集即,仅考虑在提取形状和查询形状中都有效的像素。图3-左显示了我们的算法计算形状一致性得分的部分。如果形状的纵横比与查询组件的纵横比之比小于0,则忽略形状。5或大于2。最后,我们通过使用固定大小的滤波器和50×50的低分辨率标签掩码来加快卷积处理。这也有助于我们生成任意高分辨率的合成,而无需任何额外的计算成本。部件一致性:真实世界中的非刚性物体的遮挡和变形建模是非常困难的。这个问题甚至加剧了嘈杂的形状输入。现实世界中的形状数据和非刚性对象不足,导致零件和局部区域[7]。我们从top-k全局形状中寻找零件。重要的是,这部分-基于形状上下文特征的top3全局形状匹配**形状一致性=输入原始形状检索形状每个形状被分仓到16× 16的仓中48x48特征向量提取16x16面元的要素每个箱的搜索空间为112x112部分一致性形状形状+零件+像素形状+零件2321输入输出输入输出输入输出图4. 非参数匹配:我们的方法从标签掩模生成图像的非参数匹配的全球形状,局部零件,和像素的一致性。上面的例子包含变化的背景,杂乱的环境,变化的天气和照明条件,以及各种形状和形式的多个刚性和非刚性对象。当不能捕获全局形状时,需要形成。我们以类似于非参数纹理合成的精神从全局形状中提取部件的知识[16]。形状分量的尺寸被调整为256×256,以便能够很好地搜索局部信息。我们从调整大小的全局形状模板中提取16×16的补丁。通过考虑相邻的8个补丁来使用局部上下文信息(类似于HOG [12]或组归一化[56])部件评分采用:XNp但是,它们不能确保像素级的一致性,并且通常会在图像中出现小洞。在这个过程中,我们强制执行像素级的一致性,以解决合成图像中剩余的漏洞。这个过程类似于我们的部分一致性算法,除了它是在每个像素上完成的。每个像素都由一个环绕表示11×11窗口我们使用Eq中的标准。2来计算两个特征向量之间的相似度加快通 过 这 种 匹 配 , 我 们 计 算 低 分 辨 率 输 入 标 签 图(128×128)的特征,因为像素一致性被确保以单独填充较小的孔。 最后,我们看看周围的地区,从128×128的图像中选择5×5,以将信息填写为S部分(wp,wp)= I(wp−wp)(2)I jk=1i,kj,k全局一致性和局部一致性已经被考虑形状和部分一致性。其中I是一个指示函数,每个补丁(wp)由一个包含补丁中标签信息的Np(256×9)维向量表示。重要的是,我们不需要在更大的窗口中寻找零件匹配,因为我们有弱对齐的全局形状。因此,我们限制补丁在周围的5×5补丁中查找dow。这相当于一个112×112像素的窗口,大小的全局形状模板。要复制RGB分量,我们取前3个检索到的补丁窗口的平均值。图3-中示出了我们的算法的计算部分一致性得分的部分。像素一致性:形状和部分已经占了大部分的非参数化图像合成。怎么-分层组成:我们将形状、部件和像素的信息分层组合,以生成完整的图像。图3-右显示了从输入标签掩码开始的合成。首先,我们使用全局形状组件来填充图像的主要块。然后使用局部部分一致性填充缺失信息。最后,利用像素级一致性对小孔洞进行填充.这三个阶段的组合使我们能够通过简单的非参数匹配从输入标签掩码生成图像。图4显示了我们的方法在不同背景、杂乱环境、不同天气和照明条件以及各种环境2322输入pix2pix我们的(全局形状)我们的(完整)原始随机前5-NN图5. 参数与非参数:我们从输入标签掩码生成图像(左)。 第二列显示输出Pix2Pix [33]专门在Coco训练集上训练。第三和第四列是我们的方法与全局形状匹配的输出,并分别考虑部分和像素的一致性。第五列包含原始图像。最后,最后一列显示输入标签掩码的前5个最近邻居中随机选择的一个的图像。形状和形式。生成多个输出:在非参数匹配中考虑形状和部件的一个突出方面是免费提供多个输出。我们使用提取的形状和部件,并可以将它们以指数方式组合在一起,而无需任何额外的开销。我们显示了多个例子合成,thesized为一个给定的标签掩码使用我们的方法在图6。当使用参数方法[10,33]时,生成这些多个输出并不简单,并且已经对此过程进行了大量研究[20,63然而,对于非参数匹配来说,这是微不足道的。用户可控内容创建:最后,我们在图7中展示了我们的方法对于用户控件标签内容创建的适用性。请注意,我们的方法可以很容易地用于编辑标签掩码,通过插入形状来生成新的输出。更重要的是,合成和操作方面对我们的方法来说是齐头并进的。人类用户可以清楚地解释和影响合成的任何阶段,并且可以通过改变形状来容易地生成不同的输出在我们的非参数方法中,操纵自然出现,无需任何额外的努力。这对于需要用于此任务的专用机械的先前参数方法是不正确的。4. 实验数据集:我们使用来自COCO [40]的语义和实例标签掩码来研究野外图像合成和操作的问题。该数据集由134个不同的对象和内容类别组成,使其成为最多样化和最多样化的公开数据集。有118,287个训练集中的图像(比城市景观多40倍[11]),在验证集中有5000张图片(比城市风景多100倍我们使用标签和图像的配对数据从训练集中提取全局形状并合成零件和像素。在验证集中使用语义和实例标签掩码我们的方法不需要任何训练,因此可以从任何地方使用标签和图像组件。为了与参数方法进行公平比较,我们将自己限制在COCO训练数据中。基线:据我们所知,不存在尝试从标签掩模进行野外图像合成的问题的非参数方法。因此,我们将我们的方法与参数方法进行比较:(一). pix 2 pix [33];和(2). Pix 2 Pix-HD [55],使用他们的公开代码。该数据集的复杂性、多样性和大小使其成为生成参数方法处理的计算挑战。训练一个简单的Pix2Pix模型需要20天,2323输入输出图6. 多路输出:我们的方法可以很容易地产生指数大量的输出,通过改变形状和部分。我们展示了为每个输入标签掩码生成的四个输出。NVIDIA Titan-X GPU。在同一台计算机上,我们训练了Pix 2 Pix-HD模型一个月,但没有观察到任何收敛。如果我们让训练持续一两个月,或者使用高级计算资源,那么可能会训练出一个合理的Pix 2 Pix-HD模型。这也可能是由于特别适合Cityscapes的架构和超参数的设计,并且需要有效地调整超参数以使其适用于大型和多样化的数据集,如COCO。为了公平比较,我们还使用Cityscapes将我们的方法与之前的作品[10,33,44,55]进行对比,即使由于数据有限,我们自己的方法会以性能为代价。 此外,我们调整生成的输出到256×256只是为了与COCO上但是,我们可以生成输出hav-在不增加计算量的情况下,实现了与输入标记掩码相同的分辨率FID评分:我们使用不同方法生成的图像计算FID评分[28]。较低的FID值表明更现实。表1使用Pix 2 Pix和Pix 2 Pix-HD(调整为256×256和64×64分辨率)生成的图像(COCO)计算的对比度FID评分。在不使用任何oracle的情况下,我们的方法明显优于先前的工作。广告请注意,由于我们的分层结构中的每个阶段,性能都有所提高。Mask-RCNN评分:我们使用预训练的Mask- RCNN [26]来研究Pix 2 Pix和我们的方法在COCO [ 40 ]上的合成质量。该模型针对COCO数据集的80个对象类别进行了训练。当它被训练用于实例分割时,我们使用它的输出并将其转换为语义标签以实现评估的一致性。我们的目标是观察我们是否可以从合成图像中获得与真实图像相同的类标签。因此,我们在验证集的原始图像上运行它,并使用这些伪语义标签作为基础事实,方法#examples OracleFID评分FID评分(256×256)(64×64)[33] 2016年10月31日Pix2Pix-HD [55] 17157.13 109.49我们的(形状)1737.26 23.22我们的(形状+零件)1732.62 18.02我们的(形状+部件+像素)17 31.63 16.61表1. COCO上的FID评分:我们计算FID分数[28]来对比不同方法产生的输出的真实性。较低的FID值表明更真实。我们观察到,我们的方法明显优于以前的方法。我们还演示了如何在我们的分层组成的不同阶段,导致更好的输出。评价接下来,我们在合成图像上运行它,并将其与原始图像中的标签进行对比。为了衡量性能,我们使用三个标准:(1)平均像素精度(PC);(2)平均分类准确率(AC);(3)平均交连(IoU)。每个标准的得分越高,综合质量越好。表2对比了我们的方法与Pix2Pix的性能,并展示了更好的结果。当使用oracle从五个输出中选择最佳输出时,我们的性能有所提高请注意,在我们的实验方法中,来自训练集的前100个示例用于全局形状匹配。人体研究:我们对随机选择的500张图片进行了人体研究。我们展示了Pix 2 Pix,Pix 2 Pix-HD的输出,以及我们的方法(随机挑选一个-从多个)到人类受试者尽可能多的时间,因为他们需要做出决定。我们要求他们选择一个看起来接近真实图像的。如果所有方法都不好,则建议用户使用“所有方法都不使用”。51岁2%的用户选择从我们的ap-proach生成的输出,7。8%的时候从Pix2Pix的输出,并首选'没有这些' 41%的人类研究表明,虽然我们的方法是最可爱的,但仍然有许多输入输出2324原始标号合成输出添加形状修饰标号新RGB分量操纵输出图7. 用户干预&图像处理:前两列显示了原始标签掩码和使用我们的方法合成的输出。用户可以将形状添加到标签掩码,并通过匹配相应的形状生成新的输出方法#示例OraclePCACIOU方法#示例OraclePCACIOU参数化参数化[33]第三十三话1717.98.94.9[33]第三十三话1772.529.524.6CRN [10]1749.022.518.2非参数[55]第一届中国国际汽车工业展览会43.3三十七点八我们1744.531.020.9我们5X58.241.231.4半参数标准:(1)平均像素精度(PC);(2)平均分类准确率(AC);(3)平均交大于并(IoU)。每个标准的得分越高,综合质量越好。我们的表现优于Pix2Pix。当使用oracle从五个示例中进行选择时,性能进一步显著提高。我们的方法产生了不受欢迎的输出的情况。Cityscapes:表3对比了我们的方法与先前方法的性能[10,33,44,55],这些方法专门在Cityscapes上进行了演示。 除了Pix2Pix我们使用公开的结果进行评估。我们的方法执行第二Pix 2 Pix-HD和优于以前的参数和半参数的方法,只有25个图像提取的形状和部分组成一个新的图像,从语义标签。当使用oracle从5个生成的输出中选择最佳输出时,性能会提高当我们增加全局图像的数量来进行形状和部分提取时,我们的性能可能会进一步提高。5. 讨论今后的工作我们提出了一个非常简单的非参数的方法,图像合成和操作在野外。虽然多样化的数据分布和大型数据集使参数方法具有挑战性,但它表3. PSP-城市景观净得分:我们使用预先训练的PSP网络模型[60]来评估合成图像的质量(1024×2048)。该模型被训练用于城市景观的语义分割我们通过这个模型运行合成的图像,为每个图像生成语义标签图。将来自合成图像的语义每种方法计算三个统计量:(1)平均像素精度(PC);(2)平均类精度(AC);(3)平均交并(IoU)。对于这些标准中的每一个-分数越高,合成质量越好。我们的非参数方法只需要25个全局最近邻就可以提取形状和零件,与参数模型和半参数模型相比具有很强的竞争力。使形状和零件的简单匹配能够很好地工作。非参数匹配使我们能够通过改变形状和部件来生成指数大量的输出。重要的是,形状和部件对于正常的人类用户也是直观的。这使得我们的方法易于理解并且适合于用户可控的内容创建和编辑。在这个方向上的未来工作可能会解决更智能的方式来组合形状和部件信息,并探索时空一致性,以进行野外视频合成和操作。表2. Mask-RCNN对COCO的评分:我们使用一个预先训练好的SIMS [44]1768.635.128.1Mask-RCNN模型[26]用于研究图像合成的质量。我们在合成图像上运行它,并将其与标签进行对比,非参数我们的(前25名)1767.138.030.5从原始图像。为了衡量性能,我们使用三个我们的(前25名)5X71.339.632.42325引用[1] 放大图片作者:Daniel Maturana,Alexei A.布莱恩·埃夫罗斯罗素和约瑟夫·西维克3D椅子:使用CAD模型的大数 据 集 的 示 例 性 基 于 部 件 的 2D-3D 对 齐 。CVPR ,2014。1[2] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。 再 生 甘 : 无 监 督 视 频 重 定 向 。 在 ECCV,2018。1[3] Aayush Bansal , Yaser Sheikh 和 Deva Ramanan 。PixelNN:基于示例的图像合成。在ICLR,2018年。二、三[4] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structural image editing.ACM Trans.Graph. ,2009年。3[5] Serge Belongie Jitendra Malik和Jan Puzicha。使用形状上下文的形状匹配和物体识别。IEEE传输模式分析马赫内特尔,2002年。3[6] I.比德曼论“一瞥”的语义学。3[7] I.比德曼各组成部分的认可:一种人类图像解释理论。心理学评论,94:115- 147,1987。三、四[8] Oren Boiman和Michal Irani。 成分相似在NIPS。2006. 3[9] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练2019年,在ICLR。2[10] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成InICCV,2017.一二六七八[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。一、二、三、六[12] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR,2005年。5[13] 放大图片作者:James H.阿列克谢·海斯埃夫罗斯和马夏尔·赫伯特物体检测中语境的实证研究。CVPR,2009。3[14] Alexei A.亚历山大·埃夫罗斯Berg,Greg Mori,andJitendra Malik.远距离识别动作。载于ICCV,2003年。第1、3条[15] Alexei A. Efros和William T.弗里曼。图像绗缝纹理合成和转移。2001. 第1、3条[16] Alexei A.作者:Thomas K.梁基于非参数采样的纹理合成载于ICCV,1999年。三、五[17] A. Faktor和M.伊拉尼按成分共分段。在ICCV,2013年。3[18] 佩德罗·费尔岑斯瓦,大卫·麦卡莱斯特,和德瓦·拉曼南。一个有区别的训练,多尺度,可变形零件模型。CVPR,2008。3[19] William T.弗里曼,埃里斯河Jones,and Egon C Pasz-tor.基于示例的超分辨率。IEEE计算Graph.Appl. ,2002年。3[20] 放大图片作者:Arnab Ghosh,Viveka Kulharia,Vinay P.菲利普?南布迪里H. S. Torr和Puneet Kumar Dokania。多智能体多样化生成对抗网络。在CVPR,2018年。二、六2326[21] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville和Yoshua Bengio。生成对抗网络。在NIPS,2014。1[22] ChunhuiGu,JosephJLim,PabloArbela'ez,andJitendraMa-lik.使用区域识别。CVPR,2009。3[23] A.古普塔A。Efros,和M。赫伯特块世界审查:使用定性几何和力学的图像理解。ECCV,2010年。3[24] B.哈里哈兰山口阿贝莱斯湖Bourdev,S. Maji和J. 马利克从反向检测器的语义轮廓。见ICCV,2011年。3[25] James Hays和Alexei A Efros。使用数百万张照片完成场景。ACM事务处理图表,2007年。一、二、三[26] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。InICCV,2017. 七、八[27] 放大图片作者:Charles E. Jacobs,Nuria Oliver,BrianCurless,and David H.销售形象类比。 ACM Trans.Graph. ,2001年。第1、3条[28] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS。2017. 7[29] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada:周期一致的对抗性结构域适应。在ICML,2018。1[30] D. Hoiem,A.A. Efros,和M。赫伯特把物体放在透视图中。CVPR,2006。3[31] 黄世玉和Deva Ramanan。期待意想不到的:训练探测器与对抗冒名顶替者不寻常的行人。在CVPR,2017年。1[32] 菲利普·伊索拉和刘策场景拼贴:自然图像的语义层次分析与合成. InICCV,2013.3[33] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一二六七八[34] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。1[35] 米 卡 ·K 放 大 图 片 创 作 者 : John W.Freeman , andWojciech Matusik. CG2Real:使用大量照片来提高计算机生成图像的真实感 在IEEE trans中可视化和计算机图形学,2011年。3[36] Natasha Kholgade,Tomas Simon,Alexei Efros,andYaser Sheikh.使用库存3d模型在单个照片中的3d对象操纵ACM事务处理图表,2014年。3[37] 简·JKoenderink。实体形状。麻省理工学院出版社,马萨诸塞州剑桥USA,1990. 3[38] 作 者: Jean-F ran c.Lalonde , DerekHoiem , Al ex eiA.Efros , Carsten Rother , John Winn , and AntonioCriminisi.照片剪贴画。ACM事务处理图表,2007年。第1、3条[39] Yann LeCun,Yoshua Bengio,and Geoffrey Hinton.深度学习Nature,521(7553):436-444,2015. 1[40] 作者:Michael Maire,Serge J.卢博米尔?Bourdev,Ross B Girshick,James Hays,Pietro Perona,Deva2327Ramanan , PiotrDol la'r , andC.劳 伦 斯 · 齐 特 尼 克 。MicrosoftCOCO:上下文中的通用对象。2014年,在ECCV。二六七[41] 大卫·马尔视觉:对人类对视觉信息的表征和处理的计算调查。1982. 3[42] Roozbeh Mottaghi,Xianjie Chen,Xiaobao Liu,Nam-Gyu Cho , Seong-Whan Lee , Sanja Fidler , RaquelUrtasun,and Alan Yuille.背景在野外物体检测和语义分割中的作用。CVPR,2014。3[43] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR,2019年。2[44] Xiaojuan Qi , Qifeng Chen , Jiaya Jia , and VladlenKoltun.半参数图像合成。在CVPR,2018年。三、七、八[45] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生 成 对 抗 网 络 进 行 无 监 督 表 示 学 习 。 CoRR ,abs/1511.06434,2015。1[46] L.罗伯茨机器对三维实体的感知。PhD.论文,1965年。3[47] 卡斯滕·罗瑟弗拉基米尔·科尔莫戈洛夫安德鲁·布莱克。Grabcut:使用迭代图切割的交互式前景提取。ACM事务处理图表,2004年。3[48] 布莱恩·拉塞尔,阿列克谢·A·埃夫罗斯,约瑟夫·西维克,威廉·T·弗里曼和安德鲁·齐瑟曼.通过匹配合成图像分割场景。NIPS,2009年。第1、3条[49] 布莱恩·罗素、威廉·T·弗里曼、阿列克谢·A·埃夫罗斯、约瑟夫·西维克和安德鲁·齐瑟曼。使用多分割来发现图像集合中的对象及其范围。CVPR,2006。3[50] 布莱恩·罗素,安东尼奥·托拉尔巴,凯文·P·墨菲和威廉·T·弗里曼。Labelme:一个数据库和基于网络的图像注释工具。IJCV,2008年。3[51] Saurabh Singh、Abhinav Gupta和Alexei A.埃夫罗斯无监督发现中级判别补丁。ECCV,2012年。3[52] 布兰登·M放大图片作者:Smith,Li Zhang,JonathanBrandt,Zhe L. Lin,and Jianchao Yang.基于示例的人脸解析。CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功