统一语言引导图像自动完成框架

20 浏览量更新于2023-10-16 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2568一种统一的语言引导图像自动完成框架Jihyun Kim*1、Seong-Hun Jeong*2、Kyeongbo Kong*2和Suk-Ju Kang11Sogang University，{jhkim5950，sjkang}@ sogang.ac.kr2Pukyong National University，tlqwkrk915@pukyong.ac.kr，kbkong@pknu.ac.kr摘要图像补全是一个研究领域，其目的是为图像的未知区域生成视觉内容。图像外绘和宽范围图像混合（我们称之为广泛的绘画）被认为是具有挑战性的，因为与大的未知区域相比，提供了相对较少的上下文。最近的一些研究试图通过为缺失区域生成图像提示来降低广泛绘画的复杂性。在本文中，我们介绍了一种新的形式的暗示，自然语言。此外，我们提出了一个基于标题的扩展绘画（CEP）模块，它结合了两个不同的多模态任务的模型：图像字幕和文本引导的图像完成。为了给蒙片图像生成合适的字幕，采用随机蒙片的自临界序列训练（SCST）方法对图像字幕模型进行优化我们的方法的最大好处是可访问精心设计的图像字幕和文本引导的图像操作模型，如OFA和GLIDE，而不需要额外的架构更改。在评估中，我们的模型表现出显着的性能，即使是复杂的图像数据集定量和定性。1. 介绍每个人都应该熟悉蒙娜丽莎，达芬奇的杰作，但你有没有想象过蒙娜丽莎穿什么样的裙子和鞋子？如果是这样，您已经执行了一种类型的图像完成，更具体地称为图像外画。图像补全是一个研究领域，其目的是为给定图像中的未知区域生成合理的视觉内容。该研究领域不仅包括传统的任务，如图像修复[1，2，3]和外绘[4，5，6]，还包括新提出的任务，宽范围图像混合[7]。图像修复是一种图像恢复任务，它填充输入图像的丢失/掩蔽区域相比之下，我-*平等贡献年龄外绘是一项旨在将给定图像扩展到其原始边界之外的任务最后，宽范围图像混合的目的是在两个不同的图像之间生成一个中间图像，使它们形成一个单一的全景图像。与图像修复相比，图像外绘和大范围图像混合已被证明是更困难的，因为它们为更大的区域创建新的内容，并且可以参考的上下文信息较少。因此，我们已经决定，解决图像外绘和大范围图像混合将是展示我们方法的能力和效率的一种很好的方式（图1）。①的人。为了方便起见，我们将这两项具有挑战性的任务称为广泛绘画。最近，已经努力通过为缺失区域生成图像提示来解决信息缺乏问题。已经制定的解决这个问题的技术之一是双向重排（BR）[8]，它通过切换左侧和右侧来利用输入图像的相对部分作为提示，并填充两个分割图像之间的间隙。此外，Mir重排（MR）[9]通过使用镜像翻转的输入图像作为提示来预测缺失区域。虽然由于结构原因，BR和MR方法产生的图像提示仅适用于对称图像，但最近的一项研究图像自适应提示（IAH）[10]将基于提示的方法扩展到非对称图像。IAH通过Vision Transformer以图像自适应方式生成图像提示。虽然已经实现了各种提示生成方法，但是输出提示限于图像格式。在本文中，我们介绍了一种新的形式的暗示广泛的绘画任务，自然语言。如图2所示，为了将语言提示合并到扩展绘画中，我们的统一框架名为基于标题的扩展绘画（CEP）模块，由两个多模态任务组成：图像字幕任务和文本引导的图像操作任务。首先，图像字幕模块通过捕获给定图像的语义和文本信息来其次，在语言提示的指导下，文本引导图像操作模块为对齐的掩蔽区域生成视觉内容2569图1. 图像外绘和大范围图像混合的说明。图像外画是一个任务，其目的是扩大一个给定的图像超出其原来的边界。宽范围图像融合的目的是在两幅不同的图像之间生成一幅中间图像，使它们形成一幅全景图像。通过与各个任务的最新算法进行比较，我们的方法具有出色的性能。红色框表示生成的区域。与未掩蔽区域的内容相关联。对于每个图像外绘任务，提示生成和提示引导的图像编辑各自执行一次。相反，对于宽范围图像混合任务，重复两个输入图像上的图像外画，直到两个图像之间的间隙被完全填充。最后，为了确保平滑过渡，我们的框架在生成的中间图像的中间部分执行图像修复CEP模块中最重要的部分是图像字幕。无论文本引导的图像处理模型多么优秀，我们统一框架的最终结果都严重依赖于字幕。尽管如此，现有的字幕模型是无法产生适当的字幕的掩蔽图像，因为他们已经被训练，只有在完整的图像。例如，在我们的实验中，字幕模型反复将掩蔽图像识别为两个不同图像的组合，并生成不适当的前缀，例如“两张图片”，导致生成语义上尴尬的图像。为了解决这个问题，我们在CEP模块中添加了一个优化过程，使用随机掩蔽图像及其匹配字幕的自临界序列训练（SCST）方法。因此，我们的优化字幕模型能够预测适当的字幕，而不管掩模形状。最重要的是，它可以为各种图像完成任务生成语言提示，这对于先前的基于提示的方法[8，9，10]来说是不可能的，因为它们依赖于图像结构。我们模块的另一个好处是可访问各种预训练模型。由于图像字幕和文本引导的图像操作甚至在许多多模态任务中都很流行，因此可以使用各种算法。例如，流行的算法，如One For All（OFA）[11]和ClipCap [12]是针对图像帽的。任务，而GLIDE [13]和文本驱动混合扩散[14]用于文本引导的图像操作任务。上述所有算法都取得了令人瞩目的性能水平。特别是，经过数亿数据的训练，大规模文本引导图像合成模型能够在大多数图像域中生成照片般逼真的图像[15]。通过利用这些多模态模型，我们的模块能够生成语义上合理的和现实的图像，图像outpainting，以及大范围的图像融合。从本质上讲，我们的主要贡献包括：• 我们引入自然语言提示的图像完成任务，特别是图像outpainting和大范围的图像融合。我们把这两个具有挑战性的任务称为广泛的绘画，因为它们有很大的未知区域。虽然已经有努力利用图像提示的图像outpainting任务，我们是第一个生成提示的语言格式。• 我们使用随机掩码优化了一个具有大规模字幕数据集的图像字幕模型作为一个结果，我们的图像字幕模型生成适当的语言提示，为各种图像完成任务，无论面具的形状。• 我们的框架可以利用各种算法的图像字幕任务和文本引导的图像ma-nipulation任务，并将它们连接在一起的扩展绘画。由于多模态任务的最新进展，特别是在文本引导的图像合成任务中，我们的模块在图像域中实现了显着的性能和高水平的泛化。2570图2. 使用建议的CEP模块进行广泛涂装的整个过程。左图：通过我们的CEP模块执行图像外绘，该模块由图像字幕和文本引导的图像操作网络组成。将掩蔽图像通过图像字幕网络以生成语言提示。然后，与语言提示，丢失的区域预测的文本引导的图像操作网络。右图：宽范围图像混合包括三个阶段。前两个阶段在不同的图像上以相反的方向重复图像外绘N，M次。对于自然连接，前一步的预测输出用作下一步的输入。然后，为了混合结果图像，在图像混合阶段，我们屏蔽断开区域并将其通过CEP模块一次。2. 相关工作2.1. 图像补全图像修复的两个主要任务是图像修复和图像外绘.这两个任务的经典方法大多是基于补丁的[16，17，18，19，20]，它从每个掩蔽区域的已知区域中找到补丁。然而，这些方法往往无法学习语义结构，并且生成新内容的能力有限。相反，基于学习的方法[1，2，3]在捕捉语义方面相对更好。至于图像外绘，由于缺乏相邻信息和较大的未知区域，一直在努力为缺失区域生成最近，[7]提出了一种新的图像完成任务，宽范围图像融合，其目的是通过在两幅图像之间生成适当的内容来将两幅不同的图像合并为一幅图像。对于这项任务，[7]提出了一种编码器-解码器架构，它顺序预测中间区域的特征2.2. 图像字幕现代图像字幕模型通常采用编码器-解码器架构[21，22，23]，其中编码器从图像中提取视觉特征，并且解码器从提取的视觉特征中生成单词序列。为了训练图像字幕模型，交叉en-通常使用熵损失后的强化学习[24]。这种训练方法使得能够使用不可区分的字幕度量作为优化目标。最近，有人努力在大型图像-文本语料库上采用视觉语言预训练来进行图像字幕任务[25，26]。2.3. 文本引导的图像处理最初，文本引导的图像操作模型专注于根据给定的文本提示编辑图像，模型决定编辑图像的哪个部分[27]。[28]介绍了一种文本引导的图像处理模型，该模型使用双重注意机制仅为期望区域生成内容。最近的工作通过在大规模数据集上训练文本引导的图像操作模型，进一步提高了它们的性能[13，14]。3. 该方法在这一节中，我们提供了一个框架的概述，如图所示二、我们的框架，命名为基于字幕的扩展绘画（CEP）模块，包括两种类型的网络1）一个图像字幕网络G CAP的语言提示生成和2）文本引导的图像处理网络，G IM。基本上，当一个掩码图像作为输入，G CAP生成语言提示通过字幕掩码图像。然后，使用语言提示，GIM为掩蔽的重新生成图像2571提示提示⊙⊙−提示−ERTgion。CEP模块的两个部分成对操作，以进行图像外绘或宽范围图像混合，这两个最具挑战性的图像完成任务。在下面的章节中，我们将详细描述CEP模块的流程。然后，我们将解释如何将CEP模块应用于广泛的绘画任务。其中r是由评估度量（例如，CIDEr），通过将所生成的序列与对应的地面实况序列进行比较。然后，（4）的梯度可以近似为：3.1. 基于字幕的泛画模块<$θL R（θ）<$−。r（Ts）−r（Thint）θlogpθ（T s）的情况下，（五）通常，由于相邻信息的有限量，大的未知区域的图像完成是具有挑战性的。因此，在广泛绘制期间生成提示的目标是提供关于输入图像的尽可能详细的信息[12]。为了达到这个目的，我们采用了一个图像字幕模型，它的目的是用自然语言描述图像的内容。然后，使用此标题作为提示，我们使用文本引导的图像操作网络填充图像的缺失区域。总体流程如下：令IGT是地面实况图像，并且M是二进制图像（1用于缺失区域，0用于背景）。然后，不完整的图像可以表示为：IIC=IGTV（1−M），（1）其中表示Hadamard乘积。图像字幕网络生成用于语言提示T hint= G CAP（I IC）。（二）在获得Thint之后，文本引导的图像操纵网络GIM生成完整的图像。掩蔽图像IIC和语言提示Thint用作输入，如下：Ipred=GIM（IIC，Thint），（3）其中Ipred表示最终输出结果。图像字幕网络图像字幕是多模态领域中最受欢迎的任务然而，现有的图像字幕模型仅在完整图像上训练。因此，它们不能生成被掩蔽图像的适当字幕。为了克服这个问题，我们使用随机掩蔽数据集Ir和=IGT（一）M），其中M是随机数面具对于图像字幕，我们优化了一个语言模型，该模型是在一个大型数据集上进行预训练的，采用自我批判序列训练（SCST）方法[24，29，30]。该方法基于REINFORCE算法[31]，其中奖励设置为测试时使用的度量。给定训练过程中从策略中采样的句子Ts和参数为θ的字幕模型，我们最小化负预期奖励：其中，r（Thint）是通过贪婪获得的基线r-解码模型。这种梯度趋于增加在训练期间从策略中进行字幕采样的概率比来自当前模型的奖励[32]。通过这个过程，我们新优化的字幕模型能够预测适当的字幕，而不管掩模形状如何。语言提示优于图像提示的一个优点现有的基于图像提示的方法[8，9，10]对图像结构有很大的依赖性。更具体地，BR [8]和MR [9]仅适用于对称图像，因为它们通过切换左侧和右侧来重新排列输入图像，或者将输入图像镜像到掩蔽区域旁边此外，IAH [10]只能生成固定大小的提示。相反，由于CEP使用其他模态作为提示，因此它可以不受任何限制地应用于任何类型的图像完成。最近，由于大量文本图像配对数据集的工作[15，33，34，35]，大规模语言视觉模型，如如GLIDE [13]、Imagen [36]、DALL-E [36]和文本驱动混合扩散[14]已经实现了前所未有的泛化水平。换句话说，即使与在特定数据集上训练的模型相比，在大规模数据集上训练的这些大规模模型在宽范围的域上的零拍摄图像生成中也是胜任的。因此，我们简单地使用这些模型而不做任何更改。我们期望这些好处能丰富广泛绘画的各种接下来，我们将把CEP模块应用于最困难的图像完成任务，图像外画和大范围图像混合。3.2. 图像外绘图像外画的目的是当给定的信息只是图像的内部时，生成图像通常，outpainting任务预测图像在水平方向上的单面或双面。由于我们针对随机掩码图像优化了CEP模块的图像字幕网络，因此我们可以通过仅放置与缺失区域对应的掩码并使其通过CEP来L（θ）=s提示αpθs暗示）]、（四）[r（T2572module.2573×××表1. Landscape [6]，Landmarks [37]和AmsterTime [38]数据集上图像输出任务的定量结果，使用F'renchetInceptionDistance（FID）[39]（越低越好）和KernelInceptionDistance（KID）[40]（越低越好）的度量。每一列的最佳得分以粗体字表示。外涂景观地标阿姆斯特丹时间方法FID KIDFID KIDFID KIDCEP（我们的）25.460.00113.480.00126.980.002[4]第四话44.190.01122.380.01159.120.026[41]第四十一话75.790.03862.670.05584.910.086SRN [5]37.070.01637.490.03063.120.034NS-OUT [6]52.280.07243.870.03066.840.038第四十二章64.660.03815.310.00439.220.009表2.使用FID [39]（越低越好）和KID [40]（越低越好）上的指标，在Landmarks [37]，Scenery [6]和AmsterTime [38]数据集上进行宽范围图像混合任务的定量结果。每一列的最佳得分以粗体字表示。宽范围图像融合地标风景阿姆斯特丹时间图像4K模型FID KIDFID KIDFID KIDFID KIDCEP（我们的）20.390.00438.050.01729.430.00329.410.003桥梁[7]36.720.02236.310.01171.950.04740.650.009加拿大[3]52.490.01691.870.07443.460.02161.460.028[43]第四十三话79.570.035159.700.11574.670.04786.710.049[44]第四十四话70.900.041139.390.12374.820.05876.570.042SRN [5]94.350.04170.940.03981.210.048123.580.109NS-OUT [6]103.770.09082.690.044135.630.144116.640.0693.3. 宽范围图像融合为了执行宽范围图像混合任务，整个过程包括三个阶段。阶段1是多步预测，其使用来自前一步的预测输出作为下一步的输入来重复外绘。在阶段2中，在与阶段1相反的方向上重复外绘，直到两个外推图像变得连接。最后，在阶段3中，我们对断开的区域应用掩码，并将掩码图像通过CEP模块一次。4. 实验4.1. 基线方法我们提出的CEP模块是模型不可知的图像字幕和文本引导的图像操作任务。对于图像字幕任务，我们实现了OFA[11]和ClipCap [12]，对于文本引导的图像管理任务，我们利用了GLIDE [13]和文本驱动的混合扩散模型[14]。4.2. 数据集我们在传统数据集上评估了我们的模块，用于广泛的绘画，Scenery6000 [6]和Beach数据集[41]。我们进一步在复杂的数据集上进行实验，如AmsterTime [38]和Landmarks [37]数据集。海滩数据集[41]这个数据集是由select-从place365的“海滩”类别中提取图像[45]。它由9，465个训练图像和1，050个测试图像组成，每个图像256 256像素分辨率。Scenery6000数据集[6]这个数据集包含不同大小的风景图像。在总共6,040张图像中，1,000张用于测试，5,040张用于训练。AmsterTime数据集[38]该数据集包括1，231张阿姆斯特丹城市景观的图像地标数据集[37]这个数据集包含26，397张训练图像和3，103张测试图像，这些图像来自世界各地的地标，范围从自然景观到建筑。4K数据集这是Kaggle提供的数据集，由4K分辨率的各种风景图像和对象图像所有2，056张图像都用于测试。4.3. 系统设置为了使用CIDER评估指标通过SCST优化来优化OFA[11]，我们利用了最常用的MS COCO Caption数据集[46]。优化是针对5，000步进行的，批量大小为2，学习率为5e-6。至于其他图像字幕模型[12]和文本引导图像操作模型[13，14]，使用原始设置。对于图像外绘，输入图像被裁剪并调整大小为256 ×256的分辨率，对于宽范围图像混合，输入图像首先被裁剪并调整大小为768×256的分辨率。为自己，2574××××××图3. AmsterTime数据集上图像外绘任务的定性结果。在重建之后，中间256 256区域被裁剪，并且剩余的左侧256 256和右侧256 256区域用作两个输入图像。图像外画的遮罩形状为128 256。对于宽范围图像混合，外推步骤的掩模形状为128 256，修补步骤的掩模形状为64256 所有型号都在4个NVIDIA GeForce RTX 3090GPU上实现。4.4. 定量结果我们使用Frenchet Inception Distance（FID）[39]和Kernel Inception Distance（KID）[40]作为我们的评估指标。请注意，我们使用Landmarks数据集的权重在AmsterTime数据集上进行测试，因为它们的视觉相似性和AmsterTime缺乏训练图像（AmsterTime数据集总共包含1，231张图像，而Landmarks数据集仅包含26，397张图像）。培训）。在Landscape、Landmarks和AmsterTime数据集上的图像外画任务的结果总结在表1中。我们的CEP模块优于所有基线，包括最先进的图像完成模型[42]。此外，虽然该模型在Landmarks数据集中的得分特别高，其中训练图像的数量很大，但我们的模块在所有数据集中始终获得高分。宽范围图像混合定量结果如表2所示。在除了Scenery数据集之外的所有数据集中，我们的方法都击败了每个基线，甚至是专门为此任务设计的BRIDGE模型[7]。2575图4. Image 4K数据集上宽范围图像混合任务的定性结果。4.5. 定性结果图图3显示了AmsterTime数据集上的常规outpainting算法和CEP模块的定性结果以前的方法往往会产生结构不自然的图像，但我们的方法产生结构连贯和内容保留的图像。这一特性也适用于宽范围图像融合任务。如图4所示，我们的方法产生干净和语义上有意义的图像，而BRIDGE，在大范围图像混合的最先进的方法，产生重复的结构。其他结果见附录。4.6. 消融研究优化图像字幕模型的效果图像字幕模型在给定掩码图像时会产生不准确的前缀，例如“两张照片”及其变体。当文本引导的图像处理模型被提供了这样的不准确的字幕时，它们在宽范围图像混合期间生成两个分割的图像，如图所示。五、因此，我们测量了使用随机掩码的SCST方法优化图像字幕模型OFA的效果然后，我们计算了错误前缀的数量如表3所示，SCST优化成功地减少了错误情况的数量。在图6中，我们仔细观察了大面积绘画的字幕效果。图5.优化图像字幕模型对大范围图像融合的影响在没有SCST优化过程的情况下，文本引导的图像操作模型生成两个分割的图像，而在优化过程中，我们获得了平滑的混合图像在图像外绘任务中，由于caption中的单词“canal”，所以在生成的图像中包括了canal。请注意，这不包括在初始图像中。同样在图像混合任务中，通过标题“具有黄色喙的鹰”生成鹰的黄色喙。这表明缺失区域的图像字幕生成多样且自然的图像。2576图6.大面积绘画的字幕效果;缺失区域的图像字幕提供了多样化和自然的图像。红色框表示生成的区域。表3. SCST优化对图像字幕模型的影响图像字幕模型OFA [11]通过SCST方法使用CIDEr与随机掩蔽的COCO字幕数据集[46]进行优化。GLDIE [13]用于图像文本引导图像操作，并在图像4K数据集上进行评价OFA培训假前缀数量FID KID w/o培训1055 33.810.003包括培训表4.掩模尺寸的影响;在Landmarks数据集[37]的宽范围图像混合的最后阶段进行图像修复，使用具有不同掩模宽度的OFA[11]和GLIDE [13]。掩码大小FID KID 3221.150.0046420.85 0.00396 20.90 0.003128 22.12 0.004表5.基于暗示的图像外绘模型在海滩数据集上的比较。方法提示格式FIDCEP（我们的）语言24.95BR [8]图37.19MR [9]图像36.65IAH [10]图31 - 81在宽图像混合的最后一步中，我们对全景图像的中心进行了遮罩，并执行了图像修复以实现平滑过渡。从表4中，我们可以得出结论，使用宽度为64的掩码执行图像修复会产生最佳结果。基于提示的方法比较我们在海滩数据集上将我们的方法与传统的基于提示的方法进行了比较。如表5所示，我们的算法优于现有的算法。最后，我们比较了我们的方法使用不同的字幕模型的结果在表6中，具有OFA的CEP模块优于具有ClipCap的CEP模块。表6.Landmarks数据集上字幕模型的比较标题型号FID KID OFA[25]13.480.002[12]第12话图7.故障案例;字幕中的“模糊”一词会产生模糊的图像。红色框表示生成的区域。4.7. 限制我们的方法在某些情况下会失败如图在图7中，图像字幕模型为模糊图像生成包含单词“blurry”的字幕结果，当给出具有单词“模糊”的字幕时，图像我们的CEP模块采用GLIDE [13]的另一个限制是分辨率，每一步的输出限制为256 ×256。5. 结论在本文中，我们提出了一种新的形式的提示，自然语言，并将其纳入图像outpainting，甚至大范围的图像混合任务。由于所提出的基于字幕的扩展绘画（CEP）模块可以为每个提示生成和图像生成网络采用任何图像字幕和文本引导的图像生成算法，因此我们利用了精心设计的预训练模型。对于这两个任务，我们的模块在大多数情况下都优于基线模型，即使对于语义复杂的图像，也能生成逼真的图像6. 确认我们感谢基础科学研究计划通过韩国教育部资助的韩国国家研究基金会（NRF）（2021R1I1A1A01051225）和韩国政府资助的韩国国家研究基金会（ NRF ）（ MSIT ）（编号2021R1I1A1A01051225）的2021R1A2C1004208）。2577引用[1] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-Chun Wang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页[2] DeepakPathak 、 PhilippKrahenbuhl 、 JeffDonahue、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议论文集，第2536-2544页[3] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，Xin Lu，and Thomas S Huang.具有上下文注意的生成式图像修复。在IEEE计算机视觉和模式识别，2018年。[4] Piotr Teterwak ， Aaron Sarna ， Dilip Krishnan ，Aaron Maschinot，David Belanger，Ce Liu，andWilliam T Freeman. Boundless：用于图像扩展的生成对抗在IEEE/CVF计算机视觉国际会议论文集，第10521-10530页[5] Yi Wang，Xin Tao，Xiaoyong Shen，and Jiaya Jia.宽上下文语义图像外推。在IEEE/CVF计算机视觉和模式识别会议上，第1399-1408页，2019年。[6] 杨宗欣，董健，刘平，杨毅，严水成。基于外画的超长自然景物图像预测。在IEEE/CVF计算机视觉国际会议集，第10561-10570页[7] 卢嘉妮，张雅珠，邱伟臣。弥合视觉鸿沟：宽范围图像混合。在IEEE/CVF计算机视觉和模式识别会议论文集，第843[8] Kyunghun Kim，Yeohun Yun，Keon-Woo Kang，Kyeongbo Kong，Siyeong Lee，and Suk-Ju Kang.画外如内：边缘引导的图像通过双向重排与渐进式学习的绘画。在IEEE/CVF计算机视觉应用冬季会议论文集，第2122-2130页[9] 秋本直史，伊藤大贵，青木义光。风景图像扩展通过修复与一个 mir- 可移植的输入。 IEEEAccess，9：59286[10] Daehyeon Kong ， Kyeongbo Kong ， KyunghunKim，Sung-Jun Min，and Suk-Ju Kang.通过视觉Transformer生成图像自适应在IEEE/CVF计算机视觉应用冬季会议论文集，第3572-3581页，2022年。[11] Peng Wang，An Yang，Rui Men，Junyang Lin，Shuang Bai ， Zhikang Li ， Jianxin Ma ， ChangZhou，Jingren Zhou，and Hongxia Yang.通过简单的序列到序列学习框架统一架构、任务和模式。国际机器学习大会，2022年。[12] RonMokady ， AmirHertz ， andAmitHBermano.clip-cap：图像字幕的剪辑前缀. arXiv预印本arXiv：2111.09734，2021。[13] Thomas A Halgren，Robert B Murphy，Richard AFriesner，Hege S Beard，Leah L Frye，W ThomasPollard，and Jay L Banks.滑翔：快速、准确对接和评分的新方法。2.数据库筛选中的富集因子。药物化学杂志，47（7）：1750[14] Omri Avrahami，Dani Lischinski和Ohad Fried。用于文本驱动的自然图像编辑的混合扩散在IEEE/CVF计算机视觉和模式识别会议论文集，第18208-18218页[15] Christoph Schuhmann ， Richard Vencu ， RomainBeau- mont ， Robert Kaczmarczyk ， ClaytonMullis ， Aarush Katta ， Theo Coombes ， JeniaJitsev，and Aran Ko- matsuzaki.Laion-400 m：经过剪辑过滤的4亿个图像-文本对的开放数据集。arXiv预印本arXiv：2111.02114，2021。[16] Coloma Ballester 、 Marcelo Bertalmio 、 VicentCaselles、Guillermo Sapiro和Joan Verdera。矢量场和灰度级联合插值填充。IEEE图像处理学报，10（8）：1200[17] Marcelo Bertalmio 、 Guillermo Sapiro 、 VincentCaselles 和 Coloma Ballester 。图像修复。在Proceedings of the 27th annual conference onComputer graphics and interactive techniques ，pages 417[18] Alexei A Efros和Thomas K Leung。非参数采样纹理合成第七届IEEE计算机视觉国际会议论文集，第2卷，第1033-1038页。IEEE，1999年。2578[19] Josef Sivic、Biliana Kaneva、Antonio Torralba、Shai Avidan和William T Freeman。创建和探索一个大的真实感虚拟空间。在IEEE计算机协会计算机视觉和模式识别研讨会会议上，第1-8页。IEEE，2008年。[20] Yinda Zhang，Jianxiong Xiao，James Hays，andPing Tan. Framebreak：通过引导的移位映射进行戏剧性的图像外推。在Proceedings of the IEEEConferenceonComputerVisionandPatternRecognition，第1171-1178页[21] 贾斯汀 · 约翰逊安德烈 · 卡帕西和李飞飞。Densecap：用于密集字幕的全卷积定位网络。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第4565-4574页[22] Andrej Karpathy和李飞飞。用于生成图像描述的深度在IEEE计算机视觉和模式识别，第3128-3137页[23] An-An Liu ， Yingchen Zhai ， Ning Xu ， WeizhiNie，Wenhui Li，and Yongdong Zhang.通过交互学习的区域感知图像字幕。IEEE Trans- actions onCircuits and Systems for Video Technology，2021。[24] Steven J Rennie ， Etienne Marcheret ， YoussefMroueh，Jerret Ross，and Vaibhava Goel.图像字幕的自我批判在IEEE计算机视觉和模式识别会议论文集，第7008-7024页[25] Luovei Zhou ， Hamid Palangi ， Lei Zhang ，Houdong Hu，Jason Corso，and Jianfeng Gao.统一视觉-图像字幕和vqa的语言预训练。在AAAI人工智能会议论文集，第34卷，第13041-13049页[26] Xiujun Li ， Xi Yin ， Chunyuan Li ， PengchuanZhang，Xiaowei Hu，Lei Zhang，Lijuan Wang，Houdong Hu，Li Dong，Furu Wei，et al. Oscar：面向视觉语言任务的对象语义对齐预训练。在欧洲计算机视觉会议上，第121137. Springer，2020年。[27] Bowen Li，Xiaojuan Qi，Thomas Lukasiewicz，and Philip HS Torr. Manigan ：文本引导图像操作。在IEEE/CVF计算机视觉和模式识别会议论文集，第7880-7889页[28] Lisai Zhang，Qingcai Chen，Baotian Hu，ShuoranJiang.文本引导的神经图像修复。2020年ACM国际多媒体会议[29] Li Zhang，Flood Sung，Feng Liu，Tao Xiang，Shaogang Gong，Yongxin Yang，and Timothy MHospedales.用于图像字幕的演员-评论家序列训练。arXiv预印本arXiv：1706.09601，2017。[30] 高俊龙、王世奇、王善社、马四维、高文。图像字幕的自我批判n步训练。在IEEE/CVF计算机视觉和模式识别集，第6300-6308页[31] 罗纳德·J·威廉姆斯简单的统计梯度跟随算法用于连接主义强化学习。Machine learning，8（3）：229[32] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像标题和视觉问题回答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页[33] Alec Radford，Jong Wook Kim，Chris Hallacy，Aditya Ramesh，Gabriel Goh，Sandhini Agarwal，Girish Sas-try，Amanda Askell，Pamela Mishkin，Jack Clark ， et al. Learning transferable visualmodels from natural language supervision.国际机器学习会议，第8748-8763页。PMLR，2021年。[34] Aditya Ramesh 、 Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、MarkChen和Ilya Sutskever。零拍摄文本到图像生成。国际机器学习会议，第8821-8831页PMLR，2021年。[35] Chao Jia，Yinfei Yang，Ye Xia，Yi-Ting Chen，Zarana Parekh，Hieu Pham，Quoc Le，Yun-HsuanSung，Zhen Li，and Tom Duerig.用噪声文本超视放大视觉和视觉语言表征学习。国际机器学习会议，第4904-4916页。PMLR，2021年。[36] ChitwanSaharia ， WilliamChan ， SaurabhSaxena ， Lala Li ， Jay Whang ， Emily Denton ，SeyedKam-yarSeyedGhasemipour ， BurcuKaragol Ayan ， SSara Mahdavi ， Rapha GontijoLopes，et al.具有深度语言理解的光真实文本到图像扩散模型。arXiv预印本arXiv：2205.11487，2022。[37] Tobias Weyand，Andre Araujo，Bingyi Cao，andJack Sim. Google landmarks dataset v2--实例级识别和检索的大规模基准测试在IEEE/CVF计算机视觉和模式识别会议论文集，第2575-2584页2579[38] Burak Yildiz ， Seyran Khademi ， Ronald MariaSiebes，and Jan van Gemert.Amstertime：一个用于严重域转移的视觉位置识别基准数据集。arXiv预印本arXiv：2203.16291，2022。[39] Martin Heusel ， Hubert Ramsauer ， Thomas Un-terthiner，Bernhard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。[40] 米科拉吉·比恩科沃斯基，丹尼卡·J

下载后可阅读完整内容，剩余1页未读，立即下载