没有合适的资源?快使用搜索试试~ 我知道了~
36890OCR-VQGAN:驯服图像中的文本生成0Juan A. Rodriguez 1,David Vazquez 2,Issam Laradji 2,Marco Pedersoli 3,Pau Rodriguez 201计算机视觉中心,巴塞罗那,2ServiceNow研究,3´ETS Montr´eal0joanrg.ai@gmail.com0摘要0合成图像生成在自然图像或艺术生成等领域最近取得了显著的改进。然而,图形和图表生成的问题仍未被探索。生成图形和图表的一个具有挑战性的方面是在图像中有效地呈现可读的文本。为了缓解这个问题,我们提出了OCR-VQGAN,一种图像编码器和解码器,利用OCR预训练特征来优化文本感知损失,鼓励架构保留高保真度的文本和图表结构。为了探索我们的方法,我们引入了Paper2Fig100k数据集,其中包含来自研究论文的100k多个图像和文本。这些图像展示了来自人工智能和计算机视觉等领域的arXiv.org上可用的文章的架构图和方法。图表通常包括文本和离散对象,例如图表中的框和连接它们的线和箭头。我们通过进行几个图形重建任务的实验来证明OCR-VQGAN的有效性。此外,我们探索了在整体损失函数中加权不同感知度量的定性和定量影响。我们在https://github.com/joanrod/ocr-vqgan上发布了代码、模型和数据集。01. 引言0最近文献中的图像合成工作在自然图像领域取得了令人印象深刻的结果。一些例子是人脸生成、风景和艺术[1, 2, 3, 4,5,6]。当前的方法可以生成高分辨率和逼真的图像,允许创作者使用文本描述和其他条件模态来引导生成过程[7]。在未来几年内,文本到图像生成模型将在艺术、设计、视频游戏和内容创作等许多领域增强和补充创造过程。然而,当前方法(如Parti [4]或Imagen[3])的一个常见缺陷是它们往往无法在图像中呈现文本,正如[4]中所强调的(限制部分)。0Ground truth VQGAN OCR-VQGAN(我们的)0表1.图形重建任务的定性比较。OCR-VQGAN在捕捉文本和符号细节方面优于VQGAN。0tion).当前的图像生成系统在自然图像上训练,对于结构化图表生成或自动幻灯片编辑等应用来说,无法产生期望的结果。这个缺点使得最近的文本到图像生成方法不适合帮助人们设计和创建工作中的图形和图表。因此,在这项工作中,我们解决了在图像中生成文本的问题。我们专注于生成纸质图表,这些图表通常包含学术论文中介绍的方法或架构的视觉摘要描述。在许多领域(我们专注于深度学习(DL)和计算机视觉(CV)),在研究出版物中使用图表已经变得非常普遍,使研究人员能够简洁地描述想法。人们花费大量时间来构建吸引人且易于理解的图表。因此,辅助这个过程的工具将是有益的。36900为了辅助这个过程将是有益的。尽管图表比自然图像具有更精确的结构和组成(即对象之间的连接性、文本描述、图例),但Roy等人[8]指出,关于如何创建这些图表几乎没有共识,因为它们没有遵循特定的格式或结构信息(见图1)。在生成图表时,作者必须定义许多参数,如大小、形状的位置、颜色、连接或文本样式。因此,在图表空间中构建图像生成模型是非常耗时的,因为存在显著的变异性。在这项工作中,我们通过(i)引入一种新颖的来自研究论文的图像和文本对数据集和(ii)解决当前图像编码器中的文本渲染问题来解决生成图表的问题。我们从arXiv.org上公开可用的研究论文中获取了一个大型的图像和文本对数据库,我们称之为Paper2Fig100k。该数据集包含100k多个图像和文本标题对(见第3节),用于文本条件下的图表生成任务,这是许多实际应用中的重要组成部分,如建筑蓝图、项目设计和研究论文。所提出的数据集允许解决以前场景文本数据集中不可能解决的图表中的文本渲染问题。我们构建了一个丰富的图像编码器用于图表。我们基于VQGAN[9]方法进行构建,该方法基于学习一组补丁嵌入的代码本,利用感知和基于补丁的对抗目标。我们的方法在训练目标中添加了一个OCR感知损失项,该项在特征空间中最小化原始图像和重建图像之间的距离。为此,我们添加了一个预训练的OCR检测模型,鼓励学习的嵌入表示清晰的文本和图表(见表1)。由于我们专注于在图表领域中压缩图像,我们需要强制模型学习数据集中最常见的补丁和局部模式,构建一个丰富的离散潜在表示(即补丁的代码本)。例如,我们的编码器需要表示各种文本可能性,如不同的大小、样式、字体和字符的方向。还需要考虑文本和背景颜色,以及箭头、线条或几何形状的清晰度。传统的图像重建度量在像素空间中严重依赖L2相似性,往往无法量化高级感知相似性。例如,图像在水平轴上的简单移动会使点对点的L2距离给出错误的结果。相反,人类可以检测图像的模式和整体结构,使他们能够做出更好的感知评估。这可以通过在特征空间中最小化感知损失来实现,使用预训练的图像识别模型。0我们的贡献可以总结如下:我们提出了:0•Paper2Fig100k,一种用于文本到图像生成任务的新数据集,由公开可用的研究论文中获取的文本和图像组成;0•OCR-VQGAN,一种专注于合成图表图像、保留图像内文本和图表结构的图像编码器;0•一种OCR感知损失和OCR相似度度量(OCR-SIM),用于衡量图像与OCR预训练模型之间的感知距离。0本文的其余部分结构如下。第2节概述了关于深度生成模型、图像编码器和基于图表的任务和数据集的最新文献。第3节介绍了Paper2Fig100k,这是一个包含研究图表和文本的新数据集。在第4节中,我们提出了OCR-VQGAN,这是一个专注于保持图像中文本清晰度的图像编码器。实验在第5节进行。第6节得出了结论。最后,在最后一节中,我们对文本到图像生成的伦理和社会影响进行了思考。02. 相关工作0文本到图像合成。最近的文本到图像生成方法在即使对于未见过的概念组合也取得了出色的图像生成质量。像DALLE[10]、DALLE-mini [11]或Parti[4]这样的作品将任务视为一种语言建模问题,使用Transformer[12]架构来学习文本和视觉信息之间的关系。这类方法依赖于图像编码器(或标记器),如VQ-VAE [13]或VQGAN[9],将图像转换为一系列标记,从而可以将文本和图像模态都视为序列到序列的任务。另一类越来越受欢迎的方法使用扩散方法[14]直接从文本嵌入生成图像。像DALLE2[2]和Imagen [3]这样的作品使用CLIP[15]和[16]文本编码器来调节扩散过程。Latent Diffusion[6]结合了BERT标记器和更灵活的交叉注意机制来调节扩散过程。当前文本到图像合成方法的一个弱点是它们难以生成文本[3,4]。在这项工作中,我们改进了图像编码器模块,以支持图像中的文本生成。0图像标记器。基于向量量化的变分自编码器(VQVAE)[13,17]是一种流行的学习图像离散表示的方法。基于VQ的方法学习了离散潜在嵌入的码本,并使用了一种36910最近邻居算法将连续的潜在特征映射到离散的嵌入中。他们提出使用因果卷积核通过自回归密度估计来建模数据分布。VQGAN使用了VQVAE的量化过程,并改进了VQVAE学习的码本的丰富性。VQGAN的作者通过使用VGG感知损失[18]和基于补丁的对抗模块来修改训练目标,以获得高质量的嵌入。他们展示了学习图像补丁的丰富码本对于进行高分辨率图像合成至关重要。尽管VQGAN改善了VQVAE的重构质量,但该模型仍然难以绘制文本(见表6)。在这项工作中,我们增加了一个额外的感知损失,以改善文本重建。0基于感知的重建。感知相似性损失在风格转换[19, 20,21]领域很常见。张等人[18]证明了使用学习的感知损失作为相似性目标的有效性,该目标在特征空间中进行评估。他们的工作展示了如何使用在Imagenet [23]上预训练的VGG16[22]作为重建损失,捕捉感知相似性的差异。在Imagenet上预训练的感知损失适用于衡量自然图像之间的差异。然而,它们不适用于衡量文本生成中的距离,因为文本识别不是Imagenet的目标。在这里,我们通过引入一个额外的感知损失来解决这个问题,该损失是从训练用于文本检测光学字符识别(OCR)[24]的模型中获得的。0相关数据集和任务。在文档和图像分析领域,已经有一些工作主要集中在分类[25]、目标检测[8]或视觉问答[26]等任务上。大多数可用的数据集包含各种类型的图像,如表格、流程图和不同类型的图表。Hsu等人[27]介绍了一个用于图像字幕任务的数据集,其中包含科学论文中所有可用图像的60,000个样本(如散点图、条形图、流程图、方程式等)。Chen等人[28]也通过引入FigCAP数据集来进行图像字幕生成,该数据集包含多种类型的图像样本。据我们所知,目前还没有公开可用的专注于图示图像的数据集。我们提议构建一个新的图示图像和文本数据集,从研究论文中获取。03. Paper2Fig100k数据集。0为了实现文本到图像的生成,并解决该任务中缺乏公开可用数据集的问题,我们提出了Paper2Fig100k数据集。该数据集由69,413篇论文中的102,453对图像和文本组成。0输入图像。0提示模态示例。0图注图2:我们网络的概述。我们提出了一种互补注意力和自适应集成网络。0参考文献图2显示了基于RGB图像和深度图的双流结构的CAAI-Net概述。如图所示,(...)。0OCR关键词 上下文感知的互补注意力模块,(...)。0表2.我们的图像生成系统的示例,用于文本条件下的图像合成任务。请注意,表格顶部显示的图像是数据集2的样本。0数据集被分为一个包含81,194个样本的训练集和一个包含21,259个样本的测试集。虽然该数据集用于文本到图像的生成,但也可以用于训练文本到图像流水线的第一阶段(图像编码器)。Paper2Fig100k还可以用于图像到文本的生成(反向过程)和多模态视觉语言任务。数据集的样本如图1所示。Paper2Fig100k包含了架构图、图示图和流程图(通常称为图像),以及从arXiv.org的公开研究论文中获取的详细文本图注。它还包括OCR检测到的边界框和图像的文本转录,可用于手工注意力和细粒度文本条件。如图2所示,预计该数据集将逐年呈指数增长。03.1. 数据获取流程。0该数据集是使用arXiv数据集[29]提供的API和元数据获取的,该数据集包括论文的元数据(如标题、摘要、作者或研究领域)以及通过Google以PDF格式下载论文的工具。01. 示例图来自论文《Towards Accurate RGB-D Saliency Detection withComplementary Attention and Adaptive Integration》。36920图1.Paper2Fig100k数据集的样本。我们展示了样本在纵横比、图像分辨率、文本和图示大小以及显示的信息量方面具有高度的变异性。与自然图像不同,图示图包含了对图示的完整理解所必需的细粒度信息细节。0Cloud.arXiv数据集每周更新,涵盖了STEM领域的超过170万篇论文。可用的论文集涵盖了arXiv分类体系中的许多领域,因此我们筛选并保留了机器学习(cs.LG)、人工智能(cs.AI)、计算机视觉和模式识别(cs.CV)以及计算与语言(cs.CL)这些类别的论文。我们下载了2010年1月之后发表的所有论文,总共183,427篇。我们使用开源库GROBID[30]处理和解析PDF格式的论文,该库可以提取和组织PDF文件中的文本和图像,主要用于技术或科学文档。它基于条件随机场(CRF)等对象检测模型的级联。该软件已经可以投入生产,并且在处理速度方面非常有竞争力(每秒能处理10.6个PDF)。02 arXiv遵循标准化的分类法对领域进行编码,https://arxiv.org/category_taxonomy。0我们在https://github.com/joanrod/paper2figure-dataset上发布了该流程。03.2. 获取图表的启发式方法0下载的183,427篇论文包含约1.6M张图像。然而,其中许多包含定性结果或其他类型的自然图像,我们希望避免使用。由于我们只关注图表,我们使用简单的启发式方法仅保留描述体系结构或方法的图表,并删除与结果或示例相关的图表。结果是一组102,453张图像。我们使用基于图表标题的文本启发式方法。我们保留包含标题中出现诸如“体系结构”、“模型图”或“流程图”等字符串的图表。我们删除包含“表格”、“结果”或“示例”等词语的图表,这些词语可能与所需的图表不符。使用灰度直方图来删除异常值,如空白图像(全白)或自然图像(几乎没有白色)。我们使用基于OCR检测和识别系统(EasyOCR)处理图像,该系统基于CRAFT [24] OCR技术。4.1. OCR-VQGAN36930图2.在这个图中,我们展示了每年提取的图表数量,截至2022年4月。该图显示了研究出版物的指数增长。0检测器和CRNN[31]文本识别器。请注意,此过程仅应用一次,与后面介绍的OCR-VQGAN方法无关。目标是获取文本标签和标题,以自动注释样本并将其用于文本条件。03.3. 提示模式0文本标题通常编码了与图表中所表示的信息相同的内容,因此可以通过文本条件的图像合成来实现。根据论文的文本进行图表生成有许多选项。由于图表通常描述了论文中提出的方法,我们建议将图像与方法论部分的文本配对。我们还探索了其他的条件信息,如图表标题和从OCR模型中提取的关键词。具体而言,我们为文本到图像生成的未来研究定义了三种提示模式:标题、参考文献和OCR关键词。标题直接从图表标题中获取。参考文献从引用图表的段落中提取。OCR关键词是OCR模型检测到的文本的串联。表2展示了数据集中的标题类型。04. 方法0我们的目标是训练一个基于图像的编码器(tokenizer),能够将图像转化为离散令牌序列,并且训练一个图像解码器(detokenizer),可以根据令牌重新构建图像,保留文本和图表结构的细节。令牌是离散潜在空间中学习的补丁嵌入的代码书的索引。0对原始图像进行编码,将补丁编码到原始图像中。在编码图像时,将各个补丁嵌入分配给最近的代码书条目。为了解决当前的重建任务,该方法需要学习数据集中最相关和最真实的补丁,并将离散嵌入分配到代码书中。为此,所提出的OCR-VQGAN编码和解码流程使用基于补丁的对抗性过程、基于VGG的感知(LPIPS)损失和新颖的OCR感知损失。0我们利用VQGAN的图像编码器[9],学习从图像空间到离散令牌的映射。为此,VQGAN架构由图像编码器、解码器和向量量化阶段组成。编码器用于将图像x ∈ R H × W × 3下采样为离散代码z q ∈ R h × w × n z ,其中n z是嵌入空间的大小。可以用代码书索引来描述每个代码,并通过形状为h ×w的网格重新排列离散表示。使用与Esser等人[9]相同的架构和符号,图像编码器E和解码器G是卷积神经网络,旨在学习离散代码书Z = {z k} K k = 1 � R n z。在前向传播中,图像x被近似为ˆx =G(q(E(x))),其中q是量化函数,执行最近邻操作。他们使用了Zhang等人[18]的LPIPS感知损失,而不是使用L2损失,该损失更能捕捉到图像的感知丰富细节。最后,VQGAN引入了基于补丁的对抗策略,其中鉴别器D学习区分真实补丁和伪造补丁,因此解码器G在生成逼真样本方面变得更好。原始的VQGAN损失可以表示如下:0LVQGAN = LVQ(E, G, Z) + λLGAN({E, G, Z}, D), (1)0其中LVQ是向量量化损失,LGAN是基于补丁的Hinge损失,λ是L GAN的自适应权重(详细推导请参考[9])。04.2. OCR感知相似度0我们提出了一种新的OCR感知损失,用于在生成的图像中呈现清晰的文本。我们使用一个冻结的预训练CRAFT[24]模型,该模型是一个在自然图像中定位单个字符的文本检测器。该模型基于VGG16[22],使用批归一化作为骨干,并在上采样层中使用具有跳跃连接的U-net[32]架构。CRAFT模型被保持冻结,并为VQGAN架构添加了20M个参数,与LPIPS的14M个参数相当。如[18]所介绍的,我们将输入补丁x和重建补丁x0(表示输入和重建图像)通过OCR模型,并从中间层提取L个特征图。具体来说,我们11.00.00.100.502.231.00.20.070.421.691.00.50.080.461.841.00.80.090.502.031.01.00.080.492.10We use images of size 384 × 384, which we empiri-cally set to maximize resolution and GPU memory. Im-ages are resized to the smallest size between H and W,and randomly cropped. The baseline VQGAN architecturehas 112M parameters, a codebook of size 16, 384 with em-beddings vectors of size 256, and it is pre-trained on Ima-genet (VQGANImagenet). VQGAN encodes images with adownsampling factor of 16, resulting in grids of 24 × 24 (or36940图3.OCR-VQGAN中的OCR感知损失计算。在中间层提取OCR特征图,并根据方程4.2计算OCR损失。0方法样本/秒维度Z参数。0VQVAE 9.69 8192 97M VQGAN 8.17 1683492M OCR-VQGAN 6.35 16834 112M0表3.使用Paper2Fig100k测试集的测试时间结果。测试对样本进行前向传递,并仅使用1个V100 GPU计算LPIPS和OCR感知相似度。0在每个上采样层之后存储激活图。然后在通道维度上进行归一化,表示为ˆyhw,ˆy0hw∈RHl×Wl×Cl,其中l表示每个层。OCR感知损失表示为0Locr = �0l0HlWl0h,w ||ˆylhw−ˆyl0hw||22. (2)0我们不使用具有权重wl的网络F来缩放特征图(在LPIPS[18]中提出),而是在空间维度上进行简单的平均,并在通道维度上进行求和(wl = 1 �l)。OCR感知损失添加到方程4.1中的损失函数中,从而定义了OCR-VQGAN损失。04.3. 评估指标0我们使用基于图像重建的度量标准,可以衡量输入图像和重建图像在高级语义方面的相似性。为此,特征空间中的距离更加合适。FID [33,34]是一个与生成图像与原始图像多样性相关的重建度量标准。LPIPS[18]是一个学习的感知相似度度量标准。这两个度量标准都是根据自然图像进行外观测量的,因为它们使用在ImageNet任务上预训练的特征。然而,这些度量标准对于文本生成质量不敏感,在图表中起着重要作用。我们引入了第三个度量标准,OCR相似度(OCR-SIM),用于量化图像之间的相似性。0方法LPIPS ↓ OCR-SIM ↓ FID ↓0Paper2Fig100k0VQVAE DALLE 0.10 0.87 9.91 VQGAN Imagenet0.12 1.04 6.68 VQGAN Paper2Fig100k 0.15 1.184.37 OCR-VQGAN 0.07 0.42 1.690ICDAR130VQVAE DALLE 0.23 1.17 71.84 VQGAN Imagenet0.22 1.61 37.06 VQGAN Paper2Fig100k 0.29 1.97133.97 OCR-VQGAN 0.36 1.26 84.770表4.重建任务中方法的定量比较。表的第一部分对应于在Paper2Fig100k测试集上的方法评估,第二部分对应于在完整的ICDAR13上的测试结果。0wocr wvgg LPIPS ↓ OCR-SIM ↓ FID ↓0表5.使用OCR-VQGAN在Paper2Fig100k测试集上的结果。我们比较了不同的VGG感知损失(wvgg)和OCR感知损失(wocr)的加权设置。0包括文本。该度量指标的计算方式如公式4.2所示,它更适合评估所提出的方法,其中生成的文本质量很重要。05. 实验结果0在本节中,我们进行实验来评估所提出方法在图形重建任务中的性能。我们的目标是获得最佳的配置,并使用重建度量指标比较OCR-VQGAN与流行的图像编码器。05.1. 训练设置36950Ground truth VQVAE DALLE VQGAN Imagenet VQGAN Paper2Fig100k OCR-VQGAN0在Paper2Fig100k上进行评估0在ICDAR13上进行评估0表6.不同图像编码器在重建任务上的定性结果。OCR-VQGAN在基于图形的图像(Paper2Fig100k)中在文本和图表的清晰度方面优于其他方法。对于ICDAR13数据集(在训练中未见过),结果显示VQVAE与OCR-VQGAN给出了类似的结果。可以看出,OCR-VQGAN突出了文本区域,并为自然图像添加了“图形风格”。36960序列长度为576个标记。我们还使用了DALLE[10]的预训练VQ-VAE模型,该模型由大小为8192的码本组成。对于模型的训练,我们使用了4个V100GPU进行数据并行,总有效批量大小为16,训练20个epochs。我们进行了一个初始的预热阶段,不使用鉴别器,经验上发现这对于更好的重构是有益的[9]。我们使用学习率为4.5×10^-4的Adam优化器。05.2. 训练数据集0我们使用两个包含文本的图像数据集来训练OCR-VQGAN。Paper2Fig100k在第3节中介绍,包含81,194个训练样本和21,259个带有渲染文本的图表图像的测试样本。ICDAR13[35]是在ICDAR2013鲁棒阅读竞赛期间提出的,专注于场景文本检测任务。该数据集由包含英文文本的高分辨率自然图像组成,用于测试文本显示在自然场景中的方法。该数据集包含229个训练样本和233个测试样本,但我们将所有462个样本都作为测试集,因为我们只将该数据集用于评估。05.3. 补充感知损失0我们对OCR-VQGAN进行了超参数搜索,尝试了不同的LPIPS和OCR感知损失的加权配置。具体而言,我们使用权重wocr和wvgg来缩放这两个损失。表4中的结果表明,处理图形和图表时,wocr比wvgg更重要。当wvgg的权重较小(在0.2到0.5之间)时,性能最佳。这是因为一些图形中存在着带有自然图像的小区域。在这些区域中,LPIPS特征被更多地激活,损失得到改善。0OCR模型开销。表3报告了将OCR模型添加到VQGAN中的性能开销,包括网络参数和测试时间。我们还展示了定义潜空间Z的参数。测试时间是在评估Paper2Fig100k测试数据集时测量的。我们还评估了DALLE[10]的VQVAE模型的测试速度,该模型使用较小的离散潜空间。这个结果显示了测试时间的可接受增加,考虑到参数增加(20M)和质量性能的提升。05.4. 图像标记器的评估0我们分析了模型在基于图表的重建任务(Paper2Fig100k)和基于自然文本的重建任务(ICDAR13)上的性能(表5和表6)。所提出的OCR-VQGAN模型在定量和定性上都优于其他方法,能够显示几乎所有图表的细节。其中一个限制是文本0只有当图像足够大时,才能恢复图像的细节。这可以通过使用更高分辨率或放大模型来解决。我们发现,垂直文本的重建也具有挑战性,而且不常见的背景颜色也很难重建。IDCAR13数据集上的结果显示了可接受的LPIPS和OCR-SIM,尽管模型没有在该数据集上进行训练。VQVAE和VQGAN的FID得分更好,因为它们是使用自然图像进行训练的。VQVAE显示了大部分自然文本,但在小文本尺寸上失败。OCR-VQGAN在经过细调的图表上重建了吸引人的自然图像并显示了文本。它还通过平滑纹理和突出显示渲染的文本来重建具有自己的“图表风格”的图像。正如预期的那样,它的主要局限性在于当文本出现小尺寸、方向和不常见的颜色和背景组合时会失败(请参见表5中的“警告”示例)。06. 结论0我们专注于生成带有清晰文本的图表。我们提出了OCR-VQGAN作为图像编码器和解码器,以改进图像内文本的生成。我们添加了OCR感知相似性损失项作为对VQGAN架构默认VGGLPIPS的补充。此外,我们提出了Paper2Fig100k,这是研究论文和图表领域的第一个文本到图像数据集。我们进行了几个实验,证明了OCR感知损失对于生成清晰文本和图表形状的益处。结果表明,对于VGG项来说,较小的权重也是有益的。我们希望我们的工作能够成为通向文本到图表生成的第一块垫脚石。07. 伦理和社会影响0在这项工作中,我们专注于生成论文图表,并讨论了这个应用在生成易于理解的图表时对研究人员的有用性,以及在创建吸引人和有效的幻灯片演示时对广大受众的潜在帮助。然而,这个系统的一个核心问题是它可能被用于生成虚假的论文并绕过剽窃检测系统。可以采取一些措施来解决这个伦理问题,比如构建允许检测虚假或剽窃内容的分类器。可以进行实验,利用文本到图像模型学到的知识来训练一个鉴别器。在Parti论文[4]中,作者提出了在生成的图像中使用水印,以便轻松检测到AI生成的样本。此外,可以利用所提出的数据集来训练研究出版物的剽窃检测系统。需要进一步研究来阐明这些系统应如何公开,以使其行为符合伦理标准。36970参考文献0[1] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. 分析和改进StyleGAN的图像质量.arXiv , abs/1912.04958, 2019.0[2] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu,and Mark Chen. 具有Clip潜变量的分层文本条件图像生成. arXiv, abs/2204.06125, 2022.0[3] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li,Jay Whang, Emily Denton, Seyed Kamyar SeyedGhasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, RaphaGontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, andMohammad Norouzi.具有深度语言理解的逼真文本到图像扩散模型. arXiv ,abs/2205.11487, 2022.0[4] Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong,Gun- jan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku,Yin- fei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han,Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, andYonghui Wu. 扩展内容丰富的文本到图像生成的自回归模型.arXiv , abs/2206.10789, 2022.0[5] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng,Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao,Hongxia Yang, and Jie Tang. Cogview:通过变压器掌握文本到图像生成. arXiv , abs/2105.13290, 2021.0[6] Robin Rombach, Andreas Blattmann, Dominik Lorenz,Patrick Esser, and Bj¨orn Ommer.使用潜在扩散模型进行高分辨率图像合成. arXiv ,abs/2112.10752, 2021.0[7] Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin,Devi Parikh, and Yaniv Taigman. Make-a-scene:基于场景的文本到图像生成与人类先验知识, 2022. 链接https://arxiv.org/abs/2203.13131 .0[8] Aditi Roy, Ioannis Akrotirianakis, Amar V. Kannan, DmitriyFradkin, Arquimedes Canedo, Kaushik Koneripalli, andTugba Kulahcioglu. Diag2graph:将研究论文中的深度学习图表表示为知识图谱. In In- ternationalConference on Image Processing (ICIP) , 2020.0[9] Patrick Esser, Robin Rombach, and Bj¨orn Ommer.驯服高分辨率图像合成的变压器. arXiv , abs/2012.09841, 2020.0[10] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray,Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever.零样本文本到图像生成. arXiv , abs/2102.12092, 2021.0[11] Boris Dayma, Suraj Patil, Pedro Cuenca, Khalid Saifullah,Tanishq Abraham, Ph´uc Le Khac, Luke Melas, and RitobrataGhosh. Dall∙e mini, 7 2021. 链接 https://github.com/borisdayma/dalle-mini .0[12] Ashish Vaswani, Noam Shazeer, Niki Parmar, JakobUszko- reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, andIllia Polosukhin. 注意力机制就是你所需要的. arXiv ,abs/1706.03762, 2017.0[13] A¨aron van den Oord, Oriol Vinyals, and KorayKavukcuoglu. 神经离散表示学习. arXiv , abs/1711.00937, 2017.0[14] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Mah-eswaranathan, and Surya Ganguli.使用非平衡热力学进行深度无监督学习. arXiv , abs/1503.03585,2015.0[15] Alec Radford, Jong Wook Kim, Chris Hallacy, AdityaRamesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry,Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger,and Ilya Sutskever. 从自然语言监督中学习可迁移的视觉模型.arXiv , abs/2103.00020, 2021.0[16] Colin Raffel, Noam Shazeer, Adam Roberts, KatherineLee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, andPeter J. Liu.探索使用统一的文本到文本变压器进行迁移学习的极限. arXiv ,abs/1910.10683, 2019.0[17] Ali Razavi, Aaron Van den Oord, and Oriol Vinyals.使用vq-vae-2生成多样化的高保真图像. NeurIPS , 32, 2019.0[18] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shecht-man, and Oliver Wang. 深度特征作为感知度量的不合理有效性.arXiv , abs/1801.03924, 2018.0[19] Tero Karras, Samuli Laine, and Timo Aila.生成对抗网络的基于风格的生成器架构. arXiv , abs/1812.04948,2018.0[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. In ECCV , pages694–711. Springer, 2016.0[21] Anders Boesen Lindbo Larsen, Søren Kaae Sønderby,Hugo Larochelle, and Ole Winther.使用学习的相似度度量进行像素以外的自动编码, 2015. 链接https:// arxiv.org/abs/1512.09300 .0[22] Karen Simonyan and Andrew Zisserman.非常深的卷积神经网络用于大规模图像识别, 2014.0[23] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause,San- jeev Satheesh, Sean Ma, Zhiheng Huang, AndrejKarpathy, Aditya Khosla, Michael Bernstein, Alexander C.Berg, and Li Fei-Fei. ImageNet大规模视觉识别挑战赛.International Journal of Computer Vision (IJCV) , 115(3):211–252, 2015. doi: 10.1007/s11263-015-0816-y.0[24] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun,and Hwalsuk Lee. 用于文本检测的字符区域感知. arXiv ,abs/1904.01941, 2019.[30] Patrice Lopez and Luca Foppiano.Grobid.https://github.com/kermitt2/grobid, 2008–2022.[33] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, G¨unter Klambauer, and Sepp Hochreiter.Gans trained by a two time-scale update rule converge to anash equilibrium. ArXiv, abs/1706.08500, 2017.[35] Dimos
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功