基于Transformer的图像协调与修复模型

147 浏览量更新于2023-10-14 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14870基于Transformer的中国海洋大学水下视觉实验室（http://ouc.ai2中国海洋大学三亚海洋研究所3中国海洋大学计算机科学与技术学院摘要图像协调是一项重要而又具有挑战性的任务，其目的是使合成通过将来自一个图像的前景与来自另一图像的背景组合而合成的合成物不可避免地遭受由不同成像条件引起的不和谐外观的问题，即，灯.当前的解决方案主要采用具有卷积神经网络（CNN）的编码器-解码器架构来捕获合成图像的上下文，试图理解它在前景附近的周围背景中看起来像什么在这项工作中，我们试图解决图像协调与Trans- former，利用其强大的能力建模的远程上下文依赖关系，调整前景光，使其与背景光兼容，同时保持结构和语义不变。我们提出了我们的和谐Transformer框架的设计与-出，并与解开，以及全面我们的方法实现了国家的最先进的性能，图像协调和图像修复/增强，表明其优越性。我们的代码和模型可在https://github.com/zhenglab/HarmonyTransformer 上获得。1. 介绍将不同照片的区域组合成真实的合成物是许多视觉和图形应用中的基本问题，例如图像合成、马赛克、编辑和场景完成[33]。然而，通过将来自一幅图像的前景与来自另一幅图像的背景组合而合成的合成物不可避免地遭受由不同的成像对比度引起的前景与背景之间的不和谐外观的问题* 通讯作者：郑海勇（zhenghaiyong@ouc.edu.cn）。本工作得到了国家自然科学基金项目的资助。61771440和41776113。图1.我们创建了两个关于飞的猪（顶部）和聚会上的老虎（底部）的合成图像，还显示了最先进的DoveNet [9]和我们的方法之间的协调性比较。版本（例如，白天和夜晚，晴天和阴天，室外和室内）。因此，使复合材料看起来更真实，即图像协调，是一项重要且具有挑战性的任务[33，35，10，9]。图像协调的目的是调整前景，使其在外观上与背景兼容。本质上，自然图像的外观取决于场景中的各种因素，例如照明，材料和形状[41，1]。对于合成图像，前景和背景被认为在语义上是和谐的，尽管有时这可能是不切实际或不合理的（例如，图1中聚会上飞猪和老虎）。因此，合成图像的不和谐主要是由在成像时前景和背景之间的不同场景中的不同光引起的，例如，在自然光下在野外捕获的老虎作为前景，而在人工照明下在大厅中捕获的一群人作为背景，由于对象由于其与光相互作用的方式而呈现有色，从而产生不和谐的颜色外观。因此，调整前景色使其与背景色兼容，同时保持结构和语义不变，对于协调合成图像至关传统的协调方法集中在更好的匹配技术上，以通过转移手工制作的统计数据（如颜色和纹理）来确保前景和背景之间的一致外观[39，33]。最近，已经开发了深度协调模型和大规模数据集来解决这一具有挑战性的任务[35，1487110，9]，实现了受益于深度模型和大数据的更好性能。当前的深度模型主要采用编码器-解码器CNN架构，其采用编码器来捕获合成图像的上下文，并且采用解码器来重建协调图像，试图理解其在前景区域附近的周围背景区域中看起来像什么。实际上，编码器-解码器CNN通过两阶段过程来处理图像失真：协调前后背景，重建协调后的图像。第一阶段主要是调整前地颜色和背景颜色，使它们相互兼容;第二阶段主要是恢复原结构和语义。然而，由于CNN固有地具有局部性的归纳偏差，因此浅CNN只能捕获前景附近的周围背景的上下文，并且在没有全局背景上下文的情况下，可能不足以更好地调整以使前景和背景的颜色一致。此外，先前的方法采用具有连续收缩的U-Net [32]，其具有捕获全局上下文的能力，但是作为副作用，通过从编码器到解码器的跳过连接，不协调可能再次被引入到重建中。最近，Transformer [36]作为一种新型的神经网络赢得了声誉，由于自注意设计，它可以捕获长距离上下文依赖关系。与RNN和LSTM不同，Transformer首先被应用于自然语言处理（NLP）任务，在那里它实现了显著的改进[36，12，4]。如今，Transformer也通过应用于计算机视觉（CV）任务，如对象检测[5，43]，图像识别[14]和图像处理[6]，证明了它是CNN的可行替代品。因此，在这项工作中，我们试图解决图像和谐与Transformer，利用其强大的建模能力，远程上下文，以满足和谐的要求，在捕捉全球背景。受观察到调节光线在协调图像中起着关键作用的启发[16]，我们向前迈进了一步。基于固有图像[2]和Retinex理论[26，25]，假设理想朗伯曲面，图像中表示的光强度值实际上编码了相应场景点的所有特征，因此，为了调整合成图像的光，直观地分离材料相关反射率以用于具有解纠缠背景的光相关照明重新渲染更好的协调。因此，在我们的工作中，我们进一步设计通过从背景中捕获“光”来协调合成我们的贡献包括：（1）设计并构建了无解缠表示和有解缠表示的第一协调Transformer框架;（2）从输入、输出和输出三个方面对协调Transformer进行了探讨和分析，编码器/解码器、头和层;（3）通过综合实验，证明了变换器和解缠器的有效性，在图像融合方面取得了比以往方法更好的效果;（4）我们在两个额外视觉任务中说明了我们的框架的实用性，图像修复和图像增强，两者都产生非常有竞争力的结果。2. 相关工作2.1. 图像协调图像协调的早期贡献集中在使用颜色空间中的低级图像表示来调整前景到背景外观，包括颜色分布匹配[30，31，8]、多尺度统计[33]和基于梯度的方法[20，29，34]。进一步的研究致力于评估和改善图像的真实性[24，38]，其中Zhu等人。[42]拟合CNN模型，该模型将自然照片与自动生成的合成图像区分开来，并通过优化预测的视觉真实感得分来调整合成图像的颜色最近，CNN模型已经被开发用于端-到终端的图像协调。Tsai等人[35]利用具有跳过连接的编码器-解码器结构来捕获用于协调的复合图像的上下文和语义信息。Cun等人[10]还配备了一个编码器-解码器U-Net主干，配备了一个额外的空间分离注意力模块，以学习低级别特征中的区域外观变化。Cong等人[9]采用了具有全局鉴别器和域验证鉴别器的注意力增强的U-Net生成器来将前景域变换为背景域。与现有的图像协调方法不同，本文致力于用Transformer来解决2.2. 视觉TransformerTransformer [36]首先应用于NLP任务[12，4]，是一种主要基于自注意机制的新型神经网络。由于其强大的表示能力，研究人员最近正在寻找将反式生成器用于CV任务的方法[17，21]。Chen等人[7]训练了一个序列Transformer（iGPT）来自动回归预测像素，在图像分类方面取得了与CNN相当的结果。Dosovitskiy等人[14]将纯Trans-former直接应用于图像块序列（ViT），与最先进的CNN相比，获得了优异的结果Carion等人[5]通过将对象检测任务视为直观的集合预测问题，重新设计了Transformer对象检测（DETR）的框架，为对象检测开辟了一条新途径 [43 ， 11] 。此外，Transformer已被用于解决各种其他CV问题，包括图像处理[6]，姿态估计[18]，视频修复[40]。我们的工作也有助于14872··∈·∈H~HCMERTRE研发C串联R重塑E位置嵌入令牌嵌入+E研究的视觉Transformer，深入到变压器的图像协调和超越。3. 方法本文试图利用Transformer实现图像的和谐化，因此，我们首先分析了如何将Transformer应用于视觉，然后提出了我们的和谐化Transformer和解缠的和谐化Transformer。3.1. Transformer for Vision图像输入。Transformer旨在处理序列数据，如自然语言，用于翻译等任务因此，要使用Transformer进行视觉，我们需要将2D图像公式化为1D序列，其中标记（NLP中的单词）及其嵌入作为输入。实际上，我们可以将图像标记为补丁作为标记，以避免使用像素作为标记的非常长的序列。在这项工作中，我们初步分析了不同的令牌数以及不同的嵌入类型对Transformer在图像协调中的性能的影响对于令牌数，我们考虑使用不同的步长进行调整，同时将图像分割成补丁。对于嵌入类型，我们考虑采用线性（FC或CONV）和非线性（具有非线性激活函数的MLP或CNN）投影。我们根据经验发现，协调Transformer可能对令牌数敏感，而对嵌入类型不敏感我们在图2中说明了图像输入模式。Transformer编码器/解码器。Transformer主体包含用于捕获关系的编码器TRE（）和用于产生针对任务的输出的解码器TRD（）。 TRE由相同层的堆叠组成，其中每一层具有多头自注意子层和前馈网络子层。TRD还由相同层的堆叠组成，其中除了每个编码器层中的两个子层之外，每个层还具有执行多个编码器-解码器注意子层的第三编码器-解码器注意子层。图2.使用Transformer进行视觉的图像输入模式图3.我们的协调Transformer（HT）框架包含卷积编码器-解码器（E-D），其内部涉及变换器编码器（TRE）。3.2. 谐波Transformer为了消除由前景和背景之间的不同光引起的颜色不和谐，我们首先设计一个简单的基本协调Transformer框架，在非常基本的卷积编码器-解码器架构中采用Transformer，如图3所示。CNN编码器E和解码器D分别负责将输入图像压缩为作为Transformer输入的紧凑特征表示，并将变换器输出重建回协调图像。以这种方式，我们实际上在基本编码器-解码器架构下利用CNN 嵌入用于Trans-former。注意，对于输入图像的许多信息不变的协调任务，TRE和TRD可以被认为在依赖于自我注意的协调中扮演类似的角色，因此我们在我们的框架中仅使用TRE例如，在合成图像H和指示不协调区域的背景掩模M作为输入的情况下，我们的目标是产生协调图像H（asout）。注意编码器堆栈的输出。我们可以看到put，其中H期望与真实图像H一样接近TRE采用自注意来探索其输入的自关系，而TRD执行交叉注意来发现其输入和编码器输出之间的交叉关系。因此，在本发明中，越好.具体来说，CNN编码器E（）生成一个低分辨率的特征映射FRh×w×c，其中我们使用h=H，w=W，c=256。然后我们将F重新整形为四四对于图像输入，TRE旨在输出对输入标记（图像块）之间的依赖性进行编码的自注意映射，而TRD致力于产生从源域（TRE输入）到目标域（TRD输入/输出）的映射。在这项工作中，我们研究了TRE和TRD对图像协调任务的功效，以及不同头部和层的效果分析，见第4.3节。序列F′Rhw×c，具有像素（对应于im-年龄块）作为TRE输入令牌并且每个像素的信道聚合作为令牌嵌入，还使用vanilla Transformer的正弦版本添加固定位置嵌入E[36]。进一步地，我们将TRE的输出序列逆整形回具有与以下相同大小的特征图：F，并将其馈送到CNN解码器D（·）中以获得协调的TRTRF展平R整形 E位置嵌入代币嵌入E+E+FFCMLPR美国有线电视新14873ⓈⓈpP2∈·'···p∈LH=D φⓈTRE φ（E（H，M））+E将可学习的光位置作为其输入，以产生背景光代码，最后我们通过采用TRDI将该光施加在TRE R的输出伪反射率上，产生伪照明ΦI。最终可以通过H=R获得协调图像H I（是逐元素乘积）。通常，我们首先分裂背景H~bg∈RH×W×C（信道号C=3）插入到补丁序列H~bg中∈图4.我们的解纠缠协调Transformer（D-HT）的框架是一个双通道架构分离的复合图像伪反射和伪照明本征图像。更多详情请参见第3.3结果H我们将整个过程公式化为：RT ×（P2·C）（补丁数T = HW，补丁大小P = 8），然后对每个补丁进行平坦化（token），并通过线性投影LP（）将其扩展到C′=256维作为其嵌入。我们还将固定位置嵌入Ep添加到令牌嵌入并将它们馈送到TREL（）中。并且我们进一步使用TRD L（）来接收TRE L（）输出和光令牌tlRdl×C（我们设置dl=27，参考图1的27维球谐系数。照明），其中学习的光位置嵌入E1如在′.Σ~Σ放置，产生背景光代码lbg∈Rdl×C’作为输出-其中φ和φ’分别表示整形操作和逆整形操作同样值得注意的是，我们仅使用单个L1损失来鼓励H≈H：空格和表示相应Transformer的输入的光标记。该过程可以表示为：lbg=TRDLΣT REL。LP（H~bg）+EpΣ，tl+ElΣ。（三）L1=E（H，H）ΣH−H1Σ.（二）此外，我们使用TRDI（·）接收背景光令牌tl∈Rdl×C'（lbg）和对-3.3. 解缠式谐波Transformer根据固有图像[2]和Retinex理论[26，25]，用于更好地协调合成图像的另一个想法是分离光依赖性照明和材料依赖性反射[16]。因此，我们然后设计了一个双路径框架的图像协调，通过分离的合成图像为伪反射和伪照明的本征图像1，并致力于解开从背景光，并把它的反射协调。特别是，我们在这两种途径中使用Transformer，以利用其长期依赖性学习的优势，以实现更好的协调。我们在图4中示出了我们的解纠缠谐波Transformer的框架。伪反射率路径（顶部）类似于协调变换器的结构（第3.2节），因为输出伪反射率R也可以被视为图像到图像的变换。第虽然伪照明路径（底部）是完全不同的，其中我们打算将背景图像空间映射到光潜在空间，并且我们选择FC嵌入在输入掩蔽的合成图像的块上而不重叠，以获取具有嵌入和位置嵌入的令牌作为TREL输入，然后我们利用连接到TREL的具有初始零光代码的TRDL和具有初始零光代码的TRD L。1我们添加kenstrRhw×cfromTRER with their corresponding po位置嵌入E1和Er作为输入，以产生将由D1（·）整形和解码的伪照明令牌，从而产生协调的伪照明I=DIΣφ′.T RDI（tl+El，tr+Er）ΣΣ。（四）协调的伪反射率R®可以通过等式1获得。因此，最终的协调图像将是H=R ˆI. 所使用的唯一损耗也是单个1损耗（等式2）。总的来说，我们设计采用Transformer的两个编码器和两个解码器，其中TRER接收补丁CNN嵌入并产生伪反射，而TREL接收补丁FC嵌入并产生用于TRDL的输出以捕获背景光，而TRDI从TRER接收背景光和伪反射令牌以产生伪照明，并且最后我们组合伪反射和伪照明以产生协调。希望我们的工作能为更好地利用视觉Transformer提供有意义的参考。4. 图像协调4.1. 数据集和指标合成的 iHarmony4 数据集。我们在公共合成iHarmony4数据集[9]上进行实验，以分析和评估图像上的协调变压器H~bgpH~M+ErRERRT RERRDRLP+Ep+El+ErHTRELTRDLT RDIRDI+Ep+ElLP线性投影R整形E位置嵌入ˆI代币嵌入、（1）放。请注意，我们使用光代码来表示潜在14874数据集度量复合E-D（U-Net）美国有线电视新闻网（CNN）DIH [35]第二天上午[10]DoveNet [9]我们的（HT）我们的（D-HC）我们的（D-HT）HCOCOPSNR↑fPSNR↑MSE↓fMSE↓三十三岁。9919号。8669岁。37九九六59三十四9421岁6641岁5468433三十五5821岁73四十9262733三十三岁。5920块67五十六17七九八99三十五09二十二岁45三十五65542号06三十五83二十二岁48三十四2655101三十七87二十四岁2420块99377 11三十六8523岁1129岁8446868三十八岁。七十六二十五二十七个十六岁八九299. 三十个Hadobe5kPSNR↑fPSNR↑MSE↓fMSE↓28岁52十七岁52345542051年61三十三岁。7223岁52七十二0950853三十四58二十四岁0466岁。46四百三十五16三十二36二十二岁3694 89593. 03三十四23二十四岁28五十三9340462三十五13二十五19五十六86三百八十39三十六10二十五80四十七96321 14三十五08二十四岁67六十四35三百九十57三十六八十八二十六岁七十八三十八岁。五十三个265十一个HFlickrPSNR↑fPSNR↑MSE↓fMSE↓28岁43十八岁09264. 351574年37三十1120块16一百三十五169451429岁9819号。76一百五十六62一千零二2329岁0819号。31168. 35109913三十5320块89一百二十三36七百八十五65三十7520块76一百二十五85八二七03三十二37二十二岁2588岁41617 2631岁3021岁1110960七三三46三十三岁。十三个23岁0674岁五十一个515四十五个Hday2nightPSNR↑fPSNR↑MSE↓fMSE↓三十四3619号。1410965140998三十四1719号。8662. 601114 96三十四5019号。64九十五791321号89三十三岁。5919号。7486岁。251129 40三十四4820块51五十四39九八九07三十四8720块63五十七171075 71三十六3821岁68五十八1482368三十六5421岁8652岁6471604三十七十个二十二岁515301704四十二所有PSNR↑fPSNR↑MSE↓fMSE↓31岁78十八岁97一百七十二47137642三十四03二十二岁0061岁30六六九94三十四64二十二岁1562. 2962567三十二7320块99八十5577841三十四32二十二岁7751岁13五三七23三十五0423岁0451岁51541号53三十六71二十四岁43三十七07三百九十五66三十五7123岁32四十九24四百七十九94三十七五十五二十五四十一三十三十个三百二十七十八注意：我们训练DIH和S2AM，但使用预训练的DoveNet来获得比较结果。表1. iHarmony4的四个子数据集之间的定量比较[9]。↑表示越高越好，↓表示越低越好。大胆意味着最好的，大胆意味着次好的。E-D表示编码器-解码器，HT表示我们的协调Transformer，而D-HC和D-HT分别表示我们与CNN和Transformer的分离协调框架协调。iHarmony4 由4个子数据集组成： HCOCO、Hadobe5k、HFlickr和Hday2night，其中的每一个包括合成的合成图像、合成图像的前景掩模和对应的真实图像。我们遵循与DoveNet [9]相同的数据集设置真实合成图像。继[35，10，9]之后，我们还在[35]用于主观评价的99个真实合成图像上评估了我们的方法客观评价指标。在[35，9]之后，我们使用均方误差（MSE）和峰值信噪比（PSNR）作为评估指标。然而，对于图像协调任务，由于未改变的背景[9]，仅计算前景区域中的差异更合适且更准确，因此我们还报告了前景MSE（fMSE）和前景PSNR（fPSNR）作为更好的度量，测量前景的协调程度。值得注意的是，我们计算fMSE和相应的fPSNR在每一个单一的图像，然后取平均值的数据集，使他们可以被视为一个更好的指标，在评价协调的泛化然而，我们认为MSE和PSNR本质上是测量数据集上所有像素的平均误差，因此不太适合像在像素（背景）数量不变的情况下进行谐波化这样的任14875L×个务。在我们的实验中，我们使用fMSE作为主要度量。主观评价指标。我们邀请了60名受试者参与用户研究，并为所有99张图像获取了总共29700个成对结果，平均每对不同方法有30个结果。所有受试者都没有意识到图像协调任务，只需要选择与更好方法相对于每对，然后我们记录在所有99个图像上每对中选择一种方法的次数，作为Bradley-Terry（B-T）模型[3，23]的成对比较的统计数据，以计算每种方法的全局排名得分。4.2. 实现细节我们只使用单个1损失来训练所有模型，使用Adam优化器[22]，参数为β1=0。5，β2=0。999，总共60个时期。初始学习率为设为e-4，40个历元后衰减为e-5最终对于第3.2节中的协调图像H、第3.3节中的伪本征图像R和，作用函数为tanh。我们将输入图像的大小调整为256 256，用于训练和测试，我们的模型生成具有相同大小的协调图像。特别地，输出伪反射率和伪照明被归一化为[0，1]以在H上重建。我们所有模型结构和细节在补充文件中。4.3. 谐波Transformer基线和比较。为了比较，我们首先构建编码器-解码器U-Net（E-D U-Net）和基本编码器-解码器CNN（具有编码器-ResBlocks-解码器结构的E-D CNN）作为基线。表1显示了iHarmony4的四个子数据集之间的图像协调的定量比较，将我们的协调Transformer（具有2头和9层TRE的HT，图3）与基线和最先进的方法进行了比较：[25][26][27][28][29] 此外，我们还提供了评估结果的合成图像作为参考。可以看出，与E-D U-Net相比，E-D CNN在HCOCO和HADobe 5 K上表现更好，而在HCOCO和HADobe 5K上表现更差。14876⇒⇒图5.iHarmony4 [9]的四个子数据集的定性比较（每个数据集一个示例从上到下：HCOCO、Hadobe5k、HFlickr和Hday2night。合成图像中的红框标记前景。HFlickr和Hday 2night，其原因可能是U-Net具有全局感受野，可以捕捉全局上下文，但其跳跃连接可能会带来重构的不协调，而CNN由于其局部性的归纳偏差，总之，CNN比U-Net更好地工作但是我们的简单HT模型不仅优于基线，而且优于最先进的技术，表明Trans-former在协调上建模长期背景的功效。MSE与fMSE。值得一提的是，我们的HT模型在fMSE上优于S2AM，但在Hday2night的MSE上低于S2AM，这主要是因为MSE在数据集级别评估协调性能，而fMSE反映的是图像级别的协调能力，这更有价值和普遍性，例如，一种方法可以获得更低的MSE，但更高的fMSE，因为它协调了一些具有大前景的图像，而不是具有大前景的图像。monizes一些图像与小前景非常差，表现出不稳定的性能。Transformer输入。然后，我们基于图2所示的结构进行消融研究以调查令牌数量和嵌入类型对Transformer性能的影响，其中我们使用1头和3层TRE进行TR，然后使用CNN解码器进行重建。我们使用步幅S来调整标记数T。表2显示，随着令牌数（N）的增加，性能不断提高4N16N），用于线性和非线性令牌嵌入。此外，对于固定的令牌数，例如4N，性能是相似的，无论我们选择哪种嵌入类型（线性FC或CONV，或非线性MLP或CNN）。因此，我们可以推测Transformer的性能可能对令牌数敏感，而对嵌入类型不敏感。这是有意义的，如果我们提供具有更多令牌的长序列，即使可能存在冗余（重叠补丁），Transformer可以挖掘更丰富的上下文，并且当前不同的嵌入方法可以为图像补丁提供有效的信息，以便它们可能不重要。14877方法PSNR↑fPSNR↑MSE↓fMSE↓RCNN+I CNN 三十五7123岁32四十九24四百七十九94RTRE+I CNN 三十七17二十四岁9631岁99三百五十二55RCNN+I TR三十七26二十五07三十二22348 80表2.使用由步幅S调整的不同令牌数T和嵌入类型（线性FC/CONV和非线性MLP/CNN）对fMSE↓的定量比较。6×层9×层12×层E（3）+D（3）英（6）E⑶+D ⑹英（9）E⑶+D ⑶英（12）451 80四百五十九47403 7641560四百二十六56四一九08表3.在fMSE↓上使用不同的Transformer编码器（E）和解码器（D）层数的定量比较。3×层6×层9×层12×层1×头部502 37四百五十九47415 60四一九082×头四百七十九53四百五十14三百九十五66四百114×头部四六一22406 99392. 74397 37表4.在HT模型中使用不同Transformer层数和注意头对fMSE↓的定量比较。Transformer编码器/解码器。我们进一步设计实验来验证Transformer编码器和解码器层数对基于HT结构的协调的影响（图3）。表3表明，如果编码器层数等于-尽管解码器具有额外的关注子层，但是解码器和编码器的层号是相同的。因此，在我们的HT模型中，我们只使用编码器TRE。Transformer头和层。最后，我们进行了消融实验，以分析使用不同的Transformer层数和注意力头对HT模型的和谐化的影响（图3）。表4告诉我们，更多的层和更多的头都有助于提高性能，但如果我们使用超过9层，性能提高的空间将受到限制。4.4. 解缠式谐波Transformer对比我们继续讨论我们的解纠缠谐波化框架，在那里我们分别使用CNN（D-HC）和Transformer（具有2头9层TRE和TRD的D-HT，图3）构建两个解纠缠为了验证我们的解纠缠的有效性，我们通过在D-HT模型中用ResBlocks替换TRER，用Encoder替换TREL和TRDL，用AdaIN替换MLP和TRDI[19]来构建D-HC模型。表1显示，与现有技术方法相比，D-HC模型实现了竞争性或优越的结果，表明解缠结确实有助于协调。此外，我们的D-HT模型表现最好，fMSE非常低（320.78 vs.S2 AM的537.23和DoveNet的541.53）。请注意，D-HC在Hday 2night上优于 HT，可能是由于更好的硬件。表5.消融研究我们的解开和谐。图6.在复合图像（顶行）上具有正常掩模（中间行）和倒置掩模（底行）的图像协调视觉结果。红色框标记正常蒙版的前景。解缠结（D-HC）的归一化能力和缺乏感应偏差的Transformer （ HT ）的训练数据不足（仅 311 个图像）。解缠结的分析我们在我们的D-HT模型上进行消融研究，通过用D-HC模型中的（CNN）替换反射（R）和照明（I）的一个路径，得到表5中列出的四个变体，并且结果显示了Transformer在协调方面的强度。此外，我们设计了一个额外的实验，通过反转正常的面具，即交换前景和背景，以产生反转的面具，使我们的D-HT模型试图协调背景根据前地。图6呈现了用于对比度的正常掩模（中间行）和倒置掩模（底部行）的协调结果，表明D-HT可以产生有希望的harr。monized输出从任意前景掩码。光的分析。然后，我们在光潜在空间中行走，看看Transformer是否可以学习相关的光表示。给定一幅图像，利用D-HT模型得到其光潜码，然后任意改变其光潜码，通过恢复产生结果图7示出了在不同光条件下具有输出的示例，指示我们的设计的功效我们进一步进行实验，采用D-HT模型从源图像到目标图像的光传输。我们通过内插两个源图像的光潜码来改变目标图像的光码，以产生图8中所示的结果，其展示了光潜空间。4.5. 真实合成图像协调我们还评估了D-HT对真实复合图像的谐波化与最先进的。表6和图9表明，我们的方法实现了最佳性能，具有最高的B-T评分和最佳视觉效果。令牌嵌入T=NS=8T≈4NS=4T≈16NS=2FCCONV611号25610 01522 84524号87四百四十七64四百四十六54MLP596 05598 17514 19520 19四百四十76四百四十三9814878方法l1错误。↓PSNR↑SSIM↑[27]第二十七话0的情况。02828岁420的情况。8920我们的（HT）0的情况。02129岁550的情况。9047图7.改变光潜码的图像（左）从转换器产生不同的结果，在不同的照明条件。图8.改变目标图像的光潜码（Lt）会产生不同的结果，通过插值两个源图像（ Ls1 和 Ls2 ）的光潜码，其中 Lt =αLs1+（1-α）Ls2。方法复合DIH [35] 第二天上午[10]DoveNet [9]第一章我们B-T评分↑0的情况。6230的情况。8310的情况。8741 .一、032二、248表6.99幅真实合成图像的用户研究比较图9.视觉比较以协调真实的合成图像。5. 超越图像协调5.1. 图像修复我们将HT模型应用于Paris StreetView数据集[13]上的自由形式图像修复任务，与最先进的RFR-Net [27]相比图像修复旨在通过合成与现有像素一致的视觉上真实且语义上合理的像素表7和图10展示了我们的HT模型的卓越性能（与RFR-Net具有相同的损失），通过充分发挥Transformer在建模远距离上下文信息和缺失孔之间的长期相关性方面的优势。5.2. 图像增强与最先进的DeepLPF [28]相比，我们还将我们的D-HT模型用于MIT-Adobe-5 K-UPE数据集[37成像时光照不足因此，我们使用D-HT模型通过额外的重建损失将观察到的图像分解为反射率和照明，并简单地将反射率作为最终的增强结果处理，参考[15]。本实验表7.巴黎街景图像修复的定量比较[13]。图10.巴黎街景图像修复的视觉比较[13]。方法PSNR↑SSIM↑LPIPS↓DeepLPF [28]23岁000的情况。7260的情况。050我们二十四岁220的情况。8100的情况。036表8. MIT-Adobe-5 K-UPE上图像增强的定量比较[37]。图11. MIT-Adobe-5 K-UPE上图像增强的视觉比较[37]。在MIT-Adobe-5 K-UPE上重新训练DeepLPF模型以获得用于比较的结果。表8示出了D-HT在PSNR、SSIM和LPIPS方面胜过DeepLPF。图11进一步验证了我们的D-HT模型可以恢复清晰的对比度和自然的颜色以及清晰的细节，这要归功于与Transformer的解纠缠设计。6. 结论在本文中，我们提出了一种新的方法，图像和谐与Transformer，旨在消除不和谐，充分利用变压器我们不仅建立了谐波Transformer和非纠缠谐波变压器的框架，而且设计了综合实验来探索和分析变压器的谐波化。我们将我们的方法应用于图像协调之外的任务，即图像修复和图像增强，进一步说明了我们的设计的优越性。我们希望我们的工作为图像协调和视觉Transformer开辟了新的途径。14879引用[1] Jonathan T Barron和Jitendra Malik。形状、照明和着色的反射率。IEEE TPAMI，37（8）：1670[2] H. G. Barrow和J. M.特南鲍姆从图像中恢复固有场景特征计算机视觉系统，1978年。[3] Ralph Allan Bradley和Milton E Terry。不完全区组设计的秩分析： I. 成对比较的方法。 Biometrika ， 39（3/4）：324[4] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。[6] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。[7] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML，第1691-1703页中。PMLR，2020年。[8] Daniel Cohen-Or ， Olga Sorkine ， Ran Gal ， TommerLeyvand ， andYing-QingXu. 颜色协调。在SIGGRAPH，第624-630页[9] Wenyan Cong，Jianfu Zhang，Li Niu，Liu Liu，ZhixinLing，Weiyuan Li，and Liqing Zhang. DoveNet：通过域验证进行深度图像谐波化。在CVPR，第8394- 8403页[10] 村晓东和潘志文利用空间分离注意模块提高合成图像的协调性IEEE TIP，29：4759[11] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. UP-DETR：使用变压器进行对象检测的无监督预训练。arXiv预印本arXiv：2011.09094，2020。[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL，第4171[13] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei A Efros。是什么让巴黎看起来像巴黎？ACM TOG，31（4）：101，2012。[14] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。[15] 郭晓洁，李宇，凌海滨。LIME：通过照明图估计的低光图像增强。IEEE TIP，26（2）：982[16] Zonghui Guo，Haiyong Zheng，Yufeng Jiang，ZhaoruiGu，and Bing Zheng.内在的形象协调。在CVPR中，第16367-16376页[17] 韩凯，王云鹤，陈汉庭，陈兴浩，郭建元，刘振华，唐业辉，安晓，徐春静，徐义兴，等.视觉Transformer的研究概况。arXiv预印本arXiv：2012.12556，2020。[18] 林煌、谭建超、季柳、袁俊松。手动Transformer：非自回归结构化建模于三维手部位姿估计。在ECCV中，第17-33页。Springer，2020年。[19] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页[20] Jiaya Jia，Jian Sun，Chi-Keung Tang，and Heung-YeungShum.拖放粘贴。ACM TOG，25（3）：631-637，2006.[21] Salman Khan 、 Muzammal Naseer 、 Munawar Hayat 、Syed Waqas Zamir 、 Fahad Shahbaz Khan 和 MubarakShah。视觉中的变形金刚：一个调查。arXiv预印本arXiv：2101.01169，2021。[22] Dieder

下载后可阅读完整内容，剩余1页未读，立即下载