自动照片混合的高效生成方法

170 浏览量更新于2023-10-13 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

学习混合照片Wei-ChihHung1*，Jianmingin g Zhangg2，XiaohuiiSh en3†，Zh eLin2，Joon-Young Lee2，and Ming-Hsuan Yang1， 41UC Merced2 Adobe Research3字节跳动Lab4 Google CloudFig. 1. 混合照片示例。这些结果是由我们提出的系统生成的，以模拟具有差异的“Do uble E x p o s u re”效应彩色电视。抽象。照片混合是通过组合多张照片来创建美观的艺术品的常见技术。不过照片混色的过程通常比较耗时，一定要小心在混合、过滤、定位和掩蔽每个源照片的过程中。为了使照片混合可用于一般公共，我们提出了一种通过深度学习进行自动照片混合的有效方法。具体而言，给定前景图像和背景图像，我们所提出的方法自动生成一组混合照片，其分数指示所提出的质量网络和策略网络的美学质量。实验结果表明，该方法能够高效地生成高质量的混合照片。*此工作是在Ad obe R es e a r ch[2]这篇文章是作者在Adobe Research工作时完成2W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨1介绍照片混合是摄影中的一种常见技术，通过将多张照片叠加在一起来创建美观的艺术品例如，“Dou- b le E x p o r e”是在光学成像中的一种应用效果（参见图1），其可以利用熟练的这种效果被广泛应用于海报、杂志和各种印刷广告中，以产生令人印象深刻的视觉效果并促进故事的讲述。然而，照片混合的过程通常是耗时的，甚至对于专家来说也是如此，并且需要大量的专业知识。为了使这个过程更快，许多图像编辑软件产品，如Photoshop支持使用动作脚本来简化照片混合操作。但是这些脚本是预定义的，并且不考虑如何根据上下文调整照片因此，它们可能无法开箱即用，并且仍然需要相当多的技能和时间来将这些结果转换到用户所在的位置。通过观察混合艺术品，我们确定了两个关键因素，使一个令人满意的双重曝光效果：背景对准和照相测量调整。由于背景照片可以包含不同纹理和颜色的场景元素，因此如何将背景元素与前景对象对齐对于吸引人的混合结果非常重要另一方面，由于混合函数是来自前景和背景的两个像素值的数值函数，因此前景照片的光度调节（包括亮度、对比度和颜色修改）可以影响照片中不同区域的可见度，从而导致视觉上不同的结果。在这项工作中，我们提出了一个全自动的方法来产生吸引人的双重曝光效果，通过联合预测的背景对齐区域和光度调整参数。第一个挑战是如何设计一个评估指标来访问的美学质量的混合结果。虽然许多作品[18，21，30，31，39]已经被提出用于一般的照片质量评估，但我们发现这些方法的结果排名与用户偏好不一致，因为模型是用普通照片训练的此外，这些方法通常训练卷积神经网络（CNN），以直接从现有数据集预测所提供的精细美学评分[34，21，39]。然而，我们发现用户很难在这些艺术品上注释精细级别的分数，例如照片混合。因此，我们在新收集的具有课程级别注释的数据集上训练质量网络我们还建议使用排名损失和二进制交叉熵损失的组合，因为我们发现它提高了训练稳定性。给定所提出的质量网络，第二个任务是在给定的背景照片中找到感兴趣的区域（ROI）和前景照片的一组光度调节参数，根据质量网络生成具有最优评级的混合结果。我们认为这个问题作为一个衍生的自由优化任务，这是受参数搜索范围和时间限制。存在许多用于全局函数优化的基于非学习的搜索方法，例如，网格搜索、随机搜索、模拟退火[20]或粒子群优化[19]。然而在我们的实验中我们发现学习混合照片3这些方法不能在受约束的时间内找到良好的最优值，因为系统必须混合每组所选参数的图像并使其通过质量网络。因此，我们建议使用深度强化学习（DRL）来训练智能体，以搜索背景ROI和前景调整的最佳组合具体来说，我们将质量网络转换为双流策略网络，输出状态质量值和动作值，以使搜索过程高效。为了评估所提出的算法，我们将所提出的方法与现有的搜索算法（例如，粒子群优化[19]和模拟退火[20]，表明所提出的DRL搜索在相同的时间约束下生成具有更高质量值的结果。此外，我们进行用户研究，将我们的方法与其他基线以及人类专家进行比较。实验结果表明，所提质量网络的质量分数与用户偏好一致，所提方法能在几秒钟内有效地生成美观的混合照片。这项工作的贡献如下。首先，据我们所知，这是第一个工作，介绍了自动照片混合的任务。其次，我们提出了一个质量网络训练的排名损失和二进制交叉熵损失使用新收集的数据集进行双重曝光。第三，我们将质量网络转换为使用深度强化学习训练的双流策略网络，在考虑用户偏好、美学质量、图像上下文以及严格的运行时约束的情况下执行自动照片混合。2相关工作基于学习的照片编辑。最近，已经提出了许多基于CNN的图像编辑任务的方法，其结果令人印象深刻，例如图像过滤[29，24，22]，增强[1，14，50，9]，修复[38，51]，合成[38，52]，图像增强[38，53]，图像增强[38，54]，图像增强[38，55]，图像增强[38，56]，图像增强[38，57]，图像增强[38，58[57，45，44，49]，彩色化[15，23，54，56]和图像平移[16，58，3，28，59]。这些方法中的大多数由CNN模型组成，该模型直接将单个输入照片转换为所需的输出。然而，由于对CNN如何变换照片没有特定的约束，因此视觉伪影在某些情况下是不可避免的。因此，所使用的运算符通常仅占用有限的GPU存储器。虽然Gharbi et al. [9]提出使用深度双边学习来处理高分辨率图像，它只适用于可以解释为像素仿射变换的效果。在这项工作中，由于所有的图像处理模块是预定义的，如像素混合，光度调整，或预定义的过滤，混合结果由我们的方法是伪影-免费的，并且没有限制的分辨率，因为大多数图像处理模块与CPU一起操作。风格迁移方法[40，8，6，13，17，25，26，27，32]也与我们的任务有关。在风格转移中，通过匹配深度特征之间的相关性，同时保留内容与更高级别特征上的感知损失，用参考风格图像对输入照片进行风格化。在我们的任务中，内容保存也很重要。而风格转换方法保留了4W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨图二. 自动混合框架概述。我们的方法的输入是两张照片：前景和背景。我们首先训练一个质量网络来评估随机混合照片上的人类偏好注释混合照片的美学质量然后，训练基于深度强化学习的代理以优化用于背景对齐和光度调整的参数使用预测的参数，混合引擎渲染最终混合照片。tent与感知损失[17]，我们发现感知损失值与混合结果不一致，即，当混合结果很好地保存内容物时，损失并不总是低的。美学质量评估。美学质量评价方法的目标是根据一般的美学偏好自动对照片进行排序。这些方法可以应用于图像搜索、专辑策展和作文排名。最近，基于CNN模型提出了许多方法[18，21，30，31，33，39]然而，当我们用混合照片测试这些模型时，我们发现结果排名与用户偏好不一致，因为模型是用普通照片训练的。深度强化学习最近，深度强化学习方法[36，48，46，35]由于在计算机游戏[36]和棋盘游戏[41]中的巨大成功而引起了广泛关注我们从用户注释中学习质量网络的方法与一些现有的奖励学习方法密切相关，例如逆RL [37，7]，模仿学习[12，43]和人在回路RL [5]，其中奖励函数在环境中不显式可用在视觉社区中，已经提出了一些工作来将DRL应用于对象定位[2]，视觉跟踪[53]和对象检测[52]。类似于我们提出的背景对齐方法，这些方法将对象局部化问题建模为移动或缩放ROI的动作序列。我们的工作和这些方法之间的主要区别是，我们不是搜索一个单一的对象，但一个合适的混合位置，考虑前景和背景的情况下，以及主观用户的喜好。学习混合照片53系统概述我们的目标是开发一种方法，自动生成美观的混合结果的基础上给定的前景和背景图像对。图2显示了拟议系统的框架。在我们提出的方法中，基于DRL的代理搜索的最佳参数的背景对齐和光度调整的基础上的输入上下文和选定的为了训练代理，需要评估函数来生成质量度量，即，以告知在优化过程期间当前混合结果有多好。在典型的RL环境中，奖励通常是明确定义的，例如，游戏环境中的分数（赢或输）然而，对于照片混合等艺术品，没有定义良好的评价函数因此，我们建议从用户注释中学习评价具体来说，我们生成的混合结果与随机参数上收集的前景和背景图像。然后，我们邀请参与者根据他们的主观偏好来评估混合结果。基于标签，我们训练一个质量网络作为混合结果的评价函数。一旦我们有了评价函数，我们训练DRL代理在参数空间有效地搜索与建议的政策网络和现有的DRL算法。4质量网我们的目标是学习一个函数，该函数用指示美学质量的数值分数来评估混合照片用户评级越高，表明质量分数越高，反之亦然。我们观察到，大多数人通过与原始前景照片进行比较来评估如果一张混合照片不能很好地保留原始图像上下文，用户通常会将其评为不可接受。然而，如果混合照片保留了上下文，但没有艺术效果，它仍然不会被评为好照片。因此，我们考虑以前景图像为条件的评价函数，并使用CNN模型构建它，该模型将混合照片和前景图像作为输入。我们将所提出的CNN表示为质量网络，因为它表示混合结果的美学质量。4.1网络结构图3示出了所提出的质量网络的结构。网络由两个在ImageNet上预先训练的VGG16网络[42]组成，作为特征提取器，其中权重作为Siamese网络[4]共享我们删除了VGG的最后一个分类器层，并连接了两个基础网络的特征它以前景图像和混合图像作为输入，两者都被缩小到224× 224，并输出单个标量作为混合奖励分数。6W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨图三. 拟议质量网络的网络结构质量网络由两个共享相同参数的VGG16网络组成质量网络将原始前景照片和混合结果作为输入，并输出指示混合结果的美学质量的数字分数。4.2学习目标给定两个混合图像Bi和Bj以及它们的原始前景图像Fi和Fj，我们的目标是训练映射函数S（·）（质量网络），其将（Fi，Bi）和（Fj，Bj）映射到两个数值分数，使得如果根据用户评级Bi比Bj在视觉上更令人愉悦，则S（Fi，Bi）> S（Fi，Bi），（1）反之亦然。为了实现这一点，我们使用排名损失Lr作为质量网络的训练损失函数我们表示Si=S（Fi，Bi），如果Si的用户评级比Sj好，则y= 1，否则y=−1。我们将损失公式化为Lr（Si，Sj）= max{ 0，−y（Si-Sj）+m}，（2）其中m是裕度项。然而，排名损失仅强制执行对于给定照片，好的示例的分数高于一般/坏的示例的属性，但缺乏区分每个输入照片的好的示例的通用阈值如果分数范围与不同的输入集一致，则可以选择分数阈值来过滤掉大多数用户不能接受的混合结果因此，我们建议在预测分数的顶部添加额外的二进制交叉熵损失，以强制执行所有不良示例的分数小于零。二进制交叉熵损失函数可以公式化为Lbce（Si）=−r log（σ（Si））−（1−r）log（1−σ（Si）），（3）其中，如果所述使用的标签是“好的/坏的”，则r=1，并且如果所述使用的标签是“坏的”，则r = 0，并且σ（·）是S形函数。组合排序损失和交叉熵损失，则总体优化目标变为L= Lr+λLbce，其中可以保留排序属性和分数偏移两者。具体实施详见补充资料学习混合照片7前台后台-16.57-2.01 5.38 12.65见图4。使用质量网络计算的质量分数对混合结果进行采样。较高的分数表明混合结果具有更好的美学质量，而较低的分数表明大多数用户不认为结果有吸引力。图4显示了一些示例混合结果，其分数由我们训练的质量网络表示在高分的结果中，背景通常与前景具有良好的对准，并且亮度/对比度适于控制混合的水平。4.3数据集集合为了生成混合图像，我们从互联网上下载了5,000张肖像照片作为前景图像，以及8,000张风景照片作为背景图像。然后，我们将混合引擎应用于具有随机对齐/调整参数的前景和背景图像的随机对。在标记过程中，用户被要求根据他们的偏好给每个混合图像标记一个分数。在我们的实施方式中，偏好得分具有三个等级： “goo d” 、“fair”和“bad”，其中，我们将偏好得分定义为：“goo d”表示不喜欢某个对象，“bad”表示喜欢某个对象， “fair” 表示该对象可接受以供该对象判断以使其更好。然而，我们发现大多数随机生成的混合结果是质量更差，其中原始前景上下文（面部）通常不能被识别，并且对于几乎所有的人都将不被视为“Bad“。为了提高标记效率，我们首先训练一个质量网络，如第2.1节所述。4有来自注释者的5,000个评分，他们只被要求考虑你能多好地识别原始前景内容。然后，我们将质量网络应用于所有生成的混合结果，并过滤掉分数低于设计阈值的结果。结果，我们收集了1，305个图像集的30，000个评分，其中有16个注释者。5深度钢筋搜索给定质量网络，我们寻求预测背景图像上的感兴趣区域（ROI）和可以生成关于质量网络的最高分数我们认为这个问题是一个无导数的优化任务，这是受参数搜索范围和时间限制。存在许多非基于学习的搜索方法8W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨图五. 建议策略网络的网络结构我们扩展了质量网络，增加了背景上下文输入和动作值输出。所设计的结构使智能体能够联合预测质量值以及搜索动作值，降低了参数搜索过程中的时间复杂度全局函数优化，例如，网格搜索、随机搜索、模拟退火[20]或粒子群优化[19]。然而，在我们的实验中，我们发现，这些方法无法找到一个很好的最佳的约束时间内，因为系统必须混合的图像为每组选定的参数，并通过质量网络。为了解决上述问题，我们引入了一个基于DRL的代理预测的行动，有效地搜索参数。给定选定的前景图像、背景图像和混合引擎，代理获取状态值并将它们通过所提出的策略网络以获得动作值。然后，代理执行具有最高动作值的动作，并获得暗示混合质量变化的立即奖励。智能体的目标是学习一种策略，以最大化预期的累积未来奖励。在我们的任务中，它相当于最大化质量网络输出的最终混合结果的得分。5.1搜索空间和操作我们为DRL代理定义了总共十个动作，其中六个动作用于移动当前ROI以进行对齐：（右、左、上、下、更大、更小），并且其他四个动作用于前景光度调节：（亮度+、亮度-、对比度+、对比度-）。所有动作都是相对执行的。例如，“ROI”的作用是移动ROI的宽度为α× w，其中w是当前ROI的宽度，α被设置为0。在我们的实验中。这对于相位限制是很小的，其中“Bri g h t n e ss +”表示对于比率β的像素值，其被设置为0。1.我们在补充资料中提供了详细的动作操作。学习混合照片9前台座席步骤初始最终图六、中间DRL行为的示例我们用颜色编码显示ROI动作。初始ROI为橙色，而最后一个ROI为绿色。在此过程中，亮度降低到0.9，对比度增加到1.2。5.2网络结构我们在图5中显示了策略网络的结构。在深度强化学习中，策略网络将观察状态作为输入，并输出指示执行相应动作后的预期累积奖励的动作值在所提出的方法中，我们选择三个状态变量：前景图像、关于当前所选区域的混合图像以及背景上下文。背景上下文是放大的背景区域，使策略网络能够看到优化预期回报的潜在方向。在我们的实验中，我们选择的上下文ROI比混合ROI大1.3倍。基于图3中的预训练质量网络，我们添加了背景上下文信息的输入流以及动作值输出。由于所设计的结构，使代理，以共同预测的质量值，以及搜索动作值，我们可以记录的质量分数输出的策略网络在测试时间，同时执行的行动，并使用状态与最大的分数作为最终的结果。5.3报酬塑造我们将奖励值设置为执行所选操作后的分数差：Rt=S（F，Bt）−S（F，Bt−1），（4）其中Rt是步骤t处的奖励值，S（·）是质量网络，F是前景图像，并且Bt是步骤t处的混合结果。也就是说，如果所选择的动作增加了分数，则我们提供正奖励来鼓励这种行为。否则，我们提供负奖励来阻止它。5.4实现细节我们训练DRL代理Dueling-DQN [48]以及A2 C [47]，这是A3 C [35]的同步版本，可以进行GPU训练。训练模型10W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨我两种方法都需要大约20小时才能获得稳定的性能。训练过程和参数的细节可以在补充材料中找到。在训练过程中，智能体随机选取前景图像、背景图像和随机初始ROI进行模拟。我们将每个事件的最大步长设置为50，因为在我们的任务中没有终端信号。当所选动作导致ROI超出背景图像或导致极端光度调节值时，我们向智能体提供值-1.0的负我们在图6中展示了一个中间搜索步骤的示例。代码和数据将在https://github.com/hfslyc/LearnToBlend上提供。6混合引擎混合过程是确定性的，由三个主要部分组成：预处理，像素混合和后处理。像素混合是将前景和背景中的两个像素值分别转换为混合像素的函数，并且在背景被裁剪并与前景对齐之后将其应用于每个像素对常用的像素混合函数通常是简单的数学函数，例如，加、减或乘。在这项工作中，我们专注于最广泛使用的混合变体：双重曝光，其中混合模式被称为混合函数可以公式化为：x混合=1−（1−xfg）·（1−xbg），（5）我我我其中xfg，xbg 是来自前景的位置i的两个像素我我ba ckg roun dimages，anddxblendisthe“S cre e n”b l e d d p i x e l v al u es s.W表示像素值范围[0，1]，并且该函数独立地应用于所有颜色通道。根据（5），结果值将是明亮的（1. 0），如果前景像素或背景像素接近1。0.由于在大多数情况下，前景照片更亮，因此整体效果可以被视为前景的黑暗部分被背景所取代，如图1所示。预处理和后处理可以包括任何过滤、样式化或增强模块。例如，一个引擎可以将Instagram过滤器和背景去除算法应用于前景图像，作为预处理或后处理模块。为了简单起见，我们进行的实验，只有前景去除作为预处理和一个特定的色调调整作为后处理。我们在补充材料中使用不同风格的混合引擎显示了更多的定性结果。7实验结果7.1质量网络为了显示所提出的质量网络的有效性，我们将所提出的方法与感知损失[17]和学习感知图像补丁进行了学习混合照片11表1.网络质量评价。方法平均准确度[17]第十七话55.30%LPIPS [55]61.78%质量网络（无FG）75.23%质量网络（无BCE）76.17%质量网79.69%前景图像和混合结果之间的相似性（LPIPS）[55]，因为更高的感知相似性通常意味着更好的用户评级。如第4.3节所述，我们收集了100个图像集的3205个用户评级的确认集。在对应于相同前景图像的评级中，我们对所有可能的好-坏和一般-坏对进行采样以评估平均准确度，即，具有较好用户评级的混合结果应该具有较高的质量分数/感知相似性和较低的感知损失。如表1所示，所提出的质量网络可以比现有方法更好地对准用户偏好。我们还进行了消融研究，以验证表1中质量网络的设计选择。当去除质量网络中的前景分支（无FG）时，准确率下降了4.46%，反映了结果美学质量通常取决于原始前景的事实。此外，在没有二元交叉熵（没有BCE）的情况下，准确率下降3.52%，表明二元交叉熵可以有效地正则化质量网络。表2. 随机搜索的比较表3. 搜索方法的比较。方法步长平均值Q。方法步骤平均Q。随机-1010 5.69 ±0.75树搜索1507.15 ±0.61随机-5050 7.08 ±0.64高斯过程1007.33 ±0.35随机-100100 8.07 ±0.53贪婪1007.43 ±0.66随机-500500 9.47 ±0.47模拟退火1008.12 ±0.63随机-1 k1,0009.99±0.41PSO [19]1008.91 ±0.44随机-5 k5,00011.51 ±0.10决斗-DQN1009.86 ±0.30随机-10 k11.76 ±0.06A2c10010.93 ±0.267.2DRL检索在表2和表3中，我们评估了所提出的DRL搜索的有效性。首先，我们选择20个输入对作为评估集，并执行随机搜索，以获得我们可以实现的质量分数的上界。在搜索期间，ROI和光度参数在12W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨生成混合结果的有效范围，并且所得到的照片是具有最高质量分数的照片。我们报告的搜索时间成本的评价步骤，因为质量网络的前向时间占主导地位的搜索过程。我们注意到，策略网络的转发时间与质量网络相似。在我们的机器中，每个评估步骤需要0.07秒的GPU。请注意，在搜索过程中，由于仅通过混合渲染低分辨率结果，因此开销远小于最终混合。如表2所示，要达到最高的平均质量分数11.76，需要10，000个评估步骤，在我们的设置中大约需要11分钟。然而，在时间关键型应用中，复杂性非常重要。因此，我们将评估步骤的约束设置为100，并将基于DRL的搜索与以下无导数优化方法进行比较：– 树搜索使用Random-50作为初始点，搜索深度为2的所有可能的动作序列。– 高斯过程使用随机50个初始评估点并更新高斯近似，5个采样点，10次迭代。[22]也应用高斯过程来估计编辑参数。– 贪心.使用随机-50作为初始点，并选择5步的最佳动作（每个动作花费10步）。– 模拟退火[20]。(SA)使用随机-50作为初始点，并执行模拟退火50步。– 粒子群优化[19]. (PSO)使用20个粒子执行5次并行更新。除了PSO之外的所有方法都使用随机-50作为初始种子，因为它是时间成本和性能之间的良好折衷我们优化了SA和PSO的参数，以获得最佳性能，并在补充材料中报告。我们在表3中显示了比较。在基线中，树搜索的性能最差，因为它只能在时间限制内执行深度2搜索。类似地，贪婪搜索也受到评估成本的影响，并且只能执行5次更新。模拟退火算法在进行局部搜索的同时，可以避免陷入局部最优但它只比随机100好一点，这表明SA的短时间表不能很好地收敛。在所有基于非学习的方法中，由于局部和全局优化的联合组合，PSO的质量得分为8.91，表现最好。Dueling-DQN和A2 C两者相对于其他基线都表现良好，因为代理可以基于当前图像上下文执行不同的策略以进行更好的探索。A2 C比Dueling-DQN的性能好1.07，并且我们发现A2 C的非确定性动作采样（on-policy）有助于逃避局部最优，而DQN的随机探索只能在训练阶段使用-greedy。7.3用户研究我们建立了一个用户研究，以评估所提出的方法的有效性。为了与人类专家进行比较，我们要求专家使用预定义的Photoshop动作脚本生成相同的效果，该脚本自动执行Double学习混合照片13见图7。选定基准方法的定性比较。我们展示了所选基线方法的用户评级比率。Exposure.为了与我们的基线进行公平的比较，专家只能操纵背景对齐和光度调整。我们记录了专家的调整过程，在动作脚本的帮助下，完成一张混合照片的平均时间约为5分钟。要求用户评价总共20组图像。在研究期间，每个用户看到每个前景图像的五个混合结果，其对应于以下基线：Random-10，PSO，Ours（A2 C），Random-10 k和人类专家结果。对于一个特定的应用程序，这些应用程序可以被称为“好”、“差”或“坏”。结果，共有41名受试者参加了这项研究，共获得4,100张选票。我们在图7中显示了用户研究结果，并在图8中显示了一些定性比较。如果我们只使用10个随机搜索进行混合，则65%的混合结果被认为对用户不好，只有10%被认为是好的。这表明照片混合的任务并不简单，因为随机参数通常不会产生吸引人的结果。与Random-10算法相比，PSO算法和我们的算法（A2 C）都获得了更美观的结果。然而，建议的DRL搜索表现良好，对PSO具有相同的时间成本（5秒），因为它可以利用当前的图像上下文更好的搜索策略。Random-10 k表示质量网络可以生成的最美观结果的上限。Random-10 k的性能仅优于所提出的方法几个百分点，但每幅图像多花费7分钟，表明所提出的DRL搜索是在参数空间中搜索的有效方式。专家调配的产品具有最佳的美学品质。主要区别在于，专家很少做出用户不可接受的共混结果，仅14%的“坏”结果，而我们的结果为37%。事实上，穷举搜索（随机-10k）不能以更高的平均质量得分（11.76对10k）胜过人类专家。11.32）表明所提出的方法仍有改进的余地。实际上，我们发现，在20组混合结果中的6组中，我们比专家结果更“好”地使用了我们的方法。它表明，我们所提出的方法可以，在某些情况下，产生更高的质量比由专家产生的结果但是，没有混合集，其中14W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨前景随机-10 PSO A2 C专家见图8。不同基线方法的定性比较。对于每种方法，这些结果是用相同的前景和背景图像对生成的所有这些都用于用户研究。在其他数据库中使用更“糟糕”的扩展。我认为即使有些人不认为专家生成的结果是最好的，他们仍然不认为它们是不可接受的。基线方法之间的质量差异也与所提出的质量网络所指示的平均质量分数一致更好的用户评级方法具有更高的平均质量分数，表明所提出的质量网络是有效的。8总结发言在本文中，我们提出了一种自动照片混合的方法。为了评估融合照片的美学质量，我们收集了一个新的数据集，并设计了一个新的图像融合算法。一个质量网络，用于从具有排名损失和二进制交叉熵的粗略用户偏好中学习。我们通过设计基于深度强化学习的代理来搜索导致质量网络的最高得分的背景对齐和pho- tometric调整参数，从而解决照片混合问题所提出的方法可以作为一个通用的框架自动照片艺术生成。致谢。这项工作得到了NSF CAREER Grant #1149783的部分支持，该资助来自Adobe和NVIDIA。学习混合照片15引用1. Bychkovsky，V.，巴黎，S.，Chan，E.，Durand，F.：使用输入/输出图像对的数据库学习摄影全局色调调整。在：CVPR（2011）2. 凯西多JC Lazebnik，S.：使用深度强化学习进行主动目标定位。In：ICCV（2015）3. 陈昆，Koltun，V.：使用级联细化网络的摄影图像合成。In：ICCV（2017）4. Chopra，S.，哈德塞尔河LeCun，Y.：学习相似性度量有区别地，与应用到人脸验证。载于：CVPR（2005年）5. Christiano，P.，Leike，J.，布朗，TB，Martic，M.，Legg，S.，Amodei，D.：从人类偏好进行深度强化学习。In：NIPS（2017）6. Dumoulin，V.，Shlens，J.，Kudlur，M.，Behboodi，A.，Lemic，F.，Wolisz，A.，Moli-naro，M.，Hirche，C.，Hayashi，M.，Bagan，E.，等：对艺术风格的博学的表现In：ICLR（2017）7. Finn，C.，Levine，S.，Abbeel，P.：引导成本学习：通过策略优化的深度逆最优控制In：ICML（2016）8. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。见：CVPR（2016）9. Gharbi，M.，陈杰，巴伦J.T. Hasinoff，S.W.，Durand，F.：用于实时图像增强的深度双边学习（2017）10. Girshick，R.：快速R-CNN。In：ICCV（2015）11. Guzman-Rivera，A. Batra，D.，Kohli，P.：多项选择学习：学习产生多个结构化输出。在：NIPS（2012）12. Ho，J.，Ermon，S.：生成对抗模仿学习。在：NIPS（2016）13. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。在：CVPR（2017）14. Hwang，S.J.，Kapoor，A.，Kang，S.B.：基于上下文的自动局部图像增强。In：ECCV. 03 The Dog（2012）15. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：要有颜色！：联合端到端学习全局和局部图像先验，用于自动图像着色和同时分类。电影SIGGRAPH（2016）16. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR（2017）17. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）18. 康湖，加-地Ye，P.，李，Y.，Doermann，D.：用于无参考图像质量评价的卷积神经网络。在：CVPR（2014）19. 肯尼迪：粒子群优化在：机器学习百科全书，pp.760- 766。Springger（2011）20. Kirkpatrick，S.，Gelatt，C.D.，Vecchi，M.P.：模拟退火优化science220（4598），67 121. Kong，S.，沈，X.，林芝，Mech，R.，Fowlkes，C.：照片美学排名网络与属性和内容的适应。In：ECCV. Springer22. Koyama，Y.佐藤岛Sakamoto，D.，Igarashi，T.：顺序线搜索，用于人群的高效视觉设计优化ACM TOG（Proc.2017年：《SIGGRAPH》23. Larsson，G.，Maire，M.，Shakhnarovich，G.：学习自动着色的表示。In：ECCV（2016）24. Lee J.Y.Sunkavalli，K.，林芝，沈，X.，So Kweon，I.：自动内容感知颜色和色调风格化。见：CVPR（2016）16W.- C. Hung，J.Zhang，X.沈，Z.林，J. -Y. 李，M.-H. 杨25. Li，C.，Wand，M.：结合马尔可夫随机场和卷积神经网络的图像合成。见：CVPR（2016）26. 李，Y.，方角杨杰，王志，卢，X.，Yang，M.H.：采用前馈网络实现多样化纹理合成。在：CVPR（2017）27. 李，Y.，方角杨杰，王志，卢，X.，Yang，M.H.：通过特征变换进行通用样式In：NIPS（2017）28. Liu，M.Y. Breuel，T.，Kautz，J.：无监督图像到图像翻译网络。In：NIPS（2017）29. Liu，S.，Pan，J.，Yang，M.H.：通过混合神经网络学习低级视觉的递归滤波器。In：ECCV（2016）30. 卢，X.，林芝，Jin，H.，杨杰，Wang，J.Z.：Rapid：使用深度学习对图像美学进行评级。In：ACM MM（2014）31. 卢，X.，林芝，沈，X.，Mech，R.，Wang，J.Z.：用于图像风格、美学和质量评估的深度多补丁聚合网络In：ICCV（2015）32. Luan，F.，巴黎，S.，Shechtman，E.，Bala，K.：深度照片风格转移。在：CVPR（2017）33. 迈湖Jin，H.，Liu，F.：构图保留深层照片美学评估。见：CVPR（2016）34. Marchesotti湖Perronnin，F.，Larlus，D.，Csurka，G.：使用通用图像描述符评估照片的美学质量。In：ICCV（2011）35. Mnih ， V. ， Badia ， A.P. ， Mirza ， M. ，格雷夫斯， A. ， Lillicrap ， T.Harley，T.小银D、Kavukcuoglu，K.：深度强化学习的异步方法。In：ICML（2016）36. Mnih ， V. ， Kavukcuoglu ， K. ， Silver ， D. ， Rusu ， A.A. ， Veness ， J. ，Bellemare ， M.G. 格雷夫斯， A. ， Riedmiller ， M. ， Fidjeland ， A.K. ，Ostrovski，G.，等：通过深度强化学习实现人级控制。大自然（2015）37. Ng，A.Y.，拉塞尔，SJ等：逆强化学习算法。In：ICML（2000）38. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过修复进行特征学习。见：CVPR（2016）39. Ren，J.，沈，X.，林芝，Mech，R.，Foran，D.J.：个性化形象美学。In：ICCV（2017）40. Shih，Y.，巴黎，S.，巴恩斯角弗里曼，W. T.，Durand，F.：风格转移头像肖像。03 The Dog（2014）41. Silver，D.，Huang，A.，中国科学院，麦迪逊C.J.Guez，A.，西夫尔湖Van Den Driessche ， G. ， Schrittwieser ， J. ，安东诺格鲁岛Panneershelvam，V.，Lanctot，M.，等：使用深度神经网络和树搜索来掌握围棋游戏大自然（2016）42. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。载于：ICLR（2015）43. 不列颠哥伦比亚省斯塔迪Abbeel，P.，Sutskever，I.：第三人称模仿学习ICLR（2017）44. 蔡永宏，沈，X.，林芝，Sunkavalli，K.，Yang，M.H.：天空不是极限：语义感知的天空替换。电影SIGGRAPH（2016）45. 蔡永宏，沈，X.，林芝，Sunkavalli，K.，卢，X.，Yang，M.H.：深层图像协调。在：CVPR（2017）46. Van Hasselt，H. Guez，A.，西尔弗，D.：使用双Q学习的深度强化学习在：AAAI（2016）47. Wang，J.X.，Kurth-Nelson，Z. Tirumala，D. Soyer，H.，Leibo，J.Z.，穆诺斯河布伦德尔角Kumaran，D.Botvinick，M.：学习强化学习。arXiv预印本arXiv：1611.05763（2016）学习混合照片1748. 王志， Schaul ，T. ， Hessel ，M. ， Van Hasselt ， H. Lanctot ， M. ， DeFreitas，N.：用于深度强化学习的决斗网络架构In ：arXiv preprintarXiv：1511.06581（2015）49. 魏，Z.，张杰，沈，X.，林芝，Mech，R.，Hoai，M.，萨马拉斯，D.：良好的视图搜索：从密集视图对中学习照片构图来源：CVPR（2018）50. Yan，Z.张洪，王，B.，巴黎，S.，Yu，Y.：使用深度神经网络的自动照片调整ACM TOG（Proc. 02 The Dog（2016）51. 是的R陈春，Lim，T.Y.，Hasegawa-Johnson，M.，做，M.N.：具有感知和上下文损失的语义图像修复在：CVPR（2017）52. Yoo，D.，公园，S.，Lee J.Y.Paek，A.S.，So Kweon，I.：Attentionnet：聚合弱方向以实现准确的对象检测。In：ICCV（2015）53. 柳世英Yun，K.，Choi，J.Y.：基于深度强化学习的视觉跟踪行动决策网络。在：CVPR（2017）54. 张，R.Isola，P.，Efros，A.A.：彩色图像着色。In：ECCV（2016）55. 张，R. Isola，P.，埃夫罗斯，匿名戒酒会Shechtman，E.，Wang，O.：

下载后可阅读完整内容，剩余1页未读，立即下载