基于GAN的视觉定义研究和分析

10 浏览量更新于2023-10-12 收藏 2.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5744GANalyze：认知图像属性的视觉定义LoreGoetschalckx*MIT，KU Leuvenlore. kuleuven.beAlexAndonian*andonian@mit.eduAudeOliva MIToliva@mit.edu菲利普·伊索拉麻省理工学院phillipi@mit.edu不那么难忘更令人难忘不那么难忘更令人难忘0.920.790.580.770.730.58不那么美观更美观低价较高化合价0.840.500.340.730.600.27图1. 由GANalyze生成的可视化。中间的列表示作为原始种子的生成图像。这些然后被修改为更多地（右）或更少地（左）由给定的感兴趣的属性表征，如由左上角的分数所示摘要我们引入了一个框架，该框架使用生成对抗网络（GAN）来研究认知特性，如记忆力。这些属性很有趣，因为我们没有一个具体的视觉定义，他们所包含的。什么样的狗更容易记忆？GAN允许我们生成一系列看起来自然的图像，它们的视觉属性具有细粒度的差异。通过在增加记忆性的方向上导航这个流形，我们可以可视化特定生成的图像变得更令人难忘的样子。由此产生的“视觉定义”表面图像属性（如“对象大小”）可能是记忆的基础。通过行为实验，我们验证了我们的方法确实发现了因果关系影响人类记忆性能的图像操作。我们进一步证明，同样的框架可以用来分析图像美学和情感效价。ganalyze.csail.mit.edu网站。1. 介绍为什么我们会记得我们做过的事情？几十年的工作提供了许多解释：我们记得[5][30][31][32][33][34][35][36][37][38][39][但正如他们所说，一张照片胜过千言万语。怎样才能让一张照片更令人难忘？对于许多认知视觉特性，也可以提出同样的问题：什么样的视觉变化可以采取温和的雾海景，并添加恰到好处的颜色和色调，使它宁静美丽。像记忆性、美学和情感效价这样的属性特别令人感兴趣，因为我们没有具体的定义。这与“对象大小”和“微笑”等属性形成对比。我们很清楚放大照片意味着什么，也另一方面，这是一个悬而未决的问题，“可记忆性”的变化到底是什么样的？以前的工作已经建立了强大的图像记忆性预测模型[14，19]，但这些都没有提供一个细粒度的视觉解释是什么基础的预测。在本文中，我们提出了一个新的框架GANalyze，基于生成对抗网络（GAN）[6]，以研究高级认知属性的视觉特征和属性。我们专注于图像的记忆性作为一个案例研究，但也表明，同样的方法可以适用于研究图像美学和情感价。5745…zα…Tθ（z，α）发生器…例如，在一个实施例中，BigGANG（Tθ（z，α），y）评估员…例如，在一个实施例中，蔓梅A（G（Tθ（z，α），y））图2.模型的示意图。该模型学习如何转换z向量，以便在馈送到Generator时，生成的图像的感兴趣属性发生变化。转换由Transformer实现，它在Generator的潜在空间中沿着学习的方向θ移动z评估器模块（例如，MemNet）预测感兴趣的属性（例如，可记忆性）。最后，α作为一个旋钮来设置Assessor值中所需的变化程度（例如，MemNet score），告诉Transformer沿着θ移动多远。我们的方法利用GAN的能力来生成连续的图像，其视觉属性具有细粒度的差异。根据现成的记忆预测器，我们可以学习如何导航GAN从种子图像开始，这产生了一系列图像，这些图像的预测记忆性增加和减少（见图1）。通过展示不同范围的种子图像的这种可视化，我们提出了一个不同图像序列的目录，展示了与记忆性相关的各种视觉效果。我们称这个目录为图像记忆性的视觉定义。因此，GANalyze提供了非参数方法的替代方案，在非参数方法中，真实图像简单地根据其记忆性得分进行排序，以可视化使它们难忘的内容（补充材料中显示的示例）。GANalyze生成的参数化细粒度可视化提供了更清晰的视觉定义。这些可视化显示了先前工作忽略的几个记忆相关性，包括“对象大小”、“圆形度”和“色彩”。过去对图像记忆性建模的大多数工作都集中在语义属性上，例如对象类别（例如，“人”比“树”更令人难忘）。通过将我们的方法应用于类条件GAN BigGAN [3]，我们可以将其限制为仅进行与对象类正交的更改这揭示了更多的细粒度的变化，尽管如此，对预测的记忆力有很大的影响。例如，考虑图4中的奶酪汉堡。当我们向右移动时，我们的模型可视化了更多令人难忘的奶酪汉堡。这些明显的变化远远超出了语义范畴--由于我们的可视化是基于记忆模型学习的，因此关键的一步是验证我们所看到的东西是否真的对人类行为产生了因果影响我们通过运行一个行为实验来测试这一点，该实验测量了我们的GAN生成的图像的可记忆性，事实上，我们发现我们的操作具有因果效应：将GAN流形导航到被预测为更令人难忘的图像实际上导致生成在行为实验中可测量地更令人难忘的图像。我们的贡献包括：• 介绍GANalyze，这是一个框架，它使用GAN来提供图像属性的视觉定义，例如可扩展性，美学和情感效价，我们可以测量但不容易用语言定义。• 这表明这个框架揭示了以前被忽视的与记忆力相关的属性。• 证明所发现的转换对记忆力有因果影响。• 表明GANalyze可以应用于为美学和情感效价提供1.1. 相关工作生成串行网络（GAN）。GANs [6]引入了一个框架来合成看起来自然的图像[17，3，32，16，3]。GAN的许多应用包括风格转换 [35] ，视觉预测 [22] 和“sim2real”域适应[2]。并行工作探索了通过潜在空间中的简单变换来操纵图像的能力[27，15]。在这里，我们展示了它们如何也可以应用于理解高层次的问题，认知图像属性，如记忆性。了解CNN表示。CNN的内部表示可以使用网络解剖[33，1，34]等方法来揭示，包括对记忆性进行训练的CNN [19]。例如，Khosla et al.[19]研究表明，与人、脸、身体部位等相关性强的记忆图像而负相关性强的个体对景观场景中的大区域更敏感。在这里，GANalyze介绍了一种新的方式来定义记忆力，美学和情感效价的变化看起来像什么。修改可扩展性。一个人的记忆力-年龄，就像面孔一样，可以用变形技术来操纵niques [18].并行工作也探索了为此目的使用GAN[29]。另一种方法是深入的风格转移[28]，它可以挖掘更多的艺术品质。现在GAN已经达到了与真实图像几乎无法区分的质量，它们提供了一个强大的工具来合成具有不同认知质量的图像。如图所示，我们的GANalyze框架成功地在各种图像类别中修改了GAN生成的图像，以生成第二代GAN逼真…z+ α…θ-+5746不同的记忆质量的照片。2. 模型2.1. 制剂我们从一个预训练的生成器G开始，它将噪声向量z和一个独热类向量y作为输入，并生成一个照片级逼真的图像G（z，y）。Assumed也是评估器函数A，其评估感兴趣的图像属性，在这种情况下是可记忆性。我们的目标是学习变换任何类y的任何给定噪声向量z，使得其结果生成的图像的可记忆性随着一定量α而增加（或减少）。变换是通过一个Transformer函数实现的，它在潜在空间中沿着某个方向θ移动输入z我们将目标表述为：L（θ）=Ez，y，α[（A（G（Tθ（z，α），y））−（A（G（z，y））+α））2]（1）请注意，这只是目标记忆力分数之间的MSE损失，即种子图像的得分A（G（z，y））增加α，转化后的克隆图像的记忆性得分A（G（T θ（z，α），y））增加α。标量α就像一个隐喻性的旋钮，人们可以用它来调节记忆力。最优化问题是θε=argminθL（θ）。TransformerT定义为：T（z，α）=z+αθ（2）图2显示了该模型的示意图。最后，请注意，当α=0时，T变为空运算，G（Tθ（z，α），y）则等于G（z，y）。2.2. 执行对于这里呈现的结果，我们使用了 BigGAN 的Generator [3] ，它生成最先进的 GAN 图像，并在ImageNet上进行预训练[25]。评估器被实现为MemNet[19]，这是一种预测图像记忆性的CNN。但是，请注意，使用不同的Generator或不同的Assessor训练我们的模型可以通过替换相应的模块来轻松实现我们在第4节讨论其他评估员。为了训练我们的模型并找到θ，我们通过从截断到范围[−2，2]的标准正态分布中随机采样400Kz向量来构建训练集。每个z都伴随着一个α值，从一个均匀的分布在-0.5和0.5之间，并且随机选择y.我们使用了4的批处理大小和Adam优化器。鉴于行为实验（见第3节），我们将测试集限制为750个随机选择的Imagenet类，每个类有两个z向量。每个z向量然后与五个不同的α值配对：[-0。2，-0。100 1，0。2]。请注意，这包括α0，表示原始图3.模型结果。A）图表显示了每个α条件下图像的平均MemNet得分。我们的模型成功了-完全学会了如何修改GAN图像以降低（负α）或增加（正α）其MemNet分数。B）可能构成（A）中观察到的效应的潜在潜在因素列表，以及它们如何随α变化的曲线图。这些因素来自GANalyze框架生成的可视化结果（示例见图4和补充材料）。图像G（z，y）。最后，测试集由1.5K组五张图像组成，或总共7.5K张测试图像。3. 实验3.1. 模型验证我们的模型是否学会了导航潜在空间，以便它可以增加（或减少）具有正（或负）α值的生成图像的评估器得分？图 3.A 表明，它确实如此。测试集图像的平均MemNet得分随着α的每一次增量而增加。为了正式检验这一点，我们将线性混合效应回归模型拟合到数据中，并发现（非标准化）斜率（β）为0.68（95%CI=[0.66，0。70]，p<0. 001），确认Memnet评分随α显著增加。3.2. 新兴因素我们观察到，该模型可以成功地改变图像的记忆性，给定其z向量。接下来，我们问它改变了哪些图像因素来实现这一点。这个问题的答案可以提供进一步的洞察，以了解作为sessor已经了解了关于待评估的图像属性，在这种情况下，MemNet已经了解了关于可记忆性的内容。从测试集的定性分析（图4中所示的示例）中，许多候选因素脱颖而出。首先，当图像中物体（或动物）的尺寸较大时，MemNet会分配更高的记忆性分数，因为我们的模型在许多情况下会随着α的增加而进一步放大物体。第二，它是在图像框架中的主题第三，它似乎争取方形或圆形的形状在这样做是现实的类中（例如，图4中的蛇、奶酪汉堡、项链和浓咖啡）。第四，它通常通过减少杂波和/或物体数量，从低α到高α简化5747=-0.2=-0.1= 0= 0.1= 0.20.74 0.77 0.780.190.260.250.300.350.650.670.730.820.820.700.730.770.820.820.610.690.750.840.910.720.760.770.830.880.770.820.830.850.870.830.830.860.910.92不那么令人难忘更令人难忘图4.沿着记忆性维度生成的图像的示例。中间一列表示G（z，y），生成的图像用作原始种子，以创建一系列或多或少令人难忘的克隆图像。5748例如在芝士汉堡或火烈鸟中，或者通过使背景更均匀，例如在蛇的例子中。第五个观察结果是，受试者第六，还可以检测不同α条件之间的颜色变化正α通常产生更明亮和更多彩的图像，负α通常产生颜色暗淡的暗图像。最后，对于这些类，其中多个对象色调可以被认为是真实的（例如，（图1和图4中的灯笼椒和项链），该模型似乎更喜欢红色色调。为了验证我们的观察结果，我们对测试集中的图像的上述因素进行了量化（除了将图像转换为灰度级后，测量亮度作为平均像素值对于色彩，我们使用[10]提出的度量，对于红色，我们计算了红色像素的归一化数量最后，为了简单起见，将像素强度直方图的熵作为对于其他三个因素，使用预训练的Mask R-CNN[11，21]来生成受试者的实例级为了捕捉物体的大小，我们计算了遮罩的面积（归一化的像素数）。为了测量居中性，我们计算了掩模的质心与帧中心的偏差最后，我们计算了具有与掩模相同的归一化二阶中心矩图3.B显示新兴因子得分随α的增加而增加。3.3. 实性虽然BigGAN达到了最先进的水平来生成高度逼真的图像，但输出的“真实性”仍然存在一些变化如何最好地评估一组GAN图像的真实性仍然是一个悬而未决的问题。下面，我们将讨论两个自动计算的真实性度量和一个与我们的数据相关的人工度量。3.3.1自动测量在图5.A中，我们绘制了两个流行的自动测量α的函数：Frechet初始距离（FID）[13]和初始分数（IS）[26]。第一个观察结果是，在所有α条件下，FID均低于40。低至40的FID已经对应于合理逼真的图像。因此，我们的模型的修改对记忆力的影响不能通过使图像不现实来解释。但我们确实观察到了与α相关的FID和IS差异的有趣差异，这表明更令人难忘的图像具有更可解释的语义。图5. 真实度是α的函数。 A）用于评估一组GAN图像的真实性的两种流行的自动测量注意，较低的FID值表示较高的真实度。B）人类伪造辨别力，测量为2AFC任务中的平均正确比例，其中AMT工作人员必须从真实照片中区分GAN图像（伪造）。3.3.2人的尺度除了这两个自动测量之外，我们还进行了一个实验来收集人类真实性分数。该实验包括一个两种选择的强制选择（2AFC ）任务，托管在 Amazon MechanicalTurk（AMT）上，其中工人必须区分GAN图像和真实图像。工人们被展示了一系列的对，由一个GAN图像和一个真实图像组成。它们并排呈现，持续时间为1.6秒。一旦一对从屏幕上消失，当他们认为GAN图像显示在右边时，工人按下j键，或者当他们认为GAN图像显示在左边时按下f键。GAN图像的位置在试验中是随机的。本实验中使用的真实图像集是通过对每个GAN图像类随机抽取10个真实ImageNet样本来构建的。这组GAN图像与第2.1节中3.4. GAN图像与属于同一类的10个真实图像中的一个随机配对。每个系列包括100项试验，其中20项为警戒试验。对于警戒试验，我们从z向量生成GAN图像，这些z向量是从正常分布的尾部采样的（以使它们看起来不那么真实）。对于工人工人可以完成多达17个系列，但如果他们在警戒试验中的得分低于65%，则会被阻止。不符合这一标准的系列也被排除在分析之外工资率等于每个完成的系列0.50美元平均而言，我们的每个测试图像被2.76名工作人员看到，这意味着每个α条件下有4137个数据点。我们没有观察到不同α之间的任务表现差异（见图5.B）。事实上，拟合原始二进制数据（正确/不正确）的逻辑混合效应回归并未显示α（β=−0）的统计学显著回归权重。08，95%CI=[-0. 33，0。18]，p=0。55）。换句话说，模型5749图6.视觉记忆游戏的示意图。每个图像显示600ms，空白刺激间间隔为800ms。工人们被要求在他们识别出之前显示的图像的重复时做出反应。为了得到正确的响应，图像周围的边框会另一方面，红色框表示错误。年龄修改不影响工作人员正确识别假图像的能力，这表明在感知上3.4. 我们的改变会影响记忆吗？除了MemNet的分数，我们的模型在改变参与者在实际记忆实验中重新识别图像的概率方面是否也我们使用AMT上的重复检测视觉记忆游戏（见图6）测试了人们AMT的工作人员一次看一系列的图像，每当他们看到之前显示的图像的重复时，他们就会使用一个键。每个系列包括215个图像，每个图像显示600ms，中间有800 ms的空白间隔。60张图像是目标，从我们的测试集中取样，并在34-139张干预图像后重复。其余图像为填充图像或警戒图像，并从单独的集合中取样。这个集合是用每个类10个z向量和与测试集相同的五个α值创建的：[-0。2，-0。100 1，0。2]，总共37.5K图像。填充图像仅呈现一次，并确保目标与其重复之间的间隔。警戒图像显示两次，两次显示之间有0-重复警戒是保持工人注意力的简单试验。注意确保工人从未看到超过一个G（Tθ（z，α），y）对于给定的z。他们可以完成多达25个系列，但如果他们错过了一个系列中超过55%的警戒重复或超过30%的假警报，就会被阻止。未通过此测试的系列未进行分析。每完成一个系列，工资为0.50美元。平均而言，测试图像由3.16每个α条件下有4740个数据点。工作人员可以识别重复的测试图像（命中，1）或错过它（错过，0）。图7.A显示了所有映像和工作线程的命中率。命中率随着α的每一步而增加。将logistic混合效应回归模型拟合到原始的二进制数据（命中/未命中），我们发现图像被识别的预测对数几率随着0.19对于α增加0.01（β=1. 92，95%CI=图7.根据不同评估者修改的图像的人类记忆性能：A）MemNet，B）对象大小和C）AestheticsNet。性能是以每个属性在记忆游戏中所有图像和工人的命中率来衡量的。[1. 71比2。12]，p<0. 001）的情况下。这表明我们的模型可以成功地导航BigGAN潜在空间，以使图像对人类来说更容易（或更容易）记住3.4.1新兴因素鉴于人类记忆数据的图像修改的可识别性，我们评估如何图像的新兴因素分数与他们的可能性被识别。我们拟合了混合效应logistic回归模型，每个模型都有一个不同的新兴因素作为预测因子，见表1。除了熵之外，所有新出现的因素都显示出与概率游戏中命中的可能性有显著的正相关，但没有一个因素像模型的α一样适合数据这表明，一个新出现的因素不足以完全解释图7.A中观察到的效应。请注意，新兴因素的结果是相关的，因素是相互关联的，阻碍了关于哪些个体因素真正影响人类记忆表现的结论。作为如何在GANalyze框架内解决这一问题的一个例子，我们进行了一项实验，重点关注一个突出的新兴因素的影响：对象大小如图4所示，更令人难忘的图像往往集中并扩大对象类。我们使用对象大小评估器而不是MemNet评估器来训练模型的一个版本。这是同一个5750图8.其他评估员的模型结果。图表显示了每个α条件下图像之间的平均评估器（A：对象大小，B：AestheticsNet，C：AestheticNet）得分对象大小评估器用于量化根据MemNet修改的图像中的对象大小（例如，对于图3.B中的在使用161,750个z向量进行训练后，我们生成了一个测试集，如第2. 2节所述，除了使用不同的α集合：[−0. 8，-0。四，零，零。四，零。[8]。我们选择这些值来定性地匹配MemNet版本模型实现的对象大小变化图8.A显示了在测试集上获得的结果。该模型成功地扩大了对象与增加阿尔法的，证实了线性混合效应回归分析（β = 0。07，95%CI=[0. 06，0。07]，p<0. 001）的情况下。图10显示了由该模型生成的示例图像。与根据MemNet修改的图像进行比较表明，后一个模型不仅仅是放大对象。为了研究新的尺寸修改如何影响记忆力，我们生成了一组新的图像（7. 5 K目标，37. 5 K填充物），α为[-0。8，-0。四，零，零。四，零。[8]。我们选择这些值来定性地匹配对象大小的程度由MemNet版本的模型实现的变化然后使用视觉记忆游戏对新图像进行量化（每个图像平均2.36个数据点，每个α条件平均3540个数据点图7.B显示了结果。记忆性能随α而增加，如Logistic混合效应分析所证实的（β=0. 11，95%CI=[0. 06，0。18]，p<0. 001，尽管大多数情况下为正值。4. 其他图像属性如第2.2节所述，所提出的方法可以应用于其他图像属性，只需替换评估器模块。为了证明我们的框架可以泛化，我们训练了一个美学和情感变量的模型。情绪效价是指由图像引起的情绪被体验到的积极（或消极）程度。各自的评估员是AestheticsNet [20]和我们自己的AestheticNet（ResNet 50模型[12]，在Mo-ments上进行预训练[23]，微调到Cornell警告6 [24]）。图8.B显示了测试集每个α条件分数随α显著增加，α1 .一、92[ 1 .一、71，2。第十二章]<0的情况。0010的情况。074表1.新兴因素与人类历史绩效的关系。我们展示了logistic混合效应回归的输出。从左至右：回归权重、该权重的置信区间（CI）、统计显著性的p值和Tjur判别系数（D），即回归模型的拟合优度[31]。在运行回归模型之前，对新出现的因子值进行归一化。如线性混合效应回归（β=0. 72，95%CI=[0. 70比074]，p<0. 001）的情况下。似-最后，随着α的增加，测试集（β=0. 44，95%CI=[0. 43，0。45]，p<0.001，看到了吗？图8.C）。示例可视化如图-1所示第九条在补充材料中。基于对这种可视化的定性检查，我们观察到美学模型正在修改景深，调色板和照明等因素，这表明AestheticsNet 对这些因素很敏感。事实上，AestheticsNet的架构包括属性自适应层来预测这些因素，现在我们的可视化突出显示了这些因素。情绪效价模型在降低效价时经常将主体为了增加效价，它通常使图像更加丰富多彩，引入散景，并使天空在风景图像中更加蓝色。最后，图1（右）中的泰迪熊似乎笑得更多了。有趣的是，该模型对每个属性都进行了不同的修改（见图10），这表明使图像可记忆的因素与使其美观或情感价值更积极的因素不同。我们提出的最后一个问题是，一个经过修改变得更具（不那么）美感的图像是否也会变得更（不那么）令人难忘？为了验证这一点，我们通过在视觉记忆游戏中向工作人员展示美学测试集的图像来量化记忆力（我们收集了每个图像1.54个数据点和每个α条件2306个数据点图7.C显示了人类的记忆性能与α的函数关系，α是调节美学的函数。Logistic混合效应回归显示，美学α增加0.1，图像被识别的预测对数几率增加0.07（β=0. 72，95%CI=[0. 44，1. 00]，p<0. 001）的情况下。虽然修改图像使其更具美感确实会增加其记忆力，但效果相当小，因子日志赔率CIp丘尔D亮度0的情况。28[ 0的情况。24，0。32]<0的情况。0010的情况。066为中心0的情况。24[ 0的情况。19，0。29]<0的情况。0010的情况。059色彩度熵0的情况。170的情况。03[ 0的情况。14，0。21][-0。04，0。第10页]<0的情况。0010的情况。4410的情况。0540的情况。0625751更低更高α=-0.2α=0.2α=-0.2α=0.2图9.沿着美学（顶部）和情感效价（底部）维度生成的图像示例。中间一列表示G（z，y），生成的图像用作原始种子。图像补充材料中包含更多示例。这表明记忆力不仅仅是美学，而且我们的模型以不同的方式修改了记忆力和美学。5. 结论我们介绍GANalyze，这是一个框架，展示了如何使用基于GAN的模型来可视化另一个模型（即CNN作为一个评估者）已经了解到它的目标图像属性。在这里，我们将其应用于记忆性，产生了这种高级齿轮属性的一种“视觉定义”，在这里，我们可视化了图像变得或多或少令人难忘的样子这些视觉化呈现出多个候选特征，这些特征可能有助于解释为什么我们记得我们做了什么。重要的是，我们的框架也可以推广到其他图像特性，例如美学或情感效价：通过替换Assessor模块，该框架允许我们探索任何属性的视觉定义，我们可以将其建模为图像的可微函数。我们验证了我们的模型成功地修改了GAN图像，使其通过对操纵图像的行为人类记忆实验变得更（或更少）令人难忘GANalyze图10.根据不同评估员生成的示例比较。顶行表示G（z，y），生成的图像用作原始种子以创建具有较高或较低评估器值的一系列各个评估器值显示在左上角。注意，对于对象尺寸，我们使用不同的α范围：{-0.8，0.8}。额。注意，这是通过修改图像来实现的，针对这些图像，给出了到GAN的潜在空间中的编码。换句话说，目前只能修改GAN图像本身的种子图像，而不是用户提供的真实图像。然而，如果该领域的进步导致编码器网络，这将成为可能，并且它将打开图形和教育中的应用，例如，其中可以使所选择的图像更容易记住。不过，人们也应该警惕潜在的误用，特别是当应用于人物或面孔的图像请注意，这里使用的BigGAN[3]生成器是在ImageNet类别[25]上训练的，这些类别只偶尔包括人，并且它不允许渲染逼真的人。然而，随着生成模型产生越来越逼真的输出，该领域越来越重要的挑战是开发强大的检测方法，使我们能够可靠地区分生成的假图像和真实图像[8][7][9]。致谢这项工作的部分资金来自NSF神经和认知系统奖1532591（给A.O），以及研究基金会-佛兰德斯（FWO）授予Lore Goetschalckx的奖学金（1108116N）和旅行补助金（V4.085.18N）。=-0.2= 0= 0.20.45 0.57 0.710.530.810.840.580.770.290.820.250.660.390.660.340.450.560.480.660.850.190.350.000.000.220.580.750.94情绪效价美学美学EmoNet美学网对象大小蔓梅5752引用[1] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议论文集，第6541-6549页[2] Konstantinos Bousmalis 、Alex Irpan、 Paul Wohlhart、Yunfei Bai 、 Matthew Kelcey 、 Mrinal Kalakrishnan 、Laura Downs 、 Julian Ibarz 、 Peter Pastor 、 KurtKonolige、Sergey Levine和Vincent Vanhoucke。利用仿真和领域自适应提高机器人深抓取效率。CoRR，abs/1709.07857，2017年。[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练CoRR，abs/1809.11096，2018。[4] 托尼·W·布坎南和拉尔夫·阿道夫人类杏仁核在长时陈述记忆情绪调节Advances in Consciousness Research，44：9[5] Zoya Bylinskii ， Phillip Isola ， Constance Bainbridge ，Anto- nio Torralba，and Aude Oliva.图像记忆的内在和外在影响视觉研究，116：165[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[7] 郝凯伦。Deepfakes让国会感到恐慌。这是它需要做的。MIT Technology Review，2019年6月。[8] 德鲁·哈维尔顶级人工智能研究人员竞相检测Deepfake视频：我们的武器不足华盛顿邮报，2019年6月。[9] 德鲁·哈维尔顶级人工智能研究人员竞相检测Deepfake视频：我们的武器不足华盛顿邮报，2019年6月。[10] David Hasler和Sabine E Suesstrunk。测量自然图像中的色彩丰富度。人类视觉和电子成像VIII，卷5007，第87- 96页。国际光学与光子学学会，2003年。[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[14] Phillip Isola ， Jianxiong Xiao ， Devi Parikh ， AntonioTorralba，and Aude Oliva.是什么让一张照片令人难忘？IEEE Transactions on Pattern Analysis and MachineInteligence，36（7）：1469[15] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成对抗网络的“可操纵性”。arXiv预印本arXiv：1907.07171，2019。[16] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。CoRR，abs/1710.10196，2017。[17] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。 CoRR ，abs/1812.04948，2018。[18] 放大图片作者：Aditya Khosla，Wilma A. Bainbridge，Antonio Torralba，and Aude Oliva.修改面部照片的记忆性。在IEEE International Conference on Computer Vision（ICCV）中，2013年12月。[19] Aditya Khosla，Akhil S. Raju，Antonio Torralba，andAude Oliva. 大规模理解和预测图像记忆性IEEEInternationalConferenceonComputerVision（ICCV），2015年12月。[20] 空舒，沈晓辉，林哲，拉多米尔机甲，福克斯查理。照片美学排名网络与致敬和内容适应.在Bastian Leibe，JiriMatas，Nicu Sebe和Max Welling，编辑，计算机视觉施普林格国际出版社。[21] 弗朗西斯科·马萨和罗斯·格希克。maskrcnn基准：PyTorch中实例分割和对象检测算法的快速模块化参考实现。https://github.com/facebookresearch/maskrcnn-benchmark，2018.访问时间：2019年3月。[22] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440，2015。[23] Mathew Monfort，Alex Andonian，Bolei Zhou，KandanRa- makrishnan ， Sarah Adel Bargal ， Yan Yan ， LisaBrown，Quanfu Fan，Dan Gutfreund，Carl Vondrick，etal. Moments in time数据集：100万个视频用于事件理解。IEEE Transactions on pattern analysis and machineintelligence，2019。[24] 彭冠全，陈祖汉，阿米尔·萨多夫尼克，安德鲁·加拉格尔。百感交集：模型，预测和转移情绪分布.在IEEE计算机视觉和模式识别会议论文集，第860-868页[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。图像网大规模视觉识别挑战。国际计算机Vision，115（3）：211-252，Dec. 2015年。[26] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，第2234-2242页，2016年[27] Yujun Shen，Jinjin Gu，Xiaoou Tang，and Bolei Zhou.语义人脸编辑中gans潜在空间的解释。arXiv预印本arXiv：1907.10786，2019。[28] Aliaksandr Siarohin 、 Gloria Zen 、 Cveta Majtanovic 、Xavier Alameda-Pineda、Elisa Ricci和Nicu Sebe。如何让一张照片更令人难忘？：一种深层风格转换方法。在2017年ACM国际多媒体检索会议论文集，ICMR 2017，5753布加勒斯特，罗马尼亚，2017年6月6日至9日，第322-329页5754[29] 奥莱克西·西多罗夫改变图像的可记忆性：从基本的照片编辑到甘斯。CoRR，abs/1811.03825，2018。[30] 莱昂内尔·斯坦丁学习10000张图片实验心理学季刊，25（2）：207[31] 星期二Logistic回归模型中的决定系数a新建议：判别系数。The American Staecian，63（4）：366[32] Han Zhang ， Ian Goodfellow ， Dimitris Metaxas ， andAugus- tus Odena.自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。[33] Bolei Zhou ， David Bau ， Aude Oliva ， and AntonioTorralba.通过网络解剖解释深层视觉表征。IEEE关于模式分析和机器智能的交易，2018。[34] Bolei Zhou ， Aditya Khosla ， Agata Lapedriza ， AudeOliva，and Antonio Torralba.目标检测器出现在深场景cnn中。在2015年国际学习表征会议（ICLR）上，2015年5月。[35] Jun-Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表

下载后可阅读完整内容，剩余1页未读，立即下载