图像裁剪的影响及检测方法

121 浏览量更新于2023-10-13 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9741剖析图像裁剪哥伦比亚大学basile@cs.columbia.edu卡尔·冯德里克哥伦比亚大学vondrick@cs.columbia.edu摘要裁剪的基本操作支撑着几乎所有的计算机视觉系统，从数据扩充和平移不变性到计算摄影和表示学习。本文研究了这种操作引入的细微痕迹。例如，尽管对相机光学器件进行了改进，但镜头仍会留下某些线索，特别是色差和视觉。摄影师也留下了其他线索，涉及图像美学和场景构成。我们研究如何检测这些痕迹，并调查的影响，裁剪的图像分布。虽然我们的目的是剖析空间作物的根本影响，但我们的工作也有许多实际意义，例如揭示错误的新闻摄影，并为神经网络研究人员提供更好地理解捷径学习的装备。代码可在https://github.com/basilevh/dissecting-image-crops获得。1. 介绍裁剪图像的基本操作几乎是你本周将要阅读的每一篇计算机视觉论文的基础在大多数计算机视觉入门课程的前几堂课中，卷积的动机是使特征不变性能够适应空间移位和裁剪[52，31，2]。神经网络依赖于图像作物作为数据增强的一种形式[28，50，21]。计算摄影应用程序将自动裁剪照片，以提高其美学[47，12，60]。预测模型从作物中推断出像素[51，57，55]。即使是最新的自我监督的努力依赖于作物的对比学习，以诱导丰富的视觉表示[13，20，45，49]。这种核心视觉操作可以对照片产生重大影响。正如Oliva和Torralba在20年前告诉我们的那样，场景背景驱动感知[44]。最近，图像裁剪一直是媒体虚假信息的核心图1示出了两张流行的照片，其中摄影师或媒体组织在空间上裁剪了部分上下文，改变了图像的信息。Twitter图1：我们展示了两个臭名昭著的图像作物，由红色框可视化。（左）一名乌干达气候活动家在照片被张贴在网上新闻文章之前被剪掉，这一发现引发了争议[16]。（右）一家新闻网剪出了一名示威者在抗议活动中拿着的大棍子[14]。裁剪极大地改变了照片的信息。种族歧视[10]。本文的指导性问题是理解这一基本操作所留下的痕迹。图像裁剪对视觉分布有什么影响我们能确定照片是何时以及如何被裁剪的吗？尽管对相机光学器件和传感器的制造工艺进行了广泛的改进，但几乎每个现代相机流水线都会在其捕获的照片上留下微妙的镜头伪影。例如，渐晕是由于镜头将更多的光聚焦在传感器的中心，产生的图像在中间比其边界附近稍微亮一些[36]。色差，也称为紫边，是由透镜不同地聚焦每个波长引起的[5]。由于这些伪影与它们在图像平面中的空间位置相关，因此它们导致图像裁剪具有迹签名。生理异常并不是手术过程中留下的唯一痕迹。摄影师更喜欢拍摄有趣物体的照片，并以规范的姿势[53，4，22]。美学上令人愉悦的镜头将有合理的构图，尊重场景中的对称性和某些比例。违反这些原则会留下另一个裁剪操作的这些痕迹非常微妙，人眼通常无法检测到它们，这使得研究和表征它们具有挑战性。然而，神经网络擅长识别这些模式。事实上，大量的努力都是为了防止神经网络学习这样的知识。9742快捷方式启用图像裁剪[15，43]。在本文中，我们翻转这一点，并宣布这些快捷方式不是错误，而是一个机会，剖析和理解图像裁剪留下的微妙线索利用大量高质量的自然图像集合，我们训练卷积神经网络来预测图像中补丁的绝对空间位置。这仅在存在非空间不变的视觉特征时才是可能的。我们的实验分析了该模型学习的特征类型，并且我们表明可以检测裁剪操作的痕迹。我们还可以使用所发现的伪影以及语义信息来恢复作物在原始传感器平面中的位置。虽然本文的目的是分析图像裁剪的基本痕迹，以质疑传统的假设平移不变性和数据增强的关键作用遍布该领域，我们相信我们的调查可能会有很大的实际影响。从历史上看，提出基本问题激发了对核心计算机视觉问题的重要见解，例如尺度不变性[9]，时间不对称[46]，视频的快速性[6]和视觉手性[34]。例如，对图像裁剪的洞察可以使得能够检测软篡改操作，或者刺激开发以减轻捷径学习。2. 背景及相关工作光学像差没有一种成像设备是完美的，成像流程中的每一步都会在最终的图像上留下痕迹。这些签名的起源范围从与相机硬件有关的光的物理学到用于存储和重建图像的数字去马赛克和压缩算法。透镜通常遭受几种像差，包括色差、渐晕、彗差和径向畸变[26，5，33，24]。如图2a所示，色差以两种方式表现：横向（或横向）色差（TCA）是指垂直于光轴的颜色通道上的焦点的空间差异，而纵向色差（LCA）是指沿着光轴的焦点偏移[23，24]。TCA产生看起来相对于彼此略微不同地缩放的颜色通道，而LCA导致焦面与透镜之间的距离是频率相关的，使得模糊程度在颜色通道之间变化可以利用色差从散焦模糊中提取深度图[19，54，24]，尽管这些线索的空间灵敏度通常是不期望的[15，42，43，40]。[59]利用TCA测量图像区域相对于镜头的角度，作为检测裁剪图像的方法。相反，我们提出了一个基于学习的方法，发现额外的(a) 具有横向和纵向色差的透镜。在该图示中，红色通道和蓝色通道对准（因此品红色光线），但是除了具有分开的焦平面之外，绿色光被不同地放大(b) 两张照片的特写，揭示了可见的横向色差（TCA）伪影。图2：色变背后的起源和例子。而不需要精心定制的算法。补丁定位。虽然自我监督表征学习的第一个主要工作之一集中在预测八种可能配置中两个补丁的相对位置[15]，但也发现执行绝对定位的能力似乎源于色差。对于表现最好的10%的图像，单个块的地面实况和预测位置之间的平均欧几里得距离比机会低31%，并且如果每个图像被预处理以去除沿着绿-品红轴的颜色信息，则虽然有理由相信现代网络架构可能会表现得更好，但这些相当温和的性能数据表明，尝试的任务是一个困难的先验。注意，绝对位置的易学性通常被认为是一个缺陷;在实践中使用的处理包括随机颜色通道丢弃[15]，投影[ 15]，灰度转换[42，43]，[42]和色度模糊[40]。视觉作物检测。在取证的背景下，几乎所有现有的研究都集中在“硬”篡改，如拼接和复制移动操作。我们认为，某些形式的“软”篡改，特别是裁剪，也值得调查。虽然有几篇论文有广告修饰的图像作物[59，39，17]，但它们通常是太...9743∈××≤≤图3：我们的作物检测模型的完整架构。我们首先从源图像内的规则间隔的网格的中心提取M= 16个补丁，先验地不知道它是否被裁剪。基于块的网络F块查看每个块并将其绝对位置分类为16种可能性中的一种，由此估计主要由低级透镜伪影引导。基于全局图像的网络Fglobal替代地对缩小的源图像进行操作，并且倾向于拾取语义信号，诸如偏离其规范姿势的对象（例如，对象的位置）。一张脸被切成两半）。由于这两个网络的优势和劣势互补请注意，F patch由所有三个损失项监督，而Fg仅控制裁剪矩形（x1，x2，y1，y2）和最终得分c。仅限于特定类型的图片。例如，[39]和[17]都严重依赖于消失点和线形式的结构化图像内容，这仅在许多直线（例如，直线）人造建筑物或房间）在场景中显著可见。各种先前的工作也探索了JPEG压缩，并且一些已经发现它可以帮助在特定情况下揭示作物，主要是通过表征块伪影的规则性和对齐[32，8，41]。相比之下，我们的分析侧重于独立于数字后处理算法存在的相机流水线伪影和摄影模式3. 数据集检测农作物的自然线索是微妙的，我们在构建数据集时需要小心保留它们。我们的基础数据集有大约700，000张来自Flickr的高分辨率照片，这些照片是在2019年秋季我们对训练图像施加了几个约束，最重要的是，它们不应该已经被裁剪，并且它们必须保持恒定的、固定的纵横比和分辨率。附录A详细描述了该选择和收集过程我们通过首先定义裁剪直角（x1，x2，y1，y2）来[0，1]4作为其原始相机传感器平面内的裁剪图像的相对边界，使得对于未修改的图像，（x1，x2，y1，y2）=（0，1，0，1）。我们始终保持纵横比，并在[0]中均匀地选取随机尺寸因子f。5，0。9]，表示所比较的四个边中的任一个的像素的相对长度到原始照片：f=x2−x1=y2−y1。在随机裁剪所有传入照片的一半之后，我们让我们的模型访问小的图像补丁以及全局上下文。我们选择大小为96 96（即水平图像尺寸的大约5%），其足够大以允许网络获得局部纹理轮廓的良好概念，同时还足够小以确保相邻的块从不重叠。此外，我们将整个图像缩小到224 - 149缩略图，这样它就可以在其感受野和计算效率方面访问模型。1将上下文、语义信息与其在图像中的空间位置相关联可能对发现作物至关重要因此，我们将坐标作为两个额外的通道添加到缩略图，类似于[35]。注意，模型不先验地知道其输入是否已被裁剪。最后，必须使用几个快捷模糊化程序来确保学习的特征是可生成的;详细说明见附录B。4. 方法我们描述了我们的方法和相关的挑战，揭示是否以及如何可变大小的单一图像已被裁剪。首先，我们构建了一个神经网络，可以跟踪图像补丁回到他们的原始位置相对于中心的镜头。然后，我们用这个1我们关心感受野的原因是，即使在分析细微的镜片伪影时高分辨率图像更可取，L 50的ResNet-L的感受野仅为483像素[3]，这促使我们更喜欢较低的分辨率。9744×L使用端到端训练的作物检测模型来暴露和分析可能不完整的图像的新型网络，该模型还以易于可视化和理解的方式图3说明了我们的方法。4.1. 预测绝对面片位置分析图像裁剪的难题之一是一个称为F补丁的神经网络，它可以区分小图像补丁相对于镜头中心的原始位置。我们帧这作为一个分类问题，lem用于实际目的，并将每个图像分成一个网格的4 - 4均匀大小的细胞，其中每个细胞代表一组可能的补丁位置。由于该借口任务可以被认为是一种形式的自我监督表示学习，作物检测是最终的下游任务，因此我们将F补丁称为借口模型。但是，在开始端到端作物检测之旅（即从一开始就将此模块集成到更大的系统中）之前，值得提出以下问题：首先，绝对补丁定位在什么时候工作得很好，它如何以可解释的方式帮助区分裁剪的图像？为此，我们通过丢弃孤立地训练F补丁F全球和迫使网络决定的基础上，从补丁的信息。16路分类损失项补丁负责借口监督，并单独应用于每个补丁。有趣的模式出现时，区分不同程度的信心，在预测所产生的F补丁。尽管由于任务的固有难度，该定位网络的准确度并不高（21%对6%的机会），但图4显示，它对某些图像非常有效，特别是那些具有高度细节并伴有明显镜头伪影的图像。另一方面，用高端相机拍摄的模糊照片往往会使模型不确定。这一观察结果表明，色差具有很强的预测能力的原始位置的补丁内的图片。因此，合理地预期将逐块像素级线索并入基于深度学习的作物检测框架中将提高其能力。4.2. 架构和目标在到目前为止所阐述的设计考虑的指导下，图3显示了我们的主要模型架构。 F 补丁是一个 ResNet-18[21]，它将任何补丁转换为长度为64的嵌入，然后由单个线性层(a) 选择高置信度会产生偏向于具有许多边缘的高度纹理化内容的样本，通常具有可见的色差。在这种情况下，借口模型通常更准确。(b) 选择低置信度会产生模糊或平滑的样本，其中缺乏细节使得难以暴露透镜的物理缺陷。在这种情况下，借口模型往往不准确。图4：绝对补丁定位性能。通过利用分类，不确定性度量免费出现。在这里，我们显示的例子，其中的借口模型F补丁执行非常好或非常差，在恢复补丁由网络生成的输出概率分布也被绘制为空间热图（=地面实况）。9745∈联系我们×L[L2··22到描述估计位置的长度为16的概率分布（ik，jk）0的情况。 . . 32那个补丁Fglobal是一个ResNet-34[21]，它将缩减的全局图像到另一个长度为64的嵌入。最后，G是一个3层感知器，它接受所有先前嵌入的1088维级联，并产生5个值，描述（1）裁剪矩形（x1，x2，y1，y2）[0，1]4，以及（2）输入图像被裁剪的实际概率c。通过同时处理和结合聚合的块式信息与全球背景，我们允许网络绘制一个完整的图片的输入，揭示低级别的镜头像差和高级别的语义线索。总的加权损失函数如下（M= 16）：M−15. 分析与线索我们定量研究模型，以解剖和表征视觉作物。我们有兴趣对网络可能在每个图像中查看的因素进行仔细分析出于消融研究目的，我们区分了模型的三种变体：• Joint是图3中完整的基于补丁和全局的模型，是本工作的核心;• Global是一个简单的分类器，它只对缩略图进行操作使用Fglobal将整个输入降尺度为224 149;• 补丁只看到16个小补丁从图像内的一致位置提取，使用F补丁。我们将模型使用的信息分类为evi-λ1L=MkΣ=0L贴片（k）+λ24rect +λ3L 类（一）用于其判定的证据分为两大类：（1）照相机或透镜系统的特性，以及（2）物体特性。而（1）在很大程度上不受语义图像约束的影响。这里，L片（k）是16路交叉熵分类器。图块k的预测位置分布l（k）与其真实位置l（k）之间的损耗。对于未裁剪的图像，l（k）=k并且（i，k，j，k）=（kmod 4，k/4），尽管该等式显然不一定适用于裁剪的图像。其次，损失项rect促使估计的作物矩形在均方误差意义上接近地面实况。第三，class是一个二进制的跨领域分类损失，它训练c来说明照片是否被裁剪。更正式地说：Lpatch（k）=LCE（l（k），l（k））（2）Lrect=[（x1−x1）+（x2−x2）+（y（1−y1）+（y（2−y2）]（3）Lclass=LBCE（c，c）（4）注意的的中间输出（ik，jk）和（x1，x2，y1，y2）e的存在主要是为了鼓励内部表示的可解释性，而不是为了提高最终得分c的准确性。具体地说F面片到（（ik，（jk））的线性投影应使嵌入对位置信息更敏感，因此有助于作物矩形估计。4.3.培训详情在我们的实验中，所有数据集都是通过在[0]中使用随机裁剪因子裁剪恰好50%的照片来生成的。5，0。9]。之后，我们在训练和测试期间将每个示例调整为[1024，2048]中的均匀随机宽度，使得图像大小不能具有任何预测能力。我们用亚当优化器[27]，学习率从5 10- 3指数下降到1。5 10−3分别在第一个和最后一个历元。损失项的权重为：λ1=2。4，λ2= 3，λ3= 1。帐篷，（2）可能意味着网络已经学会利用摄影中的某些规则，例如天空通常在顶部，而人为了深入了解我们的模型究竟发现了什么，我们首先通过人工膨胀测试集上的相应光学像差，并计算所得的性能指标，来研究网络接下来，我们测量的准确性的变化时，该模型被应用于数据集，专门制作的对象语义和图像结构上我们希望镜头缺陷和摄影惯例在我们的模型中扮演不同但有趣的角色。下面讨论了沿绿色通道、渐晕和摄影模式表示的色差;有关颜色饱和度、径向镜头失真以及红色和蓝色通道色差的影响，请参见附录C。注意，所有讨论的图像修改都在裁剪之前应用，作为模拟表现出某些可控缺陷的真实镜片的手段。5.1. 色差效应用于抵消玻璃的折射率的频率依赖性的常见透镜校正是使用所谓的消色差双合透镜。这种修改确保了两个不同频率的光线，例如红色和蓝色通道，是对齐的[26]。因为剩余的绿色通道仍然经历TCA并且因此将在光学中心周围略微缩小，所以该伪影通常作为边缘附近的绿色或紫色条纹以及具有对比度或纹理的其他区域可见[7]。图2b描绘了色差看起来像什么的真实示例。注意，由于多透镜系统的复杂性，发生径向放大的光学中心不一定与图像中心重合[58]。L29746g（r）(a) 在负（向内）方向上的绿色横向色差大大提高了补丁定位的性能，虽然不对称性是作物检测的关键。全局模型保持不受影响，因为它不太可能能够看到伪影。(We示出过度失真的示例以用于说明;在实践中使用的范围要小得多）。(b) 渐晕也有助于正面的借口模型的准确性。有趣的是，农作物检测性能最初增加，但随后对于强渐晕略微下降，这大概是因为失真的图像正在移出分布。图5：有助于与作物检测相关的特征的图像属性的分解。在这些实验中，我们在测试集的3,500张照片上手动夸大了镜头的两个特征，随后测量了由此产生的性能变化尽管在实践中已经发现这两点非常接近[23]。此外，色差可能因设备而异，并且甚至不存在于所有相机系统中。许多高端的现代镜头和/或后处理算法往往会准确地校正它们，以至于它变得几乎无法察觉。尽管如此，我们的模型仍然发现焦点的这种光谱差异是作物和斑块位置的独特特征：图5a（左图）表明，人为地缩小绿色通道显著地改善了借口模型的性能。这是因为跨颜色通道的纹理移位的角度和幅度可以泄露斑块相对于透镜中心的位置因此，当在任一方向引入TCA时，作物检测的下游任务（右图）变得更容易。在检查红色和蓝色通道时获得水平镜像图，确认绿色通道在我们的数据集中最常见地遭受向内偏差。事实证明，从Fpatch的角度来看，最佳配置是添加一个轻微的失真，但不要太多-否则我们有可能伤害测试集的真实性。5.2. 渐晕效应多透镜系统的典型缺陷是当我们远离透镜的中心移动时径向亮度下降。图像，见图5b。渐晕可能由于机械和自然原因而出现[36]，但其对照片内位置的依赖性我们通过将每个像素值乘以1来模拟渐晕，其中：g（r）=1+ar2+br4+cr6（5）（a，b，c）=（2. 0625，8。75，0。0313）（6）g（r）是六阶多项式增益函数，参数a、b、c被指定为取自[36]的典型值，并且r表示距图像中心的半径，其中在每个角处r=1通过简单地在其原始（0%）和完全修改（100%）状态之间内插每个像素，渐晕的程度平滑地变化。图5b示出了增强的渐晕对绝对块定位能力具有积极影响，但这似乎没有转化为明显更好的作物检测准确度。虽然跨块的亮度的梯度方向是其相对于图像的光学中心所形成的角度的清楚指示符，但是现代相机似乎足够好地校正渐晕，使得被扰动的图像的真实性的缺乏损害Fglobal9747图6：七个测试集的代表性示例。前两个是Flickr的变体，一个未经过滤，一个没有人类或面孔，剩下的五个是自定义照片集，我们打算测量各种其他类型的摄影模式或偏见。这些照片是在纽约、波士顿和旧金山湾区拍摄的，每个类别包含15到127张照片。在世界上任意的、大多数不感兴趣的位置处的均匀随机取向。我们使用三星Galaxy S8和谷歌Pixel 4智能手机构建了一个小规模的此类照片集合并对其进行了分类，跨越了图6中最右边的5列。第3列和第5列描绘了在相机处于直立、偏置取向的情况下拍摄的照片Col-平滑50% 51% 55%-UMN 5特别地包括消失线重的CON。帐篷，其中透视线索可以提供清晰的指针。第4、6和7列包含不太可能被显示的图片。表1：在各种数据集上的三种不同作物检测模型之间的准确性比较。所有的模型都是在Flickr上训练的，并且似乎在不同程度上发现了摄影中的共同规则。5.3. 摄影模式和视角的影响捕捉有意义内容的愿望意味着并非所有图像都是平等的。感兴趣的对象、人或动物通常将有意地在照片内居中，并且相机在拍摄照片时通常竖直定向一些惯例，例如草通常在底部，在一定程度上被训练过程中的随机旋转所混淆，尽管关于什么构成吸引人的或可感知的照片仍有许多事实需要在我们的模型中，这些所谓的摄影模式这是因为，直观地说，它不符合摄影师通常如何组织他们的视觉环境和场景的组成部分。我们周围的世界的结构不仅提供了关于对象通常在图片内存在于何处以及如何存在的高级知识，而且还产生了透视线索，例如，在将3D场景投影到2D传感器上时水平线与垂直线形成的角度，以及墙壁或其他表面的表观法向量。测量所有这些方面发挥作用的确切程度是困难的，因为不存在合适的数据集。理想的基线将包括照片没有任何遵守摄影规则，无论是在由普通摄影师拍摄，但其目的是代替测量我们的系统对具有不太有意义的构图的照片的响应定量结果示于表1中。在Flickr测试集上，基于缩略图的模型的作物分类准确率为79%，基于补丁的模型为77%，联合模型为86%。为了进行比较，我们还让16个人对100张随机的Flickr照片进行分类，看起来是否经过裁剪，结果人类的这表明，跨多个尺度集成信息产生比仅独立地看到补丁或缩略图的网络更好的模型，此外还具有超过人类的显著性能裕度。我们的测量还表明，该模型倾向于在合理的、直立的照片上始终表现得更好。类似于许多数据集的策划[11，49]，Flickr似乎特别表现出涉及人物的高度摄影惯例，因此我们还测试了手动过滤的100张不包含人类或人脸的照片子集，导致准确性适度下降有趣的是，基于补丁的网络非常接近倾斜和纹理的联合网络，这表明如果照片以异常的方式拍摄，全局上下文有时会混淆模型。完全平滑的白墙图像看起来更不符合分布。然而，大多数自然图像主要包含规范和appealing安排，其中我们的模型显示出更强的能力来区分作物。数据集联合全球贴片人类Flickr百分之八十六百分之七十九百分之七十七百分之六十七Flickr（无人类）百分之八十一百分之七十五百分之七十三-直立百分之八十百分之七十二百分之七十六-9748图7：我们的作物检测系统的定性示例和解释。高层次的线索，如人和面孔，似乎大大影响模型的决定。请注意，图像无论如何，某些场景组合更难正确，例如在右边显示的失败案例中。（为了保护隐私，这里模糊了。）图8：F global在Flickr上生成的降维嵌入。这里，尺寸因子f代表一个裁剪图像尺寸相对于原始照片的分数。该模型显然能够将未经篡改的图像与强烈裁剪的图像分开，尽管轻微裁剪的图像几乎可以落在整个频谱的任何地方，因为语义信号可能不太明显和/或不太频繁地存在。6. 可视化图像裁剪为了描述随着图像被裁剪到越来越强的程度而变化的视觉分布，我们查看由缩略图网络Fglobal产生的输出嵌入。在图8中，我们首先应用主成分分析（PCA）将数据点从64维转换为24维，随后应用t-SNE [37]将维度从24维进一步降低到2维。如前所述，模型预测某张照片出现或不出现裁剪的原因可能有很多。然而，要解释从任何给定的单一的-我们还可以将Grad-CAM技术[48]应用到全局图像上。这个过程允许我们构建一个热图，将Fglobal和G做出的决策归因于对它们做出贡献的输入区域。图7展示了几个示例，其中我们通过绿色地面实况矩形裁剪未触摸的图像，并将其输入网络以可视化其预测。该模型通常能够使用语义和/或基于块的线索来对图像进行裁剪，并且产生对哪些空间区域缺失（如果有的话）的合理估计。例如，左上角的图像明显违反了摄影中的常规原则顶部或底部的图像是有点难以判断相同的措施，虽然我们仍然可以恢复裁剪帧感谢绝对补丁本地化功能。7. 讨论我们发现，图像区域包含有关其相对于透镜的空间位置的信息，从而完善了关于平移不变性的既定假设[30]。我们的网络已经自动发现了各种相关的线索，从细微的镜头缺陷到摄影前科。这些特征可能在某种程度上通过许多自监督表示学习方法获得，例如对比学习，其中裁剪是数据增强的重要形式[13，49]。虽然它们通常被视为bug，但也有一些令人信服的案例，这些线索可能被证明是有用的。例如，我们的作物检测和分析框架对揭示误导性新闻摄影有影响。我们还希望我们的工作能够激发进一步的研究，研究图像裁剪留下的痕迹以及它所引起的视觉分布的改变如何以其他有趣的方式加以利用。9749引用[1] Opencv：几何图像转换。12[2] Alexander Amini 和 Ava Soleimany 。麻省理工学院6.s191：深度学习入门，2020年春季。1[3] 安德烈·阿劳霍韦德·诺里斯和杰克·西姆卷积神经网络的接收域计算蒸馏，2019年。https://distill.pub/2019/computing-receptive-fields的网站。3[4] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 Christopher Wang 、 Dan Gutfreund 、 JoshTenenbaum和Boris Katz。Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。神经信息处理系统进展，第9453-9463页，2019年。1[5] Steven Beeson和James W Mayer。光的模式：从亚里士多德到 LED 的光谱变化。 Springer Science BusinessMedia，2007. 一、二[6] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet：学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集，第9922-9931页，2020年。2[7] David Brewster和Alexander Dallas Bache。关于光学的知识：美国第一版，附附录，包含分析在反射和折射中应用的基本观点。Carey，Lea，Blanchard，1833. 5[8] AR Bruna，Giuseppe Messina，and Sebastiano Battiato.通过块伪影分析进行作物检测。在图像分析和处理国际会议上，第650Springer，2011. 3[9] 彼得·伯特和爱德华·阿德尔森。拉普拉斯金字塔作为一个紧凑的图像代码。 IEEETransactions oncommunications，31（4）：532-540，1983. 2[10] 凯蒂·卡纳莱斯2020年10月，推特正在对其照片软件进行更改，因为在线用户发现它会自动裁剪1[11] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在IEEE/CVF国际计算机视觉会议，第29597[12] Jiansheng Chen，Gaocheng Bai，Shaoheng Liang，andZhengqin Li.自动图像裁剪：计算复杂性研究。在IEEE计算机视觉和模式识别会议论文集，第507-515页1[13] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。1、8[14] 伦敦广播公司。英国广播公司批评在2020年6月的黑人生命问题抗议照片中裁剪武器。1[15] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422-1430，2015中。2、12[16] Sahar Esfandiari和Will Martin格雷塔·桑伯格抨击美联社从她2020年1月在达沃斯的一张照片中裁剪出一名黑人活动家。1[17] Marco Fanfani，Massimo Iuliani，Fabio Bellavia，CarloColombo，and Alessandro Piva.一种基于视觉的全自动图像裁剪检测方法。信号处理：图像通信，80 ：115629，2020。二、三[18] Alex Franz和Thorsten Brants 2006年8月，我们所有的字母都属于你。12[19] Josep Garcia 、 Juan Maria Sanchez 、 Xavier Orriols 和Xavier Binefa。色差和深度提取。第15届国际模式识别会议论文集。 ICPR-2000 ，第 1 卷，第 762-765 页。IEEE，2000年。2[20] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第97291[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、四、五、十三[22] Dan Hendrycks ， Kevin Zhao ， Steven Basart ， JacobSteinhardt，和Dawn Song.自然对抗的例子。arXiv预印本arXiv：1907.07174，2019。1[23] 星秉康。自动去除单个图像的色差2007年IEEE计算机视觉和模式识别会议，第1IEEE，2007年。二、六[24] Masako Kashiwagi、Nao Mishima、Tatsuo Kozakaya和Shinsaku Hiura。来自畸变图的深度。在IEEE计算机视觉国际会议的论文集，第4070-4079页，2019年。2[25] 乔什·考夫曼 Github：first20hours/google-10000-english，2019年8月。12[26] 迈克尔·J·基德尔基础光学设计。基础光学设计。贝灵汉间谍，2001年。二、五[27] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[28] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。Communications of the ACM，60（6）：84-90，2017。1[29] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali，Stefan Popov，Matteo Malloci，Tom Duerig，et al.开放图像数据集v4：统一的图像分类，对象检测，并在规模视觉关系检测。 arXiv 预印本 arXiv ：1811.00982，2018。11[30] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习nature，521（7553）：436-444，2015. 8[31] Fei-Fei Li，Ranjay Krishna，and Danfei Xu.斯坦福大学cs231n：用于视觉识别的卷积神经网络，2020年春季1[32] 李伟海，袁媛，能海宇。基于块伪影网格提取的篡改jpeg图像被动检测Signal Processing，89（9）：1821-1829，2009. 39750[33] Xufeng Lin和Chang-Tsun Li。通过基于内容的设备指纹分析进行图像出处推断。信息安全：基础、技术和应用，第279-310页。IET，2018年。2、14[34] Zhiqiu Lin，Jin Sun，Abe Davis，and Noah Snavely.可见手性。在IEEE/CVF计算机视觉和模式识别集，第122952[35] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。神经信息处理系统进展，第9605-9616页，2018年3[36] 劳拉·洛佩兹·富恩特斯，加布里埃尔·奥利弗，塞巴斯蒂安·马萨内特。基于对数熵约束最小化的图像渐晕校正。在人工神经网络国际工作会议上，第450- 459463.施普林格，2015年。1、6[37] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579-2605，2008. 8[38] Francesco Marra、Diego Gragnaniello、Luisa Verdoliva和Giovanni Poggi。用于图像伪造检测的全图像全分辨率端到端可训练cnn框架。IEEE Access，8：133488-133502，2020。11[39] 梦仙哲，牛少章，茹嫣，叶州李。基于消失点的摄影裁剪检测。电子学报，22（2）：369-372，2013. 二、三[40] T Nathan Mundhenk，Daniel Ho，and Barry Y Chen.对基于上下文的自监督学习的改进。在IEEE计算机视觉和模式识别会议论文集，第9339-9348页，2018年。2[41] Hieu Cuong Nguyen和Stefan Katzenbeisser。基于支持向量机的双 jpeg 压缩图像尺寸调整检测在 IFIPInternationalConferenceonCommunicationandMultimedia Security，第113-122页中。Springer，2013. 3[42] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。欧洲计算机视觉会议，第69施普林格，2016年。2[43] Mehdi Noroozi，Hamed Pirsiavash和Paolo Favaro。通过学习数数来学习表象. 在IEEE计算机视觉国际会议论文集，第5898-5906页，2017年。2、12[44] 奥德·奥利瓦和安东尼奥·托拉尔巴对场景的形状进行建模：空间包络的整体表示。国际计算机视觉杂志，42（3）：145 1[45] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536-2544，2016中。1[46] Lyndsey C Pickup，Zheng Pan，Donglai Wei，YiChangShih，Changshui Zhang，Andrew Zisserman，BernhardScholkopf，and William T Freeman.看到时间之箭。在Pro-IEEE计算机视觉和模式识别会议的会议论文集，第2035-2042页，2014年。2[47] ASamii、RM eˇ ch和ZheLin。使用语义组合搜索的数据驱动自动计算机图形论坛，第34卷，第141-151页。Wiley Online Library，2015. 1[48] Ramprasaath R Selvaraju，Michael Cogswell，AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra.Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。在IEEE国际计算机视觉会议论文集，第618-626页8[49] Ramprasaath R Selvaraju，Karan Desai，Justin Johnson，and Nikhil Naik.铸造模型：学习本地化改进了自监督表示。arXiv预印本arXiv：2012.04630，2020。一、七、八[50] Christian Szegedy ， Wei Liu ， Yangqing J

下载后可阅读完整内容，剩余1页未读，立即下载