视觉手性的影响：图像反射和数据增强的统计分析

116 浏览量更新于2023-10-25 收藏 1.93MB PDF 举报

数据增强

图像取证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视觉手性林志秋1孙晋1、2安倍戴维斯1、2诺亚斯内弗利1、2康奈尔大学1康奈尔理工2摘要我们如何判断一个图像是否被镜像了？虽然我们非常了解镜面反射的几何形状，但很少有人提到它如何影响图像的规模分布，尽管计算机视觉中广泛使用数据增强在本文中，我们研究了视觉数据的统计量如何被反射改变我们把这些变化称为我们对视觉手性的分析揭示了令人惊讶的结果，包括渗透于相机中图像处理的图像中的低水平手性信号，以及发现人和面部图像中的视觉手性的能力。我们的工作对数据增强，自我监督学习和图像取证有影响1. 介绍“...有- 刘易斯·卡罗尔有一个丰富的历史知识涉及反思。从古希腊神话中的珀尔修斯和那喀索斯的故事，到刘易斯·卡罗尔的《在哈利·波特这种象征主义植根于数学事实：我们在倒影中看到的是一个与我们周围的世界有细微但有意义的不同的世界-右手变成左手，文字倒着读，风扇的叶片朝相反的方向旋转。我们看到的是，正如爱丽丝所说，“一样......只有事情会朝着另一个方向从几何学上讲，这些差异可以归因于一个世界，在这个世界中，与反射表面的距离是否定的，从而产生了一个与我们通常看到的物体相反的方向等距虽然这些等距线的性质在原理上是很好理解的，但关于它们如何影响视觉数据的统计却知之甚少规模。换句话说，虽然我们对反射如何改变图像数据有很多了解，(a)(b)（ c ）第（1）款图1. 哪些图像被镜像了？我们的目标是了解自然图像的分布与它们的反射有何不同。这里的每一幅图像看起来都是合理的，但有些子集实际上是水平翻转的弄清楚哪一个可能是一个具有挑战性的任务，即使对人类来说。你能分辨出哪些是翻转的吗？答案见图2。较少涉及它如何改变我们从该数据中了解到的内容-这一点，尽管广泛使用图像反射（例如，镜像翻转）用于计算机视觉中的数据增强。本文的指导思想是一个非常简单的问题：当我们的世界被反射时，视觉统计数据是如何变化的？人们可以通过考虑图1中的图像来理解这个问题的某些方面。对于单个物体，这个问题与手性的概念密切相关[12]。如果一个物体不能被旋转和平移到与它自己的反射成一条直线，那么它就被称为手性的，否则就是非手性的。[1]换句话说，我们可以认为手征性物体被反射从根本上改变了--这些是通过镜子观察时“走另一条路”的东西手征为我们的指导问题提供了一些见解，但仍然是从告诉我们反思如何影响学习中移除的重要一步。为此，我们需要一种不同的手性度量-我们称之为视觉手性-它描述了反射对图像分布的影响。在本文中，我们定义了视觉手征的概念，并分析了视觉手征在现实世界的图像，无论是通过新的理论工具，并通过实证分析。我们的分析有一些意想不到的结论，包括1）深度神经网络在确定图像是否镜像方面出奇的好，这表明在很大程度上[1]更一般地说，任何图形都是非手性的，如果它的对称群包含任何取向反转的等距。1229512296D对于某个变换T是不变的。更确切地说，用函数T增加训练样本x假设以下形式的对称性：D（x）=D（T（x））（1）(a)（b）（c）图2.来自图1的图像，突出显示了手性揭示区域。这些区域是自动发现我们的方法手性内容发现。（a，翻转）文本手性。文本（任何语言）是强手性的。（b，不翻转）对象手性。的衬衫领子，特别是纽扣在哪一侧，表现出更微妙的视觉手性。（c，翻转）物体相互作用手性。虽然吉他通常是（几乎）对称的，但我们拿吉他的方式却不是（左手通常放在指板上）。分布手征的一个简单例子图3.上面的曲线表示图像上的分布（为简单起见，显示为1D分布使用变换T来增强分布D的基于样本的近似假设关于T对称。当T是图像反射时，我们定义视觉手征2）我们可以自动发现图像中视觉手性的高级线索，包括文本，手表，衬衫衣领，面部属性等，3)我们从理论上和经验上证明了通过普通图像处理操作（包括Bayer去马赛克和JPEG压缩）印在图像中的低级手性线索这些结论对从数据增强到自监督学习和图像取证等主题都有影响。例如，我们的分析表明，低级别的线索可以揭示图像是否被翻转，这是图像操作中的一种常见操作。1.1.定义视觉手性为了定义视觉手性，我们首先考虑用于计算机视觉学习的数据增强以建立直觉。机器学习算法是基于这样的思想，即我们可以通过拟合函数来近似分布，以从这些分布中提取样本。从这个角度来看，数据增强可以被视为一种提高采样效率以近似分布D（x）（其中x表示来自某个域的数据，例如，图片来源：assum-这允许我们在假设的对称性不成立的情况下以近似误差为代价使我们对D的有效采样图3说明了这个想法。回想一下，对于非手性物体，反射等价于视点的改变。因此，如果我们考虑其中D是对象的所有可能视图上的均匀分布，并且T是图像反射的情况，则等式1简化为非手性的条件。然后，我们可以通过将这个条件推广到任意视觉分布来定义视觉手征。换句话说，我们将视觉手征定义为假设视觉分布在反射下是对称的近似误差以这种方式定义视觉手性突出了与数据增强的密切联系在本文中，我们还将看到计算机视觉中一系列其他主题的影响，包括自监督学习和图像取证。注意，我们对视觉手征的定义也可以推广到包括其他变换。在本文中，我们关注反射，但注意我们的分析部分也可以更广泛地应用。关于视觉手性与几何手性在这里，我们做一些澄清观察视觉手性。首先，虽然几何手征性是物体的二元属性，但视觉手征性可以用方程1被违反的程度来描述，让我们将其作为视觉分布、其样本或应用于视觉分布的函数的连续或相对属性进行讨论，正如我们将在第4第二，视觉手征和几何手征不需要彼此暗示例如，人手具有手性几何形状，但在视觉上往往是非手性的，因为右手和左手形成反射对，并且每一个都以相似的频率出现。相反，具有一个对称平面的非手性物体在仅从该平面的一侧在本文的其余部分，2. 相关工作手性与对称性有着密切的联系，对称性是计算机视觉中一个长期研究的话题与我们的工作密切相关的是最近的工作，探索视频中的时间不对称性（称为我们探索这个问题的空间版本，试图了解是什么使图像看起来正常或镜像。这种空间12297我手征性与视觉中图形中的其他方向问题有关将yi标记到C正和C负中的每个图像Ii：.或3D模型，可能是不正确的方向[23，4]。与直立取向相似，手性可能更大，yi=0如果i∈C为负，即，翻转1如果i∈C为正，即，非翻转（二）更微妙的是，许多图像可能表现出相当弱的视觉手性线索，包括图1中的两幅图像。直立方向和其他相关任务也被用作特征表示的无监督学习的代理任务[5]。这些任务包括上面提到的时间箭头任务[24]，解决拼图[19]，以及推理图像块的相对位置[2]。我们的问题代表了检测图像中对称性的经典任务的有趣变化[15]。因此，我们的工作涉及到检测和分类的不对称，手性对象，如Hel-Or等人所探索的。在他们关于“如何区分左和右”的工作中如何区分图像中的左手和右手。然而，这项先前的工作通常分析几何手性，而不是我们探索的视觉手性，如上所述-例如，右手可能是几何手性的，但不是视觉手性的，而右手拿着铅笔可能是视觉手性的，因为右撇子的人很普遍我们的工作还涉及从大型图像集合中进行无监督发现的工作，包括识别城市或其他图像集合[3，18]或年鉴照片随时间变化的独特视觉特征[6]。最后，一种特殊形式的手征（有时称为手征）已经在几何视觉中探索即，在相机前面的3D点和相机后面的点之间存在不对称这种不对称性可以在各种几何拟合任务中利用[7]。3. 测量视觉手性原则上，测量视觉手性的一种方法是密集地采样分布并分析所得近似中的对称性。但是这种方法效率低下，而且在大多数情况下是不必要的;我们不需要仅仅为了捕捉其不对称性而表示整个分布。相反，我们通过训练网络来区分图像及其反射来测量视觉手性直觉上，这项任务的成功应该受到我们所近似的分布的视觉手性的约束。给定一组从分布中采样的图像，我们将视觉手性的研究作为一个简单的分类任务。让我们将来自某个分布的一组训练图像表示为C正={I1，I2，· · ·，In}（我们认为这些图像是真实世界的照片，没有被翻了）。我们对每个图像Ii执行水平翻转，以产生其反映的版本I“。让我们把镜像我们训练深度卷积神经网络（CNN），针对这个问题进行标准分类损失，因为它们擅长学习自然图像的复杂分布[13]。在验证集上测量经过训练的CNN性能，可以深入了解我们正在研究的数据分布的视觉手性。接下来，我们将讨论训练这样一个网络的细节，以及我们使用训练模型作为代理来发现数据分布的视觉特性来源的技术网络架构。我们采用了ResNet网络[8]，这是一种广泛用于图像分类任务的深度架构 In particular, we useResNet-50 and replace the last average pooling layer of thenetwork with a global average pooling layer [16] in orderto support variable input sizes.优化. We train the network in a mini-batch set- ting usinga binary cross-entropy loss.我们可选地应用随机裁剪，并在下面讨论这种数据增强的含义。我们通过每通道平均减法和除以标准差来归一化像素值。我们使用随机梯度下降优化器[1]，动量为 0.9， L2权重衰减为10−5。超参数选择。找到一个合适的学习率对于这个任务很重要我们在对数域中进行网格搜索，并通过交叉验证为每个实验选择最佳学习率共享批量训练。在训练期间，我们包括I i和I′（即，相同图像的正和负手性版本）。我们观察到使用这种方法改进模型性能，与先前的自监督学习方法保持一致[5]。发现视觉手性的来源。如果一个经过训练的模型能够高精度地预测图像是否被翻转我们认为这些线索是数据分布中视觉chrility的来源。我们使用类激活图（CAM）[26]作为一个强大的工具，从训练模型中可视化这些区分区域。CAM中具有较高激活值的位置对预测翻转图像的贡献相应较大在本文中，我们使用Jet配色方案将这些激活我们只计算与图像正确标签对应图2显示了此类类激活映射的示例。在接下来的章节中，我们分析了视觉手性发现-伊设C为负数={I，I，···，I′}。然后我们将一个二进制使用上述工具在不同的设置中运行。1 2N12298(a) 调整大小（b）随机裁剪图4. 调整大小与随机裁剪作为数据集预处理。该图显示了使用两种预处理方法训练的模型的图像的CAM热图：（a）自由种植和（b）随机种植。我们观察到，JPEG方案在图像的边缘或角落中学习线索（注意（a）的左下角），其中JPEG编码可以是不对称的。另一方面，随机裁剪方案捕获有意义的高级线索手性衬衫领。4. 图像处理当我们第一次尝试训练我们的模型来区分图像和它们的反射时，我们很快就观察到网络会找到方法来完成这项任务，使用与图像此外，这些线索的强度例如，图4显示了同一示例图像的两个不同CAM热图。左边是来自于一个在调整大小的数据上训练的网络，右边是来自于一个在相同数据的随机裁剪上训练的网络。这两个地图都将图像的暗角识别为有区别的，以及图像的人类主体之一上的衬衫的一部分然而，这些网络似乎不同意在这些地区的手性线索的相对强度。这一结果说明了我们捕捉和处理视觉数据的方式--甚至低至相机中的拜耳马赛克或JPEG压缩的水平--如何对其手性产生重大影响。在本节和补充材料中，我们开发了理论工具来帮助推理这种影响，并使用该理论来预测网络将在实验中学习到什么。4.1. 变换交换性预测成像过程将如何影响手性的关键挑战是找到一种方法来推断其可能性，或者在关于其将应用于的分布的最小假设下。为此，我们考虑任意成像变换J在变换T下保持分布D（满足等式1）的对称性意味着什么。我们可以用两种方式来定义它。第一种是简单地说，如果一些对称存在于那么同样的对称性应该存在于DJ中，即分布由J的变换。第二种是说，如果元素xa和xb通过xb=Txa相关，那么这种关系应该由J保留，这意味着Jxb=TJxa。在我们的补充材料中，我们表明，当J与T对易时，两个定义都成立，而当J不与T对易时，第二个定义不成立。有了这些观测，交换性成为预测给定过程J如何影响手征性的有力工具4.2. 用交换性预测手性在我们的补充材料中，我们分析交换性来预测Bayer去马赛克、JPEG压缩、去马赛克+JPEG压缩的手性，以及所有这三种再次与随机裁剪相结合的手性然后，我们表明，在所有六种情况下，我们的分析预测了从头开始训练的网络的性能，以区分随机噪声图像及其反射。这些预测也解释了我们在图4中的观察结果。虽然补充材料中提供了全部细节，但一些关键亮点包括：• 去马赛克和JPEG压缩都是单独的手性和手性组合时。• 当随机裁剪被单独添加到去马赛克或JPEG压缩时，它们变成非手性的。• 当去马赛克、JPEG压缩和随机裁剪全部组合时，结果是手性的。这最后一个结论特别令人震惊-它意味着我们相机内部的常见图像处理操作可能会留下手性印记，即，他们留下了人们无法察觉的手性线索，但可能被神经网络检测到，并且这些特征对随机裁剪具有鲁棒性。因此，这些结论对图像取证具有一定的例如，我们的分析为我们提供了新的理论和实践工具，用于确定图像内容是否最后，我们对交换性与对称性保持的关系的分析只对J、T和D做了非常一般的假设，这使得它适用于更任意的对称性。例如，Doersch等人 [2]发现，当他们使用图像中不同区域的相对位置作为自监督学习的信号时，网络会通过利用色差进行预测来识别图像块的相对位置应用到他们的情况下，我们的分析是能够预测，色差，不与翻译，可以提供这种不对称。122995. 高阶视觉手征虽然对图像处理中出现的手性的分析在取证中具有有用的意义，但我们也有兴趣了解什么样的高级视觉内容（对象，对象区域等）。显示视觉手性，和训练集预处理测试精度InstagramF100MInstagram调整大小0.92 0.57我们是否能自动发现这些线索作为德-如第4节所述，如果我们试图从头开始训练一个网络相反，我们假设，如果我们从一个已经在ImageNet对象分类上进行过预训练的ResNet网络开始，那么它将对对象有一个熟悉度，这将使它能够避免拾取低级别的线索。请注意，这种ImageNet训练的网络不应该具有对手性特别敏感的特征-实际上，如上所述，许多ImageNet分类器使用随机水平翻转作为数据增强的一种形式进行训练。数据我们使用什么样的图像分布进行训练？我们可以尝试从所有自然图像的空间中取样然而，因为我们推测许多手性线索与人有关，与人造物体和场景有关，所以我们从具有人的图像开始。特别是，我们利用了Matzen等人的StreetStyle数据集。[17]，该数据集由从Instagram收集的数百万张图片组成。在我们的工作中，我们从StreetStyle中随机选择了70万张图像的子集，并将其称为Instagram数据集;示例图像如图1和图5所示。我们随机抽取了5 K张图像作为测试集Stest，并将剩余的图像以9：1的比例分成训练集和验证集（除非另有说明，本文中的所有实验都使用相同的train/val/test训练我们在Instagram上训练了第3节中描述的手性分类方法，从ImageNet预训练模型开始。事实证明，在将图像输入网络之前，对图像最初，我们对所有输入进行了分辨率为512×512的双线性图像。这样训练的网络在Instagram测试集上达到了92%的准确率，这是一个令人惊讶的结果，因为确定一张图像是否即使对人类来说也很困难如上所述，事实证明，我们的网络仍然能够捕捉到低级处理留下的痕迹，例如JPEG编码产生的边界伪影，这一点可以通过经常在图像角落附近发射的CAM热图来除了在ImageNet上进行预训练之外，我们发现，通过对输入图像. 特别是，我们在训练和测试期间从输入图像中随机裁剪512×512窗口（而不是简单地对图像进行缩放）。以这种方式训练的网络仍然可以达到80%的测试准确率，这仍然是一个令人惊讶的高结果。非文本提示。检查最有信心的分类-表1. 在Instagram上训练的模型的手性分类性能。通过交叉验证选择超参数。第一列表示训练数据集，第二列表示对输入图像进行的处理。最后一列报告了一个保留的测试集和一个看不见的数据集（Flickr100M，简称F100M）。请注意，相同的预处理方案（调整大小与随机裁剪）应用于训练集和测试集，并且在没有文本的Instagram上训练的模型也在没有文本的Instagram我们发现，许多涉及文本（例如，在衣服上或背景中），并且CAM热图通常主要集中在文本区域。事实上，文字是如此强烈的手性信号，以至于它似乎淹没了其他信号。这产生了一个有用的见解：对于任何语言（只要书写是手性的，这对于许多语言（如果不是所有语言）都是正确的），我们可以通过自我监督来利用手性来学习文本检测器。然而，出于当前分析的目的，我们也希望发现非文本手性线索。为了更容易识别这些线索，我们在Instagram上运行了一个自动文本检测器[25]，将其分为文本和非文本子集，然后随机采样非文本子集以形成新的训练和文本集。在无文本子集上，手性分类准确率从80%下降到74%-较低，但仍然远远高于机会。概括。也许我们的分类器学习特定于Instagram图像的功能。为了测试这一点，表1（最后一列）显示了所有模型（没有微调）对另一个互联网照片数据集的评估准确性，这是从Flickr 100 M中随机选择的照片子集[22]。请注意，Instagram和Flickr100M之间存在显著的领域差距，因为我们的Instagram数据集中的图像都包含人，而Flickr100M具有更一般的内容（风景，微距镜头等）。此外，所有人。虽然Flickr100M的性能自然低于Instagram，但我们的Instagram训练模型仍然表现出高于概率的准确率，准确率为55%（如果考虑文本，则为59%），这表明我们学习的手性特征可以推广到新的照片分布。5.1.揭示物体级手性特征检查从我们的非文本训练的Instagram模型中导出的CAM热图，可以发现一个网络，该网络专注于不同照片中的一组连贯的局部区域，例如智能手机和衬衫口袋进一步了解InstagramRandCrop0.800.59Instagram（无文本）RandCrop0.740.5512300图5. 在Instagram数据集中发现的手性簇。每行显示从单个发现的群集中选择的映像。每个图像都显示了其对应的CAM热图叠加，其中红色区域与其真实手性高度相关。我们发现了一系列的对象级手性集群，如手机，手表和衬衫。面临衬衫口袋衬衫衣领手表吉他智能手机12301我们开发了一种方法来对图像及其CAM热图进行分组，以确定哪些线索最常见和最突出。受中级判别式补丁挖掘工作的启发[3，21，14，18]，我们提出了一种基于CAM的方法，我们称之为手性特征聚类，该方法基于网络提取的特征的相似性自动对图像进行分组，在CAM认为显着的区域中。手性特征聚类。首先，我们从每幅图像中提取最具区分力的局部手性特征作为聚类阶段的输入。为此，我们考虑从网络的最后一个卷积层输出的特征映射。作为CNN的典型，这些特征是具有低空间分辨率但具有高通道维度的映射（例如，2048）。给定一个输入图像，让我们将最后一个卷积层的输出表示为 f ，在我们的例子中，它是一个维度为16×16×2048（w×h×c）的特征映射。令f（x，y）表示f的位置（x，y）处的2048-D向量。我们应用CAM，使用图像的正确手性标签，以获得16×16权重激活图A。回想一下，A（x，y）的值越高，对应于（x，y）的局部区域对正确手性标记的预测然后，我们在每个图像中定位Ai（x，y）=argmax（x，y）A（x，y）的空间最大值。这些对应于网络认为对于手性任务最显著的我们提取f（x≠，y≠）作为描述这个最大手征区域的局部特征向量。运行此程序-每个图像的dure产生特征向量的集合，我们在其上运行k均值聚类。手性特征聚类的结果。我们将此聚类过程应用于我们的无文本Instagram测试集，使用k=500个聚类。我们观察到，这种方法是令人惊讶的有效，并确定了一些有趣的对象级手性线索在我们的数据集。我们称这些簇为手性簇。引人注目的高水平手性簇的实例在图5中示出，并且包括音素（例如，以特定的方式保持以在镜子中拍照）、手表（通常戴在左手上）、衬衫领（具有纽扣领的衬衫，通常在一致的一侧上扣上纽扣）、衬衫口袋、裤子和其他物体。这些发现的手性簇中有许多是高度可解释的。然而，有些集群很难理解。例如，在图5的最后一行所示的人脸群中，作者无法找到视觉手性的明显证据，这使我们怀疑人脸中可能存在微妙的手性线索我们将在第6节探讨这种可能性。我们还观察到，一些聚类集中在图像中的尖锐边缘，这让我们怀疑尽管ImageNet初始化和随机裁剪，但仍在学习一些低级图像处理线索。6. 面孔的视觉手征受第5节中Instagram数据集结果的启发，我们现在分析人脸图像中的手性为此，我们使用FFHQ数据集[11]作为学习的基础FFHQ是最近在训练生成方法的背景下引入的70K高质量人脸数据集。我们使用7%的图像作为测试集，其余的图像用于训练，验证。我们在FFHQ上训练各种模型，首先将图像下采样到520×520的分辨率，然后随机裁剪到512×512。我们从ImageNet预训练的特征开始训练标准模型。该模型实现了准确率为81%，这是一个很有希望的指标，表明我们的网络确实可以学习预测人脸的手性，准确率明显高于偶然性。然而，可能FFHQ中存在一些偏差，导致虚假的手性信号。例如，由于使用面部对于面向左的面孔，右脸。为了测试这一点，我们评估了FFHQ训练的模型在其他独立数据集上的泛化能力。特别是，我们在另一个模型上评估此模型（未进行微调）数据集，LFW，标准人脸数据集[10]。我们将LFW中的低分辨率图像上采样到512×512，以匹配我们的输入分辨率。这产生了60%的准确率-不如FFHQ高，可能是由于不同的脸分布，但仍然明显优于机会。为了定性地探索模型已经识别的手性线索，我们在图6中显示了来自FFHQ测试集的手性簇的样本。我们可以看到，每个聚类中的CAM热图都集中在特定的面部区域。基于这些聚类，我们已经确定了一些有趣的关于面部手性的初步假设：头发部分。图6中的第一簇指示前额左侧上的毛发部分我们推测这可能是由于头发部分方向的偏差。我们手动检查了FFHQ测试集的一个子集，发现大多数人的照片从左到右分开他们的头发（对于有可见头发部分的照片，比例为10.2：1），这表明头发不对称的偏见，可能是这是因为人们喜欢用他们惯用的右手来分头发。主要注视方向，又名眼优势2。图6中的第二个集群突出显示了右眼眼角周围的区域我们认为这可能与注视方向的偏差有关，可能是由于眼优势。我们使用凝视检测软件3来确定和比较左眼和右眼中瞳孔的位置。我们发现，超过三分之二的人在肖像照片中更倾向于向左凝视。2https://en.wikipedia.org/wiki/Ocular优势3https://github.com/shaoanlu/GazeML-keras12302图6. 在FFHQ中发现手性簇。它显示了FFHQ数据集的3个手性簇。每行最左边的图像是每个集群内所有非翻转图像的平均面+CAM热图我们还为每个集群展示了一些随机的非翻转示例请注意，还有其他集群需要解释（例如“胡子”集群，这可能探索这些线索将有助于未来有趣的工作，并可能揭示我们世界中有趣的不对称性。7. 结论我们建议使用自监督学习方法，通过预测照片是否被翻转以及分析产生手性的变换的特性来发现图像分布中的视觉手性我们报告了使用我们的工具在各种数据集上识别的各种视觉手性线索，我们还发现，由于标准图像处理管道中固有的手性，低级手性线索可能在图像中普遍存在。我们的分析对数据增强、自监督学习和图像取证有影响。我们的研究结果表明，视觉手性确实存在于许多视觉数据集，这些属性应该考虑到在开发现实世界的视觉系统。然而，我们的工作表明，它也可以被用作一种信号，可以以有趣的新方式加以利用。例如，由于文本是高度手性的，我们的工作指向有趣的未来方向利用手性在自我监督的方式来学习检测文本图像中的野生。我们希望我们的工作也将激发对我们视觉世界中微妙偏见的进一步研究鸣谢。这项研究得到了埃里克和温迪·施密特（Eric andWendy Schmidt）慷慨推荐的施密特未来计划的部分支持。引用[1] L.博图随机梯度下降技巧。在神经网络中：贸易的技巧。 Springer，第421-436页，2012年。3[2] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示ICCV，2015年。三、四[3] C. Doersch，S.辛格A. Gupta，J. Sivic，and A. A.埃夫罗斯是什么让巴黎看起来像巴黎？ SIGGRAPH ， 31（4），2012. 三、七[4] H. Fu，D. Cohen-Or，G. Dror和A.谢弗人造物体的垂直方向。SIGGRAPH，2008年。3[5] S. Gidaris，P. Singh，and N.小木通过预测图像旋转的无监督表示学习。在ICLR，2018年。3[6] S. Ginosar，K. Rakelly，S.萨克斯湾Yin，和A. A.埃夫罗斯百年肖像：美国的视觉历史记录胡子眼睛头发部分12303高中年鉴在ICCV研讨会，2015年12月3[7] R.哈特利手性不变量。DARPA图像理解研讨会，1993年。3[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。3[9] Y. Hel-Or，S. Peleg和H.赫尔如何分辨左右。在CVPR，1988年。3[10] G. B. Huang，M.Ramesh，T.Berg和E.学习米勒。野生环境中的人脸：一个研究无约束环境中人脸识别的数据库技术报告07-49，马萨诸塞大学，阿默斯特，2007年10月。7[11] T. Karras，S. Laine和T.艾拉一个基于风格的类-生成对抗网络的TOR架构。CoRR，abs/1812.04948，2018。7[12] W. T.凯尔文晶体的分子策略。J.牛津大学Jr. Sci.俱乐部，18：3-57，1894年。1[13] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。InNeurIPS，2012. 3[14] Y.利湖，澳-地Liu，C. Shen和A.范登亨格尔。中级深层模式挖掘。CVPR，2015。7[15] Y. Liu，H.赫尔奥尔角S. Kaplan和L.J. 诉好极了计算机视觉和计算机图形学中的计算对称性。Foundations andTrends in Computer Graphics and Vision，5（1-2）：1-195，2010。3[16] Q. C. M. Lin和S.燕. 网络中的网络在国际学习表征会议上，第29213[17] K. Matzen，K. Bala和N.很聪明街道风格：从数百万张照片中探索世界各地的服装风格。 CoRR ，abs/1706.01869，2017。5[18] K. Matzen和N.很聪明BubbLeNet：视觉发现的中心凹成像。在ICCV，2015年。三、七[19] M. Noroozi和P.法瓦罗通过解决拼图游戏进行视觉表示的无监督学习在ECCV，2016年。3[20] L. C. 接电话ZPan，D.魏，Y.-C. 施角Zhang，中国古柏A.齐塞尔曼，B。Schoülk opf和W.T. 弗里曼。看到时间的洪流CVPR，2014。2[21] S. 辛格A.Gupta和A.A. 埃夫罗斯无监督发现中级判别补丁。ECCV，2012年。7[22] B. Thomee，D.A. Shamma，G.弗里德兰湾Elizalde，K.倪D.波兰，D。Borth和L.- J. Li。Yfcc100m：多媒体研究中的新数据。CACM，59（2），Jan. 2016. 5[23] A. Vailaya，H.Zhang C.，中国古猿科杨，F.I. Liu和A.K.贾恩。金图像方向检测. 译图像处理，11（7）：746-55，2002. 3[24] D. Wei，J.Y. S. Lim，台湾野牡丹A.Zisserman和W.T. 弗里曼。学习和使用时间之箭。在CVPR，2018年。二、三[25] H. W. Y. W. S. Z. W. H. X. Zhou C.，中国青冈C.Yao和J.梁East：一个高效准确的场景文本检测器。在CVPR，2017年。5[26] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴用于区分定位的深度特征学习。在IEEE计算机视觉和模式识别会议论文集，第2921-2929页，201612304年。3

下载后可阅读完整内容，剩余1页未读，立即下载