图像中对象丢失的学习上下文模型

190 浏览量更新于2023-10-15 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5716看到不存在的东西学习上下文以确定对象丢失孙晋马里兰大学计算机科学系{jinsun，djacobs}@ cs.umd.edu图1：当十字路口（橙色矩形）的一段人行道上缺少路缘坡道（绿色矩形）时，行动不便的人无法过马路。我们提出了一种方法来确定对象丢失的学习上下文模型，使其可以与对象检测结果相结合。摘要大多数计算机视觉关注的是图像中的内容。我们建议训练一个独立的以对象为中心的上下文表示来执行相反的任务：看到不存在的东西。给定一个图像，我们的上下文模型可以预测对象应该存在的位置，即使不存在对象实例。结合物体检测结果，我们可以执行一个新的视觉任务：找到图像中物体丢失的位置我们的模型基于卷积神经网络结构。通过专门设计的训练策略，模型学会忽略对象，只关注上下文。它是完全卷积的，因此效率很高。实验表明，所提出的方法在一个重要的可访问性任务的有效性：寻找缺少路边坡道的城市街道区域，这可以帮助数百万行动不便的人。1. 介绍最基本的计算机视觉任务，例如，图像分类和对象检测，专注于看到那里有什么：比如说这个图里面有没有路缘坡道，如果有，在哪里？使用深度神经网络模型，这些任务的计算方法正在越来越多的基准测试中赶上人类的表现然而，人类可以很容易地在引入“不存在”的对象的任务中胜过算法：例如，在这幅图中是否有一个路边坡道，如果没有，它可能在哪里？我们感兴趣的是找到图像中缺少的对象：感兴趣的对象不在那里，即使环境表明它应该在那里。从计算的角度来看，在以下情况下，对象可以被定义为在图像区域中缺失：1）物体检测器什么也没有发现; 2）对象的典型环境的预测器，即，上下文，表明其存在的可能性很高。给定一个图像，我们希望有效地检测所有这些区域。我们总结5717表1中的对象的检测器和其上下文模型之间的关系虽然有许多现有的工作利用上下文在对象检测（第2节），他们主要集中在提高性能，发现典型的对象与上下文和对象信息纠缠。在这项工作中，我们建议训练一个独立的以对象为中心的上下文表示来查找丢失的对象。通过查看相反的条件，它也可以适用于找出上下文对象。寻找丢失对象的一个实际动机来自街景路边坡道检测问题（图1）。这项任务是在城市的交叉路口标记路边坡道，以便有行动障碍的人可以自信地计划他们的路线。虽然现有的工作[9]在检测已构建的路缘坡道方面表现出良好的性能，但它无法检测缺失的路缘坡道区域。了解这些信息是非常有价值的：用户可以评估一个区域的可达性;导航算法可以为行人计算更好的路线;政府可以相应地规划未来的翻新。这对于人工标签人员来说是一项非常昂贵和耗时的任务，这也是公共数据库中缺少此类信息的部分原因。因此，我们有兴趣开发一种有效和高效的自动算法。它可以用来扫描整个城市，以找到地区的遏制坡道失踪。在这种情况下，发现的真正错过路边坡道区域的数量（召回）比精度更重要，因为要求人类验证算法结果比从头开始标记图像要轻得多。此外，即使算法报告了一个真正缺失的路缘坡道区域，但错误地忽略了图像中的其他三个区域，它仍然是有价值的预处理步骤：政府可以优先考虑城市中的交叉口评估，并更有效地分配审计员。我们认为解决这个问题的关键是学习一个只关注上下文的模型，并且像对象检测器一样有效地工作：它扫描每个图像并生成概率热图，其中每个像素表示物体存在的概率，即使没有物体在视线中。上下文和对象分解的一个很大的优点是，我们不需要异常的对象标签（丢失/脱离上下文）来进行训练。一个独立的上下文模型可以从典型对象中学习，然后用于发现异常对象。这大大简化了培训：正常对象是丰富的，并且比异常对象更容易收集和标记。在本文中，我们提出了这样一个模型的基础上卷积神经网络和一种新的训练策略来学习一个独立的上下文表示的目标对象。在第3节中，我们首先介绍一个基本网络。它采用具有显式对象掩码的输入图像，并从图像的其余区域学习有用的上下文。由于第4节讨论的局限性，我们建议标的得分情境得分图像区域备注高低高高高低典型地物缺少对象脱离上下文对象表1：对象和上下文之间的关系。对象得分是从对象检测器获得的，而上下文得分是从其上下文模型获得的。这是一个完全卷积的网络版本，它学习隐式对象掩码，从而忽略图像中的对象它在测试期间不需要对象遮罩。第5节描述了使用上下文模型来寻找丢失对象区域的过程，第6节给出了实验结果。这项工作的贡献如下。首先，我们提出了一种方法来学习一个以对象为中心的上下文表示，通过学习对象实例与面具。其次，我们提出了一种训练策略，迫使网络忽略对象并学习隐式掩码。该模型是完全卷积的，因此它也大大加快了概率热图的生成速度。最后，我们提出了promising- ing结果在街景图像中的丢失路边坡道检测问题，并找到了初步的结果，上下文外的脸。2. 相关工作对象识别中的上下文。大量证据表明，上下文信息影响人类对物体的视觉搜索和识别[3，12]。在计算机视觉中，最近它也已经成为一个很好的接受的想法，即上下文有助于对象识别算法[5，11，13，19]。通常，上下文由对象周围的语义标签表示。[15]使用条件随机场来建模对象语义标签之间的上下文关系，[11]构建了一个可变形的零件模型，该模型将对象周围的上下文标签合并为“零件”。由于背景信息和目标信息之间的耦合，这些方法不适合检测丢失的目标区域。Torralba等人提出了上下文挑战[18]，包括使用专门的上下文信息来检测对象。它们采取学习全局场景统计特征与对象尺度和位置之间的关系的方法VisualMemex [10]是一种模型，可以检索示例对象实例或预测图像中隐藏区域它使用手工制作的功能和模型上下文作为类别间的关系。我们的方法可以被看作是一种尝试解决这一挑战的通用方法，而不需要设计手工制作的功能或使用预设的对象类。寻找遗失的物件。 Grabner等人提出使用5718一般霍夫变换，以找到对象跟踪期间在视频帧中丢失的对象[7]。这个想法是从具有耦合运动的周围物体估计目标物体的位置。计算机视觉与掩蔽图像最近Pathak et al.[14]提出学习用于图像修复的卷积神经他们的工作和我们的工作都是用掩码图像训练卷积神经网络。但目的是非常不同的，因为他们试图学习一个生成模型来修补面具，而我们学习一个识别模型来推断面具里面是什么还有，掩模尺寸的分布与正样本相似。采样策略是将正采样和负采样过程交错进行，并在下一个负采样中使用前一个正采样我们训练一个卷积神经网络模型Q。该网络由四个具有池化和丢弃的卷积层和两个完全连接的层组成。其结构总结见表2。交叉熵损失（等式1）作为分类损失：Σ我们的工作使用高效的全卷积结构。可访问性任务。有了谷歌街景（GSV）服务等大量在线资源，许多计算机Lc=−Qy（Im）+logyeQy（Im），（1）算法旨在帮助残疾人并改善他们的生活质量。CrossingGuard [8]是一个旨在帮助视障行人在AmazonMechanical Turk 的帮助下穿越十字路口的系统。Tohme [9]是一个半自动化系统，它结合了众包和计算机视觉，使用GSV图像收集城市交叉路口现有的它使用可变形零件模型[6]作为路缘坡道检测器，并要求Mechanical Turkers验证结果。他们提供了一个街景路边坡道数据集与1086个城市交叉口的图像，我们在实验部分使用。3. 从显式对象掩码学习上下文在本节中，我们将介绍所提出的上下文学习算法的基础版本。如果“context”被定义为除了对象本身之外围绕对象的所有内容，那么这个模型实际上是在学习上下文：掩蔽训练图像中的每个目标对象实例。在这里，我们假设对象这是一个二元分类问题。收集正为了包括更大的上下文区域，边界框宽度与整个图像宽度的比率被设置为1/4。阴性样本是随机作物，其中心具有类似的黑色面具。选择负裁剪的位置，以使遮罩区域不会覆盖任何具有大于0.2的Jaccard指数1的地面实况标记对象。如果图像中有多个对象实例，则对于正样本，我们一次屏蔽一个对象。这是因为其他对象实例的存在可能是有用的上下文：例如，路边坡道经常成对出现。为了防止我们的上下文模型琐碎地学习特定的掩码形状，我们强制负样本共享一个1定义为两个矩形的交并比。其中，y∈ {1，2}是掩码im的地面真值标签年龄Im（1表示正，2表示负），Q（Im）是表示来自网络Q的输出的2x1向量，而Qy（Im）表示其第y个元素。层（类型）形状参数编号卷积2D（3，3，32）896卷积2D（3，3，32）9248MaxPooling2D（二、二）0辍学-0卷积2D（第3、3、64页）18496卷积2D（第3、3、64页）36928MaxPooling2D（二、二）0辍学-0全连接(53*53*64，256）46022912辍学-0全连接(256、2）514总参数：46，088，994表2：基础网络的神经网络结构总结。卷积滤波器形状由（滤波器宽度、滤波器高度、滤波器数量）元组表示该网络期望获取大小为224x224的输入图像，在中心有一个显式掩码。卷积2D(53，53，256）46022912辍学-0卷积2D（1、1、2）514表3：完全卷积层替代基础网络的最后三层。这个网络可以接受任意大小的输入，不需要显式的掩码。在测试时间期间，使用滑动窗口方法来生成新图像的概率热图，使得每个像素具有关于其包含对象的可能性的上下文得分。在每个位置，裁剪固定大小（在我们的实现中为224x224）的图像补丁，其中中心区域被掩蔽以馈送到基础网络中。掩模大小根据训练集凭经验确定。5719图2：经过Siamese训练的Fully卷积C上下文网络（SFC）的训练方案直觉是强制全卷积网络Q输出类似的结果，而不管图像是否被掩蔽。此外，网络应该产生正确的分类标签。训练在具有共享权重w的暹罗网络设置中完成。4. 学习隐式掩码使用掩码图像训练的网络存在几个问题。首先，网络倾向于学习人为的事实。[14]报告说，使用矩形掩码进行训练使网络学习他们建议使用随机掩码形状来防止这个问题。但是，我们不能使用随机掩码，因为我们的掩码是在对象的视觉范围内定义的。其次，在测试期间，基础网络期望每个输入都有一个显式掩码。当我们在所有位置和尺度上评估网络以生成热图时，这是非常低效的有标准的过程可以将具有全连接层的卷积神经网络转换为全卷积神经网络[17]，以便映射生成对于任意大小的然而，在我们的情况下，情况很复杂。在训练过程中，基础网络总是看到中心为全零的输入图像，因此在该区域上具有感受野的神经元的权重可以是任意的，因为没有更新梯度如果我们将转换后的全卷积网络应用于未掩蔽的图像，这些神经元的输出可以任意影响最终的映射。那么问题来了，我们能否训练一个网络，使它完全卷积，并通过“用心”忽略掩蔽区域来学习上下文答案是肯定的，我们现在提出一个培训战略-egy使网络学习隐式对象掩码。直觉是，我们希望网络输出类似的结果，而不管输入图像是否被屏蔽。通过执行这一目标，网络应该学会找到隐藏图像和原始图像中共享的视觉特征：即来自未掩蔽的区域。形式上，除了基础网络中使用的分类损失之外，我们还希望最小化距离损失：Ld=||Q （ Im ） − Q （ I ） ||p ，（2）其中，Q（Im）是网络Q的输出向量，其中掩码图像Im作为输入，Q（I）是网络Q的输出向量，其中未掩码原始图像I作为输入，并且·p表示Lp范数。实际上，我们有两个共享权重网络，馈送掩蔽和原始图像对（图2）。网络是基础网络的完全卷积版本（表3）。网络计算的一个流将掩蔽图像作为输入并输出Q（Im）。并行地，另一个网络计算流将未掩蔽的原始图像作为输入并输出Q（I）。分类损失Lc仅基于Q（Im）计算，而距离损失Ld由Q（Im）和Q（I）计算。这种结构被称为暹罗网络[4]，所以我们称之为暹罗网络。完全卷积上下文（SFC）网络。在[4]中，我们对距离损失Ld取L1范数.我们期望SFC网络通过向感受野为零的5720落在中心对象遮罩区域上。在测试期间，与基础网络不同，我们不必手动设置掩码大小：SFC网络已经将该信息编码在卷积滤波器的权重中。最后，总体训练目标被定义为两个损失的加权和：L=λLd+Lc，（3）其中λ = 0。5在我们的实施中这种培训策略的好处有三方面：1) 由于SFC学会忽略对象遮罩区域，因此我们可以直接将其应用于具有任意大小的新未遮罩图像：现在生成密集概率图是非常高效的。图3显示了基础网络和SFC网络生成的热图之间的比较一个1024x2048像素的图像大约需要5分钟的时间来生成一个热图，而SFC网络只需要不到4秒的时间来生成一个具有更高空间分辨率的地图2) SFC网络不太容易出现伪影。基础网络可以沿着掩模的边界学习伪影特征。由于这些特征在未掩蔽的图像中不存在，SFC网络学会忽略它们。3) 在训练过程中，我们可以有效地进行硬负在每个训练时期之间，我们可以在所有训练图像上应用SFC网络来生成热图并找到高分假阳性区域。由于完全卷积网络的效率，这一步可以很容易地包含在训练中。第6.2节表明，硬否定挖掘确实大幅提高了网络性能。5. 查找丢失的对象区域管道通过训练的独立上下文网络（基础网络或SFC网络），我们总结了在测试图像中查找丢失对象区域的过程。1) 使用上下文网络生成上下文热图Q.这张地图显示了一个对象应该出现的位置。2) 生成对象检测结果使用任何对象检测器。将检测框转换为二进制映射，方法是将0分配给检测到的框区域，否则分配1。这个二进制映射显示了没有找到对象的位置。3) 在上下文热图和二进制映射之间执行逐元素乘法。生成的地图显示了对象根据其上下文应该出现的区域，但检测器什么也没发现。4) 根据生成的地图从图像中裁剪高分区域（高于预设阈值）。这些是物体丢失的区域。图3：顶部：输入街景全景图像。中间：由基础网络使用滑动窗口方法生成的热图。下图：SFC网络生成的密集热图6. 实验在本节中，我们首先研究6.1小节中的基础网络和SFC网络的特征。然后我们评估其有效性。随着上下文和对象信息的分解，我们研究了两个独特的任务，可以使用一个独立的上下文模型有效地执行。子节6.2示出了在街景图像中查找丢失的路边坡道区域的实验结果。小节6.3示出了检测上下文外的面部的初步结果。6.1. 训练模型的特征作为验证研究，我们首先检查基础和SFC网络对输入图像中微小变化的敏感性所有的实验都是在路边坡道街景数据集上进行的。理想的模型对输入图像的中心区域具有小的响应变化，其中在训练期间放置掩模。为了进行评估，我们通过添加一个小的噪声来每次改变测试图像中的一个像素值。对于每个像素，记录干扰前后网络输出之间的L2最后，我们得到一个地图，显示图像中的哪个区域对网络的输出有很大的影响。这可以被看作是网络相对于其输入的一阶导数的估计。图4显示了结果5721并对基站网络和SFC网络进行了比较。这个结果是在20个不同的图像样本上相加的。图4：基础网络（左）和SFC网络（右）的灵敏度图：黑点表示高灵敏度点。与基础网络相比，SFC图的中心有一个明显的空白区域，这表明该区域的变化对网络的输出影响很小SFC网络学习隐式区域掩码。从结果可以清楚地看出，SFC网络在输入图像的中心区域具有这很可能是由于网络学习使其感受野落在输入图像的中心区域的神经元静音。SFC的灵敏度图中的空白区域接下来，我们在测试数据上检查基础网络和SFC网络的距离损耗Ld使用同一组训练超参数和设置（学习率，训练时期）来训练两个网络，平均Ld损失总结在表4中。很明显，SFC网络在产生类似输出方面更加一致，而不管对象掩码如何。SFC网络基础网络Ld损失0.0412.27表4：路边坡道数据集测试集上两个网络的平均Ld损失较低的损失意味着网络从掩蔽图像和未掩蔽图像的输出之间的变化较小SFC网络按预期运行：1）它学习隐式掩码，因此它对中心区域中的任何变化不太敏感; 2）它为分类任务学习的有用特征主要来自未掩码区域。6.2. 查找缺失的路缘坡道区域Setup. 我们希望在街景路缘坡道数据集中找到缺失的路缘坡道[9]。该数据集包含来自北美四个城市的1086个Google街景照片：华盛顿特区、巴尔的摩、洛杉矶和萨斯卡通（加拿大）。每个全景图像具有1024x2048像素。它为前路缘坡道提供边界框标签。平均每辆车有四个路边坡道，形象此外，对于我们的评估，一位专家标记了所有缺失的路缘坡道区域。数据集分为一半训练和一半测试。每个图像被转换到YUV颜色空间和正常化为零均值和一个标准偏差在所有通道。我们使用数据集提供的路缘坡道检测器，可变形零件模型，具有默认设置。训练对于每个epoch，从训练数据中生成5000个样本，其中一半是阳性，一半是阴性。图5示出了几个示例。每个样本有50%的概率被水平翻转的数据扩充的目的。正样本包含路缘坡道周围的有效上下文。从不包含路缘坡道的区域随机裁剪负采样。为了训练SFC网络，每个样本准备有两个版本：粗糙和面具。我们调整正样本的大小，使得对象宽度在224像素宽的图像中接近55像素每个负样本使用与最后一个正样本相同的对象遮罩和比例，以防止网络过度拟合遮罩形状。图5：路边坡道的训练示例。绿色矩形代表阳性样本，红色矩形代表阴性样本。我们使用Keras/Tensorflow神经网络软件包[1]。优化算法使用带有默认参数的Adadelta。由于这是自适应学习率方法，因此在训练期间不需要设置学习率调度。20%的训练数据用作早期停止测试的验证集。使用相同的超参数和训练设置来训练基础网络和SFC网络。结果按照第5节中描述的过程，我们在测试图像上运行两个网络，以生成图像中路边坡道位置的概率热图。对于基础网络，每个热图以滑动窗口方案生成，其中步幅为10个像素，并且各种对象掩模宽度为{50，70，100}像素以生成多尺度图。 SFC网络对象遮罩大小，因此我们使用缩放{0.5，0.7，1.0}调整输入全景图像的大小。数字的选择是为了让两个网络看到类似的图像金字塔。我们使用随数据集提供的Doppler检测器来生成检测结果，结果。对于每个全景图，我们生成一个最终的地图，该地图将检测和上下文地图结合起来，并以大小d×d裁剪高分区域（高于某个阈值）。根据初步的实证研究，我们设置了背景5722在整个实验中，阈值为0.4。我们使用人工验证来评估所报告的缺失路边坡道区域的质量。为此，我们开发了一个基于Web的界面（图6），该界面显示了一个已找到区域的图库，并按其上下文得分进行排名对于每个候选区域，用户提供关于其是否确实是缺失的路缘坡道区域的反馈我们比较了由基础和SFC网络生成的上下文映射与三种基线方法：随机分数，空间先验图和更快的RCNN [16]缺失路边坡道检测器。图6：验证的Web界面。每个缩略图显示一个检索到的区域，其分数显示为-低。用户点击缩略图来验证它。随机分数将[0，1]的均匀随机上下文分数分配给图像中的所有位置。这是一个显示偶然表现的参考基线。利用街景地图中路缘坡道我们使用先验映射作为上下文映射的替代品进行比较。我们从训练图像中收集所有路边坡道的先验空间分布。使用30x30像素高斯核（sigma=10）对收集的分布进行平滑。图7显示了我们实验中使用的空间先验图。由于大多数道路都位于街道交叉口，因此数据集之间具有很强的空间结构一致性。我们希望这种方法是一个合理的基线。图7：从训练集中路缘坡道的地面实况位置生成的空间先验热图。结果表明，路缘坡道的分布并不均匀。由于缺少路边坡道区域标签，我们可以将此任务视为标准的对象检测问题，并直接训练更快的RCNN检测器：阳性标记为缺失路缘坡道的区域。请注意，更快的RCNN检测器能够学习上下文，因为它是一种端到端的方法：潜在地，检测器可以从整个图像中学习，以预测丢失的路边坡道区域的位置。我们希望更快的RCNN检测器是一个强大的基线。缺失的路缘斜坡区域的验证需要领域知识。其中一位作者对可访问性问题有着丰富的经验，他使用我们的Web界面验证了结果。图8显示了真实缺失路缘斜坡区域的召回率与访问区域数量（召回率@K）的比较检索到的区域大小被设置为d=400像素。从543张测试图像中检索出500个区域。结果表明，采用硬否定挖掘的SFC网络优于其他方法.我们认为它的优势来自于高效的全卷积结构，有助于训练和生成高分辨率的上下文映射。空间先验图显示了合理的性能，这证实了数据集中路边坡道位置与空间先验图不同，所提出的方法可以很好地工作在没有这种偏差的其他数据集上。与SFC网络相比，FasterRCNN检测器的召回率明显更低。随着更多缺失的路边坡道区域作为训练数据，我们期望Faster RCNN检测器表现出更好的性能;另一方面，SFC网络在训练中甚至不需要缺失的路缘坡道标签。所提出的方法学习有用的上下文信息，从正常的路边坡道，这是更容易收集和标记比错过路边坡道区域。此外，SFC网络正在使用来自较不先进的路边坡道检测器（随数据集提供的一个模型）的检测结果：77%的错误缺失的路边坡道检索是由于不准确的路边坡道检测。由于页面限制，我们在补充文档中显示了检索区域的更多定性结果此外，我们研究了检索到的区域大小d对真正缺失的路边坡道区域的数量的影响。具体来说，我们将裁剪区域的大小从宽度400像素改变为100像素。如果区域大小较小，则在区域中心精确定位缺失的路缘坡道就变得至关重要。表5示出了SFC网络不太受减小的视场的影响。这是因为它发现的区域非常局部化（见图6）。另一方面，当区域尺寸变小时，两种基线方法（随机分数和先验图）表现不佳。讨论在测试集中的543个街道视图交叉口中，SFC网络仅通过查看500个区域就能够找到27%的缺失这是一个令人印象深刻的结果：1）整个过程非常高效（表6），因此可以轻松部署以扫描新的城市区域。例如，大约有2,820个交叉路口57230.30.250.20.150.10.050随机得分空间先验更快的RCNN基础网络（我们的）SFC（我们的）SFC + Hard Negative Mining（我们的）0 100 200 300 400 500检索区域6.3. 寻找上下文外的面孔第5节中用于查找丢失对象的流水线可以通过一些小的修改来查找上下文外的对象：通过将1分配给检测到的框区域并且将0分配给其他区域来改变步骤2;改变步骤4以检索最低评分的区域。在这里，我们展示了一个初步的结果，发现了上下文的脸，以证明所提出的方法在不同领域的推广能力和可能的未来方向。任务是在更广泛的人脸数据集中找到上下文之外的人脸[20]。使用与查找丢失对象类似的程序和最先进的面部检测器[21]，我们从验证集中重新检索包含高面部检测器分数和低上下文分数图8：真实缺失路缘坡道区域的回忆与查看的区域数量（回忆@K）。我们的基础和SFC网络表现优于两个基线方法（随机得分和先验图）的大幅度。更快的RCNN检测器和所提出的方法之间的重新调用的差异是实质性的。在所提出的方法中，具有硬否定挖掘的SFC网络区域宽度400200100证监会353327空间先验1384随机分数420表5：检索到的区域大小对255个区域中发现的缺失路边坡道的原始数量的影响（越高越好）。随着区域宽度的缩小，SFC的表现非常一致，而两种基线方法（随机评分和先验图）的定位效果较差。上下文映射（*）检测验证成本4s/图像22秒/图像20min/500 ims表6：寻找缺失路边坡道的不同步骤的时间成本。整个过程是高效的，因为上下文和检测图可以并行生成。*使用证监会网络。在纽约曼哈顿：我们的系统只需几个小时就能在一个拥有160万人口的地区找到缺失的路缘坡道; 2）可达性报告显示，路缘坡道状况（缺失或未缺失）显示出高度的接近一致性：如果一个交叉口缺少路缘坡道，则附近的交叉口极有可能存在类似问题[2]。我们的研究结果可以作为一个初步的探针，以快速定位城市地区，需要特别注意。为了评估，我们将上下文外的脸定义为没有可见身体的脸。图9显示了SFC网络的定性结果。我们将SFC网络结果与随机评分进行比较。在500个区域中，SFC网络可以找到27个断章取义的面孔，而随机评分发现14. 虽然这一结果是初步的，但它表明，所提出的方法有可能用于许多其他应用程序，在这些应用程序中，发现上下文对象很重要：例如视觉异常检测。图9：SFC网络检索的上下文外的面孔。7. 结论我们提出了一种方法来学习一个独立的上下文表示找到丢失的对象在图像中。我们的模型基于卷积神经网络结构，我们提出了学习隐式掩码的方法，使网络忽略对象，只关注上下文。实验结果表明，该方法能够有效地发现路边匝道缺失区域.致谢这项工作得到了NSF资助（IIS-1302338和1526234）的支持。召回5724引用[1] Keras ： Theano 和 TensorFlow 的深度学习库。https://keras.io/的网站。6[2] 实现普及：美国残疾人行为人行道和遏制坡道自我评估报告。2009年9月，华盛顿州贝尔维尤市。8[3] M.酒吧上下文中的可视对象。Nature Reviews Neuro-science，5（8）：617-629，Aug. 2004. 2[4] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR'05），第1卷，第539-546页，第1卷。1，2005年6月。4[5] S. Divvala，D. Hoiem，J. Hays，A. Efros，和M。赫伯特物体检测中语境的实证研究。在IEEE计算机视觉和模式识别会议上，2009年。CVPR 2009，第1271-1278页，2009年。 00155. 2[6] 费尔岑斯瓦尔布河Girshick，D. McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEE Transactions on Pattern Analysis and MachineIntelligence，32（9）：1627-1645，Sept. 2010. 3[7] H. Grabner，J. Matas，L. Van Gool和P.卡丁追踪隐形人：学习物体可能在哪里。在2010年IEEE计算机视觉和模式识别会议（CVPR），第1285-1292页，2010年。00062. 3[8] R.盖伊和K。张CrossingGuard：探索视障行人导航辅助设备中的信息内容。在SIGCHI Conference on HumanFactors in Computing Systems，CHIACM。3[9] K. Hara ， J. Sun ， R. 穆尔， D. Jacobs 和 J. FroehlichTohme：在谷歌街景中检测路边坡道--利用众包、计算机视觉和机器学习。第27届ACM用户界面软件和技术研讨会论文集，UIST'14，第189-204页，美国纽约州纽约市，2014年ACM。二、三、六[10] T. Malisiewicz和A.埃夫罗斯超越类别：对象关系推理的视觉记忆模型。耶氏酵母中Bengio、D. Schuurmans，J.D.拉弗蒂角K. I. Williams和A. Culotta，编辑，神经信息处理系统进展22，第1222-1230页。Curran Associates，Inc. 2009. 2[11] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第891-898页2[12] A. Oliva和A.托拉尔巴语境在物体再认中的作用Trendsin Cognitive Sciences，11（12）：520-527，2007. 2[13] W. 欧阳X.Zeng和X.王. 单行人检测辅助双行人IEEETransactionsonPatternAnalysisandMachineIntelligence，37（9）：1875 2015. 2[14] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议论文集，第2536-2544页三、四[15] A. Rabinovich，A.韦达尔迪角Galleguillos，E. Wiewiora和S.贝隆吉上下文中的对象。2007年IEEE第11届国际计算机视觉会议。 ICCV 2007，第1-8页，2007年。00365.2[16] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.神经信息处理系统进展，第91-99页，2015年。7[17] P.Sermanet，D. Eigen，X. Zhang，M.马蒂厄河Fergus和Y.乐存。Overfeat：使用卷积网络集成识别、定位ICLR，2014年。4[18] A.托拉尔巴用于对象检测的上下文启动。IJCV，53：2003，2003.00516. 2[19] P. 王湖，加-地Liu，C.沈，Z.Huang，黄背天蛾A.van denHengel，以及H.陶申。那个东西有什么问题吗通过对所述检测分数分布进行建模来识别不寻常对象的图像。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[20] S. Yang，P. Luo，C. C. Loy和X.唐更宽的脸：人脸检测基准。在IEEE计算机视觉和模式识别会议，2016年。8[21] K. Zhang，Z.Zhang，Z.Li和Y.乔使用多任务级联卷积网络的联合人脸 IEEE Signal Processing Letters ， 23（10）：1499- 1503，Oct. 2016. 8

下载后可阅读完整内容，剩余1页未读，立即下载