学习视觉外观的动态地图

3 浏览量更新于2023-10-20 收藏 3.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1学习视觉外观的动态地图Tawfiq SalemScott Workman Nathan Jacobs迈阿密大学DZYNE Technologies肯塔基大学摘要世界的面貌不仅因地而异，而且因时而异，因月而异。每天都有数十亿张图像捕捉到这种复杂的关系，其中许多都与精确的时间和位置元数据相关联。我们建议使用这些图像来构建一个全球规模的，动态的视觉外观属性地图。这样的地图使得能够细粒度地理解在任何地理位置和时间的预期外观。我们的方法将密集的架空图像与位置和时间元数据集成到一个通用框架中，该框架能够映射各种各样的视觉属性。我们的方法的一个关键特征是它不需要手动数据注释。我们演示了这种方法如何支持各种应用程序，包括图像驱动的映射，图像地理定位和元数据验证。1. 介绍最近对“假新闻”的关注导致了对验证图像是真实的和未被操纵的兴趣。关于这个问题的早期工作集中在低级别的图像统计[4，6]，但是这种方法无法来检测图像元数据的伪造。Matzen和Snavely [21]介绍了一种用于发现异常时间戳的方法，但他们的方法基于视觉对应并且需要重叠图像。最近的工作已经开始更彻底地研究这个问题，新的数据集[10]和全面系统的建议[3]。然而，没有以前的工作提供的动态地图的视觉属性，是必要的检测时间/位置元数据伪造。我们建议使用从地面图像估计的视觉属性，如图1所示，来学习视觉属性的动态地图。除了Meta数据验证之外，这种地图还有许多应用，包括地理定位图像，为自动驾驶车辆提供上下文信息，以及支持对视觉环境与环境之间关系的进一步研究。图1：由于位置和时间的差异，视觉外观会发生显著变化。我们的工作利用稀疏分布的地面图像数据，与相关的位置和时间元数据，结合架空图像构建动态地图的视觉appearance属性。健康与幸福[26]由于分布的复杂性，直接从位置和时间预测视觉属性是困难的。例如，它需要记住感兴趣区域内每条道路和建筑物的位置。为了克服这一点，我们的模型使用多模态卷积神经网络将架空图像其结果是一个模型，能够生成一个世界范围内，动态地图的视觉属性，捕捉本地和全球的模式。我们关注两个视觉属性：场景类别[44]，例如图像是否查看阁楼或动物园，以及瞬态属性[15]，包括时变12435冬夜夏日早晨春天的下午12436如晴天和雾的属性。我们选择这些是因为它们是众所周知的，容易理解的，并且具有非常不同的时空特征。前者在一段时间内相对稳定，但会因地点而迅速变化，特别是在城市地区。后者有规律的，戏剧性的变化，在一天中，并与尊重的季节.我们的方法有几个有用的特性：它不需要任何人工注释的训练数据;它可以在大的和小的空间尺度上模拟视觉属性的差异;它捕捉时空趋势，但不要求在每一个时间的开销图像，并且可扩展到宽范围的视觉属性。为了评估我们的方法，我们创建了一个由成对的地面和头顶图像组成的大型数据集，每个图像都有位置和时间元数据，我们称之为交叉视图时间（CVT）。使用CVT，我们demonstrate我们的动态映射方法在几个任务上的有效性。在每一种情况下，我们的完整模型，它结合了开销图像和元数据，是优越的。2. 相关工作计算机视觉的最新进展已经能够估计各种各样的视觉属性，包括场景类别[44]，天气条件[15]和演示图形[7]。随着这些技术的成熟，许多应用领域已经发展到需要理解视觉属性、地理位置和时间之间的关系。2.1. 图像驱动映射通常，用于生成地图的基于图像的方法通过从大规模地理标记的图像集合中提取视觉属性开始，然后应用空间平滑的形式，诸如局部加权平均。示例包括绘制土地覆盖[17]、风景[41]、降雪[34]、面部外观[2]和各种其他视觉属性[33]的方法。将俯拍影像与影像驱动的映射相结合，减少了对空间平滑的需求，从而生成更高质量的地图。这已被证明是各种视觉属性，包括建筑属性[40]，自然美景[39]，场景布局[42]，音景[25]，对象分布[9，24]和土地使用[28]。最近的工作通过合成完整的地面图像将这一点发挥到了极致[5，23，42]。在这项工作中，我们执行图像驱动的映射使用开销图像，位置和时间作为额外的上下文，从而在高分辨率，动态地图的视觉属性。大多数以前的工作忽略了时间，或者仅仅使用它来过滤空间平滑之前的时间间隔之外的图像我们的工作类似于[37]，但我们专注于映射视觉属性。2.2. 图像地理定位最近，人们对图像地理定位问题产生了极大的兴趣，即，估计相机的地理位置，或场景中的对象，给定从图像中提取的视觉属性[11，35]。最近的工作表明，学习地面和头顶图像视点之间的特征映射使得能够在没有附近地面图像的区域中进行图像定位[18，19，36，38]。从这项工作中，我们看到，图像地理定位需要从地面图像中提取视觉属性的能力前者促使我们专注于生成高质量的视觉属性动态地图。2.3. 位置上下文有助于图像理解研究表明，额外的背景可以帮助视觉理解。Tang等人[29]使用图像捕获的位置来提高分类准确性。Luo等人。[20]使用高空图像作为额外的背景来提高地面照片中的事件识别。Zhai等人[43]描述了使用位置和时间元数据学习图像特征的方法。Lee等人。[16]使用地图数据来学习估计地理信息属性，如人口密度和海拔。Wang等人。[32]使用位置信息和天气条件来学习面部属性分类的特征表示。我们的动态映射方法的一个潜在用途是作为这样的图像理解应用程序所需的上下文模型。3. 交叉视图时间（CVT）数据集为了支持动态图像驱动的映射，我们引入了一个新的大规模数据集，其中包含地理标记的地面图像，相应的捕获时间，以及位于同一地点的头顶图像。我们将我们的数据集称为跨视图时间（CVT）数据集。它类似于以前的交叉视图数据集[31，36，38]，但我们的数据集在为所有图像提供时间戳方面是独一无二的。我们的数据集是从两个地面图像来源构建的。第一个来源是许多户外场景档案（AMOS）[13]，这是一个从世界各地的公共户外网络摄像头拍摄的超过10亿张图像的集合。该子集[22]包括2013年至2014年间从50个网络摄像头拍摄的图像，共计98633张图像。每个图像与网络摄像头的位置和指示图像被捕获的时间的时间戳（UTC）相关联第二个来源是Yahoo Flickr CreativeCommons 100 Million Dataset（YFCC 100M）的一个子集这个子集[43]包含由智能手机捕获的带有时间戳的地理标记的户外图像。我们将这两个来源的图像结合起来，12437图2：来自CVT数据集的头顶图像和相应的地面图像图3：CVT数据集的空间分布。蓝色（黄色）点代表训练（测试）数据。混合数据集包含305 011地面图像。对于每个图像，我们还从Bing地图下载了一个正射纠正的头顶图像（800×800，0。60米/像素），以地理位置为中心。我们随机选取了25000幅地面图像和相应的高空图像，并将其保留用于测试。这产生了280 011个图像对的训练数据集图2显示了CVT数据集的示例图像。图3显示了训练图像（蓝点）和测试图像（黄点）的空间分布。对分布的可视化分析显示，这些图像是从世界各地捕获的，其中来自欧洲和美国的图像较多。此外，检查与每个图像相关联的捕获时间示出了图像覆盖广泛的时间范围。图4显示了两种地面图像源的月和小时分布。我们观察到网络摄像头图像在时间上比手机图像捕获得更均匀。该数据集可在我们的项目网站上获得。14. 动态视觉外观映射我们提出了一个通用的方法，动态视觉应用程序映射，可用于建模广泛的属性和支持许多任务。1https://tsalem.github.io/DynamicMaps/图4：CVT数据集的时间分布。4.1. 问题陈述我们的目标是构建一个地图，表示在任何地理位置和时间的预期外观。使用一组视觉属性来定义预期外观，这些视觉属性可以是低级别的，例如颜色直方图，也可以是高级别的，例如场景类别。对于给定的视觉属性a，这样的映射可以建模为条件概率分布P（a|t，l），给定观看者的时间t和位置l。分布P（a|t，l）学习起来很有挑战性，因为它本质上需要记住地球以及它如何随时间变化。我们假设我们有一组地面图像，{i}，每个都具有关联的捕获时间{ti}和地理位置元数据{li}。此外，我们假设我们有能力计算，或以足够的精度估计所有图像的每个视觉属性。计算的视觉属性{ai}可以被认为是来自概率的样本。12438图5：我们的网络架构概述，其中包括我们训练用于预测视觉属性的网络（左）和我们用于从地面图像中提取视觉属性的（冻结）网络（右）。概率分布P（α|t，l），并用于模型拟合。4.2. 方法概述克服困难的直接 P（a）模型|t，l），我们还将分布条件化在位置的顶视图I（l）上。具体地说，我们定义了一个条件概率分布，P（a|t，l，I（l））。这样一来，网络就不再需要记住世界上每一条道路、河流和建筑物的位置。我们使用卷积和全连接神经网络的混合来实现这一点，以将条件变量映射到视觉属性P（a）上的分布参数。|F（t，l，I（l）; Θ）），其中Θ表示所有神经网络的参数。图5是我们完整架构的概述，在本例中，它同时预测了两个视觉属性。从左边开始，我们首先使用一组上下文神经网络为每个条件变量构建一个特征嵌入。我们结合这些上下文特征，使用每个属性的估计器网络来预测视觉属性。从右边开始，一组预先训练的网络从地面图像中提取视觉属性。这些网络仅用于提取视觉属性，而不是在我们的框架中训练。这个宏观架构经过精心设计，以平衡多个标准。最重要的是，头顶图像不依赖于时间。这意味着，对于感兴趣的每个时间戳t，不需要开销图像。每个地点都需要一幅鸟瞰图，但鉴于高分辨率卫星和航空图像的广泛可用性，这并此外，在推理时，卫星图像的特征提取仅需要发生一次，因为提取过程不依赖于时间或属性。4.3. 网络架构详细信息我们提出了一种新的宏观架构建模的动态视觉外观地图。在本节中，我们定义了用于评估的特定神经网络架构和超参数。视觉属性我们关注两个视觉属性：地点[44]，它是365个场景类别的分类分布，以及瞬态[15]，它是一个多标签属性，具有40个值，每个值反映不同时变属性的存在程度，例如晴天，多云或阴沉。为了提取地点属性，我们使用预先训练的VGG-16 [27]网络。为了提取瞬态属性，我们使用ResNet-50 [12]模型，该模型使用瞬态属性数据库[15]进行训练。上下文网络对每个条件变量进行编码，即，时间、地理位置和俯视图像，转换为128维特征向量。对于时间和地理位置输入，我们使用两个类似的编码网络，每个网络由三个完全连接的层组成，并具有ReLU激活。这些层分别有256、512和128个神经元。地理位置以地球为中心的地球固定坐标表示，范围为[-1，1]。时间分为两部分：一年中的一个月和一天中的一个小时每一个都被缩放到范围[-1，1]。对于开销图像，我们使用ResNet-50模型从最后一个全局平均池化层中提取2048维该特征被传递给每个属性的头部。每个头由两个完全连接的层组成，这些层使用Xavier方案随机初始化[8]。每个头部的层分别有256和128个神经元，每个都有ReLU激活。对于每个视觉属性，有一个单独的估计器网络，只有完全连接的层，直接预测视觉属性。它们的输入是上下文输出的连接12439临时住所模型Top-1Top-5在-0以内。1在-0以内。2位置（k-NN）十七岁68四十2650块96七十七。10时间（k-NN）五、84十七岁82四十八7575. 77时间+位置（k-NN）19号。0841岁1551岁84七十七。51美国有线电视新闻网（CNN）12个。70三十二45四十八5075. 45时间（CNN）4.第一章45十六岁91四十七3775. 34时间+位置（CNN）十七岁05三十五50五十四6979岁。15美国有线电视新闻网（CNN）十五岁16三十八岁。40四十九87七十六。55sat+loc（CNN）十六岁9841岁4650块57七十七。17美国有线电视新闻网（CNN）19号。66四十78五十六1479岁。79sat+time+loc（CNN）21.5844.0056.9180.55表1：我们的完整方法（sat+time+loc）与各种基线模型的预测准确性比较网络.对于每个估计器网络，前两层（具有ReLU激活）分别包含256和512个神经元。第三层代表输出，神经元的数量取决于视觉属性。在这种情况下，Places估计器有365个输出神经元，具有softmax激活，而Transient估计器有40个输出神经元，具有sigmoid激活。4.4. 实现细节我们联合优化所有估计器和上下文网络，损失反映了我们对从地面图像中提取的视觉属性的预测质量，{Ii}。对于地点估计量，损失函数是从地面估计的属性之间图像和网络输出。对于瞬态估计量，损失函数是均方误差（MSE）。这些损失使用Adam [14]使用大小为32的小批量进行优化。我们应用尺度为0的L2正则化。0005，并以学习率0训练所有模型10个时期。001。所有网络都是使用TensorFlow [1]实现的，并将与社区共享输入图像被重新调整为224×224并缩放为[-1，1]。我们预先训练了开销上下文网络，以直接预测位于同一地点的地面图像的Places和ImageNet然后，权重被冻结，只有添加的属性特定头部是可训练的。为了从地面图像中提取瞬态属性，我们使用具有MSE损失的瞬态属性数据库[15]训练ResNet-50权重使用Xavier方案随机初始化，并使用Adam [14]进行优化，直到以学习率0收敛。001和批量64。由此产生的模型在测试集上实现了3.04%的MSE，比原始工作中的4.3%MSE有所改进[15]。124405. 评价我们评估我们的方法使用CVT数据集定量，定性，并在各种应用程序。我们使用Top-1和Top-5分类准确度作为评价Places属性预测质量的度量。对于瞬态属性，我们使用在地面真值的阈值（0.1或0.2）内的属性预测百分比。在这两种情况下，这些都是整个测试集的平均值。5.1. 探索性数据集分析为了更好地理解位置、时间和这些属性之间的关系，我们进行了一项初步研究，没有使用俯拍图像。对于地点属性，我们使用k-NN分类器（k=30）来探索这种关系。我们使用时间（线性）和纬度/经度（度）作为特征。我们使用网格搜索来调整时间，以优化使用所有功能时的准确性所得分类器在测试集上获得19.08%的准确度（参见表1）。如果我们去除时间特征，准确率下降到17.68%。如果我们去除两个位置特征，则准确率为5.84%，这优于忽略所有特征（1.96%）。由此可见，Places属性高度依赖于位置，而不太依赖于时间。我们感到惊讶的是，时间特征本身导致如此高的准确性。我们怀疑这是由于在一年中不同时间拍摄的照片类型的差异。对于瞬态属性，我们使用了类似的设置。唯一的变化是使用k-NN回归模型。表1显示了特征之间的差异没有Places属性那么显著。相反，我们专注于删除位置和时间特征对单个属性的影响例如，当删除位置特征时，我们发现某些属性的准确性繁忙，雾，阴沉），而对其他人来说，它上升了2%以上（例如，dawndusk，dark，night）。对于时间特征，我们发现所有属性的准确性都下降了，其中一些显著下降（例如，冬天，雪，郁郁葱葱），但其他人只有轻微的（例如，雨、日出、日落、感伤）。这些结果强调了视觉属性，位置和时间之间的关系是复杂的，我们的数据集使我们能够将直观的概念转化为具体的实验结果。5.2. 定量评价我们训练了完整模型的几个变体，sat+time+loc。对于每一个，我们忽略了一个或两个条件变量，但保留所有其他方面。我们使用相同的训练数据、训练方法和微架构。总共，我们训练了六个基线模型：loc，12441郁郁葱葱的温暖阴沉图6：不同瞬态属性的动态可视属性映射。在每一种情况下，黄色（蓝色）对应于相应属性的较高（较低）值。每个属性都表现出独特的空间和时间模式，这与作者的个人旅行经历密切相关time、sat、time+loc、sat+loc和sat+time。我们在测试集上评估表1显示了所有方法在两个视觉属性上的准确度。我们发现我们的方法具有最高的准确性。然而，基线模型的排名根据视觉属性而变化。例如，与地点属性相比，“trans-sient”属性的sat+loc模型的准确性相对较差这是有道理的，因为前者高度依赖于图像的捕获时间，而后者随着时间的推移更加稳定。我们还注意到，这两个属性，通过在模型中包括开销图像获得的显着改善。例如，time+loc模型比我们的完整模型差得多5.3. 可视化属性映射图6显示了从我们的模型呈现的几个示例属性映射。为了构建这些数据集，我们使用CVUSA数据集[38]，其中包含横跨美国大陆的架空图像。具体来说，我们使用的488 243开销图像与Flickr图像的数据集中的一个子集。对于每个头顶图像，我们使用我们的完整模型sat+time+loc计算视觉属性。我们将一天中的时间指定为下午4点，并根据月份而变化。我们观察到的趋势符合我们的预期。例如，对于表示植被生长的瞬态属性lush，一月在最北部区域具有低值（蓝色）。然而，最高的估计（黄-低）包括像佛罗里达州和加利福尼亚州的地区。郁郁葱葱的-ness estimate progressively increases from January throughApril, achieving its highest value in July.同样，温暖属性在冬季和春季都在西南部最高，但在夏季月份达到更高的整体值同时，冬季的阴沉属性最高，偏向西北太平洋，夏季减少。图7显示了估计属性如何随时间变化的示例我们提出的模型不仅可以捕获一年中几个月的不同属性的变化，还可以捕获一天中几个小时的变化。在图7中（右上），1月的一天中的冷属性高于7月的一天，而在图7中（右下），温暖属性则相反。这些结果表明，我们的模型已经捕捉到了时间趋势。6. 应用我们展示了我们的动态映射方法可以用来支持三个图像理解应用程序：本地化，检索和元数据验证。总之，他们证明，结合开销图像，位置和时间是正确建模的视觉属性的动态分布的关键每个应用程序的一个关键组成部分是计算地面图像的视觉属性和我们的模型预测的视觉属性之间的距离。对于地点属性，我们使用KL散度，对于瞬态属性，我们使用L2距离。我们还定义了Combine，它是这两者的加权平均值，其中λ一月四月七月12442纬度47367经度：8。55图7：对于给定的位置和相应的开销图像，（顶部，右侧）显示了我们的模型对cold属性的预测。同样，（右下角）显示了warm属性。这两个例子都表明，我们的模型已经学习了视觉属性的动态模式。临时地点组合上下文前1%前5%前1%前5%前1%前5%坐4.第一章80十五岁30十八岁80四十二0021岁60四十二60sat+loc五、50 十五岁4023岁00四十五4023岁90四十五00sat+time十三岁10二十二岁5023岁90四十三60二十四岁9044. 00sat+time+loc十三岁70二十五0028岁70四十七6031.2049.30表2：不同型号和距离测量的定位精度。作为Places的权重和Transient的1 −λ。λ的值根据经验为每个应用选择。6.1. 应用：图像定位我们使用从测试集中随机抽样的1000张地面查询图像来评估我们的模型在图像地理定位任务上的准确性。要本地化图像，我们首先提取其视觉属性。然后，我们预测所有1000个开销图像的视觉属性。作为上下文，我们使用相应的头顶图像的位置和地面图像的捕获时间。我们计算这些预测属性和从图像中提取的属性之间的距离。我们使用λ=0。58计算组合距离时。表2显示了该实验的结果。每个数字表示正确定位在候选位置的前k %内的查询图像的百分比对于给定的阈值，局部化的百分比越高越好。该实验表明，我们的完整模型优于基线，并且使用Combine距离可以获得最高的准确度。它还表明，在使用瞬态特征进行本地化时，时间属性是必不可少的。在所有情况下，只使用图像，这是目前最先进的，结果在最低的准确性。临时地点组合上下文前1%前5%前1%前5%前1%前5%时间十三岁4四十八9010个。85四十五40十三岁25四十八85loc+time31岁5081. 50二十七岁2074岁90三十六2082岁10sat+time三十四5081. 6531岁6579岁。55三十七5083岁30sat+time+loc三十二9582岁30三十三岁。6079岁。8540.3084.35表3：各种基线和两个阈值的时间验证精度我们的结合距离方法优于所有其他方法。6.2. 适用范围：图像检索在这个定性的应用程序中，我们展示了如何使用我们的模型来检索一组可能在给定的位置和时间被观察到我们从一个头顶上的图像开始，指定一个感兴趣的时间，并预测视觉属性。我们使用上一节中定义的组合距离来查找最近的地面图像。在图8中，我们展示了使用此过程检索的图像示例。我们观察到，地面图像包含预期的场景类型，似乎是从一天中的适当时间例如，左上方的头顶图像包含一座桥，而最前面的地面图像在两个输入时间戳处在视觉上是一致的6.3. 应用：元数据验证我们专注于验证图像被捕获的时间，具有已知的位置对于给定的地面图像，我们首先提取其视觉属性，然后预测不同时间范围内的视觉属性。我们计算实际属性和预测属性之间的距离，从而为每个可能的时间计算距离。图9显示了两个测试示例的这些距离的热图，使用我们的完整模型和组合距离。这表明我们的模型能够识别一小部分可能的时间。我们对2000幅图像的样本进行了定量评估。对于每个图像，我们如上所述计算距离，然后根据距离对时间进行排序。理想情况下，正确的时间将具有最低的距离。在Ta-在表3中，我们显示了正确时间在可能时间的前k %内的图像的百分比。结果表明，组合距离优于地点和瞬态。虽然这种方法不能完全解决检测元数据伪造的问题，但它表明我们的模型可能是解决方案的重要组成部分。7. 结论提出了一种新的动态视觉属性图的构造方法在几个大规模的实验中，我们证明了该模型的实用性，并强调了包括时间，位置和位置的俯视图作为条件变量的重要性。12443头顶图像下午5点（UTC）凌晨2点（UTC）图8：对于每个头顶图像，我们使用完整模型预测视觉属性，并计算它们与测试集中地面图像之间的平均距离。（左）两个查询位置的开销图像。使用八月下午5点作为输入时（中间）和使用八月凌晨2点时（右）最接近的图像。图9：两个例子突出了我们的模型学习的时间模式。对于每个示例，我们显示原始图像和其位置的开销图像。对于每个可能的小时和月份，我们使用完整的模型来预测视觉属性。热图显示了真实和预测的视觉属性之间的距离，深绿色（白色）表示较小（较大）的距离。这种模型有许多潜在的用途，包括图像驱动的映射、图像本地化和元数据验证.在未来的工作中，我们计划将重点放在调整这个模型，以更直接地支持元数据验证的应用程序，并包括额外的视觉属性。鸣谢：我们衷心感谢 NSF CAREER 资助（ IIS-1553116）、肯塔基大学计算科学中心和Google教师研究奖的财务支持。感谢Armin Hadzic对手稿的有益反馈。12444引用[1] M. Abadi等人Tensorflow：一种用于大型机器学习的系统。在USENIX操作系统设计和实施研讨会上，2016年。5[2] 扎卡里·贝辛格克里斯·斯托弗内森·雅各布斯谁去那里？绘制面部外观差异的方法。2016年ACM SIGSPATIAL地理信息系统进展国际会议。2[3] Aparna Bharati，Daniel Moreira，Joel Brogan，PatriciaHale，Kevin Bowyer，Patrick Flynn，Anderson Rocha和Walter Scheirer。超出像素：图像来源分析杠杆老化元数据。在2019年IEEE计算机视觉应用冬季会议上1[4] 提齐亚诺·比安奇和亚历山德罗·皮瓦。基于jpeg伪像块粒度分析的图像伪造定位。 IEEE Transactions onInformation Forensics and Security ， 7 （ 3 ）： 1003-1017，2012。1[5] Xueqing Deng，Yi Zhu，and Shawn Newsam.下面是什么样的？使用条件生成对抗网络从高空图像生成密集的地面视图和图像特征。在ACM SIGSPATIAL国际地理信息系统进展会议上，2018年。2[6] 哈尼·法里德图像伪造检测。IEEE信号处理杂志，26（2）：16-25，2009年。1[7] Timnit Gebru，Jonathan Krause ，Yilun Wang，DuyunChen，Jia Deng，Erez Lieberman Aiden，and Li Fei-Fei.使用深度学习和谷歌街景来估计美国各地社区的人口构成。Proceedings of the National Academy of Sciences，114（50）：13108- 13113，2017. 2[8] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。2010年国际人工智能和统计。4[9] 康纳·格林威尔斯科特·沃克曼内森·雅各布斯什么去哪里：从上方预测物体分布。在IEEE国际地球科学和遥感研讨会，2018年。2[10] Haiying Guan，Mark Kozak，Eric Robertson，YooyoungLee，Amy N Yates，Andrew Delgado，Daniel Zhou，TimotheeKheyrkhah ， JeffSmith ， andJonathanFiscus.MFC数据集：用于媒体取证挑战评估的大规模基准数据集。在2019年IEEE计算机视觉应用冬季会议上。1[11] James Hays和Alexei A Efros。IM2GPS：从单个图像估计地理信息。在IEEE计算机视觉和模式识别会议上，2008年。2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。2016年欧洲计算机视觉会议。4[13] 内森·雅各布斯纳撒尼尔·罗曼罗伯特·普利斯许多户外场景中的连续时间变化。IEEE计算机视觉与模式识别会议，2007年。2[14] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。在学习代表国际会议，2014。5[15] Pierre-Yves Laffont， Zhile Ren ， Xiaofeng Tao ， ChaoQian，and James Hays.瞬态属性为高层次的理解和编辑的户外场景。 ACM Transactions on Graphics ， 33（4）：149，2014。一、二、四、五[16] Stefan Lee，Haipeng Zhang，and David J Crandall.使用卷积神经网络预测大规模图像采集中的地理信息属性。2015 年 IEEEWinterConferenceonApplicationsofComputer Vision。2[17] 丹尼尔·梁和肖恩·纽萨姆。近端感知：从地理参考照片集合中推断出位置。在IEEE计算机视觉和模式识别会议上，2010年。2[18] 林宗义，Serge Belongie和James Hays。交叉视图图像地理定位。IEEE计算机视觉和模式识别会议，2013。2[19] Tsung-Yi Lin ， Yin Cui ， Serge Belongie ， and JamesHays.学习地对空地理定位的深度表示IEEE计算机视觉和模式识别会议，2015。2[20] Jiebo Luo、Jie Yu、Dhiraj Joshi和Wei Hao。事件识别：用第三只眼睛看世界ACM International Conference onMultimedia，2008。2[21] 凯文·马岑和诺亚·斯内弗利。场景年表。在2014年欧洲计算机视觉会议上。1[22] Radu P Mihail ， Scott Workman ， Zach Bessinger 和Nathan Jacobs。天空分割在野外：实证研究。在2016年IEEE计算机视觉应用冬季会议上2[23] Krishna Regmi和Ali Borji。使用条件GANs的跨视图图像合成。在IEEE计算机视觉和模式识别会议上，2018。2[24] 陶菲克·塞勒姆康纳·格林威尔亨特·布兰顿和内森·雅各布斯学习绘制几乎任何东西。IEEE国际地球科学与遥感研讨会，2019年。2[25] Tawfiq Salem ， Menghua Zhai ， Scott Workman ， andNathan Jacobs.映射音景的多模态方法。在IEEE国际地球科学和遥感Symposium，2018。2[26] Chanuki Illushka Seresinhe ， Tobias Preis ， and HelenSusan- nah Moat.量化风景环境对健康的影响科学报告，5：16899，2015。1[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。2015年国际学习表征会议。4[28] Sh iv angiSr iv ast av a，JohnEVa rg as-Mun Nooz，andDe visTuia. 从地上和地下角度理解城市土地利用：深度学习、多模式解决方案。环境遥感，228：129-143，2019。2[29] Kevin Tang，Manohar Paluri，Li Fei-Fei，Rob Fergus，and Lubomir Bourdev.利用位置上下文改进图像分类IEEE国际计算机视觉会议，2015。212445[30] Bart Thomee 、 David A Shamma 、 Gerald Friedland 、Benjamin Elizalde、Karl Ni、Douglas Poland、DamianBorth和Li-Jia Li。YFCC100M：多媒体研究的新数据Communications of the ACM，59（2）：64-73，2016. 2[31] Yicong Tian，Chen Chen，and Mubarak Shah.城市环境中用于地理定位的跨视图图像匹配。在IEEE计算机视觉和模式识别会议上，2017年。2[32] Jing Wang，Yu Cheng，and Rogerio Schmidt Feris.Walkand learn ： Facial attribute representation learning fromegocentric video and contextual data.IEEEInternationalConference on Computer Vision，2016。2[33] Jingya Wang，Mohammed Korayem，Saul Blanco，andDavid J Crandall.通过社交媒体和计算机视觉跟踪自然事件2016年ACM国际多媒体会议。2[34] Jingya Wang，Mohammed Korayem，and David Crandall.用Flickr观察自然世界。在ICCV研讨会上，计算机视觉融合的观点，2013。2[35] Tobias Weyand，Ilya Kostrikov，and James Philbin.用卷积神经网络进行行星照片地理定位。2016年欧洲计算机视觉会议。2[36] 斯科特·沃克曼和内森·雅各布斯卷积神经网络特征的位置依赖性。IEEE/ISPRS研讨会：EARTHVISION：从上面看：当地球观测满足愿景，2015年。2[37] 斯科特·沃克曼和内森·雅各布斯动态交通模型从开销图像。在IEEE计算机视觉和模式识别会议上，2020。2[38] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。利用航空参考图像进行广域图像地理定位。IEEEInternational Conference on Computer Vision，2015年。二、六[39] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。理解和绘制自然美。在2017年IEEE国际计算机视觉会议上。2[40] Scott Workman ，Menghua Zhai，David Crandall，andNathan Jacobs. 近距离和远距离遥感的统一模型。IEEEInternational Conference on Computer Vision ，2017。2[41] 谢玲和肖恩·纽萨姆。IM2MAP：从地理参考社区贡献的照片集合中导出地图。ACM SIGMM社交媒体国际研讨会，2011年。2[42] Menghua Zhai ， Zachary Bessinger ， Scott Workman ，and Nathan Jacobs.从航空影像预测地面场景布局。2017年在IEEE计算机视觉和模式识别会议上发表2[43] Menghua Zhai，Tawfiq Salem，Connor Greenwell，ScottWorkman，Robert Pless，and Nathan Jacobs.学习时空图像特征。在英国机器视觉会议，2018年。2[44] Bolei Zhou ， Agata Lapedriza ， Aditya Khosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的 1000 万图像数据库。 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 40 （ 6 ）： 1452-1464，2017。一、二、四

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

学习视觉外观的动态地图

机器视觉关键技术应用及其发展与学习指导

高德地图自定义地图apidemo

视觉slam深度学习

视觉SLAM动态剔除

深度学习 视觉slam研究方向

计算机视觉在地图学中的应用

视觉表示学习与视觉表征学习

深度学习计算机视觉pdf

动态视觉slam创新

零基础学习无人机视觉

学习计算机视觉需要学习哪些内容

如何学习双目视觉相关知识

计算机视觉自监督学习

0基础怎么学习机器视觉

机器学习 视觉slam 自然语言处理

使用pycharm学习机器视觉

动态环境对视觉SLAM的影响

机械视觉软件开发学习

深度学习 计算机视觉 pytorch

最新资源

深度学习视觉slam研究方向

机器学习视觉slam 自然语言处理

深度学习计算机视觉 pytorch