多视图高空影像数据集：SpaceNetMVOI

89 浏览量更新于2023-10-16 收藏 4.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

992SpaceNet MVOI：多视图高空影像数据集Nicholas Weir1、David Lindenbaum2、Alexei Bastidas3、Adam Van Etten1、SeanMcPherson3、Jacob Shermeyer1、Varun Kumar3和Hanlin Tang31In-Q-Tel CosmiQ Works，[nweir，avanetten，jshermeyer]@iqt.org2Accenture Federal Services，david. accenturefederal.com3英特尔人工智能实验室，[alexei.a.bastidas，sean.mcpherson，varun.v.kumar，hanlin.tang]@ intel.com摘要偷听图像中目标的检测和分割是一项具有挑战性的任务。可变密度，随机取向，小尺寸，和实例到实例的异构性的对象在开销图像要求的方法不同于现有的模型设计的自然场景数据集。虽然正在开发新的高空影像数据集，但它们几乎普遍包含直接从头顶（“在最低点”）拍摄的单一视图，未能解决一个关键变量：视角相比之下，视图在真实世界的俯视图像中变化，特别是在诸如自然灾害的动态场景中，其中第一次看起来通常超过40°的最低点。这对计算机视觉方法来说是一个重要的挑战，因为改变视角会增加失真，改变分辨率并改变照明。目前，这些扰动对算法检测和对象分割的影响尚未得到测试。为了解决这个问题，我们提出了一个开源的多视图开销图像数据集，称为SpaceNet MVOI，具有27个独特的外观，从广泛的视角（-32。50到54。0◦）。这些图像中的每一幅都覆盖了相同的665平方公里的地理范围，并标注了126，747构建足迹标签，从而能够直接评估视点扰动对模型性能的影响。我们对多个领先的分割和对象检测模型进行基准测试：（1）建筑物检测，（2）对不可见视角和分辨率的一般化，以及（3）建筑物覆盖区提取对分辨率变化的敏感性。我们发现，最先进的分割和对象检测模型的国家的斗争，以确定建筑物在离最低点的图像和推广不好看不见的意见，提出了一个重要的基准，探索广泛相关的挑战，检测小，异构目标对象在视觉动态环境。1. 介绍近年来，越来越多地使用卷积神经网络来分析飞行器或天基传感器收集的高空图像，应用范围从农业[18]到监视[39，32]再到土地类型分类[3]。高空影像数据的分割和对象检测需要识别小的、视觉上异构的对象（例如，汽车和建筑物），这是为识别自然场景图像中相对较大和较低丰度的对象而开发的现有模型难以解决的任务。目标物体的密度和视觉外观会随着视角、地理位置、一天中的时间和季节性的变化而发生显著变化，从而使问题进一步复杂化。解决这些挑战将为整个计算机视觉社区提供广泛有用的见解：例如，如何构建分割模型以识别密集上下文中的低信息对象。尽管公共俯拍影像数据集探索了地理和传感器同质性[8，12，22，34，19]，但它们通常包括几乎直接在头顶（“在最低点”）拍摄的成像位置的单个视图。最低点图像并不代表在灾害响应或其他紧急情况下的收集：例如，飓风玛丽亚之后波多黎各圣胡安的第一张公开高分辨率无云图像是在51岁时拍摄的。9“偏离最低点”，即，a 51。9卫星正下方的最低点与成像场景中心之间的公共训练数据和相关用例之间的差异阻碍了适用于现实世界问题的模型的开发。更一般地说，卫星和无人机图像很少在不同的背景下捕捉到相同的物体，甚至在重复成像相同的地理位置时也是如此。此外，没有现有的数据集或指标允许评估模型对不同外观的鲁棒性，993城市工业密集住宅稀疏住宅图1：来自SpaceNet MVOI的样本图像。显示了数据集中2222个地理上唯一的图像芯片中的四个（列），以及该芯片的27个视图中的三个（行），每个角度箱一个。负视角对应于朝南的视图，而正视角对应于朝北的视图（图2）。芯片是从900×900像素的高分辨率图像下采样的。除了所示的RGB图像之外，数据集还包括高分辨率的全色（灰度）波段，高分辨率近红外波段，以及低分辨率8波段多光谱图像，每个地理位置/视图组合。该数据集可在https://spacenet.ai以CC-BY SA 4.0许可证获得。绩效评估。这些限制扩展到地理空间域之外的任务：例如，卷积神经网络在许多自然场景视频帧分类任务中执行不一致，尽管像素级变化最小[1]，以及Xiao等人。显示图像的空间变换，有效地改变视图，代表了对计算机视觉模型的有效对抗攻击要在地理空间域内外的视图间实现综合，需要两个方面的改进：1.一个大型的多视图数据集，在土地使用，人口密度和视图的多样性，和2。评估模型泛化的指标。为了解决上述局限性，我们引入了SpaceNet多视图头顶影像（MVOI）数据集，其中包括收集的62，000张头顶影像美国佐治亚州亚特兰大及周边地区上空。该数据集包括27个不同的外观，包括北向和南向视图，在MaxarWorldView-2卫星的单次通过期间拍摄。外观范围从几乎直接开销（7。8°-最低点）至54°-最低点，每个点覆盖的地理区域相同，为665平方公里除了图像，我们还开放了由专业标签人员创建的126，747个建筑足迹。据我们所知，这是第一个具有密集对象注释的架空图像的多视点数据集。该数据集涵盖了不同的地理区域，包括树木繁茂的农村地区、郊区、工业区和高密度的城市环境，从而导致了不同的建筑物尺寸、密度、环境和外观（图1）。与此同时，数据集提取了许多其他时间-52（VOFF）视角（仓）-32（关闭）7（北美）994敏感变量（例如季节性），能够仔细评估视角对模型训练和推理的影响。训练图像和标签以及公共测试图像可在https://spacenet.ai上获得，并获得CC-BY SA 4.0国际许可证。虽然理想的俯拍影像数据集将涵盖俯拍影像中存在的所有变量，即视角、季节性、地理、天气条件、传感器和光照条件，但使用现有影像创建这样的数据集是不可能的。据我们所知，SpaceNet MVOI中的27个独特外观代表了商业领域仅有的两个此类图像集合之一因此，我们选择将SpaceNet MVOI集中在提供具有不同视角和方向的各种视图上，这是一个在任何现有的架空图像数据集中都没有表示的变量。SpaceNetMVOI可以与现有的数据集相结合，以训练模型，这些模型可以概括更多的变量。我们在三个任务上对最先进的模型1. 建筑物分割和检测。2. 将分割和目标检测模型推广到以前看不见的角度。3. 分割和目标检测模型分辨率变化的后果。我们的基准测试表明，最先进的探测器受到了SpaceNet MVOI的挑战，特别是在模型训练期间遗漏的视图中。分割和对象检测模型努力解决建筑物覆盖区的位移、遮挡、阴影和高度偏离最低点外观的失真（图3）。解决足迹位移的挑战是特别感兴趣的，因为它要求模型不仅要学习视觉特征，还要根据视图上下文调整足迹定位解决这些挑战与高空图像分析之外的许多应用有关，例如自动驾驶车辆视觉。为了评估模型对新外观的泛化，我们开发了一个泛化度量G，它报告了模型应用于不可见外观时的相对性能。虽然为头顶图像设计的专用模型在建筑物足迹检测方面优于一般基线模型，但我们发现，为自然图像计算机视觉任务开发的模型在训练期间没有的视图上具有更好的G这些观察突出了与开发用于多视图对象检测和语义分割任务的鲁棒模型相关联的挑战。因此，我们预计，使用SpaceNet MVOI进行多视图分析的计算机视觉模型的发展，以及使用我们的度量G进行的分析，将与许多计算机视觉任务广泛相关该数据集可在 www.example.com 上获得www.spacenet.ai。2. 相关工作对象检测和分割是自然场景图像的一个研究得很好的问题，但这些对象通常要大得多，并且受到在头顶图像中加剧的失真的影响最小。自然场景研究由MSCOCO [20]和PASCALVOC [13]等数据集驱动，但这些数据集缺乏每个对象的多个视图。PASCAL3D[35]、KITTI [14]、CityScapes [7]等自动驾驶数据集、现有多视图数据集[29，30]以及MOT2017[24]或OBT[33]等跟踪数据集包含不同视图，但限于较窄的角度范围，缺乏足够的异质性来测试视图之间的泛化，并且局限于自然场景图像。在3D模型数据集中发现了多个视点[5，23]，但这些视点不是照片真实的，并且缺乏真实图像遇到的遮挡和视觉失真以前的架空图像数据集集中在分类[6]，边界框对象检测[34，19，25]，基于实例的分割[12]和对象跟踪[26]任务。这些数据集都不包括来自基本上不同视角的相同视场的多个图像，使得难以评估模型对新视图的鲁棒性。在分割数据集中，SpaceNet [12]代表了最接近的工作，使用相同的方法创建密集的建筑物和道路我们在表1中总结了每个数据集的关键特征。我们的数据集在图像大小和注释密度方面与现有数据集相匹配或超过现有数据集，但关键是包括不同的观看方向和角度，以更好地反映真实世界图像的视觉异质性。在自然场景中，不同视图对分割或对象检测的影响尚未得到彻底研究，因为即使在该上下文中对象旋转的情况下，特征特性也相对保留。尽管如此，对视频帧分类模型性能的初步研究表明，最小的像素级变化会影响性能[1]。相比之下，在偏离天底的高空影像中发生大量遮挡和失真，使地理空间上准确的物体足迹的分割和放置复杂化，如图3A-B所示。此外，由于在俯视图像中目标对象（例如建筑物）的相对小的尺寸，改变视图实质上改变它们的外观（图3C-D）。我们预计类似的挑战发生时，检测对象在自然场景图像中的距离或拥挤的意见。现有的遮挡解决方案通常是特定领域的[37]或依赖于注意力机制来识别共同元素[40]或者是地标[38]。在架空图像中建筑物外观的异质性，以及缺乏地标特征来识别它们，使得它们的检测成为开发对遮挡鲁棒的领域不可知模型的理想研究任务995数据集亿像素图像数量分辨率（m）最低角对象数注释[12，8]10.3245860.31昂纳迪尔302701多边形DOTA [34]44.92806谷歌地球 *昂纳迪尔188282定向Bbox3K车辆检测[21]N/A200.20空中14235定向Bbox[41]第四十一话N/A1510谷歌地球 *昂纳迪尔3651定向Bbox西北工业大学VHR-10 [4]N/A800谷歌地球 *昂纳迪尔3651BboxMVS [2]111500.31-0.58[5.3，43.3]0没有一FMoW [6]1,084.05238460.31-1.60[0.22，57.5]132716分类[19]第十九话56.014000.31昂纳迪尔1000000BboxSpaceNet MVOI（我们的）50.2600000.46-1.67【-32.5，+54.0】126747多边形PascalVOC [13]-21503--62199BboxMSCOCO [20]-123287--886266BboxImageNet [9]-349319--478806Bbox表1：与其他计算机视觉和俯拍图像数据集的比较。我们的数据集具有与现代计算机视觉数据集相似的规模，但据我们所知，它是第一个专为分割和对象检测任务设计的多视图开销图像数据集。*Google Earth图像是来自各种航空和卫星来源的马赛克，分辨率从15厘米到12米[15]。图2：收集视图。WorldView-2卫星经过美国佐治亚州亚特兰大市期间收集点的位置3. 数据集创建SpaceNet MVOI包含Maxar的WorldView-2卫星于2009年12月22日收集的美国佐治亚州亚特兰大及其周围地理的图像。该卫星在5分钟的单次飞行中收集了同一665平方公里地面区域的27个不同视图。这产生了27个视角（卫星正下方的最低点与场景中心之间的角距离）。8° C至54° C偏离天底，目标方位角（图像采集的罗盘方向）为17° C至182 ° C。从正北方向8度有关收集的进一步详细信息，请参见补充材料和表S1和S2在一个狭窄的时间带的27个视图提供了一个密集的静态对象（建筑物，道路，树木，公用事业等）的视觉上不同的角度同时限制了遥感数据集常见的复杂因素，如云量变化图像显示的区域是geo-非最低点成像方面的挑战（A）7度（B）53度(C)30度（D）-32度图3：偏离最低点视角的挑战。虽然在地理空间上精确的建筑物覆盖区（蓝色）与最低点（A）处的建筑物屋顶完美匹配，但在最低点（B）处的情况并非如此，许多建筑物被天空碎片所掩盖。（C-D）：由于反射阳光的变化，一些建筑物的可见度在不同的视角下会发生变化这些地区在地理上是多样化的，包括城市地区、工业区、森林郊区和未开发地区（图1）。3.1. 预处理多视角卫星图像数据集在几个有趣的方面与相关的自然图像数据集不同。首先，随着卫星图像中视角的增加，图像的原始分辨率会降低，因为更大的失真足迹偏移和遮挡阴影996图4：数据集统计。数据集中（A）建筑物占地面积和（B）每450m×450m地理瓦片需要将图像投影到平面网格上（图1）。其次，每个视图包含具有多个光谱带的图像。对于我们的基线，我们使用了3通道图像（RGB：红，绿，蓝），但也检查了近红外（NIR）通道的贡献（请参阅柔顺材料）。这些图像通过单独的、更高分辨率的全色（灰度）通道进行增强，使多光谱图像的原始分辨率加倍（即，“泛锐化”）。将整个数据集平铺到900px × 900px平铺并重新采样，以模拟所有视角下的一致分辨率0。5m × 0. 5m地面采样距离。该数据集还包括低分辨率8-具有附加颜色通道的波段多光谱图像以及全色图像，这两种图像都是常见的高空图像数据类型。16位全色锐化的RGB-NIR像素强度在3000处截断，然后在归一化为[0，1]之前重新缩放到8位范围。我们还直接使用Z分数归一化的16位图像训练模型，结果没有明显差异3.2. 注释我们进行了专业的标签，以产生高质量的注释.一个专家地理空间团队使用最接近天底点的图像（7）详尽地标记了整个成像区域的建筑物足迹。8.最低点）。重要的是，建筑物覆盖区多边形表示地理空间上精确的地面实况，因此在所有视图中共享。对于被树木遮挡的结构，仅标记可见部分。最后，由一名独立的验证人员和一名遥感专家对每个标签的质量进行评价。3.3. 数据集统计数据我们的数据集标签包括构建大小的广泛分布与自然图像数据集相比，我们的数据集更强调小的ob-age。大多数对象的面积小于700像素，或小于25像素。相比之下，PAS-CALVOC [13]或MSCOCO [20]数据集中的对象通常沿主轴包含50-300个像素[34]。任务基线模型语义分割TernausNet [17]，U-NET [27]实例分割掩码R-CNN [16]目标检测掩码R-CNN [16]，YOLT [11]表2 ：数据集基线的基准模型选择。TernausNet 和YOLT是开销图像特定的模型，而Mask R-CNN和U-Net是流行的自然场景分析模型。与许多现实世界的计算机视觉任务一致，该数据集提出的另一个挑战是目标对象密度的异质性（图4B）。图像包含0到300个足迹，在整个范围内都有这种可变性对目标检测算法提出了挑战，目标检测算法通常需要估计每个图像的特征数量[16]。密集或可变密度对象的分割和对象检测4. 建筑物检测实验4.1. 分析数据集准备我们通过随机选择地理位置并将该位置的所有视图包含在一个拆分中，以80/20的比例拆分训练集和测试集，确保每种类型的地理都在两个拆分中表示我们把每个角度分成三个类别之一：最低点（NAFF），θ≤25°;离最低点（OFF），25°<θ<40°;和非常离最低点（VOFF），θ≥ 40°。在所有实验中，我们使用所有视角（ALL）或三个子集之一来训练基线这些然后在27个视角中的每一个的测试集上分别评估训练模型。4.2. 模型我们测量了几种用于语义或实例分割和对象检测的最新基线（表2）。在可能的情况下，我们选择了特定于开销图像的模型以及自然场景的模型来比较它们的性能。物体检测基线是使用从建筑物足迹中提取的矩形边界进行为了公平地与语义分割研究进行比较，将所得边界框与地面真实建筑多边形进行比较以进行评分（见图10）。4.3. 分割损失由于训练数据的类别不平衡-使用二进制交叉熵（BCE）损失训练的分割对于语义分割模型，我们在那里-997F1任务模型NADIR关闭VOFFAvg.SegTernausNet0.620.430.220.43SegU-Net0.390.270.080.24SegMask R-CNN0.470.340.070.29DetMask R-CNN0.400.300.070.25DetYOLT0.490.370.200.36表3：总体任务难度。作为总体任务难度的量度，评估在所有角度上训练的基线模型的性能（F1分数），并在三个不同的视角箱上测试：最低点（NAOFF）、离最低点（OFF）和非常离最低点（VOFF）。Avg.是三个箱的线性平均值。Seg，分割;探员，目标探测。之前使用了一个混合损失函数，该函数将二进制交叉熵损失和交集（IoU）损失与权重因子α相结合[31]：L=αLBCE+（1−α）LIoU（1）模型训练和评估的详细信息，包括增强、优化器和评估方案，可以在补充材料中找到。4.4. 度量我们使用Van Etten等人定义的建筑IoU-F1评分来[12]第10段。简而言之，从分割掩模中提取建筑物足迹多边形（或直接从对象检测边界框输出中提取）并与地面实况多边形进行比较。如果预测的IoU具有高于0.5的地面真实多边形，则预测被标记为真阳性，并且所有其他预测都被视为假阳性。使用这些统计数据和未检测到的地面实况多边形（假阴性）的数量，我们计算了模型预测的精确度P和召回率R然后我们将F1得分报告为2×P×R培训解决方案测试角度原始（0.46-1.67米）均衡1.67 mNADIR0.620.59关闭0.430.41VOFF0.220.22总结0.430.41表4：在不同分辨率图像上训练的TernausNet模型。在所有原始分辨率图像上训练的TernausNet模型的建筑物足迹提取性能（7. 8m到1.67 m GSD（54m）（左），与在所有图像上训练和测试的相同模型相比，其中每个视图都被下采样到1.67 m GSD（右）。在不同的角度箱上显示每平方米（F1原始分辨率图像表示与表3中相同的数据。训练集图像分辨率对模型性能的影响微不足道。方向不对称。图6示出了分割和对象检测模型的每个角度的请注意，在正（朝北）角度上训练的模型，例如Positive OFF（红色），在负（朝南）角度上测试时尤其糟糕这可能是由于较小的数据集大小，但我们假设非常不同的照明条件和阴影使某些方向本质上更加困难（图3C-D）。这一观察结果进一步表明，开发能够处理野外架空图像中所见的各种条件的模型和数据集仍然是一个重要的挑战。模型架构。有趣的是，专门为高空图像设计的分割模型（TernausNet和YOLT）明显优于计算机视觉的通用分割模型（U-Net，Mask R-CNN）。这些实验证明了特定的计算机视觉模型的价值，以目标域的开销图像，这具有不同的视觉，对象密度，F1=P+R（二）sity、size和orientation特性。决议的影响。OFF和VOFF图像具有在每个角度区间内计算F1评分（NAF，OFF，或VOFF），然后对总分数取平均4.5. 结果我们测量的最先进的分割和对象检测模型受到了这项任务的挑战。如表3所示，在所有角度上训练的TernausNet都达到了F1=0。62的最低点角度，这是与以前的建筑分割结果和比赛[12，8]。然而，性能下降显着偏离最低点（F1=0. 43）和非常偏离最低点（F1=0.22）图像。其他型号显示出类似的性能下降示例结果如图5所示。较低的基础分辨率，可能会混淆仅由视角引起的效应分析为了测试分辨率是否可以解释观察到的性能下降，我们使用归一化分辨率进行了对照研究我们在所有视角的图像上训练了Ter- nausNet，这些图像被人为地降低到相同的分辨率1。67m，最低基本分辨率从数据集。该模型显示，性能与在原始分辨率数据上训练的模型（原始分辨率：F1=0。43、分辨率均衡：F1=0。41）（表4）。该实验表明，视角特定的效果，而不是分辨率，驱动分割性能的下降，作为视角的变化。推广到看不见的角度。超越探索998图像掩码R-CNN TernausNet YOLT图5：具有地面实况建筑足迹和Mask R-CNN边界框（左中），TernausNet分割掩码（右中）和YOLT边界框（右）的样本图像（左）。地面真实掩码（浅蓝色）显示在Mask R-CNN和TernausNet预测（黄色）下。YOLT边界框显示为蓝色。视角的符号表示视角方向（负=朝南，正=朝北）。从所有角度训练的模型的预测（见表3）。图6：不同训练子集的视角性能。TernausNet（左），Mask R-CNN（中）和YOLT（右）模型，在ALL，NANOFF，OFF或VOFF上训练，在建筑物检测任务中进行评估，并显示每个评估视角的F1面向南获取的图像表示为负数，而面向北的外观表示为正角值。此外，TernausNet模型仅在朝北OFF图像（正OFF）和朝南OFF图像（负OFF）上训练，并在每个角度上进行评估，以探索观看方向的重要性。为了验证使用许多视图训练的模型的性能，我们还探索了模型如何有效地识别训练期间缺少的视角上的建筑物足迹。我们发现，仅在 NAVEL 上训练的TernausNet模型在OFF（0.32）的评估图像上的表现比在OFF（0.32）的评估图像上更差。直接在OFF（0.44）上训练的模型，如表5所示对于对象检测也观察到类似的趋势（图6）。为了测量不可见角度的性能，我们引入了泛化得分G，它测量在X上训练并在Y上测试的模型的性能，通过视角（仓）-29（关闭）10（北美）53（VOFF）999测试角度所有训练角度纳瓦尔多夫VOFF任务模型泛化评分GNAGLENOFF VOFFNADIR0.620.590.230.13分割TernausNet0.45 0.430.37关闭0.430.320.440.23细分U-Net0.64 0.400.37VOFF0.220.040.130.27分割掩码R-CNN0.60 0.900.84总结0.430.320.260.21检测掩码R-CNN0.64 0.920.76检测YOLT0.57 0.680.44表5：TernausNet模型在看不见的角度上测试。每-训练时TernausNet模型的F1在一个角度箱（列）上，然后在三个箱（行）中的每一个上进行测试。与直接在来自这些视图的图像上训练的模型相比，在NAVANG上训练的模型在看不见的OFF和VOFF视图在Y上训练并在Y上测试的模型的性能：1F1（train=X， test=Y）表6：泛化评分。为了测量分割模型对不可见视图的性能，我们计算通用化得分G（等式3），其量化通过任务难度标准化的不可见视图的每列对应于在一个角度仓上训练的模型。请注意，在光线充足的北方，GY=X（三）F1（训练=Y，测试=Y）朝南的图像和隐藏在阴影中的朝南的图像，图3C至图3D和图6）。我们推测扭曲-该指标测量跨视角的相对性能，通过测试集的任务难度进行归一化。我们测量了所有模型/数据集组合的G，如表6所示。尽管Mask R-CNN模型的整体性能较差，但该模型的泛化得分较高（G=0）。78）相比TernausNet（G=0. 42），因为当视角增加时，其性能不会迅速下降。然而，总体而言，对不可见角度的概括得分较低，突出了未来研究在这项具有挑战性的任务中的重要性。4.6. 地理影响我们将地理瓦片分解为工业、稀疏住宅、密集住宅和城市箱，并检查了视角如何影响每个箱的性能。我们观察到对住宅区的影响大于其他类型（表S3）。在MVOI上训练的测试模型与看不见的城市[12]几乎没有泛化（表S4）。需要具有更多样化地理位置的广告数据集5. 结论我们提出了一个新的数据集，这对于将物体检测扩展到现实世界的应用至关重要我们的基准测试发现，从非常偏离最低点的视图中分割建筑物足迹是非常困难的，即使是最先进的分割和专门针对头顶图像调整的目标检测模型也是如此（表3）。这些任务的相对较低的F1分数（最大VOFFF1分数为0.22）强调了进一步研究可以在该领域实现的改进量。此外，在所有基准测试任务中，我们得出的结论是，模型泛化到不可见的视图是一个重大挑战。我们量化了从最低点（F1= 0.62）到非常偏离最低点（F1=0.22）的性能下降，在离天底点的图像中，物体的遮挡和可变照明（图3），以及一般建筑物的小尺寸（图4），对高空图像的分割和物体检测提出了不寻常的挑战。离天底点图像的分辨率低于天底点图像（由于几何结构简单），理论上，这会使高离天底点角度的建筑物提取复杂化。不过，通过实验图像退化到同样低的1。67m分辨率，我们表明分辨率对性能的影响不显著（表4）。相反，照明和视角的变化是主导因素。这与最近的观察结果相反[28]，该观察结果发现物体检测模型在超分辨率图像中更好地识别小型对于这些任务中的最高性能、开销图像特定模型，泛化得分G较低（表6），表明这些模型可能过度拟合视图特定属性。此挑战并非特定于俯视图像：例如，考虑由于图像透视引起的物体的畸变是三维场景建模或旋转预测任务的基本组成部分[23]。总之，这个数据集和G度量为未来研究算法推广到看不见的视图提供了一个令人兴奋的机会。我们未来工作的目标是在架空图像数据集的帮助下，向更大的计算机视觉社区虽然只有一个特定的应用，但在野外对高空图像进行分析方面的进步可以同时解决更广泛的任务。例如，我们观察到图像平移和域转移模型无法将非最低点图像转换为最低点图像，这可能是由于图像中的空间偏移。探索这些任务以及其他新的研究途径将推动当前各种计算机视觉挑战的发展。N1000引用[1] Aharon Azulay和Yair Weiss。为什么深度卷积网络对小图像变换的泛化能力如此之差？ CoRR ，abs/1805.12177，2018。[2] Marc Bosch 、 Zachary Kurtz 、 Shea Hagstrom 和 MyronBrown。卫星图像多视立体基准。2016年IEEE应用图像模式识别研讨会（AIPR），第1-9页[3] 陈雨诗，赵星，贾秀萍。基于深度生存网络的高光谱数据光谱-空间分类。IEEE Journal of Selected Topics inApplied Earth Observations and Remote Sensing ， 8（6）：2381[4] 龚成，周培成，韩俊伟。学习旋转不变卷积神经网络用于 vhr 光学遥感图像中的 IEEE Trans-actions onGeoscience and Remote Sensing ， 54 ： 7405-7415 ，2016。[5] Sungjoon Choi ， Qian-Yi Zhou ， Stephen Miller ， andVladlen Koltun. 对象扫描的大型数据集。 CoRR ，abs/1602.02481，2016。[6] 戈登·克里斯蒂，尼尔·芬德利，詹姆斯·威尔逊和瑞安·慕克吉。世界功能地图。2018年IEEE/CVF计算机视觉和模式识别会议。IEEE，2018年6月。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的城市景观数据集。在2009年IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[8] Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raskar。DeepGlobe 2018：通过卫星图像解析地球的挑战在2018年IEEE计算机视觉和模式识别（CVPR）研讨会上，2018年6月。[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，，KaiLi，and Li Fei-Fei.ImageNet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议，2009年。[10] 数字地球。数字地球搜索和发现。“https：//discover.digitalglobe.com“。2019- 06 - 2203-19.[11] 亚当·范·埃滕你只看了两次：卫星图像中的快速多尺度目标检测。CoRR，abs/1805.09512，2018。[12] Adam Van Etten，Dave Lindenbaum和Todd M.Bacastow.SpaceNet ： A Remote Sensing Dataset and ChallengeSeries.CoRR，abs/1807.01232，2018。[13] 放大图片创作者：Michael M. I. Williams，John Winn，and Andrew Zisserman. pascal视觉对象类（voc）的挑战。 International Journal of Computer Vision ， 88（2）：303[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套房. 在计算机视觉和模式识别会议中，2012年。[15] Google. 谷歌地图数据帮助。 https ：//support.google.com/mapsdata.访问时间：2019-3-19。[16] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。在2017年IEEE计算机视觉国际会议（ICCV）上，2017年10月。[17] 弗拉基米尔 · 伊格洛维科夫和阿列克谢 · 什韦茨。Ternausnet：U-net与VGG 11编码器预训练imagenet的图像分割。CoRR，abs/1801.05746，2018。[18] F.M. Lacar，Megan Lewis，and Iain Grierson.在南澳大利亚巴罗萨山谷用高光谱图像绘制葡萄品种图。在IGARSS 2001。审视现在，解决未来。诉讼IEEE 2001年国际地球科学与遥感研讨会（目录。No.01CH37217），第2875-2877页，第6卷，2001。[19] Darius Lam ， Richard Kuzma ， Kevin McGee ，SamuelDoo-ley ， Michael Laielli ， Matthew Klaric ， YaroslavBulatov，and Brendan McCord.xView：俯视图像中的对象。CoRR，abs/1802.07856，2018。[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C.劳伦斯·齐尼克。 Microsoft COCO：上下文中的常见对象。2014年欧洲计算机视觉会议（ECCV），苏黎世，2014年。口腔。[21] 刘康和吉尔不是玛塔尤斯。航空影像快速多类车辆检测IEEE Geoscience and Remote Sensing Letters，12：1938[22] NathanLongbotham ， ChuckChaapel ， LaurenceBleiler，Chris Padwick，William J.埃默里和法比奥·帕西菲奇甚高分辨率多角度城市分类分析。 IEEETransactions on Geoscience and Remote Sensing ， 50（4）：1155[23] William Lotter，Gabriel Kreiman，David D.考克斯使用预测生成网络的视觉结构的非监督学习 CoRR ，abs/1511.06380，2015年。[24] 安东· 米兰，劳拉 · 里尔 -T aix e' ，伊恩 D. Reid ， StefanRoth，and Konrad Schindler.MOT16：多目标跟踪的基准测试。CoRR，abs/1603.00831，2016。[25] T.放大图片作者：Nathan Mundhenk，Goran Konjevod，Wesam A. Sakla和Kofi Boakye。一个大型的上下文数据集，用于通过深度学习对汽车进行分类、检测和计数。ECCV，abs/1609.04453，2016。[26] Alexandre Robicquet ， Amir Sadeghian ， AlexandreAlahi，and Silvio Savarese.学习社交礼仪：拥挤场景中的人的轨迹理解。Bastian Leibe，Jiri Matas，Nicu Sebe和Max Welling，编辑，2016年欧洲计算机视觉会议（ECCV），2016年。[27] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-Net- 卷积网络用于生物医学图像分割。MICCAI，9351（第28章）：234[28] 雅各布·谢梅尔和亚当·范·埃滕超分辨率对卫星图像目标检测性能的影响CoRR，abs/1812.04098，2018。[29] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测2017年IEEE计算机视觉和模式识别会议（CVPR），10012017年7月。1002[30] Srinath Sridhar，Antti Oulasvirta和Christian Theobalt。使用rgb和深度数据的交互式无标记关节手运动跟踪。2013年IEEE国际计算机视觉会议（ICCV），第2456-2463页[31] Tao Sun，Zehui Chen，Wenxiang Yang，and Yin Wang.基于多输出的堆叠u网道路提取算法。在2018年IEEE计算机视觉和模式识别会议上，2018年6月。[32] Burak Uzkent、Aneesh Rangnekar和M.J.霍夫曼基于超光谱似然图自适应融合的飞行器跟踪。2017年IEEE计算机视觉和模式识别会议（CVPR）研讨会，第233- 242页[33] 吴毅、林钟宇和杨明轩在线对象跟踪：基准。在2013年IEEE计算机视觉和模式识别会议（CVPR），第2411-2418页[34] Gui-Song Xia，Xiang Bai，Zhen Zhu Jian Ding，SergeBe- longie，Jiebo Luo，Mihai Datcu，Marcello Pelillo，and Liang-pei Zhang.DOTA：一个用于航空图像目标检测的大规模数据集。2017年IEEE计算机视觉和模式识别会议，11月。2017年。[35] Yu Xiang，Roozbeh Mottaghi，and Silvio Savarese. Be-yond Pascal ：野外 3D 物体检测基准。 IEEEWinterConferenceonApplicationsofComputerVision（WACV），2014。[36] Chaowei Xiao ，

下载后可阅读完整内容，剩余1页未读，立即下载