没有合适的资源?快使用搜索试试~ 我知道了~
212940Auto Arborist数据集:一个用于多视角城市森林监测的大规模基准0Sara Beery*†,Guanhang Wu†,Trevor Edwards†,Filip Pavetic†,Bo Majewski†,Shreyasee Mukherjee†,StanleyChan†,John Morgan†,Vivek Rathod†,Jonathan Huang†0加利福尼亚理工学院* 谷歌†0摘要0对于计算机视觉来说,将模型推广到新领域是一个基本的挑战。在基准测试中几乎完美的准确性是常见的,但是当在训练分布之外部署时,这些模型并不像预期的那样工作。为了构建真正解决全球范围内的现实世界问题的计算机视觉系统,我们需要完全捕捉现实世界复杂性的基准测试,包括地理领域转移、长尾分布和数据噪声。我们提出城市森林监测作为研究和改进这些计算机视觉挑战的理想试验平台,同时努力填补关键的环境和社会需求。城市森林为城市社会提供重要的益处。然而,规划和维护这些森林是昂贵的。城市森林管理的一个特别昂贵的方面是监测城市中现有的树木,例如跟踪树木位置、物种和健康状况。目前的监测工作基于人工专家建立的树木普查,每次普查耗资数百万美元,因此很少进行。以前对自动化城市森林监测的研究集中在来自单个城市的小型数据集上,仅涵盖常见的类别。为了解决这些缺点,我们引入了一个新的大规模数据集,将23个城市的公共树木普查与大量的街景和航空图像相结合。我们的AutoArborist数据集包含超过250万棵树和344个属,比文献中最接近的数据集大两个数量级。我们在不同模态下介绍了我们数据集的基准结果,以及用于地理分布转移的详细分析的度量标准,这对于这样一个系统能够大规模部署至关重要。01. 引言0城市森林为全球居住在城市地区的40亿人提供重要的益处[107]。它们过滤空气和水,捕获雨水径流,封存大气二氧化碳,限制侵蚀和干旱,并以各种方式节省能源(例如,提供)0图1. AutoArborist数据集覆盖了北美的23个城市,包括2.6M棵树的航空图像和多视角地面图像,涵盖了344个独特的属。0树荫从而降低冷却成本和城市热岛效应[100, 120, 138,141]。仅在美国,城市森林覆盖了1.27亿英亩,并提供价值超过180亿美元的生态系统服务[106]。这些森林构成了我们城市生态系统的基础,并为多样化的城市野生动物和昆虫种群提供栖息地[44]。城市森林的监测,通过测量其规模、健康状况和物种分布的变化,使我们能够(1)量化生态系统服务,包括改善空气质量[20, 47]、碳封存[92, 106,121]和对公共健康的益处[28, 47, 125,125],(2)跟踪极端天气事件的损害[8, 67,99],以及(3)通过定向种植来提高对气候变化、疾病和虫害的适应能力[24, 64, 114,115]。此外,无法接触城市绿地是城市社会不平等的关键方面[56, 93, 104],包括社会经济不平等[52, 73,86]和种族不平等[21,129]。城市森林监测使这种不平等得以量化和212950数据集 地面图像 航空图像 地点 类别 森林类型0登记者[27] 46,321 28,678 1 40 城市0帕萨迪纳Re-ID [102] 6,141(全景图) 0 1 1 城市0NEON树木评估[132] 0 25,949(个框) 22 1 野外0IDTreeS分类2017 [98] 0 613(个框) 1 9 野外0IDTreeS分类2020 [56] 0 452(个框) 2 34 野外0Auto Arborist(我们的数据集)6,479,077 2,637,208 23 344 城市0表1. 我们的数据集与以前的树木检测和识别数据集的比较。请注意,对于Pasadena Re-ID,只有一个类别(“树木”),但任务是重新识别而不是分类。0追求其改进[22,118]。为了实现自动化的城市森林监测,我们专注于构建树木普查(有时称为树木清查)的基本任务。由于其显著的成本(洛杉矶最近一次树木普查耗资200万美元,历时18个月[2]),树木普查通常只由有能力和意愿投资于这些工作的城市进行,即使如此,它们也很少进行(例如,每5-10年进行一次)。我们希望通过使用计算机视觉来帮助找到、标记和监测个体树木的组合,大幅降低树木普查的成本。自动化系统可以使贫困城市获得城市森林监测的机会,为它们提供宝贵的信息,这些城市已经在气候变化中受到不成比例的影响[109]。虽然之前已经有关于从航空[4, 5, 63, 78, 124, 137,139, 140]或街景[95]图像(或两者兼有,但数量有限[27,130])识别城市树木物种的研究,但一个主要限制是缺乏大规模标记的数据集。据我们所知,所有之前的研究都集中在单个或有限数量的城市,并且只包括最常见的类别。我们介绍了AutoArborist数据集,这是一个多视角的城市树木分类数据集,拥有260万棵树木,比之前的工作[27,130]大两个数量级,并包含344个属(以及更多物种)。为了构建AutoArborist,我们利用了美国和加拿大23个城市的公共树木普查,并将这些公共记录与街景和航空RGB图像合并。作为第一个覆盖多个城市的城市森林数据集,AutoArborist允许进行以前不可能的地理分布变化的详细分析,这对于构建可扩展的系统至关重要。我们提出了一组指标来评估在这些地理分布变化方面的性能,并展示了Typicaldeep learning models在应用于AutoArborist数据集时的优势和劣势。AutoArborist不仅适用于可持续发展和保护,还可以作为计算机视觉的重要挑战基准。领域泛化引起了越来越多的兴趣,这在实际应用中是普遍存在的[16, 51, 82,97]。例如,之前的研究观察到,一个能够在圣地亚哥安全驾驶的自动驾驶汽车模型在西雅图可能效果不佳[50, 68,69]。从数量上来说,0AutoArborist以前所未见的规模呈现出领域泛化基准测试中的规模[13-17,82],它专注于详细的跨领域分析,并融合了多个视角和模态。总结一下,我们的主要贡献如下:0•我们开发了一个流程,将公共树木普查数据与街景和航空图像相结合。0• 我们使用这个流程介绍了使用AutoArborist数据集,这是迄今为止最大的数据集,涵盖了超过260万棵树木、910万张图像和344个类别,并且是第一个覆盖多个城市(23个城市)的数据集。0• 我们表明,对于AutoArborist,地理领域转移和类别不平衡是Typical deeplearning models性能的主要因素。0•我们表明,广泛的地理覆盖对于推广到新颖城市是重要的,多视角和多数据模态都是有益的。02. 相关工作0树木检测、定位和分类已经在多光谱航空影像[ 49 , 78 ,140 ]、地面图像[ 95 , 101 ]和激光雷达[ 46 , 70]中进行了研究,一些最近的方法结合了不同的数据模态[ 6 , 27]。从低飞行飞机收集的昂贵高分辨率数据已经被证明可以提高性能[ 18 , 110],但这些数据在世界上大部分地区都不可用。尽管过去的研究已经考虑了树木检测和分类,但其中许多受到了视角(航空与地面视图)、地理空间覆盖范围和分类覆盖范围的限制。我们的工作旨在扩大这三个方面,提供一个广泛的城市森林监测测试平台,依赖于在城市中可用的数据类型(航空和街道级别的RGB图像),以便开发通用的模型和方法,可以在新颖的城市中直接使用。0从航空数据中检测和定位树木。已经成功地从航空数据中进行了树木密度、冠层覆盖和个体树木描绘的广泛研究[ 9 , 25, 38 , 40 , 46 , 62 , 66 , 77 , 94 , 108 , 110 , 112 , 122 ,132],包括美国国家生态观测网络(NEON)的多个站点的树冠检测[ 132 , 133],以及美国各个城市的城市森林中的树冠制图212960区域W(西部) 区域C(中部) 区域E(东部)0城市树木种类 城市树木种类 城市树木种类0旧金山,加利福尼亚州 154,698 195 博尔德城,科罗拉多州 29,489 65 华盛顿特区 152,983 710圣何塞,加利福尼亚州 225,655 201 丹佛,科罗拉多州 175,438 97 夏洛茨维尔,弗吉尼亚州 1571 560库比蒂诺,加利福尼亚州 15,300 104 卡尔加里,艾伯塔省 64,576 35 匹兹堡,宾夕法尼亚州 23,382 790温哥华,不列颠哥伦比亚省 121,249 93 苏福尔斯,南达科他州 13,277 37 蒙特利尔,魁北克省 208,097 610西雅图,华盛顿州 150,983 142 艾德蒙顿,艾伯塔省 76,164 32 纽约,纽约州 560,069 680萨里,不列颠哥伦比亚省 62,251 72 布法罗,纽约州 29,527 740圣莫尼卡,加利福尼亚州 25,381 126 基奇纳,安大略省 21,265 260洛杉矶,加利福尼亚州 391,788 202 剑桥,安大略省 14,757 570哥伦布,俄亥俄州 114,536 810布卢明顿,印第安纳州 4,772 530西部总计1,147,305 328 中部总计358,944 104 东部总计1,130,959 1020表2. 按地区划分的城市。每个地区的测试城市以粗体显示。0[ 93 ],并计算撒哈拉以南非洲[ 25]的个体树木数量。这些方法依赖于多样化的航空数据模态,从低分辨率的RGB或高光谱卫星数据到从低飞行飞机和无人机收集的高分辨率RGB、高光谱和激光雷达数据[ 18]。然而,在新颖地区保持方法的性能仍然存在挑战[ 98 ,131 , 134],并且在使用之前,方法必须经过良好的验证和可能的调整以适应任何新颖地区。在密集森林中进行树冠描绘仍然是一个挑战,导致一些研究(例如,在撒哈拉以南非洲[ 25])专注于低树密度地区或森林外的树木[ 43 , 117]。此外,仅仅通过航空视图无法了解太多。森林中大量的木本植被被树冠遮蔽。地面下的树木已经通过非常高分辨率的无人机采集的数据进行了绘制[ 32 , 60 , 61 , 87],但这些数据很少可用。我们的综合方法允许我们使用现有的地面图像来观察树冠下的情况。0从航空数据中进行树木分类鉴定。自动从卫星或低飞行飞机的航空数据中进行树木鉴定,包括RGB、高光谱、激光雷达或其组合,在遥感社区已经有了很好的研究[ 49]是一篇关于遥感数据物种分类的全面综述,指出了缺乏考虑大空间范围的研究。许多研究集中于预测物种出现、存在/缺失或丰度的有限物种集[ 3 , 23 , 29 – 31 , 33 , 34 , 41]。检测和分类个体树木则更加复杂[ 4 , 26 , 35 , 36 , 41 , 42 , 48 , 48 , 53 , 55 , 59 , 65 , 70 – 72 , 74 , 75 ,80 , 81 , 83 , 111 , 113 , 116 , 128],最近的深度学习方法已经显示出在这个任务上优于传统方法[ 39 , 57 , 63 , 90 , 114 , 127 , 142]。在新颖地区的推广是许多提出的方法面临的一个已知挑战[ 110 ]。IDTrees挑战[ 56 , 98]是第一个提出跨站点个体树木分类的公共基准,但提供了有限的标记数据(在3个NEON野外森林样地的 <1000个标记树木,涵盖了 < =34个树木类别)。当预测物种时,进一步的挑战出现在0城市环境中,人类干预导致树种的多样性比野外要高得多,尾部更长[135]。因此,许多城市树木分类研究只关注常见物种[4, 5, 10, 11, 63, 78, 124, 137, 139, 140]。0从地面数据中检测和定位城市森林中的树木。地面数据(例如来自Google街景[7]、Mapillary[96]和iNaturalist[1])被认为是城市监测应用中的重要信息来源[19]。已经提出了从地面数据中自动测量城市“绿度”和树木覆盖度的方法,并对社会公正和公共卫生产生了影响[45, 88, 89, 119,123]。MapillaryVistas[105]和Cityscapes[37]等数据集可以进行城市类别的语义分割,包括植被,但不提供实例级别的信息或细粒度的分类标签。同样,大多数当前的计算机视觉研究都集中在物种不可知的个体树木检测[76, 126]和定位[84, 95,101-103],这些研究使用了同一棵树的多个地面视图。0通过结合航空和地面数据对树木进行分类鉴定。以往的大规模数据集结合了航空和地面数据,例如CVUSA[136],但是这些数据集是为了其他任务,比如图像地质定位而设计的。有几种方法可以结合航空和地面数据,其中树木鉴定是其中一个关键应用[85,117]。在这里,地面数据可以包括RGB图像、激光雷达,甚至是树木直径或高光谱特征等物理测量[54]。[130]和[27]提出了一种使用配对的航空和地面RGB图像来识别街道树木的系统,并发布了一组用于帕萨迪纳的配对图像数据集。[6]提出了一种从航空图像和地面激光雷达中检测树木的类别不可知方法。最近,[79]使用GNN在森林中的航空和地面社区科学图像上进行了个体树木的映射。所有这些先前的工作都是在一个城市上进行训练的,可以从我们的数据集中受益。212970图2. 训练集和测试集中各属的分布,频繁、常见和罕见类别有所区分。03. 自动树木学数据集0我们生成了迄今为止最大且地理分布最广泛的计算机视觉准备的城市树木多视角数据集。AutoArborist数据集包含23个城市的2,637,208棵树。每棵树都由一个512×512像素的航空图像表示,每个像素为5cm×5cm,以及最多三个768×1152像素的街道级别图像[7](数据集中总共有9,116,285张图像)。为了避免在开发方法时出现杂交和亚种引起的分类复杂性,我们选择将重点放在属级别的预测上(而不是物种级别的预测),并与生态学家和城市规划师确认,属级别的地图将是一个非常有用的第一步。我们的数据集包括344个独特的属,具有现实世界的长尾类别不平衡和每个城市的独特类别分布(图2)。03.1. 数据集整理0为了整理AutoArborist,我们从许多城市在线提供的树木普查数据开始。对于考虑的每个树木普查,我们验证了数据是否包含GPS位置和属/种标签,并且是否可供公众使用。这样,我们获得了来自23个城市的数据,然后将其解析为通用格式,修复常见的数据输入错误(例如翻转的纬度/经度),并将地面真实属名(及其常见的拼写错误)映射到由344个类别组成的通用标签映射中。我们还删除了属名无效的记录,例如“未鉴定”。将这些数据聚合到一个数据集中,这个过程为约500万棵树提供了本地化记录。图1显示了选定的23个城市的地图以及数据集中的示例图像。为了评估目的,我们将这些城市分为三个不同的区域(在第4节中进一步讨论)。表2总结了每个城市对Auto Arborist的贡献。01我们发布了所有树木记录(经过筛选/合并,参见3.1)和一部分图像(经过验证以获得与完整数据集一致的结果),已删除个人可识别信息。有关更多信息,请访问https://google.github.io/auto-arborist0图3. AutoArborist数据集中的噪声包括树木普查后树木死亡的情况(顶部),航空数据质量问题,包括导致黑色方块的故障(中部),以及落叶树的季节变化(底部 -航空图像有叶子,但街道级别图像是光秃秃的),这对北方城市的影响大于南方城市。0按这些地区组织的数据集。对于AutoArborist的这个“v1”版本,我们将重点放在美国和加拿大,进行单一属种的预测任务。AutoArborist在任务和地理区域上还有发展空间:许多公共树木普查包含其他元数据(例如树龄、健康状况和树干直径),我们还可以在美国和加拿大以及全球范围内包括更多城市。我们将我们的数据集与以前发布的树木分类数据集放在表1中进行比较,并强调在图像跨模态、地区和类别数量方面显著增强的范围。0提取街道级别和航空图像。对于每个城市,从解析的树木普查开始,我们将每个树木普查记录与街道级别和航空图像关联起来。对于我们数据集中的每棵树,我们采样一个以树木纬度和经度为中心的15米×15米,300×300像素的RGB航空图像。我们考虑所有距离记录纬度和经度2-10米范围内拍摄的街道级别图像,过滤掉不满足以下所有条件的图像:•拍摄日期在2018年1月1日或之后。•根据树木纬度/经度在图像上的投影,包含树木底部的图像,根据API生成的估计相机姿态。0•包含大量基于语义分割模型的“树”像素(在可能的情况下避免树木死亡或移除的情况),并且不包含基于语义分割模型的“人”或“骑自行车的人”像素(以删除个人可识别信息)。经过过滤,我们有260万个树记录,每个记录为212980与一个航空图像和1-3个街道级别图像相关联,以及日期和GPS位置。03.2. Auto Arborist数据的挑战性方面0通过匹配现有公共记录中的街道级别图像而不是从头开始收集地面真实标签,我们能够实现比以前任何数据集更大的规模。正如我们所展示的,规模对于推广到新颖城市(这是最终目标)非常重要。但是,使用公共记录在城市之间生成数据也带来了许多挑战。0噪声和歧义的来源。首先,我们解决了数据集中几个已知的噪声和歧义来源。见图3,用于说明以下几点的示例。•标签噪声:志愿公民科学家与专家(例如生态学博士)之间的标签准确性存在已知差异[12],并且对于树木和灌木之间没有生态学上一致的定义。不同城市的标签协议也不同。0•存在噪声:普查中的树木记录往往可能已过时。具体而言,根据数据最初收集的时间长度,树木被移除或死亡并重新种植的可能性越来越大。0•位置噪声:不同城市使用不同的数据收集协议和不同的传感器,导致位置读数的准确性存在差异(例如通过GPS)。我们通过视觉估计,它们通常在3米左右的范围内准确。0•图像质量:不同城市的航拍图像质量不同。街道级图像中的主要树木有时可能被遮挡-虽然我们尽量通过删除距离树木太远的图像来防止这种情况,但有时车辆会挡住树木的视线。从质量上讲,多个视角的访问通常有助于减轻遮挡问题。最后,落叶树在不同季节的外观会有所变化,叶子会变色并在冬季脱落。0•未标记的可见树木:私人财产上的树木(例如庭院)在公共普查中没有标记,但在背景中可见。虽然感兴趣的树木通常是最突出的,但其他属的树木的存在可能会导致分类混淆。0分布转变和长尾。我们面临的主要挑战之一是在训练集中没有的新城市上表现良好,但为了使模型能够做到这一点,它必须应对分布转变,即训练城市的分布与新测试城市的分布不同。我们注意到在我们的数据中存在两种转变-我们可以称之为“标签转变”和“外观转变”。标签转变是指标签(属)的边际分布P(y)在城市之间不同,即使外观分布P(x|y)(例如,[91])不变。在我们的设置中,这可能仅意味着物种分布在地理上有所变化(例如,我们倾向于在加利福尼亚南部看到棕榈树,而在加拿大看到的较少),但也可能来自城市的大小不同(例如,洛杉矶比圣莫尼卡大得多,因此包含更多物种)。图4可视化了每对城市之间的分布转变(使用归一化属分布之间的L1距离)。在某些情况下,我们可以看到很少的重叠。0图4.(上)每个训练划分和每个测试城市之间的训练和测试数据分布之间的距离(红线表示区域边界)。我们使用每个集合的归一化的每类计数向量之间的L1距离作为我们的分布距离度量。由于类别分布是长尾的,并且我们的测试集在每个城市内地理上进行划分以防止数据污染,因此在每个城市内训练和测试分布不相同(对角线是非均匀的,矩阵不对称)。(下)从街道级基线的成对训练/测试准确性。04. 评估协议4. Evaluation Protocol212990对于两个城市之间的属的重叠,以及对于位置相似的城市,例如丹佛和博尔德,我们倾向于看到属的分布高度重叠。然而,即使两个城市在大小和位置上非常相似,由于长尾属的分布,通常情况下一个城市将包含另一个城市中没有的多个属。在“在一个城市上训练,在一个城市上测试”的极端情况下,我们因此总是有许多测试属没有训练样本。即使在训练多个城市并在单个保留城市上进行测试的情况下,我们通常也有一些没有训练样本的类别,这意味着未来扩展数据集的价值。除了标签转变,我们还看到“外观转变”-特定属的图像在不同城市可能看起来不同。这部分是由于不同的背景(原则上可以通过遮挡背景像素来处理,但超出了本工作的范围),但也可能是由于其他外部因素,如天气条件(例如,我们在埃德蒙顿的图像中可能会看到更多无叶树,而在洛杉矶的图像中可能不会看到)或者像土壤组成这样的“风土”相关因素。0由于分布转变是性能的一个重要因素,我们选择设置评估协议,以明确评估基于3种独特类型的训练/测试划分的分布转变,这些划分是按层次划分的:1.按城市划分:在第一层,我们对城市自身的泛化能力感兴趣。在这里,每个城市都有一个定义好的训练区域和一个定义好的测试区域,地理上进行划分(通常基于纬度或经度),以避免过度拟合背景特征。每个城市的测试集从不用于训练。02.地区划分:接下来,我们对地区内和跨地区(例如,如果我们在西海岸的树木上进行训练,我们在东海岸的城市中的表现如何?)的泛化能力感兴趣-对于这个评估级别,我们将城市分为三个地区,即W地区(西部)、C地区(中部)和E地区(东部)(表2)。我们从该地区的每个城市的训练集构建我们的地区训练集。我们保留每个地区的一个城市(我们称之为“保留城市”)来捕捉在地区内的新颖城市上的性能,并在所有地区外的城市上显示结果。03.完整数据集:对于最终且最大的划分,我们将三个地区的训练数据合并在一起。我们保持与地区划分相同的测试城市作为训练集,并在所有城市的测试集上进行测试(包括保留城市)。0评估指标。由于数据在类别之间的分布呈长尾分布,纯粹的准确度度量无法捕捉性能,因为它对频繁物种有很大的偏见。因此,我们报告准确度和类平均召回率(AR),计算为所有类别的平均值。0类平均召回率的比例(有时也称为类平均准确率)。为了以更细致的方式捕捉性能,我们还引入了一个受LVIS[58]启发的类平均召回率的细分,用于频繁(n≥20,000个示例)、常见(100≤n<20,000个示例)和稀有(n<100个示例)数据子集。这导致了29个频繁、150个常见和165个稀有的类别,我们将这些指标分别表示为FAR、CAR和RAR。05.实验0现在我们通过在AutoArborist上训练模型来展示拥有多城市、多视角数据集的好处。在本节中,我们为第4节中描述的每个训练集训练单独的航空和街道级别基准ResNet101模型,包括每个单独城市的训练集、地区划分和完整数据集。训练细节可以在补充材料中找到。0单个城市与地区与完整数据集的训练。我们首先尝试单视图街道级别模型的训练(因为街道级别的模态在单独使用时给出最准确的结果)。在图5中,我们比较了在城市的测试集上训练时,在该城市的训练集(city)、该城市所在地区的训练集的聚合(region)以及所有可用的训练数据(full)上的性能。不出所料,我们发现更多的数据更好-当从单个城市的训练转向完整数据集时,我们看到平均AR提高了21.3%。然而,我们注意到,在地区训练上也可以获得较强的性能提升,相比于在单个城市上的训练,平均AR提高了18.3%,对于一些测试城市,地区训练的性能可以与(甚至略优于)完整数据集的训练相媲美。0跨城市泛化。接下来,我们研究跨城市泛化,即我们对于在B城市进行测试时,如果在A城市进行训练,训练的有效性如何。对于这个分析,我们首先进行所有可能的交叉训练组合,即在每个训练集上进行训练(包括每个城市、地区和完整数据集),并在每个城市的测试集上测试每个模型。这些成对的组合的结果在图4(底部)中可视化。在这里,我们可以看到强泛化的区域“块”,反映出城市在同一地理区域的城市中具有很好的泛化能力。例如,我们倾向于在太平洋西北地区的一个城市(西雅图、温哥华、萨里)进行训练,并在另一个城市进行测试时获得良好的性能。我们还可以看到,一些城市通常对其他城市具有很好的泛化能力,而一些城市则通常对其他城市具有很差的泛化能力。图6更详细地显示了这种效果-在这里,我们使用给定的城市作为训练集,并报告将其应用于其他城市的测试集时性能的差距。在这个图中,f(xSL, xA) = xSL · sigmoid(w) + xA · (1 − sigmoid(w)).(1)213000图5.添加区域和大陆多样性的性能增长。对于每个城市,我们展示了在该城市上训练的模型、在该城市所属区域上训练的模型以及在完整数据集上训练的模型的测试性能。请注意,尽管区域和完整训练集不包括来自这些城市的数据,但我们的保留城市上的性能也有所提高。水平线表示在每个城市、区域和完整数据集上训练的模型的平均性能。0很少在训练过程中见到的属种,我们将在训练城市A和测试城市B上计算AR时,限制只考虑在A的训练集和B的测试集中出现频繁的属种。我们观察到,一些“训练城市”(在图6的左侧)往往较小且整体表现较差,尽管这并非普遍适用(如旧金山)。另一方面,大城市(如纽约)平均而言具有较好的泛化能力。但我们还看到没有城市能够对所有其他城市实现最佳泛化,只有通过在完整数据集上进行训练才能达到最佳的泛化性能。即使将注意力限制在频繁共享的类别上,我们发现泛化能力仍然与标签分布的相似性高度相关。在图7中,我们比较了这些共享的频繁属种的AR与三个城市之间的L1分布距离,并显示它们呈负相关关系-增加的标签分布距离意味着更差的性能,即使是在训练和测试城市之间共享的频繁出现的类别上也是如此。0多视角的附加价值。最后,在表3中,我们展示了我们数据集的多视角方面带来的价值。总体而言,我们的街景模型的性能要比航拍模型好得多,通常相差超过20%的AR,并且我们看到使用多个视角的树要优于单个视角。我们尝试了几种方法来结合街景视图和航拍图像的信息,发现虽然大部分预测价值来自街景图像,但结合航拍信息也是有益的。我们通过一种简单的方法将这些模态结合起来:通过对多个街景图像的logits进行平均池化,然后通过专家混合模型(MoE)将其与航拍logits结合起来:0图6.对于每个训练集,我们展示了在测试城市上的AR分布,并突出显示了在自己的测试集上进行测试的“自测”情况。箱子之间的差距越大,泛化能力越差。在这里,为了消除由于测试集中未见或很少见的属种而产生的混淆因素,我们计算训练城市A和测试城市B的AR为在train(A)和test(B)中共享的“频繁”属种上的平均属种召回率。0图7.进一步探究给定训练集的泛化能力,我们将在同一城市上的共享、频繁属种测试的AR与其他城市的AR之间的泛化差距进行可视化,并绘制其与训练集与测试集之间属种分布的L1距离的关系,如图4所示。我们发现通常它们是负相关的,但是一些城市的训练集(如Buffalo)在整体上表现不佳。0其中x SL和x A是街景和航拍的logits,w∈Rn0学习参数,n是类别的数量。以这种方式结合多种模态可以使每个区域模型相对于在多个街景视图中对logits进行平均池化而言提升约1%,相对于从单个街景图像进行预测而言提升3-5%。对于完整的训练集,我们发现保留学习的MoE权重(w)中的区域变化很重要,因此我们的最佳模型(达到49.96%的AR)使用在完整数据集上训练的街景和航拍模型,但MoE权重专门针对城市所属的区域。我们推测这种区域依赖性主要是由于航拍图像质量/可用性的区域变化所致。在图8中,我们可视化了每个区域MoE学习到的属种权重。更仔细地观察MoE权重,我们发现我们的模型只为具有≥400个训练样本的类别分配非零权重。此外,我们发现相对于其他两个区域,我们能够在W区域更多地依赖航拍图像。我们在表4中展示了我们最佳模型的结果。Kitchener, ON33.9617.9421.314.49Cambridge, ON72.1647.6965.8434.38Columbus, OH69.2855.7168.2947.32Bloomington, IN85.5073.5279.8264.46213010训练集航空1 SL 3 SL A+SL0区域W 20.63 41.53 45.12 46.070区域C 18.8 44.77 46.91 47.120区域E 17.54 43.25 45.13 46.210全局 18.7 46.13 49.0 49.230全局 w/ 区域MoE 49.960表3.不同区域和组合策略的城市平均百分比AR。街景图像比航空图像更具信息量,多个街景图像的组合进一步提升了性能。然而,即使航空性能本身相当低,我们在进行预测时添加航空图像仍然有益。我们发现,虽然全模型的特征更具有区分性,但使用全模型特征与区域特定的专家混合来组合航空和街景预测时,我们获得了最佳性能。0图8.每个区域的MoE仅使用具有超过400个训练样本的属的航空信息。值得注意的是,这三个分布非常不同,某些属更具“航空特色”(我们在每个区域中都突出显示了一个)。0完整数据集的准确率和AR,并按频繁和常见属进行了分解。值得注意的是,许多城市的准确率超过80%,温哥华和苏福尔斯的准确率超过90%。在AR方面仍有很大的改进空间。每个城市的稀有类性能都为0.0,这并不奇怪,因为大多数稀有类别的示例数小于10个。这表明低样本和长尾学习方法(如逻辑调整)可能会带来潜在的收益,但我们发现在如此高程度的不平衡下,这种方法很难表现出色(请参见补充材料)。06. 限制和未来工作0我们提出了一种基线建模方法,旨在突出典型CNN的性能,并提供了将多个视图的信号组合的简单方法 -在稀有类别方面还有很大的改进空间。未来,要在没有过去普查的城市上进行预测,我们需要首先对要分类的树木进行定位和地理编码。我们还希望扩大数据集,包括更多的城市,无论是在北美还是全球范围内,并包括物种级别的预测和其他特征,如树木大小和健康状况。AutoArborist是迈向全球范围城市森林监测的重要第一步。这对环境正义具有重要意义:考虑到边缘化社区对城市绿地的减少访问权,基于AutoArborist训练的系统可以通过赋予可量化的分析和有针对性的重新种植来平等化对城市森林的访问。然而,我们必须对我们的技术负责任0城市准确率 AR FAR CAR0温哥华,不列颠哥伦比亚省 93.28 67.51 82.76 63.350萨里,不列颠哥伦比亚省 82.35 58.96 75.82 48.800西雅图,华盛顿州 79.68 46.55 74.65 43.080旧金山,加利福尼亚州 58.71 26.39 37.87 31.370圣何塞,加利福尼亚州 77.71 40.07 63.35 41.130库比蒂诺,加利福尼亚州 74.14 56.86 65.28 55.400圣莫尼卡,加利福尼亚州 56.26 43.29 64.93 44.090洛杉矶,加利福尼亚州 76.24 32.62 52.56 35.800博尔德城,科罗拉多州 73.23 42.23 58.61 32.880丹佛,科罗拉多州 76.46 29.72 57.16 22.020苏福尔斯,南达科他州 93.78 76.76 81.52 62.500卡尔加里,阿尔伯塔省 88.81 62.18 70.92 52.320埃德蒙顿,阿尔伯塔省 87.55 56.67 62.58 43.990华盛顿特区 77.44 44.49 67.31 30.050夏洛茨维尔,弗吉尼亚州 73.52 57.77 73.38 42.160匹兹堡,宾夕法尼亚州 78.84 54.93 71.83 43.970蒙特利尔,魁北克省 85.51 49.49 64.99 39.080纽约,纽约州 82.54 42.77 66.38 28.160布法罗,纽约州 86.03 54.01 71.92 43.410表4.使用我们在结合航空和多视角街道级模态的完整数据集上训练的最佳模型的每个城市性能(%)。AR是每个城市的类别平均召回率,平均值是该城市的测试类别的平均值。FAR是“频繁”AR,CAR是“常见”AR,用于进一步区分训练数据中物种的普遍性与其在每个城市的性能之间的关系。粗体表示保留的城市。0-为此,我们通过明确过滤掉包含人类的图像并模糊车牌,保护这些城市和郊区居民的隐私。其次,在这样的系统能够受到信任之前,我们将需要高效的人机验证协议,以确保科学政策不是基于泛化能力差的机器学习预测。07. 从树木中看到森林(结论)0气候变化和生态多样性的丧失是我们时代最紧迫的问题之一。监测是理解和减轻全球变暖对城市森林影响的首要关键步骤,但许多城市无法承担定期进行树木普查的费用。为了实现广泛、易于获取和经济实惠的城市森林监测目标,我们推出了AutoArborist数据集。这个数据集是首个超越单个城市和常见类别的数据集:AutoArborist包含23个城市的260万棵树木,涵盖344个独特的属。这个数据集将使计算机视觉社区能够大规模解决城市森林监测问题,我们的评估协议帮助我们在没有数据污染的情况下衡量性能,并评估对新城市的泛化能力。0致谢 我们要感谢R. Alcantara、T. Birch、V. Birodkar、T. Duerig、K.Gill、J. Hea、A. Kundu、P. Lall、M. Manolides、D. Morris、S.Marquardt、P. Perona、J. Quintero、D. Ross、T. Taylor、J.Thamkul和X.Yin对我们的支持。这项工作得到了Resnick可持续发展研究所的部分支持,并且S. Beery在Google担任学生研究员期间进行了这项工作。213020参考文献0[1] inaturalist. https://www.inaturalist.org .访问日期:2021-11-11. 30[2] La开始大规模街道树木普查. 2 [3] Samuel Adelabu,Onisimo Mutanga, Elhadi E Adam和Moses Azong Cho.利用RapidEye图像进行半干旱林地树种分类的机器学习算法.《应用遥感杂志》,7(1):073480, 2013. 30[4] Michael Alonzo, Bodo Bookhagen和Dar A Roberts.利用高光谱和激光雷达数据融合进行城市树种分类.《环境遥感》,148:70–83, 2014. 2 , 30[5] Mike Alonzo, Keely Roth和Dar Roberts.利用AVIRIS图像进行圣巴巴拉城市树木物种识别的规范判别分析.《遥感快报》,4(5):513–521, 2013. 2 , 30[6] Daniel Amigo, David S´anchez Pedroche, Jes´usGarc´ıa和Jos´e M Molina.结合航空影像、激光雷达和环境背景的自动个体树木检测.《工业和环境应用中的软计算模型国际研讨会》,页码294–303. Springer, 2021. 2 , 30[7] Dragomir Anguelov, Carole Dulong, Daniel Filip,Christian Frueh, St´ephane Lafon, Richard Lyon, AbhijitOgale, Luc Vincent和Josh Weaver.Google街景:捕捉街头世界. 《计算机》,43(6):32–38, 2010.3 , 40[8] EC Anyanwu和I Kanu.城市森林在地理易受不可预测的恶劣天气条件下保护人类环境健康的作用. 《环境科学与技术国际期刊》,3(2):197–201, 2006.10[9] M´elaine Aubry-Kientz, Anthony Laybros, Ben Wein-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功