国际边界易读性的计算机视觉

103 浏览量更新于2023-10-16 收藏 2.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3838国际边界易读性的计算机视觉特雷弗·奥尔特加1，托马斯·纳尔逊1，斯凯勒·克莱恩1，乔什·迈尔斯-迪恩2和斯科特·韦尔温11西华盛顿大学{ortegat，nelso 343，cranes 2，wehrwes}@ wwu.edu2科罗拉多大学博尔德分校josh. colorado.edu摘要国际政策的关键方面，如与移民和贸易有关的方面，体现在国际政治边界的物质世界中;因此，边界对于研究这些政策的影响和含义的政治学来说是很有意义的。虽然一些先前的努力已经致力于使用受过训练的人类编码器和众包来表征边界的特征，但是这些在规模上受到手动注释的需要的限制。在本文中，我们提出了一个新的任务，数据集和基线的方法来估计国际政治边界的易读性自动和在全球范围内。我们的贡献是：（1）定义边界易读性估计任务;（2）收集整个世界国际边界的架空（航空）图像数据集，（3）提出几种经典和基于深度学习的方法来建立任务的基线，以及（4）根据众包易读性比较的验证数据集评估我们的算法。我们在这项具有挑战性的任务上的结果证实，（一）（b）第（1）款（c）第（1）款虽然低级特征通常可以解释边界的易读性，但是中级和高级特征也很重要。最后，我们展示了易读性全球分析的初步结果，证实了易读性的一些政治和地理影响。1. 介绍最近在政治学中，Simmons和Kenwick提出了边界取向的概念，定义为边界取向，从许可到控制，是不能直接观察到的。然而，最初的努力使用广泛的人工编码的边境控制结构表明，间接测量可以产生有趣的政治见解[28，19]。图1：在不同的边界易读性的例子，我们的数据集列（a）高度清晰，（b）中等清晰，（c）不清晰。边界的位置以黄色绘制。之前的工作依赖于对一些指标进行人工编码，包括边境口岸的建筑物、相对少量的有据可查的边境墙以及警察局的人口加权密度。在这篇文章中，我们提出了一个新的计算机视觉任务，其高级目标是提供一个更通用和可扩展的边界方向指示器。铸造的测量边界方向的政策层面的概念，作为一个视觉任务，我们建议估计的易读性国际政治边界的易读性定义为在何种程度上可以直观地检测到的我们的直觉是，与边境相3839关的基础设施的可见表现应该能够很好地代表一个国家的投资程度3840在空间上显示其对边界的领土控制。虽然可以从地面角度评估易读性，但边界的地面图像并非普遍可用;相反，我们专注于估计在开销图像的边界易读性。通过对环境的视觉描述来估计一个国家在其边境附近的潜在实力的能力将使政治学的研究方向令人兴奋;在全球范围内测量易读性将使政治学和国际关系的核心主题研究成为可能，如国家巩固，边界冲突和人类发展。同时，边界易读性估计问题也提出了一个有趣的计算机视觉挑战。可读的俯拍图像和记录良好的政治边界位置意味着具有地面真实边界位置的图像数据是丰富的，为自我监督方法打开了大门。然而，我们发现这些方法需要仔细考虑，因为在世界上许多边界的大部分中相对无特色的森林、沙漠或偏远地区的农业用地（如图1（c）中的瓦片）非常难以辨认。此外，我们发现，虽然地面实况边界位置很容易获得，易读性本身是一个主观的概念，需要人的判断，以提供地面实况。易读性估计问题的另一个有趣的技术特征是相关的视觉特征从低级到高级的范围很广。例如，在图1（a）中间，由于河流的低水平边缘特征，边界是清晰的。在其他地方，易读性可能是由于土地利用、植被或建筑风格差异造成的纹理对比等中级特征。最后，在交通控制点或建筑物表明边界存在的边界过境点周围，可能需要高级语义推理。在这项工作中，我们定义了边界易读性估计任务，收集了一个全球数据集的开销图像瓦片覆盖世界的国际陆地边界，并开发了一套方法的边界易读性估计任务。根据我们对与任务相关的各种视觉特征的直觉，我们的方法从经典的基于像素的图像统计到使用对比学习训练的自监督深度网络。为了验证我们的方法，我们使用了众包（即，Amazon Mechani- cal Turk）收集成对人类易读性比较的数据集，并在各种度量上对我们的基线进行基准测试，同时考虑原始成对比较一致性以及与根据成对人类判断构建的排名进行比较的度量。2. 相关工作空中图像。近年来，已经提出了许多大规模的架空图像数据集，从世界各地越来越多地获得这种图像的时代[31，34，33，40，23，15，22，38，7，27，30，39，2]。这些数据集有助于在卫星图像分类等关键领域取得进一步进展[18，26]。他们还帮助开创了新任务的基准测试，如树冠高度估计[21]，停车场检测[35]和包裹分割[1]。类似于这些作品，我们基准测试一个新的开销图像任务，使- ING使用新收集的数据集。我们也受到了以前使用经典计算机可视化方法（如K均值聚类）作为卫星图像任务基线的工作的启发[16，18]。自我监督训练。与许多其他卫星图像任务框架不同，我们没有足够的地面实况数据来直接从地面实况中学习易读性任务。因此，我们期待能够学习有缺陷或缺失标签的有用数据属性的自监督方法。特别是，我们从两种自我监督学习的方法中获得了灵感，这些方法最近已经证明了令人印象深刻的结果：对比暹罗网络[37，5，6，17，11]和切割和-基于混合的训练增强[36，25，24]。在我们的工作中，我们提出了一种新的组合，这两种方法来学习一个模型，执行成对的边界易读性判断。与Simplified [5]一样，我们对基于同一图像的两个不同视图的表示学习感兴趣;然而，我们引入了易读性特定的CutMix [36]风格的增强，而不是强制表示之间的相似性，它代表了地面真值成对易读性比较。成对评估。我们的对比学习模型，验证数据集和评估指标都依赖于成对的易读性判断，而不是预测一个绝对的易读性“分数”。以前在计算机视觉[3]和政治学[4]方面的工作已经证明了两两比较对于由于主观性而导致绝对尺度不合适的数量的有用性（例如，情感）或人类表面粗糙度）。给定一组示例图块之间的足够的成对比较，可以使用各种方法（例如Elo [29]）生成总顺序。在我们的工作中，我们利用 Carlson 和Montgomery [4]开发的框架，该框架使用随机效用模型来联合估计每个示例的得分和每个注释者的工人可靠性得分。3. 边界清晰度我们将边界易读性定义为肉眼可见的边界范围。图1给出了航空图像的示例，描绘了高度清晰（a）、中等清晰（b）和难以辨认（c）的边界，真实边界位置以黄色覆盖。边界可以是清晰的原因有很多，其中一些涉及到直接的hu-3841人为因素对景观的影响，而其他因素则与地理特征有关。受人类影响的特征可能包括边界两侧土地使用的差异;沿边界或与边界平行的标记、道路、栅栏、墙壁或其他建筑物;和建筑环境的差异。与此同时，河流和山脊等高度清晰的地理特征往往与边界重合。在很大程度上，我们将“腿-腿”的精确解释留给人类的视觉判断，一个关键的例外与人类的影响有关。受我们最终目标测量易读性的原因和后果的激励，我们让人为影响的特征成为视觉易读性在其他方面相等的比较中的平局打破者。例如，如果一条边界沿线有一条公路，而另一条边界沿着一条视觉上同样独特的河流，则有公路的边界应被视为更容易辨认，因为边界的有关注释数据收集的更多详细信息，请参见第5节和补充材料。3.1. 定义易读性评估任务易读性估计任务可以以绝对或相对的方式提出。绝对预测问题要求模型在给定单个瓦片的情况下输出某种易读性分数虽然这样的分数可以被标准化以适合某个数值标度（例如，0到1），易读性并不自然地遵循任何特定的尺度，因此即使对于这样的模型，我们也不会在模型开发或评估中施加这种约束因为分数可能是任意的，而人类对绝对尺度的判断可能是不可靠的，我们也可以开发出做出相对易读性判断的模型：给定一对图像，模型可以决定哪一个更清晰。使用与我们用于地面真实人类注释相同的成对排序技术[4]（见第2节），我们可以对一组输入使用成对判断来生成整个集合的总顺序。虽然我们大多数经典的基线方法给出了单个图块的绝对分数，但我们最强大的方法是基于成对执行的连体架构。判断。提出合法性问题的第二个重要决定是，任务以什么样的边界信息为条件。由于非边界图像块的边界清晰度不容易定义，因此我们的任务以边界的存在为条件：给定一个有边框的图像，这个边框有多清晰？然而，也可以向人类注释者或视觉模型提供边界的图像空间位置。在我们早期的实验中，我们发现两种方法都有缺点。知道边界位置为确认偏差打开了大门，但是不知道边界位置允许非边界特征被误认为是易读性的证据（例如，农业的边界不遵循边界的字段）。在非正式的注释实验中，我们发现后一种效应更为常见，并选择将任务设置为以边界的位置为条件总之，我们使用边界易读性估计任务的两个定义：1. 绝对任务：给定一个包含边界和边界位置的图像，输出一个实数易读性分数，分数越高越易读。2. 相关任务：给定两个包含边界的图像以及每个边界的位置，确定哪一个图像具有更清晰的边界。成对排序框架[4]允许解决相对任务的方法为给定的图像集生成绝对任务的结果。4. 易读性估计方法虽然机器学习非常适合数据驱动的方法来理解边界易读性等高级概念，但训练模型来直接预测易读性是不可行的，因为收集大规模的易读性标签数据集太昂贵了。具体来说，我们的1000张图像验证集的收集成本约为500美元，而整个世界有超过60万张瓷砖。自我监督的方法看起来很有前途，但需要仔细的设计，以很好地与边界易读性任务的细节。本节首先介绍一些相对简单的统计基线，这些基线利用了来自预训练深度神经网络的原始像素值或特征。然后，我们描述了一个成对的自我监督的连体模型训练使用对比学习，优于经典的基线上的一些指标。4.1. “Classical”为了建立不依赖于定制训练的神经网络的合理基线，我们尝试了一个通用特征分析框架的许多变化，该框架比较了来自图像不同区域的每像素特征的集合。我们的直觉是，在一个合适的特征空间中，不同位置的像素特征之间的差异应该与边界的易读性相关以图2a中的图块为例，由于土地使用的差异，RGB像素颜色的分布在边界的一侧与另一侧明显不同中级和高级特征也可能不同，具有相似的颜色，但由于植被或建筑环境而具有不同的纹理。另一个关键的直觉是，有两个一般的原因，边界可能是清晰的。如图2a所示，边界的两侧是可区分的;在这种情况下，比较3842×··12|F2||f1 ∈ F1，f2∈F2|f 1 ∈F1,f 2 ∈F212图3中的我们计算相应的特征集合FA，FB，FC为：FA=F（I）[MA]FB=（I）[MB]FC=C[MC]（一）(a)（b）第（1）款图2：主要由于（a）边界两侧的特征和（b）沿边界的特征而导致边界段存在差异的图像示例。边境然而，图2b示出了边界的示例，该边界仅由于沿边界延伸的特征而清晰。出于这个原因，我们不仅考虑边界的两侧，而且考虑包括沿边界的缓冲区域的三段。在图3中示出了针对另一示例瓦片的所考虑的三个分段的示例(a)（b）第（1）款其中Numpy-like [12]符号A[M]提取由二进制掩码M指定的A的掩码位置。这导致了n d个特征矩阵，其中n是M中的1的数量，d是A中的通道的数量。我们尝试了三种不同的特征提取器（ featureextractor，简写为feature extractor）。仅考虑颜色，CROP简单地将RGB像素值视为特征向量。R（L）从预训练的卷积神经网络模型的L层获取输出特征;我们使用ResNext-101 [32]，将conv 1层的输出作为最后，BMPT提取由大型Transformer模型的编码器产生的每个补丁特征（我们使用Masked AutoEncoder[13]）。我们分别表示相应的特征集合FP、FR（L）和FT。给定这三个特征集合，我们使用一些相异度度量D（，）来比较它们，通常以成对或一对所有的方式，将个体相异度的最大值作为易读性得分预测。使用最大相异度能够识别由于侧边的差异（图2a）或由于沿边界的特征（图2b），我们试验了各种不同的措施;我们在这里介绍了两个最成功的措施，并在补充材料中包括了其他一些措施。不相似性度量D比较两个特征集合;虽然特征维度相同，但是特征的数量可以基于对应片段的掩码中的像素的数量而不同。（c）第（1）款（d）其他事项平均成对特征距离。我们对特征集合之间的相异性的最简单的测量是成对的个体特征之间的简单平均距离。我们对L2距离进行了实验，发现，令人惊讶的是，余弦距离d（f1，f2）=f1·f2图3：（a）输入图像I，其边界绘制在即使对于RGB像素也是最好的。||f1||||f2||黄色的.三个特征集合通过掩蔽（b）在边界的一侧上的像素、（c）在边界周围的边距中的像素以及（d）在另一侧上的像素来创建。形式上，我们将两个特征集合之间的相异性定义为一对特征之间的平均距离，从每个集合中选择一个：我们对基线的一般方法是提取一个集合，这三个部分中的每一个部分的特征1ΣD（F，F）=d（f，f）.（二）边界，然后使用某种度量来比较特征集合的相似性。形式上，设I为输入图块，IIB为特征提取器，并定义三个掩码，用于选择一侧（MA）、包围并包含边界的边距（MB）和另一侧（MC）上的像素，如图所示然后，易读性得分被计算为每个片段与其他两个片段之间的最大差异：LCos= max（ D（ FA，FBC），D（ FB，FAC），D（ FC，FAB））（三）3843B··其中FAC表示FA和FC的级联。群集分配分布。我们使用K-means聚类将整个图块的特征聚类为k（我们设置k=3）簇。给定图块中每个特征的聚类分配，我们计算整个图块的聚类分配的归一化离散分布pABC，并且仅计算每个图块中的特征pA、pB、pC。然后，易读性被测量为每个段的聚类分配的分布与整体全瓦片分布之间的最大不一致：LCluster= maxS∈A，B，C D KL（p S||美国广播公司（ABC）其中DKL表示4.2. 基于自监督Siamese网络（一）（b）第（1）款（c）第（1）款虽然地面实况易读性标签不容易获得，但包含已知边界的图像块是丰富的。考虑到这一点，我们试图使用自监督学习来训练易读性估计模型。我们设计了一个对比暹罗网络BorderCut，来进行相对易读性预测，来预测两个图像中哪一个具有更清晰的边界。对比训练法的灵感来自于对比学习方法的最新进展（例如，[5])，我们设计了一种增强方案，该方案产生成对的合成训练示例，其中地面真值标签（即，对中越清晰）是已知的。我们的关键思想是，虽然我们无法知道单个瓷砖的清晰度，但在大多数情况下，我们可以以很高的概率增强它，使其变得更清晰。我们使用CutMix风格的增强来实现这一点，用来自随机其他图像的像素替换一个或多个片段令x表示未编辑的边界图像图块，并选择另外两个随机图块z1、z2。然后，我们使用三种增强策略之一来构建合成训练对（x′1，x′2）1. x′1被设置为x，而从x2开始的边界的一侧（MA或MC）被随机选择为用来自z1的像素替换，例如，x′2[MA]=z1[MA]. 图4（a）给出了一个例子2. x′被设置为x，而x′中的边框（MB）被替换图4：增强训练对的示例，其中底部图像表示x′1，顶部图像表示x′2。通过混合来自随机采样图像的边界片段，我们利用了世界边界特征的自然多样性：除了极不可能的巧合之外，这些混合特征在x ′ 2中引入了边界段，这些边界段是人为区分的，并且不存在于x中，而不考虑其初始易读性。虽然我们最后，我们在训练时随机交换x′1和x′2，以确保我们最新的地面真值标签y并不总是相同的。网络架构。BorderCut模型采用两个图像x0和x1，并进行二进制预测，使用如图5所示的连体结构输出两类softmax概率向量y我们将BorderCut看作是两个独立函数的组合：共享的主干特征提取器Eextractor（·）和组合的分类头φ（·）。网络可以描述为：y∈（x0，x1）=φ（x（x0）y∈（x1））（5）其中y表示级联。对于F或f（·），我们使用1 2Resnet18 [14]，而φ（·）是具有ReLU ac的2层MLP其中像素来自z1，如图4（b）所示。3. x′1的边界的一侧被替换（M A或M C），而x′2具有相同的替换，但边界也被来自不同图像z 2的图像替换。换句话说，x′1[M A]=z1[M A]和x′2[MA]=z1[MA] 和 x′2[MB]=z2[MB] ，如图 4 （ c ）所示。[9]。在将两个输入传递给φ（）之后，两个返回的特征表示都被展平为512维向量并连接以创建φ（）的1024维输入。分类头（φ）使用一个线性层将输入转换为512维向量，使用第二层将表示简化为2维分类结果，然后对其进行软最大化3844××图5：BorderCut架构。 ResNet表示来自等式5的k，而级联之后的所有内容表示φ。为了得到相应的概率（即，较高对应于更清晰的样品）。我们在数据集中的40，000个随机采样图像上训练BorderCut，并在另外10，000个图像上运行验证。该模型使用交叉熵损失训练100个epochs，批量大小为8，固定学习率为1e−5。在第6节中，我们报告了在整个训练过程中实现的最佳验证性能。在测试时，如表2所示，我们的模型从我们的训练任务推广到没有任何监督标签的边界易读性任务。5. 评价本节讨论我们用来评估易读性估计方法的数据、指标和我们收集了一个全球航空影像数据集和一个人群来源的成对易读性判断的验证集我们评估我们的方法使用原始的准确性成对比较parisons和两个指标比较排名的1000瓦片验证集。5.1. 数据收集使用来自 Simmons 和 Kenwick [28] 的 International-Borders-2数据集作为政治边界位置的真实来源，我们从Bing Maps Imagery API1中收集了所有国际陆地边界密集采样位置的航空图像瓦片该数据集包含总共612，374个航空图像瓦片。每个瓷砖有256 - 256像素，占地面积400 - 400米。我们使用Shapely [10]导出边界线串的图像空间坐标。由于API的使用条款，我们无法发布完整的数据集，但可以使用1https://docs.microsoft.com/en-us/bingmaps/rest-services/imagery/代码和平铺查询位置，这些都可以在我们的项目webapge2上找到。为了针对边界易读性的“地面实况”概念来评估我们的方法我们使用Amazon Mechanical Turk收集了大约12，000个成对的判断，要求注释者决定两个图像中哪一个具有更清晰的边界。注释者被显示为两个区块，边界重叠，能够切换边界关闭以查看被边界线遮挡的任何特征。我们使用Carlson和Montgomery [4]的框架将成对的符号聚合到一个排名中，该排名也会产生工人的信心得分。工人置信度得分以及人工检查表明，虽然工人可靠性是可变的，但地面实况数据不会被大量客观不正确的注释破坏。有关众包数据收集过程的进一步详情，包括给予注释者的指示，请参阅补充资料。5.2. 评估指标我们评估我们的方法预测成对比较的原始准确性和两个排名指标：Tau（Kendall'sTauRankCorrelation[20]）和Footrule（Spear-man's Footrule [8]）。对于所有排名指标，我们通过将[4]中的统计模型应用于地面实况和预测的成对比较来创建绝对图像排名。在排名中应用指标有两个好处：第一，度量受随机采样噪声的影响较小，随机采样噪声是由于注释了哪些对而引起的;其次，排名算法对每个注释者的可靠性进行建模，有助于消除噪声，2https://fw.cs.wwu.edu/www.example.com边界清晰度/0.910.09FCResNet主干共享权重ResNet主干FC特征向量#2特征向量#1双重图像表示Softmax3845∈ −FN我我--NCUP汽车旅馆（1）汽车旅馆（2）汽车旅馆（3）T方法Acc.τFootrule Acc.伏特鲁勒Acc.伏特鲁勒Acc.伏特鲁勒Acc.伏特鲁勒距离62.400.151277.9160.280.084 301.380.059 313.26 56.19244.82 51.63-0.027 332.82聚类六十一点二八0.075305.3363.420.116 290.92 60.190.209 262.53186.6849.860.032 314.49表1：基线方法（4.1小节）在注释验证集上的结果，对于不同的输入特征。精度和τ越高越好，而Foottrule越低越好。通过降低注释不太可靠的工作者的贡献的权重来实现更大的全局一致性精确度我们计算一个给定方法预测与标注的事实一致的离散次数，然后将总一致率除以比较的总数在一对图像被注释多次的情况下，我们将多数票获胜者作为最清晰的图像。在注释导致平局的情况下，进行随机选择。Kendall'sTau测量排名中“反转”的归一化率。对于给定的一对图像，如果图像在预测排名中与地面实况排名中以相反的顺序出现，则发生反转。对于一组图像，X= x1，. . . ..dk （ r ， r ） =|{ （ xi ， xj ）： i =j（6）r（x i）r <$（x j）}|6. 结果和讨论基线我们对两个基线的性能进行基准测试-平均成对特征距离（距离）和聚类分配分布（聚类），每个基线使用五个不同的特征提取器：像素（RQP），三个中间ResNext-101 [32]卷积特征层（RXR（1 ），RXR（2 ）和RXR（ 3 ）），以及来自 Masked Autoencoder [13]（RINT）的编码器输出的特征。我们的基线方法的结果在表1中给出虽然每个度量的最佳得分都是通过聚类方法获得的较浅的CNN特征在原始配对准确性上获胜，而conv3特征在排名指标上明显获胜。然而，值得注意的是，即使是最简单的基线，使用RGB特征之间的平均成对距离，也只能达到比该指标上最佳性能低约1%的精度。这与我们的观察结果一致，即由于颜色差异等低级视觉特征，边界通常是清晰的。我们使用具有CNN特征的聚类基线的实验支持“越深越好”的传统观点例如，群集基线的τper-τ单调d（ r，r）=1−4·dk（r，r）τ（七）从0.075到0.449，因为输入特征与原始图像不同N·（ N−1）等式7将反演的数量归一化到相关系数的范围，使得dτ（r，rτ）[ 1，1]，其中1表示两个等级之间的完全一致（0个倒置）。Spearman's Footrule是一个稍微更易于解释的度量标准，用于测量总位移：r1和r2之间的秩位置的所有绝对差之和。为了便于解释，我们除以N得到平均位移;换句话说，该度量平均测量图像的预测排名与其真实排名位置的距离。形式上，用X，r和r如等式6中所定义，我们定义dF（·）：d（r，r）=1|r（x）−r（x）|（八）i=1elsR到conv3ResNext的特性是elsR（3）。Transformer特征的表现更差;我们假设这是由于在聚类的编码空间中缺乏可解释的空间推理，以及图像必须在距离中进行大块处理的事实。BorderCut表2显示了我们的自监督BorderCut模型的性能。虽然该模型没有在任何地面真实标签上进行训练，但它比我们的任何基线方法都具有更好的原始准确性，而其对排名指标的性能仍然比最佳聚类基线差。预先训练的特征（甚至没有在俯视图像上训练）和定制训练的自我监督方法之间的这种密切竞争突出了在没有地面真实标签的情况下工作的挑战，并表明仍然存在更好的性能的潜力，例如，通过额外的实验，方法.3846方法准确度↑τ↑Foottrule↓等级边界分数BorderCut65.85±1.60.145±0.02 283.18 ± 8.8汽车旅馆58.800.449186.68表2：BorderCut与性能最佳的（3））。总体而言，我们所有方法在此任务上的性能指标都很低：最佳准确率约为63%（50%是随机机会）;最好的τ相关系数在0.5以下，最好的平均位移在187左右。虽然这确实表明我们的基线和BorderCut方法有显著改进的空间，但我们认为，由于模糊性和人为分歧，完美的准确性对于我们的应用来说是不合理的或不必要的。例如，根据我们的判断，在1000张图像的验证集地面实况排名中，至少底部10%的瓷砖看起来同样难以辨认。未来的工作可以调查这种模糊性的程度，表3：根据全球开销-边界数据集上的平均特征余弦距离和CORP，边界级易读性通过对边界中的所有图块的平均得分来计算边境的大部分长度注释中的人类一致性水平，以量化这些度量的上限。带代理任务的监督机器学习对于我们的目的来说，直接监督学习是非常昂贵的，如第4节所讨论的。我们试图训练模型来预测边界的位置或角度，然后使用它们的准确性作为易读性的代理。然而，我们发现这样的模型很难训练，因为太多的训练样本具有难以辨认的边界，使得信噪比非常低。我们还考虑了将边界图像与来自非边界位置的图像进行比较，但这仍然存在问题，因为非边界图块可能仍然包含如果它们沿着边界则将是易读性的证据的特征（例如，一条不与边界重合的河流全局结果作为使用我们的方法来了解全局易读性趋势的初步实验，我们在整个全局Overhead-Borders数据集上运行了具有CNOP特征的距离表3显示了前10个最清晰的边界，通过平均每个边界的每瓦片清晰度计算。我们发现，使用这种方法最清晰的国家边界往往相对较短，具有独特的，通常是自然的特征。例如，法国-安道尔和俄罗斯-格鲁吉亚等较短的山区边界或河流边界（例如，喀麦隆-法国、津巴布韦-南非、坦桑尼亚-莫桑比克、列支敦士登-瑞士）是突出的特色。然而，我们也观察到政策和人类影响力在北马其顿-希腊（2015年开始修建边境围栏）和津巴布韦-博茨瓦纳（猎人之路覆盖）的影响。我们的边界易读性估计显示出希望，但仍然有限。特别是，我们的方法都直接或间接地依赖于A、B和C三个部分之间的比较。未来的工作需要设计更通用的方法，可以学习这些区别以及更高层次的推理，例如识别边境控制结构的能力。我们的方法也只在单一分辨率的航拍图像上进行评估，并具有固定的空间背景;由于航拍数据源不完善，在极少数情况下图像模糊，或者地面被云层遮挡。进一步研究这些参数的影响可能会提高性能和有趣的见解的空间范围的功能，引起易读性。7. 结论介绍了一种新的计算机视觉任务--边界清晰度估计。我们定义了任务，收集了数据集，建立了基线和基准，引入了一个用于易读性预测的自监督模型，并根据地面真实易读性注释的小型众包验证数据集评估了我们的方法。虽然需要进一步的研究来提高性能，但我们的结果已经显示出阐明全球易读性趋势及其对世界各国地理和政策的影响的希望确认这项工作得到了美国国家科学基金会的部分支持。1917573.作者非常感谢安德鲁·邓恩、内特·马森和薇薇安·怀特在数据收集方面的帮助。12345678910法属北马其顿-希腊0.500法国-安道尔津巴布韦-南非列支敦士登-瑞士0.381亚美尼亚-伊朗坦桑尼亚-莫桑比克匈牙利-南斯拉夫津巴布韦-博茨瓦纳俄罗斯-格鲁吉亚0.2983847引用[1] 韩林昂，布拉克·乌兹肯特，马歇尔·伯克，大卫·罗贝尔，斯特凡诺·厄蒙.使用时空卷积网络的农田地块划定。在CVPR工作-商店，2020年6月[2] SaikatBasu，SangramGanguly，SupratikMukhopadhyay，Robert DiBiano，Manohar Karki，andRamakrishna Nemani.Deepsat：卫星图像学习框架在第23届SIGSPATIAL国际会议上，地理信息系统的进展，SIGSPA-TIAL计算机协会[3] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像。 ACM Trans. on Graphics （ SIGGRAPH ）， 33（4），2014.[4] 大卫·卡尔森和雅各布·蒙哥马利。一个快速、灵活、可靠的政治文本人工编码的成对组合框架 AmericanPolitical Science Review，111（4）：835[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[6] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。[7] 宫成、韩俊伟、卢小强。遥感图像场景分类：基准和最新技术水平。Proceedings of the IEEE，105（10）：1865 -1883，oct2017.[8] Persi Diaconis和R. L.格雷姆作为衡量混乱程度Journal oftheRoyalStatisticalSociety：SeriesB（Methodological），39（2）：262[9] 福岛邦彦 Cognitron ：一种自组织多层神经网络。Biological Cybernetics，20：121[10] Sean Gillies 等人 Shapely ：几何对象的操作和分析https://github.com/Toblerity/Shapely，2007[11] Mark Hamilton，Zhoutong Zhang，Bharath Hariharan，Noah Snavely，and William T.弗里曼。通过提取特征对应的无监督语义分割2022年国际学习表征会议[12] 查尔莱斯河Harris，K. 贾罗德·米尔曼，圣方安·J。作者：JohnW.，John W.放大图片作者：Robert Kern，MattiPicus，Stephan Hoyer，Marten H. vanKerkwijk，MatthewBrett ， All anHalfman ， JaimeFerna' ndez delR'ıo ，MarkWiebe，Pe aruPeterson，PierreGe' rard- Marchant，Kevin Sheppard ， Tyler Reddy ， Warren Weckesser ，Hameer Abbasi，Christoph Gohlke，and Travis E.奥列芬特用NumPy编程。Nature，585（7825）：357- 362，Sept. 2020年。[13] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的视觉学习器。在IEEE/CVF计算机视觉和模式识别会议论文集，第16000[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Patrick Helber ， Benjamin Bischke ， Andreas Dengel ，Damian Borth.介绍欧洲卫星组织：土地利用和土地覆盖分类的新型数据集和深度学习基准。IGARSS 2018-2018IEEE国际地球科学与遥感研讨会，第 204-207页。IEEE，2018年。[16] XuJi，Jo a oFHenriques，andAndreaVedaldi.基于非监督信息聚类的图像分类与分割。在IEEE计算机视觉国际会议集，第9865-9874页[17] Li Jing，Jiachen Zhu，and Yann LeCun. 2022年的暹罗猫面具[18] 穆罕默德·卡迪姆和穆罕默德·阿布蒂用于卫星图像分类的卷积神经网络，第165-178页。施普林格国际出版社，2020年1月。[19] Michael R. Kenwick和Beth A.西蒙斯作为边境政治的大流行应对。国际组织，74（S1）：E36[20] William R.骑士用未分组数据计算肯达尔τ的计算机方法。Journal of the American Statistical Association，61（314）：436[21] Nico Lang，Walter Jetz，Konrad Schindler，and Jan DirkWegner. 一个高分辨率的地球冠层高度模型arXiv预印本arXiv：2204.08322，2022。[22] Haifeng Li ， Xin Dou ， Chao Tao ， Zhixiang Wu ， JieChen，Jian Peng，Min Deng，and Ling Zhao. Rsi-cb：一个使用众包数据的大规模遥感图像分类基准传感器，20（6）：1594，2020。[23] Haifeng Li ， Hao Jiang ， Xin Gu ， Jian Peng ， WenboLi，Liang Hong，and Chao Tao.Clrs：遥感图像场景分类的传感器，20（4），2020年。[24] Siyuan Li，Zedong Wang，Zicheng Liu，Di Wu，andStan Z. 李 Openmixup ： Openmixuptoolboxandbenchmark for visual representation learning，2022。[25] Jihao Liu ， Boxiao Liu ， Hang Zhou ， Yu Liu ， andHongsheng Li. Tokenmix ： Rethinking image mixing fordata augmenta- tion in vision transformers.欧洲计算机视觉会议（ECCV），2022年。[26] Mark D. Pritt和Gary Chern。卫星图像分类与深度学习。2017年IEEE应用图像模式识别研讨会（AIPR），第1-7页[27] Xiaoman Qi ， Panpan Zhu ， Yuebin Wang ， LigiangZhang，Junhuan Peng，Mengfan Wu，Jialong Chen，Xudong Zhao，Ning Zang，and P.塔基斯·马蒂奥普洛斯Mlrsnet：一个多标记的高空间分辨率遥感数据集，用于场景理解. ISPRS摄影测量和遥感杂志，169：337[28] 贝丝A. Simmons和Michael R.肯威克全球化世界中的边界定位。美国政治学杂志，n/a（n/a），2022年。[29] Steven S.斯基耶纳数据科学设计手册Springer PublishingCompany，Incorporated，第1版，2017年。3848[30] Gencer Sumbul，Marcela Charfuelan ，Begum Demir，and Volker Markl.Bigearthnet：一个用于遥感图像理解的大规模基准在IGARSS 20192019 IEEE国际地球科学与遥感研讨会IEEE，2019年7月。[31] Gui-Song Xia，Xiang Bai，Jian Ding，Zhen Zhu，SergeBe- longie，Jiebo Luo，Mihai Datcu，Marcello Pelillo，and Liang-pei Zhang.Dota：用于航空图像中物体检测的大规模数据集在 IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[32] 谢赛宁、罗思思·吉希克、彼得·多尔·拉尔、朱奥文·图和何开明。深度神经网络的聚合残差变换。在IEEE计算机视觉和模式识别会议论文集，第1492-1500页，2017年。[33] 陆旭，陈怡云

下载后可阅读完整内容，剩余1页未读，立即下载