没有合适的资源?快使用搜索试试~ 我知道了~
双曲线图像分割中的免费边界信息和不确定性估计的作用
4453双曲线图像分割MinaGhadimiAtigh1*,JulianSchoep1*,ErmanAcar2,NannevanNoord1,PascalMettes11University of Amsterdam,2Leiden University,2Vrije UniversiteitAmsterdam(a)预测不确定性免费(b)边界信息免费图1. 双曲线图像分割免费提供的两个例子。对于这两个示例,每个黑点表示双曲空间中的像素嵌入左(Pascal VOC):紧挨着每像素分类,双曲空间中到原点的距离右图(COCO-Stuff-10 k):像素的双曲线定位甚至允许我们精确定位对象的内部和边缘,如分割图中的彩色框及其对应像素所示用于分割的双曲嵌入的其他好处包括零标签泛化和更好的性能在低维嵌入空间。vature欧氏嵌入空间,虽然事实上摘要对于图像分割,目前的标准是通过线性超平面在欧氏输出嵌入空间中执行像素级优化和推理。在这项工作中,我们表明,双曲流形提供了一个有价值的替代图像分割,并提出了一个易于处理的制定分层像素级分类在双曲空间。双曲线图像分割为分割开辟了新的可能性和实际利益,例如不确定性估计和免费的边界信息,零标签泛化以及低维输出嵌入的性能提高。1. 介绍视觉表征学习的一个普遍目标是获得有区别的和可推广的嵌入。这种视觉嵌入是以一种深度和高度非线性的方式学习的。在顶部,线性层通过欧几里得超平面将类别分开。选择一个零电流-* 平等贡献标准,需要仔细重新考虑,因为它直接影响到任务在给定数据和类别空间中固有的潜在结构的情况下可以优化到什么程度[19,22,29]。这项工作的灵感来自最近的文献advo- cating双曲流形作为嵌入空间的机器学习和计算机视觉任务。基础工作表明,双曲流形能够嵌入具有最小扭曲的层次和树状结构[29]。后续工作已经证明了双曲线对于具有潜在层次结构的各种任务的好处,从文本嵌入[42,55]到图形推理[8,12,22]。值得注意的是,Khrulkov等人[19]表明,由于视觉数据集中存在潜在的层次结构,双曲嵌入也与视觉数据有着深刻的联系。这种联系带来了计算机视觉中的早期hyperbolic成功,用于少镜头和零镜头学习[15,19,23],无监督学习[32,46],和视频识别[25,40]。当前双曲线计算机视觉工作的共同点是手头的任务是全局的,即。整个图像或视频由HY中的单个向量表示4454Perbolic嵌入空间[3,19,23,25].在这里,我们的目标是将双曲深度学习带到像素级别。然而,这一概括并非微不足道。流形的变化为加法和乘法等基本运算带来了不同的公式,每种公式都具有不同的空间复杂度。具体而言,作为双曲多项式逻辑回归的一部分的莫比乌斯加法带来的额外空间复杂性使得同时优化或推断甚至单个图像的所有像素变得难以处理在这里,我们提出了一个等效的重新制定的多项逻辑回归的庞加莱球,绕过了显式计算的莫比乌斯除了,允许同时分割优化批次的图像在双曲空间。我们还概述了如何在双曲嵌入空间中的标签之间合并分层知识,如之前在图像和视频识别中所提倡的那样[23,25]。所提出的方法是通用的,可以插入任何分割架构的顶部。 代码 可 以 在 https : //github 上 找 到 。com/MinaGhadimiAtigh/HyperbolicImageSegmentation.我们进行了一些分析,以展示EF-和新的可能性来与双曲线图像分割。我们提出了以下内容:(i)超曲嵌入为图像分割中的不确定性估计和语义边界估计提供了自然的度量,参见图1。与贝叶斯不确定性估计不同,该方法不需要额外的参数或多次前向传递,即.这个信息是免费的。(ii)具有层次知识的双曲嵌入比欧氏嵌入提供了更好的零标号推广,即:双曲线改进了对看不见的类别的推理。(iii):对于较少的嵌入维度,双曲线嵌入是优选的。低维有效性是超曲线深度学习的基石[29]。我们发现这些益处扩展到图像分割,具有可解释性和设备上分割的潜力[3]。我们相信这些发现为图像分割带来了新的见解和机会。2. 相关工作2.1. 图像分割广泛使用的分割方法遵循编码器-解码器范例,其中编码器学习低维表示,解码器用于重建高分辨率分割图[5,9,10,24,31,34]。解码器的早期适应性通过去卷积[24,31]或多个双线性上采样块以及更多卷积层[5]使用参数化上采样操作。最近的工作试图通过合并各种尺度的特征图来加强上下文信息的上采样,即。特征金字塔[52],或者通过全连接层将解码与全局上下文特征相结合[49]。例如,广泛适用的Deeplab架构[9]在解码器内使用具有各种膨胀级别的无环卷积,以有效地获得各种尺度的上下文信息。其他最近的方法集中在提高利用多尺度信息,例如。使用多尺度注意力[41],挤压和注意力[53]和变换器[48]。通常在语义图像分割中,最终的分类是通过欧氏空间中的多项logistic回归来执行的。作为一种有前途的替代方案,我们主张使用双曲空间在任何现有架构之上执行像素级分类2.2. 双曲深度学习双曲空间在深度学习文献中获得了吸引力,用于表示树状结构和税收[18,20,29,30,36,38,47],文本[2,42,55],以及图[4,8,12,22,26,50]。双曲线替代方案已被提出用于各种网络层,从中间层[17,39]到分类层[3,11,17,39]。最近,双曲线也被应用于计算机视觉中,用于分层动作搜索[25],少镜头学习[19],分层图像分类[13]和零镜头图像识别[23]。在这项工作中,我们建立在这些基础上,使语义图像分割的一步,这需要重新制定的双曲多项式逻辑回归变得易于处理。以前的作品已经显示了图像分割的层次视图的潜力。例如,[51]在公司内,一个基于Word-Net [27]上义词/下义词关系的开放词汇视角.通过学习图像特征和词概念的联合嵌入,结合专用的评分函数来加强上位词和下位词之间的不对称关系,他们的模型能够预测层次概念。这种方法类似于[21]中使用层级特定卷积块的方法。这些块(单独地负责仅在子类之间进行区分)被动态地激活,使得在任何给定时间仅整个图的子集被激活,这取决于图像中存在哪些概念。这是用损失函数训练的,该损失函数由每个子概念预测图处的二进制交叉熵损失的总和组成。在这里,我们寻求在双曲流形上整合层次信息,这可以应用于任何分割架构之上,而无需改变架构本身。[44]最近的工作研究了使用超曲空间进行图像分割,但仅在事实发生后才这样做,即。在预测的实例分段之上。相比之下,我们的方法使易于处理的双曲线分类的像素级分割本身的一部分4455CCyCC(三)√(七)C›→∈∈∈中文(简体))=的pyyC IJy3. 基于夸张的3.1. 背景:庞加莱球模型双曲几何包括几种共形模型[7]。基于其在深度学习和计算机视觉中的广泛应用,我们对庞加莱球进行了操作Poincare球定义为(Dn,gDc),其中流形Dn={x∈Rn:c||X||<1}和黎曼度量:gDc=(λc)2gE=2In, (1)1 − c||X||2其中gE=In表示欧几里得度量张量,c是控制球的曲率和半径的超参数。分割网络在欧几里得空间中运行,为了能够在庞加莱球上运行,需要从欧几里得切空间到双曲空间欧几里得向量x在庞加莱球上的投影由具有锚点v的指数映射给出:图2.二维流形上双曲旋翼(py,wy)和输出距离zij的可视化。 在本工作的上下文中,zij表示像素位置(i,j)处的输出表示,H c表示类y的超平面。其中zij=exp0(f(X)ij)表示像素位置(i,j)处的网络输出的指数映射,其中p∈DnC..√λ c||X||ΣX轴v的偏移量和w∈ TpDn的方向的旋翼飞机。expv(x)=vc丹哲2√c||X||、 (二)zij到y类回转面的双曲距离为给出为:用Móbius加成:C1-1。 2c−p ycz ij,wy(1+ 2 cv,w+ c||W||2)v+(1 −c||v||2)wdc(zij,Hy)=csinh.(1−c||−pyczi j||(二)||wy||v=w=1+ 2cv,w+ c2||v||2||W||二、(六)图2示出了由下式定义的夸张上的旋翼机:在实践中,v通常被设置为原点,从而将指数映射简化为exp0(x)= tanh(x)||X||)(x/(c)||X||))。(四)它的偏移和方向,以及从像素的测地线输出zij到旋翼机。基于该距离,使用等式1的度量的像素输出zij的类别y的logit被给出为:λ c||w y||.2c−p z,w对于图像分割问题,我们给出了一个yIJC(1−c||−pyczi j||(二)||wy||输入图像XRw×h×3,其中w和h分别为图像的宽度和高度。对于每个像素x X,我们需要分配一个标签yY,其中Y表示一组C类标签。设f(X):Rw×h×3Rw×h×n 表示一个任意函数,它把每个象素变换成n维表示,例如.图像到图像的网络。当前方法中常见的是将所有像素并行馈送到线性层,然后是softmax,从而导致每个像素的所有C类上的C维概率分布,用交叉熵优化本文提倡利用双曲空间以执行用于图像分割的每像素分类。我们从几何解释Ganea等给出的双曲多项式逻辑回归。[18],它定义了旋翼机,即。庞加莱球中的超平面,如:Hc={zij∈Dn,<$−p<$czij,w<$=0},(5)3.2. 易于处理的像素级双曲线分类辛-1Xx.4456因此,可能性给出为:p(y)=y|zi j)exp(y(zi j)),(8)其可以用交叉熵损失和梯度下降来优化Ganea等人的几何解释。[18]提供了一个在双曲空间中对输出向量进行分类的框架。与标准分类相比,图像分割需要并行的逐像素分类。然而,这种设置是棘手的双曲多项式逻辑回归的当前实现。瓶颈是由显式计算的莫比乌斯加法。在一个标准的示例分割集中-ting(W=H=513,K=100个类,n=256,批大小为5),这将导致32位浮点精度下的内存占用量约为132GB,相比之下,GB在Euclidean空间在这里,我们提出了一个等价的4457|| −⊕||⟨−⊕⟩−YYH { } AyyIJΣIJβ=0。||=(α p + β z),||=Σ(αpˆ+βz),nn通过分解出Mobius加法的显式计算来计算边际似然性,从而产生1.1 GB的内存占用我们的方法的关键是观察到我们不需要加法的实际结果,只需要等式7的分子中的内积py czij,wy和分母2.p.y.c.z.ij.为此,我们首先将莫比乌斯加法改写为:pyczij=αpy+βzij,1+2cpy,zi j+c||zi j||2c 0.1 c 0.5 c 1.0 c 2.0图3. 可视化Pascal VOC的20个类在双曲空间中的类嵌入。颜色勾勒出类的层次结构。曲率越大,旋翼机越靠近庞加莱盘的边缘。在分析中,我们研究了双曲α=,1+2cpy,zi j+c2||py||2||zi j||21−c||py||21+2cp,z+c2||p||2||z||2(九)曲率的分割性能。然后,输出zij的类y的概率由a给出y IJYij分层softmax:py=我是克拉丽特。上面的公式都告诉我们要预先计算α和β以供重用。然后,我们用wy重写内积为:p(y)=y|zij)=的h∈Hyp(h)|AH、zij)(十二)p=αpy,w+βzi j,w。(十)=h∈Hyexp(zh(zij)),s∈Shexp(s(zij))当明确计算M?bius加法需要对单个图像求RW×H×C×n中的一个张量时,这被简化为在RW×H×C中添加两个张量。莫比乌斯加法的平方范数可以有效地计算如下:2m m 2Yijm=1=(αpm)2+αpmβzm+(βzm)2,与y=y而与S h的兄弟姐妹h。 上面的公式计算从根节点到叶节点的联合概率,其中每个节点处的概率如下所示:softmax由同一子树中的兄弟规范化。给定该概率函数,可以用交叉熵执行训练,并且在基于等式12的推断期间选择最可能的类别。在图3中,我们可视化如何将这些知识的结果,在层次上一致的嵌入类旋翼机。4. 分析ym=1 n伊日n n4.1. 设置=α2<$(p<$m)2+2αβ<$p<$mzm+β2<$(zm)2,m=1m=1m=1数据集。我们评估双曲线图像分割三个数据集,COCO-Stuff-10 K [6],Pascal VOC [14]和=α2||py||2+2αβpy,zi j+β2||zi j||二、(十一)ADE20K [54]. COCO-Stuff-10 K包含来自171个类的10,000张图像,其中包括80个可数事物类(如雨伞或汽车)和91个不可数事物类它是RW×H×C中三个张量的和。更多-因此,当预先计算α和β时,所有的项都已经计算过了。在计算类logits时,通过对内积和平方范数的重新表述,使双曲分类在像素级上成为可能。3.3. 层次双曲类嵌入它已多次表明,双曲空间是能够嵌入层次结构与最小的失真[33,36,38]。为此,我们调查的潜力,将图像分割的双曲流形类之间的层次关系。设Y表示构成层次N的叶节点的所有类的集合. 对于类y∈Y,设Ay表示y的祖先。例如天空或水。数据集被分成训练集中的9,000张图像和测试集中的1,000张图像。Pascal VOC包含来自21个类的12,031张图像,其中包括20个对象类,如人和羊以及一个背景类。该数据集被分为训练集中的10,582张图像和测试集中的1,449张ADE20K包含来自150个类别的22,210个图像,例如汽车和水。该数据集被分成训练集中的20,210个图像和测试集中的2000个图像。对于所有的数据集,我们已经做了完整的层次结构,它们在补充材料中显示。实作详细数据。对于所有实验,我们使用具有ResNet101主干的DeeplabV3+[10]。对于COCO- stuff-10 k、ADE 20 K和Pascal VOC,我们将学习率初始化4458为0.001、0.001和0.01我们训练模型44591.64.01.43.51.23.01.02.50.82.00.61.50.41.00.20.50.01.00 0.75 0.50 0.25 0.00 0.25 0.50 0.751.00置信图与边界距离图像的相关性(a) 双曲线不确定性与边界距离相关。0.00.0 0.2 0.4 0.6 0.8 1.0平均置信度(b) 边界的双曲不确定性高于对象内部。图4. 双曲不确定性在语义上有意义吗?我们进行了两个定量实验与2嵌入维的Pascal VOC,以揭示双曲不确定性是否提供有意义的见解。左:我们发现每像素双曲不确定性(这里显示为它的倒数,即置信度)与分割中的语义边界密切相关右:对于表示对象内部的前景像素,超曲线置信度最高,其次是背景像素,最后是语义边界。对于COCO-stuff-10 K、ADE 20 K和Pascal VOC的70、140和40个时期为了优化Eu-clidean参数,我们使用动量为0.9的SGD和幂为0.9的多项式学习率衰减,类似于[10]。为了优化双曲线参数,我们使用RSGD,类似于[18]。评估指标。 我们执行的标准和分层指标的评价。对于标准的metrics,我们使用像素精度(PA),类精度(CA)和平均交集超过联合(mIOU)。像素准确度是指图像中具有正确标签的像素的百分比。类精度首先计算每个类的精度,然后计算所有类的平均值。IOU表示地面实况和预测分割的空间重叠。mIOU表示所有类别的平均IOU。为了评估系统的一致性和鲁棒性,我们还报告了每个指标的兄弟和表亲变体,如下[25]。在度量的兄弟变体中,如果预测与目标类共享父类,则预测也被计为正确。在表兄弟变体中,预测的标签需要与目标类共享祖父母才能算作正确。4.2. 不确定性和边界信息免费解释预测的能力在许多细分场景中至关重要,从医学成像到自动驾驶,以唤起信任并在人类参与的情况下做出决策[1]。对于第一个分析,我们investi-门的作用,双曲嵌入的解释分割。具体来说,我们展示了如何在双曲嵌入空间中的每个像素的原点的距离提供了一个自然的不确定性预测的措施。我们提请比较贝叶斯的不确定性和调查是否双曲的不确定性是语义上有意义的。双曲线与贝叶斯不确定性。为了获得双曲图像分割中的每像素不确定性,我们简单地测量Poincare'图5. 双曲线与欧几里德不确定性的例子从帕斯卡VOC。这两种不确定性的度量都高度一致,并专注于语义边界。然而,欧几里得嵌入的贝叶斯不确定性需要1,000遍,而我们用双曲嵌入免费获得不确定性。球,无论它们的定位到特定类别的陀螺仪。在传统的分割架构中,这样的不确定性度量更常见地通过贝叶斯优化来获得,或者通过从一开始就使网络贝叶斯化[43],或者通过在推断期间的蒙特卡罗丢弃[28]。在图5中,我们显示了Pascal VOC中双曲不确定性的不确定性图,其中包含2个嵌入维度和曲率0.1。我们通过在推理过程中的dropout [16]与欧氏空间中的贝叶斯对应物进行了定性比较。这两种变体使用相同的骨架。为了创建贝叶斯不确定性图,我们在Resnet块后添加Monte-Carlo dropout,其中边界背景前景频率密度4460∈丢弃率为0.5,并将每个图像通过网络1,000次,类似于[28]。图5显示了三个双曲和贝叶斯不确定性示例图。这两个不确定性地图都是高度可解释的,专注于图像的语义边界和遮挡区域。然而,一个关键的区别是,COCO-Stuff-10k流形层次类访问像素访问mIOU2019 - 04 - 23 00:00:00RC3.2948.6518.53DC3.4651.7021.15获得地图:虽然贝叶斯不确定性需要许多由于MC丢弃,我们可以免费获得不确定性映射,从而使推理速度提高1,000倍。双曲不确定性在语义上有意义吗定性结果表明,双曲不确定性度量是语义上有意义的,因为它涉及到对象之间的语义边界。为了验证这一假设,我们概述了一个定量实验:对于地面实况分割图中的每个像素,我们计算到具有另一个类别标签的最近像素的欧几里得距离直觉上,这个距离与预测置信度相关;越接近边界,双曲范数越小。我们对图像中所有像素的置信度和边界距离进行相关性分析然后,我们汇总所有图像的相关性。在图4a中,我们显示了Pascal VOC中所有图像的相关性的直方图,其中嵌入维度和曲率与上述相同直方图显示,我们的双曲方法的置信度(不确定性的该结果强调了双曲不确定性提供了关于图像中哪些区域包含图像之间的边界的直接线索,这反过来可以用于确定是否忽略这些区域或确定在何处进一步优化,因为边界区域通常包含许多错误[37]。我们对柔性材料中的256个嵌入维进行了相同的实验,它们遵循相同的分布。为了进一步突出双曲不确定性和语义边界之间的关系,我们进行了第二个定量实验,其中我们将每个像素分为三类之一:边界像素,如果它距离最近的其他类,背景像素或前景像素(即,其他对象之一)。在图4b中,我们绘制了所有三类Pascal VOC上每个像素的平均置信度,表明前景像素的双曲置信度最高,边界像素的双曲置信度最低,背景像素介于两者之间。所有关于边界和像素类的信息都是免费的,双曲线作为分割中的嵌入空间。4.3. 零标号泛化在第二个分析中,我们展示了双曲嵌入推广到图像分割的不可见类的潜力。我们在COCO-Stuff-10 k和Pascal VOC上进行零标签实验,并遵循Xian等人的零标签语义分割设置。[45 ]第45段。Pascal VOC流形层次类访问像素访问mIOU10.842.59卢比RC7.8031.0416.15DC12.1547.9234.87表1.Coco-Stuff-10 k和Pascal VOC上的零标签泛化在这两个数据集上,将分层知识与双曲嵌入相结合,为推广到看不见的类提供了比欧几里得对应的更合适的基础。对于COCO-Stuff-10 k,我们使用一组15个看不见的类进行推理,对应于数据集中未出现在2014年ImageNet大规模视觉识别挑战赛[35]中的所有类,在此基础上对主干进行了预训练。这确保了模型在训练期间从未见过任何类。对于Pascal VOC,我们遵循[45]的15/5可见 / 不 可 见 分 裂 。 我 们 比 较 了 两 个 基 线 : 标 准 的DeepLabV3+,它在欧几里得空间中运行,不采用层次关系,以及DeepLabV3+的变体,它采用欧几里得层次softmax。更正式地说,给定一组看不见的类CU和一组可见的类CS,我们通过用忽略标签替换它们来从数据集中删除所有k个CU这实际上意味着在优化期间不使用这些像素,并且因此不对这些类优化模型。因此,在包含来自CU的概念的图像中,包含来自CS的概念的像素仍然用于训练。与更广为人知的零拍摄图像分类任务不同移除这些图像将导致训练集显著减少,这对于评估的目的是不切实际的在CS上训练之后,我们通过仅在每个像素的未看到的概念之间进行选择来执行推理我们注意到,我们没有使我们的方法适应零标签设置,我们使用与监督分割相同的网络和损失,唯一的区别在于用于训练和推理的类COCO-Stuff-10 k和PascalVOC的结果示于表1中,用于256个输出尺寸和相应的曲率1和2。在补充材料中,我们还显示了使用三个指标的兄弟姐妹和表亲变体的结果对于这两个数据集,我们首先观察到,使用标准的欧几里德架构,没有层次知识,结果在近随机零标签性能。当使用层次知识和欧几里得嵌入时,它4461DeepLabV3+本文DeepLabV3+本文DeepLabV3+本文类别准确度605040像素精度80 4070 3560 3050 25平均IOU30 40 2020100256 10 32 256 103 23020100256 10 3 2 256 103 2151050256 10 32 256 103 2|--COCO-Stuff-10K--||--ADE20K-------------||--ADE20K||------ADE20K----------------------- ||--ADE20K||------ADE20K----------------------- |图6. COCO-Stuff-10 k和ADE 20 k上双曲嵌入图像分割的低维有效性。在所有这三个指标,我们的方法在高维嵌入空间中获得竞争力的表现,以欧几里德对应。当将嵌入空间限制为几个维度时,双曲线嵌入对于分割是优选的。图7. COCO-Stuff-10 k上具有两个嵌入维度的双曲图像分割的定性示例。对于每个示例,我们显示了双曲线嵌入中所有像素的投影(左)和分割结果(右)。从左到右:石灰色表示奶牛(部分故障情况),红色表示停车标志,紫色表示火车。可以识别看不见的类。然而,为了对看不见的类进行一般化,最好将类层次结构与双曲嵌入结合起来。在COCO- Stuff-10 k上,mIOU从18.53增加到20.76。在Pascal VOC上,差异甚至更大;从16.15到34.87.这个实验显示了层次知识和双曲线嵌入之间的强大亲和力,用于图像分割和推广到未看到的类的潜力。我们的结论是,双曲空间提供了一个更合适的基础,推广到看不见的类的背景下分割。定性零标签结果见补充材料。4.4. 低维嵌入有效性在第三个分析中,我们证明了双曲嵌入在低维环境中的有效性Hy-perboles已经证明在各种数据类型上具有较少的嵌入维度是有益的。在图6中,我们将默认的欧 几 里 得 嵌 入 与 COCO-Stuff-10 k 和 ADE 20 K 上 的DeepLabV 3+的双曲嵌入进行了比较,维度范围从256到2。DeepLabV3+的经典分割的标准设置是在256的维度上操作。然而,低维嵌入对于可解释性和设备上的分割是优选的[3],因为它们降低了复杂性和较小的内存占用。我们的结果显示了两个数据集的一致模式以及度量,其中双曲线嵌入对于高(256)或中(10)维设置获得可比较的性能在低维设置(2和3)中,我们的方法优于DeepLabV3+。正如预期的那样,当使用低维嵌入时,两个模型的性能都会下降通过使用结构化的嵌入空间,我们能够在低维(低至2维)中获得更好的性能。当使用3维时,双曲线嵌入将mIOU提高4。COCO- Stuff-10 K的支持率为32%,ADE20k上的99这种低维嵌入的可解释性的好处证明了双曲盘可视化在本文中,这是基于在2维训练的模型。我们的结论是,双曲嵌入的低维有效性扩展到图像分割的任务。在图7中,我们提供了2维双曲嵌入空间中的定性示例。补充材料中提供了关于颜色的进一步解释。4.5. 进一步消融为了完成分析,我们消融两个设计选择,在我们的方法,即双曲曲率和使用的层次关系的双曲嵌入空间。两次消融均在COCO-Stuff-10 k上进行。曲率 由于双曲空间是弯曲的,4462706050403020100CA PAMiouCA PA MILLE第256章第三次图8.高(256)维和低(3)维双曲嵌入的曲率比较性能报告为分类准确度(CA)、像素准确度(PA)和平均IOU(MIUI)。对于高维度,该模型对曲率值的变化具有鲁棒性,在低维度设置中,对于低曲率值可以观察到类似的鲁棒性,但是当使用高曲率值时,性能下降(10)。是一个额外的超参数相比,欧几里德空间(即,c=0),它决定了庞加莱球的曲率和半径。在图8中,我们显示了不同曲率对256维和3维嵌入图像分割的影响。对于256维嵌入,我们可以观察到曲率值的影响可以忽略不计,即使对于大的曲率差异,性能也只有微小的变化0的情况。05至10)。可以用3维进行类似的观察,除了当曲率设置为10时,对于这种较低的维度,我们看到性能下降。我们怀疑,因为嵌入空间随着曲率的增加而缩小,低维度与高曲率相结合会使嵌入空间的大小减小得太多。在实践中,我们使用验证来确定0.1到2范围内的曲率。分层与平坦双曲线softmax。 通过分析,我们结合了双曲嵌入的图像分割与目标类之间的层次关系,由于良好的匹配之间的层次结构和双曲空间。在这项消融研究中,我们将这种层次知识的分割的上下文中的效果我们绘制了一个与传统的平面设置相同的曲线,在所有类上使用一个热编码(即。省略层次结构)。表2所示的结果清楚地突出了分层softmax的优势,在几乎所有情况下都优于平面softmax-无论是分层指标还是标准指标。增加维度减少了分层和平面softmax之间的差异,平面softmax甚至在256个维度的标准度量上略优于分层softmax 然而,在所有的迪-mensionalities分层softmax是首选的分层度量,展示了结合分层知识用于分割的益处。表2.在COCO-Stuff-10 k上嵌入分层知识对Hy-Bolic图像分割的影响。在几个维度上,采用分层softmax优于基于独热向量的平面softmax。随着维度的增加,这种偏好对于标准指标会减少,而分层softmax仍然是分层指标的首选。5. 结论这项工作研究语义图像分割从双曲线的角度来看。双曲嵌入最近已被证明对各种机器学习任务和数据类型有效,从树和图形到图像和视频。然而,当前的双曲线方法没有缩放到像素级别,因为相应的操作是内存方面难以处理的。我们介绍了双曲图像分割,第一种方法,在双曲嵌入空间的图像我们概述了一个等价的和易于处理的双曲多项式逻辑回归公式,使这一步。通过几个分析,我们证明了双曲嵌入空间中的操作为图像分割带来了新的可能性,包括免费的不确定性和边界信息,改进的零标签推广,以及在低维嵌入空间中更好的性能。限 制 和 负 面 影 响 。 在 整 个 实 验 中 , 我 们 使 用DeepLabv3+作为主干,因为该架构的知名度和性能。我们的分析还没有揭示双曲线嵌入在更浅或更深的架构中的效果虽然我们并不关注具体的应用,但分段通常确实具有读者需要注意的潜在负面社会应用,例如监视和军事环境中的分段。致谢。Erman Acar由荷兰教育、文化和科学部资助的混合智能项目慷慨资助,项目编号为024.004.022。曲率00.050.10.5110尺寸Softmax∼平均IOUSC2平坦4.3112.4719.48分层8.7422.6733.053平坦11.1126.1934.41分层16.8234.8545.8910平坦28.8946.8555.85分层28.9947.3556.74256平坦31.7748.5957.27分层31.4648.7358.344463引用[1] Zeynep Akata、Dan Balliet、Maarten De Rijke、FrankDignum 、 Virginia Dignum 、 Guszti Eiben 、 AntskeFokkens 、 Davide Grossi 、 Koen Hindriks 和 HolgerHoos。混合智能的研究议程:用协作、适应、负责和可解释的人工智能增强人类智力。计算机,53(8):18-28,2020。5[2] RamiAly,ShantanuAcharya,Ale xanderOssa,ArneK?hn,Chris Biemann,and Alexander Panchenko.每个孩子都应该有父母:一个基于双曲项嵌入的分类法细化算法ACL,2019年。2[3] Mina Ghadimi Atigh,Martin Keller-Ressel,and PascalMettes.用理想原型学习双曲型。NeurIPS,2021。二、七[4] 巴赫曼先生,加里·贝西纽,还有奥克特·阿维尼翁·加内亚。常曲率图卷积网络。在ICML,2021。2[5] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。TPAMI,2017。2[6] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff:上下文中的东西类. 在CVPR,2018年。 4[7] James W Cannon,William J Floyd,Richard Kenyon,Walter R Parry,et al.双曲几何几何的味道,1997年。3[8] InesChami,ZhitaoYing,ChristopherRe´,andJureLeskovec.双曲图卷积神经网络。NeurIPS,2019。一、二[9] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,2017。2[10] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。二、四、五[11] Hyunhoon Cho , Benjamin DeMeo , Jian Peng , andBonnie Berger.双曲空间中的大边距分类。在AISTATS,2019年。2[12] 戴金斗、吴雨薇、高智、贾云德。双曲到双曲图卷积网络。在CVPR,2021年。一、二[13] Ankit Dhall , Anastasia Makarova , Octavian Ganea ,Dario Pavllo,Michael Greeff,and Andreas Krause.使用蕴涵锥嵌入的层次图像分类。在CVPRw,2020年。2[14] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.International Journal of Computer Vision,111(1):984[15] Pengfei Fang,Mehrtash Harandi,and Lars Petersson.双曲空间中的核方法。ICCV,2021。1[16] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为一种近似:表示深度学习中的模型不确定性。InICML,2016. 5[17] 欧根·加内亚、加里·贝西纽和托马斯·霍夫曼。学习层次嵌入的双曲蕴涵锥。在ICML,2018。2[18] 欧根·加内亚、加里·贝西纽和托马斯·霍夫曼。双曲神经网络 NeurIPS,2018。 二三五[19] Valentin Khrulkov,Leyla Mirvakhabova,Evgeniya Usti-nova,Ivan Oseledets,and Victor Lempitsky.双曲线图像嵌入。在CVPR,2020年。一、二[20] Marc Law,Renjie Liao,Jake Snell,and Richard Zemel.双曲表示的洛伦兹距离学习。在ICML,2019。2[21] Xiaodan Liang,Hongfei Zhou,and Eric P. Xing.动态结构语义传播网络。在CVPR,2018年。 2[22] Qi Liu,Maximilian Nickel,and Douwe Kiela.双曲图神经网络NeurIPS,2019。一、二[23] Shaoteng Liu,Jingjing Chen,Liangming Pan,Chong-Wah Ngo,Tat-Seng Chua,and Yu-Gang Jiang.用于零射击识别的双曲视觉嵌入学习在CVPR,2020年。一、二[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。2[25] Teng Long,Pascal Mettes,Heng Tao Shen,and CeesGM Snoek.寻找夸张的动作。在CVPR,2020年。一、二、五[26] Aaron Lou , Isay Katsman , Quanguan Jiang , SergeBelongie,Ser-Nam Lim ,and Christopher De Sa. 通过fre'chet平均值进行区分。 在ICML,2020。2[27] George A.米勒 Wordnet:英语词汇数据库。ACM通讯,38:39-41,1995年。2[28] Jishnu Mukoti和Yarin Gal.评估贝叶斯深度学习方法用于语义分割。arXiv预印本arXiv:1811.12709,2018。五、六[29] 马克西米利安·尼克尔和杜韦·基拉。庞加莱嵌入学习分层表示。NeurIPS,2017。一、二[30] 马克西米利安·尼克尔和杜韦·基拉。双曲几何的洛伦兹模型中的连续层次学习。在ICML,2018。2[31] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络CVPR,2015。2[32] Jiwoong Park,Junho Cho,Hyung Jin Chang,and JinYoung Choi.通过消息传递自动编码器进行无监督双曲表示学习。在CVPR,2021年。1[33] Wei Peng , Tuomas Varanka , Abdelrahman Mostafa ,Henglin Shi,and Guoying Zhao.双曲深度神经网络:一个调查。arXiv预印本arXiv:2101.04562,2021。4[34] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络在MICCAI,2015年。2[35] Olga Russakovsky , Jia Deng , Hao Su
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功