没有合适的资源?快使用搜索试试~ 我知道了~
1基于损失最大池的语义图像分割SamuelRotaBulo`,<$GerhardNeuhold<$PeterKontakeder<$意大利特伦托市的FMBK-rotabulo@fbk.eu†Mapillary-Graz,Austria-{samuel,gerhard,pkontakeder}@ mapillary.com摘要我们引入了一种新的损失最大池概念,用于处理不平衡的训练数据分布,适用于语义图像分割的深度神经网络背景下的替代损失层。大多数真实世界的语义分割数据集表现出长尾分布,其中包含大部分数据的对象类别很少,因此使分类器偏向于它们。我们的方法自适应地重新加权的贡献,每个像素的基础上,他们观察到的损失,目标- ING表现不佳的分类结果,经常遇到的代表性不足的对象类。我们的方法超越了传统的成本敏感的学习尝试,通过自适应的考虑,使我们能够间接地解决,类间和类内的不平衡。我们提供了一个理论上的理由,我们的方法,补充基准数据集上的实验分析。在我们对Cityscapes和Pascal VOC 2012分割数据集的实验中,我们发现了持续改进的结果,证明了我们方法的有效性。1. 介绍毫无疑问,深度学习方法已经成熟到许多传统计算机视觉任务(如图像分类,对象检测或语义分割)的新事实标准。语义分割的目的是为图像中的每一个像素赋予类别标签,因此构成了高层次图像理解的基础。最近的工作通过建立在卷积神经网络(CNN)[30]的基础上并通过特定于任务的功能来丰富它们,从而为该研究领域的进展做出了贡献。将CNN扩展到直接铸造密集的语义标签映射[2,34],包括更多的上下文信息[9,16,33,46]或使用图形模型[31,47]改进结果,已经在许多现实世界的应用程序和标准基准数据集上取得了令人印象深刻的结果到目前为止,很少有研究关注如何在深度神经网络训练中正确处理语义分割数据集中经常遇到的不平衡(或偏斜关于不平衡,我们指的是数据集的数据的主要部分被分配给(少数)多数类,而其余部分属于少数类,形成了不充分代表的类别。作为(大多数不期望的)结果,可以观察到,在没有校正机制的情况下训练的分类器在推理期间倾向于偏向大多数类。缓解这种阶级不平衡问题的一种方法是首先通过近似均匀地收集样本来强调数据集的平衡汇编。遵循这种方法的数据集是Ima-geNet [11],Caltech 101/256[15,17]或CIFAR 10/100 [29],其中训练、验证和测试集相对于. r. t大致平衡。每个类的实例。另一种广泛使用的方法是在编译实际训练数据时对少数类进行过采样或对多数类进行欠采样。 已知这样的方法会改变基础数据分布,并且可能导致可用数据的次优利用、增加的计算工作量和/或当重复访问来自少数类的相同样本时过度拟合的风险(c.f.SMOTE和衍生变体[6,8,19,24]关于避免过拟合的方法)。然而,它的效率和直接的应用程序的任务,如图像级分类呈现采样一个共同商定的做法。另一种称为成本敏感学习的方法通过引入通常来自原始数据统计的特定于类的权重来这些方法最近被研究[7,35,44,45]用于深度学习,其中一些方法遵循了随机森林[27,28]或支持向量机[38,42]等浅层学习方法的思想。 这些工作中的许多工作使用静态定义的成本矩阵[7,12,35,44,45]或引入额外的参数学习步骤[26]。由于相邻像素之间的类的空间布置和强相关性,当执行密集的逐像素分类(如在语义分割任务中)时,成本敏感的学习技术优于然而,语义分割数据集的当前趋势显示,随着越来越多的少数类被添加,复杂性大幅增加。21262127捐款. 在这项工作中,我们提出了一个原则性的解决方案,以处理语义分割任务的深度学习方法中的不平衡数据集。具体来说,我们引入了一种新的损失函数,它的上限传统的损失,每个像素的贡献是加权相等。上界是通过一个通用的最大池运营商在像素损失的水平。相对于像素加权函数采取最大化,从而基于每个像素实际表现出的损失提供每个像素的贡献的自适应重新加权。通常,在训练期间引起较高损失的像素比具有较低损失的像素加权更多,从而间接补偿数据集中潜在的类间和后一种不平衡是接近的,因为我们的动态重新加权是类不可知的,即。我们没有像以前的成本敏感学习方法那样利用类标签统计。广义最大池化算子,以及我们的新损失,可以以不同的方式实例化,这取决于我们如何界定可行像素加权函数的空间。本文主要研究一类特殊的p-范数和∞-范数有界的权函数族,并研究了损失函数在这种情形下的性质。此外,我们提供了在这种特殊情况下推导损失函数的显式表征的理论概念,这使得能够计算深度神经网络优化所需的梯度。作为额外的,补充的贡献,我们描述了一个性能相关的采样方法,指导训练过程中的小批量编译。通过跟踪训练集上的预测性能,我们展示了采样方案中相对简单的变化如何使我们更快地达到收敛并改善结果。本节的其余部分讨论了一些相关的工作,以及当前的语义分割方法通常如何处理类不平衡问题,然后我们对其余部分在反向传播期间要更新的像素数:[ 3 ]中的工作建议增加minibatch大小,同时减少要更新的(随机采样)像素位置的绝对数量。在[43]中,引入了一种新的在线自举方法,其中像素损失被排序,并且仅更新k个最高损失位置。一个类似的想法被称为在线硬示例挖掘[41],被发现对对象检测有效,其中在非最大抑制步骤之后保留的高损失边界框最好被更新。[23]中的工作通过强制执行集群间和类间边缘来解决类不平衡,通过采用具有三重头铰链损失的五元组实例采样来获得最近的另一项工作[26]提出了一种用于分类的成本敏感神经网络,联合优化了类相关成本和标准神经网络参数。[40]中的工作解决了卷积神经网络(CNN)的轮廓检测问题,将轮廓与非轮廓样本的特定损失与传统的对数损失相结合。在独立但相关的研究领域中,重点放在直接优化目标指标上,如曲线下面积(AUC)、并集相交(IoU或Jaccard指数)或平均类别(AC)[1,4,36,37]。[18]中的工作提出了一个非线性激活函数,计算来自较低层的投影的Lp范数,允许将最大值、平均值和均方根池化算子解释为其激活函数的特殊情况。记法。本文中,我们用AB表示将集合B中的元素映射到集合B中的元素的函数空间集合A,An(n为自然数)表示A中元素的n元组的通常乘积集.实数和整数的集合分别是R和Z让f,g∈RA,c∈R. 定义在R上的操作,例如,加法、乘法、取幂等,通过逐点应用被RA继承(例如,f+g是函数z∈ A <$→f(z)+g(z),并且fc是函数z∈A<$→f(z)c)。此外,我们使用符号:这张纸的节中2我们描述我们如何离开我们建议的标准统一加权方案• fΣ=.z<$∈A<$Bf(z),且<$f<$=<$f <$AΣ• ff(z)p1/p 和,=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000自适应、像素损失最大池化和加权空间我们正在考虑的功能节3和4描述了我们如何p,B• f·g=z∈A<$Bz∈Af(z)g(z)p p,A2128最终解决了新的损失函数,并提供算法的细节。节中5我们评估的perfor- mance我们的贡献,具有挑战性的城市景观和帕斯卡VOC分割基准之前,我们的结论,包括在节。六、最后,请参考[39],了解我们方法的更深入分析和正确性证明。相关作品。许多语义分割的工作遵循一个相对简单的成本敏感的方法,通过反向频率再平衡计划,例如。[7,35,44,45]或中值频率重新加权[12]。其他的方法通过例如,制约• f≤c <$$>(<$z∈ A)(f(z) ≤c)• (f)+表示函数z∈ A <$→max{f(z),0}。2. 像素损失最大池化语义图像分割的目标是为图像的每个像素提供类别标签的分配该任务的输入空间由X表示,并且对应于可能图像的集合。为了简单起见,我们假设所有图像都具有相同的像素数。我们用IZ2表示图像内的像素集,并设n为像素数,即 n =|我|. 输出空间2129n.Σp∞p−1对于分割任务,由Y表示,并且对应于具有C中的类的所有逐像素标记。 每个标号y∈Y是一个将pixels映射到类的函数,即。 Y=CI.标准设置。用于训练具有参数θ的模型fθ∈ YX的典型目标(例如,全卷积网络),给定训练集T ×X×Y,采用以下形式:10−1−1 0 10的情况。50-0。5-0。500。5最小值Σ(x,y)∈TL(fθ(x),y)+λR(θ):θ∈θε,(1)图1:左图:在二维情况下,对于p∈ {1,1},4,2,4,∞}。右:当n= 2,p=1时设置W。4,τ= 0。六、其中Θ是可能的网络参数的集合,L∈RY×Y是惩罚错误图像标记的损失函数,R∈RΘ是正则化子。损失函数L通常分解为像素特定损失的总和,如下所示作用于像素损失。事实上,我们恢复了一个传统的最大池算子作为一个特殊情况,如果W是一个集的概率分布在I。同样,(2)中的标准损失可以被视为一个1L(y)= 0n于伊(2)平均池算子,在适当选择W的情况下,它又可以归结为(4)的特殊情况。其中,对于每个pixelu∈I,分配用于预测类y∈(u)而不是y(u)的损失i n- curred。在本文的其余部分中,我们假设BuyBuy是非负的且有界的(即像素损失是有限的)。损失最大池。在(2)中定义的损失函数均匀地加权图像内每个像素的贡献。这种选择的效果是学习者偏向于图像中占主导地位的元素(例如,天空、建筑物、道路),从而损害占据图像的较小部分的元素。为了缓解这个问题,我们建议根据我们观察到的实际损失自适应地重新权衡每个像素的贡献我们的目标是将重点转移到损失较高的图像部分,同时保留与(2)中损失的理论联系。我们提出的解决方案是一个上限L,这是通过放松像素加权方案。在一般情况下,我们设计了一个凸的,紧凑的加权函数WRI,包含均匀加权函数,即。{1}我将其转换为,并将(2)中的损失函数参数化为加权函数的空间W。 损失最大池化算子的性质依赖于W的形状。在这里,我们将重点限制在p-范数(p≥1)和∞-范数上界分别为γ和τ的加权函数上(见图2)。1为例):W=.w∈RI:<$w <$≤γ,<$w <$≤τ<$。(5)我们将p -范数上的界固定为γ=n−1/q,其中q=p,它对应于均匀权重的ping函数。相反,p和τ被留下作为超参数。τ的可能值应在[n−1,γ]范围内选择。实际上,较低的值将阻止均匀加权函数属于W,而较高的值将等效于使τ=γ。直观地说,用户可以控制像素选择性,通过改变p来实现(4)中的池化操作。实际上,当p→ 1时,最佳权重通常集中在单个像素周围,并且当p→ ∞时,最佳权重均匀地分布在像素上。 另一方面,τ允许con-γpL(y_n,y)=w·n,(3)控制,通过关系m=τ,最小数量-维里岛其中w∈ W。 然后,我们定义了一个新的损失函数LW∈RY×Y,它以W中的一个加权函数所引起的最大损失为目标,即LW(y∈,y)=max{Lw(y∈,y):w∈W}.(四)由于均匀加权函数属于W,并且我们在W上最大化,因此LW上界L,即。对任意y ∈ Y,LW(y∈,y)≥L(y∈,y). 因此,如果我们用L W代替L,我们得到了(1)的上界。我们工作的标题,它将损失与最大池联系起来的灵感来自于观察,即(4)中提出的损失是广义最大池算子的应用∞1 .一、41241 .一、4∞W2130像素的BER(即像素位数),最优加权函数在图2中,我们显示了一些示例,给出了n=100个像素的合成生成的损失(为了更好的可视化而排序)。在左边,我们固定m=n/3(即,应该支持至少1/3的像素)并报告不同P值的最佳加权。 正如我们所看到的,当p向1移动时,损失很大,但是对m的约束防止选择小于1 ×m × n的像素。 另一方面,随着p接近∞,权重趋于一致。右边的图固定p=1。7,且变化m ∈ {0,0. 1n,0. 2n,0. 4n,0.8n,n}。我们看到,随着m的增加,权重趋于均匀地支持更大份额的像素,从而在m=n时产生均匀分布。2131日普p−1WyyJα3. 计算LW(4)中的最大化问题是凹的,并且具有此外,λ=|y|+是(6)中对偶公式的极小化者,而如果u∈J<$如果W如(5)中定义,则为显式解。我们提供好吧ℓ(u)q−1考虑参数化(p,m),按情况详细说明w(u)=τ于伊α∗如果u∈J<$且α<$>0代替(p,τ),因为m具有清楚的直观含义,在上一节中提到的有效的参数化满足p≥1和1≤m≤n。3.1. 案例p >1为了解决这种情况,我们考虑(4)中最大化问题的以下对偶L(y_n,y)=min.g(λ):λ≥0,λ∈RI∞,(6)0otherwise是(4)中原始公式的最大化者。3.2. 案例p=1对于这种情况,解的形式与(10)中的相同,但J成为损失最高的10m像素的子集,而α是剩余像素中损失最高的像素(如果J=I,则α=0)。至于最优权重其中λ是考虑约束的对偶变量w≤τ,其等价于ωwω∞≤τ,并且函数w∈ I,设J+={u∈I:u ∈y∈y(u)=α∈}\J∈. 然后对于J+上的任何概率分布μg(λ)=τλ+max.w·(λ−λ):<$w <$≤γ,w∈RI<$.如果u∈J<$从原始公式转移到对偶公式是合法的,因为两个公式共享相同的最优值。[15]《明史》功能w(u)=τ(m− <$m <$)μ(u)如果u∈J+否则,z∈I <$→0是严格可行的)。g(λ)中的最大化是p-范数的对偶范数的定义[5,附录A.1.6],它对应于q=p的q-范数,在λy−λ中求值并按γ缩放。因此,我们认为,g(λ)=τλ+γyy−λq。(7)我们通过找到一个满足以下条件的点λ得到(6)的解:是原始的最优解(参见[39,Thm. 1])。4. 算法细节要计算的关键量是J和α。事实上,一旦这些可用,我们就可以确定损失LW(y_n,y)并计算相对于分段模型参数的梯度(我们将在本节稍后介绍)。段)。 我们在算法1中报告了λ= .Σy+(八)计算J_∞和α_∞。 我们开始分类损失(第1行)。这产生双射iv e函数π∈I{1 , . , n} 满足 <$y<$y (πi )≤<$y<$ y(πj),如果ij(我们写πi,[39]见《说文》:“”。3])。然而,在这方面,由于涉及多个变量(λλ的元素)的公式的递归性质,从(8我们把它归结为求单变量函数的最大π(i))。情况p=1(第13行)是微不足道的,因为我们知道最后的m个排序的像素将形成J,而α对应于剩余像素中的最高损失,或者如果没有像素剩下则为0(见3.2小节)。 对于p> 1的情况,我们以升序遍历损失,并在η(α)=(m−|Jα|)α q−<$$> q<$、(9)一旦我们找到满足以下条件之一的索引i:a)i=n且ηn≤0,或b)η i>0。如果其中J={u∈I:(u)>α}和J=I\J是如果满足第一个条件,则J=α,因此α=αγααǁℓ每平方米1/q。 这确实是我们在第11行中得到的,其补充。这种解决方案的特点,证明了用η的根表示的对偶公式(6)是正确的yyq其中i=n+1,使得αn=(an/cn)1/q,其中cn=mℓ2132y在[39,Prop.1]中,它用于推导下面的定理,an=nj=1Q于伊(π j)。相反,如果满足条件b,则∗给出了LW(y_n,y)的一个显式公式,即最优解我们有[39],Prop。(10)J={π j:i≤j ≤n}。结果y,ci=m−n+i=m−|J*|和ai=q加权函数w(4)中的最大化,yyJ最优对偶变量λ:定理1. 设1≤q∞, 1≤m≤n,α∞=<所以αi=(ai/ci)1/q。梯度离心为了训练语义分割,埃克塞特,J。(m−|J*|)1/q∗n={u∈I:η(nyny(u))>0},模型中,我们需要计算在iveLW(y,y)处的偏导数iv。它几乎处处存在,由下式给出(见推导J=I\J然后LW(y,y)=τ[yyJ+(m−|J*|)α]。(十)1精确地说,它存在于所有具有开邻域的(y∈,y)中,不会改变其中J2133损失11 .一、21 .一、41 .一、7∞10432损失00的情0的情况。20的情况。410的情况。8nnp−1π(n)于伊m=n/3,变化p42·10−234221p= 1. 7、变化的m·10−2420 020 40 60 80 100像素0 020 40 60 80 100像素图2: n=100像素的最佳加权w的示例左侧: m=n/3,且p∈{1,1. 二一四,一。7,2,3,4,10,∞}。右 :p = 1。7和变化的m值{0,0. 1,0。2,0。四,零。8,1}。损失是合成的-cally生成和排序的可视化的目的。算法1计算J,α要求:m∈[1,n],p∈[1,∞],n>0像素损失yy1:π←排序(πyπy)2:如果p >1,则3:q←p4:c0←m−n,i←0,a0←05:重复6:i←i+ 1,ci←ci−1+ 1通过πy(π(n))来调整对象ive,而最优原始解wn保持不受该变化的影响。免费抽样策略。 除了我们在前面部分中描述的主要贡献之外,我们还提出了一个关于如何在训练期间编译小批的补充想法。我们提出了一种混合采样方法,从训练数据7:ai←ai−1+<$q(πi)于伊8:ηi←ci <$q(πi)−ai9:直到ηi>0或i=n10:如果ηi≤0,则i←i+1考虑到模型。作为最后一个替代品-之后,我们跟踪训练数据上的每个类的交集(IoU)分数,并进行反向采样,这将建议最好从第11章:α←12:其他.ai−1ci−11/q表演类(往往与少数民族密切相关)。将这种基于性能的SAM-13:i←n−m<$+114:α←yy(πi−1)ifi>0else015:returnJ<${πj:i≤j≤n},α<$[39,附录B])LW(y采用统一采样的设计理念,确保训练过程中的随机行为,因此有助于不过度拟合特定类。5. 实验我们已经在Cityscapes [10]和扩展的Pascal上评估了我们新的损失最大池(LMP)方法yyVOC [14]语义图像分割数据集。按面值-在此,我们进行了广泛的参数扫描,请注意,我们将使用相同的函数,其中的par-技术上讲,衍生品并不存在。2实施说明。对于接近1的p值,我们有q变得任意大,这可能导致算法1中的数值问题。提高稳定性的一个简单技巧是用除法将损失归一化最大损失,即,我们认为阿吉吉代替YY很好这种修改则需要乘以LW(y≠,y)2这是深度学习社区中的一种常见做法(参见,例如,如何计算ReLU的导数或最大池化)。在Cityscapes上,评估我们的超参数p和m的不同设置的性能发展(见Equ.(5)和图2)。所有报告的数字都是以[%]为单位的交叉-联合(IoU)(或Jaccard)测量值,可以是所有类别的平均值,也可以是按类别提供的。5.1. 网络架构对于所有实验,我们使用类似于DeepLabV2 [9]的网络架构,在Caffe [25]中使用cuDNN实现性能提升。损失重量损失重量2134和 NCCL3 , 支 持 多 GPU 。特 别 是 , 我 们 在 添 加DeepLab的atrous空间金字塔池(ASPP)之前,以完全卷积的方式使用ResNet-101 [21],并对基础层进行atrous扩展[22,46]。最后,我们在对所有基线方法BASE、BASE+和逆中值频率加权[12]使用标准softmax损失之前应用放大(通过具有固定、均匀权重的反卷积层,因此执行双线性上采样),同时我们在LMP中使用我们提出的损失最大池化层。我们的两种方法,BASE+和LMP都使用了上一节所述的小批量编译的补充采样策略,而BASE中的普通均匀采样导致了与[9]中报告的类似结果。我们还报告了采用普通均匀抽样的新损失结果(“仅建议损失”)。为了节省计算时间并为我们的方法提供结论性的参数敏感性研究,我们禁用了网络的多尺度输入和通过条件随机场(CRF)的后处理。我们认为这两个功能作为补充,我们的方法和高度相关的情况下,提高整体性能和硬件预算允许这样做然而,我们的主要目的是在与其他基线(如我们的BASE+)相当的设置下证明我们的LMP的有效性。我们所有 报告的数字和 图都是通过微调 [9]的MS-COCO [32]预训练CNN获得的,可供下载4。为了提供统计上更显著的结果,我们提供了通过对过去30k次训练迭代中某些步骤的结果进行平均而获得的平均值和标准偏差。我们仅报告从单个CNN获得的结果,而不是使用CNN的集合,使用随机梯度下降(SGD)求解器进行训练,其中学习率的多项式衰减(如[ 9 ]中所述的“poly”)将衰减率和动量都设置为0。9 .第九条。对于数据扩充(Augm.), 我们使用0范围内的随机尺度扰动。五比一5,用于在由上述采样策略给出的位置处裁剪的块,以及图像的水平翻转。5.2. 城市景观最近发布的数据集包含了德国、法国和瑞士50个主要中欧城市白天拍摄的街道图像以高分辨率(2.048×1.024)捕获,并分为训练集、验证集和测试集,分别保存2.975、500和1.525张图像。 对于训练和验证数据,20个标签类别(19个对象+忽略)的密集注释的地面实况是公开可用的,其中6个最频繁的类别占注释像素质量的90%。根据以前的工作[9,43],我们3https://github.com/NVIDIA/nccl4 http://liangchiehchen.com/projects/DeepLabv2_resnet。HTMLp150k160k165k个是说Std.Dev.1.074,3574.6474.6474.540.171.174.3474.6174.6074.520.151.274.4274.6074.7774.600.181.374.5274.7174.6974.640.101.474.3374.5174.4974.440.101.574.0373.9974.0474.020.031.674.0574.4274.5274.330.251.774.1074.5674.7474.570.171.873.6574.1874.1774.000.301.973.9774.2174.4874.220.262.373.9374.2374.1274.090.15基地+73.1273.1673.1073.130.03表1:在测试时使用有效平铺,m固定为每种作物有效像素的25%时,p参数的敏感性分析。[%]中的数字对应于指定训练迭代后Cityscapes验证集的结果(以及具有相应标准偏差的平均值)。其)。粗体和下划线值分别对应于最佳和次佳结果。最下面的一行显示了在高效平铺设置下基线BASE+报告在验证集上获得的结果。在训练过程中,我们使用包含2个图像裁剪的小批量,每个图像裁剪尺寸550×550。初始学习率设置为2。5e-4,我们总共运行了165k次训练迭代。在选项卡中。1,我们提供了超参数p的敏感性分析,将m固定为非忽略的每作物像素的25%。由于图像的分辨率很高,并且要运行的训练数量也很可观,因此我们在推理过程中采用了不同的平铺策略。标签中的数字1是通过使用我们所谓的高效平铺策略获得的,将验证图像分成五个不重叠的、具有完整图像高度的直角裁剪。 在此设置下,p = 1时获得最佳结果。3,紧随其后的是p=1。二、可以看出,p值的增加显示出接近BASE+结果的趋势,从经验上证实了Sect.二、在固定p=1之后。在图3中,我们进行了另外的实验,其中m以对应于选择至少10%、25%或50%的非忽略每裁剪像素的方式被选择,得到:74岁09%± 0. 22,74。64± 0。10和7344± 0。第21话在山谷里数据,分别。最后,我们锁定在p=1。3和25%,在验证集上运行优化的平铺策略,其中我们考虑平铺之间的200像素重叠允许改进的上下文捕获。重叠区域的第一半的最终类别标签决定然后分别由左瓦片独占地采取,而第二半由右瓦片提供。结果分数列于表中。2,证明了与BASE,BASE+和DeepLabV 2等相关方法相比的改进结果[9](即使使用CRF)或[43],具有更深的ResNet和-2135方法平均IoU[9] 1999年8月ASPP 71.0[9] 1999年8月&ASPP CRF 71.4[43] FCRN-101 Augm.71.16[43] FCRN-152 Augm.71.51[43]第43话,我的世界74.64我们的方法-Resnet-101基础Augm. & ASPP72.55 ±0. 04基础+增强 &ASPP73.63 ±0. 04[12]第十二话&奥姆&ASPP 69.81 ±0. 08年,仅亏损一项。&ASPP74.17±0.03LMPAugm. & ASPP75.06±0. 09表2:使用优化平铺的Cityscapes数据集验证集的基于ResNet的结果(以[%]计)。线路自举(BS)。也是我们的损失,也就是说。在没有补充采样策略的情况下,产生了优于BASE和BASE+的结果。为了证明我们的方法对代表性不足的类的影响,我们提供了一个图,显示了每个类的性能增益(y轴上的LMP-BASE+,单位为%)与图中给定对象类别(x轴,对数标度)的绝对像素数。3.第三章。y上的正值表示改进(18/19类),并且附加到x的类标签表示从左到右增加类别的对象类像素标签体积。例如,摩托车是最缺乏代表性的,而道路是最存在的。该图证实了LMP如何在不访问底层类统计信息的情况下自然地改进未被充分表示的对象类我们运行的另一个实验将BASE与LMP进行了比较:为了匹配LMP的结果,我们必须例如:将最差的7个类别各提高5%,或将最差的10个类别各提高3%,我们为LMP找到了令人信服的论据。此外,我们在图中说明了两个训练图像的语义分割的定性演变。4.第一章奇数行显示了在BASE+中使用传统对数损失进行训练时获得的分割,而偶数行显示了使用我们的损失最大池LMP在迭代次数增加时获得的分割。正如我们所看到的,LMP开始改善代表性不足的类比标准的日志损失(见,例如。在第一幅图像中,交通灯及其杆在中间右侧,而在第二幅图像中,汽车驾驶员)。最后,我们还在表中报告了每个班级的IoU分数. 3a,用于BASE+和LMP,对应于Tab.二、5.3.Pascal VOC 2012我们还在Pascal VOC 2012分割基准数据集[13]上评估了我们的新型LMP该数据集中的图像比Cityscapes数据集中的图像小得多,因此我们使用(扩展)将小批量大小增加到4(裁剪大小为321×321)摩托车总线红绿灯火车壁2骑手交通标志栏极人自行车人行道地形天空建筑Car0植被路卡车−2106107108n. 像素图 第三章:改进 的 LMP结束 基本+(18/19类)作为Cityscapes验证数据上的每类别总像素计数的函数训练集,10.582张图像[20]。在包含1.449张图像的验证集上进行了测试。我们总共运行了20万次训练迭代,并固定了参数p=1。3和m,以占我们的LMP每作物有效像素的25%。在推理过程中,图像以全尺度进行评估I.E.不需要特殊的平铺机构。我们再次报告Tab中的平均IoU评分。4(在训练迭代180k,190k和200k之后的时间平均值),并列出了与我们的方法[9,43 我们可以再次获得一个相当大的相对改善的基础+以及可比的基线从[9,43]。我们的方法相比之下略差(-1。4%)与DeepLabV 2此外,还使用多尺度输入(MSC)和细化-从CRF(贡献2。55%和1。根据[9],分别为34%),但只会增加计算成本。此外,如上所述,我们认为这两种技术都是对我们贡献的补充,并计划在未来的工作中将其我们最后注意到,对于这个数据集,我们的新损失单独没有免费的采样策略产生了连续的改进,超过了BASE和BASE+。在选项卡中。3b,我们给出了BASE+和LMP的每个类IoU得分的并排比较。再一次,大多数的category从我们的方法中受益,证实了它的有效性。6. 结论在这项工作中,我们引入了一种新的方法来解决训练数据分布中的不平衡问题,这种不平衡不仅发生在我们有代表性不足的类(类间不平衡)时,而且也可能发生在同一个类(类内不平衡)中。我们提出了一个新的损失函数,它执行像素特定损失的广义最大池化。我们的损失上限传统的,它给每个像素的贡献相等的权重,并隐式地引入了自适应加权方案,双LMP增益超过 BASE+[%]2136图4:训练期间语义分割图像的演变。左边,我们有成对的原始图像(奇数)和它们的地面真实分割(偶数)。其他图像显示了在20k,40k,60k,80k,100k,120k,140k,165k训练迭代后,通过BASE+中的标准对数损失(奇数行)和我们的损失最大池LMP(偶数行)获得的语义分割(a) 城市景观方法路 人行道建筑 壁 围栏 极 交通信号灯交通标志植被地形天空个人附加条款车卡车总线火车摩托车自行车意思基础+平均值97.3780.6090.9953.2354.67 56.7263.2972.6291.1959.8593.4678.5959.08 93.4168.9480.49 67.7762.5174.0973.63基础+标准差0.010.020.140.920.05零点零八0.560.130.130.960.160.180.310.120.261.08三点一二0.700.110.04LMP平均值97.5181.5691.5255.4356.88 59.0166.3374.7791.6160.8593.8079.9160.76 93.9367.1183.87 70.4265.1575.7675.06LMP标准偏差0.050.320.060.800.68零点三一0.270.210.070.270.090.080.290.010.770.440.530.440.140.09(b) Pascal VOC 2012方法背景飞机自行车 鸟船 瓶总线车猫椅子 牛 餐桌 狗 马摩托车人盆栽羊 沙发 火车 电视监视器平均值基础+平均值92.6983.2178.4681.39 67.9577.5992.14 80.17 86.99 38.49 80.8655.9581.03 80.6479.2881.1461.7481.5147.76 82.2572.6875.42基础+标准差0.000.320.040.030.140.020.120.140.080.03 零点零六0.100.02零点二二0.060.030.350.210.24零点零九0.240.04LMP平均值92.8485.0279.6281.43 69.9976.3692.38 82.38 89.43 39.78 82.7058.6082.85 81.8280.1781.6061.2284.3045.44 82.5271.7076.29LMP标准偏差0.020.180.030.340.260.100.170.050.100.06 零点一七0.100.050.030.070.050.140.190.04零点零九0.100.02表3:Cityscapes(在推理过程中优化了平铺)和Pascal VOC 2012验证数据集上的类特定IoU得分,用于我们的基线(BASE+)和我们提出的损失最大池(LMP)。所有数字均以[%]表示。方法平均IoU[9] RN-101基不含COCO 68.72[9]第101届世界杯足球赛ASPP 76.35[9]第101届世界杯足球赛 &ASPP CRF 77.69[43] FCRN-101 Augm.73.41[43] FCRN-152 Augm.73.32[43]第43话,我的世界74.80[43]第43话,我的世界74.72我们的方法-Resnet-101基础Augm. & ASPP75.74 ±0. 05基础+增强 &ASPP75.42 ±0. 04[12]第十二话奥姆 &ASPP74.93 ±0. 03仅限Augm。& ASPP76.01 ±0. 01LMPAugm. & ASPP76.29 ±0. 02表4:基于Pascal VOC 2012分段验证数据的ResNet结果所有数字均以[%]表示。使学习者倾向于表现不佳的图像部分。在最大化中涉及的加权函数的空间可以被成形以实施一些期望的性质。在本文中,我们专注于一个特殊的家庭的加权函数,使我们能够控制像素的选择性和支持的像素的程度。我们已经推导出了在这一系列像素加权函数下池化操作结果的显式公式,从而能够计算用于训练深度神经网络的梯度我们已经通过实验验证了新损失函数的有效性,并在标准的语义分割基准数据集上显示出一致的改进结果。鸣谢。我们感激地承认来自DIGIMAP项目的财政支持,由奥地利研究促进会资助#860375 代理(FFG)。2137引用[1] F. Ahmed,D. Tarlow和D.巴特拉基于候选约束crfs的期望交并优化。在(ICCV),第1850-1858页,2015年。2[2] V.巴德里纳拉亚南,A. Kendall和R.西波拉 分段:A用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv:1511.00561,2015。1[3] A. Bansal,X.陈湾,澳-地罗素,A. Gupta和D. RamananPixelnet:Towards a General Pixel-Level Architecture.CoRR,abs/1609.06694,2016。2[4] M. Blaschko和C.蓝伯特 学习定位对象结构化输出回归In(ECCV),2008. 2[5] S. P. Boyd和L. 范登伯格凸优化。剑桥大学出版社,2004年。4[6] C. Bunkhumpornpat , K. Sinapiromsaran 和 C. Lursin-sap。安全水平-SMOTE:安全级-处理类不平衡问题的合成少数过采样技术,第475-482页。施普林格柏林海德堡,柏林,海德堡,2009年。1[7] H.凯撒,J.R. R. Uijlings和V.法拉利语义分割的联合校准。In(BMVC),2015. 一、二[8] N. V. Chawla, K. W. 鲍耶 L. O. Hall和W. P.凯格尔迈耶SMOTE:合成少数过采样技术。 J. 人工智能Res. (JAIR),16:321 -357,2002. 1[9] L. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab:使用深度卷积网络,atrous卷积和完全连 接 的 CRF 进 行 语 义 图 像 分 割 。 CoRR ,abs/1606.00915,2016。一、五、六、七、八[10] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集In(CVPR),2016. 5[11] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。 In(CVPR),2009. 1[12] D. Eigen和R.费格斯。预测深度、曲面法线以 及 具 有 公 共 多 尺 度 卷 积 架 构 的 语 义 标 签 。 在(ICCV),第2650-2658页,2015年。一二六七八[13] M. Everingham,S. M. A.埃斯拉米湖凡古尔角,澳-地K.I.威廉斯,J. Winn和A.齐瑟曼。Pascal视觉对象类挑战:回顾。International Journal of Computer Vision,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功