没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文基于元通道聚合董和欣1人,陈子凡1人,袁明泽1人,谢雨桐1人,赵杰1人,2人,俞飞1人,董斌4,3,2和张力1,2()1北京大学数据科学中心2北京大学国家生物医学影像中心3北京大学机器学习研究中心4北京国际数学研究中心(BICMR),北京大学,北京,中国摘要作为最具挑战性和实用性的分割任务之一,开放世界语义分割要求模型分割图像中的异常区域,并逐步学习分割分布外(OOD)对象,特别是在几次发射的情况下。 当前最先进的( SOTA ) 方 法 , 深 度 度 量 学 习 网 络(DMLNet),依赖于像素级度量学习,利用该像素级度量学习难以识别具有不同语义的相似区域。因此,我们提出了一种称为区域感知度量学习(RAML)的方法,该方法首先分离图像的区域并生成区域感知特征以进行进一步的度量学习。RAML提高了分割的异常区域的完整性。 此外,我们提出了一种新的元通道聚合(MCA)模块,以进一步分离异常区域,形成高质量的子区域候选人,从而提高模型的性能OOD对象。为了评估所提出的RAML,我们对用于异常分割的Lost And Found和RoadAnomaly数据集以及用于增量少镜头学习的CityScapes实验结果表明,RAML在开放世界分割的两个阶段都达到了SOTA我们的代码和附 录 可 以 在 www.example.com 上 找 到https://github.com/czifan/RAML。1介绍深度学习在计算机视觉的许多领域的突破然而,这种假设在开放世界中很少成立由于大多数计算机视觉应用必须处理未知类,因此模型,特别是深层模型,必须平等贡献。联系人:张丽pku@pku.edu.cn(a) 逐像素法推挽(b) 提出的区域感知方法图1:我们提出的方法的主要思想。(a)现有的方法主要集中在像素级,这可能会导致细粒度的分割错误。(b)我们提出的区域感知度量学习(RAML)方法保持了OOD对象的语义完整性。处理分发外(OOD)数据。自从在[ Bendale and Boult,2015 ]中首次引入“开放世界”概念以来,已经提出了相当多的开放世界中的图像识别和分类工作然而,关于开放世界分割的研究却很少.直到最近,[Cenet al. ,2021]提出了一个两步框架来实现开放世界语义分割。该框架包括(1)一个异常分割模块,扩展了分布对象的闭集模型,以正确地描绘OOD对象的未知区域,以及(2)一个增量少镜头学习模块,将未知区域分离成具有新类别的OOD对象。他们还将度量学习引入开放世界分割的两个阶段,结果证明他们提出的度量学习标准可以改善模型虽然这项试点工作为开放世界分割任务提供了一个很好的框架,但该模型可以在两个方面进行改进,首先,度量学习[Cenet al. ,2021]依赖于逐像素的特征嵌入,这可能会错误地将对象分割成多个部分并重新轮arXiv:2205.08083v1 [cs.CV] 2022年5月+v:mala2277获取更多论文导致许多细粒度的分割错误。例如,如图1所示,公共汽车车轮和汽车车轮具有相似的特征嵌入,并且根据逐像素特征嵌入很可能被分类为一个组,但是它们在语义分割中显然属于不同的类。为了解决这类问题,我们提出了区域感知度量学习(RAML)的开放世界分割,它显着优于像素度量学习(PML)在多个实验。此外,我们提高了模型的性能,特别是对于增量少拍学习阶段,通过引入一个新的区域分离模块命名为元通道聚集(MCA)。MCA首先旨在将未知区域过度分割成若干Meta通道。属于不同Meta通道的区域被聚合以形成对象的分段,然后由区域感知度量学习模块进行评估。此外,[Cenet al. ,2021]为每个分布内类设置固定的中心嵌入,即,特征空间中的独热向量。固定中心嵌入虽然可以有效地在不同类的分布之间建立距离,但它忽略了它们之间的相对相似性例如,在Cityscapes数据集中,该方法未能揭示人与骑手之间的差异小于两者与天空之间的差异。本文旨在通过利用更自然的度量学习来约束类间区域感知特征之间的距离来克服这个缺点。具体 地 , 我 们 替 换 [Cenet al. , 2021] 与 Circlloss [Sunetal. ,2020]作为度量学习的目标,其不仅保持精细的类间距离,而且使类内分布更加集中。实验表明,这种特征空间的划分更有利于OOD数据的分割。综上所述,我们提出了一种区域感知的度量学习方法,用于开放世界语义分割。我们的贡献如下:• 我们建议使用区域感知的像素特征进行开放世界语义分割,以确保分割的OOD对象具有更好的语义完整性• 我们引入MCA模块作为一种新的区域分离方法,适合增量少拍学习。• 我们采用Circlloss [Sunet al. ,2020]来增大数据样本的类间距离,减小数据样本的类内距离,从而提高了RAML模块的性能。2相关工作2.1区域感知的语义分割如何利用区域信息来改善语义分割,近年来许多研究小组都在讨论这一问题首先,一些工作已经表明,区域感知信息具有比像素级信息更好的上下文表示,以实现像素标记[Yuanet al. ,2020]。其次,对于图像分割任务,区域感知信息可以更好地与度量或对比学习相结合,更有效地优化特征空间[Wanget al. ,2021;Huet al. ,2021]。这些想法启发了我们的论文,但是上述工作需要足够数量的训练样本来获得合理的区域感知特征表示,而我们的工作是在开放世界环境中,只能访问少数具有不可见类别标签的图像。因此,我们必须设计新的区域分离模块(如MCA),以适应开放世界分割任务。2.2异常分割存在两种类型的异常分割方法不确定性是指不期望已知类别的水平,广泛用于确定异常状态。基于不确定性的方法的基线是[HendrycksandGimpel,2017]报告的最大软最大概率(MSP)。[Hendryckset al. ,2019]然后使用最大logit(MaxLogit)改进MSP,以提高大规模数据集的性能。其他基于不确定性的方法包括使用贝叶斯神经网络[Gal和Ghahramani,2016]和最大化图像中OOD对象的熵[Chanet al. ,2021]。另一方面,基于生成模型的方法也表现良好,包括自动编码器(AE)[Bauret al. ,2018]和基于GAN的方法[Xiaet al. ,2020]。然而,生成模型的训练不稳定,并且通常具有复杂的网络骨干。在这项工作中,我们遵循MaxLogit的思想,我们的异常分割基于非归一化logit。2.3开放世界问题[Bendale和Boult,2015]是第一个给出“开放世界”正式定义的研究,即,一个开放世界模型必须逐渐学习和扩展它的通用性,从而使具有新类的对象自那时以来,开放世界问题的研究不断增加,包括分类[Zhonget al. ,2021],对象检测[Josephet al. ,2021],实例分割[Saitoetal. #20201;等。然而,直到最近,[Cenet al. 2021]提出了开放世界语义分割的第一个框架。我们的工作遵循[Cenet al. ,2021],并将问题分为异常分割和增量少镜头学习。然而,为了确保语义完整性和提高分割性能,我们使用区域感知的特征嵌入,而不是在他们的原始方法中的逐像素特征提取。2.4度量学习深度度量学习约束学习样本的特征嵌入之间的距离以操纵特征分布。 它的应用在各种计算机视觉任务中可见,例如开集识别[Chenet al. ,2020],少拍学习[Oreshkinetal. ,2018]和开放世界语义分割[Cenet al. ,2021]。经典的度量学习包括两种范式。第一种是在三重丢失的指导下,用成对的标签学习[Schroffet al. ,2015]和中心损失[Wenet al. ,2016]。第二个由softmax cross-entropy和变量组成,它们用类级别的标签训练模型。最近提出的一种方法称为循环损失[孙等人。,2020]统一了上述两种范式,+v:mala2277获取更多论文基于不确定性的区域分离模块索贝尔或E后-处理RUMSP∈GG··G∈F∈FGC{}C{}G S GFL FGSSF·{}联系我们R {···}∈R=D(j,ki)∈RN2(3)分割,我们采用了基于不确定性的OOD对象对象j,kRj,k我基于元通道的区域分离模块后处理R微调闭集模型Q���封闭式模块ҧ区域分离基于不确定性嵌入空间异常图像���标签几U模块(URS)Rℱ区域感知度量学习模块Ri…图像嵌入空间���(基于元通道的区域分离模块(MCA)R可调对象未知类别结果步骤1:异常分割第二步:增量式少量学习图2:用于开放世界语义分割的区域感知度量学习的流水线:1)用已知类(蓝色正方形)训练闭集分割模型; 2)异常分割(黄色箭头):基于边缘预测(黄色正方形)分离区域,并使用度量学习(橙色正方形)分割异常区域;3)为未知对象(X)进行注释,以微调闭集模型; 4)增量少射学习(绿色箭头):基于MCA(绿色正方形)分离区域,并使用度量学习(橙色正方形)分割OOD对象。(Best彩色视图)形成具有大的类间距离和小的类内距离的特征空间。因此,我们采用循环损失作为我们提出的RAML模块的关键目标。3方法如图2所示,我们提出的方法包含:1)用于闭集分割的主干模型,2)用于描绘OOD数据的未知区域的异常分割过程,以及3)用于将未知区域分割成具有新类别的对象的增量少镜头学习步骤。3.1闭集分割模块假设in=C in,1,C in,2,. C in,N是N个分布内类,它们都在训练数据集中注释,并且out=C out,1,C out,2,... C out,M是M个新类,不涉及训练数据集。这里,语义分割网络被分为特征提取器和标签预测器,其中=。对于闭集分割,我们最小化以下内容-ing lossseg(,),其引导产生用于分布内类别的像素级分割。Lseg(F,G)=EX,Y(lce(G <$F(X),Y))(1)其中lce(,)表示多类交叉熵损失,XR3×H ×W是输入图像,Y是对应的标签。在训练该模块之后,我们得到训练好的特征提取器和训练好的标签预测器. 特征图F=(十)RN1×H ×W和非标准化logitU=(女)RN×H ×W可以生成用于分布内类,其中通过删除softmax层获得的.特征图F和非标准化logitU将在后面的模块中使用。3.2异常分割图3:最大softmax概率的可视化示例。对象之间的边界具有较高的不确定性,因为边界的语义通常是模糊的。检测方法MSP[Hendrycks和Gimpel,2017],作为我们的区 域 分 离 模 块 , 称 为 基 于 不 确 定 性 的 区 域 分 离(URS)。其在物体边缘周围的高不确定性响应可以用作区域分离的有希望的初始化,如图3所示。为了进一步增强边缘,我们在原始输入图像上引入Sobel滤波。最终边缘预测图E可以如下生成,E=I(Sobel(X)≥α或MSP(U)≥β), (2)其中X是输入图像,U是非归一化logit,I()是指示函数,α和β是控制边缘预测的超参数。 根据E,我们使用后处理子模块,包括空洞填充和连通分量算法,生成候选区域=R1,R2,,RT,其中Ri0,1H×W表示第i个区域。然后,我们提出了一个RAML模块异常segmen-对候选区域进行分类。 对于每个区域Ri0,1H×W,如下获得区域感知特征嵌入:Fj,kRj,k识别区域感知异常的候选区域FΣ+v:mala2277获取更多论文∈ D·−L(l)(l)ΣLG∈×Ⓢ≤≤R {···}LΣ··.SΣ其中Fj,kRN1是像素(j,k)的特征向量,(j)由两个全连接层组成以控制嵌入维度。f对象通过受循环损失约束的度量学习与已知类的所有原型进行比较[Sunet al. ,2020]。具体地,可以使用语义分段标签来获得第l个已知类fl的原型。然后,Ri的区域感知异常概率可以表示如下,(a)(c)P(R,F)=max我f对象·fl。(四)1≤l ≤Nf对象fl(b)最后,为了生成像素级异常概率图,我们将来自非归一化logit的信息与上述区域感知异常概率相结合。为每个像素(j,k),不确定性强度Qj,k被计算为,图4:MCA的可视化结果。(a)输入图像;(b)Meta-通道响应(K=4);(c)聚合的Meta-通道。j,kQj,k =max1≤l≤NUj,k·P(Ri,F),(5)其中C是表 示 第i个通道的(j,k)像素输出,是控制分离的超参数。分流河段当子区域分散在输出其 中 , 像 素( j , k ) 属 于 区 域 Ri , F 是 特 征 图 ,P(·,·)是区域,w是异常概率。Uj,k是非归一化logit中像素(j,k)的第l个输出联合然后,我们对每个不确定性强度Qj,k进行根据Jenson的不等式最后一项鼓励所有通道的输出重建整个图像,进一步避免信息丢失:像素,以获得异常概率图,该异常概率图用于识别图像中的未知区域。LrecN+K为||X(Cii=1-1高×宽 )||第二章(九)3.3通过MCA的增量少次学习在异常分割之后,开放世界语义分割要求模型识别未知区域中的M个新类别的所有对象。实现增量少镜头学习的一种方式是使用包含具有新类别的对象的一些标记图像来在损失分割下微调闭集分割模型。然而,实验表明,这种改善是微不足道的。因此,我们提出了一个创新的MCA模块,用于进一步从异常图像X中创建未知区域中的子区域。MCA将闭集模型中标签预测因子的预测值作为其输入输出(N+K)个通道,并使用softmax激活C[0,1](N+K)×H×W. 前N个通道是所有分布内类的分割结果,而最后的K(K > M)个信道是Meta信道,用于重叠地分割未知区域。一些与MCA相关的损失是哪里是逐元素乘法运算符,1HW是全为1的矩阵。如图4所示,我们观察到MCA倾向于基于局部语义信息分割对象。一个未知的对象可能被分割到多个通道中,从而失去完整性。(e.g.、汽车的窗户和车轮可以分成不同的通道。因此,我们根据少拍(这里是L-镜头)标记图像聚合来自某些Meta通道的子区域,候选区域=R1,R2,,RT,用于增量式少次学习的最终RAML模块。类似于等式3,可以计算每个区域Ri的区域感知特征嵌入f_object。来自L次拍摄的新标记图像的第i个未知类(1i M)的原型类型被定义为:L在微调过程中集成到L段,c=1f(j)(十)损失函数是,L总体= L seg + λinter L inter + λsplit L split + λrecL rec。(j)i李ij=1(六)第一项seg是来自等式1的所有分布内类别的分段损失。 第二项利用Dices的负数来最小化任何输出通道对之间的交集,其定义为:其中fi表示第i个未知类在第j个注释图像中的特征嵌入。对于每个区域感知特征嵌入f对象,我们使用余弦相似性来度量该候选区域与每个未知类之间的距离:Linter=1≤i j ≤N+K(1−ldice(Ci,Cj))(7)我反对=f对象·ci,i=1,2,.,男(11)f对象其中l个骰子(,)表示骰子丢失,Ci、Cj是分段输出的第i个和第j个通道.第三个任期旨在避免分区域(候选国)仅当余弦相似度满足以下两个标准时,候选区域才可以被分类为第i个小说类Cout,i:OOD对象)聚集在一些特定的通道中:我对象> θ小说N+K尼加拉瓜j,k我对象i'object阿吉(十二)我L分割=i=N+1-log(max(ηj,k(i)(8)其中θ小说 是控制分类的超参数。S>sS+v:mala2277获取更多论文×(a)(b)(a)(b)(c)(d)(e)4.2 增量少次学习数据集。我们使用Cityscapes数据集来训练和评估我们的RAML模块,在增量的少数学习步骤中。Cityscapes由2975真实世界的图像在训练- ING集和500在验证集与分辨率为2048 - 1024。我们的训练集和测试集的划分实验结果与这种划分是一致的。实 施 细 节 。 我 们 遵 循 [Cenet al. , 2021] 来 训 练DeeplabV3+模型作为闭集模型,其后面是用于RAML的两个全连接层,并使用图5:道路异常上异常分割的可视化结果。(a)输入图像;(b)地面实况;(c)边缘预测;(d)MaxLogit的结果[Hendryckset al. ,2019]。(e)我们提出的RAML方法的结果。对于(d)和(e),值越高表示异常的概率越大。红色边界框表示RAML确保了异常区域的完整性。数据集失物招领道路异常方法AUPR↑AUROC↑FPR95↓AUPR↑AUROC↑FPR95↓合奏-57--67-成果管理-86--59-MSP218331197061MaxLogit379121327849DUIR-93--83-DML459710378437RAML(我们的)46978428632表1:失物招领处的异常分割结果,道路异常。4实验我们的实验包括三个部分:(1)异常分割的实验结果(4.1小节);(2)增量少镜头学习的实验结果(4.2小节);(3)消融研究(4.3小节和附录)。4.1异常分割数据集。来自BDD 100k的7000个全帧注释驾驶场景[Yuet al. ,2020]用于训练闭集分割模型,包含19类对象作为分布内对象。对于异常分割,我们使用另外两个道路场景数据集,Lost和Found [Pinggeraetal. ,2016]和道路异常[Liset al. ,2019],具有除BBD 100k中的对象之外的异常对象。实施细节。我们遵循[Hendryckset al. ,2019;Cenet al. ,2021]使用PSPNet作为我们的闭集分割模块的网络骨干,并为RAML应用两个完全连接的层。我们遵循[Hendrycksand Gimpel,2017],使用三个指标来评估异常分割的性能,包括ROC曲线下面积(AUROC)、精确-召回曲线下面积(AUPR)和95%召回率下的假阳性率(FPR 95)。结果如表1所示,我们提出的RAML模块实现了SOTA性能的失物招领和道路异常异常分割。图5给出了一些比较RAML和逐像素方法的可视化示例。提出的RAML模块产生更高的响应值和更好的完整性内的异常观测,显着减少假阴性的情况。平均交集大于并集(mIoU),以评估分割结果的性能。具体地说,mIoUold和mIoUnovel是已知类和未知类的mIoU,re-boundary。度量mIoU危害是一个综合指数[Xianet al. 2019- 01 - 19 00:00:00 ||图6:(a)逐像素NPM方法和(b)逐像素NPM方法的t-SNE可视化。(b)我们提出的RAML方法。包括Cityscapes数据集的19个类的所有学习指标,其中汽车,卡车和公共汽车是OOD类。图7:未知类别与已知类别之比的消融研究。我们将我们的方法与NPM进行了比较,并报告了mIoU新颖性和mIoU危害的结果。结果我们在CityScapes上测试了我们的方法,并将我们的方法与[Cenet al. ,2021]。在我们的实验中,汽车,卡车和公共汽车是3个OOD类不参与训练阶段,而其他16个类被视为在分布类。如表2所示,我们提出的RAML模块优于具有相对较大裕度的非线性方法根据图8,逐像素度量学习在OOD对象上显示错误的破碎分割结果,而所提出的RAML展示了保持这些结果的完整性的显著能力此外,图6显示了由所提出的RAML产生的特征嵌入保持了合理的类间距离及其类内分布+v:mala2277获取更多论文ycle16+1设置方法路侧比尔德瓦尔fenc极traftrafvegeTerra天空pers骑手火车MotoBIC车卡车总线MioMioMioMio所有1797.882.491.852.357.559.964.174.291.961.494.679.458.875.661.774.994.8- -74.9---基线前1698.082.191.443.656.458.961.472.691.660.594.479.157.667.961.175.1-- -72.0---FT0.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.06.6- -0.46.60.00.0PLM97.179.389.241.955.357.560.871.091.159.493.973.349.234.214.351.8七十五点七- -64.475.763.769.25发NPM96.279.389.241.652.056.361.169.490.458.894.174.455.353.439.270.3六十四点六- -67.464.667.666.1RAML(我们的)97.382.691.451.057.259.265.574.491.763.994.779.159.123.752.172.3八十五点二- -70.685.269.776.7PLM96.877.189.641.448.753.260.364.590.355.694.359.143.639.512.035.7六十四点五- -60.464.560.162.21次注射NPM95.979.288.841.350.556.061.069.190.258.694.173.655.149.737.469.660.1- -66.560.166.963.3RAML(我们的)97.482.691.551.057.359.365.574.491.864.094.779.259.111.552.272.4八十五点五- -70.085.569.076.416+3设置基线所有19 97.983.0九十一点七 五十一点五58.3五十九点八64.2七十四点二 九十二点零61.2九十四点六 七十九点七59.1六十三点九 六十一点五 七十五点零 九十四点二 七十八点五 八十一点四74.8--第一批16 98.082.1九十一点四 四十三点六 五十六点四 五十八点九61.4七十二点六 九十一点六 六十点五 九十四点四 七十九点一 五十七点六六十七点九61.175.1--72.0--FT0.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.40.00.10.00.0PLM97.179.284.838.146.456.858.861.091.059.392.963.647.53.413.847.567.05.712.054.028.258.838.15发NPM96.179.358.741.551.556.360.769.090.458.894.174.355.132.039.170.255.71.621.058.226.164.237.1RAML(我们的)97.382.691.150.657.259.165.574.191.764.094.779.058.93.752.272.379.39.726.063.638.468.449.1PLM96.875.249.033.131.448.033.244.689.755.323.042.132.85.38.027.730.40.79.538.713.543.420.61次注射NPM95.879.244.641.250.256.060.567.590.158.694.073.554.924.937.269.654.51.122.056.625.962.336.5RAML(我们的)九十七点四八十二点六九十一点三50.3五十六点零五十九点二六十五点五74.1九十一点七六十三点九九十四点七七十九点一五十八点九3.952.2七十二点四八十点九5.5二十三点零63.2三十六点五68.3四十七点五表2:Cityscapes上16+1设置(OOD类是汽车)和16+3设置(OOD类是汽车,卡车,公共汽车)的增量少镜头学习结果。未知类用蓝色表示。Finetune(FT)是灾难性遗忘的基线。(a)(b)(c)(d)(e)(f)(g)图8:RAML用于开放世界语义分割的可视化示例:(a)输入图像。(b)地面实况(c)闭集输出。(d)异常分割输出。(e)多学科分析产出。(f)逐像素NPM的结果[Cenet al. ,2021]。(g)我们的RAML模块的结果黄色框表示RAML方法可以更好地保证OOD对象的完整性。例如,在第一行中,逐像素方法错误地将公共汽车的车轮划分为汽车,而RAML可以正确地分割整个公共汽车。(最佳彩色视图和放大视图。)也更加集中。这种特征分布可以促进模型获得鲁棒的决策边界。4.3消融研究未知类与已知类的比率。训练后的分割模型的性能与训练信息量高度相关。我们将我们提出的RAML方法与当前的SOTA方法NPM [Cenet al. ,2021],在未知类与已知类的不同比率下。如图7所示,尽管我们的RAML方法的性能随着比率的增加而下降,但它在所有比率设置中都优于NPM。方法mIoU所有mIoU小说mIoU老mIoU危害基线49.11.558.02.9+Lrec61.833.667.143.2+L记录+L分割62.637.667.348.3+Lrec+Lsplit+Linter63.638.468.349.1表3:MCA模块中使用的损耗消融研究。Baseline直接使用Close-set Module。在MCA的损失。本节评估MCA模块的损耗。如表3所示,重建损失确保我们的模型获得所有未知类的信息,显著提高MCA的有效性。交叉损失和分裂损失通过改善Meta信道中候选区域的分布也带来相对较小的增益。5结论我们提出了RAML,以提高性能的开放世界语义分割。主要原因是区域感知特征在保持分割的OOD对象的语义完整性为了实现RAML的异常分割和增量式少镜头学习,需要有效的区域分离方法因此,我们采用经典的基于不确定性的方法来提取候选区域的异常分割,并提出了一个MCA模块,以进一步分离的异常区域的增量少拍学习。实验结果表明,我们提出的方法达到SOTA性能的异常分割和整体开放世界的语义分割。我们的方法有可能促进开放世界语义分割在实际应用中的使用走ingefic光fic符号桩号在对循环你们U小说你老了U伤害+v:mala2277获取更多论文6致谢本 研 究 得 到 了 国 家 自 然 科 学 基 金 ( 12090022 、11831002 、 71704023 ) 和 北 京 市 自 然 科 学 基 金(Z180001)的资助。引用[Baur et al. Christoph Baur , Benedikt Wiestler , ShadiAlbarqouni,and Nassir Navab.脑磁共振图像中无监督异常分割的深度自动编码模型在MICCAI BrainlesionWorkshop,第161-169页,2018年。[Bendale and Boult,2015] Abhijit Bendale and TerranceBoult.开放世界的认可。在CVPR,第1893-1902页[Cen et al. Jun Cen,Peng Yun,Junhao Cai,Michael YuWang,and Ming Liu.开放世界语义分割的深度度量学习。在ICCV中,第15333-15342页[Chan et al. Robin Chan,Matthias Rottmann,and HannoGottschalk.语义分割中用于分布外检测的熵最大化和Meta分类在ICCV中,第5128-5137页[Chen et al. 陈光耀,乔丽梦,石业民,彭培喜,李佳,黄铁军,蒲世良,田永红。具有可区分倒易点的开集网络学习。在ECCV,第507-522页[Gal 和 Ghahramani , 2016]YarinGal 和 ZoubinGhahramani。Dropout作为一种近似:表示深度学习中的模型不确定性在ICML,第1050[He et al. 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习在CVPR,第770-778页[Hendrycks 和 Gimpel , 2017] Dan Hendrycks 和 KevinGimpel。用于检测神经网络中错误分类和分布外示例的基线在ICLR,2017年。[Hendrycks et al. Dan Hendrycks,Steven Basart,MantasMazeika , Mohammadreza Mostajabi , Jacob Stein-hardt和Dawn Song。针对真实世界设置的扩展分布外检测。arXiv预印本arXiv:1911.11132,2019。[Hu et al. Hanzhe Hu,Jinshi Cui,and Liwei Wang.语义分割的区域感知对比学习在ICCV,第16291-16301页[Joseph et al. K J Joseph,Salman Khan,Fahad Shah-bazKhan,and Vineeth N Balasubramanian.开放世界物体探测。在CVPR,2021年。[Lis et al. Krzysztof Lis,Krishna Nakka,Pascal Fua和Mathieu Salzmann。通过图像再合成检测意外事件。在ICCV,第2152-2161页[Oreshkin et al. Boris N Oreshkin , Pau Rodriguez 和Alexandre Lacoste。Tadam :任务 相关的自 适应度量,用于改进的少次学习。在NeurIPS,2018年。[Pinggera et al. PeterPinggera,Sebastian Ramos,StefanGehrig , Uwe Franke , Carsten Rother , and RudolfMester.失物招领:检测自动驾驶车辆的小型道路危险。在IROS,第1099-1106页[Saito et al. Kuniaki Saito,Ping Hu,Trevor Darrell,andKate Saenko.学会在开放的世界里探测每一件事。arXiv预印本arXiv:2112.01698,2021。[Schroff et al. Florian Schroff,Dmitry Kalenichenko,andJames Philbin. Facenet:用于人脸识别和聚类的统一嵌入。在CVPR,2015年。[索贝尔和费尔德曼,1968]欧文索贝尔和加里费尔德曼。用于图像处理的3x3各向同性梯度算子。1968年在斯坦福人工计划上的演讲,第271-272页。[Sun et al. ,2020] Y.太阳角郑,Y. Zhang C.,中国古猿科张,L. Zheng,Z.Wang和Y.伟. 循环损失:对相似性优化的统一在CVPR,2020年。[Wang et al. Wenguan Wang,Tianfei Zhou,Fisher Yu,Jifeng Dai,Ender Konukoglu,and Luc Van Gool.探索语义分割的跨图像像素对比度。在ICCV,2021年。[Wen et al. Yandong Wen,Kaipeng Zhang,Zhifeng Li,and Yu Qiao.一种用于深度人脸识别的区分性特征学习方法。在ECCV,第499- 515页[Xia et al. Yingda Xia , Yi Zhang , Fengze Liu , WeiShen,and Alan L Yuille.综合然后比较:检测语义分割的故障和异常。在ECCV,第145-161页[Xian et al. ,2019] Y.Xian,S.Choudhury,Y.他,B。Schiele和Z.阿卡塔用于零标签和少标签语义分割的语义投影网络。在CVPR,2019年。[Yu et al. Fisher Yu,Haofeng Chen,Xin Wang,WenqiXian , Yingying Chen , Fangchen Liu , VashishtMadhavan,and Trevor Darrell. Bdd100k:用于异构多任务学习的多样化驱动数据集在CVPR中,第2636-2645页[Yuan et al. Yuhui Yuan,Xiaokang Chen,Xilin Chen,and Jingdong Wang.分割Transformer:用于语义分割的对象上下文表示。在ECCV,2020年。[Zhao et al. , 2017] Hengshuang Zhao , Jianping Shi ,Xiao-juan Qi,Xiaogang Wang,and Jiaya Jia.金字塔场景解析网络。在CVPR中,第2881-2890页[Zhong et al. Zhun Zhong,Linchao Zhu,Zhiming Luo,Shaozi Li,Yi Yang,and Nicu Sebe. Openmix:在开放的世界中重新激活已知知识,以发现新颖的视觉在CVPR中,第9462-9470页,2021年。+v:mala2277获取更多论文PGFP×Meta联系我们×i=1Ch,w,j,hwΣJ联系我们附录A缩写区域-MCA:Meta-C通道聚集。URS:基于不确定性的区域分离。DMLNet:深度测量收入网络。PML:像素方向的度量学习。NPM:新的P旋转成型方法。PLM:P语言LabelM method.外- 外-内-外.MSP:最大概率最大值。MaxLogit:最大Logit。All 17:使用17个类进行全监督学习。All 19:使用19个类进行全监督学习。前16个:仅使用16个已知类进行全监督学习的闭集分割。FT:使用未知的新图像对闭集分割模型进行微调。B异常分割B.1表达式5对于包含OOD对象的新图像X,如下计算不确定性强度Q:1)闭集分割模型推断图像X并产生非归一化logit U=<$(X)(第3.1节)。 小像素的U值意味着它更可能属于一个未知的区域。2)我们使用URS模块将X划分为多个区 域 , 并 为 每 个 区 域 计 算 区 域 感 知 嵌 入 ( 表 达 式(3))。3)RAML计算这些区域感知嵌入与来自训练集的已知类的区域感知嵌入之间的相似性,以获得最大相似性(表达式(4))。如果最大相似度很小,则该区域不属于任何已知类别。4)结合1)和3)的结果,我们取U和的乘积。这个乘积的负值,称为不确定性强度Q,因此与某个区域未知的概率正相关B.2实现细节我们使用PyTorch(版本1.8.2)来实现我们的模型,并在CUDA 11.0环境中运行。对于异常分割,我们遵循[Hendryckset al. ,2019;Cenet al. 、Gimpel,2017]在小物体的边缘上。在实验中,我们将等式2中的超参数α和β设置为对于失物招领为50和0.7,对于道路异常为150和0.4。C增量少次学习本节介绍了我们提出的RAML方法的增量少次学习的实现细节和更多的消融研究C.1实现细节我们遵循[Cen et al. ,2021]使用DeeplabV3+模型作为我们的闭集模型的骨干。 在MCA模块中,我们设置K=4,η=0。02,λ inter=0。1,λ split=0。1和λrec=0。01. 在我们的度量学习环中,我们设置θ novel= 0。8作为余弦在嵌入空间中,未知对象的阈值N1= 256,N2= 128,m= 0。25和γ = 8的循环损失[Sun等人, 2020年]。我们训练的闭集分割模型为3 104iterations。异常分割后,我们微调的闭集分割模型的另一个104迭代与所有的训练样本加上少数镜头小说。然后,我们通过在MCA模块之后应用两个完全连接的层(分别为256个单元和128个单元)来构建RAML模块,如图2所示。RAML模块被训练104次迭代。在所有训练阶段,我们使用SGD优化器,mentum为0.9,学习率衰减为10-4,并且特
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功