没有合适的资源?快使用搜索试试~ 我知道了~
114637基于弱监督的域自适应对象定位朱磊1,3,5齐社2陈倩1,3,5游云飞1,3,5王伯玉4卢彦业1,5zhulei@stu.pku.edu.cn,yanye.lu @ pku.edu.cn1北京大学医学技术研究所2字节跳动人工智能实验室3北京大学生物医学工程系4西安大略5北京大学深圳研究生院摘要弱监督目标定位(WSOL)是在图像级分类模板的监督下定位目标.大多数先前的WSOL方法遵循分类激活图(CAM),其基于具有多实例学习(MIL)机制的分类结构来局部化对象。然而,MIL机制使得CAM只激活可区分的对象部分而不是整个对象,削弱了其定位对象的性能。为了避免这个问题,这项工作提供了一种新的视角,将WSOL建模为域自适应(DA)任务,其中在源/图像域上训练的得分估计器在目标/像素域上进行测试以定位对象。从这个角度来看,DA-WSOL管道旨在更好地将DA方法引入WSOL,以提高本地化性能。它利用一个建议的目标抽样策略来选择不同类型的目标样本。基于这些类型的目标样本,域自适应定位(DAL)的损失进行了阐述。它通过DA调整两个域之间的特征分布,并通过Universum正则化使估计器感知目标域线索实验表明,我们的管道优于SOTA方 法 在 多 个 基 准 测 试 。 代 码 发 布 在 https ://github。com/zh460045050/DA-WSOL_CVPR2022。1. 介绍弱监督对象定位(WSOL)仅使用图像级分类掩码进行监督来学习图像中对象的位置,放松了对训练过程的密集注释(如像素级分割掩码或边界框)的要求,节省了大量的人工注释,近年来引起了广泛的关注[33,4,28,1,31,2,13]。最著名的WSOL方法是分类激活图(CAM)[33],它利用分类激活图,A我们的DA-WSOL机制图像标签提取器聚合器估计器源要素源类输入图像估计器目标特性目标类别基于BMIL的WSOL机制图像标签提取器估计器聚合器袋类输入图像实例特征简体中文基于C分离结构的WSOL机制图像标签提取器聚合器估计器图像特征像素特征输入图像提取器检测器阶级不可知论者定位像素特征图像类别传奇:向前:复制:份额重量:监督鞋鞋鞋域自适应图1. DA-WSOL与其他机制的比较。在一些实施例中,本地化结构可以用于生成本地化分数 。 如 图 所 示 。 1B , 它 理 论 上 用 作 多 实 例 学 习(MIL)[ 6 ]下的分类,其中每个图像表示一个袋子,其标签由它包含的实例确定[29],即像素/补丁。然而,MIL更关注包(图像)的准确性,而不是实例(像素),这使得CAM只能识别最有区别的为了激活更多的对象部分,采用不同的技术来增强CAM,例如数据扩充[27,14,29,4],新颖的网络结构[4,30,1,31]或后处理[2,13]。虽然这些方法在一定程度上缓解了这个问题,但它们仍然遵循MIL,这基本上会导致对象的不完全激活并削弱性能。从另一个角度来看,CAM也与训练估计器在图像级掩模的监督下对图像级特征进行分类相同然后将此经过良好训练的估计器投影到像素级特征上,以在测试过程中生成像素级定位分数[33]。通过查看图像级和像素级特征114638由于WSOL的目标是分别从源域和目标域提取特征,因此WSOL的目标与域自适应(DA)任务一致,即迫使在源(图像)域上训练的估计器在目标(像素)域上表现良好因此,如果DA方法可以帮助WSOL对齐这两个域的分布,则估计器可以避免过拟合源域,即仅激活对象的区分部分受此启发,我们的论文详细阐述了DA-WSOL管道,有助于更好地将DA方法引入WSOL以提高性能。图1直观地概括了我们新的DA-WSOL管道及其与WSOL其他机制与MIL机制相比,该方法采用DA来对齐源域和目标域之间的特征差异,提高了投影到像素特征上的估计精度。此外,分类和定位得分都可以通过单个端到端训练结构获得。这一特点使我们的方法比另一种类型的WSOL机制更简洁[28,18]如图所示。IC,其需要训练多个附加阶段以在定位对象时生成类别不可知的感兴趣区域(ROI)。此外,DA-WSOL流水线还考虑了WSOL中领域自适应的特殊性。具体来说,WSOL的目标域构造得更复杂,其具有比源域大得多的规模,并且包含具有源不可见标签的样本,即,背景位置。因此,我们的DA-WSOL流水线也提出了一个目标采样策略,以有效地选择源相关的目标样本和不可见的目标样本。然后将这两种类型的样本馈送到建议的域自适应定位(DAL)损失中,其中前一种类型用于解决两个域之间的样本不平衡,而后者被视为Universum [25]感知目标线索。简而言之,我们的贡献有四个方面:我们的工作是第一个模型WSOL作为DA任务,并设计了一个管道,以协助WSOL的DA方法。在WSOL场景中,提出了一种DAL损失来调整源域和目标域的特征提出了一种目标抽样策略,用于选择不同类型的代表性目标样本.大量的实验表明,我们的DA-WSOL优于形式SOTA方法在多个WSOL基准。2. 相关作品2.1. 基于多示例学习的WSOL基于MIL的WSOL方法以MIL方式训练分类网络,以确保该网络可以用于定位具有某些类别的像素 Zhou等人 [33个]提出了CAM,它利用分类结构,通过投影到像素级特征的分类器定位对象。Zhang等人 [29]证明了它的机制与MIL相同,并通过利用两个对抗分类器来捕获互补对象部分来改进它。出于类似的目的,Singh等人。[14]随机隐藏图像的补丁,以迫使分类结构集中对象的更多部分 Junsk等人 [4]然后通过直接擦除特征图上的判别空间位置来增强它。Yun等人。 [27]用其他图像的图像块替换图像块以增强训练样本。除了数据扩充,还探索了新的网络结构来增强CAM。通常,Zhang et al. [30]基于提取器的不同阶段生成粗略的像素级掩模,并将其用作附加监督以强制执行后续阶段。Zhang等人。 [31]还采用了连体网络来确保批量中具有相同类别的图像的随机一致性。与这些遵循MIL机制的方法不同,我们的方法将像素级和图像级特征与DA方法结合起来,以辅助WSOL任务。2.2. 基于分离结构的WSOLZhang等人[28]建议将WSOL分为两个独立的任务,而不是将WSOL视为MIL方式的图像分类:类无关的对象定位和对象分类。他们提出了一种伪监督对象定位(PSOL)方法,该方法分为三个阶段,分别用于区域建议,边界框回归和对象分类。Lu等人。 [18]试图用不同的几何形状生成ROI,并采用生成器来生成类不可知的二元掩码,而不仅仅是边界框。 Zhang et[32]使用分类阶段来获得分类结果和定位种子,然后定位阶段使用它们来生成类别不可知的定位图。最近,Meng等人 [19]探索了联合优化定位和分类以追求更好的结果。与它们相比,我们的方法可以同时获得分类和定位结果,只有一个阶段。2.3. 域自适应域自适应的目的是在存在以下分布之间的偏移的情况下学习判别模型:训练和测试样本。 一些DA方法专注于通过最小化最大均值差异(MMD)来捕获深度神经网络的域不变特征[8,9,16]。Long等人。 [17]通过考虑不同神经网络阶段特征的联合分布来Kang等人 [11]和Zhu等人 [34]进一步考虑了样本的类别标签,以测量类别内和类别间的差异。一些方法不测量分布差异,而是采用对抗性学习来混淆训练有素的狗。····114639·----联系我们联系我们∈.Σ∈∈∈·∈··∈··∈··SsL·L···| || |主分类器学习领域不变特征。通常情况下,Ganin等人。 [7]在域分类器之前添加了一个梯度反转层,以便以端到端的方式对域自适应网络 Pei等人 [21]进一步考虑了通过采用具有梯度反转层的多域分类器对不同数据分布进行细粒度对齐。Yu等人。 [26]将这些分类器细分为全局和子域分类器,以学习边缘分布和条件分布之间的关系。与这些方法不同的是,我们的工作重点是采用DA来更好地辅助WSOL任务。3. 方法本节首先回顾了WSOL,并提供了一个新的视角,即WSOL可以建模为具有特定属性的DA任务。那么,建议的DAL损失是在-Z1,:,Z2,:,...,ZN,:= f(X),可以构造两个特征集S:s和T:t,其中我们称S和T为源(图像)域和目标(像素)域以用于清晰度。S和T的对应标签集分别被定义为Y s:ys=y和Y t:yt=Y:,i。在这种观点下,WSOL可以被看作是在图像域S上用标签集Ys完全监督地训练得分估计器e(),然后在像素域T上进行推断以在测试过程中估计定位掩模Yt这个过程是DA任务的典型设置,其目的是在训练和测试过程之间存在特征转移的情况下学习判别模型[26]。因此,WSOL等于解决以下DA任务:定义1给定一个图像集X=X1,.,XM,源域和目标域被定义为:.S:{s=(g·f)(Xm)|m∈[1,M]介绍了,它考虑了不同类型的目标样品的WSOL的特异性的基础上接下来,T:{t=f(Xm):,i.(一)| i ∈ [1,N],m ∈ [1,M]}详细介绍了将目标样本分为三类的目标采样策略。最后,详细介绍了DA-WSOL流水线的整体请注意,为了清楚起见,所有关键符号的含义也在我们的Appdenix中给出。3.1. 重温WOSL给定输入图像XR 3×N,目标定位任务旨在辨别位置X:,i是否属于某个类别k的目标,其中N是图像中的像素数。 为此,学习特征提取器f()和分数估计器e(),以分别提取像素级特征Z=f(X)RC×N和估计定位分数Y=e(Z)R K×N。对于全监督的目标定位,采用像素级定位模板YRK ×N作为监督,使Y学习f()和e()。注意,元素Yk,i标识像素i是否属于类k的对象。对于WSOL,只有图像级分类掩码y=max(Y0,:),max(Y1,:),.,max(YK−1,:)RK×1可用于整个培训过程。因此,在特征提取器和分数估计器之间添加附加聚合器g(),以将像素级特征聚合到图像级,即z=g(Z)RC×1。然后将该图像级特征馈送到分数估计器中以生成图像级分类分数y=e(z)R K×1。由该图像级分数所提供的图像级掩码y可以监督具有分类损失的训练过程,例如y_n和y之间的交叉熵。而在测试时间中,该估计器被投影回像素级特征Z上以预测定位得分Y。3.2. 将WSOL建模为领域自适应通 过 将 所 有 输 入 图 像 映射到 由 s=z= ( g·f )(X)和{t1,t2,.,tN}=WSOL的目标是在不访问目标标签集Y t的情况下最小化目标风险。它作为一个多任务问题:1)最小化e(S)和Ys之间的源风险。2)最小化S和T之间的域差异。基于定理的视角1、我们提出的DA-WSOL流水线的对象可以用公式表示为:L(S, Y, T)=Lc(e( S), Y)+La( S, T),(2)其中c()是监督源域上的准确性的分类损失。a()是使S和T之间的差异最小化的自适应损失。该ad-term迫使f()和g()学习源(图像)域和目标(像素)域之间的域不变特征,这有助于源训练估计器e()也在目标样本上表现良好。因此,在测试处理中可以激活更多的对象位置。注1 WSOL还有一些在传统DA任务中不存在的特定属性。这些性质削弱了直接实现La(·)作为现有DA方法的适用性[8,17,11,34,7,26]。特性1目标域T包含不属于源域S的任何对象类的样本,即背景位置。将这些示例的特征与源域对齐将损害性能。属性2源域中的样本数量远小于WSOL中的目标域,即S =批号在训练过程中,当感知源分布时,样本不足会导致困难。属性3源域和目标域之间的差异归因于聚合函数g(),而不是像传统DA任务那样完全未知。该性质可作为比对源域和目标域特征分布的先验114640L·----L·L·Σ我·−L·L·∈L·L·一联系我们+)公司简介21??图2.我们提出的DA-WSOL(彩色最佳视图)的机制。A.源域、目标域和不同类型目标样本的可视化。B.将我们设计的损失函数Lc、Ld和Lu依次相加所显示的效果。3.3. 域适应本地化丢失为了考虑这些属性,将域自适应本地化(DAL)损失详细描述为()。 如图在图2A中,我们的DAL损失基于上述性质将目标集合T进一步划分为三个子集:1)伪目标集合Tf:Tf包含与源域高度相关的目标样本。2)Universum集合Tu:tu包含其标签在源域中不可见的目标样本即背景位置。3)实际目标集Tt:{tt}以在不访问目标标签的情况下对齐两个域之间的特征分布。如图所示。2B,添加d()可以收紧源域(桃圈)和目标域(绿圈),使得源训练的估计器对于目标样本也表现得更好。此外,u()采用Univer-sum [25]的机制,该机制使用具有源不可见标签(Tu)的目标样本来增强目标集的性能。它被实现为基于特征的L1正则化:u包含不属于Tf和Tu的目标样本。具体来说,就是基于财产。3、源域是Lu(Tu)=u∈u |、(四)|,(4)通过对目标样本进行空间聚集来构建。 在聚集函数g()上具有高重要性的一些目标样本的分布类似于源域,例如图1中的青蛙或驴头的斑块。凌晨2这些样本包含在Tf中,然后用作估计分布的补充如属性中所讨论的,具有不足的样本的源域S二、此外,为了解决属性中所讨论的源域和目标域之间的标签空间不匹配的问题1,Tu用于包含具有源不可见标签的样本,例如图1中的地面或草地。凌晨2它确保T Tu与源域具有相同的标签空间最后,通过从T中纯化Tf和Tu,其他样本构造用于估计目标域的分布的Tt基于目标域的这三个子集,定义DAL损失以最小化域差异:La (S,T)=LDAL (S,T)=λ1Ld (S<$Tf,Tt)+λ2Lu(Tu),其中λ1,λ2是两个参数,d()是域自适应损失,u()是Universum正则化[25]。详细地说,域自适应损失d()可以实现为无监督域自适应(UDA)方法[8,7]这最小化了Universum样本的特征强度。如图所示。2B,添加u将决策边界推到Universum样本中,这使得决策边界也涉及目标线索[25]。此外,这种正则化还减少了归因于g()的域差异,因为它消除了在生成源特征时由Universum样本引起的噪声。3.4. 目标抽样策略DAL损失的计算需要目标域上的三个子集的样本。因此,提出了一种目标采样策略,用于从特定输入图像的目标特征中选择这些子集的代表性样本。该策略的核心是图1所示的目标样品分配器(TSA) 3,它包含一个缓存ma-martMR C×(K+1)。详细地,M,0表示Tu的锚,并且在训练之前被初始化为零向量。其他列向量,例如M:,k+1,表示某个类k的Tt的锚。当第一次访问类别k的图像时,通过在其源特征z上添加小的随机偏移量m来初始化M:,k+1,即M:,k+1=z+m。受益于缓存矩阵M,在训练过程的前向传递中,TSA可以提供Universum目标集……………图片(来源)域名像素/面片(目标)域传奇…青蛙:1资料来源:源类绑定驴子:2目标:样品假的:12资料来源:…目标真实:12结构域Universum:?目标:…………真实目标集假目标集111111111?111?222???2 222222?12222221111 11111 1111? ?? ?2??2222222 22222222B1112212121??21?11?1两个?21122?21222221111111111 一个?1?1?2?2?2222 222 ?2222222(三)114641训练过程(g · f)(X)布拉奇f(X)目标样品分配器ℒu目标功能y(g · f)(X)UDA方法$目标样品分配人传奇联系我1998年,…目标样本K-Means初始最终…:假目标样本:真实目标样本:饲料向前)*+*:Universum目标样本5657���* =���*���*+(1 −���*)���*,+=������+ 1−++:目标样本:向后输入图像X(e · f)(X)定位∈我吉吉联系我们联系我们中文(简体)|y=2}:,i···Σ∈e(z)y=1y=2…y=K图3.拟议的DA-WSOL管道的总体结构和工作流程(最佳彩色视图基于图像级掩模y的Tu和Tt:锚提供。请注意,如果目标域的锚au=M:,0,at=M:,k+1,k= arg max(y),(5)初始化为z +m,即 rk= 0时,我们选择与z距离较大的聚类中心作为更新的锚点。其中k是类索引。 au,atRC ×1分别是Tu和Tt的锚. 然后将这两个锚点与源特征z组合以形成三个子集的初始中心,即Cinit=au,at,z R C×3。其次,基于Cinit,对目标样本(即Z的列向量)进行操作,以向它们分配聚类标签yc0,1,2。最后,基于聚类标签对每个子集随机采样n个样本,以计算DAL损失:Tu:{Z:,i|{0}{0}我3.5. DA-WSOL管道所提出的目标采样策略可以很容易地engaged到当前的WSOL方法来训练它们与DAL损失。它作为我们的DA-WSOL管道的连接,以提高WSOL方法与DA方法的性能。图3示出了所提出的DA-WSOL流水线的整体结构。具体地,在训练过程中,首先通过馈送输入来生成用于一批图像的源域S和目标域T,图像转换为特征提取因子f(·)和特征聚集。·T t:{Z:,i|{1}{2}FC我.(六)gatorg()的某个WSOL方法。在这里,我们遵循将f()实现为分类主干的CAM(ResNet [10],InceptionV3 [22])并采用全局平均值在后向过程中,最终聚类中心C出-利用K-means聚类方法对M在培训过程中,逐步:r0M:,0+(1−r0)C:,0,k=0池化(GAP)[15]作为g()。 此外,估计量e()由全连接层实现的操作在- 源域S的样本,以生成图像级分类得分,其由具有交叉熵的图像级掩码yM=rkM:,k+(1−rk)C:,1,k0,rk 0Sk,:C:,1,k0,rk=0,||C:,2−z||≤||C:,1−z||(七)Lc(e(S),Y)=(si,yi)∈(S,Ys)Lce(e(si),yi).(八)C:,2,k=0,rk=0,||C:,2−z||>>||C:,1−z||其中rR1×(K+1)包含更新比率。 rk是im-作为具有类别k的传递图像的数量的倒数来实现。基于等式7、M可以近似Tu和Tt的质心,从而提高了计算的精度。输入图像X中基质…测试过程114642基于这两个域和图像级掩模y,所提出的目标样本分配器选择三个目标子集的代表性样本,Tu(用灰色圆表示)、Tf(用桃色圆表示)和Tt(用粉色圆表示)。 然后,利用Tu的样本来计算114643L×ΣΣ·L(S<$Tf,Tt)=−si∈S<$T,tj∈T表1.在ImageNet和CUB-200数据集上比较我们的方法和其他SOTA方法方法ImageNet数据集Top-1 Loc GT-已知BoxAccV 2Top-1位置CUB-200数据集GT已知BoxAccV2pIoU PxAP[33]第三十三话51.8164.7262.6965.8072.4768.2847.60 66.78HAS [14]51.6164.4262.4051.2870.9964.5049.82 71.32[29]第二十九话45.0764.2161.8742.5370.0961.2241.56 56.78SPG [30]46.6263.7161.3653.0268.8260.3644.97 61.20ADL [4]49.8164.6762.7544.3063.3156.6142.29 56.59[27]第二十七话50.6463.2761.5169.3781.1068.6445.89 64.64中国汽车工业协会[1]52.3667.89-64.7077.35---DGL [23]43.4167.52-60.8276.65---I2C [31]54.8368.50------[第12话]48.4067.6265.1556.1072.7963.20--PSOL[28]53.9865.54-70.68----扫描电镜[32]53.8467.00------FAM[19]54.4664.56-73.7485.73---公共事务部[2]49.4262.2064.7259.5377.5866.38--IVR [13]--65.57--71.23--我们43.2670.2768.2362.4081.8369.8756.18 74.70我们的55.8470.2768.2366.6581.8369.8756.18 74.70粗体的分数表示最好的。下划线样式的方法意味着生成的本地化映射是类不可知的。Universum正则化u,其中Eq.4.第一章 其他两个子集和源域(用粉红色方块表示)的样本被馈送到现有的UDA方法中,以对齐源域和目标域之间的特征分布。在这里,我们采用MMD [8]作为UDA方法:ft2D除非另有说明。采用批量大小32,超参数n设置为32。随机裁剪和随机翻转大小为224 224作为增强。 SGD优化器的权重衰减为1e-4,动量为0。9人参加了培训。实验 是 进行 对 三个广泛使用的基于Pytorch工具箱[20]的WSOL基准测试,|∗ |Tt|T t|+si,sj∈S <$Tfh(si,sj)+ti,tj∈Tth(ti,tj)(九)Intel Core i9 CPU和NVIDIA RTX 3090 GPU:ImageNet数据集[5]包含1,000|2|2|2|2类,其中有50,000个带有边界框注释的图像作为测试集,其他作为训练集其中h()是高斯核。请注意,在DA-WSOL中更改UDA或WSOL方法是很方便的。在测试处理中,可以通过将目标特征直接馈送到源训 练 的 估 计 器 中 来 生 成 定 位 图 , 即 Y=e ( f(X)),其列向量也表示目标样本的分类得分。4. 实验在本节中,我们首先介绍我们实验的设置和训练细节。最后给出了在三个数据集上的实验结果来验证该方法的有效性。接下来,进行消融研究以探索我们的方法的不同设置的效果最后,我们也讨论了我们的缺陷和失败案例,以启发未来的工作。4.1. 设置我们的DA-WSOL采用CAM,ResNet 50 [10]作为基本的WSOL方法,MMD [8]作为UDA应用程序。114644集对于ImageNet数据集,初始学习率1e-5被设置为训练我们的DA-WSOL总共10个epoch,每3个epoch除以10。超参数λ1和λ2被设置为0。分别为3和3CUB-200数据集[24]包含11,788张图像,其中包含200种细粒度鸟类类别,其中5,794张图像具有像素级掩模和边界框注释用作测试集。此外,Junsuk [3]注释的 1,000个额外图像SGD的初始学习率为1e-3,以在此数据集上训练我们的DA-WSOL 50 epoch。在训练30个时期后,学习率除以10。将DAL损失的两个超参数设定为λ1=0。3,λ2=2。OpenImages数据集[3]包含100个类别的37,319张图像,其中为2,500张验证图像和5,000张测试图像发布了像素级掩模注释。其余19,819张图像作为训练集,以初始学习率训练我们的DA-WSOL共10个epoch1146451e-3 。学习率每3个时期除以10超参数λ1和λ2被设置为0。2和3基于边界框注释,通过Top-1定位准确度(Top-1Loc)、地面实况已知定位准确度(GT-已知)和最大框准确度(Box-AccV 2)[3]评估定位准确度同时,如果像素级注释可用,则采用峰值交叉联合(pIoU)和像素平均精度(PxAP)[3]作为评价指标。除了我们的方法(Ours指出),我们实现了六种WSOL方法来公平比较性能,包括CAM [33],HAS[14],ACoL [29],SPG [30],[27][28][29][29]从他们的论文中引用了其他SOTA方法的结果。此外,我们还实现了一个两阶段的版本(Ours的注释),它使用了一个额外的阶段来输出分类分数。4.2. 结果表. 1显示了不同WSOL方法和我们提出的方法在ImageNet和具有ResNet 50主干的CUB-200数据集上的相应结果。它表明,我们的方法在大规模ImageNet数据集的所有指标上都优于所有这些方法。具体而言,得益于消除训练和测试过程之间的域差异,我们的方法在GT已知和BoxAccV2度量上分别比其他最好的方法高出1.77%(约885张图像)和2.66%。虽然由于差异消除的副作用而削弱了分类精度,但是添加用于生成分类结果的分类阶段(Ours)可以解决这个缺陷,并且使得我们的方法在Top-1定位得分上仍然优于其他方法。对于细粒度的CUB-200数据集,仅生成类无关的本地化结果的方法通常比其他方法具有更好的结果这是因为类不可知的本地化只能专注于捕捉鸟类,而不是不同类型的鸟类,这有助于他们的更高的精度。虽然低于这种类型的方法,我们的方法实现了最高的GT已知的,pIoU和PxAP得分之间的方法,生成类感知的本地化地图作为我们的。此外,最近提出的OpenIm- ages数据集的结果如表所示二、虽然OpenImages数据集由于其更丰富的内容和更精细的像素级评估而更具挑战性,但我们的方法在很大程度上优于具体而言,我们的方法获得了49.68%的pIoU和65.42%的PxAP,分别比其他最好的方法高出7.48%和4.52%。这一显著的改善得益于两个方面。首先,OpenImages数据集的更丰富的上下文提供了更多的各种样本,这有助于估计源域和目标域之间的特征分布。这增强了对对象位置的定位图第二,联合国-我们的方法的versum正则化也将决策边界与Universum样本对齐,即 背景位置。这抑制了背景位置的激活并促进了像素级评估度量。此外,CUB-200数据集的最高像素级评估指标(pIoU和PxAP)如表所示1也证明了这一特点。表2.与OpenImage数据集上的SOTA方法比较ResNet50pIoU PxAPInceptionV3pIoU PxAP[33]第三十三话42.9558.1947.3062.66HAS [14]41.9255.1042.3158.53[29]第二十九话41.6856.3741.1155.69SPG [30]41.7955.7645.5861.77ADL [4]42.0555.0245.6761.52[27]第二十七话42.7357.5746.1861.18公共事务部[2]-60.90-63.30IVR [13]-58.90-64.08我们49.6865.4248.0164.46图4.不同WSOL方法在其最佳背景阈值下的定位图和框(或掩模)除了定量结果外,图。4还可视化了一些本地化结果。可以看出,我们的方法比其他方法激活更多的对象位置。这是因为我们的方法可以减少图像域和像素域之间的特征分布,从而将无差别像素(鸭子和猩猩的身体)的特征这也有助于净化不相关的对象(成人或椅子),用于某个类(儿童)的局部化图此外,本-114646LLLL从我们的Universum正则化,我们的方法的本地化地图也有最低的干扰背景位置(水或地面)。这些可视化方面也定性地反映了我们采用域适应来辅助WSOL的管道的有效性4.3. 消融研究消 融 研 究 是 在 我 们 提 出 的 DA-WSOL 管 道 的OpenImages数据集上进行的。首先,我们探讨了我们的抽样策略和DAL损失的影响即TSA模块、域自适应损失d和Universum正则化u。相应结果见表。3 .第三章。与仅采用分类损失的基线相比,简单地将已有的DA损失加入到特征对齐中会导致性能下降,因为Universum样本的特征也与目标的特征对齐,使得分类器将背景识别为目标。在这种情况下,所有目标样本的特征都是杂乱分布的,这也使得所提出的TSA无法有效地识别Universum样本并将其分配到Tu中。因此,即使采用TSA来平衡d的源域和目标域之间的样本数,自适应损失仍然没有完全发挥作用。当利用u将Universum样本的特征(背景位置)推入决策边界时,TSA可以更好地将其与其他目标样本(目标位置)区分开来,在pIoU和PxAP中分别提高了2.22%和因此,与基线相比,采用全DAL损耗可以将性能提高到很大的程度(pIoU提高6.73%,PxAP提高7.24%)。表3.使用OpenImages上的DA来验证我们方法的部分Lc设置LdLuTSAMMDpIoU PxAPDANNpIoU PxAP✓42.9558.1942.9558.19✓✓42.8857.3943.2958.19✓✓✓43.2458.1043.6758.77✓✓✓45.1761.5045.1761.50✓✓✓✓49.6865.4246.7163.26为 了 显 示 我 们 的 DA-WSOL 管 道 的 泛 化 ,OpenImages数据集上的InceptionV 3的结果也在表中给出。二、可以看出,我们的方法也有效地提高了CAM的性能。此外,我们还采用了不同的UDA方法和WSOL方法,我们的DA-WSOL管道。具体来说,除了MMD,我们还利用基于对抗学习的UDA方法DANN [7](结构见附录)来增强三种不同的WSOL方法,包括CAM [33],HAS [14],CutMix [27]和ADL [4]。结果见表。4反映了所有这些WSOL的性能可以通过UDA与我们的DA-WSOL管道来增强。表4.采用不同的UDA和WSOL方法。UDApIoUPxAP火车测试凸轮-MMDDANN42.9549.68 ↑6.7346.71 ↑3.7658.1965.42 ↑7.2363.26 ↑5.0713.8425.2519.3669.7770.8470.48具有-MMDDANN41.9249.25 ↑7.3346.41 ↑4.4955.1064.15 ↑9.0562.48 ↑7.3813.7520.5219.4170.1370.6971.17CutMix-MMDDANN42.7349.32 ↑6.5948.55 ↑5.8260.6464.68 ↑4.0464.08 ↑3.4411.1731.2328.6169.2471.0570.40ADL-MMDDANN42.0543.40 ↑1.3543.22 ↑1.1755.0260.17 ↑5.1560.64 ↑5.628.8720.3816.9069.3271.3870.26Train/Test度量是训练/测试时间(ms/图像)。4.4. 限制虽然提出的DA-WSOL管道有助于结合DA方法来增强WSOL,并在ImageNet和Open- Images数据集上刷新SOTA定位性能,但我们的方法也应该考虑到一些局限性首先,对WSOL采用DA会对估计器在源域上的强度产生负面影响,这也是WSOL选择不同类别的本地化映射的要求当分类任务被挑战时,这个缺陷会削弱图像分类的准确性,并导致我们在ImageNet和CUB-200数据集上的Top-1指标较低。此外,我们的TSA采用耗时的K-Means聚类对目标样本进行采样,并更新不同子集的锚。虽然它不影响模型大小和测试过程的时间希望今后的工作能解决这些问题,以提高我们的工作水平.5. 结论本文提供了一个新的视角,模型WSOL作为DA任务,并提出了DA-WSOL管道,以协助WSOL DA。我们的方法使用一个目标采样策略,将目标样本分配到三个子集,然后通过DAL损失关注的特异性。实验结果表明,该方法在多数据集上的性能优于SOTA方法,并且可以推广到各种基线。6. 确认本课题得到了北京市自然科学基金Z210008、深圳市科技计划1210318663和深圳市重大科技基础设施关键技术与装备发展项目的资助114647引用[1] S. Babar和S.达斯去哪里找?:挖掘互补图像区域进行弱监督目标定位。2021年IEEE计算机视觉应用冬季会议(WACV),2021年。1、6[2] Wonho Bae,Junhyug Noh,and Gunhee Kim.重新思考弱监督对象局部化的类激活映射。欧洲计算机视觉会议(ECCV),第618-634页。Springer,2020年。一、六、七[3] Junsuk Choe、Seong Joon Oh、Seungho Lee、SanghyukChun、Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法在IEEE/CVF计算机视觉和模式识别会议上,第3133-3142页,2020年六、七[4] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE/CVF计算机视觉和模式识别会议论文集,第2219-2228页,2019年。一二六七八[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。6[6] James Foulds和Eibe Frank多实例学习假设综述。知识工程评论,25(1):1-25,2010年。1[7] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议,第1180PMLR,2015.三、四、八[8] ArthurGretton,Karsten M Borgwardt,Malte J Rasch,Bern-hardSchoülk opf,andAl e xanderSmola. 一个核双样本检验。The Journal of Machine Learning Research,13(1):723二三四六[9] 阿瑟·格雷顿、迪诺·塞迪诺维奇、海科·斯特拉斯曼、西瓦拉曼·巴拉克里希南、马西米利亚诺·庞蒂尔、肯吉·阿努米祖和巴拉特·K·斯里佩鲁姆布杜尔。大规模双样本检 验 的 最 优 核 选 择 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),第1205Citeseer,2012年。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集,第770-778页,2016年。五、六[11] 康国梁,姜璐,杨毅,和亚历山大·G·豪普特曼.用于无监督域自适应的对比自适应网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4893-4902页,2019年。二、三[12] Minsong Ki , Youngjung Uh , Wonyoung Lee , andHyeran Byun.弱监督目标定位的样本内对比学习和一致注意。在2020年亚洲计算机视觉会议上。6[13] Jeesoo Kim , Junsuk Choe ,Sangdoo Yun , and NojunKwak. 在 弱 监 督 对 象 定 位 中 , 归 一 化 很 重 要 。 在IEEE/CVF计算机视觉国际会议论文集,第3427-3436页,2021年。一、六、七[14] Krishna Kumar Singh和Yong Jae Lee。捉迷藏:迫使网络对弱监督的对象和动作定位进行细致的处理。在IEEE计算机视觉国际会议论文集,第3524- 3533页,2017年。一二六七八[15] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。arXiv预印本arXiv:1312.4400,2013。5[16] Mingsheng Long , Yue Cao , Zhangjie Cao , JianminWang,and Michael I Jordan.使用深度适应网络的可转移表示学习。IEEE Transactions on Pattern Analysis andMachine Intelligence,41(12):3071-3085,2018。2[17] Mingsheng Long , Han Zhu , Jianmin Wang , andMichael I Jorda
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功