没有合适的资源?快使用搜索试试~ 我知道了~
8050基于Minimax熵的齐藤邦昭1、金东铉1、斯坦·斯克拉罗夫1、特雷弗·达雷尔2、凯特·萨彦科11波士顿大学、2加州大学伯克利分校1{keisaito,donhk,sclaroff,saenko}@ bu.edu,2trevor@eecs.berkeley.edu摘要现代领域自适应方法在调整源域和目标域的特征分布方面非常有效,而无需任何目标监督。 然而,在这方面, 我们表明,这些技术表现不佳时,甚至任务特定分类器域分类器标记源标记目标未标记的靶估计原型基于传统领域分类器的方法训练域分类器更新功能欺骗域分类器在目标区域中有几个标记的示例,main.为了解决这种半监督域自适应(SSDA)设置,我们提出了一种新的极小极大熵(MME)的方法,逆向优化自适应少拍模型。我们的基础模型由一个特征编码网络组成,然后是一个分类层,用于计算特征与估计原型的相似性使用标记示例估计原型最小最大熵(我们的)更新原型更新要素(各阶层代表)。适应性得以实现最大熵未标记目标最小熵未标记目标通过交替地使未标记目标数据的条件熵相对于分类器最 大 化 和 使 其 相 对 于 特 征 编 码 器 最 小 化 。 我 们emperically证明了我们的方法的优越性,许多基线,包括传统的功能对齐和少数拍摄的方法,设置一个新的国家的最先进的SSDA。我们的代码可以在http://cs-people上找到。bu.edu/keisaito/research/MME.html的网站。1. 介绍深度卷积神经网络[16]在大量标记训练数据的帮助下显着提高了图像分类的准确性最近的无监督域自适应(UDA)方法[11,19,20,28,37]通过对齐分布来提高未标记目标数据的泛化能力,但可能无法学习目标域上的判别类边界(见图11)。1.)的人。我们表明,在半监督域自适应(SSDA)设置,其中一些目标标签是可用的,这样的方法往往不提高性能相对于只是训练标记的源和目标的例子,甚至可以使它更糟。我们提出了一种新的SSDA方法,克服了以前方法的局限性,并显着提高了深度分类器在新领域的准确性,每个类只有几个标签。我们的方法,我们图1:我们解决了半监督域自适应的任务。上图:现有的基于域分类器的方法对齐源和目标分布,但可能会在任务决策边界附近生成模糊的特征而失败。底部:我们的方法估计每个类(原型)的代表点,并使用新的极大极小熵技术提取判别特征称之为Minimax Entropy(MME),基于优化未标记数据的条件熵的Minimax损失以及任务损失;这在学习任务的区别特征的同时减小了分布间隙。我们利用最近提出的基于余弦相似性的分类器架构进行少量学习[12,5]。分类器(顶层)通过计算K个类特定权重向量与特征提取器(下层)的输出之间的余弦相似度来预测K路类概率向量每个类别权重向量是估计虽然这种方法在少量学习中优于更先进的方法,并且我们证实了它在我们的环境中的有效性,但正如我们在下面所展示的那样,它仍然非常有限。特别是,它不利用目标域中未标记的数据。我们的核心思想是最小化类原型和相邻未标记目标样本之间的距离,从而提取区分特征。问题是如何估计域不变的原型,8051分类损失最小化该方法熵最大化熵最小化1类2类估计原型标记源标记目标未标记的靶基线少镜头学习方法没有未标记示例的整个网络优化步骤1:更新估计原型步骤2:更新特征提取器图2:上图:基线少次学习方法,它通过权重向量估计类原型,但不考虑未标记的数据。底部:我们的模型通过域不变原型估计使用未标记数据提取区分和域不变特征。步骤1:我们更新分类器中的估计原型,以最大化未标记目标域上的熵。步骤2:我们最小化特征提取器的熵,以将特征聚集在估计的原型周围。标记的目标示例。原型由源域主导,如图的最左侧所示。2(底部),因为绝大多数标记的示例来自源代码。为了估计域不变原型,我们将权重向量向目标特征分布移动。目标样本上的熵表示所估计的原型与目标特征之间的相似性。具有高熵的均匀输出分布表明样本与所有原型权重向量相似因此,在第一个对抗步骤中,我们通过最大化未标记目标样本的熵来将权重向量向目标移动。其次,我们更新了特征提取器,以最小化未标记示例的熵,使它们更好地聚集在原型周围。这个过程被公式化为权重向量和特征提取器之间的最小-最大博弈,并应用于未标记的目标示例。我们的方法在SSDA上提供了新的最先进的性能;如下所述,我们相对于忽略未标记数据的基线少数方法将误差减少我们的贡献总结如下:• 我们强调了SSDA设置中最先进的域自适应方法的局限性• 我们提出了一种新的对抗方法,极小极大熵(MME),设计用于SSDA任务;• 我们展示了我们的方法2. 相关工作域适配。 半监督域适配器SSDA是一项非常重要的任务[8,40,1],但它还没有得到充分的探索,特别是关于基于深度学习的方法。我们重新审视这一任务,并将我们的方法与最近的半监督学习或非监督域自适应方法进行比较。域自适应的主要挑战是域间特征分布的差异,这会降低源分类器的性能。最近的工作主要集中在非监督域自适应(UDA),特别是,特征分布对齐。基本方法测量源和目标中特征分布之间的距离许多UDA方法利用域分类器来测量距离[11,37,19,20,33]。域分类器被训练来区分输入特征是否来自源或目标,而特征提取器被训练来欺骗域分类器以匹配特征分布。UDA已应用于各种应用,如图像分类[27]、语义分割[32]和对象检测[6,29]。一些方法最小化特定任务的决策边界在这方面,它们增加了目标特征的类间方差;另一方面,我们建议使目标特征在估计的原型周围很好地聚集。我们的MME方法可以减少类内方差,同时增加类间方差,从而产生更多的区分特征。有趣的是,我们根据经验观察到UDA方法[11,20,28]通常无法提高SSDA的准确性。半监督学习(SSL)。生成[7,31],8052我不是F(x)我 i=11名F()1名F()特征提取器C=分类器W=权重矩阵T=温度Lce(p,y)=交叉熵损失H=熵标记为实例Lce(p,y)CFFp未标记目标−H(p)梯度翻转SoftmaxWTf不L2正常化图3:模型架构和MME的概述网络的输入是标记的源示例(y=label),一些标记的目标示例和未标记的目标示例。我们的模型由特征提取器F和分类器C组成,分类器C具有权重向量(W)和温度T。W被训练为最大化未标记目标上的熵(图2中的步骤1),而F被训练为最小化它(图2中的步骤22)的情况。为了实现对抗性学习,通过梯度反转层翻转未标记目标样本上熵损失的梯度符号[11,37]。模型集成[17]和对抗方法[22]提高了半监督学习的性能,但没有解决域转移问题。条件熵最小化(CEM)是SSL中广泛使用的方法[13,10]。然而,我们发现,当源域和目标域之间存在较大的域间隙时,CEM无法提高性能(参见实验部分)。MME可以被视为熵最小化的变体,其克服了工作3. 极小极大熵域自适应在半监督域自适应中,我们给定源图像和源中对应的标签域Ds={(xs,yis)}ms。 在目标域中,我们ii=1CEM在域适应方面的局限性。少镜头学习(FSL)。 很少有人学习[35,39,也被给予有限数量的标记目标图像D={(xt,yt)}mt,以及未标记的目标图像imi=126]的目的是学习新的类给出了一些标记的例子Du={(xu)} u。 我们的目标是训练模型,并标记为“基本”类。SSDA和FSL做出不同的假设:FSL不使用未标记的示例,旨在获取新类的知识,而SSDA旨在适应新领域中的相同类。然而,这两个任务的目标是从一个新的领域或新的类中提取一些标记的例子的区别特征我们采用了一种网络架构,在最后一个线性层和温度参数T之前对特征进行了102归一化,该参数被提出用于人脸验证[25]并应用于少量学习[12,5]。通常,具有大范数的特征向量的分类导致确认,Ds,Dt和Du,并对Du求值。3.1. 基于相似性的网络体系结构受[5]的启发,我们的基础模型由特征提取器F和分类器C组成。对于特征提取器F,我们采用深度卷积神经网络,并对网络的输出进行归一化然后,将归一 化 的 特 征 向 量 用 作 C 的 输 入 , C 由 权 重 向 量W=[w1 ,w2 ,. . . 其中,K 表示类的数量和一个temper。可靠的输出为了使输出更有信心,网络自然参数T. C取F(x)作为输入和输出-可以尝试增加特征的标准但这并不一定增加类间方差,因为增加范数不改变向量的方向。对特征向量进行为了使输出更有信心,网络的重点是使来自同一类的特征的方向彼此更这种简单的架构被证明对少量学习非常有效[5],我们在我们的WTX把TF(x) C的输出被馈送到softmax-层以获得概率输出p∈Rn。我们表示WTXp(x)=σ( T<$F ( x ) <$),其中σ表示softmax函数。第为了正确地分类示例权重向量的值必须代表相应类别的标准化特征。在这方面,权重向量可以被视为每个类别的估计原型。我们的方法的架构如图所示3.第三章。标记源1类2类····标记的靶未标记的靶未标记目标示例的反向路径已标记源和目标示例的反向路径····8053.Xs.布吕普1名F()3.2. 培养目标我们通过执行以下操作来估计域不变原型:相对于估计的原型类型的熵最大化。然后,我们通过对特征提取器执行熵最小化来提取鉴别特征。熵最大化防止过度拟合,过度拟合会降低表示的表达能力。因此,熵最大化可以被认为是选择原型的步骤,这将不会导致过拟合到源示例。在我们的方法中,原型是参数化的最大化)和熵最小化过程产生区分特征。总而言之,我们的方法可以用公式表示为C和F之间的对抗学习。任务分类器C被训练为最大化熵,而特征提取器F被训练为最小化熵。C和F都经过训练,可以正确地对标记的示例进行分类。总体对抗学习目标函数是:θF=argminL+λHθF最后一个线性层的权重向量。首先,我们训练F和C对标记的源和目标示例进行分类,θC(三)= argminL −λHθ并利用熵最小化目标来提取目标域的鉴别特征。我们使用标准的交叉熵损失来训练F和C进行分类:L= E(x,y)∈Ds,DtLce(p(x),y).(一)有了这个分类损失,我们确保特征提取器生成关于源和一些目标标记的示例的有区别的特征。然而,该模型是在源域和一小部分目标样本上训练的,用于分类。这不会学习整个目标域的区别特征。因此,我们提出使用未标记的目标样本进行极大极小熵训练。我们提出的对抗学习的概念概述如图所示。2.我们假设存在每个类都有一个域不变的原型,C其中λ是控制以下之间的权衡的超参数:最小最大熵训练和分类标记的例子。我们的方法可以用迭代min-imax训练来表示为了简化训练过程,我们使用梯度反转层[11]来翻转C和F之间关于H的梯度。通过这一层,我们可以执行具有一个前向和后向传播的极小极大训练,如图1所示。3.第三章。3.3. 理论见解如[2]所示,我们可以通过使用域分类器来测量域分歧设h∈ H是一个假设,λs(h)和λt(h)分别是源和目标的期望风险,则λt(h)≤λs(h)+dH(p,q)+C0,其中C0是关于假设空间复杂性和两个域的理想假设的风险的常数,dH(p,q)是H-发散betw. 甚至p和q。..好的。可以是两个域的代表点。估计原型将接近源分布,因为dH(p,q),2 sup. PRh∈H[h(f)=1] −Prxtq h(f)=1。 .(四)源标签占主导地位。 然后,我们建议估计通过使用目标域中的未标记数据将每个wi移向目标特征来确定原型的位置为了实现这一点,我们增加了W和未标记的目标特征之间的相似性度量的熵熵计算如下,ΣK其中fs和ft分别表示源域和目标域中的特征在我们的情况下,特征是特征提取器的输出H-散度依赖于假设空间H的容量来区分分布p和q。这一理论指出,在做之间的分歧可以通过训练域分类器来测量干线,H=−E(x,y)∈Dui=1p(y = i|x)log p(y =i|x)(2)具有低发散性的特征是具有良好-执行特定任务的分类器。受此启发,许多方法[11,3,37,36]训练域分类器来区分-其中K是类的数量,p(y = i|X)表示预测到第i类的概率,即第i维,WTXp(x)= σ(T <$F(x)<$)。有更高的熵,为了具有均匀的输出概率,每个wi应该与所有目标特征相似。因此,增加熵鼓励模型估计域不变原型,如图所示。二、为了在未标记的目标上获得区分特征,选择不同的域,同时还优化特征提取器以最小化分歧。我们提出的方法也连接到方程。4.虽然我们没有一个领域分类器或领域分类损失,我们的方法可以被认为是通过对未标记的目标示例进行极大极小训练来最小化领域分歧。我们选择h作为一个分类器,它通过en的值来决定一个特征的二进制域标签样本时,我们需要将未标记的目标特征聚集在估计的原型。我们建议通过特征提取器F来降低未标记目标样本的熵。这些特征应该分配给其中一个原型熵,即,h(f)=.1、若H(C(f))≥γ, (五)0,否则以减小熵,从而产生期望的区别特征。重复该原型估计(熵其中C表示我们的分类器,H表示熵,并且γ 是确定域标签的阈值。在这里,8054我们假设C输出了对k的类预测的概率。icity 当量 4可以重写为。接着,.好的。126个班级我们专注于适应场景的目标领域是不是真实的图像,并从四个领域构建7个场景查看我们的补充d H(p,q),2 sup. Pr [h(f)=1]−Pr h(f)= 1。h∈H。fsp..ftq.材料了解更多详情。 [38]第38话:我的世界.t.mains(Real,Clipart,Art,Product)有65个类。这= 2 sup. Pr [H(C(f))≥γ] − Pr [H(C(f))≥γ]。C∈C。fspΣ≤2次超高压C∈Cft<$qΣH( C(ft))≥γ。ftq. dataset是无监督域自适应的基准数据集之一。我们评估了我们的方法对12个sce- narios的总数。Office[27]包含3个域(Amazon,在最后一个不等式中,我们假设Pr [H(C(fs))≥γ]≤PRftpΣ Σfs∼pH(C(ft))≥γ。 这个假设应该是现实的网络摄像头,数码单反相机)与31类。 网络摄像头和数码单反相机是小的领域和一些类没有很多考试-因为我们可以访问许多标记的源示例并训练整个网络以最小化分类损失。使交叉熵损失最小化(等式1)确保源示例上的熵非常小。直觉上,这个不等式表明发散度可以由熵大于γ的目标样本的比率来限制。 因此,我们可以通过找到实现所有目标特征的最大熵的C来获得上限。我们的目标是找到实现最低分歧的特征。我们假设存在一个C,它在上面的不等式中达到最大值,那么目标可以重写为,亚马逊有很多例子。要在域有足够的例子,我们有2个场景,我们设置亚马逊作为目标域和数码单反相机和网络摄像头作为源域。实施详情。所有实验都在Pytorch中实现 [23]。我们使用AlexNet [16]和VGG16 [34]在ImageNet上进行预训练 。 为 了 研 究 更 深 层 次 架 构 的 影 响 , 我 们 在 Do-mainNet上使用ResNet 34 [14]进行实验。我们移除这些网络的最后一个线性层来构建F,并添加一个具有随机初始化权重矩阵W的K路线性分类层C。温度T的值被设定为0.05,遵循图10中[25]的结果。最小最大压力ΣΣH( C(ft))≥ γ(六)所有设置。每次迭代,我们准备两个小批,ftC∈C f t<$q找到关于ft的最小值等同于找到实现该最小值的特征提取器F因此,我们推导出我们提出的学习方法的最小最大目标方程。3.第三章。 总之,我们的最大熵过程可以被看作是测量域之间的分歧,而我们的熵最小化过程可以被看作是最小化分歧。 在我们的实验部分,我们观察到我们的方法实际上减少了域发散(图1)。6c)。此外,由我们的方法产生的目标特征看起来与源特征对齐,并且具有同样的区分性。这些来自域散度最小化的效果。4. 实验4.1. 设置我们随机选择了一个或三个标记的例子,类作为标记的训练目标示例(分别为单次和三次设置)。我们选择了另外三个标记的示例作为目标域的验证集。验证示例用于提前停止、超参数λ的选择和训练调度。其他目标样本用于无标签训练,其标签仅用于评估分类准确率(%)。源代码的所有示例都用于培训。数据集。 我们的大多数实验都是在一个子集上完成的DomainNet[24],一个最近的大规模领域适应的基准数据集,有许多类(345)和六个域.由于某些领域和类的标签非常嘈杂,我们选择了4个领域(真实,剪贴画,绘画,素描)一个由标记的示例组成,另一个由未标记的目标示例组成。标记的示例中有一半来自源,一半来自标记的目标。使用两个小批次,我们计算了Eq.3.第三章。为了在Eq.3,我们使用梯度反转层[11,37]来翻转关于熵损失的梯度。在反向传播期间,梯度的符号在C和F之间翻转我们采用SGD,动量为0.9。在所有实验中,我们在等式中设置权衡参数λ 3为0。1.一、这取决于Real to Clipart实验的验证性能 我们在我们的材料中展示了性能对这个参数的敏感性,以及包括学习率调度在内的更多细节。基线。S+T [5,25]是一个用标记的源和标记的目标示例训练的模型,而不使用未标记的目标示例。DANN[11]采用域分类器来匹配特征分布。这是UDA中最流行的方法之一。为了公平比较,我们修改了这种方法,以便使用标记的源,标记的目标和未标记的目标示例进行训练。ADR [28]利用特定于任务的决策边界来对齐特征,并确保它们对目标具有区分性。CDAN[20]是UDA上最先进的方法之一,并对以分类器的输出为条件的特征进行域对齐。此外,它利用熵最小化目标的例子。CDAN集成了基于领域分类器的对齐和熵 最 小 化 。 与 这 些 UDA 方 法 ( DANN 、 ADR 、CDAN)的比较揭示了与8055净方法R到单次拍摄C三发R到单次拍摄P三发P单次拍摄到C三发C至单次拍摄S三发S单次拍摄到P三发R到单次拍摄S三发P单次拍摄到R三发是说1次3次S+T43.347.142.445.040.144.933.636.435.738.429.133.355.858.740.043.4DANN43.346.141.643.839.141.035.936.536.938.932.533.453.657.340.442.4AlexNetADR43.146.241.444.439.343.632.836.433.138.929.132.455.957.339.242.7CDAN46.346.845.745.038.342.327.529.530.233.728.831.356.758.739.141.0ENT37.045.535.642.626.840.418.931.115.129.618.029.652.260.029.139.8Mme48.955.648.049.046.751.736.339.439.443.033.337.956.860.744.248.2S+T49.052.355.456.747.751.043.948.550.855.137.945.069.071.750.554.3DANN43.956.842.057.537.349.246.748.251.955.630.245.665.870.145.454.7VGGADR48.350.254.656.147.351.544.049.050.753.538.644.767.670.950.253.7CDAN57.858.157.859.151.057.442.547.251.254.542.649.371.774.653.557.2ENT39.650.343.954.626.447.427.041.929.151.019.339.768.272.536.251.1Mme60.664.163.363.557.060.750.955.460.560.950.254.872.275.359.262.1S+T55.660.060.662.256.859.450.855.056.059.546.350.171.873.956.960.0DANN58.259.861.462.856.359.652.855.457.459.952.254.970.372.258.460.7ResNetADR57.160.761.361.957.060.751.054.456.059.949.051.172.074.257.660.4CDAN65.069.064.967.363.768.453.157.863.465.354.559.073.278.562.566.5ENT65.271.065.969.265.471.154.660.059.762.152.161.175.078.662.667.6Mme70.072.267.769.769.071.756.361.864.866.861.061.976.178.566.468.9表1:4个域上的单次和三次设置的DomainNet数据集准确度(%),R:Real,C:Clipart,P:剪贴画,S:Sketch.我们的MME方法在所有适应场景和所有三个网络中的表现都优于其他基线,除了只有一种情况下它的表现与ENT相似。净方法家庭办公室一次三次一次三次S+T44.150.050.261.8DANN45.150.355.864.8AlexNetADRCDAN44.541.249.546.250.649.461.360.8ENT38.850.948.165.1Mme49.255.256.567.6S+T57.462.968.773.3DANN60.063.969.875.0VGGADRCDAN57.455.863.061.869.465.973.772.9ENT51.664.870.675.3Mme62.767.673.477.0表2:家庭和办公室数据集的结果(%)。该值是所有自适应sce- narios的平均精度。补充材料中总结了每种设置的性能。现有的基于域划分的方法。ENT [13]是使用标准熵最小化使用标记的源和目标以及未标记的目标训练的模型。在未标记的目标样本上计算熵,并训练整个网络以使其最小化。与MME的不同之处在于ENT没有最大化过程,因此与该基线的比较阐明了其重要性。请注意,除了CDAN之外,所有方法都是用与我们的方法中使用的架构完全相同如果的CDAN,我们找不到任何优势,使用我们的架构。基线实现的细节在我们的补充材料中。4.2. 结果概况. DomainNet数据集的主要结果如表1所示。首先,我们的方法在所有适应场景和所有三个网络除了一个案子平均而言,我们的方法在ResNet单次和三次设置中分别以9.5%和8.9%表2总结了MME-家庭和办公室的结果由于空间有限,我们显示了所有适应场景的平均结果。与UDA方法比较。 通常,基线UDA方法需要强基网络,例如VGG或者ResNet比S+T表现更好。有趣的是,这些方法在某些情况下无法提高性能MME优于现有UDA方法的优越性由表1和表2支持。由于CDAN使用熵最小化,并且ENT显著损害了AlexNet和VGG的性能,因此CDAN并不能始终如一地提高AlexNet和VGG的性能。与Entropy Minimization的比较在某些情况下,ENT不会提高性能,因为它不考虑域间隙。比较一次性结果和三次,熵最小化增益的帮助下,标记的例子的性能。随着我们有更多的标签8056方法R到CR与S方法R -CR -PP -CC -SS -PR -SP -RAvg源41.142.637.430.630.026.352.337.2DANN44.736.135.833.835.927.649.337.6ADR40.240.136.729.930.625.951.536.4CDAN44.239.137.826.224.824.354.635.9ENT33.843.023.022.913.912.051.228.5Mme47.644.739.934.033.029.053.540.2表3:在无监督域自适应设置中DomainNet数据集的结果(%)。(a) AlexNet(b)VGG图4:准确度与标记的目标样本数量。ENT方法需要更多的标记的例子,以获得类似的性能,我们的方法。单次拍摄三发单次拍摄三发S+T(标准线性)41.444.326.528.7S+T(少射[5,25])43.347.129.133.3标准线性44.947.730.032.2MME(少拍[5,25])48.955.633.337.9表4:使用AlexNet在Do- mainNet数据集上比较分类器架构,显示了[5,25]中提出的架构的有效性。目标实例,原型的估计将更准确,无需任何调整。在ResNet的情况下,熵最小化通常可以提高精度。有两个可能的原因。首先,在ImageNet上预训练的ResNet比其他网络具有更强的区分性。因此,给定少量标记的目标样本,该模型可以提取更多的区分性特征,这有助于熵最小化的性能增益。第二,ResNet具有批量归一化(BN)层[15]。据报道,BN具有对准特征分布的效果[4,18]。因此,在对齐的特征表示上进行熵最小化,这提高了性能。当存在大的畴间隙(例如表1中的C到S、S到P和R到S)时,BN不足以处理畴间隙。因此,我们提出的方法执行4.3. 分析不同数量的标记示例。 首先,我们在表3中显示了无监督域自适应设置的结果 我们的方法平均表现优于其他方法。此外,在所有设置中,与仅源模型相比,只有我们的方法提高了每单位时间。此外,我们观察到我们的方法的行为时,标记的例子在目标域中的数量从0到20每类,这对应于2520标记的例子。结果示于图4.我们的方法比S+T给出了一些标记的例子。另一方面,ENT需要每个类5个标记的示例来提高性能。随着我们添加更多标记的示例,ENT和我们之间的性能差距缩小了。这个结果是相当合理的,因为当我们有更多标记的目标示例时,原型估计将变得更准确而无需任何自适应。分类器架构的影响。我们介绍了对[5,25]中提出的分类器网络架构的消融研究,其中AlexNet在DomainNet上。如图3、采用了温度标度和温度归一化方法。在这个实验中,我们将其与具有标准线性层的模型进行了比较,该模型没有进行T2归一化和温度。结果示于表4中。通过使用[5,25]中提出的网络架构,我们可以提高我们的方法和基线S+T模型(仅在源示例和一些标记的目标示例上训练的模型)的性能。因此,我们可以 说 , 网 络 架 构 是 一 种 有 效 的 技 术 , 以 提 高 per-perception时,我们给出了一些标记的例子,从目标领域。特征可视化。此外,我们在图中绘制了t-SNE [21]的学习特征。5.我们使用AlexNet作为预训练的骨干网,将场景Real用于DomainNet的Clipart。图5(a-d)可视化了目标特征和估计的原型。十字的颜色代表它的类,黑点是原型。使用我们的方法,目标特征被聚类到它们的原型,并没有在类内有很大的变化 我们在图中可视化了源域(红叉)和靶域(蓝叉)上的特征。5(e-h)。正如我们在方法部分所讨论的,我们的方法旨在最小化域发散。事实上,目标特征与我们的方法的源特征是很好地对齐的从Fig. 5f,熵最小化(ENT)也试图提取区别性特征,但它未能找到域不变的原型。定量特征分析。我们定量地研究了我们使用相同的适应场景获得的特征的特性。首先,我们对目标特征的协方差矩阵的特征值进行分析。在这种情况下比熵最小化要好得多。我们在补充材料中展示了BN的分析,揭示了其熵最小化的有效性。我们遵循[9]中的分析。特征向量表示特征的分量,特征值表示它们的贡献。如果这些特征具有很强的鉴别力-8057(a) 我们的(b)ENT(c)DANN(d)S+T(e)我们的(f)ENT(g)DANN(h)S+T图5:使用t-SNE的特征可视化(a-d)我们绘制类原型(黑色圆圈)和目标域上的特征十字架的颜色代表它的阶级。我们观察到,我们的方法上的特征比其他方法显示出更多的判别(e-h)红色:源域的特征。蓝色:目标域的特征。与其他方法相比,我们的方法(a)特征值(b)熵(c)A-距离图6:(a)目标域上特征的协方差矩阵的特征值。在我们的方法中,特征值迅速减少,这表明特征比其他方法更具鉴别力(b)我们的方法实现了比基线(ENT除外)更低的熵。(c)与S+T相比,我们的方法明显减少了域发散。因此,只需要几个组件来概括它们。因此,在这种情况下,前几个本征值被期望为大的,并且其余的为小的。在我们的方法中,如图所示,这些特征由更少的组件清楚地概括。6a.其次,我们在图中显示了目标上熵值的变化。6b. ENT快速地减小熵,但是导致较差的性能。这表明该方法提高了预测的置信度,而我们的方法在同一时间达到更高的精度。最后,在图6c,我们通过训练SVM作为[2]中提出的域分类器来计算A -距离。与S+T相比,我们的方法大大缩短了距离。声称我们的方法减少了域发散,这一结果在经验上得到了支持。5. 结论提出了一种新的极小极大熵(MME)算法.一种逆向优化自适应少数镜头的方法半监督域自适应(SSDA)。我们的模型由一个特征编码网络组成,然后是一个分类层,该分类层计算特征自适应是通过交替地最大化相对于分类器的未标记的目标数据的连续熵和最小化相对于特征编码器。我们凭经验证明了我们的方法在许多基线上的优越性,包括传统的特征对齐和少数拍摄方法,为SSDA设定了一个新的最先进的状态。6. 确认这项工作得到了本田,DARPA,BAIR,BDD和NSFAward No. 1535797。8058引用[1] 双傲,李翔,查尔斯X凌。半监督域自适应的快速广义蒸馏。InAAAI,2017.[2] Shai Ben-David , John Blitzer , Koby Crammer , andFernando Pereira.域适应的表示分析。NIPS,2007年。[3] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。在NIPS,2016年。[4] Fabio Maria Cariucci,Lorenzo Porzi,Barbara Caputo,Elisa Ricci和SamuelRotaBul o`。自动拨号:自动域对齐图层。InICCV,2017.[5] Wei-Yu Chen,Yen-Cheng Liu,Zsolt Kira,Yu-ChiangFrank Wang,and Jia-Bin Huang.更仔细地观察少数镜头分类。arXiv,2018年。[6] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR,2018年。[7] Zihang Dai , Zhilin Yang , Fan Yang , William WCohen,and Ruslan R Salakhutdinov.好的半监督学习需要一个坏的团队。在NIPS,2017年。[8] Jeff Donahue , Judy Hoffman , Erik Rodner , KateSaenko,and Trevor Darrell.具有实例约束的半监督域自适应。CVPR,2013。[9] Abhimanyu Dubey,Otkrist Gupta,Ramesh Raskar,andNikhil Naik.最大熵细粒度分类在NIPS,2018年。[10] Ayse Erkan和Yasemin Altun。基于广义最大熵的半监督学习。AISTATS,2010年。[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督InICML,2014.[12] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR,2018年。[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。NIPS,2005年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[15] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv,2015.[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。[17] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv,2016.[18] Yanghao Li,Naiyan Wang,Jianping Shi,Jiaying Liu,and Xiaodi Hou.重新审视批处理规范化以实现实际的域适应.arXiv,2016.[19] Mingsheng Long , Yue Cao , Jianmin Wang , andMichael I Jordan.使用深度适应网络学习可转移特征。ICML,2015。[20] Mingsheng Long , Zhangjie Cao , Jianmin Wang , andMichael I Jordan.条件对抗域适应。在NIPS,2018年。[21] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。JMLR,9(11):2579[22] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama、Ken Nakae和Shin Ishii。虚拟对抗训练的分布平滑。arXiv,2015.[23] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[24] Xingchao Peng,Qinxun Bai,Xide Xia,Zijun Huang,Kate Saenko,and Bo Wang.用于多源域适应的矩匹配。ICCV,2019。[25] Rajeev Ranjan,Carlos D Castillo,and Rama Chellappa.L2约束的softmax损失用于区分性人脸验证。arXiv,2017.[26] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。arXiv,2016.[27] Kate Saenko Brian Kulis Mario Fritz和Trevor Darrell使视觉类别模型适应新领域。ECCV,2010年。[28] Kuniaki Saito,Yoshitaka Ushiku,Tatsuya Harada,andKateSaenko.Adversarialdropoutregularization 。 在ICLR,2018年。[29] Kuniaki Saito,Yoshitaka Ushiku,Tatsuya Harada,andKate Saenko. 用 于 自 适 应 目 标 检 测 的 强 弱 分 布 对 准arXiv,2018年。[30] 斋藤国明,渡边康平,牛久义孝,原田达也.非监督域自适应的最大分类器差异。在CVPR,2018年。[31] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NIPS,2016年。[32] 斯瓦米·桑卡拉纳拉亚南、约格什·巴拉吉、阿皮特·杰恩、南
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功