结构正则化深度聚类方法用于无监督域自适应

95 浏览量更新于2023-10-25 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8725基于结构正则化深度聚类的Hui Tang，Ke Chen，and KuiJiaXiang华南理工大学中国广东省广州市天河区五山路381号eehuitang@mail.scut.edu.cn，{chenk，kuijia}@scut.edu.cn摘要无监督域自适应（UDA）是指当源域上的标记数据的分布偏离目标域时，对目标域上的未标记数据进行预测。主流UDA方法学习两个域之间的对齐特征，使得在源特征上训练的然而，这样的传输策略具有损害目标数据的内在区分的潜在风险。为了降低这种风险，我们受到结构域相似性假设的激励，并提议通过目标数据的判别聚类直接揭示内在的目标区分。我们使用结构源正则化约束聚类解，该正则化依赖于我们假设的结构域相似性。在技术上，我们使用基于深度网络的判别聚类的灵活框架，该框架最小化网络的预测标签分布和引入的辅助标签分布之间的KL分歧;用由源数据的地面实况标记形成的辅助分布来替换辅助分布，经由联合网络训练的简单策略来实现结构源正则化。我们将我们提出的方法称为结构正则化深度聚类（SRDC），其中我们还通过中间网络特征的聚类来增强目标区分，并通过对分歧较小的源示例的软选择来增强结构正则化。仔细的消融研究显示了我们提出的SRDC的有效性值得注意的是，没有显式的域对齐，SRDC在三个UDA基准测试中优于所有现有的方法。1. 介绍无监督域自适应（UDA）是在给定源域上的标记数据的情况下，对目标域上的未标记数据在同一标记空间中进行预测，而目标域和源域之间可能存在分歧。主要-*通讯作者。流方法受到经典UDA理论[2，3，40]的启发，该理论指定了涉及域发散的学习边界，其幅度取决于分类器的特征因此，这些方法（例如，那些最近的基于深度网络的对抗训练[16，48]的分类器）努力学习两个域之间的对齐特征，使得在源特征上训练的分类器尽管这些方法取得了令人印象深刻的结果，但它们具有破坏目标数据区分的内在结构的潜在风险，如[9，50，69]中所讨论的。在[9，50]中尝试减轻这种风险，然而，在他们提出的解决方案中仍然追求明确的域对齐。为了解决这个问题，我们首先将UDA问题[2，50]中域接近度的一般假设实例化为结构域相似性，这意味着域区分和类接近度的两个概念-前一个概念假设在各个域中存在区分数据簇的内在结构，而后者假设对应于相同类别标签的两个域的簇在几何上接近。这种假设促使我们考虑UDA方法，直接揭示了内在的数据歧视，通过歧视性聚类的目标数据，我们建议约束的聚类解决方案，使用结构源正则化铰链我们假设的结构相似性。在各种基于深度网络的聚类算法[4，8，14，61]中，我们选择了一个简单但灵活的非生成框架[14]，它通过最小化网络的预测标签分布和引入的辅助标签分布之间的KL分歧来执行区分聚类。结构源正则化通过简单的联合网络训练策略简单地实现，通过将辅助分布替换为形成的辅助分布，通过源数据的真实标签。我们把我们提出的方法称为结构正则化深度聚类（SRDC）。在SRDC中，我们还通过中间网络特征的聚类来增强目标区分，并通过较少的8726不同来源的例子。我们注意到，相当多的最近UDA方法[13，27，41，51]也考虑了目标数据的聚类;然而，它们仍然通过聚类中心/样本的比对在两个域之间进行明确的特征比对，因此容易出现上述的固有目标辨别受损的风险。基准UDA数据集上的实验表明，我们提出的SRDC的有效性最后，我们总结我们的贡献如下。• 为了解决通过显式学习领域对齐特征来破坏内在数据区分的潜在问题，我们在这项工作中提出了一个源代码，正则化的，深判别聚类方法，以直接揭示目标数据之间的内在区别。该方法的动机是我们假设两个域之间的结构相似性，为此我们将所提出的方法称为结构正则化深度聚类（SRDC）。• 为了在技术上实现SRDC，我们使用了一个灵活的深度集群框架，该框架首先引入了一个辅助的分布，然后最小化引入的一个和网络的预测标签分布之间的KL分歧;用源数据的真实标记的辅助分布替换辅助分布，通过联合网络训练的简单策略实现结构源正则化。在SRDC中，我们还设计了有用的成分，通过中间网络特征的聚类来增强目标识别，并通过对分歧较小的源示例的软选择来增强结构正则化。• 我们在基准UDA数据集上进行了仔细的消融研究，验证了个体消融SRDC中建议的组件。值得注意的是，没有明确的域对齐，我们提出的SRDC优于基准数据集上的所有现有方法。2. 相关作品基于对齐的域自适应。典型的工作路线[16，43，53，63]利用域对抗任务将源域和目标域作为一个整体进行对齐，以便可以将类标签从源域转移到未标记的目标域。另一种典型的工作路线直接最小化通过各种测量法测量的畴移，例如，最大平均差异（MMD）[34，36，37]。这些方法基于域级域对齐。为了实现类级别的域对齐，[7，13，41，59]在特征空间中对齐每个共享类的标记源质心和一些作品[31，47，48]使用两个域的单个任务分类器来检测非歧视性特征并重新学习歧视性特征提取器。一些作品[30，56，57]将注意力集中在可转移区域上，以导出域不变的分类模型。为了帮助实现目标区分特征，[28，49]通过GAN [19]从两个域的原始输入数据生成合成图像。[9]的最新工作改进了对抗性特征自适应，其中目标数据的区分的工作[60]使两个域的特征范数适应大范围的值，使得学习的特征不仅是任务区分的，而且是域不变的。基于聚类的域自适应。聚类假设指出，分类边界不应穿过高密度区域，而应位于低密度区域[6]。为了加强集群假设，一致性熵最小化[20，32]在UDA社区[11，44，45，50，51，60，64，68]中被广泛使用[27]的工作采用球形K-均值来分配目标标签。最近的工作[13]采用了基于Fisher准则的深度聚类损失[38]。然而，他们使用目标聚类只是作为一种增量技术，以改善显式特征对齐。 The previous work of [50] is based on theclustering criterion of mutual information maximiza- tion,which still explicitly forces domain alignment. 与此相反，SRDC没有明确的领域对齐，旨在通过结构源正则化的区分性目标聚类来揭示内在的目标区分。潜在域发现。潜在域分布的方法[10，18，22，39]专注于在数据实际上可能包含多个不同分布的假设我们提出的SRDC与这些方法具有相同的动机，但不同之处在于其目的是通过结构源正则化的深度判别目标聚类来揭示目标类之间的内在区别，并从利用源和目标域之间的结构相似性的独特角度出发3. 转移与揭示内在目标歧视的策略考虑一个源域S，有n个s个标记的例子{（xs，ys）}ns，以及具有nt个未标记ex的目标域Tj j j=1[35，42]的方法利用特征的乘法交互作用，样本{xt}nt. 无监督域自适应i i=1表示和类预测，用户可以知道分类边界。基于集成的任务和领域分类器，[52] en-假设S和T之间的共享标签空间Y。让|= K，并且我们有y s ∈ { 1，2，.|= K and wehave ys∈ {1, 2,. - 是的- 是的，K}的任何源实例xs。转导UDA的目的是预-鼓励范畴之间的相互抑制关系dict{yt}nt的{xt}nt通过学习特征嵌入i i=1i i =1以及任何输入实例的域预测函数X：X → Z的作用是将任何输入实例x∈ X提升到8727i i=1i i=1i，k ii特征空间Z和分类器f：Z →RK。归纳UDA与直推UDA有细微的不同，它是在从同一T中采样的输出实例上测量学习到的k（·）和f（·）的性能。这种微妙的差异实际上很重要，因为我们希望将学习到的f（·）和f（·）作为现成模型使用，并且我们希望它们在使用不同的源域学习时保持一致（一）（b）第（1）款源目标1类2类在UDA中，通常假设域接近性理论上[2，40]或直觉上[50]。在这项工作中，我们将[50]中的假设总结为源域和目标域之间的结构相似性，其中包括以下领域区分和类接近度的概念，如图1所示。• 领域歧视假设存在数据歧视的内在结构，在个别的，双域，即，源域或目标域中的数据对应于共享标签空间被区别性地聚类。• 类接近性假设对应于相同类标签的两个域的聚类在几何上接近。基于这些假设，许多现有的工作[16，35，42，48，53，66]采取在两个域之间学习对齐特征表示的转移策略然而，这样的策略具有破坏目标域上的固有数据区分的潜在风险，如在[9，50，69]的最近工作中所讨论的。图1中也给出了这种损坏的说明。我们注意到，更重要的是，分类器适应目标数据的损坏的歧视将是不太有效的归纳UDA的任务，因为他们偏离了太多的预言目标分类器，即。一个理想的训练目标数据与地面真相标签。基于上述分析，我们有动机通过目标数据的判别聚类直接揭示为了利用标记的源数据，我们建议使用结构源正则化来约束聚类解决方案，该正则化取决于我们假设的跨域结构相似性。第4节介绍了我们的方法的细节，并在图1中给出了说明。我们注意到，最近的一些方法[13，27，41，51]也考虑了目标数据的聚类;然而，它们仍然通过聚类中心/样本的对齐来进行跨域的显式特征对齐，因此容易出现上述固有目标区分受损的风险。4. 基于结构源正则化的We参数化特征嵌入函数θ（·;θ）和分类器f（·;）作为深度网络[21，25，26，65]，图1.（最好是彩色的）。（a）结构域相似性假设的说明（参见第3节）。橙色线表示在标记的源数据上训练的分类器，绿色线表示在标记的目标数据上训练的分类器，即Oracle目标分类器（b）说明现有的转移策略对目标域的数据歧视的破坏性内在虚线表示适应于目标数据的受损判别的源(c)我们提议的揭盖策略的说明。基于结构源正则化的判别性目标聚类揭示了内在的目标判别。其中{θ，θ}收集网络参数。对于单纯y，我们也将它们写为f（·）和f（·），并使用f（·）表示整个网络。对于输入实例x，网络计算特征表示z=f（x），并在最后的softmax运算后输出概率向量p=softmax（f（z））∈[0，1]K如第3节所讨论的，为了揭示目标域的内在区别，我们选择直接聚类目标实例，并从源域进行结构正则化。在各种聚类方法[4，8，14，61]中，我们选择了一个灵活的深度判别聚类框架[14]，它最小化了网络的预测标签分布和引入的辅助标签分布之间的KL差异;通过将辅助分布替换为源数据的真实标签分布，我们可以通过简单的网络联合训练策略轻松实现结构源正则化，为此我们将我们提出的方法称为结构正则化深度聚类（SRDC）。In SRDC, we also enhance tar- getdiscrimination with clustering of intermediate networkfeatures, and enhance structural regularization with soft se-lection of less divergent source examples.4.1. 深度判别目标聚类对于未标记的目标数据{xt}nt，网络在softmax运算后预测概率向量{pt}nt我们把它写成P t。我们还将目标实例x t的第k个元素写为pt。因此，Pt近似于T的样本的网络的预测标签分布。与[14，24]类似，我们首先引入一个辅助对应物Qt，然后提出的SRDC交替进行（1）更新Qt，（2）使用更新的Qt作为标签来训练网络更新参数{θ，θ}，其优化了深度的以下目标（c）第（1）款8728k=1ϕk=1pp′i，kk=1不我k′=1ik判别聚类在那里， =1tqt . 目标（5）可以是可操作的-knti=1i，k最小LtΣK=KL（Qt||Pt）+（1）第一次见面以与（1）相同的交替方式进行优化，与（2）和（3）类似的公式，其中我们注意到Qt，{θ，θ}fkk特征{zt}nt是用更新的网络计算的。k=1i i=1K其中，t=1tqt并且使用（1）中的第二项工作参数θ，我们还重新初始化{µk}k=1，基于当前CLUs的每个训练时期的开始knti=1i，k要平衡{qt}nt中的群集分配，请执行以下操作：否则，请确定{zt}nt中的分配（与标记源一起）ii=1i i=1生成的解决方案将获得合并集群，{zs}ns）.{µk}K在培训期间不断更新-jj=1k =1删除集群边界[29]。此外，它鼓励目标域上的标签分布的熵最大化促进集群规模平衡。在意识到缺乏关于目标标签分布的先验知识的情况下，我们简单地依赖于第二项来解释均匀的项。第一项计算KL散度，通过反向传播梯度的（5）。结合（1）和（5）给出了我们的深度区分目标聚类目标，它将被用作SRDC算法离散概率分布Pt和Qt为minQt，Qt，{θ，θ}，{µk}K不SRDC不f+Lt.（六）K L（Qt||Pt）=1Σnt ΣKnti=1k=1ti，k日志ti，kti，k备注。仅考虑未标记的目标数据，目标(1) 它本身并不能保证有合理的解决方案，更具体地，目标（1）的优化采取以下交替步骤。• 辅助分发更新。修复网络参数-ters {θ，θ}（and {pt}nt 的目标实例是固定的涵盖目标数据的内在区别，因为辅助分布Qt可以是任意的，其优化没有适当的约束。掺入(5)如果将其纳入总体目标（6），通过{zt}nt的软赋值正确初始化的clus-i i=1i i=1也）。通过将（1）的近似梯度设置为中心温度{µk}K.为了保证合理的解决方案，零，我们有以下封闭形式的解决方案[14]聚类方法[14，58]通常采用额外的不ti，knt i′=11i′，k）2重建损失作为数据依赖正则化。在我们提出的用于域自适应的SRDC中，以下介绍-qi，k=Kk′=1ti，knti′=1ti′，k′1 .一、（二））2个引入的结构源正则化用于与[14，58]中使用的重建源正则化类似的目的。• 网络更新。通过固定Qt，这一步相当于通过交叉熵损失训练网络，Qt作为标签，产生4.2. 结构源正则化根据第3节中的UDA假设，1最小−θ，θ ntnt ΣKti，k对数pt.（三）指定了源域和目标域之间的结构相似性，我们提出了通过一个简单的策略来i=1k =1在这项工作中，我们还通过在特征空间Z中的判别聚类来增强目标识别的发现。更具体地说，让{µk}K是空间Z中源数据和目标数据的可学习聚类中心。我们遵循[58]并定义概率向量p_t，实例特征的软聚类分配zt=n（xt）联合训练同一个网络的方法。注意，K路分类器f定义了将特征空间Z划分为多个区域的超平面，其中K个区域唯一地负责K个类. 由于这两个域共享相同的标签空间，联合训练将理想地将来自相同类的两个域的实例推入相同的实例中，i igions在Z中，因此隐式地实现特征对准，基于空间Z中的实例到中心的距离，第k个元素定义为在两个领域之间。图1给出了说明。从技术上讲，对于标记的源数据{（xs，ys）}ns，j j j=1e xp（（1+||zt−µk||2）−1）我们简单地将（1）中的辅助分布替换为普什特=Σi.（四）snsi，kKexp（（1+||zt−µ′||2）−1）由地面实况标签{yj}j=1形成，导致基于交叉熵最小化的监督网络训练我们写{pt}nt像警察一样收集。通过引入核心-i i=1阿森松岛L=LQp（（pQp.Q8729响应辅助分布Q，我们具有以下翼minLs=−1I[k=ys] logps、（7）空间ZΣKθ，θSfnsj=1k =1日j j，kminLt=KL（Qt||Pt）+（5）第一次见面。其中pj，k是k预测概率Qt，θ，{µt}Kkk源实例xs的向量ps，I[·]是以下函数：k k=1k=1j j8730k=1Jk=1ϕk=1SRDCKC xS指标.我们还与（5）平行地增强了特征空间Z中的源辨别，从而得到：5. 实验5.1. 设置minLs =−1阿森松岛I[k=ys]logps、（8）Office-31[46]是最受欢迎的现实世界基准ϕθ，{µk}K哪里nsj=1k =1j j，k用于视觉领域自适应的数据集，其中包含由三个不同领域共享的 31 个类别的 4 ， 110 个图像： Amazon（A）、Webcam（W）和DSLR（D）。我们评估sj，kexp（（1+||zs−µk||2）−1）=ΣKe xp（（1+||zs−µ′||2）−1）.（九）所有六个传输任务的所有方法。ImageCLEF-DA[1]是具有12个类的基准数据集k′=1jk结合（7）和（8）给出了使用标记源数据的训练目标由三个域共享：Caltech-256（C）、ImageNet ILSVRC2012（I）和Pascal VOC 2012（P）。每个类有50个图像，每个域有600个图像。我们min{θ，θ}，{µk}KSSRDCSf+Ls.（十）评估所有六个转移任务的所有方法。Node-Home[55]是一个更具挑战性的基准数据集，有15，500张65类的图像，由四个使用（10）作为结构源正则化子，我们有SRDC算法非常独特的领域：艺术图像（Ar）、剪贴画（Cl）、产品图像（Pr）和真实世界图像（Rw）。minQt，Qt，{θ，θ}，{µk}KLSRDC=LtSRDC，（十一）我们对所有12个转移任务的所有方法进行了实作详细数据。我们遵循标准的原型-其中λ是惩罚参数。4.3.通过软源样本选择的在迁移学习[23，62]中通常假设源样本的重要性对于学习可迁移模型而变化实现此假设的一个简单策略是根据源实例与目标实例的相似性重新加权在这项工作中，我们也将此策略应用到SRDC中。col for UDA [16，33，35，48，60]使用所有标记源样本和所有未标记的目标样本作为训练数据。对于每个转移任务，我们使用中心作物目标区域图像报告结果，并报告三次随机试验的平均值（±标准差）的分类结果。我们使用ImageNet [12]预训练的ResNet-50 [21]作为基本网络，其中最后一个FC层替换为任务特定的FC层以参数化分类器f（·）。我们在Py T orch实现了我们的实验。我们很好-从预先训练的层中调整，并训练新添加的具体来说，让{ctKk=1 成为K目标集群层，后者的学习率是后者的10倍。在特征空间中的中心对于任何带标签的源示例，（xs，ys），我们计算它与cts的相似度，即，目标前者。我们采用小批量SGD，将速率表设置为[16]：学习率通过以下方式调整：聚类y的中心，基于以下余弦距离ηp=η0（1+αp）−β，其中p是训练.ws（xs）=11+2Σ联系我们||cts||||Xs||∈[0，1].（十二）epoch归一化为[0，1]，并且η0=0。001，α=10，β=0。75.我们遵循[16]将λ从0增加到1，−1yλp= 2（1+exp（−γp））-1，其中γ=10。另我们在网络次{ct}K实施细节见附件。k k=1t KK材料。该代码可在https://github.com/训练注意，{ck}k=1与{µk}k=1在（4）和（9）中，它们是源的聚类中心，以及在每个时期的训练迭代我们计算所有回糖堂/SRDC-CVPR 2020.5.2. 消融研究和分析{（xs，ys）}ns使用（12），并使用消融研究。为了研究个体j j j=1目标的加权版本我们提出的SRDC组件，我们进行消融基于ResNet-50的Office-31研究，S1阿森松岛s s s使用SRDC的几种变体：（1）源模型，Lf（·;{ws}ns）=−wjI[k=yj] logpj，k，（13）L=L+λL∈Z}p~8731jj=1nj=1k=1在标记的源样本上微调基础网络;（2）SRDC（w/o结构源正则化），其使用（6）微调源预训练模型，即没有S1阿森松岛s s s结构震源正则化;（3）SRDC（无功能L（·;{ws}ns）=−wjI[k=yj]logpj，k.（十四）jj=1nj=1k=1识别），其表示在特征空间Z中没有源和目标识别的训练;（4）SRDC（w/o第5节的实验表明，基于上述加权目标实现了改进的结果。软源样本选择），这表示训练具有-通过软源采样选择进行输出增强。再-SS8732方法A→WA→DD→AW→AAvg源模型77.8±0.282.1±0.264.5±0.266.1±0.272.6SRDC（无结构源正则化）87.3±0.092.1±0.173.9±0.175.0±0.182.1SRDC（无特征识别）94.2±0.494.3±0.474.3±0.275.5±0.484.6SRDC（无软源采样选择）94.8±0.294.6±0.374.6±0.375.7±0.384.9SRDC95.7±0.295.8±0.276.7±0.377.1±0.186.3表1.使用基于ResNet-50的Office-31进行消融研究请参阅正文，了解不同方法的定义。背包监测投影仪图2.左边的图像是从目标域A随机采样的，右边的图像是来自三个类的源域W的排名最高（第3列）和排名最低（第4列）的样本请注意，红色数字是由（12）计算的源权重。方法A→WA→DD→AW→AAvg源模型79.381.663.165.772.4DANN [16]80.882.466.064.673.5中文（简体）[48]86.586.772.470.979.1SRDC91.991.675.675.783.7预言模型98.897.687.887.893.0表2.感应UDA设置下的比较实验结果见表1。我们可以观察到，当我们设计的任何一个组件被删除时，性能下降，验证了（1）特征区分和结构源正则化对于改善目标聚类都是有效的;（2）提出的软源样本选择方案导致更好的正则化。源炼。为了确认我们提出的软源样本选择方案可以选择更多的可传输源样本，我们在图2中示出了从目标域A随机采样的图像以及来自源域W的排名最高和排名最低的样本。这里，红色数字是由（12）计算的源权重。我们可以观察到（1）最低权重大于0。5，这是合理的，因为所有源样本都与目标域相关，因为这两个域共享相同的标签空间;（2）最高权重小于1，这是合理的，因为存在分布两个域之间的移位;（3）具有规范视点的源图像具有比具有自上而下、自下而上和侧面视点的源图像更高的权重，这是直观的，因为所有目标图像仅从规范视点示出[46]。上述观察结果肯定了我们提出的软源样本选择方案的合理性。感应UDA设置下的比较。验证了我们提出的揭示内在目标识别的策略比现有的转移策略能得到更接近oracle目标分类器为了学习两个域之间的对齐特征表示[16，48]，我们在归纳UDA的设置下设计了比较实验。我们遵循50%/50%的分割方案，将Office-31的每个域划分为训练集和测试集。我们使用源域的标记集和目标域的未标记训练集作为训练数据。在表2中，我们使用目标训练集上的最佳性能模型报告了目标域的测试集上的结果在这里，Oracle模型在标记的目标训练集上微调基础网络。我们可以看到，我们提出的发现策略SRDC取得了更接近Oracle模型的结果，验证了这项工作的动机和我们提出的SRDC的有效性特征可视化。我们利用t-SNE [54]通过源模型和SRDC来可视化目标域上的嵌入特征，用于图3中的A→W和W→A的两个反向转移任务。我们可以定性地观察到，与源模型一致，目标域特征可以是SRDC更好地区分，它是基于数据聚类来揭示有区别的数据结构。混淆矩阵。在图4中，我们根据源模型和SRDC在A→W和W→A两个反向转移任务上实现的准确度给出了混淆矩阵。与图3的定性结果类似，我们可以观察到定量结果。从源模型到SRDC的量化改进，进一步证实了SRDC的优势。收敛性能我们通过图5中A→W和W→A我们可以观察到SRDC享受更快，比源模型更平滑的收敛性能。5.3. 与最新技术水平的比较基于ResNet-50的Office-31的结果报告在表3中，其中现有方法的结果引用自目标域（A）源域（W）八四七六0.95080.83490.95210.86120.94218733(a) 源模型：A→W（b）SRDC：A→W（c）源模型：W→A（d）SRDC：W→A图3.目标域上嵌入特征的t-SNE可视化请注意，不同的类用不同的颜色表示(a)源模型：A→W（b）SRDC：A→W（c）源模型：W→A（d）SRDC：W→A图4.目标域上的混淆矩阵（放大以查看确切的类名！）图5. 收敛他们各自的论文或作品[5，33，35]。我们可以看到SRDC在几乎所有的传输任务上都优于所有的比较方法。值得注意的是，SRDC显著提高了对困难迁移的分类结果任务，例如A→W和W→A，其中两个域是完全不同的。SRDC超越BSP目标的最新工作-结果表明，数据聚类是一个更有前途的目标识别方向。基于ResNet-50的ImageCLEF-DA的结果报告于表4中，其中现有方法的结果引用自其各自的论文或[35]的工作。SRDC在所有传输任务上都取得了比所有比较方法好得多的结果，并大大提高了重复性。硬传输任务的结果，例如C →P和P→C，验证了SRDC在源域和目标域大小相等且类别平衡的迁移任务上的有效性。表5中报告了基于ResNet-50的ESP-Home的结果，其中现有方法的结果引用自各自的论文或[35，45]的作品我们可以观察到，SRDC在大多数传输任务上显著超过了所有的COM方法，仍然有很大的改进空间。这是合理的，因为EAS-Home中的四个令人鼓舞的是，SRDC在这些困难的任务上大大改进了当前最先进的方法MDD，这强调了通过数据聚类发现区分结构的重要性6. 结论在这项工作中，出于结构域相似性的假设，我们提出了一种源正则化，深度判别聚类方法，称为结构正则化深度聚类（SRDC）。SRDC通过直接揭示目标数据的内在区分，从技术上讲，我们使用了一个灵活的基于深度网络的判别聚类框架，该框架最小化了网络的预测标签分布和引入的辅助标签分布之间的KL差异;将辅助分布替换为由以下项的地面实况标签形成的辅助分布：8734方法A →WD →WW →DA →DD →AW →AAvg[21]第二十一话77.8±0.296.9±0.199.3±0.182.1±0.264.5±0.266.1±0.281.1丹麦[34]81.3±0.397.2±0.099.8±0.083.1±0.266.3±0.066.3±0.182.3DANN [16]81.7±0.298.0±0.299.8±0.083.9±0.766.4±0.266.0±0.382.6ADDA [53]86.2±0.596.2±0.398.4±0.377.8±0.369.5±0.468.9±0.582.9VADA[51]86.5±0.598.2±0.499.7±0.286.7±0.470.1±0.470.5±0.485.4SimNet [43]88.6±0.598.2±0.299.7±0.285.3±0.373.4±0.871.8±0.686.2[59]第十九话91.398.9100.090.472.765.686.5GTA [49]89.5±0.597.9±0.399.8±0.487.7±0.572.8±0.371.4±0.486.5中文（简体）[48]88.6±0.298.5±0.1100.0±0.092.2±0.269.5±0.169.7±0.386.5SAFN+ENT [60]90.1±0.898.6±0.299.8±0.090.7±0.573.0±0.270.2±0.387.1DAA [28]86.8±0.299.3±0.1100.0±0.088.8±0.474.3±0.273.9±0.287.2iCAN [63]92.598.8100.090.172.169.987.2CDAN+E [35]94.1±0.198.6±0.1100.0±0.092.9±0.271.0±0.369.3±0.387.7[5]第五届全国人大代表92.799.0100.092.271.774.488.3TADA [56]94.3±0.398.7±0.199.8±0.291.6±0.372.9±0.273.0±0.388.4[33]第三十三话92.5±0.399.3±0.1100.0±0.093.2±0.273.1±0.372.1±0.388.4SymNets [68]90.8±0.198.8±0.3100.0±0.093.9±0.574.6±0.672.5±0.588.4BSP+CDAN [9]93.3±0.298.2±0.2100.0±0.093.0±0.273.6±0.372.6±0.388.5MDD [66]94.5±0.398.4±0.1100.0±0.093.5±0.274.6±0.372.2±0.188.9加拿大[27]94.5±0.399.1±0.299.8±0.295.0±0.378.0±0.377.0±0.390.6SRDC95.7±0.299.2±0.1100.0±0.095.8±0.276.7±0.377.1±0.190.8表3.Office-31（ResNet-50）上的结果（%）方法I →PP →II →CC →IC →PP →CAvg[21]第二十一话74.8±0.383.9±0.191.5±0.378.0±0.265.5±0.391.2±0.380.7丹麦[34]74.5±0.482.2±0.292.8±0.286.3±0.469.2±0.489.8±0.482.5DANN [16]75.0±0.686.0±0.396.2±0.487.0±0.574.3±0.591.5±0.685.0JAN [37]76.8±0.488.0±0.294.7±0.289.5±0.374.2±0.391.7±0.385.8CDAN+E [35]77.7±0.390.7±0.297.7±0.391.3±0.374.2±0.294.3±0.387.7[33]第三十三话78.8±0.292.0±0.297.5±0.392.0±0.378.2±0.494.7±0.488.9SAFN+ENT [60]79.3±0.193.3±0.496.3±0.491.7±0.077.6±0.195.3±0.188.9SymNets [68]80.2±0.393.6±0.297.0±0.393.4±0.378.7±0.396.4±0.189.9SRDC80.8±0.394.7±0.297.8±0.294.1±0.280.0±0.397.7±0.190.9表4.ImageCLEF-DA（ResNet-50）上的结果（%）方法Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→ArPr→ClPr→RwRw→ArRw→ClRw→PrAvg[21]第二十一话34.950.058.037.441.946.238.531.260.453.941.259.946.1丹麦[34]43.657.067.945.856.560.444.043.667.763.151.574.356.3DANN [16]45.659.370.147.058.560.946.143.768.563.251.876.857.6JAN [37]45.961.268.950.459.761.045.843.470.363.952.476.858.3[第15话48.861.872.854.163.265.150.649.272.366.155.978.761.5DWT-MEC [45]50.372.177.059.669.370.258.348.177.369.353.682.065.6CDAN+E [35]50.770.676.057.670.070.057.450.977.370.956.781.665.8[33]第三十三话51.669.575.459.469.568.659.550.576.870.956.681.665.8BSP+CDAN [9]52.068.676.158.070.370.258.650.277.672.259.381.966.3SAFN [60]52.071.776.364.269.971.963.751.477.170.957.181.567.3TADA [56]53.172.377.259.171.272.159.753.178.472.460.082.967.6SymNets [68]47.772.978.564.271.374.264.248.879.574.552.682.767.6MDD [66]54.973.777.860.071.471.861.253.678.172.560.282.368.1SRDC52.376.381.069.576.278.068.753.881.776.357.185.071.3表5.结果（%）在RESNET-50上。源数据通过联合网络训练实现结构源正则化。在SRDC中，我们还通过中间网络特征的聚类来增强目标识别，并通过对发散性较小的源示例的软选择来增强结构正则化。在基准测试上的实验证明了该方法的有效性。致谢。国家自然科学基金（批准号：61771201）、广东省引进创新创业团队项目2017ZT07X183），广东省研发重点项目（批准号：2019B010155001）和微软亚洲研究院。8735引用[1] 的伊马盖莱夫-达数据集是可用在网址：//imageclef.org/2014/adaptation网站。[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。Machine Learning，79（1）：151[3] Shai Ben-David ， John Blitzer ， Koby Crammer ， andFernando Pereira.域适应的表示分析。芽孢杆菌中 Schoülk opf ， J. C. Platt 和 T. Hof fman ，编辑， AdvancesinNeural Information Processing Systems 19，第137-144页MIT Press，2007.[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议上，第1692-1700页[5] W.张氏T.你S徐氏Kwak和B.韩用于无监督域自适应的特定域批量归一化。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第7346-7354页，2019年6月。[6] O. Chapelle和A.齐恩低密度分离的半监督分类。2005年统计数据库，第57-64页。马克斯-普朗克协会2005年[7] C. 陈威 Xie ， W.Huang ， Y. 黄氏 Y.Rong ， X. 丁氏Y.Huang，T.Xu和J.Huang.用于非监督域自适应的渐进式特征对齐。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第627-636页[8] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。In D.D.李，M。Sugiyama，U.诉卢森堡I. Guyon和R. Garnett，编辑，《神经信息处理系统进展》29，第2172-2180页。Curran Associates，Inc. 2016年。[9] Xinyang Chen ， Sinan Wang ， Mingsheng Long ， andJianmin Wang.可转让性与可辨别性：对抗域适应的批量频谱惩罚。在 KamalikaChaudhuri 和 RuslanSalakhutdinov编辑的第36届国际机器

下载后可阅读完整内容，剩余1页未读，立即下载