没有合适的资源?快使用搜索试试~ 我知道了~
无监督模型个性化:保持隐私和可扩展性
14463无监督模型个性化,同时保持隐私和可扩展性:一个公开问题Matthias De Lange1Ales Leonardis2徐佳2格雷戈里·斯拉博2莎拉·帕里索2,3TinneTuytelaars11KU Leuven2华为,诺亚{firstname.lastname}@ kuleuven.be{firstname.lastname}@ huawei.com摘要这项工作研究了无监督模型个性化的任务,适应不断发展,未标记的本地用户图像。我们考虑的实际情况下,一个高容量的服务器与无数的资源有限的边缘设备进行交互,对可扩展性和本地数据隐私的强烈要求我们的目标是在持续学习范式中解决这一挑战,并提供一个新的双重用户适应框架(DUA)来探讨这个问题。该框架灵活地将用户自适应分解为服务器上的模型个性化和用户设备上的本地数据正则化,具有关于可扩展性和隐私约束的理想属性。首先,在服务器上,我们引入了特定于任务的专家模型的增量学习,随 后 使 用 隐 藏 的 无 监 督 用 户 先 验 知 识 进 行 aggr-gated。聚合避免了再训练,而用户先验隐藏敏感的原始用户数据,并授予无监督的自适应。其次,局部用户自适应结合了域自适应的观点,使正则化批归一化参数适应于用户数据。我们探索各种经验的用户配置与不同的先验知识的categories和麻省理工学院室内场景识别的十倍的变换,并分类数字在一个组合的MNIST和SVHN设置。大量的实验产生了有前途的结果,数据驱动的本地适应,并引发用户先验服务器适应依赖于模型,而不是用户数据。因此,尽管用户自适应仍然是一个棘手的开放问题,但DUA框架形式化了在服务器和用户设备上进行个性化的原则基础,同时保持隐私和可扩展性。1. 介绍数据可用性和硬件效率的提高使神经网络在各种任务中蓬勃发展,在各种任务中竞争人类水平的性能[13]。然而,高性能的深度神经网络模型会导致相当大的数据需求,高容量模型需要在大量标记数据上进行训练。此外,性能可以显着提高个性化的模型,以用户特定的数据。尽管如此,由于严格的隐私限制,用户数据不能直接共享。这激发了将服务器上的监督模型训练与对用户的未标记个人数据的本地适应分开的需要。此外,本地执行任务的个性化用户模型具有减轻连接性要求的额外益处。在这项工作中,我们在一个班级的增量学习环境中探索这一挑战,依赖于用户的个人数据随着时间的推移而演变的假设。我们定义了一个实用的分布式设置,包括与大量用户设备连接的中央服务器。我们假设服务器是一台高端机器,具有广泛的存储容量和计算资源。相比之下,紧凑型用户设备具有用于存储和计算的有限资源在实践中,用户的数量可能非常高,因此强加了对可缩放的用户适配的需要。一种简单的方法是为每个用户从头开始训练一个新的服务器模型,从而导致对计算资源的需求线性增加。另一种不可行的途径是局部微调用户模型,因为用户设备受到有限计算能力的限制本文探讨了一个更现实的解决方案,在服务器上训练一个单一的模型集合,然后利用用户特定的先验知识进行聚合。除了可扩展性,还必须解决另外两个障碍:通过迫切的隐私要求,服务器被阻止访问本地用户数据,并且用户数据通常是未标记的,从而提高了对无监督适配的需要。为了解决这些严格的约束,我们引入了一个新的双重用户自适应框架(DUA)的模型个性化使用的任务增量设置。在这种情况下,任务被定义为独立同分布(i.i.d.)数据,en-14464通过对任务的数据的多次迭代来实现任务的网络优化。服务器对任务序列进行训练,并为用户提供通用或个性化的模型。该模型可能易于在用户设备上进一步本地适配。因此,DUA将用户自适应分解为两个阶段:1)服务器利用模型自适应策略,其中模型权重重要性作为用户数据的代理,以及2)用户设备使用域自适应工具直接适应本地数据。更详细地说,服务器自适应依赖于任务增量学习的两个主要组成部分,它们非常适合于满足我们对无监督和可伸缩用户自适应的约束。首先,增量矩匹配(IMM)[15]产生一系列特定于任务的模型,限制新的任务模型靠近先前学习的模型。平均这些模型假定损失函数的凸状搜索空间,旨在获得对所有任务最优的单个合并模型。虽然加权平均提供了任务数量的可伸缩性,IMM假设完全监督模型加权。因此,为了克服这种对监督用户数据的需求,我们结合了从未标记数据中导出参数重要性的记忆感知突触(MAS)[1],以实现可扩展和完全无监督的远程自适应连续学习(RACL)。其次,DUA建立从服务器获得的模型的进一步本地用户适配。我们的域自适应方法考虑了这样一个事实,即用户和服务器数据分布类似于两个不同的域,我们希望将域知识从服务器转移到用户域。特别合适的域 自适应 方法是自 适应批 量归一 化(AdaBN)[16] , 其 简 单 地 从 目 标 用 户 数 据 收 集 批 量 归 一 化(BN)统计。假设用户的领域知识驻留在这些BN统计中,可以以低计算成本并且在没有任何监督的情况下检索这些BN统计。因此,这种无监督设置可以增强任何方法,使其变得(更具)用户自适应性。本文的范围包括持续学习范式中的用户适应,在这种未探索的设置中有三方面的贡献:• 我们建立了一个内在可扩展和隐私保护的双重用户自适应框架(DUA),灵活地将用户自适应与服务器和本地用户设备。• 我们介绍了一种新的基准,专门设计用于评估本地自适应模型在一个增量学习设置。• 我们提供了实证证据支持IMM模式合并与无监督MAS重要性权重的有效性,并找到重要性权重,依赖于模型而不是数据。使用RACL适应用户数据对于服务器和用户都服务器使用IMM建立N个任务特定模型的单个序列因此,独立性被强加于通常过量的用户L。此外,持续学习设置使服务器能够利用新到达的数据批次来积累其知识。因此,这避免了从头开始重建服务器知识库,这将需要对所有看到的数据进行耗时的重新训练和存储此外,每个任务存储一个模型而不是其训练数据集会导致增强的存储需求,特别是当任务数据大大超过模型大小时。此外,用户仅共享模型参数重要性,而不是他们的原始数据,将共享信息限制到模型特定的梯度。最重要的是,用户不需要标记本地数据,因为重要性是以无监督的方式测量的。然而,当标记用户数据的子集可用时,性能可以通过本地用户自适应来进一步提高,我们将在后面展示。2. 相关工作DUA框架为服务器上的用户适应引入了一个新的范例,类似于联邦学习[23],尽管完全推翻了目的。馈送学习利用来自分布式数据库的聚集梯度来更新公共服务器模型,其中每个用户构成提供局部梯度的节点类似地,DUA仅使用用户特定的梯度来获得更好的模型,但获得分散的用户个性化模型,而不是一般的趋势跟踪模型。我们的框架保护了深刻的整体用户隐私,确保没有合理的原始用户数据必须共享,并解决了数百万个个性化神经网络的可扩展性的挑战性问题此外,通过微调神经网络来顺序地学习多个任务会导致大量丢失所获得的知识。关于持续学习的文献主要涉及应对这种灾难性的遗忘[5,25]。尽管如此,最近的工作主要集中在监督数据,留下丰富的可用的无监督用户数据未使用。在[5]之后,这些方法可以被细分为三个主要类别。首先,参数隔离方法通过获取特定于任务的掩码[22,21,31]或动态扩展架构[30]来保留任务知识重放方法保留先前任务的代表性样本的子集,在新任务的训练期间重放。 这些样本可以是原始图像[20,2,29],也可以是从特定任务生成模型中检索的虚拟样本[32]。Rao等人[28]基于可变自动编码器将虚拟重放扩展到完全无监督的设置。然而,这将需要在用户的低容量边缘设备上进行自主训练,仅具有有限的可用用户数据集,因此具有感染性。14465L可用于用户个性化。最后,基于正则化的方法在训练新任务时在损失函数中施加先验。学习而不忘记(LwF)[17]在保持接近新样本在先前任务模型上的输出之前最小化KL发散进一步的工作[27]扩展了这个想法与任务特定的自动编码器,另外惩罚新的任务功能漂移远离功能认为重要的以前的任务。弹性权重合并(EWC)[11]在顺序贝叶斯框架中引入了先前任务参数的先验,拉普拉斯近似为高斯,对角假设Fisher信息矩阵(Fisher information matrix)作为精度。由于在任务最优中估计了最小值,Zenkeet al.[35]提出一种在线方法来估计训练期间的精度。此外,委员会认为,该方法依赖于损失梯度Δ L,而MAS [1]通过依赖于输出梯度ΔF来回避这种监督损失依赖性。IMM [15]与前面讨论的方法不同,首先保留训练任务这些模型随后使用非重要性权重或通过平均来合并。对于我们DUA框架中的服务器用户自适应,多个特定于任务的模型被压缩到单个模型中。这与其他几部作品是一样的。Chou等人[4]合并两个任务特定的网络,随后用两个任务数据进行微调。虽然减少训练时间是目标,但它仍然不适合可扩展的个性化,需要原始用户数据和所有任务的数据。Cheung等人[3]将不同的模型叠加到一个模型中,从中可以检索特定于任务的参数。然而,使模型适应用户线性地增加了训练时间。另一种压缩路径将知识[8]从教师网络中提取到更小的网络中。 然而,这项工作的重点是模型压缩,以实现更小的模型部署,而不解决可扩展性,采用用户个性化。最后,深度域自适应引入了几种基于无监督反向传播的技术[6,19],最先进的技术在训练期间引入了对抗性损失[34,9]。无监督的设置适合这些方法,以适应未标记的用户数据。然而,在训练过程中需要用户数据,因此不可扩展,因为每个个性化模型都需要从头开始训练。3. 方法3.1. 双用户适配框架一个灵活的框架应该在服务器上和用户边缘设备上本地实现 为此,新颖的双用户自适应框架(DUA)将用户个性化分别划分为两个自适应函数φ和φ。最佳保护用户隐私的关键是没有原始用户数据被传输,mitted.为了在实践中实现这一点,用户和服务器之间的交互通常是加密的。然而,当加密失败时,我们的框架提供了额外的隐藏显式用户数据的隐藏。此外,服务器上的自适应应该是可扩展的,因为从头开始训练个性化模型需要大量交互用户的大量资源时间。理想情况下,自适应函数φ和φ都支持无监督的局部自适应,以限制所需的用户交互。DUA框架如图1所示,其两个用户适应阶段将在下文中详细讨论。服务器用户自适应。服务器S具有一组任务特定的专家模型M ={M1,. - 是的- 是的.. 马尔可夫假设对M成立,每个模型仅取决于当前任务数据和先前任务模型,当模型Mt+1的参数θt+1以θt初始化时。M是连续可扩展的,具有新的任务模型MN +1。L个用户与S交互,对于S,用户l基于本地原始用户特定数据dl为每个Mt向服务器提供模糊的隐式先验矩阵(dl,Mt)。为了防止原始用户数据的传输,隐藏功能使用任务特定模型Mt和对应的本地数据dl来提取隐藏的用户特定信息。这确保了广告隐私安全,因为所传达的用户先验由隐式代理而不是用户数据本身来表达。在理想情况下,正如我们在3.2节中讨论的那样,在没有用户本地监督的情况下,IBM可以做到这一点。一旦服务器召集集合中的所有信息,则集合l={l(dl,Mt)|对于用户1,聚集函数X在服务器M上递送最终的用户个性化模型,M=X(M,M)。本地使用R-适应。用户I从边缘设备上的服务器接收到M数据caladaptation 函 数 φ 以 完 成 最 终 模 型 M=φ ( dl ,Ml)。 由于不需要传输数据,因此用户可以充分利用其原始本地数据dl。 然而,洛-CAL自适应在资源上是有限的,从而抑制了用于模型的穷举训练过程。这种框架的灵活性有助于φ进一步处理已经个性化的在第一个DU A阶段,或一个新的一般模型,服务器端个性化。这使得DUA能够扩展递送单个模型的任何方法,如第3.3节所示,适应于本地用户数据dl。3.2. 无监督服务器用户自适应为了使服务器能够在DUA框架中执行用户自适应,我们首先必须定义如何在M中构成任务专家、用户自适应函数λ和聚合函数χ,以建立最终的个性化模型Ml. 本节探讨了挑战中的机会建立任务增量持续学习,14466L不不1Σ服务器用户自适应∀()的方式∀Ψ(,)(服务器用户自适应本地用户适应∗(,;)1(;)11图1:双重用户适配框架(DUA):(1)服务器用户适配涉及到本地用户数据d1的适配,其中M中的每个模型都有对应的参数。 聚合函数X将所有模型M和所得用户先验M1合并到单个模型M1中。(2)局部使用r-自适应由将M1映射到最终个性化模型M 的自 适应 函数φ 组成。用户服务器仅新任务Tn的数据可用,并且禁止对先前学习的任务的数据访问。这特别适合于服务器,其可以学习新任务,丢弃新任务数据Dn,并且仅保留模型Mn以使得能够对进一步的任务进行增量学习。因此,在任何点处的服务器数据dS仅包括新的任务数据分布Dn,从该新的任务数据分布Dn采样(xi,yi;tn),分别构成图像xi、标签yi和任务索引tn。M中的任务专家和聚集函数χ是按照Lee等人定义的。[15]第十五话匹配(IMM)。使用贝叶斯框架引入参数不确定性,其中任务的增量训练导致训练后的新任务假定任务后件是高斯的,任务序列后件以高斯混合的方式聚集这些分量。Mode-IMM [15]拉普拉斯用单个高斯近似混合,并且为了保持这个假设,在我们的实验中,平衡的任务被认为同样重要。此外,用户自适应函数f应该从原始用户数据dl和给定模型两者产生无监督隐式用户先验。精度表示参数确定性的程度,因此类似于参数重要性度量。由于这类似于隐式先验,因此我们定义(dl,Mt)=t。尽管如此,为了估计任务精度Δt,模式IMM采用与[ 11 ]类似的Fisher信息矩阵(Δ t)。损失函数由损失函数的二阶导数构成,因此需要标记数据。相比之下,为了实现无监督的重要性度量,我们基于输出函数关于参数θk的L2范数的预期梯度来施加MAS重要性权重[1],k<$$>F(x;θ)<$2在混合分量的后验均值之间需要平滑和凸的损失搜索空间。因此,我们认为,Ωt =ExDt[δθk第2段]、第(3)段我们采用了[15]中提出的权值和L2转移技术,分别用以前的任务权值初始化网络,并通过L2正则化促使新的任务最优值保持接近以前的任务最优值。聚集函数χ构成了N个分量高斯混合的最终Laplace近似的模,并由其均值Dt ∈dl未标记的用户数据分布,其重要性是衡量的。 聚合模式-IMM在DUA框架中,MAS重要性权重构成了服务器端用户自适应的远程自适应持续学习(RACL)3.3. 无监督局部域自适应第二个组成部分使双重用户适应,和精度θl=θmΩˆl=αt<$tθt,(1)不ΣN好的。(二)不DU A框架是局部适应函数φ(dl,Ml),受边缘设备上的有限资源的约束。对于使用φ的轻量级自适应,我们可以使用批量归一化(BN)来适应用户数据统计[10]。在训练期间,BN层的每个输入特征xk是正常的。对于用户l,具有任务Tt的精度t。 混合比αtN衡量任务Tt的重要性,受t αt= 1。的使用当前批次统计信息将其转换为x k。随后,规模-ingγk和shiftβk参数被学习,产生L14467归一化输出yk,其中xk−E[xk]xk=,(4)Var[xk]yk=γkxk+βk。(五)虽然BN获得训练数据的全局批量统计数据用于推理,但自适应BN(AdaBN)[16]引入了一种无监督的方案,收集目标域数据的批量统计数据。其主要思想是让领域知识驻留在批量统计中,而不是优化参数。在我们的设置中,目标域是特定于任务的用户数据dl,使得能够使用AdaBN进行无监督的用户放松无监督自适应的约束,我们可以假设用户数据中的标记子集。虽然这将有助于在用户设备上进行微调,但计算和存储限制都限制了我们计算所有网络参数的梯度。或者,我们将AdaBN扩展到该监督设置(AdaBN-S),并在几个时期内训练BN层参数γ和β,同时冻结所有剩余的网络参数。与微调相比,这种方法显著减少了可训练参数的数量,通过更快的收敛和减少梯度的存储要求来减少4. 用户个性化基准为了评估DUA框架,我们需要模仿用户特定数据的数据集。我们的实验包括三种不同的数据设置1.在所有设置中,服务器数据以80/20的比例分为训练和验证集,用户数据分为相等大小的评估和用户验证集。诸如重要性权重估计或特定于用户的微调的用户自适应技术仅访问用户验证子集,从而避免对评估集的过拟合或对测试数据的调整。两个设置基于MIT室内场景识别数据集(MITIS)[26],根据五个场景超类别划分为任务。省略超类别序列被定义为{家庭、休闲、公共、商店}。所有图像的最小分辨率为200像素,轴,在训练过程中随机裁剪和水平翻转,然后将大小调整为224×224。MITIS训练数据可用于服务器,遵循仅提供对当前任务数据的访问的持续评估和额外的MITIS数据在用户之间分配,以下两个方案:1. 类别优先级(CatPrior)。五个用户每个人都喜欢每个任务的3个类别的随机子集,1代码可在:https://github.com/mattdl/DUA图2:[ 7 ]之后的TransPrior用户转换,其中包括:飞溅、弹性变形、饱和度、散焦模糊、高斯噪声、亮度、高斯模糊、JPEG压缩、对比度和脉冲噪声。每人偏好250个额外的MITIS图像。每个类别的20个所有用户数据都是互斥的。2. 变换先验(TransPrior)。10个用户各自执行不同类型的变换,遵循[7],扰动范围3(范围1至5),从额外的MITIS数据和所有MITIS评估数据中置换1000个随机采样图像。转换之前的所有用户数据10种类型的转换MITIS图像的示例见图2对于所有用户,在额外的MITIS用户数据上执行超过5次迭代的Monte Carlo交叉验证,先验保持固定。第三个设置(数字)包括来自MNIST [14]和街景房屋号码(SVHN)[24]数据的手写摘要,分为五个任务,每个任务有两个后续数字,如{0,1}到{8,9}。MNIST包括28×28图像,32×32SVHN图像居中裁剪来匹配这个分辨率。 服务器数据由以下两部分MNIST和SVHN训练数据,两个用户分别由MNIST和SVHN的评估数据表征。结果在三个训练模型上取平均值,用不同的种子初始化。5. 实验5.1. 评估设置模 型 两 种 MITIS 设 置 的 实 验 都 使 用 AlexNet [12] 和VGG11 [33]模型,但仅适用于VGG11的BatchNorm实验由于小的输入大小和简单的的benchmark,一个小的三层MLP与两个隐藏层的100个单位就足够了这个设置。对于AlexNet和VGG11,我们从ImageNet上预训练的模型开始,而MLP模型则从头开始训练。14468表1:质量比较特征:用户自适应(Adapt.),无监督(Unsup.),可缩放的隐私保护(Privacy Preserving)DUA细分了服务器(RNC)和本地用户设备(φ)上的适配,其中MAS重要性权重丢弃监督。用户自适应方法的可扩展性意味着训练与用户的数量L无关。共享的用户数据可以是原始数据、渐变数据、输出函数F(x;θ)或损失L(x,y;θ)。所有方法都可以扩展为无监督的(AdaBN)和超监督的(super)方法。约束(AdaBN-S)本地用户自适应φ。方法适应。 不好规模。Priv.MAS-RACLC(C)CNFFIM-RACL任务专家C()CNN·LLDlMAS-IMMCNFIM-IMMNMASCNEWCNLWFN联合N+ AdaBN公司简介C(φ)C(φ)C评价对于所有实验,我们在训练所有任务后报告最终模型的平均准确度和遗忘根据方法的不同,最终的合并后模型可以是用户特定的模型,也可以是通用的服务器模型。结果是所有用户的平均值。方法可以细分为用户特定的和用户不可知的方法。表1总结了我们的用户自适应设置中的所有方法特征。特定于用户的方法适应用户的本地用户验证集,从而产生个性化模型。1. MAS-RACL是我们在3.2节中讨论的服务器用户自适应方法,将服务器上的特定于任务的IMM模型与从用户验证集获得的无监督MAS重要性权重合并。2. FIM-RACL是MAS-RACL的一个变体,它使用权重作为重要性度量来合并特定于任务的IMM模型。该模型由损失的梯度构成,因此需要标记的用户数据。该基线用作MAS-RACL中MAS重要权重的性能参考3. AdaBN以非监督方式适应用户BN统计,仅要求所有用户验证数据的一次前向传递(详情见第3.3节)。4. AdaBN-S在训练BN14469参数,因此需要在用户验证数据中进行监督(详见第3.3节)。5. 任务专家是通过在原始用户验证数据上对每个特定于任务的IMM服务器模型进行微调来获得的,该模型具有低学习率。这导致每个用户的特定任务的专家网络的集合这是不可扩展的,并且应该被视为特定于用户的模型的上限。用户无关方法仅访问服务器培训和验证数据,因此不适用于用户。1. FIM-IMM训练每个任务的模型,随后使用在服务器验证数据上估计的每个参数重要性度量进行合并。与[15]中的模式IMM相同。2. MAS-IMM是使用MAS重要性权重的FIM-IMM的变体。3. 联合训练同时优化所有任务,同时访问所有任务数据。这违反了连续学习设置,并且被认为是性能的弱上限。4. EWC[11]使用基于FIM的重要性权重保留先前的任务知识。5. MAS[1]使用输出函数的L2范数的梯度来度量重要性。6. LwF[18]使用知识蒸馏与从先前任务网络获得的新任务数据输出。对于遗忘相关的超参数不执行网格搜索,因为假设先前的任务数据在持续学习范例中不可用。因此,使用了原作的推荐设置。其他超参数是根据关节基线上的最佳性能确定的,使用学习产生30和10个历元。速率为1e−3,MITIS和MITIS的批量为30和20,bers分别。 经过五个时期的未经改进的valida-为了提高学习精度,学习率以因子0进行退火。1,在随后的五个更低的时期后提前停止。表2:报告具有无监督(MAS)和监督(MAS)重要性权重的IMM模式合并的平均准确度(遗忘)。数据设置模型MAS-IMM FIM-IMMCatPriorAlexNet67.39(0.73)67.42(0.23)VGG1176.77(0.30)76.29(0.43)TransPriorAlexNet46.51(-0.14)46.68(-0.35)VGG1153.49(-0.17)53.14(0.07)数字MLP84.36(-0.40)87.68(0.07)14470表3:左:三种数据设置和模型的平均准确度(遗忘),比较用户特定(RACL)和用户不可知(IMM)的重要性权重,无监督(MAS-)和监督(MAS-)。RACL优于相应的IMM变体以粗体表示。右:用户自适应(Adapt.)的质量比较功能,无监督(Unsup.),可缩放的隐私保护(Privacy Preserving)方法Alexnet VGG11 MLP Adapt.不好规模。Priv.CatPriorTransPriorCatPriorTransPrior数字MAS-RACL66.97(0.88)47.04(-0.27)77.32(0.77)53.59(-0.14)84.01(-0.22)CCCCMAS-IMM67.39(0.73)46.51(-0.14)76.77(0.30)53.49(-0.17)84.36(-0.40)✗CCCFIM-RACL67.20(0.73)47.32(-0.51)76.53(0.68)53.73(-0.13)87.83(0.30)C✗CCFIM-IMM67.42(0.23)46.68(-0.35)76.29(0.43)53.14(0.07)87.68(0.07)✗✗CC5.2. 无监督矩匹配第一个实验研究了IMM模式合并性能的相似性,原始的有监督的MAS,和建议的无监督MAS的重要性权重。表2中的结果显示MAS-IMM和FIM-IMM的相似性能然而,我们观察到一个更显着的差异,为数字设置,其中,达到3。32%的平均准确率,尽管0。47%增加遗忘。分析重要性权重,第一个Numbers任务{0,1}结果比序列中的后续任务高一个数量级。 相比之下,高-在所有任务上,权重获得相同的数量级。因此,MAS的重要性超过了第一任务知识的稳定性,但恶化了对新任务的适应。此外,具有很少参数的Numbers MLP模型是从头开始训练的,第一个任务只学习有限的一组区分特征。输出函数幅度仅取决于针对该二进制任务学习的特征,并且特别地,有限的MLP网络大小意味着输出函数对中间特征的变化的更大敏感性,这在学习第二任务时可能是实质性相比之下,AlexNet和VGG网络使用依赖于大量Imagenet预训练的输出函数来初始化网络。总之,MAS重要性度量提供了有竞争力的结果,特别是对于具有预训练网络的设置。5.3. 本地适应用户由于MAS重要性权重凭经验证明了IMM中模式合并的有效替代精度测量,因此我们现在可以以非监督方式适应本地用户数据d1表3报告了针对用户特定和用户不可知重要性权重的所有用户的平均准确度。大多数局部估计的RACL的重要性权重的结果在小的改进。本地适应用户的好处似乎微乎其微。为了更好地理解为什么会出现这种情况,我们进一步研究了测量Pearson相关性ρ的重要性权重的数据依赖性。在图3中,我们考虑用户-两个CatPrior任务“家”(D1)和“休闲”(D2)的验证数据这两个任务都有相应的优化服务器模型M1和M2,我们最初的任务增量设置计算其重要性权重。相反,对于该分析,我们比较了同一模型上两个数据集的重要性权重相关性,结果相关系数为0。82和0。M1和M2的回收率为73(见图3(a)和(b))。这种高相关性意味着重要性权重对数据的依赖性有限。接下来,我们比较同一数据集的相关性,但在两个不同的D1和D2的相关性为0。55比0 58,其显著更低,因此表明对模型的依赖性更高(见表3(c)和(d))。总之,重要性权重表示特定模型中的参数重要性,而不是估计它们的数据。因此,根据具体用户的数据来估计这些费用几乎没有什么好处5.4. 适应用户域借用领域适配的思想,我们可以扩展任何方法,使其成为用户特定的方法(见表1)。在这个实验中,我们使用了之前实验中的VGG 11模型,在每个卷积和ReLU激活层(VGG 11-BN)块之后穿插了BN层。表4显示了CatPrior和TransPrior装置的结果。注意,任务专家固有地适配VGG模型的BN参数,因为它微调到用户数据dl。一般来说,无监督AdaBN主要表现出有限的增益RACL,并似乎对其余的连续学习方法无效相比之下,监督变量AdaBN-S始终优于用户不可知BN,平均增益为2。64%,3。在Cat- Prior和TransPrior设置中分别具有44%的AdaBN和AdaBN-S性能之间的差异揭示了无监督自适应仍然是一个具有挑战性的开放问题。值得注意的是,在表3中,具有VGG 11-BN的联合训练比没有BN的VGG 11结果表现更差。这似乎与过度拟合有关,训练和验证准确性之间的差异增加了10%14471图3:在CatPrior设置中可视化前两个任务的用户重要性权重相关性ρ。蓝色和橙色分别表示权重和偏差重要性权重。(a)以及(b)各自比较不同任务数据在相同任务特定模型上的重要性权重,而(c)和(d)各自使用两个任务特定模型上的相同数据(a) M 1 −D 1 vs D2 ρ= 0。82(b) M 2 −D 1 vs D2 ρ= 0。73(c) M 1 vs M 2 −D1 ρ= 0。55(d) M 1 vs M 2 −D2 ρ= 0。58表4:使用模型VGG 11-BN的CatPrior和TransPrior设置中的结果,比较服务器数据(BN)与无监督(AdaBN)和监督(AdaBN-S)用户自适应变体的批量归一化方法CatPriorTransPriorBNAdaBNAdaBN-SBNAdaBNAdaBN-SMAS-RACL58.05(2.74)58.30(2.34)60.68(2.67)30.14(2.69)30.19(2.50)32.82(3.25)FIM-RACL59.58(2.14)59.71(1.61)62.43(1.84)32.15(1.53)32.04(1.33)34.80(2.13)任务专家80.78(5.61)n/an/a68.22(11.35)n/an/aMAS-IMM55.55(2.69)55.89(2.69)58.87(2.81)29.36(2.63)29.15(2.45)31.73(3.22)FIM-IMM61.50(-0.03)61.35(-0.46)63.99(-0.16)32.08(1.32)31.86(1.21)34.48(2.05)MAS65.58(3.96)64.15(4.04)67.10(4.66)37.32(2.64)35.64(2.88)40.51(2.69)EWC66.20(2.88)64.03(3.43)67.54(3.90)37.16(2.85)35.44(3.12)40.05(3.18)LWF70.76(0.73)70.37(0.43)72.73(1.03)40.22(0.43)39.51(0.12)43.07(0.52)联合75.75(不适用)72.13(不适用)76.39(不适用)46.53(不适用)41.18(不适用)48.50(不适用)通过对批量统计进行归一化,BN层减轻了网络中的内部协方差偏移。对于由于数据少而易于过拟合的网络,这种内部协方差偏移可能会在批处理中引入正则化噪声,干扰优化以过拟合训练数据。在这方面,即使服务器提供了一个合理的过拟合模型,适应用户域仍然是有效的AdaBN-S。此外,BN对持续学习方法的影响仍然需要进一步的启发,因为它在当前的最新技术中主要被忽视[5,25]。总之,使用AdaBN的无监督自适应表现出对用户域的繁琐自适应,尽管使用AdaBN-S中的标记数据的子集获得了显着的改进。6. 结论在这项工作中,我们提出了一个实用的双用户自适应框架(DUA),以解决增量域适应现实生活中的场景与众多的用户。这种新颖的用户自适应范例将个性化分解为服务器和本地用户设备,14472期望的用户隐私和可伸缩性属性,这在文献中仍然是高度未开发的。我们设计了基准来仔细检查这两种类型的用户适应。首先,在RACL之后在服务器上调整模型会带来这些可扩展性、隐私性和额外的监督属性,但实际上,由于基于梯度的重要性权重在很大程度上与数据无关,因此与用户不可知模型相比,其次,基于自适应批量归一化(AdaBN)的数据正则化方法的局部用户自适应,特别是其监督变体(AdaBN-S),似乎更有希望,在利用标记的用户特定数据时,可以实现系统性改进。用户隐私和体验是主要关注的问题,为此,我们的DUA框架为双重用户适应奠定了原则基础,希望促进这一方向的进一步研究。确认作者要感谢华为作为HIRP开放项目的一部分资助这项研究。14473引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。 在欧洲计算机视觉会议(ECCV)的会议记录中,第139-154页,2018年。二三四六[2] Arslan Chaudhry,Marc高效的终身学习创业板 2019年,在ICLR。2[3] Brian Cheung , Alex Terekhov , Yubei Chen , PulkitAgrawal和Bruno Olshausen。将多个模型叠加成一个。arXiv预印本arXiv:1902.05522,2019。3[4] Yi-Min Chou,Yi-Ming Chan,Jia-Hong Lee,Chih-YiChiu,and Chu-Song Chen.在推理阶段统一和合并训练有 素 的 深 度 神 经 网 络 。 arXiv 预 印 本 arXiv :1805.04980,2018。3[5] Matthias De Lange 、 Rahaf Aljundi 、 Marc Masana 、Sarah Parisot 、 Xu Jia 、 Ales Leonardis 、 GregorySlabaugh和Tinne Tuytelaars。持续学习:分类任务中抗遗 忘 策 略 的 比 较 研 究 。 arXiv 预 印 本 arXiv :1909.08383,2019。二、八[6] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无 监 督域 自 适 应 。arXiv 预 印 本arXiv : 1409.7495 ,2014。3[7] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性 常 见 的 腐 败 和 扰 动 。 arXiv 预 印 本 arXiv :1903.12261,2019。5[8] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。3[9] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada:周期一致的对抗性结构域适应。arXiv预印本arXiv:1711.03213,2017。3[10] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。4[11] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘Proceedings of the National Academy of Sciences,114(13):3521-3526,2017. 三、四、六[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。5[13] Yann LeCun,Yoshua Bengio,and Geoffrey Hinton.深度学习nature,521(7553):436-444,2015. 1[14] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010. 5[15] Sang-Woo Lee、Jin-Hwa Kim、Jaehyun Jun、Jung-WooHa和Byoung-Tak Zhang。通过增量矩匹配克服灾难性神经信息处理系统的进展,第4652-4662页,2017年。二三四六[16] Yanghao Li,Naiyan Wang,Jianping Shi,Jiaying Liu,and Xiaodi Hou.重新审视批处理规范化以实现实际的域适应.arXiv预印本arXiv:1603.04779,2016。二、五[17] 李志忠和Derek Hoiem。学而不忘。见ECCV,第614-629页。施普林格,2016年。3[18] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson pattern analysis and machine intelligence,40(12):2935-2947,2017。6[19] Mingsheng Long , Han Zhu , Jianmin Wang , andMichael I Jordan. 无监督域自适应与残差转移网络。神经信息处理系统进展,第136-144页,2016年3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功