没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文面向多领域不平衡数据的柯紫轩UIC计算机科学芝加哥,ILMohammadKachuee亚马逊AlexaAI西雅图,WASungjin Lee亚马逊Alexa AI西雅图,华盛顿州zke4@uic.edu{kachum,sungjinl}@amazon.com摘要在许多现实世界的机器学习应用中,样本属于一组域,例如,对于产品评论,每个评论属于产品类别。本文研究了多领域不平衡学习问题,即类与领域之间存在不平衡的情况。在MIL环境中,不同的领域表现出不同的模式,不同领域之间存在不同程度的相似性和差异性,这为迁移学习带来了机遇和挑战提出了一种新的领域感知的对 比知识转移 方法DCMI,该方 法(1)识别共享的领域知识,以鼓励相似领域之间的正向我们在三个不同的数据集上评估了DCMI的性能,在不同的MIL场景中显示出显着的1介绍不平衡学习中的大多数现有工作都集中在类不平衡设置上,其中类以长尾分布呈现:类的子集(头类)具有足够的样本,而其他不常见或罕见的类(尾类)由有限的样本代表不足。这种设置是具有挑战性的,因为模型自然地主要集中在大多数类别上,并且可能没有足够的尾类别数据来恢复其潜在分布(Liu et al. ,2019)。第1章经常错过在许多现实世界中,数据自然属于一组域,例如,对于在线商店,可以基于相应的商店部门来定义每个顾客评论一个简单的解决方案是忽略领域分配并为所有领域训练分类器,我们称之为领域不可知学习(D-AL)。D-AL完全忽略域,并假设模型可以这种方法的缺点是显而易见的:如果训练数据来源于许多领域,更新所有参数可能会导致模型根据数据的易访问性或频率成比例地关注数据的子集此外,如果来自不同域的数据是不相似的,则不可知学习可能导致不期望的收敛动态,即,负迁移因此,我们认为,在多领域不平衡学习(MIL)的场景,学习算法应该考虑领域信息,并利用它们来实现有效的知识转移。MIL是一个具有挑战性的问题。首先,不同的域可能具有非常不同的样本数量,并显示长尾分布。例如,智能助理(例如,AmazonAlexa)可以提供各种各样的技能,并且不同的技能可以在示例的数量上有很大的不同。一些内部开发的技能(例如音乐或whether)可能具有数十万个样本,而许多第三方开发的技能在同一数据集中可能仅具有少于10个样本(Kachuee等人,2010年)。,2021年)。第二,域之间可能表现出不同的语义相似性和差异性。例如,特征可以显示与用于cer的标签的正相关性尽管已经做了大量的工作,阶级不平衡的问题,在亚马逊Alexa AI实习1在本文中,术语域用于指代样本的分割,并且不应将其与在研究分布移位问题的域适应文献中也使用的相同术语混淆。arXiv:2204.01916v1 [cs.LG] 2022年4+v:mala2277获取更多论文tain域,而它与其他域负相关。第三,数据提供的域注释可能不完全准确或不够细粒度。例如,句子“由于软件或硬件问题,我的计算机无法打开我最喜欢的教科书,百年孤独”可能属于计算机和书籍域,而它在数据集中可能只有一个也 许 MIL 最 直 观 的 方 法 是 多 任 务 学 习(MTL),其中不同的头部用于不同的领域。虽然MTL考虑域,我们将显示它在我们的实验中表现不佳,由于缺乏分类器之间的知识转移我们认为,成功的MIL的关键不仅是要实现,而且要鼓励跨领域的积极迁移学习。在本文中,我们提出了多领域不平衡学习(DCMI)的领域感知C对比知识转移DCMI引入了一种新的基于域嵌入的域感知表示层作为对领域分类提供的数据的补充,我们使用辅助领域分类任务来帮助确定样本与每个领域的相关性软域分配。DCMI使用了一种新的对比知识转移目标,将相似域的表示更接近,不同域的表示更远离。我们在三个不同的多域不平衡数据集上进行了广泛的实验,以证明DCMI的有效性2相关工作最近的不平衡学习文献可以分为以下几类:数据恢复。这是最广泛使用的人工平衡差异的做法 两种流行的选择是欠采样(Buda etal. ,2018; More,2016)和过采样(Buda etal. , 2018; Sarafianos et al. , 2018; Shenetal. ,2016)。欠采样从头部(主要类)删除数据,而过采样从尾部(少数类)重复数据。这些方法可能存在问题,因为丢弃往往会删除重要的样本,而复制往往会引入偏差或过拟合。数据扩充。已使用数据扩充来丰富尾部类。一种流行的方法是利用Mixup(Zhang et al. ,2018年)技术,以提高少数民族的阶级。Remix(Chouet al. ,2020)分配标签有利于少数类的混合样本,刘等人。(2020)准备了一个“特征云”,用于混合,其具有更大的尾类分布范围。Kim等人 (2020)将噪声添加到头部类以生成尾部类。 Chu等 (2020)分解特征空间并通过组合来自头部类的类共享特征和来自尾部类的类特定特征来生成尾部类样本。然而,这通常是一个不平凡的工作,以生成有意义的样本,可以帮助尾巴类。损失重新加权。重新加权的基本思想是为尾类对应的损失项分配较大的权重,而为头类分配较小的在类敏感交叉熵损失(jap-kowiczandStephen,2002)中,每个类的权重与样本数成反比。Ren et al.(2018)利用一个保持评估集来最小化平衡损失。正规化。这种方法增加了一个额外的正则化项 , 以 改 善 尾 部 样 本 的 训 练 。 Lin et al.(2017)在标准交叉熵损失中增加了一个因子,以更多地关注硬的、错误分类的样本(通常归因于少数类)。 Cao等人 (2019)提出了对少数类进行强正则化,从而可以改善少数类的泛化误差。虽然正则化简单有效,但软惩罚可能不足以使模型专注于尾类,并且大的惩罚可能会对学习本身产生负面影响。参数隔离。它已被证明,解耦的学习表示学习 和 分 类 器 学 习 可 以 是 相 当 有 效 的 。BBNZhou等人(2020)提出了一种双分支方法,其中表示学习分支在没有类别不平衡(输入随机采样数据)的情况下进行训练,而分类器学习分支应用反向采样技术。这两个分支,然后结合课程学习策略。Wang等人(2021)通过将表示学习分支中的交叉熵损失替换为原型监督对比损失,进一步改进了BBN这种方法提供了单独优化每个部分的机会,但也很难将知识从头部类转移到尾部类领域不平衡学习。上述方法大多考虑了类的不平衡性,而忽略了域间的不平衡性.Cheng等人+v:mala2277获取更多论文联系我们联系我们我LLL我J(2020)提出了一种针对类别不平衡和跨领域不平衡的双重平衡技术,该技术仅限于两个领域,没有任何外显机制来鼓励正迁移和避免负迁移。3问题定义在本文中,我们假设访问一组样本(xi,y i,j),i= 1。. . N,y i1。. . C、J1 .一、. .M.这里,N是样本的数量,C是类别的数量,M是域的数量,即,跨域共享要素空间和标签集我们假设存在以下情况:(a)类不平衡:类在每个域中不均匀分布;(b)域不平衡:域不均匀分布,即,某些领域可能比其它领域具有更多或更少数量的示例;以及(c)领域发散:虽然某些领域与其它领域自然相似并因此正相关,但某些领域与其它领域自然不相似并负相关。鉴于这些假设,在多域不平衡学习(MIL)中,我们寻求一种模型来最小化所有域的预期损失(即,宏观平均值)。4该方法图1介绍了所提出的方法的概述在MIL问题中,识别可以在相似领域之间转移的共享知识以提高尾域性能以及需要小心处理以避免负转移的特定领域知识是至关重要的。为了获得领域感知的表示,我们利用领域嵌入来自适应地选择每个特定领域的有用表示(第二节)。4.1)。此外,无论数据集提供的域分配如何,实际上,样本可以属于不同程度的多个域。为了解决这个问题,我们提出了一个领域分类任务,以获得样本与每个领域的相关性,并使用对比方法转移相关的领域知识(第二4.2)。4.1领域感知表示我们建议一个领域感知的表示层图1:DCMI培训流程概述。(i) DCMI将来自域的样本x(i)作为输入J. (ii)使用共享身体网络(例如,BERT)。(iii)域索引用于得到用于计算域掩码mj和域-aw的对应域嵌入,其中,(iv)受监督者计算分类(sup)、对比(con)和域分类(dom)损失项(参见4.2节)。(v)控制来自每个损失项的梯度流,使得每个项仅用于优化可训练参数的子集,如图中的绿色、蓝色和橙色所示。用于找到对应的域掩码m,j:mj= σ(vj/τ)。(一)其中,τ是温度变量,从1到τmin(小正值)进行线性拟合。为了获得域感知表示,我们使用身体网络的输出的逐元素乘法(即,本文中的BERT)h和掩码mj:hj=him。(二更)注意,mj中的神经元可以与其他域掩码中的神经元重叠,以实现知识共享。为了确保vj具有宽的范围并且其梯度具有大的幅度,对原始梯度g采用梯度补偿技术(Serrà et al. ,2018)。具体地说,Jτ[cosh(vj/τ)+1]自适应地选择适当的表示(神经元)的每一个域。对于一个域j,G= τmin[cosh(vj)+1](三)响应嵌入vj由可以以端到端方式学习的可微参数组成。基于此,sigmoid函数为嵌入矩阵与监督分类目标使用一个典型的交叉熵损失,表示为Lsup。+v:mala2277获取更多论文我我σlog(σ(h我我LM我4.2对比知识转移即使我们使用建议的域嵌入获得域感知表示,也存在两个限制:(a)除了支持共享特征之外,没有明确的机制来积极鼓励知识转移;(b)提供域的数据集在现实世界中不一定是精确和细粒度的。某些示例可以归因于具有不同相关程度的多个域。例如,关于产品的评论通常被认为是该产品的一般领域(例如,计算机);然而,在语义上,它可能涉及对其它领域的讨论(例如,膝上型计算机的音乐回放质量为了解决上述问题,我们采用了一个主分类任务来估计每个样本与不同领域的相关性。我们利用这些相关性/置信度得分作为软标签来进行对比学习,允许在实例级别从类似领域进行域分类。估计相对-图2:对比学习对象iv e的图示:(i)域-aw是针对样本i和由j索引的所有域计算的表示h j。(ii) 域分类器头a,j的S形输出被用于计算域-aware表示的加权平均,从而产生增强视图h,i。(iii)采用基于增强视图和域分解的软交叉熵损失作为对比目标函数。如:给定样本的不同域的出现次数,N M我们利用S形分类头,M输出神经元 对于训练,我们使用二进制1Lcon=−NJIi=1j =1i·hj))+使用数据集的交叉熵(BCE)损失Ldom(1−aj)log(1−σ(hi·h<$j),(5)提供了域分配作为标签。 使用ii训练的域分类器,假设它可以概括和捕获域相似性,我们使用域j的S形输出得分来估计样本i与每个域的相关性,由aj表示。注意,领域分类任务仅仅是在接下来解释的对比学习目标中使用的辅助任务因此,我们阻止来自该目标的梯度流到域分类器头之外。对比学习。 图2显示了所提出的对比目标的说明在这里,对于某个样本,无论数据集提供的域是什么,我们都计算其所有域的域感知表示: . . 好的。然后,我们来-其本质上是软交叉熵损失。直观地说,(5)的对比目标鼓励学习捕获增强视图对每个域的属性的通过这个目标,相似的域用更接近的表示来表示,并且不相似的域被进一步分开,使得它们容易与增强视图区分开。注意,con不同于文献中通常使用的典型对比目标,因为它依赖于增强视图的软域分配,而不是区分增强数据和真实数据。作为一个例子,假设域感知表示hj不是一个很好的表示,我我我通过简单地计算领域感知表示及其归一化相关性的加权平均值来呈现样本的增强视图:样本i和缺乏可能从其他领域转移的知识(由其表示框中的单一颜色表示),我们可以看看Lcon是如何帮助的(见图1)。(3):·样本i语义上与多个do相关h=αihj。(四)一个j电源(域1和域3)。在这种情况下,j=1j=1ia1和a3具有较大的值,而a2具有我我我在此基础上,我们确定了对比目标较小的值。因此,hi主要是h1和h3的平均值(一半橙色,一半橙色)我我+v:mala2277获取更多论文L×我我LL图3:一个简单的例子,以显示对比知识转移的有效性。橙色、红色和绿色条分别显示与域1、2和3的相关程度。在这里,对比目标鼓励相似的域(域1和域3)具有相似的表征,而属于不同域(域2)的样本在表征空间中被推开。绿色)。在这里,更新基于骗局h1和h3更接近h。在其他世界,超参数 除非另有说明,域ID嵌入有768个维度。我们使用0。0025,公式中的τmin3.速率为0的dropout层。5被放置在完全连接的层之间。为了找到方程中的λ1和λ26,我们使用大约200个对数增量在[0,5000]范围我们在第5.1.3节中为每个数据集提供了选定的λ1和λ2。对于对比度目标,在计算对比度损失之前应用l2输入标记数的最大长度设置为128。 我们使用Adam优化器,并将学习率设置为3 10−5。对于所有实验,我们使用64的小批量大小训练5个epoch。5实验5.1实验装置5.1.1数据集i i我们使用三个数据集进行实验:Doc-鼓励该样本的第一和第三表示之间的知识转移• 样本i在语义上与do无关-main(domain 2).基于Lcon,h2的Up测年情绪分类(DSC)(Ni et al. ,2019),方面情绪分类(ASC)(Keet al. ,2021)和谣言和假新闻检测(RFD)(Zubiaga et al. ,2016;Wang,2017)。进一步远离我hi以反映差异这些数据集具有自然的类和域IM,平衡对于所有数据集,我们使用随机数据他们之间因此,本文认为,知识转 移 是一种负向知识转移. 这是预期的,因为h2不依赖于样本i。4.3实现细节最终目标。最终的联合训练目标是监督分类、域分类和样本级对比损失项的组合:L=Lsup+λ1Ldom+λ2Lcon,(6)其中,λ1和λ2是用于调整每个项的影响的超参数请注意,从每个目标计算的梯度更新网络的不同部分,如图所示1、不同的颜色例如,dom只更新域分类器头,con更新除了监督分类头中的参数之外的所有参数。架构在BERT的最后一层中,使用具有soft-max输出的全连接层作为分类头。我们使用[CLS]的嵌入作为BERT的输出。BERT的训练 遵 循 ( Xu et al. , 2019 ) 。 我 们 采 用BERTBASE(uncased)。10%用于测试,10%用于验证,其余用于培训。为了更好地评估每种方法在有效知识转移中的性能,我们分别以1000、10和10的因子对DSC、ASC和RFD的训练集和验证集进行了我们在附录中提供了准确的除了这些数据集之外,我们还使用具有人工不相似域的ASC数据集的更改版本进行了额外的实验(第二节)。5.2.2)。DSC等 对于这个数据集,任务是将每个完整的产品评论分类到两个意见类别(正面和负面)中的一个。训练数据提供被重新查看的特定类型的产品作为域信息。我们采用的文本分类公式(Devlin et al. ,2019),其中[CLS]令牌用于预测观点极性。为了构建DSC数据集,我们使用了AmazonReview Datasets中的29个域(Ni et al. ,2019年)2,然后通过将1-2星转换为负面,将4-5星转换为正面来将评级二进制化。2https://nijianmo.github.io/amazon/index.html+v:mala2277获取更多论文ASC。 这个数据集提供了一个重新查看句子的方面级情感(积极和消极之一)的分类。例如,关于电视的句子 我们采用了Xu等人的ASC实现。 (2019),其中体项和句子通过BERT中的[SEP]连接。该意见是使用[CLS]令牌预测的。ASC数据集(Ke et al. ,2021)由来自4个来源的19个域组成:(a)HL 5Domains(Hu和Liu,2004),具有5个产品的评论;(b)Liu 3Domains(Liu et al. ,2015年),3个产品;(c)Ding 9Domains(Ding et al. (d)SemEval 14,审查了2个产品-SemEval 2014任务4笔记本电脑和餐厅。RFD 。 该 数 据 集 由 PHEME 谣 言 检 测(Zubiaga et al. ,2016)和LIAR假新闻检测(Wang,2017)数据集。对于谣言检测,任务是识别一条给定的新闻是否是谣言,而对于假新闻检测,则是识别假新闻或真新闻。我们遵循Devlin et al.(2019),其中[CLS]令牌用于分类。RFD数据集由来自谣言推文的PHEME数据集(5个域)的6个域组成(Zubiaga et al. ,2016)3和假新闻检测LIAR(Wang,2017)(1域)。请注意,PHEME中的域由不同的新闻事件(例如,特定的枪击事件)定义,而LIAR中的域由新闻类型(例如,政治)。我们有意选择这个数据集来评估不同方法的性能,当域仅仅是样本的分割而不是遵循一致的定义时。5.1.2度量对于每个实验,我们报告ROC曲线下面积(AUC)作为性能指标。两种类型的结果报告:宏观和微观。宏是通过对各个域计算的宏平均结果来计算的Micro是计算所有测试样本的平均性能,而不管它们的域分配。请注意,除了不平衡之外,类别标签的频率也存在不平衡(ASC、DSC中的正和负;RFD中的假和真3https://figshare.com/articles/dataset/PHEME_dataset_of_rumors_and_non-rumors/4010619在每个数据集的域中。为了确保结果的统计学显著性,使用随机种子和随机初始化重复每个实验5次,报告每个结果的平均值和标准偏差。5.1.3比较基线由于本研究的主要焦点是领域不平衡,为了解决我们的基准测试中存在的类不平衡,我们采用了现有的DRS方法(Cao et al. ,2019)用于所有实验。在我们的比较中,我们使用多任务学习(MTL)和领域不可知学习(D-AL)作为直观和直接的基线。此外,由于很少的工作已经做了MIL,我们适应最近的类不平衡系统MIL通过重新采样或重新加权的基础上域统计。对于每种情况,我们遵循与DCMI相似的架构比较的方法涵盖各种方法,包括:损失重新加权(D-DRW(Cao et al. ,2019))、正则化(D-Focal(Lin et al. ,2017))、重新采样(D-DRS(Cao et al. ,2019))、参数隔离 ( D-BBN ( Zhou et al. , 2020 ) 和 D-HybridSC(Wanget al. ,2021))和专家混合(D-MDFEND(Nan et al. ,2021))。请注意,模型名称中的前缀在这些方法中,D-DRW和D-DRS是重采样和重加权方法,一个延迟的训练计划正如Cao等人(2019)所建议的那样,重新采样或重新加权只有在80%的epoch已经训练之后才有效。D-focal是一种基于正则化的方法,它使用精心设计的针对不平衡数据量身定制的损失函数。D-BBN和D-HybridSC是两种最新的参数隔离方法,已显示出最先进的性能。D-MDFEND用于多领域虚假新闻检测,采用混合专家处理多领域转移和隔离。关于DCMI超参数,即(λ1,λ2),我们分别 对 ASC , DSC 和 RFD数 据 集 使 用 ( 50 ,6),(30,15)和(4,3)。指参见4.3节,了解超参数搜索空间和其他实现细节。5.2定量结果5.2.1与其他工作的表1列出了DCMI与其他基线的比较从该表中可以看出,DCMI在这两个指标上都始终优于其他竞争对手。+v:mala2277获取更多论文L−L型号DSC ASC RFD变更的ASC宏微观宏观微宏观微宏观微MTL(多任务学习)D-AL(领域不可知)74.1±3.180.6±3.077.3±3.881.3±3.080.0±1.882.5±2.384.1±0.784.8±1.757.4*68.8±2.959.1*70.2±2.676.3±2.951.9±1.084.9±2.461.1*D-DRS ( Cao et al. , 2019年)D-DRW ( Cao 等 人 ,2019 ) D-Focal ( Lin etal., 2017 ) D-BBN(Zhou et al. ,2020年)D-HybridSC ( Wang et al. ,2021年)76.3*80.6±3.474.84*79.2±3.782.4*76.6*80.9±3.274.97美元 *79.8±3.882.4±3.984.3±2.776.7*75.2*75.6*83.5±2.286.0±2.378.0*77.1*77.6*84.9±2.271.4±1.272.6±0.871.4±3.264.3*71.2±1.472.6±0.974.0±0.672.0±3.466.1*72.3±1.251.4±0.951.6±1.250.8±0.549.9±1.450.7±1.058.3*59.1*56.7*54.5±3.956.7*D-MDFEND(Nan et al. ,2021年)80.5±3.580.8*81.0±3.682.8±3.469.5±2.072.0±2.573.8*83.4*DCMI(本作品)83.7±1.383.8±1.385.0±0.787.2±0.474.2±1.274.1±1.077.8±1.985.2±1.4* 表示我们只报告平均结果,并且由于训练集较小或极端不平衡而存在收敛问题表1:DCMI(本工作)和其他基线的宏观和微观平均AUC结果比较具体而言,DCMI与其他基线相比数据效率更高,因为它有效地鼓励了跨部门的积极知识转移。在三个数据集中,DCMI对RFD的改善幅度最大。这可以归因于RFD中的结构域比ASC和DSC中的结构域更多样化。ASC和DSC中的情感分类域具有相似性,因为在这些任务中,积极或消极的情感通常用相似的单词/短语表达。例如,wonderful和terrible对于不同的任务/域具有类似的解释,以表达积极或消极的情绪。然而,假新闻或谣言中的表达方式要多样化得多,遵循更复杂的语义,有时甚至相互矛盾。例如,更有趣的是,在这种领域差异下,有选择地转移共同知识,同时防止负迁移变得至关重要,我们认为这项工作解决了这一问题。对于表1中所示的最新技术水平的方法,我们可以观察到不同数据集的混合MIL这是因为他们没有采用任何可行的机制来明确鼓励积极的转移。5.2.2非常不相似的数据我们声称DCMI是能够自适应地选择有用的知识(神经元),为一个给定的域,从而鲁棒性极不相似的做。型号DSC ASC RFD表2:DCMI的消融研究。“-dom“和“con“分别表示省略域分类和对比损失项。电源。为了证明这一点,我们创建了一个人为的情况下,域是非常不同的数据集的设计。具体来说,我们将ASC数据集分为两部分。第一部分包含前10个域,第二部分包含其他9个域。我们保持第一部分不变,同时反转第二部分的标签(即,将正翻转为负,反之亦然)。请注意,在诸如ASC的情感分类任务中,域是高度相关的,因此将一半域的标签反转会产生剧烈的域差异。表1显示了使用改变的ASC数据的结果。我们可以看到除了MTL和D-MDFEND之外的所有基线仅在50% AUC左右达到这是因为极高的域发散导致了严重的负迁移,使大多数基线难以 学习一个好的预测器。然而,MTL和D-MDFEND的表现优于其他基准,这可能是因为由于对不同域使用单独的头部而减少了负迁移在MTL和混合的专家在D-MDFEND。尽管如此,DCMI仍然优于MTL和D-MDFEND,这证实了DCMI不仅能够隔离特定领域的知识,而且还能够鼓励类似领域之间的正向转移,这是针对改变数据集的每个数据部分中的领域宏微观宏观微宏观微DCMI83.7±1.3 83.8±1.385.0±0.787.2±0.474.2±1.274.1±1.0-Ldom81.9±3.0 82.3±2.784.5±1.386.7±0.973.1±1.774.3±0.882.8±1.685.3±1.469.5±1.369.2±0.9-Ldom,Lcon 80.2±3.4 81.0±3.2+v:mala2277获取更多论文LLLLLLLLLLLLLLLLL域审查标签D-ALDCMI-Ldom,LconDCMI笔记本最好的部分是低热量输出和超安静的操作。P.N.P.P.MicroMP3禅是内在的禅。N.P.N.N.笔记本感觉很便宜,键盘不是很灵敏。N.P.P.N.餐厅楼下的酒吧很酷很冷。P.N.N.P.餐厅寿司被切成比我手机还大的块N.P.P.N.表3:不同方法对来自ASC数据集的一组选定测试样本的预测的定性比较(Ke et al. ,2021年)。斜体文本表示审查中的方面。“P”表示阳性和“N”表示否定赋值。5.2.3消融研究我们进行了消融研究,以分析每个客观条件的影响。该实验的结果示于表2中。这里,“- 请注意,如果我们除了dom和con之外还删除了域感知表示层,DCMI就变成了D-AL。根据表2中提供的结果,完整的DCMI系统给出了最佳结果,表明每个建议的组件对最终模型性能至关重要。5.3定性结果表3显示了ASC测试集的几个示例对于每个示例,我们显示了地面真值标签(第三列),D-AL,DCMI和DCMI-[dom,con]的预测。通过比较D-AL和DCMI-[dom,con],我们可以看到领域 感 知 表 示 层 的 有 效 性 。 通 过 对 DCMI 和DCMI-[dom,con]的比较,我们可以看出对比知识转移是否有效.在第一行中,然而,在“MP3”域中的“安静”耳塞表示消极的声音)。我们可以看到DCMI和DCMI -[dom,con]能够区分不同领域的同一情感词的不同极性,而D-AL则失败了,这表明DCMI中的知识选择能够学习区分性领域感知表示。在第二行中,我们可以看到D-AL错误地将评论视为积极的,因为“MP3”域中的训练数据量很小DCMI和DCMI -[dom,con]能够从相似的领域转移知识,因此能够做出正确的预测。表3的最后三行显示了只有DCMI是正确的。在“laptop”域(第三行)中然而,“便宜”可以表明积极的情绪在“笔记本电脑”领域,如果它是谈论软件领域。因此,仅考虑带注释的域(例如,类似地,“cool”和“chill”的极性不仅取决于数据集提供的域,而且取决于给定样本的域相关度最后一个案例是一个具有讽刺意味的表达,表明DCMI提供了对评论的更深层次的理解。除了所呈现的结果之外,我们还在附录中使用t-SNE对域感知表示层进行了可视化分析6结论在这项工作中,我们研究了从多域不平衡数据中学习的问题,其中不仅存在类不平衡,而且存在具有不同程度相似性的域之间我们提出了一种称为DCMI的新技术,能够识别可以转移以提高尾域性能的共享知识和需要小心处理以避免负转移的特定领域知识DCMI采用领域感知的表示层自适应地选择每个领域的相关知识,并利用一种新的对比学习目标来促进相关领域的知识转移。基于使用三个具有挑战性的多域不平衡数据集的实验,DCMI显示了对当前最先进技术的改进,并展示了对不同场景的适用性。引用Mateusz Buda,Atsuto Maki,and Maciej AMazurowski.2018年系统研究+v:mala2277获取更多论文卷积神经网络中的类不平衡问题。NeuralNetworks,106:249Kaidi Cao , Colin Wei , Adrien Gaidon , NikosArechiga,and Tengyu Ma.2019.使用标签分布感知的保证金损失学习不平衡数据集。NeurIPS,第1567Lu Cheng,Ruocheng Guo,K Selçuk Candan,andHuan Liu. 2020.不平衡跨领域分类的表示学习。在2020年SIAM国际数据挖掘会议论文集,第478-486页。暹罗。周新平,张世杰,潘家玉,魏伟,大诚娟。2020.混音:重新平衡混音。在欧洲计算机视觉会议上,第95-110页。斯普林格。Peng Chu,Xiao Bian,Shaopeng Liu,and HaibinLing. 2020.长尾数据的特征空间扩充。在计算机斯普林格。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。参见NAACL-HLT,第4171-4186页。计算语言学协会。Xiaowen Ding,Bing Liu,and Philip S Yu. 2008.一种基于整体词典的观点挖掘方法。2008年网络搜索和数据挖掘国际会议论文集,第231胡敏清和刘兵。2004.挖掘和汇总客户评论。在ACM SIGKDD的会议记录中,第168纳塔莉·雅普科维奇和沙朱·斯蒂芬2002.阶级不平衡问题:一个系统的研究。智能数据分析,6(5):429Mohammad Kachuee , Hao Yuan , Young-BumKim,and Sungjin Lee. 2021.会话代理中有效用户满意度预测的自监督对比学习。在计算语言学协会北美分会2021年会议论文集:人类语言技术,第4053紫萱柯、胡旭、柳冰。2021.自适应BERT用于一系列方面情感分类任务的持续学习。参见NAACL-HLT,第4746-4755页。计算语言学协会。金在亨,郑钟宪,申镇宇。2020. M2M:通过大到小翻译的不平衡分类。在IEEE/CVF计算机视觉和模式识别集,第13896Tsung-Yi Lin , Priya Goyal , Ross Girshick ,Kaiming He,and Piotr Dollár. 2017.密集物体探测的焦点损失。在IEEE国际计算机视觉会议论文集,第2980- 2988页。Jiarun Liu , Yifan Sun , Chuchu Han , ZhaopengDou,and Wenhui Li. 2020.长尾数据的深度表示学习:一个可学习的嵌入增强视角。见CVPR,第2970Qian Liu, Zhiqiang Gao,Bing Liu ,and YuanlinZhang.2015. 意见挖掘中面向抽取的自动规则选择在IJCAI。Ziwei Liu,Zhongqi Miao,Xiaohang Zhan,JiayunWang,Boqing Gong,and Stella X Yu. 2019.开放世界中的大规模长尾识别。在IEEE/CVF计算机视觉和模式识别会议论文集,第2537- 2546页。阿金克亚·莫尔2016.提高非平衡数据集分类性能的检 索 技 术 综 述 。 arXiv 预 印 本 arXiv :1608.06048。Qiong Nan , Juan Cao , Yongchun Zhu , YanyanWang,and Jintao Li. 2021. Mdbend:多域虚假新闻检测。第30届ACM信息知识管理国际会议论文集,第3343Jianmo Ni,Jiacheng Li,and Julian McAuley. 2019.使用远距离标记的评论和细粒度的方面来证明推荐。见EMNLP,第188-197页。Mengye Ren , Wenyuan Zeng , BinYang , andRaquel Urtasun. 2018.学习为强大的深度学习重新加权示例。国际机器学习会议,第4334-4343页。PMLR。Nikolaos Sarafianos , Xiang Xu , and Ioannis AKakadi- aris.2018.使用视觉注意力聚合的深度不平衡属性分类。见ECCV,第680-697页。Joan Serrà , Didac Suris , Marius Miron , andAlexandros Karatzoglou.2018.努力专注于任务,克服灾难性的遗忘。ICML,第4555-4564页。李申,林舟晨,黄清明。2016.中继反向传播用于深度卷积神经网络的有效学习在欧洲计算机视觉会议上,第467-482页。斯普林格。Peng Wang , Kai Han , Xiu-Shen Wei , LeiZhang,and Lei Wang. 2021.基于对比学习的混合网络用于长尾图像分类。见CVPR,第943威廉·杨·王。2017.“Liar,Liar Pants on Fire”:一个新的假新闻检测基准数据集。在ACL中,第422计算语言学协会+v:mala2277获取更多论文胡旭,刘兵,舒磊,和菲利普S. Yu. 2019. BERT后训练,用于复习阅读理解和基于方面的情感分析。参见NAACL-HLT,第2324-2335页。计算语言学协会。HongyiZhang , MoustaphaCisse , YannNDauphin,and David Lopez-Paz. 2018.混淆:超出经验风险最小化。在国际学习代表上。Boyan Zhou,Quan Cui,Xiu-Shen Wei,and Zhao-Min Chen. 2020. BBN:Bilateral-branch networkwith cumulative learning for long-tailed visualrecognition(用于长尾视觉识别的累积学习双边分支网络)见CVPR,第9719Arkaitz Zubiaga,Maria Liakata和Rob Procter。2016.在社交媒体中的谣言检测的突发新闻期间学习报告动态。CoRR,绝对值/1610.07363。+v:mala2277获取更多论文A详细数据集统计在表4、6和5中,我们提供了ASC、DSC和RFD数据集每个域对应列车验证测试家居装饰装修13 140 1 17 170 1760玩具游戏9 126 1 15 121 1575庭院草坪花园6 52 1 6 83 656工艺品缝纫2 35 1 4 2714 43844服装鞋首饰89 72611 90 1120 9075Kindle商店9 152 1 19 115 1909工业科学1 5 1 1 442 6821表4:DSC数据集的每个域中的样品数量和数据分割。“N”表示阴性标记和“P”。表示阳性标签。数据集域训练验证测试Ding9DomainsHL5域名20 19 26 70佳能D500 1 5 1 13 8 52诺顿2 9 8 16微型MP3 21 9 45 15 17073LinksysRouter7 3 20 2 59 30创意40G142835 50155 184ApexAD260012 9 26 17 87 8511 5 28 611422尼康4300 8 1 16 4 74 8卡农G3 11 2 21 7 89 26计算机13434110141假/真假真的假的/房Liu3Domains路由器9 6 19 12 73 50发言人19 2 31 1314036表6:每个域中的样本数量和LIAR政治199 168 26 16 250 211表5:RFD数据集每个域中的样本数量和数据分割。RFD由PHEME和LIAR数据组成。 表示阴性标记和表示阳性标签。表示阳性标签。域TraN.在P.验证N.P.不N.estP.奢侈美容12112602780电子614367547735459CD乙烯基799112891243电器11113184数字音乐1121140115883亚马逊时尚111121262办公产品4551655693书146183518229183422946礼品卡11114290食品杂货美食7771991970手机配件117118138890Prime Pantry191169212160家庭厨房534576576635719杂志订阅111122192宠物用品1913321
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功