没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文BERT对标签噪声鲁棒吗?文本分类作者:Michael A.Hedderich,Fangzhou Zhai,David Ifeoluwa Adelani Dietrich Klakow德国萨尔大学萨尔信息学院{dzhu,mhedderich,didelani,dietrich.klakow}@fzhai@coli.uni-saarland.de摘要当人类注释者犯错误或数据是通过弱监督或远程监督生成时,训练数据中的错误标签就会发生。已经表明,需要复杂的噪声处理技术-通过建模、清理或过滤噪声实例-来防止模型拟合该标签噪声。然而,我们在这项工作中表明,对于使用BERT等现代NLP模型的文本分类任务,在各种噪声类型上,前向噪声处理方法并不总是提高其性能,甚至可能会使其恶化,这表明需要进一步研究。我们还通过全面的分析来支持我们的观察。1介绍对于许多语言、领域和任务来说,无法获得具有高质量标签的大型数据集。为了解决这个问题,已经提出了更便宜的数据采集不幸的是,与黄金标准数据相比,这些方法会带来更多的标签错误,即所谓的噪声标签。噪声处理已经成为一种既定的方法,以减轻学习的负面影响与嘈杂的标签。已经提出了对噪声进行建模或对 噪 声 实 例 进 行 清 洁 和 过 滤 的 各 种 方 法(Hedderich等人,2008)。,2021;Algan和Ulusoy,2021)。 Jindal等人 (2019)展会例如,在基于CNN的文本分类器上应用噪声处理技术后,性能提高了30%。在 最 近 的 一 项 工 作 中 , Tänzer 等 人 。(2021)表明BERT(Devlin et al. ,2019年)具有对噪声标签的固有鲁棒性。在干净分布上的泛化性能只会随着误标样本的增加而此外,他们还表明,早期停止对于使用噪声标签进行学习至关重要,因为BERT在长时间0.940.920.900.880.860.840.820.80025005000750010000125001500017500训练迭代图1:带噪声学习时的典型训练曲线。没有噪声处理的学习(蓝色)将在记住噪声之前达到峰值在有噪声的验证集(垂直灰线)上的早期停止通常足以找到这样的峰值。在AG-News数据集上注入了40%的均匀噪声。够了然而,他们的实验只关注单一类型的噪音和有限的噪音水平范围。目前还不清楚BERT是否仍然在更广泛的噪声类型和更高比例的错误标记样本下表现出色此外,它们在干净的验证集上执行早期停止,这在低资源设置下可能不可用最后但并非最不重要的是,它们无法与任何噪声处理方法进行比较在这项工作中,我们研究了BERT在不同噪声类型和噪声水平下的行为。我们还研究了这些设置下的噪声处理方法的效果。我们的主要结果包括:(1)BERT算法对注入噪声具有较好的鲁棒性,但对弱监督噪声有一定的鲁棒性。事实上,即使在低水平下,后者也可能比高注入噪声更具挑战性。(2)现有的噪声处理方法在我们研究的任何噪声设置下都没有提高BERT的峰值性能;如进一步分析所示,噪声处理方法很少使正确的标签与不正确的标签区分开来11我们的实现可以在github.com/uds-lsv/BERT-LNL上找到。arXiv:无噪音处理合作教学噪声矩阵正则化标记平滑噪声模型[中文2022年4月测试精度+v:mala2277获取更多论文Y{}i=1∈k−,对于i/=j1|·|·|2学习噪音标签数据集班级平均数火车验证测试火车问题设置我们考虑一个k类分类问题.令D表示X × Y上的真实数据生成分布,其中X是长度 样品样品样本噪音水平特征空间且= 1,...,k是标签空间。在一个典型的分类任务中,表1:文本分类数据集的统计数据列车噪声水平是错误发现率(即,1-精度)对于训练数据集S={(xi,yi)n}采样训练集中的噪声标签AG新闻从i=1D. 然而,在使用噪声标签的学习中,我们有120k个训练实例,没有验证实例。因此,我们保留了10%的训练样本用于验证。无法访问D。 相反,一个嘈杂的训练集S={(xi,yi)n}从标签损坏的ed采样数据分布 我们的目标是学习一个类筛选器,它只利用S语言就能很好地概括干净的发行版。注入标签噪声为了严格评估不同噪声水平下的噪声处理方法,该领域的研究人员通常通过注入噪声从干净的数据集构建噪声这可以例如,反映注释场景,例如众包,其中一些注释者随机回答或偏好选项列表中的早期条目。通过根据预定义的噪声水平ε[0,1)和噪声类型翻转干净实例的标签来实现对这种噪声进行有两种常用的噪声类型:单翻转噪声(Reed etal. ,2015年):1−ε,fori=j/3噪声验证集当在没有噪声处理的噪声数据上训练时,BERT在开始拟合噪声之前就达到了很高的泛化性能然后,它会记住噪声,干净分布的性能会急剧下降(图1中的蓝色曲线)。因此,对于没有噪声处理的模型,当泛化性能达到最大值时停止训练至关重要。Tänzer et al.(2021)使用一个干净的验证集来找到这一点。然而,在现实的低资源场景中,干净的验证集通常不可用,因为它需要手动注释。因此,我们在所有的实验中使用了一个有噪声的验证集来进行早期停止,并且我们获得了在干净分布上泛化良好的模型。在图1的示例中,我们看到,p sfli p(y=j|y=i)=ε,对于i=j100,其他大多数噪声处理方法阻止BERT从长远来看,他们的噪音峰值,和均匀翻转(van Rooyen et al. ,2015)噪音pun i(y=j|y=i)=.1ε−ε,对于i=j。这些噪声生成过程是与特征无关的,即p(y=i,x)=p(y=i)。因此,它们可以由具有Tij:=p(yij=jy=i)的噪声转换矩阵T来描述。通常假设在生成噪声标签时噪声是对角占优的,即,i,Ti i>maxj=iTij。来自弱监督的标签噪声距离和弱监督(Mintzet al. ,2009; Rat-neret al. ,2016)已经成为在低资源场景中获取标记数据的基本方法。与注入噪声不同,所产生的噪声通常取决于特征(Lange et al. ,2019)。我们评估了我们的方法在两个现实世界的数据集在豪萨和约克夏,以涵盖这种类型的噪音。在没有噪声处理的情况下,噪声并不显著高于普通模型。4实验数据集构建我们用四个文本分类数据集进行实验:两个基准,AG- News(Zhang et al. ,2015)和IMDB(Maas et al. ,2011),注入不同水平的单翻转或均匀噪声;对于弱监督噪声,我们使用两种低资源语言的两个新闻主题数 据 集 : 豪 萨 语和 约 尔 巴 语 ( Hedderichetal. ,2020)。豪萨语和约阿希姆巴语是非洲第二和第三大土著语言,分别有4000万和3500万母语使用者(Eberhard et al. ,2019)。这些嘈杂的标签被编入地名词典。例如,为了识别“非洲”类的文本,使用基于非洲国家及其首都列表的标签规则。请注意,虽然我们可以改变注入噪声的噪声水平,但弱监督IMDb229221246 375425000各种AG新闻444108000 120007600各种约里扬巴7131340 18937933.28%豪萨5102045 29058250.37%+v:mala2277获取更多论文在豪萨和Yorkebá噪音是固定的2.我们在表1中总结了数据集的一些基本统计数据。实现我们使用现成的BERT模型来完成我们的任务。具体来说,我们将BERT基础模型应用于AG-News和IMDB,将mBERT基础模型应用于Yorkebá和Hausa。微调方法如下(Devlin etal. ,2019)。在所有的设置中,我们在一个嘈杂的验证集上应用早期停止来模拟现实的低资源设置,而测试集保持干净。有关更多实现细节以及关于干净和噪声验证集的讨论,请参见附录B和E。4.1基线我们比较了没有噪声处理的学习和四种流行的噪声处理方法。3没有噪音处理列车BERT在嘈杂的训练集,因为它是干净的。噪声验证集用于早期停止。为了进行比较,我们在没有噪声处理的情况下训练模型,直到训练损失收敛。噪声矩阵在BERT预测后附加噪声转移矩阵,将干净标签分布转换为有噪声的标签分布。存在 多 种 用 于 估 计 噪 声 矩 阵 的 方 法 , 即Sukhbaatar等人(2015); Bekker和Goldberger(2016); Patrini等人(2016)。 (2017);Hendrycks等人(2018); Yao等人(2020)。为了排除评估中估计误差的影响,我们使用地面真实转移矩阵,因为它是最好的可能估计。该矩阵在初始化后是固定的。具有正则化的噪声矩阵具有噪声标签的文本分类的最新技术水平(Jindal et al. ,2019)。与噪声矩阵类似,它在BERT的输出后附加一个噪声矩阵在训练过程中,矩阵是用l2正则化学习的,不一定要归一化为概率矩阵。在最初的实现中,他们使用基于CNN的模型作为骨干,我们将其切换到BERT进行公平比较。Han et al. (2018)训练两个网络,以选择彼此更干净的训练子集。合作教学框架需要评估2详细噪声分布见附录A3为了进行公平的比较,对所有四种噪声处理方法都应用了噪声验证集的早期停止。噪音水平。与NMat类似,我们使用地面真实噪声水平来排除由估计误差引起的标签平滑标签平滑(Szegedyet al. ,2016)是一种常用的方法,以提高模型的泛化和校准。它将一个热门标签与一个统一的向量混合在一起,防止模型对样本过于自信。Lukasik等人(2020)进一步表明,它提高了噪声鲁棒性。4.2实验结果我们评估了注入噪声(在AG-News和IMDB上)和弱监督噪声(在Hausa和Yorkebá上)的基线。试验准确度见图2。关于注入噪声,我们的结果匹配并扩展了Tänzer等人的研究结果。 (2021)BERT是噪声鲁棒的。例如,在注入70%错误标签后,测试准确度仅下降约10%(图2(a))。然而,我们发现,BERT是脆弱的弱超视噪声。与使用干净标签的训练相比,在具有50%弱超视觉噪声的Hausa等数据 集 中 , 性 能 可 以 下 降 高 达 35% ( 图 2(c))。这表明注入噪音的经验可能无法转移到弱监管噪音。我们还观察到,噪声处理方法并不总是有用的。对于注入噪声,噪声处理的好处只有在高噪声水平下才变得明显。但即使这样,也没有明显的赢家,这意味着很难事先决定这同样适用于弱监督噪声。在注入噪声和弱监督噪声下,最佳模型与未经噪声处理的BERT之间的最大性能差距分别小于4%和1.5%。4.3损失分布为了解释为什么BERT对注入噪声而不是弱监督噪声具有鲁棒图4描述了当触发提前停止时,分别与正确和不正确标记的样本相我们看到它们有最小的重叠,因此在整个训练过程中有不同的行为,潜在地允许模型区分正确和错误标记的sam。+v:mala2277获取更多论文无噪音处理合作教学噪声矩阵噪声矩阵的正则化标记平滑没有验证无噪音处理合作教学噪声矩阵噪声矩阵的正则化标记平滑没有验证测试精度AG新闻,均匀的噪音IMDB,单翻转噪声Yor`ub'a和豪萨语,weaksupervisionnoise90 908080 80706070 705060 604050 503040清洁0.40.6 0.740清洁0.2 0.4 0.45干净(Yor`ub′a)嘈杂(Yor`ub'a)干净(豪萨语)嘈杂(豪萨语)噪音水平(a) AG新闻,均匀的噪音噪音水平(b) IMDB,单翻转噪声噪音水平(c) Yorkebá Hausa,弱监督噪声图2:不同噪声设置下的测试精度a)b)具有不同噪声级的注入噪声c)弱监督噪声,在约鲁巴和豪萨的噪声级分别为33.28%和50.37%。噪声处理方法并不总是提高峰值性能。附录C中的其他图。1.01.01.00.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(a) AG-News-70%均匀噪音0.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(b) Yorkebá-弱监督噪声0.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(c) 豪萨语-弱监督噪声图3:使用损失的错误标签检测(二元分类)的ROC曲线。当触发提前止损时,在训练步骤中记录损失。噪声处理方法不能使正确和不正确标签的丢失更容易区分。附录D中的其他图。300025002000150010005000正确标签损失错误标签0.0 0.2 0.4 0.6 0.8 1.0损失可能是弱监督中的噪声是依赖于特征的,BERT可能更容易拟合它们,这反过来又会恶化泛化。(3)当应用噪声处理方法时,我们没有观察到AUC分数的提高,这表明噪声处理方法很少增强BERT这与第4.2节中的观察一致,即噪声处理图4:触发提前停止时训练迭代的损失直方图。AG-News数据集,具有70%的均匀噪声。互相问候我们可以通过它们的可分性进一步量化图3显示了基于阈值的分类器的受试者工作特性(ROC)我们观察到,(1)在注入噪声下,在没有噪声处理的情况下可以容易地实现大 于 90 的 曲 线 下 面 积 ( AUC ) ( 图 3(a)),这支持了我们的观察,即注入噪声对BERT具有相当低的影响(2)在弱监督噪声下,AUC得分显著降低,这意味着正确和不正确的标签难以区分。因此,BERT以相似的速率拟合这两个标签。一个原因方法对BERT的泛化性能几乎没有影响5结论在几个文本分类数据集上,对于不同的噪声类型,我们表明BERT在注入噪声下具有抗噪性,但在弱监督噪声下不一定具有抗噪性。在这两种情况下,通过应用噪声处理方法获得的改善是有限的。我们对正确和不正确标记样本对应的损失的可分性的分析为这一论点提供了证据我们的分析为进一步改进标签噪声处理方法提供了动力和见解,并使它们对更真实的噪声类型有用无噪音处理合作教学噪声矩阵噪声矩阵的正则化标记平滑没有验证无噪声处理[AUC = 0.766]共同教学[AUC= 0.678]噪声矩阵[AUC = 0.799]正则化噪声模型[AUC = 0.659]标签平滑[AUC =0.772]无噪声处理[AUC = 0.957]共同教学[AUC= 0.901]噪声矩阵[AUC = 0.961]正则化噪声模型[AUC = 0.947]标签平滑[AUC =0.963]无噪声处理[AUC = 0.652]共同教学[AUC= 0.622]噪声矩阵[AUC = 0.650]正则化噪声模型[AUC = 0.577]标签平滑[AUC =0.652]真阳性率测试精度频率真阳性率测试精度真阳性率+v:mala2277获取更多论文6更广泛的影响声明和道德规范嘈杂的标签是一个更便宜的监督来源。这可以使机器学习更容易用于不适当的用例。然而,它也为低资源环境开辟了NLP方法,例如资源不足的语言或由个人或小型组织开发的应用程序。因此,它可以成为AI民主化的一步致谢这项工作得到了德国研究基金会(DFG,德国研究基金会)的部分资助-项目ID 232722074 -SFB 1102和欧盟地平线2020项目ROX- ANNE(赠款编号833635)和COM- PRISE(赠款协议编号1000000000000000000000000000000000000000000000000000000)3081705引用Görkem Algan和Ilkay Ulusoy。2021. 在存在噪声标签进行图像分类:调查。基于知识的系统,215:106771。艾伦·约瑟夫·贝克和雅各布·戈德伯格。2016. 基于不可靠标签2016年IEEE声学、语音和信号处理国际会议,ICASSP 2016,中国上海,2016年3月20-25日,第页2682-2686. 美国电气与电子工程师协会。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,NAACL-HLT 2019 , 明 尼 阿 波 利 斯 , MN , 美国,2019年6月2日至7日,第1卷(长和短纸张),第4171-4186页。计算语言学协会。David M. 埃伯哈德, Gary F. 西蒙斯 和查尔斯D. Fennig(eds.)2019. 民族语:世界语言。第二十二版。Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,Miao Xu , Weihua Hu , Ivor W. Tsang , andMasashi Sugiyama. 2018. Co-teaching:对具有极强噪声标签的深度神经网络进行鲁棒训练。在神经信息处理系统的进展31:2018年神经信息处理系统年会上,NeurIPS 2018年12月3日至8日,加拿大蒙特利尔,第8536Michael A. 放 大 图 片 创 作 者 : David IfeoluwaAdelani , Dawei Zhu , Jesujoba O.Escherichi ,Udia Markus,and Dietrich Klakow. 2020. 多语言Transformer模型的迁移学习和远程监督研究非洲语言。在2020年自然语言处理经验方法会议论文集,EMNLP 2020,在线,2020年11月16日至20日,第2580-2591页。计算语言学协会。Michael A. Hedderich,Lukas Lange,Heike Adel,Jan-nik Strötgen ,and Dietrich Klakow. 2021. 对低资源场景中的调查。在计算语言学协会北美分会2021年会议的会议记录中:胡曼语言技术,第2545-计算语言学协会。丹·亨德里克斯,曼塔斯·马泽卡,邓肯·威尔逊,凯文·金佩尔。2018. 使用可信数据在被严重噪声破坏的标签上训练深度网络。在神经信息处理系统的进展31:2018年神经信息处理系统年会,NeurIPS 2018年12月3日至8日,加拿大蒙特利尔,第10477Ishan Jindal , Daniel Pressel , Brian Lester , andMatthew S.诺克比2019. DNN文本分类的有效标签噪声模型。在计算语言学协会北美分会2019年会 议 论 文 集 : 人 类 语 言 技 术 , NAACL-HLT2019,明尼阿波利斯,MN,美国,2019年6月2日至7日,第1卷(长论文和短论文),第3246-3256页。计算语言学协会。放 大 图 片 作 者 : Michael A. Hedderich 和 DietrichKlakow 2019. 具有噪声标签的低资源NER标签依赖于混淆矩阵。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议( EMNLP-IJCNLP ) 的 会 议 记 录 中 , 第 3554-3559页计算语言学协会。Michal Lukasik , Srinadh Bhojanapalli , AdityaMenon,and Sanjiv Kumar. 2020.标签平滑是否会导致标签噪声?国际机器学习会议,第6448-6458页。PMLR。安德鲁湖作者:Raymond E.彼得·戴利放大图片作者:Andrew Y. Ng和Christopher Potts。2011. 学习 词 向 量 进 行 情 感 分 析 。 在 The 49th AnnualMeeting of the Association for ComputationalLinguistics : Human Language Technologies ,Proceedings of the Conference , 19-24 June ,2011,Portland,Oregon,USA,pages 142-150中。计算机语言学协会。迈克·明茨,史蒂文·比尔,瑞恩·斯诺,丹尼尔·朱拉夫斯基. 2009. 无标记数据关系抽取的远程监控。 在ACL的第47届年会和AFNLP的自然语言处理的第4届国际联合会议的联合会议的会议记录中,第1003-1011页,Suntec,新加坡。计算语言学协会。+v:mala2277获取更多论文Giorgio Patrini,Alessandro Rozza,Aditya KrishnaMenon , Richard Nock , and Lizhen Qu. 2017.Mak-ing deep neural networks robust to labelnoise:Aloss correction approach.在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,檀香山,HI,美国,2017年7月21日至26日,第2233-2241页。IEEE计算机协会。Alexander J Ratner , Christopher M De Sa , SenWu , Daniel Selsam ,and Christopher Ré. 2016.数据编程:快速创建大型训练集。神经信息处理系统进展,第29卷。Curran Associates,Inc.斯 科 特 ·E Reed , Honglak Lee , DragomirAnguelov,Christian Szegedy,Dumitru Erhan,and Andrew Ra- binovich. 2015. 使用自举在噪声标签上训练深度神经网络。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中,研讨会跟踪程序。Sainbayar Sukhbaatar , Joan Bruna , ManoharPaluri,Lubomir Bourdev,and Rob Fergus. 2015.用噪声标签训练卷积网络。第三届国际学习表征会议,ICLR2015。Christian Szegedy , Vincent Vanhoucke , SergeyIoffe,Jonathe Shlens,and Zbigniew Wojna. 2016.重新思考计算机视觉的初始架构。2016年IEEE计算机视觉和模式识别会议(CVPR),第2818Michael Tänzer , Sebastian Ruder , and MarekRei.2021年BERT记忆和低资源sce-narios陷阱。CoRR,abs/2105.00828。Brendan van Rooyen , Aditya Krishna Menon 和Robert C.威廉姆森2015年。学习与对称标签噪音:被精神错乱的重要性。在Advances in NeuralInformationProcessingSystems28 : AnnualConferenceonNeuralInformationProcessingSystems 2015中,2015年12月7-12日,加拿大魁北克省蒙特利尔,第10Yu Yao , Tongliang Liu , Bo Han , MingmingGong,Jiankang Deng,Gang Niu,and MasashiSugiyama. 2020. Dual T:减少标签噪声学习中转换矩阵的估计误差。 在神经信息处理系统的进展33:神经信息处理系统2020年年度会议,NeurIPS 2020,2020年12月6日至12日。XiangZhang , Junbo Jake Zhao , and YannLeCun.2015年。用于文本分类的更高级卷积网络。在神经信息处理系统的进展28:神经信息处理系统年会2015年,12月7日-12,2015,Montreal,Quebec,Canada,第649- 649页657.+v:mala2277获取更多论文一 关于Yorkba-Hausa的噪声矩阵Yorkebá和Hausa的训练集和验证集有两组标签:人类注释的(干净的)标签和从弱监督中获得的标签。这使得可以计算训练集中的真实噪声矩阵。图5显示了Yorkebá和Hausa中的噪声矩阵。第4节中评估的噪声矩阵方法使用这两个矩阵进行初始化。弱监督中的标记规则在(Hedderich et al. ,2020)。Yorkebá数据集具有相当低的噪声水平,并且对角主导噪声假设在训练集中成立不幸的是,Hausa训练集非常嘈杂。对于标签“尼日利亚”,错误的标签是压倒性的,违反了对角主导噪声假设。“政治”这个标签此外,许多标签被错误地识别为标签“世界”,这些因素使得克服该数据集中的噪声非常具有挑战性。AG新闻,单翻转噪声908070605040清洁0.2 0.4 0.45噪音水平图6:在具有单翻转噪声的AG-News数据集上的测试准确度(%)不同数据集和噪声设置下的CBERT性能我们在不同的噪声设置和不同的数据集下评估基线。完整结果见表4和表5。在图6中可以看到AG-News上带有单翻转噪声的结果的可视化(其他图可以在主论文中找到)。BERT清楚地显示了其对注入噪声的鲁棒性。虽然噪音处理方法在高噪音水平下确实有帮助,但效果有限(小于4%)。与注射相比健康政治世界体育非洲尼日利亚娱乐性(a) 约里扬巴健康尼日利亚政治非洲世界(b) 豪萨噪声,来自弱监督的噪声对于BERT来说更具挑战性,特别是在Ha- sua数据集上。对于这两种噪声类型,没有一种噪声处理方法在所有设置下都优于没有噪声处理的简单基线方法。D更多ROC曲线图5:从Yorkebá(豪萨)训练集构建的噪声矩阵。B在干净和有噪声的验证集我们比较了使用噪声验证集而不是干净验证集时模型性能的差异。表2显示了具有注入噪声的数据集的结果。对于低于60%均匀噪声或40%单翻转噪声的噪声水平,我们看到差异通常小于0.5%,这表明带噪声的验证集已经可以作为泛化误差的良好估计量。在更高的噪声水平下,差异可高达2.14%。对于弱监督下获得的数据集,差异一般较高。表3总结了约克夏语和豪萨语的区别在图7中,我们展示了在不同设置下注入噪声的其他ROC曲线。很明显,当噪声水平增加时,AUC降低。然而,即使在注入噪声的极高噪声水平下,绝对AUCE实现细节数据集我们使用以下四个数据集进行实验:AG-News,IMDB,Yorkebá和Hausa。1. AG-News:来源于AG,这是一个大型的新闻文章集合。Zhang等人(2015)从AG集合构建了AG-News数据集,并将其用作文本分类的基准数据集。2. IMDB:由带有二进制标签的电影评论组成它是一个常用的基准450000601248540605024201291101236110003705027883385912915648113045182168832341472158346240094111255424271581062681558420无噪音处理合作教学噪声矩阵噪声矩阵的正则化标记平滑没有验证测试精度+v:mala2277获取更多论文无噪声处理[AUC = 0.913]共同教学[AUC= 0.930]噪声矩阵[AUC = 0.938]正则化噪声模型[AUC = 0.939]标签平滑[AUC =0.908]无噪声处理[AUC = 0.867]共同教学[AUC= 0.911]噪声矩阵[AUC = 0.910]正则化噪声模型[AUC = 0.870]标签平滑[AUC =0.877]真阳性率∈AG-News IMDB均匀单翻转40% 60% 70% 20% 40% 45% 20% 40%性能差异(%)0.10± 0.09 0.56± 0.50 1.96± 0.97 0.06± 0.07 0.29± 0.19 2.00± 0.60 0.14± 0.19 1.71± 2.05 1.76± 2.79表2:基于早期停止的测试准确度与干净验证和噪声验证集之间的平均性能差异(%)和标准偏差(5次试验)1.01.01.00.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(a) AG-News-60%均匀噪音0.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(b) AG-News-40%单翻转噪声0.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(c) AG-News-45%单翻转噪声1.0 1.00.8 0.80.6 0.60.4 0.40.2 0.20.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(d) IMDB-40%单翻转噪声0.00.0 0.2 0.4 0.6 0.8 1.0假阳性率(e) IMDB - 45%单翻转噪声图7:当触发提前止损时,在训练步骤记录损失。噪声处理方法不能使正确和不正确标签的丢失更容易区分。豪萨FT TP+FT FT TP+FT性能差异(%)1.93± 1.711.00± 0.701.08± 0.791.92± 1.64表3:基于清洁验证集和噪声验证集的早期停止的测试准确度之间的平均差异(%)和标准偏差用于文本分类的数据集3. Yorkebá:数据集是从BBC Yorkebá新闻标题和噪声数据集创建的(Hedderich etal. ,2020)。4. 豪萨语:与Yorkebá类似,豪萨语数据集和相应的噪声数据集是由Hedderich等人(2020)从VOA豪萨语新闻标题和远程监督使用关键词创建的。我们使用官方的BERT基础模型(Devlin etal. ,2019)用于AG- News和IMDB上的文本分类。它由一个嵌入层、一个12层编码器和一个池化层组成它包含总 共 110M 参 数 。 我 们 使 用 多 语 言 版 本 的BERT-base对Yorkebá和Hausa进行文本分类。它具有与原始BERT基础模型相同的它还具有110M训练参数。文本分类任务的微调对于vanilla模型(本文中的无噪声处理和无验证模型),我们将[CLS]令牌表示的最后一层(R768)传递给前馈层进行预测。噪声矩阵和正则化噪声矩阵在模型预测 后 附 加 一 个 噪 声 矩 阵 NRk×k 对 于 NoiseMatrix,我们使用地面真值信息初始化矩阵。以下(Jin-dal et al. ,2019),当应用具有正则化的噪声矩阵时,我们使用单位矩阵初始化噪声矩阵。选择具有正则化、协同教学和标签平滑的噪声矩阵的超参数,使得模型在噪声验证集上表现最佳。在所有设置中,使用的批大小为32,无噪声处理[AUC = 0.975]共同教学[AUC= 0.970]噪声矩阵[AUC = 0.978]正则化噪声模型[AUC = 0.977]标签平滑[AUC =0.977]无噪声处理[AUC = 0.967]共同教学[AUC= 0.945]噪声矩阵[AUC = 0.992]正则化噪声模型[AUC = 0.945]标签平滑[AUC =0.957]无噪声处理[AUC = 0.949]共同教学[AUC= 0.930]噪声矩阵[AUC = 0.992]正则化噪声模型[AUC = 0.921]标签平滑[AUC =0.932]真阳性率真阳性率真阳性率真阳性率+v:mala2277获取更多论文AG-News IMDB均匀单翻转清洁40% 60% 70% 20% 40% 45%清洁20% 40% 45%NV 94.07±0.1384.48±0.7861.61±3.1843.78±5.0790.46±0.3776.06±0.3364.74±0.9494.03±0.1386.34±0.7765.05±0.9058.97±1.26CT-92.18±0.2189.90±0.3884.74±2.5693.33±0.1290.62±0.53 87.99±1.64-92.32±0.2789.36±0.67 83.77±3.88NMat-92.25±0.14 89.91±0.48 83.9±1.87 93.91±0.1593.13±0.3192.93 ±0.51 -92.07±0.2187.13±0.44 78.82±1.37女权机构 93.64±0.06 92.02±0.20 89.91±0.33 84.77±2.24 93.03±0.17 90.23 ±0.65 88.93±0.6893.68±0.149 2 . 1 2 ±0.35 85.94±0.86 80.17±2.57LS 94.43±0.19 92.45±0.21 89.79±0.38 86.64±0.78 93.56±0.23 92.40±0.33 90.94±0.8694.06 ±0.09 92.13±0.43 87.22±1.39 80.61±2.48WN 94.40±0.1392.40±0.2589.53±0.7585.49±0.7693.80±0.0892.33±0.3588.94±0.9293.98±0.1592.13±0.2185.88±2.7880.12±4.09表4:AG-News和IMDB上的平均测试准确度(%)和标准偏差(5次试验),具有均匀和单翻转噪声。NV:无噪声处理,无验证集,即在不进行噪声处理的情况下训练模型,直到训练损失收敛。CT:合作教学。NMat:噪声矩阵。NMwR:带正则化的噪声矩阵。LS:标签平滑。CT和NMat相当于清洁设置中的WN。请注意,由于IMDB是一个二进制分类任务,在这种情况下,单翻转噪声相当于均匀噪声。豪萨净噪声净噪声NV 74.11±0.26 63.88±1.5983.02±0.4546.98±1.01CT-61.37±1.58 - 31.65±2.71NMat-65.96±0.81 - 46.58±0.88NWwR 73.78±0.32 61.32±0.71 83.21±0.40 35.36±3.60LS 74.22±0.37 65.44±1.67 83.44±0.35 46.44±0.78WN 74.45±0.32 64.72±1.45 83.55±0.47 46.97 ±0.81表5:Yorkebá和Hausa的平均测试准确度(%)和标准偏差(10次试验),噪音来自弱监督。NV:无噪声处理,无验证集,即在不进行噪声处理的情况下训练模型,直到训练损失收敛。CT:合作教学。NMat:噪声矩阵。NMwR:带正则化的噪声矩阵。LS:标签平滑。平均工时(小时)AG新闻IMDb约里扬巴豪萨CT54.5*0.1*0.1*NMat2.580.1*0.1*女权机构380.1*0.1*LS2.580.1*0.1*WN2.580.1*0.1*表6:每种方法的平均运行时间(小时)。带“*”的数字其他实验在Nvidia GeForce GTX TITAN X上运行。学习速率设置为2 e-5。我们训练所有模型,直到训练损失收敛。然而,我们报告的是模型在训练期间在验证集上表现最好的分数,除了我们报告最后一个epoch性能的No Validation基线硬件和平均速度我们使用Nvidia Tesla V100和Nvidia GeForce GTX TI- TAN X来加速训练。每个方法和数据集的平均运行时间总结在表6中。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功