没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文bitsa_nlp@LT-EDI-ACL 2022:利用预训练语言模型检测社交媒体评论中的同性恋恐惧症和变性恐惧症Vitthal Bhandari和 Poonam GoyalBirla Institute of Technology and Science,Pilani,Indiaf20170136p@alumni.bits-pilani.ac.inpoonam@pilani.bits-pilani.ac.in摘要在线社交网络无处不在,用户友好。尽管如此,检测和适度的攻击性内容以保持礼貌和同情心是至关重要的。然而,挖掘社交媒体文本是一项复杂的任务,因为用户评论可以用任何语言组合编写,其中许多可能是低资源的。在本文中,我们提出了我们的系统,用于检测社交媒体评论中的我们的实验与一些单语和多语言的Transformer为基础的模型,如mBERT随着数据增强技术,以解决类的不平衡。这种预训练的大型模型最近在自然语言处理的各种基准任务上取得了巨大的成功我们观察了他们的表现,仔细注释,现实生活中 的YouTube评论数据集,英语以及泰米尔语。我们的提交达到排名9,6和3,宏观平均F1得分为0。42,0。64和0。58在英语,泰米尔语和泰米尔英语子任务分别。系统的代码已经开源1。1介绍21世纪的社交媒体已经成为两极分化的观点,争论和索赔的中心。信息获取的便利不仅有利于富有成效的讨论,而且也助长了仇恨言论和网络欺凌等现象。最近组织的研讨会和共同任务促进了围绕仇恨言论、毒性、厌女症、性别歧视、种族主义和侮辱性内容检测的讨论(Zampieri等人,2009年)。,2020; Mandl等人,2020)。虽然对社交媒体中攻击性语言的处理和分类的研究非常广泛(Pamungkas et al. 2021年),几乎没有工作。1 该 任 务 的 代 码 可 在 github.com/vitthal-bhandari/Homophobia-Transcomobia-Detection上找到。尤其是在发现性取向歧视方面。更重要的是,与英语和日语等资源丰富的语言相比,泰米尔语和马拉雅拉姆语等印度语尽管大型多语言模型的进步促进了印度语言的跨语言迁移学习(Dowla-gar和Mamidi,2021),但还没有任何明显的尝试来审查同性恋恐惧症和跨性别恐惧症。将主题视为禁忌的观念阻碍了数据收集、注释和分析的进步遏制敏感的在线内容对于防止对社区心理健康的伤害以及避免少数群体之间的分裂这些原因促使人们需要缓和社交媒体上对LGBTQIA+人群传播任何形式仇恨的虽然对同性恋/变性恐惧症的检测和印度语言的相应研究都服务不足,资源不足,但导致处理社交媒体文本困难的另一个因素是代码混合-一种多语言使用者在对话中切换两种或多种语言的现象,目的是更好地表达。流行的语言模型在应用于代码混合文本时往往表现不佳,因此需要采用更新的技术来处理这种情况(D ogruözet al. ,2021年)。预 训 练 和 微 调 范 式 充 分 利 用 了 基 于Transformer的大型多语言模型,这些模型在跨语言场景中表现良好。在本文中,我们探讨了一些这样的模型的性能时,微调检测同性恋恐惧症和跨性别恐惧症的数据集。令人惊讶的是,我们的实验还表明,这些多语言模型在代码混合任务中表现出相当准确的性能,即使在预训练期间没有任何先前的arXiv:2203.14267v1 [cs.CL] 2022年3月+v:mala2277获取更多论文论文的其余部分组织如下:第二部分讨论了该领域以前的相关工作。第3节详细解释了系统中使用的方法,第4节描述了用于实现结果的相应实验设置我们在第5节中提到详细的结果,并在第6节中结束我们的讨论。2相关工作据我们所知,在最近的文献中,还没有直接确定同性恋恐惧症或变性恐惧症的先前工作。然而,一般来说,在过去,达罗毗荼语中的攻击性 语 言 检 测 一 直 是 多 个 研 究 工 作 的 焦 点( Chakravarthi et al. , 2021 a; Mandl等 人 ,2020)。Baruah 等 人 (2021 ) 在 HASOC-Dravidian-CodeMix-FIRE 2020上,使用代码混合马拉雅拉姆语文本的TF-IDF特征和代码混合泰米尔语文本的基于XLM-RoBERTA的分类器训练SVM分类器,Sai和Sharma(2020)微调了多语言Transformer模型,并使用了一种bagging集成策略来组合对同一任务的预测。Saha等人(2021)通过使用FastText以及微调的BERT模型集成在跳跃词向量上训练的CNN来一个神经分类头训练的级联输出从en-animals获得。由于多语言Transformer模型缺乏直接从代码切换文本中提取语言特征的复杂性,因此也已经部署了许多方法来解决印度语言中的代码混合问题Vasantharajan和Thayasi-vam(2021)使用选择性翻译和音译技术处理泰米尔语代码混合的YouTube评论,以识别攻击性语言。他们通过翻译英语单词和音译罗马化的泰米尔语单词,将代码混合的文本转换为母语泰米尔语脚本 。 Upadhyay 等 人 使 用 了 类 似 的 技 术 。(2021)和Srinivasan(2020)。3方法这个共享的任务被公式化为多类分类问题,其中模型应该能够预测YouTube评论中任何形式的同性恋恐惧症或变性恐惧症的整个管道由两个主要部分组成- 基于Transformer架构的不同流行模型之上的分类头,以及用于对英语数据集进行过采样的数据增强技术。这些组件已在前面进一步详细解释。3.1基于transformer的模型自2017年推出以来,Transformer架构及其变体在多个NLP任务中开创了新的技术水平如下所述,在此任务中,基于Transformer架构的各种预训练语言模型(PLM)进行了实验BERT ( bert-base-uncased ) 使 用Transformer架构的编码器部分,并且已经使用掩 蔽 语 言 建 模 ( MLM ) 和 下 一 句 预 测(NSP)对象在图书语料库和英语维基百科上进行了预训练(Devlin et al. ,2018)。mBERT 或 多 语 言 BERT ( bert-base-multilingual-cased)是一个BERT模型,已经在维基百科上的104种语言上进行了预训练,并且在几个NLP任务上表现出了令人惊讶的良好跨语言性能。XLM-Roberta(xlm-roberta-base)已经使用MLM目标在2.5TB的大量多语言数据上进行了预训练。它在各种跨语言基准测试中击败了mBERT(Conneau et al. ,2019)。IndicBERT在12种印度语言的大规模语料库上进行了预训练。它在许多任务上的性能优于mBERT和XLM-RoBERTa,同时需要训练的参数少10倍(Kakwani et al. ,2020)。HateBERT 是 通 过 在 RAL-E 上 重 新 训 练BERT获得的,它在攻击性,辱骂性语言和仇恨言论检测任务的三个英语数据集上的表现优于BERT。(Caselliet al. ,2021年)。3.2数据增强数据增广是建立鲁棒的、更具泛化能力的模型的一项重要技术。在NLP中有许多技术,每一种都适合于特定的任务,可以用来增加数据(Feng et al. ,2021年)。对于这项任务(英语),使用了Easy DataAugmentation(EDA)所显示的表面形态改变(Wei和Zou,2019)。EDA+v:mala2277获取更多论文−−类火车英语泰米尔语泰米尔语英语 开发测试培训开发测试培训开发测试恐同15758614851031353116688仇视变性62515537411123834非反LGBT+内容3001732924202252665734388621085总494641616034表1:YouTube评论通过随机删除、插入或交换句子中单词的顺序来产生新的数据样本。它还可以执行同义词替换任何随机选择的词。这四个简单而有效的操作使EDA易于使用。4实验装置在本节中,我们将回顾重复实验所需的设置通过EDA进行过采样。对非反LGBT+内容类进行了下采样,以缓解不平衡。仅对英文评论进行了增补参数α(表示句子中发生变化的单词的百分比)保持为默认值(= 0。①的人。然而,对于Ho- mophobia和Transcophobia类别, 参数naug(指定每个样本产生的扩增数量)分别选择为16和32。4.1数据集该任务的数据集由组织者提供(Chakravarthiet al. ,2021b)。这是一个包含15,141条多语言YouTube评论的集合,这些评论被归类为同性恋恐惧症、变性恐惧症或非反LGBT+内容之一数据集的划分如表1所示。4.2预处理采用了两种不同的预处理方法首先,标点符号被删除,因为社会媒体评论是高度非正式的,往往包含大量的标点符号,这可能会削弱系统的性能。此外,还使用Python表情包将文本中的表情符号替换为相应的英语表达。表2显示了一个去表情化示例。我喜欢它我爱它成长的心表2:YouTube英语评论示例中的去表情符号描述4.3EDA参数从表1中可以看出,数据集在其拆分中高度不平衡。同性恋恐惧症类构成略低于10%的数据,而只有2.9%的评论被标记为跨性别恐惧症。因此,这两个类都受到我必须经历这样的经历。如此悲伤的经历让我如此悲伤SR我不得不经历这样的可怜RI我必须经历那样的痛苦如此悲伤RS的经历不得不让我如此伤心表3:对YouTube英语评论样本的数据增强描述。GT:地面实况,RD:随机删除,SR:同义词替换,RI:随机插入,RS:随机交换训练数据的最终类划分如表4所示。最终尺寸同性恋者2826抗氧化剂204非反LGBT+内容1500表4:EDA增强后训练数据的类划分4.4设置实 验 在 配 备 Tesla P100 GPU 的 Google ColabPro笔记本上运行。对于所有任务,最大序列长度设置为128,批次大小设置为32。对于英语和泰米尔语任务,学习率设置为2e5并对模型进行了3个时期的训练。对于泰米尔语-英语代码混合任务,学习率保持为3e5,并训练模型5个时期。+v:mala2277获取更多论文Σ5结果用于对系统性能进行排名的度量是宏观平均F1分数。它计算为所有每个类别F1分数的(未加权)算术平均值。型号P R F1mBERT 0.69 0.61 0.64表8:最佳性能系统(mBERT)在预处理的泰米尔语测试数据集上宏观平均F1评分=1NNf1ii=15.3泰米尔英语对于代码混合任务,我们分析了同一组多语言模型的性能,其中i是类索引,N是类的数量在泰米尔人的任务中进行实验表5、表7和表9列出了宏观平均精密度。模型PRF1宏观平均召回和宏观平均IndicBERT0.390.410.40F1-各种PLM的英语测试分数,XLM-ROBERTA0.400.430.41泰米尔语和代码混合泰米尔语-英语开发mBERT0.670.520.54数据分别。类似地,表6、表8和表10列出了组织者发布的英语、泰米尔语和泰米尔-英语测试数据集的最终提交所实现的相应指标。5.1英语型号P R F1BERT基础外壳0.460.460.46XLM-ROBERTA 0.490.400.42hateBERT0.500.440.46mBERT 0.48 0.450.46表5:各种PLM在增强的、预处理的英语开发数据集上型号P R F1mBERT 0.43 0.42 0.42表6:最佳表现系统(mBERT)在预处理英语测试数据集上5.2泰米尔在这里,我们研究了一些流行的多语言模型的性能,这些模型是在泰米尔语上训练的型号P R F1指数BERT 0.48 0.47 0.47XLM-ROBERTa 0.47 0.55 0.50mBERT 0.77 0.710.72表7:各种PLM在预处理的泰米尔语开发数据集上的性能表9:各种PLM在预处理的泰米尔语-英语开发数据集上的性能型号P R F1mBERT 0.61 0.56 0.58表10:最佳表现系统(mBERT)在预处理的泰米尔语-英语测试数据集上6结论和今后的工作同性恋恐惧症和跨性别恐惧症并不是许多伞形仇恨言论检测任务的重点。我们研究了预训练的大型基于transformer的模型在用英语和泰米尔语撰写的YouTube评论语料库中检测同性恋恐惧症和变性恐惧症实验结果表明,多语言BERT在两种语言任务中表现最好,在代码混合任务中也表现最好,而事先没有暴露于任何代码混合。这可以归因于其在下游任务上进行微调时的零触发跨语言迁移能力在未来,我们希望采用更积极的数据增强技术,如涉及文本生成(文本填充,生成错别字)或辅助数据集(kNN,LM解码)。我们还想评估翻译和音译对代码混合文本分类的影响。引用Arup Baruah,Kaushik Amar Das,Ferdous AhmedBarbhuiya,and Kuntal Dey.2021年Iiitg-adbu@+v:mala2277获取更多论文hasoc-dravidian-codemix-fire 2020:代码混合的dravidian文本中的攻击性内容检测。arXiv预印本arXiv:2107.14336。托马索·卡塞利,瓦莱里奥·巴西勒,耶莱娜·米特,迈克尔·格拉尼泽。2021. HateBERT:重新训练BERT用于英语中的滥用语言检测。在线滥用和伤害第五次研讨会(WOAH 2021),第17计算语言学协会.Bharathi Raja Chakravarthi,Ruba Priyadharshini,Navya Jose,Anand Kumar M,Thomas Mandl,Prasanna Kumar Kumaresan,Rahul Ponnusamy,Hariharan R L,John P. McCrae,and ElizabethSherly. 2021年a. 在泰米尔语、马拉雅拉姆语和卡纳达语中的共同任务的结果。在Dravid语言的语音和语言技术第一次研讨会的会议记录中,第133-145页,基辅。计算语言学协会。作者:陈文辉,陈文辉. Thenmozhi,S. Thangasamy , Rajendran Nallathambi , andJohn P. McCrae. 2021b 的 最 后 一 页 。 多 语 言youtube评论中识别同性恋恐惧症和跨性别恐惧症的数据集。ArXiv,abs/2109.00227。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2019.大规模无监督跨语言表征学习。arXiv预印本arXiv:1911.02116。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2018. BERT:语言理解的深度 双 向 转 换 器 的 预 训 练 。 CoRR , 绝 对 值/1810.04805。A. 放大图 片 作 者 : JohnW. 布尔洛克,还有阿尔梅达杰奎琳托里比奥。2021. 语码转换综述:语言技术的语言学和社会学视角。在Proceedingsof the 59th Annual Meeting of the Association forComputationalLinguisticsandthe11thInternationalJointConferenceonNaturalLanguage Processing(Volume 1:Long Papers)中,第1654计算语言学协会。Suman Dowlagar和Radhika Mamidi 2021. 最近的神经网络模型对代码混合的印度仇恨言论数据的调查。信息检索评估论坛,FIRE 2021,第67-74页,美国纽约计算机协会。Steven Y Feng,Varun Gangal,Jason Wei,SarathChan-dar , SoroushVosoughi , TerukoMitamura,and Ed- uard Hovy.2021年自然语言处理 的 数 据 扩 充 方 法 综 述 arXiv 预 印 本 arXiv :2105.03075。Divyanshu Kakwani,Anoop Kunchukuttan,SatishGolla,Gokul N.C.,Avik Bhattacharyya,MiteshM.Khapra和PratyushKumar。2020.IndicNLPSuite:印度语言的单语语料库,评估基准和。计算语言学协会的调查结果:EMNLP2020,第4948- 4961页,在线。计算语言学协会。Thomas Mandl,Sandip Modha,Anand Kumar M,and Bharathi Raja Chakravarthi. 2020. 2020年hasoc火灾概述:泰米尔语,马来语,印地语,英语和德语。信息再评估论坛,FIRE 2020,第29-32页计算机协会。恩当·瓦尤·帕蒙卡斯,瓦莱里奥·巴西勒,维维安娜·帕蒂. 2021. 多领域多语言的辱骂性语言侦测:一项调查。个人和普适计算。DebjoySaha,NamanPaharia,DebajitChakraborty , Punyajoy Saha , and AnimeshMukherjee. 2021. Hate-alert@ DravidianLangTech-EACL 2021:基于transformer的攻击性语言检测。在Dravidian语言的语音和语言技术第一次研讨会的会议记录中,第270计算语言学协会。湿婆赛和亚什瓦丹·夏尔马2020年。Siva@ hasoc-dravidian-codemix-fire-2020:混合代码和罗马化文本中的多语言攻击性语音检测。在FIRE(工作笔记)中,第336-343页。阿尼鲁德·斯里尼瓦桑2020. MSR India在SemEval-2020的任务9:多语言模型也可以进行代码混合。第十四届语义评估研讨会论文集,第951-956页,巴塞罗那(在线)。国际计算语言学委员会。IshanSanjeevUpadhyay , NikhilE , AnshulWadhawan , and Radhika Mamidi.2021. Hopefulmen@LT-EDI-EACL 2021:希望使用indic音译和transformers进行。第一次语言技术促进平等、多样性和包容性研讨会论文集,第157-163页,基辅。计算语言学协会。Charangan Vasantharajan 和 Uthayasanker Thayasi-vam。2021.Towardsoffensivelanguageidentificationfortamilcode-mixedyoutubecomments andposts. SN Computer Science , 3(1).魏杰和邹凯。2019. EDA:简单的数据增强技术,用于提高文本分类任务。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)会议录中,第6383-6389页中国计算语言学协会。+v:mala2277获取更多论文MarcosZampieri,Preslav Nakov,Sara Rosenthal,Pepa Atanasova , Georgi Karadzhov , HamdyMubarak , LeonDerczynski , ZesesPitenis ,andZhao agröltekin. 2020. SemEval-2020任务12:社交媒体中的多语言攻击性语言识别(Offen-sEval 2020)。第十四届语义评估研讨会论文集,第1425- 1447页,巴塞罗那(在线)。国际计算语言学委员会。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功