MPNet和CNN在高级语言识别中的应用：多语言社交媒体评论和帖子分类

104 浏览量更新于2024-01-02 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 3（2023）100151使用MPNet和CNN在Dravidian语言中进行高级语言识别Bharathi Raja Chakravarthia，Manoj Balaji Jagadeeshanb，Vasanth Palanikumarc，Ruba Priyadharshinida爱尔兰戈尔韦大学计算机科学学院bBirla Institute of Technology and Science Pilani，印度cChennai Institute of Technology，Chennai，印度d甘地格拉姆农村研究所-迪梅德大学，印度aRT i cL e i nf o保留字：达罗毗荼诸语言深度学习MPNetCNNa b sTR a cT社交媒体已经有效地取代了传统的沟通和营销形式。由于这些平台允许通过文本、图像和视频自由表达想法和事实，因此有必要对其进行筛选，以保护个人和组织免受针对他们的不良信息的影响。我们的工作旨在将泰米尔语，马拉雅拉姆语和卡纳达语的代码混合的社交媒体评论和帖子分类为攻击性或攻击性。在不同的水平上都没有反应。我们提出了一个多语言MPNet和CNN融合模型，用于在不同的级别上检测针对低资源达罗毗荼语中的个人（或群体）的非攻击性语言内容。我们的模型是能够处理的数据，已混合代码，如泰米尔语和拉丁语脚本。该模型在数据集上成功验证，取得了比其他基线模型更好的语言检测结果，加权平均F1得分为0.85，0.98和0.76，并且在泰米尔语，马拉雅拉姆语和卡纳达语中分别比基线模型EWDT和EWODT好0.02，0.02，0.041. 介绍社交媒体的出现有助于弥合政治边界，并为个人与他人互动和表达自己铺平了道路，比人类历史上任何时候都更容易（Edosomwan，Prakasan，Kouame，Watson，Seymour，2011）。通过使用社交媒体平台，如Twitter 、 Face-book、YouTube 、 Instagram 、WhatsApp 、Snapchat和LinkedIn，生成了大量信息，这些信息允许数据挖掘和模拟建模。虽然与传统媒体相比，微博是一种相对较新的传播媒介，但它已经引起了来自不同行业的用户、组织和专家的极大兴趣（叶，戴，董安，王，2021）。微博的吸引力源于其独特的特性，如便携性、即时消息和用户友好性;这些功能使实时通信几乎没有或没有内容限制。然而，这些平台也成为人们基于其物理外观，宗教，性取向和许多其他因素而被针对，诽谤和边缘化的空间（Benikova，Wojatzki，&Zesch，2018; Keipi，Näsi，Oksanen，&Räsänen，2016; Pamungkas，Basile，&Patti，2020）。社交媒体已经发展成为一种专门的工具，用于口头威胁和逼迫人们，∗ 通讯作者。电子邮件地址：bharathi. insight-centre.org（B.R. Chakravarthi）。https://doi.org/10.1016/j.jjimei.2022.100151Ple，不是基于他们的行为，而是基于他们的身份（Maitra Mc- Gowan，2012; Patton ， Mrsmann ， Butler ， 2013; Zinovyeva ， Hrdle ，Lessmann，2020）。这种“数字奇迹”的深度和广度&使以前“看不见的和社会瘫痪的”人群能够参与社会话语（ Barnidge，Kim，Sherrill，Luknar，Zhang，2019）。当前，COVID-19病毒正在全球肆虐。多项研究揭示了2019冠状病毒病大流行期间在社交媒体上使用攻击性短语的用户的年龄分布，其中18&因此，可以说，社交媒体上的谣言和攻击性评论引发的公众恐惧比病毒的影响更令人担忧（DEPOU X等人，2020年）。然而，事件识别算法的复杂性阻碍了大多数最有意义的语言检测方法的有效性。虽然使用社交媒体数据对攻击性语言进行分类仍然是一个动态的研究领域，但很少有人关注低资源语言的数据创建、阈值设置和模型（RavikiranAnnamalai，2021）。检测社交媒体来源中的辱骂性语言依赖于多种方法，几个领域，包括机器学习（ML），自然语言处理（NLP）、数据挖掘、内容提取和检索，以及接收日期：2021年12月15日;接收日期：2022年4月20日;接受日期：2022年12月21日2667-0968/© 2022作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）目录可在ScienceDirect国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiB.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）1001512文本挖掘然而，来自多语言国家（如印度）的社交媒体流包含很高比例的混合语言 ; 这对分类算法的有效性产生了不利影响（ Jose ，Chakravarthi，Suryawanshi，Sherly，McCrae，2020）。近年来，关于仇恨言论识别和攻击性语言检测的研究有了实质性的改进（Mandl，Modha，Kumar M ，&Chakravarthi ，2020; Zampieri例如，2020年，使用NLP。然而，对资源不足的语言的研究仍然缺乏。例如，泰米尔语、马拉雅拉姆语和卡纳达语等资源不足的语言缺乏NLP工具和数据集（Thavareesan Mahesan，2019; 2020 a; 2020 b）。最近，（Chakravarthi等人，2021 c）情感分析以及泰米尔语和马拉雅拉姆语的语言识别为进一步研究德拉威语铺平了道路。泰米尔语、马拉雅拉姆语和卡纳达语是印度、新加坡和斯里兰卡大约2.2亿人使用的德拉维第语（克里希那穆提，2003年）。为土著语言开发NLP系统至关重要，例如仇恨言论识别和攻击性语言检测，因为大多数用户生成内容是在这些语言。深度学习的方法可以考虑-在分类检测过程中的潜力。但只有一些现有的研究证明了集成方法在检测低资源达罗毗荼语中的攻击性语言中我们其余的工作安排如下。第2讨论了关于主动语言识别的文献，而第3节介绍了用于手头任务的数据集。第四节着重介绍了几种识别达罗毗荼语中冒犯性语言的模式和方法。第4.9讨论了检测方法的实施细节第5包括对模型的行为和结果的详细分析，并与其他方法进行了比较最后，第6节总结了我们的工作，并讨论了未来在达罗毗荼语中进行攻击性语言识别的潜在方向。2. 文献综述近年来，在社交媒体平台上使用攻击性语言的情况显著增加（Zampieri等人，2020年）。攻击性语言和仇恨言论存在于各种社会和政治紧张局势的交界处，作为文明内外不同群体之间冲突的表达，构成了社交媒体上的普遍现象（Caselli，Basile，Mitrović，Kartoziya，&Granitzer，2020）。这清楚地说明了技术如何充满机遇和困难。因此，一些组织已经开发了自动系统，阻止不适当或冒犯性的语言在其平台上显示（Poletto，Basile，Sanguinetti，Bosco，&Patti，2021）。长期以来，研究界对敌意语言进行了广泛的研究。关于这个主题的早期研究之一（Chen，Zhou，Zhu，Xu，2012 a）试图使用从帖子中提取的词汇句法特征来检测攻击性用户。虽然它为未来的研究建立了一个有效的框架，但数据集提供了不充分的证据。后来的一项研究（Davidson，Warm-sley，Macy，&Weber，2017）的作者收集了最全面的攻击性和仇恨言论数据集之一。为了提高英语社交媒体通信中的辱骂性语言检测，（Felbo，Mislove，Søgaard，Rahwan，Lehmann，2017）使用了这种策略主要基于使用表情符号作为监督较差的训练标签来预训练神经网络模型，用于防御性语言分类（Chen，Zhou，Zhu，Xu，2012 b）提出了一种词汇句法特征架构，以在识别社交媒体中的不良内容和潜在不良用户之间取得平衡作者认为，应该强调内容的来源，而不是将信息视为单独的Xiang Zhou（2014）使用了一种基于主题的混合模型，该模型集成到半关于Twitter上的可用内容，（Xiang，Fan，Wang，Hong，Rose，2012）的作者关注Twitter社交媒体平台，并提出了一种与统计主题建模相结合的半监督策略。O EschensEval2019 （ Zampieri 等人， 2019 c ）和 GermEval（Strueland et al.，2019年）是两项以识别非正式语言为中心的大型合作计划。其他涉及识别攻击性言语的项目包括HASOC-19（Mandl等人， TRAC-2020 （ Kumar ， Ojha ， Malmasi ， &Zampieri ，2020），专注于孟加拉语，印地语和英语的攻击检测。虽然HASOC-19和TRAC 2020专注于识别孟加拉语和印地语的印度-雅利安语中的攻击性语音，但DravidianLangTech（Chakravarthi等人， 2021a）是第一个专注于识别达罗毗荼语中攻击性言语的共同任务。研究人员一直致力于创造方法来识别阿拉伯语、丹麦语、英语、希腊语和土耳其语中的不恰当语言（Zampieri等人，2020年），以及其他几种语言。他们使用各种方法来识别令人反感的语言。最近，Ranasinghe Zampieri（2021）报告了使用XLM-RoBERTA模型识别印度语言中的冒犯性语言，如孟加拉语和印地语。他们证明了XLM-R模型优于所有现有的用于在 XML 语言中进行检测的技术。 Gaikwad ，Ranasinghe，Zampieri，Homan（2021）发布了一个马拉地语或其他语言数据集。然而，对达罗毗荼语文本分类的研究很少，只有少数研究对达罗毗荼语中的攻击性言语识别进行了研究。我们的工作填补了在识别达罗毗荼语攻击性言语的方法研究的空白;更多-此外，所提出的系统可以扩展到其他印度语言以及外语。为了解决达罗毗荼语中的非正式语言识别问题，泰米尔语、马拉雅拉姆语和坎纳达语的几个手动注释数据集（Chakravarthi等人，2021年c）是为情感分析和攻击性语言识别而创建的。在像印度这样的多语言国家，大多数人都是通晓多种语言的人，鉴于这些视频是从社交媒体上收集的，因此代码混合的话语是不可避免的Chakravarthi等人（2021a）针对用户生成的评论，在泰米尔语、马拉雅拉姆语和卡纳达语中进行了一项关于冒犯性语言识别的它使用了DravidianCodeMiX1，这是一个多语言代码混合数据集，已被仔细注释用于情感分析和敏感语言识别。大约44，000条泰米尔语的评论，20，000条马拉雅拉姆语的评论和7700条卡纳达语的评论被纳入数据集中。大多数关于攻击性语言识别的工作更多地关注使用预训练嵌入的模型改进。 Dowlagar&Mamidi（2021）使用预先训练的多语言双向编码器表示来自变压器（BERT）变压器模型，具有音译和类别平衡损失，用于有效的内容识别。在共享任务中，许多参与者使用了多种语言 BERT 、 XLM-R 、 m-BERT 和 Indic-BERT 中的一种 BERT（ Ghanghor ， Chakravarthi ， Priyadharshini ， Thavareesan ，&Krishnamurthy ， 2021;Huang&Bai ， 2021;Li ， 2021;Vasantharajan& Thayasivam，2021; Yasaswini等人， 2021年）。然而，一些参与者提出了新的方法，包括（Zhao，2021），他提出了一个基于多语言模型 XLM-RoBERTA 和 DPCNN 的系统。 Chen Kong（2021）使用多语言BERT和TextCNN进行语义提取和文本分类。ML技术（LR，SVM），三大深度学习技术-niques（LSTM，LSTM+Attention）和三种基于transformers的方法，ods（m-BERT，Indic-BERT，XLM-R）由Sharif，Hossain，Hoque（2021）提出。Sharma，Kandasamy，&Kandasamy（2021）使用MPNet（Song，Tan，Qin，Lu，&Liu，2020）（Zampieri等人，2019 年a）监督培训，这是在大量的联合国培训，注释的Twitter数据来检测攻击性推文。检测异议-1https://zenodo.org/record/4750858/B.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）1001513表1用于高级语言识别的语料库统计语言泰米尔Malayalam卡纳达字数511,734202,13465,702词汇量94,77240,72920,796评论数43,91920,0107771数量的句子52,61723,6528586每句平均字数11108每条评论111表2高级语言识别数据集分布。O-O攻击。O-无目标：O攻击性无目标。泰米尔马拉雅拉姆卡纳达语无反应31，808（72.42%）17，697（88.44%）4，336（55.79%）O-非目标3630（8.26%）240（1.19%）278（3.57%）表4删除未缩进的语言标签后，用于防御性语言识别的培训-开发-测试数据分布。泰米尔Malayalam卡纳达培训33,68514,7214695发展42161836586测试42321844592总42,13318,4015873表5用于比较的分类模型。O-目标个人2965（6.75%）290（1.44%）628（8.08%）O-目标群体3140（7.14%）176（0.87%）418（5.37%）O-目标群体590人（1.34%）-153人（1.96%）不使用缩进lang 1786（4.06%）1607（8.03%）1898（24.42%）共计43 919 20 010 7771表3培训-开发-测试数据分布，90%-5%-5%培训-开发-测试，用于DravidianLangTech共享任务组织者提供的高级语言识别。泰米尔Malayalam卡纳达培训35,13916,0106217发展43881999777测试43922001777总43,91920,0107771数据集由包含英语文本的推文组成，这些文本被归类为O令人反感或非O令人反感。在本文中，我们提出了一种方法，旨在解决缺乏注释数据的低资源达罗毗荼语，使用MPNet和CNN的融合首先，我们检查了现有最先进的基线经典ML模型的性能，使用遗传算法在多个分类器中选择最佳分类器以增强集合在训练集上的性能的ML模型的集合其次，我们解释了如何通过利用MPNet和CNN融合模型来提高分类性能，并进一步分析该模型以了解其3. 数据集将其转化为一个具有五个标签的标签方案，以说明评论中的恶意类型（表4）。• 不冒犯（NO）：不礼貌或粗鲁的评论或帖子，没有淫秽，发誓或亵渎。• 针对性侮辱个人（OTI）：针对特定人的评论或帖子。• O攻击性侮辱群体（OTG）：针对一组个人或社区的攻击性评论或帖子。• OTO（O冒犯性-针对性-侮辱性-其他）：不属于上述两个标签的评论或帖子。• 非攻击性（O-Sensive-Untargeted）：不针对任何人的评论或帖子。• 不使用缩进语言：如果注释不是使用预期的语言。例如，在马拉雅拉姆语任务中，如果句子不包含以马拉雅拉姆语脚本或拉丁脚本书写的马拉雅拉姆语，则它不是马拉雅拉姆语。在我们的研究中，我们在缩进的语言标签中删除了Not。我们研究中使用的培训、开发和测试数据分割与DravidianLangTech-EACL 2021中提供的基准集相同（ Chakravarthi ， Priyadharshini ， Kumar M ，Krishnamurthy，&Sherly，2021 b）。我们使用了来自DravidianCodeMiX的高级语言数据（Chakravarthi等人，2021年c）。该数据集由YouTube上关于泰米尔语、马拉雅拉姆语和卡纳达语电影预告片的大量代码混合评论组成。数据集被分为训练集、开发集和测试集，所有这些在三种语言中的分布都相当。马拉雅拉姆语数据集有五个不同的标签，而泰米尔语和卡纳达语数据集有六个不同的标签，包括“O敏感-有针对性-侮辱-其他”类别。我们在数据集中检测到大量的类别不平衡，DravidianCodemiX的语料库统计见表1。训练集和测试集的类分布列于表 2 和表 3 中，由 DravidianLangTech 组织者提供数据集Chakravarthi et al. （2021a）是通过改编（Zampieri等人，2019年b）。Dravidian- LangTech 2022的组织者减少了三级层次注释方案4. 方法4.1. 支持向量机支持向量机（SVM）是一种强大的监督ML方法，主要用于分类问题;然而，在某些情况下，它们也可以用于回归任务。SVM的目的是在N维空间中定位超平面，以最好地区分数据点。这意味着属于给定类别的数据点和不属于给定类别的数据点之间的决策边界线可以通过这种方法清楚地绘制出来。向量可以用于编码任何类型的数据;这与所有向量数据类型相关。因此，如果我们能够生成我们所拥有的数据的适当矢量表示，则可以使用SVM来获得所需的结果。输入特性与LR相同，即TF-IDF值高达3 g。在这项研究中，L2正则化被用来评估SVM模型分类器短名称随机森林RF支持向量机SVM多项式朴素贝叶斯MNB决策树DT轻型梯度增压机LGBM使用决策树EWDT没有决策树的EWODTBidirectional Encoder Representations from Transformers伯特掩蔽和置换网络MPNet卷积神经网络CNNB.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）1001514{（）}��（）（）4.2. 多项朴素贝叶斯Multinomial Naive Bayes classifier（MNB）是一种基于条件独立性的朴素假设的贝叶斯分类器。执行其分类任务的功能。这意味着每个输入都是完全独立于其他输入的，这在涉及真实数据时是不可能的。尽管如此，它简化了许多复杂的任务，验证了对这种工具的需求我们研究了多项分布数据的朴素贝叶斯分类器的性能，该分类器来自贝叶斯定理，并在给定以下观测值的情况下预测未来发生的概率：过去的事MNB是朴素贝叶斯的一个定制变体，它比其他类型的数据更适合文本文档。与基本的朴素贝叶斯不同，朴素贝叶斯基于特定单词的存在和不存在来对文本进行建模，MNB显式地对单词计数进行建模，并改变底层计算来解释它们。因此，输入的文本数据被视为一个词袋，它只考虑文本数据中的词的频率，而忽略它们的位置。使用拉普拉斯平滑法解决零概率问题，然后使用TF-IDF向量评估MNB模型，如下图所示。4.3. 决策树当与树结构结合使用时，决策树（DT）可用于创建分类或回归模型。同时，数据集被分成越来越小的子组，并逐步生成伴随的DT。最终结果是一棵树，在其节点上有决策节点和叶节点。因此，DT分类涉及构建一个树结构，其中每个节点对应于一个特征名称，每个分支与为特征名称生成的值相关。分类标签由树的叶子表示。在顺序地选择可能的选项之后，每个节点被递归地划分，最终，分类器建立一些规则来预测结果。DT能够处理大量数据，并在不进行大量处理的情况下进行分类。DT分类器一般被视为合理准确。关于它们的缺点，它们对多个类和相当少量的训练样本的分类问题中的错误特别敏感。此外，其制备在计算上是昂贵的。为了确定最佳分割，它必须首先在每个节点处布置每个潜在的分割区域，然后才能定位最佳分割。一些算法利用场的组合，并且有必要在继续之前寻求最佳组合权重。实施修剪技术可能是耗时和昂贵的，因为它需要形成和比较几个候选子树。在这项研究中，对于DT，我们使用网格搜索来调整超参数，这导致Gini被用作分裂标准，最大深度被用作-1和最小样本分割值2。4.4. 随机森林（RF）随机森林（RF）是一种集成分类器，它使用在与训练集大小相同的数据集上训练的不同DT的集合（称为Bootstrap）来生成预测，这些DT是通过对训练集进行随机重新排序而构建的。一旦树形成，引导程序的集合被用作测试集。这些引导程序排除了原始数据集中的任何特定记录（out-of-bag [OOB]样本）。所有测试集的分类错误率是泛化错误的OOB估计。在这项研究中，RF在处理极端非线性相关数据的能力、抗噪声能力、易于调谐和能力方面表现出优于其他方法的显著优势。以执行有效的并行处理。此外，RF具有一个基本功能：一个内在特征选择阶段，该阶段在通过为每个特征分配显著性值来压缩变量空间的分类工作。RF坚持精确的原则，树生长、树组合、自测试和后处理;此外，与其他ML方法相比，它对过拟合具有抵抗力，并且在存在离群值和非常大的参数空间时被认为更稳定。我们使用相同的标准分析RF模型作为DT模型。4.5. LightGBM随着集成技术的出现，出现了许多新的模型，如 XGBoost ，AdaBoost，RandomForest等等。但是，这些模型的主要缺点是当作为输入给这些模型的数据的大小很大时，在效率和可扩展性方面的性能不令人满意。这是因为对于每个特征，都需要扫描所有数据点以找到最佳分割。因此是非常耗时的过程。因此，提出了两种避免这种情况的GOSS和EFB技术。LightGBMMachado，Kar ray，&de Sousa（2019）是一种具有GOSS和EFB的梯度提升决策树（GBDT），它实现了与传统GBDT几乎相同的准确性，其中训练时间比传统GBDT快20倍。作为本研究的一部分，我们通过在TF-IDF向量上训练LightGBM模型来检验它。4.6. 伯特BERT是一种半监督语言表示模型，它采用左上下文和右上下文条件反射与掩蔽语言模型训练目标相结合（Devlin，Chang，Lee，&Toutanova，2019）。这些广泛的上下文表示可以扩展到分类头，以微调BERT在下游NLP任务上的性能。我们使用BERT结合分类头进行分类，并对所有参数进行端到端微调。我们使用Hugging Face库（https://huggingface.co/）进行测试。BERT克服了以往语言模型（如word2vec和GloVe）在解释上下文和多义词方面的局限性。此外，它在单语和多语言分类中表现良好，导致NLP任务的性能提升最大，例如问答（SQuAD v1.1）和自然语言推理（MNLI）。与单向语言模型相反，Transformer编码器一次读取整个输入单词序列因此，BERT在精度方面这种行为导致Transformer模型同时从左到右和从右到左学习单词的上下文为了训练BERT模型，我们将epochs的数量设置为3，并使用初始学习率为2−5，衰减因子为0.01。4.7. 集成方法模型集合是学习模型的集合，其个体预测以这样的方式集成，即组件模型的这种技术背后的前提是，不同的模型显示不同程度的归纳偏差。如果由这些偏差产生的错误是不相关的，则预测集合中的模型将校正彼此的错误，从而在聚合模型结果时减少错误的总数。包围的方法已经被证明是成功的-擅长利用这一特性最大限度地减少方差误差，而不增加偏倚误差（Kazmaier van Vuuren，2022）。在独立方法中，任何集成学习的一般基础都是使用聚合函数来组合一组基线分类器的集合，��给定一个大小为的数据集和维度为的特征，=�� ，，1美元��，则基于该方法的输出预测由下式给出：��当量（一）.��=�� =1，2，��其中，∈表示分类。��B.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）1001515Fig. 1. 实验流程图。在这个总体框架下，构建集成模型需要决定如何训练基线分类器，并找到一个合适的过程来聚合基线分类器的输出。为了成功提高预测精度，并确保它们在训练中可以轻松并行，在过去几年中已经提出了几种独立的集成方法。基于遗传算法（GA）的方法通常用于调整集成中多个模型的权重。在这项研究中，我们使用遗传算法来选择最好的模型的合奏模型。我们注意到GA下降了DT模型从合奏，提高了性能。4.8. 拟议工作BERT是Google发布的最先进的模型之一，可用于执行与自然语言处理相关的任务，例如文本分类，命名实体识别，问题回答等等。BERT模型采用Masked Language Mod- eling（MLM）进行预训练，但它忽略了预测的标记之间的依赖性。为了克服这个问题，引入了XL- Net（PLM）Yang等人（2019），但它有自己的缺点，即它支持预训练和微调之间的位置差异。MPNetSong等人（2020）是微软提出的一种新模型，它利用BERT和XL- Net的优点来克服它们的缺点。这个模型在超过作为本研究的一部分，我们提出了一种将MPNet与自定义深度神经网络（DeepNet）架构融合的新技术，如图所示在图2中。自定义DeepNet使用一个密集层，然后是3个一维卷积层，其输出被重定向并分别馈送到2个连续的密集层，分别具有10个和5个节点，然后是一个softmax层进行分类。我们从MPNet的预训练模型中获得嵌入，all-mpnet- base-v2是在多个任务上训练的，multi-qa-mpnet-base-dot- v1是在给定问题的段落内容检索上训练的。我们集成了这两种嵌入，并将其作为输入提供给拟议的DeepNet，在表8中将其称为CNN，7和6，以及图中的CNN-1D。 1.4.9. 执行这项工作在Python中实现了上述集成模型，并在共享任务数据集上评估了其性能。我们使用sklearn2来实现ML模型。对于所提出的模型，使用预训练的嵌入，我们使用Keras Python3来实现我们的模型。Pandas和Numpy包分别用于读取数据集和处理数组。使用NLTK软件包进行数据预处理。我们使用Google Colab4字节笔记本云环境来运行实验，因为它提供了Graphi，160 GB原始文本语料库，并针对不同的下行流进行了任务Song等人（2020）的结果表明，MPNET的性能远远优于MLM和PLM模型，并且在下游任务上取得了更好的结果。2https://scikit-learn.org/stable/3https://keras.io/4https://research.google.com/colaboratory/B.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）100151表66精确度，召回率和F1-泰米尔语识别的分数。O-O攻击，T-目标，G-群。分类器Not-O OTG OTI OT-其他O-非目标宏平均加权平均精度电话：+86-021 - 8888888传真：+86-021 - 8888888最低预算1.00 0.00 0.00 0.02 0.21 1.00粤ICP备05018888号-1电话：+86-021 - 8888888传真：+86-021 - 8888888LGBM 0.11 0.15 0.03 0.19 0.29 0.90EWDT 0.97 0.12 0.13 0.01 0.23 0.29 0.89EWODT 0.98 0.11 0.16 0.01 0.21 0.29 0.91美国有线电视新闻网0.97 0.12 0.22 0.00 0.22 0.31 0.972000 - 2001年召回最低电压0.78 0.67 0.71 0.00 0.47 0.52 0.770.76 0.00 1.00 0.00 0.90 0.53 0.76粤ICP备05018888号-1电话：+86-0511 - 8888888传真：+86-0511 - 8888888LGBM 0.51 0.20 0.41 0.46 0.77EWDT 0.81 0.31 0.39 0.17 0.42 0.42 0.77EWODT 0.80 0.43 0.53 0.50 0.45 0.54 0.78美国有线电视新闻网0.81 0.42 0.48 0.00 0.40 0.42 0.762009年12月31日F1得分电话：+86-021 - 8888888传真：+86-021 - 88888880.86 0.00 0.01 0.00 0.05 0.18粤ICP备05016888号-1电话：+86-021 - 8888888传真：+86-021 - 8888888LGBM 0.88 0.17 0.23 0.05 0.26 0.32EWDT 0.88 0.17 0.20 0.03 0.29 0.31 0.82EWODT 0.88 0.18 0.24 0.03 0.29 0.32 0.83美国有线电视新闻网0.88 0.19 0.30 0.00 0.28 0.340.852009 - 2009年期间表7精确度，召回率和F1-马拉雅拉姆语O型攻击性语言识别的得分。O-O攻击T-目标G-组分类器非OOTGOtiO-非靶向宏平均值加权平均值精度SVC1.000.220.110.710.450.97MNB1.000.000.000.160.230.99DT0.960.520.630.820.730.94RF0.990.430.590.800.670.97LGBM0.990.430.260.680.570.96EWDT0.990.480.520.820.690.97EWODT0.990.430.520.810.670.97CNN1.000.390.520.550.610.98MBERT0.960.500.300.870.550.93召回SVC0.941.001.000.940.980.94MNB0.890.000.000.960.370.89DT0.970.670.650.750.740.94RF0.961.000.940.920.960.96LGBM0.950.670.780.880.810.94EWDT0.970.691.000.890.890.96EWODT0.960.771.000.930.910.96CNN0.980.750.930.760.860.97MBERT0.980.040.300.890.450.94F1得分SVC0.970.360.200.810.540.95MNB0.940.000.000.270.240.93DT0.970.590.640.780.740.94RF0.980.610.730.850.770.96LGBM0.970.530.390.770.650.95EWDT0.980.560.680.850.770.96EWODT0.980.560.680.860.760.96CNN0.990.510.670.640.700.98MBERT0.970.080.300.880.460.93B.R. Chakravarthi，M.B. Jagadeeshan，V. Palanikumar等人International Journal of Information Management Data Insights 3（2023）1001517表8精确度，召回率，和F1-卡纳达语的语言识别分数。O-O攻击T-目标G-组分类器Not-O OTG OTI OT-其他O-非目标宏平均加权平均精度电话：+86-0755 - 8888888传真：+86-0755 - 88888880.97 0.00 0.27 0.00 0.26 0.89粤ICP备05016888号-1电话：+86-021 - 8888888传真：+86-021 - 8888888LGBM 0.11 0.49 0.00 0.09 0.35 0.70EWODT 0.86 0.16 0.53 0.00 0.03 0.37 0.78EWDT 0.82 0.18 0.60 0.07 0.06 0.40 0.75美国有线电视新闻网0.88 0.34 0.63 0.21 0.12 0.44 0.762008 - 2009年召回最低电压0.67 0.60 0.86 0.00 0.00 0.47 0.680.61 0.00 0.91 0.00电话：+86-021 - 8888888传真：+86-021 - 8888888电话：+86-021 - 8888888传真：+86-021 - 8888888LGBM 0.67 0.25 0.77 0.00EWODT 0.70 0.47 0.85 0.00 0.33 0.50 0.69EWDT 0.71 0.40 0.80 0.33 0.50 0.56 0.69美国有线电视新闻网0.86 0.27 0.65 0.27 0.22 0.46 0.752009年12月31日F1得分电话：+86-0512 - 8888888传真：+86-0512 - 88888880.75 0.00 0.41 0.00 0.00 0.27 0.71粤ICP备05016888号-1电话：+86-021 - 8888888传真：+86-021 - 8888888LGBM 0.73 0.16 0.60 0.00 0.15EWODT 0.77 0.24 0.66 0.00 0.06 0.40 0.72EWDT 0.76 0.25 0.69 0.12 0.11美国有线电视新闻网0.87 0.30 0.64 0.24 0.16 0.440.762008 - 2009年表9根据F1分数以及泰米尔语的其他评估指标（精确度和召回率）进行排名。团队名称精度召回F1分数秩我们提出的方法0.970.760.85-仇恨警报（Saha，Paharia，Chakraborty，Saha，Mukherjee，2021）0.780.780.781indicnlp@kgp（Kedia Nandy，2021a）0.750.790.772ZYJ123（Zhao，2021）0.750.770.763ALI-B2B-AI0.750.780.763SJ-AJ（Jayanthi Gupta，2021）0.750.790.763没有任何人（Awatramani，2021）0.750.780.763NLP@CUET（Sharif等人，（2021年）0.750.780.763Codewithzichao（Li，

下载后可阅读完整内容，剩余1页未读，立即下载