LSTM-BOOST：社交媒体中攻击性文本的管理方法~92.61%的F1得分证实有效性

136 浏览量更新于2024-01-02 收藏 2.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100095如何管理社交媒体中的攻击性文本-使用LSTM-BOOST的文本分类方法☆马里兰州Anwar Hussen Waduda，Muhammad Mohsin Kabira，M.F.Mridhab，M.阿米尔·阿里，马里兰州Abdul Hamidc，Muhammad Mostafa Monowarca孟加拉国达卡孟加拉国商业技术大学计算机科学工程系b孟加拉国达卡美国国际大学计算机科学工程系c沙特阿拉伯王国吉达21589阿卜杜勒阿齐兹国王大学计算机信息技术学院信息技术系aRT i cL e i nf o保留字：自然语言处理长短期记忆自适应增强学习辱骂性文本a b sTR a cT最近，攻击性内容在众多社交媒体平台上越来越流行，用于骚扰和批评人们。本文提出了一种名为LSTM-BOOST的攻击性文本分类算法，该算法采用具有集成学习的长短期记忆（LSTM）模型来识别各种社交媒体平台上的攻击性孟加拉语文本。拟议的LSTM-BOOST模型使用改进的AdaBoost算法，采用主成分分析（PCA）以及LSTM网络。在LSTM-Boost模型中，将数据集分为三类，并对数据集的每个部分应用PCA和LSTM网络，以获得最显著的方差，并减少模型弱假设的加权误差。此外，不同的分类器用于基线实验，并在各种词嵌入向量方法上对模型进行评估。我们的调查发现，LSTM-BOOST算法的性能优于大多数基线架构，在来自社交平台的孟加拉语文本（BHSSP）数据集上的F1得分为92.61%1. 介绍这个现代世界的人们通过社交媒体平台表达他们的观点和信仰，使这些成为文本数据的巨大来源。例如，目前Facebook的月活跃用户为28亿（Face- book，2021），Twitter的日活跃用户为1.92亿（Twit- ter，2021）。在所有用户生成的在线文本中管理辱骂性文本是一项繁重的责任。然而，Twitter上的大多数推文或Facebook上的帖子、评论或消息都是不礼貌的和可理解的。尽管如此，很少有人能够对受攻击的用户、个人或少数群体进行攻击（Santos等人，2018年）。具体内容是指诽谤，尴尬，或不尊重，并被指定为攻击性文本（戴维森等人，2017年）。与攻击性文本不同，辱骂性内容通常暴露于社会阶层，如宗教、性别、残疾、种族出身或性取向（Founta等人，2018年）。虐待语言是等信息的包含卑鄙/肮脏/垃圾邮件的单词/短语通常来自令人不安的情况，如精神疾病，性别差异，身体残疾，缺乏现代化（Colladon和Gloor，2019）（Batra et 例如， 2021年）。对的相反，令人反感的语言可能是不足以伤害某人的辱骂性词语或典型信息。负面使用负面文本信息影响无论是使用攻击性文本的个人还是被攻击的人。一个人在他的话中使用不愉快的文本信息可能会增加压力，焦虑，抑郁和归属感。同样地，病人的精神稳定性也会大大降低。因此，这两个人的社会生活都变得不正常。信息系统发展的另一个基本要素是存储的有用和不可用数据的数量不断增加。处理如此大量的有害和非有害数据的唯一方法是使用智能自动化。NLP技术和语言学理论正被用于设计和实现更以用户为中心的通信和文本信息系统。因此，信息管理必须引入新的方法和技术。大约有2.45亿人将孟加拉语作为母语，使其成为世界上第七大语言（Mandal和Sen，2014）。因此，每天通过社交网络平台以孟加拉语制作数十亿条多媒体文本。但是，对孟加拉语处理（BLP）的科学研究还处于初级阶段，对孟加拉语解码的研究还很少☆预印本提交给国际信息管理数据洞察杂志2022年3月13日∗ 通讯作者。电子邮件地址：mwadud@bubt.edu.bd（Md.A.H. Wadud），mdmkabi@gmail.com（M.M. Kabir），firoz @bubt.edu.bd（M.F. Mridha），dmaa730@gmail.com（硕士）阿里），mabdulhamid1@kau.edu.sa（马里兰州）。Hamid），mmonowar@kau.edu.sa（M.M. Monowar）。https://doi.org/10.1016/j.jjimei.2022.100095接收日期：2021年10月28日;接收日期：2022年6月21日;接受日期：2022年6月21日2667-0968/© 2022作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiMd.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000952表1孟加拉语中的攻击性文本类型和示例文本分类（Karim，2013）（Afroz等人， 2021年）。当数以百万计的人通过这种语言表达他们的感情时，每天都会产生不同类别的令人反感的文本内容。表1列出了孟加拉语中冒犯性文本的类型和例子。尽管如此，一些著名的和著名的机构在自动辱骂和仇恨内容分类系统上做出了一些值得注意的尝试（Razavi等人，2010年）。2017年6月，Instagram宣布了一种攻击帖子和评论的创新机制（Systrom，2017）。Google Jigsaw孵化器揭示了一个名为Perspec-tive 1的尖端应用程序编程接口（API），模拟文本输入的百分比可能被识别为仇恨。然而，这些文本分类任务仅仅依赖于文本分析技术，诸如机器学习和自然语言处理（NLP）算法（Pitsilis等人，2018）（Mridha等人，2021）（Nobata等人，2016）（Garg等人，2021年）。Several DeepLearning（Sharma et al.，2021）（Maqsood等人，2020）算法目前正应用于这一领域，以提高机器学习方法的效率，如BERT：预训练深度双向转换器，递归神经网络（RNN）（ Nasir 等人， 2021 ）（ Wadud 等人， 2022 ）、卷积神经网络（CNN）（Nasir等人，但这些文本分类方法几乎没有限制滥用内容识别任务效率的重大限制。其中，表2列出了几种模型及其局限性。此外，由于某些形式、字符数量、笔画和字符相似性，自动化的文本分类的复杂性在几种语言之间存在差异（Pradhan等人， 2020年）。孟加拉语包含以下与文本识别任务密切相关的功能元音：元音是代表只有在开放声道时才能发出的声音的字符或字母。在孟加拉语中，有11个元音。辅音：辅音是表达一个spo-ken声音的字符或字母，可以用完全或部分开放的声带发音。孟加拉语有39个辅音。变音符号：在符号之上或之下表达的信号，用来表示相似字符的不同发音。有两种孟加拉语的变音符号：辅音变音符号和元音变音符号。孟加拉语有7个辅音变音符号和11个元音变音符号。辅音连词：辅音连词是字母，包括两个或两个以上的辅音相连。在孟加拉语中，有118个辅音连词基本上是练习的。字形：任何书写风格中最短的部分是字形。孟加拉语中的字素必须有字素根。字素根是元音、辅音或辅音连接字符。变音符号也可以在字素中看到。孟加拉语单词结构的图解如图1所示。表2现有的文本分类方法对于选择性文本分类任务的局限性。模型架构限制逻辑回归（Genkin等人，（ 2007年）贝叶斯逻辑回归预测结果基于一组独立变量朴素贝叶斯（Kim等人，（2006年）多元Poisson模型用于文本分类构建关于数据分布形状的强有力假设支持向量机（Lodhi等人，（2002年）字符串子序列内核结果缺乏透明度SVM和KNN（Chen等人，（ 2016年）反重力矩未能捕捉到一词多义，语义问题仍然没有解决条件随机场（Chen等人，2017年）BiLSTM-CRF计算复杂度高深度学习（Chenet al.， 2020年）深度神经网络数据依赖于设计的模型架构深度学习（Jiang etal.， 2018年）深度信念网络计算成本高，模型可解释性强深度学习（Zhang etal.，（ 2015年）CNN该模型只发现其输入深度学习（Kowsari等人， 2018年）包围深度学习算法（CNN、DNN（RNN）计算上昂贵孟加拉语包括近13，000个不同的字形变化，涉及许多元音，辅音，辅音连词和变音符号。在这些字素变体中还包含了大量的字形序列。由于字符组合的数量，孟加拉语的写作结构比英语更复杂，这使得孟加拉语的冒犯性文本分类具有挑战性。因此，本研究全面调查了当前用于孟加拉语辱骂文本分类的深度学习架构，并使用集成的LSTM-ADA Boost方法提出了一种更有效的方法然而，本文的重点是使用名为LSTM-BOOST的计算机化深度学习模型分析社交平台上的人类生成信息。来自不同社交平台的文本被提取、预处理并分类为不同类型的标签。本文提供了一个LSTM-ADA Boost集成架构作为Ben-Webster滥用文本识别方案，以识别社交网络平台上的滥用文本。该系统被称为集成长期记忆-自适应增强（LSTM-BOOST）。它是由一个孟加拉人训练的Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000953图1. 孟加拉语构词法图解。数据集包含来自几个孟加拉博客，网站和社交媒体平台的20，000个帖子，模因和评论。文章的总体贡献包括：• 我们开发了一个语料库，其中包含来自几个孟加拉语博客，网站和社交媒体平台的20，000个帖子，模因和评论，名为BHSSP数据集。• 我们使用PCA修改LSTM模型以进行文本分类。• 我们引入了一个集成的LSTM-ADA Boost（LSTM-BOOST）系统，使用改进的Adaptive Boost与LSTM和PCA对社交媒体平台上的滥用内容进行• 我们将建议的LSTM-BOOST架构与几种现有的文本分类方法进行比较。文章的其余部分组织如下。第2节介绍了当代滥用文本分类的架构。第3节全面解释了所提出的模型的方法，第4节讨论了所提出的LSTM-BOOST模型的详细架构。第五节给出了系统的性能评估.最后，第6节包含了讨论，第7节结束了论文。2. 相关作品深度学习中的文本分类是一种自动化方法，用于从大量数据集中识别不适当的内容。根据分类器的使用情况，文本分类方法可以分为三种：无监督、半监督和监督。• 监督学习：监督学习方法依赖于领域，因为它依赖于大量数据集的手动标记。然而，大多数用于辱骂性文本分类任务的策略都是监督方法。例如，Burnap和Williams（Burnap and Williams，2015）应用了各种监督分类器来区分Twitter上的攻击性文本• 半监督学习：在半监督学习中，标记和未标记的数据都用于对文本进行分类。 Hua等人（Hua等人，2013）提出，标记数据与未标记数据相结合可以显着改善文本分类。作者解释说，无监督学习不能有效地处理小的案例事件，监督学习可以做到这一点，但需要人工标记的数据。因此，需要半监督的方法.• 无监督学习：无监督学习是一种独立于领域的方法，可以处理不同的内容，同时提高可扩展性。（Pandarachalil等人，2015年）。它不依赖于人的输入来标记高容量的训练集;相反，它动态地提取与领域相关的重要特征。最初，在滥用文本分类领域，基于特征工程的方法实践上下文特征（Yin et al.，2009年）。此外，单词/字符n元语法，棕色聚类，语言特征主要涉及这个领域（Schmidt和Wiegand，2019）。在前深度学习时代，统计模型，如朴素贝叶斯（戴维森等人，2017）（Razavi等人，2010 ）（Kwok 和 Wang ， 2013）、支持向量机（ Davidson 等人，2017 ）（ Badjatiya 等人， 2017 年） ] （ DelVigna12 等人， 2017 ）（Saleem等人，2017）（Warner和Hirschberg，2012）（Xiang等人，2012年），物流回归（ Badjatiya 等人， 2017 ）（ Bourgonje 等人，2017 ）（ Djuric 等人， 2015 ）（ Waseem 和 Hovy ， 2016 ），决策树（Davidson等人，2017）（Bourgonje等人，2017），随机森林（戴维森等人，2017）（Xiang et al.，2012）主要用于文本分类任务。随着深度学习的出现，文本分类领域的最新任务引入了不同的深度学习架构（Chen et al.，2020）（Minaee等人，（Wadud和Rakib，2021）。特别是通常，自然语言处理（Palivela，2021）（Naredla和Ade-doyin，2022）模型最适合文本分类任务（Lai等人， 2015）（Kowsari等人，2019年）。Founta，A. M.et 等（Founta等，2019）提出了一种深度学习架构，该架构包括各种可访问的元数据，并将其与推文文本中的派生隐藏模式相结合，以检测各种强烈相互关联的不适当行为标准。这种统一的设计以一种简洁、透明的方式检测不同种类的不当行为，无需调整。E-X-tweetfeatures是元数据特征，例如基于tweet、基于used、基于网络和此架构的词向量。该架构使用了四个数据集，如网络欺凌，O攻击性，仇恨，讽刺数据集，并获得了准确性得分0.92.在（Badjatiya等人，Pinkesh Badjatiya等人使用了各种分类器，包括梯度提升决策树（GBDTs），随机森林，SVM，Logistic回归和深度神经网络（DNN）。在这个实验中，作者使用了16k条带注释的推文，实验模型（LSTM +随机嵌入+ GBDT）Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000954性能优于其他型号。Siwei Lai等人（Lai等人，2015年）开发了一种基于RNN的文本分类模型，该模型没有因为人类设计的特征。在学习单词表示时，建议的RNN模型捕获的上下文信息可能比标准技术的噪声更小。他们使用了四个常用的数据集来运行这个模型：20个新闻组，复旦集，ACL Anthology Network和斯坦福情感树库。作者比较了方法，RCNN优于每个数据集，分别为96.49，95.20，49.19，除了一个数据集。但是，当文本的序列是广泛的时，RNN的效率降低。因此，LSTM模型被应用。皮齐利斯湾K等人（Pitsilis等人，2018）使用了一种由多个基于长短期记忆（LSTM）的分类器组成的神经网络方法。这种分类器通过利用用户行为因素（包括种族主义或性别歧视）来提高性能。使用来自Twitter的16k条简短消息的数据集对该模型进行了实验评估，显示了所获得的最佳分类性能。此外，基于CNN的架构已经成为非常有前途用于文本分类任务（Nasir等人，2021年）。Zampieri，M等人（Zampieri等人，2019年）提出了一个三级层次注释方案来检测和分类滥用语言。他们使用了一个大规模的数据集，滥用语言识别数据集（OLID），这是一个英语推文，对犯罪的目标和性质进行了高质量的注释。研究人员对SVM、BiLSTM、CNN等不同的机器学习模型进行了实验，并比较了各种模型的性能。CNN以0.80的宏F1值超过了RNN模型; CNN以0.69的值超过了BiLSTM。Yoon Kim（Chen，2015）展示了一个简单的CNN，它具有轻微的超参数调整和静态向量，其中通过微调学习特定于任务的向量提供了额外的性能。建议的模型使用MR、SST-1、SST-2、Subj、TREC、CR和MPQA数据集。该模型是通过训练一个基本的CNN在由无监督神经语言模型生成的词向量之上具有一层卷积。与其他变体相比，预训练的CNN模型的结果更好，例如CNN静态的89.6，SST-2 数据集上的 CNN 多通道的 88.1 ， CR 数据集的 85.0 。在（Wiedemann等人，2018），一个渐进集成的BiLSTM-CNN神经网络，由三种转移学习方法组成，监督类别转移，半监督类别转移和无监督类别转移，用于提高给定先验知识的分类性能。作者探讨了三种不同技术在迁移学习过程中减轻不良影响的影响，并评估了GermEval2018数据集上的文本分类任务两项研究的性能分别提高了75.2%和52.7%。Gambäck et al.（Gambäck and Sikdar，2017）为Twitter仇恨言论开发了一个基于深度学习的文本分类系统。每一条推文都被分类器分成四个预定的类别Max-pooling用于减少特征集，SoftMax功能分类推文。该模型是基于word2vec嵌入开发的，在10倍交叉验证中得分最高，具有更高的召回效率和78.3%的F分数。Yenala，H.等（Yenala等，2018）提供了一种基于深度学习的方法，用于自动检测这种不正确的语言，专注于在两个应用中解决这个问题：搜索引擎中的查询完成建议和信使中的用户聊天。此外，为了检测多标签域中的xic注释，Ashok Kumar等人引入了多通道卷积双向门控递归单元（MCBiGRU）。To XIC comments detection- tion指的是类似的任务，即识别不友好的文本检测（Kumar等人， 2021年）。此外，最近BERT：用于语言理解的深度双向转换器的预训练模型被广泛用于语言表示。该架构是一种基于微调的方法，可在一系列广泛的句子级和标记级任务上产生最先进的结果（Devlin等人，2018年）。因此，这种众所周知的模型被广泛用于文本分类并取得了令人满意的结果（Sun等人， 2019）（Jin等人， 2020年）。表3数据集摘要。属性名称奥普什（Co）非过敏性（Cn）判刑总数1000010000总字数110083102782句子中最少的词13总大小（字节）9907471233348对英语中的攻击性评论进行分类是一个普遍的课题。这么多的数据集可用于英语，印地语和西班牙语。其中，HatebaseTwitter（Davidson等人， 2017 ）， WaseemA （ Waseem 和 Hovy ， 2016 ）， WaseemB（Waseem，2016），Stormfront（De Gibert等人，2018），TRAC（Facebook）（Kumar et al.， 2018），TRAC（Twitter）（Kumaretal.，2018），HatEval（Basile等人， 2019）、O EkensEval（Zampieri等人，2019）数据集非常受欢迎。但这个模型是专门为孟加拉语设计的。但在在我们的工作中，我们使用了不同的机器学习模型作为基线架构。此外，LSTM和PCA已被应用于增强自适应Boost集成方法的性能。因此，据我们所知，这是第一个采用经典文本分类架构的研究工作，包括机器学习和深度学习，以建立一个最先进的架构来分类社交媒体平台上的孟加拉语辱骂文本。3. 方法本节介绍了参与社交平台数据集的滥用文本理解算法。首先，为了训练和测试所提出的算法，我们实现了一些基线架构，包括支持向量机（SVM），逻辑回归（LR），多项朴素贝叶斯（MNB），随机梯度下降（SGD），决策树（DT），随机森林（RF）和K-最近邻（KNN）。这些结构被用来实现滥用文本分类的集成算法。图3展示了所提出的LSTM-BOOST架构的流程。首先，使用不同的预处理技术对数据进行预处理。然后，TF-IDF矢量化，计数矢量化，word 2 vec，和fastText应用的特征提取和词矩阵生成。最后，我们将AdaBoost架构与主成分分析（PCA）结合LSTM模型捆绑在一起，以创建一个改进的提升架构。我们使用主成分分析集中的主要词从数据集，并降低运行时间的复杂度。3.1. 数据收集我们使用了自动数据收集程序，使用数据抓取过程，而不是手动过程。我们从许多孟加拉在线报纸（如 banglanews24.com 、kalerkantho.com、prothomalo.com等）以及Facebook和Twitter社交平台收集数据。我们已经积累了20000职位，模因和评论，从几个孟加拉网站。其中，10000个是令人反感的帖子/评论/模因，10000个是非令人反感的。在数据集中，共有110083个令人反感的词，102782个非令人反感的词。此外，我们消除了所有的永久链接，用户详细信息，日期和时间，以提高准确性。我们手动标记拥挤的数据集来识别滥用文本。我们将该数据集命名为BHSSP数据集。数据是逐年收集的，我们跟踪我们收集信息的来源。最后，将数据集分成0.8和0.2的比率来训练和测试所提出的算法。关于数据集的统计数据见表3。3.2. 数据预处理标准的自动文本预处理包括标点符号、逗号和大小写转换。像孟加拉语这样的特殊语言有它自己的Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000955表4最常用的表情符号和表情符号用于令人反感和非令人反感的文本。经常使用标点符号和标点符号来处理令人不快的文本经常在非恶意文本表情符号表情符号表情符号表情符号：（：D：）：=！D：（：<：）d：：>;D：<表5不同类型的孟加拉语停止词与例子。句法和语法形式，需要炮制采用个别的命令和做法。本节描述了我们用于孟加拉语文本分类的文本处理技术。在本文中，我们使用BNLTK（Bnltk 2022）python工具包来处理孟加拉语数据集。3.2.1. 汉字与汉字的转换数据的变化，包括表情符号，表情符号和单词，使文本处理变得困难。各种社交平台上的评论通常使用几种表情符号和表情符号。表4显示了最好的six表情符号和表情符号相关的两个objectives和标准文本。人们通常使用表情符号或表情符号来表达他们的感受，这些感受也可能是令人反感的。我们使用Beautifulsoup4（Beautifulsoup4 2022）Python库包。然后，我们使用Python翻译工具将所有emoji消息从英语翻译为孟加拉语（翻译，2022）。3.2.2. 消除标签当评论社交媒体上的帖子时（Gkikas等人，2022）（Aswani等人， 2019），通常使用主题标签来识别特定内容。考虑关于辱骂性词语的标签文本可能有助于对辱骂性文本进行分类。我们通过替换空间并保存所有文本以备将来使用来删除所有标签符号（#）。举例来说，让某人在社交媒体评论中使用#Hortal标签;首先，我们用空格替换（#）符号，然后将其翻译为孟加拉语#Hortal=> Hortal =>.然后，我们保存3.2.3. 杂项我们使用了不同的标准文本处理（Kumar等人， 2021）的方法，如重音符号，删除标点符号，空格，数字转换成单词，停止词等，没有准确的收集停止词的孟加拉语。Haque等人（ul Haque等人，2019）将孟加拉语停用词分为四种类型。表5列出了四种孟加拉语停用词的例子。为了从文本中删除不需要的单词和标点符号，我们使用了Python和正则表达式库。3.2.4. 数据标签数据标记过程分两个阶段完成。首先，所有数据都由八名BUBT高级机器学习（AML）实验室成员手动标记。然后，另外5名BUBT AML实验室成员测试并认证了数据标签。整个过程如图2所示。3.3. 特征工程我们已经应用了 TF-IDF （ Jie 和 Li-chao ， 2010 ）， Word 2 vec（Rong，2014），CountVectorizer（Kulkarni和Shivananda，2021）和fastText（Bojanowski等人，2017）来提取特征（Wadud等人， 2022年）。这些特征提取模型将文本文档转换为固定长度的数字向量。在我们提出的算法中，这些模型的工作机制简要解释如下：3.3.1. TF-IDF矢量化器文档中的重复文本可能会降低文本分类的效率。因此，TF-IDF模型被用于在所提出的模型来处理重复文本。TF-IDF模型的数学表示为：��_��(��,��)≔��(��,��) ×�� (��)(1)其中idf（t）是逆文档频率，tf（t，d）是项频率。3.3.2. Word2Vec它用于识别所有短语的向量，使相似的文本具有相关的向量。它用于文本材料的语义研究。它由两层反向传播网络组成。它以文本语料库作为输入，并产生一组向量，这些向量是语料库中单词的特征向量。这些特征向量在Python scikit-learn包的帮助3.3.3. CountVectorizerCountVectorizer通常用于将任何内容转换为矢量表示法。它也经常被用来提取特征。通过转换一组文本文档，形成一个令牌矩阵。scipy.sparse.csr矩阵用于提供计数的稀疏表示。没有提供先验词典，也没有使用分析器。3.3.4. fastTextfastText是Word2vec的一个更新的单词嵌入方法。它不是直接将单个单词输入模型，而是将每个单词分解为一个n元字符。 fastText非常适合处理独特的单词。Word2vec无法为不在训练集中但fastText可以提供的单词生成任何矢量表示。然而，fastText，CountVectorizer，Word 2 Vec和TF-IDF特征提取方法被应用于获得所有文本的矢量表示。表6说明了所有特征提取Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000956图2. 数据标签：标签和验证。表6样本特征值来自前四个文本片段，包含五个单词。r\cVectorModel词1词2词3词4字5样本特征值弓4901210文本1TF-IDFWord2Vec0.450.630.430.390.760.850.820.670.0030.10fastText0.740.690.900.850.22弓83526text2TF-IDFWord2Vec0.340.050.540.650.720.780.080.320.100.65fastText0.450.520.850.350.55弓1407119text3TF-IDFWord2Vec0.760.890.040.10.560.450.880.700.670.73fastText0.890.120.520.790.65弓951146文本4TF-IDFWord2Vec0.670.730.720.780.880.730.450.530.560.47fastText0.770.800.820.5310通过呈现来自4个文本文档（文本1，文本2，文本3，文本4）的前五个单词（单词1，单词2，单词3，单词4，单词5我们已经决定了每个文本文档中的前3000个特征词，因为我们希望保持二维数组的大小尽可能小。数组的行是文本文档（t1，t2，...，t15000），并且列是特征词（w1，w2，...，w3000）的单个文本记录。这表示我们正在使用大小为15000 × 3000的固定长度字向量。Word 2 Vec方法采用几个n-gram特征来计算单词矩阵，如表7所示。我们已经应用了多个n-gram字符与特征提取方法来识别来自文档的非敏感文本。Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000957表7用于识别攻击性评论的N-gram特征的表示算法1提出的LSTM-BOOST算法。4. LSTM-BOOST模型常见的基线架构给出低准确度分数，因为特征信息是从各种来源收集的，并且单个模型不能提供良好的决策边界。因此，使用了总体架构。在学习阶段，集成分类器将基线方法与不同的特征采样技术相结合。Boosting集成方法是最著名的集成方法之一（Breiman，1996）。采用Boosting集成架构，通过顺序训练弱学习器来提高效率。这种方法可以提高分类的性能。最常规的机器学习增强算法是Ada-Boost（Wang等人， 2011年）。为了提高调光器分类器的输出，有必要测量错误并更新权重。由于新的分类器被迫处理困难点，因此某些数据点可能会被牺牲。它有可能污染分类器的准确性我们修改了Ada Boost算法。我们对主成分分析（PCA）后的数据集进行了分类（Ham和Kwak，2012）。人们通常使用PCA来最小化大数据的维度（Gupta et al.，2018）（Kushwaha等人，2021）集。主成分分析是一种常见的数学研究，用于找出数据集中最高的数据相异性作为主成分。它是一种无监督的维数压缩方法。它不使用数据集中指示的标签。在我们的研究中，我们使用PCA来识别变化最大的数据部分，并跳过变化较少的数据样本。我们的整个数据集不是一次训练的，因为我们使用了个体基线分类进行集成学习。PCA从数据集中提取核心成分，AdaBoost模型可以轻松地为每个成分生成弱分类器我们建议的模型的流程图如图3所示，在算法1中提供了伪码。图3显示了我们在将数据发送到逻辑回归之前应用PCA来确定数据集中最不一致的部分。初始LSTM-BOOSTMd.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000958（）=1��∑（）（）=1所有的弱分类器都被转化为强分类器。��12��[客户端]图3. 建议模型的架构：LSTM-BOOST。模型通过执行与PCA方法类似的以下操作来找出主成分vpca。完整数据集已分离分成三个部分，以发现三个部分中变化最大的成分。在每一个数据块上，LSTM分类器都经过训练，测量弱假设（ht）并计算弱假设的误差（WET）。然后更新权重的分布，以最小化下一次迭代中使用的误差。首先计算加权样本平均值，如下所示：��=1∑��（��）��（2）预测数据如下：ℎ�� = LSTM��,��,��(5)接下来，我们将剩余的2/3部分数据和分类不良的数据结合起来，并应用PCA技术，通过执行加权平均值，阈值和投影向量来最小化加权误差。然后，我们使用LSTM技术来学习强分类器和弱分类器之间的最佳特征。最后，我们使用PCA和LSTM分类来确定特定类的决策边界。我们使用LSTM分类器根据决策边界的各个方面来预测数据。经过几次迭代，是：然后根据加权平均值计算加权散布矩阵X5. 评价�� 为�� (��)�� −��中国-中国（3）��对于原始数据样本，原始数据样本的空间是二维的，经过PCA分析后，原始数据样本的空间降为不丢失任何性质的n′维空间。则方法通过对S应用特征值分解来计算特征向量��如下：��= �� ，��，��... ′ ∈ × ′（4）我们从大多数方差数据集中选择数据的前1 scin3部分，并应用长短期记忆（LSTM）网络作为基础学习器，Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000959本节解释了在我们的孟加拉语数据集上拟议的LSTM-BOOST架构的评估过程。我们将评估过程分为三个部分：统计评估、图形评估和集成评估。此外，本节还演示了评估指标、实验设置。5.1. 实验装置评估环境使用英特尔（R）酷睿（TM）i5-6500处理器上的Ubuntu18.04操作系统进行配置，包括Md.A.H. Wadud，M.M. Kabir，M.F. Mridha等人International Journal of Information Management Data Insights 2（2022）1000951016GB RAM。Python 3.6.9和TensorFlow 2.2.1用于实现高级文本分类模型。来自Panda 1.0.3和scikit-learn的数据帧0.22.2用于从头开始构建数据集，用于训练和测试目的。在生成测试和训练数据集的同时，我们随机地对整个文本进行排序，使得测试和训练数据集具有非敏感性和敏感性材料的组合。我们使用了20%的数据集进行测试，剩下的80%用于训练目的。5.2. 评估指标分类模型的准确性使用应用于模型估计的度量来衡量。在自动文本分类中，准确率是一个常用的指标，用来评估一个模型如何从大量的信息中分类出令人反感的文本。假阳性（FP）、假阴性（FN）、真阳性（TP）和真阴性（TN）是“混淆矩阵”中的四个测量值。这四个标准的相对相关性可能会因可用的准确度测量的多样性而异。为评估分类的准确性，已完成分类的准确分类比例确定为：表8在基线和操作模型中使用的特征特征名称特征值F1Uni-gram+Bi-gramF2二元语法+三元语法F3一元语法+二元语法+三元语法F4四元组F5三元语法+四元语法此外，scikit-learn库用于基线估计。各种分类方法都有自己的参数集，分别由输入变量的数量和格式决定。对于LR和SGD分类器，我们采用了penalty=jl2j，solver=jlbfgsj，max_iter=100。max_features=n_features用于DT和RF分类方法。然而，在DT中使用熵准则，而在RF分类器中使用基尼准则。对于所有分类器，我们使用learning_rate=optimal和random_state=0设置进行了练习。所有基线分类器将在下一节中进行评估，该节描述了评估结果。准确度=��1000+1000��+��+��（六）5.3.1. 统计学评价总的来说，我们研究了大多数基线分类器，精确度用于衡量正分类的相关性，估计为，特征学习方法总共使用了五种不同的特征。表8列出了其类似物质的不同特征。在一系列具有不同特点的实践课程之后，精度=��电子邮件��（七）在表7中，我们列出了实现最高准确性的前五个功能活泼的水平。表9、10、11显示了基准分类的影响召回度量被应用于计算正分类对正分类的基础，测量为，方法，其中每个分类模型独立于fastText，TF-IDF，Word 2 Vec和BoW特征提取方法使用。回忆=��（八）逻辑回归算法的性能结果最后，F1-score被用来解释分类结果的精确度和召回率的高低，其计算方法如下：查准率×查全率特征提取方法和F3特征在87.84%和最低的准确率达到与Word2Vec特征提取

下载后可阅读完整内容，剩余1页未读，立即下载