有毒评论分类：基于AlexNet架构的深度学习CNN模型在沙特国王大学学报

42 浏览量更新于2024-01-18 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于AlexNet架构的卷积神经网络用于有毒评论分类InderpreetSingh，Gulshan Goyal，Anmol Chandel印度昌迪加尔昌迪加尔工程技术学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2021年2022年5月24日修订2022年6月13日接受2022年6月16日在线提供保留字：有毒评论AlexNetfastText深度学习CNN词嵌入ROC-AUCA B S T R A C T今天，网络已经成为世界各地人们生活中不可或缺的一部分。随着信息流的日益增加，用户很难减少他们的互联网/在线通信。虽然信息的自由流动有利于在线通信，但在线通信的高毒性是一个缺点。有毒文本被描述为不尊重或侮辱性的信息，使收件人感到不舒服。基于深度学习的卷积神经网络（CNN）在计算机视觉领域取得了卓越的成果，AlexNet已被证明是图像分类和对象检测问题的领先架构本文提出了一个3层CNN架构，该架构受到AlexNet模型的启发，可以对Google Jigsaw数据集中维基百科论坛上的有毒评论进行分类。快速文本抓取-300 d-2 m用于制定预训练的词嵌入矩阵。在卷积块中应用指数线性单元（ELU）激活函数，以加快收敛速度。Dropout与网络的不同层一起充分使用，以防止过拟合。从模拟和随后的比较分析，发现该模型取得了不错的平均准确率为98.505%，平均F1得分为0.79。使用ROC-AUC评分作为评价参数。所提出的模型的ROC-AUC值约为0.9854，这表明所述模型更准确地区分评论类。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍网络技术已经在世界范围内建立了自己的标志，因为它帮助人们自由地互动，而不受物理存在的限制（Ghosh等人，2021年）。因此，它为人们提供了一个通过互联网相互交流互联网允许个人分享他们对任何问题的想法，他们希望别人知道。每过一分钟，技术都在进步，在线时间的曲线图也随之增长，2021年1月发布的一项研究显示，全球有46.6亿互联网在研究的11个国家中，更高比例的人表示他们经常在互联网上遇到其他经济水平的人，而不是他们经常遇到的人（皮尤研究美国，2014）。*通讯作者。电子邮件地址：inderpreet221099@gmail.com（I.Singh）。沙特国王大学负责同行审查。不同种族、宗教、种族背景或政治信仰的人都在互联网上。在一项民意调查中，超过一半的南非人，古巴人，埃塞俄比亚人和黎巴嫩人表示，他们在研究中询问的四个属性中的每一个都比他们更容易接触多种观点。社交媒体提供一个分享他们的观点的平台，文化不同国家的文明在线参与带来了许多对人类生活有利和有害的影响。有益的影响是，全球各地的人们可以相互沟通，尽管距离数千公里，但这种在线接触的有害后果是全球有毒的。评论部分正在恶化为侮辱，威胁，辩论和骚扰（Chakrabarty，2020）。有害评论在社区中变得越来越普遍，无论个人是否相互认识有毒评论是表达或暗示蔑视他人的单词、短语或句子（Rahul等人， 2020年）。个人可能会因为有毒的话而感到被它们也可能让一个人感到不安，以至于他们永远不会感到公开表达某个特定观点的皮尤研究中心在线调查发表的一项研究表明，每十个美国人中就有四个人亲身经历过网络骚扰。令人震惊的是，https://doi.org/10.1016/j.jksuci.2022.06.0071319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comI.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7548每五个美国人中就有一个人经历过严重的网络骚扰，如暴力威胁、勒索和性骚扰。根据这项调查，超过1000人，并试图评估该国的在线骚扰数量，每十个印度人中就有八个经历过因此，有毒的话可能会导致重大的影响，如绝望或孤立。有毒的评论形成了一个链条，其中一个人在评论框中评论了一些令人不快的事情，迫使目标人物离开讨论，其他人要么通过使用更多的脏话来鼓励他们的毒性，要么用他们的语言来挑战他们（Androcec，2020; Ashok Kumar等人，2018年; Zinovyeva例如，2020年）。此外，由于没有对他们的行为进行检查，社交媒体上没有人会对自己的帖子负责。这些东西由于各种原因，人们不能亲自说的事情，他们现在在社交媒体上表达出来，相信没有人关心，他们可以对任何人说任何话。另一个原因是非人性化，这表明个人更喜欢非人性化那些谁是在线（Dolgushin例如，2021年）。而不是理解对方的观点在一个问题上，他们试图把自己的观点强加于人;个人发现如果有人的观点与他们的不同，那么严厉是很简单的。另一个原因是没有实时检查评论者以确保他们发布的内容，这使得他们更容易表达他们的愤怒，愤怒和不愉快的感觉（Dubey等人，2020年）。从本质上讲，一个糟糕的评论为其他人做同样的事情打开了大门。人们评论这些可怕的事情很容易，但面对来自不同人的所有不必要的愤怒的人很难。这导致了各种精神问题，包括。1. 多巴胺成瘾：讨厌的评论会让人上瘾，因为他们喜欢在无聊时反复阅读负面评论，或者有时为了快乐，导致心理健康问题和人格中的消极情绪，让人缺乏灵感（Berke和Hyman，2000）。2. 抑郁和消极：如果一个人不断受到负面评论的轰炸，这可能会使他们对自己想要的品质感到不安，即。如果一个人经常被他们的观点或他们说话的方式戳到，这会让他们对自己感到不安全，以至于他们害怕再次说话，使他们感到沮丧和孤立，有时会导致自杀（Anand和Eswari，2019）。3. 焦虑：有毒的陈述可能会让一个人一直感到紧张;它会向他们灌输恐惧，并导致他们怀疑自己对问题的观点;他们会害怕应用自己的观点或选择/决定，导致焦虑症（Seabrook等人， 2016年）。4. 低自尊：如前所述，如果一个人的目标是他们的特定行为，思想，或口音，或任何其他与他们有关的东西，他们最终会有低自尊，因为他们将没有信心，因为每当他们试图做任何事情，负面评论将开始针对他们（Husnain等人， 2021年）。上述问题对于社交媒体和其他网站来说至关重要，它们可以在用户每秒上传的数万个项目中检测有害材料。现有的算法依赖于个人报告有毒材料，要求对发布有毒材料的个人采取行动，这导致了很长一段时间内它会受到媒体的关注，并导致对其内容的大规模争论。因此，在上传之前必须对材料进行毒性评估，如果被认为是危险的，就应该禁止出版。为解决上述问题，本文提出了以下目标：使用基于AlexNet的3层CNN架构对有毒评论进行分类。在Google Jigsaw于2017年12月发布的维基百科评论数据集上实现该模型。使用Fasttext形成预训练词嵌入的嵌入矩阵使用ROC-AUC和F1评分作为评价指标来分析所提出的模型。本文的其余部分组织如下。第二探讨了有害评论分类领域的相关工作。第3描述了有毒文本分类领域的挑战第4节根据从相关工作中得出的推论提出了拟议的工作。本节还包括所使用的数据集、数据预处理和网络架构的信息。第5涉及所述模型的仿真和性能研究，第6节给出结果/讨论。结论和未来范围见第7。2. 相关作品毒性研究主要在社交媒体的背景和舞台上进行。有害评论分类是情感分析中一个研究得很好的子集.有毒文本数据检测是自然语言处理的应用和研究领域之一。不同的模型具有不同程度的准确性和方法，开始在这一领域的早期工作，利哈伊大学的研究人员将情感特征与TF-IDF相结合（Yinet al.，2009年）。随着时间的推移，越来越多的企业承担起了这一角色，其中最著名的是谷歌，它成立了Jigsaw公司，致力于消除在线滥用。一些独特的策略已被检查的骚扰识别模型的特异性。在Yu etal.（2018）中，作者提出了一种改进策略，该策略基于修改接近情感相关词的词向量表示，同时远离情感发散词。实验结果改善了标准的词嵌入和性能比以前可用的情感嵌入斯坦福情感树库（SST）细粒度和二进制分类。建立在稠密向量表示上的神经网络在几个NLP分配上已经超过了传统的神经网络。这种趋势已经被词嵌入的有效性所推动（Mikolov等人，2010）和深度学习方法（Aken等人， 2018年）。词嵌入已经在各种NLP领域中获得了吸引力，包括文本分析、文本分类、句子分析和众所周知的计算机视觉主题（Guggilla等人， 2016年）。术语一般来说，词嵌入通过将未标记文本输入中的词映射到恒定维空间来捕获内部语义和句法信息词嵌入是一种类似于潜在语义分析（LSA）的技术（Yilmaz和Toklu，2020），它允许我们处理更实质性的词表示，其中词被表示为更基本的成分或特征的向量目前存在用于嵌入单词的各种方法它们可以以多种方式分类作者在Sun et al.（2015）将模型分类为组合式或聚合式。组合模式以词的共现语篇区域为中心，而聚合模式以比较语境为中心。●●●●I.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7549在Mikolov等人（2013）中，作者提出了Word2VEC技术，假设神经网络的集合可以在巨大的数据集中生成连续的单词图像。为了更有效地训练词向量，分布式短语和文档表示引入了word2vec思想。主要任务是使用神经网络将单词映射到连续空间，并将口语处理转换为向量操作，以便计算机能够准确地理解编程要求并改进代码创建。word2vec算法被证明在产生单词嵌入的数字图像方面是有效的（Sun等人，2015年）。Word2vec有助于更好地传达数据：彼此可比的单词具有相似的向量，而彼此不相似的单词具有不同的向量（Aken等人，2018年）。该方法通过分析输入词出现的偶然数据，从作为输入的许多词构建词的向量（Lauren等人， 2017年）。在Pennington等人（2014）中，作者开发了GloVe技术，涉及语言模型的全局向量。它是作为斯坦福大学的一个开源项目开发的。它是一种用于产生低维向量表示的无监督方法。 GloVe单词嵌入是基于基本思想：共现矩阵用于确定词之间的语义关系。共现统计中的权重因子说明了上下文窗口大小内的单词长度。词同现集合只需要遍历所提供的集合一次。另一方面，Word2vec在在线方法中的几次迭代中捕获该信息（Kim等人， 2019年）。在Bojanowski等人（2017）中，作者开发了Fasttext技术。所述技术是Mikolov嵌入的变体。跳跃语法范式，其中每隔一个单词由一个n-gram包表示，是FastText的基础。向量表示每个n元语法，这些表示的和表示单词。为了理解单词表示，我们应该知道在单词表示中使用了许多左和右单词向量。由于FastText与Mikolov嵌入不同，它使用字符n-gram单词标记化，因此它将为拼写错误的单词，不常见的单词或未包含在训练语料库中的单词提供嵌入。FastText抓取是它的单词嵌入，因为它是在6000亿个令牌上训练的。FastText能够训练有监督和无监督的单词和短语表示，这也是它非常有效的原因之一。图1图示了FastText通过嵌入和平均的有限元分析-tures，创建隐藏变量（Joulin等人， 2017年）。上述技术适用于基于卷积神经网络（CNN）的有毒评论分类。CNN是一种深度学习技术，在广泛的计算机实用程序中，并且在各种其它领域中获得牵引力。CNN相对于其前身的根本优势在于，它可以自动发现重要的特征，而无需人工干预。CNN就像一个标准的神经网络一样，受到动物和人类大脑中神经元的刺激。具体来说，猫大脑中的视觉皮层Fig. 1. FastText架构（Joulin等人， 2017年）。是由CNN模拟的复杂细胞测序形成的（Lauren et al.， 2017年）。Goodfellow et al.（2016）指出了CNN的三个显著优势：可比较的表示，参数共享和稀疏交互。CNN是神经网络的主要分支之一。它扩展了感受野和共享权重的概念，不仅减少了训练参数，而且降低了网络模型的复杂性。这些特性允许CNN也保持一定的平移和尺度不变性。梯度下降方法可用于训练CNN的端到端学习模型中的参数。CNN不仅受益于深层的层次结构，而且还受益于精细的学习算法。学习算法的目标是通过更新网络参数来最小化预测值和实际标签之间的训练误差，这些参数由损失函数量化。CNN架构由许多层次组成CNN由不同的层组成，每层都有不同的目的。卷积层是CNN设计中的关键组件之一它是使用几个卷积滤波器（也称为内核）构建的输出特征图是通过将输入图片与这些滤波器进行卷积来创建的，输入图片被给定为N维度量（Reghunath etal.， 2019年）。池化层是另一个重要的组件，其主要功能是对使用卷积过程的特征图进行子采样（Santos等人，2020年）。换句话说，这种方法将大规模的特征映射压缩成较小的特征映射。此外，它在池化过程的每个阶段都保留了大量的主导信息。接下来是全连接层，通常在每个CNN架构的结尾附近找到。这一层中的每个神经元都链接到所有前一层神经元，从而产生所谓的全连接（FC）方法。它可以作为CNN分类器。FC层从先前的池化接收其输入，并且它也可以通过卷积层来。该数据是在平坦化特征图之后生成此外，最终分类是从输出层（CNN设计的最后一层）获得的。在CNN模型中，某些损失函数用于输出层，以确定在训练数据上生成的预期误差。这个错误显示了实际产出和预计产出之间的差异。在一个新的，巨大的评论数据集上，Aken等人（2018）的作者强调了深度学习与浅层技术的比较，并开发了一个整体模型，该模型优于所有单个模型。他们发现，GRU和LSTM是逻辑回归、双向LSTM等方面表现最好的模型。2015），也称为多任务学习，包括一个输入层和一个隐藏层序列即，每个名字CNN在计算机视觉领域的成功为CNNs在NLP应用中的应用开辟了道路随着时间的推移，CNN在NLP中的使用呈指数级增长，许多研究人员提出了基于CNN的方法来解决许多问题。CNN用于文本分类和自然语言处理，以传播单词的连续嵌入（dos Santos等人，2014），而不需要对语言的句法或语义理解。此外，最近提出了一种用于文本分类而没有人类设计特征的循环CNN模型（Yoon，2014），其性能优于CNN模型和其他成熟的分类器。他们的方法使用卷积神经网络来表示文本，并使用循环结构收集上下文信息同时，CNN已经成为使用词序进行文本分类的有效策略（Siwei et al.，2015年）。提出了一种利用词嵌入进行文本编码的实用的基于CNN的方法（Zhang et al.， 2018年）。对于文本编码情感嵌入、词典嵌入和语义I.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7550使用嵌入。注意力向量和LSTM注意力池与CNN模型相结合。最后，在两个单独的数据集上进行的测试表明，建议的CNN模型优于或接近优于当代最先进的模型（ Georgakopoulos 等人， 2018年）。另一种类型的深度学习架构称为transformer（Ashish et al.，2017年）最近引起了极大的兴趣，因为它们在文本、视觉和语言等一系列领域取得了成功（汤姆等人， 2020年）。Transformer是一种深度学习架构，它使用自我注意技术来不同地加权输入数据中每个元素的相关性（Gupta和Agrawal，2022）。谷歌研究团队进行了一项实验研究（Tay et al.， 2021）来研究语言模型背景下的预训练卷积和预训练变换器。该实验研究跨越8个数据集，以涵盖各种NLP任务。研究发现，CNN在FLOP和时钟速度方面比变压器更快，并且可以更好地扩展到长序列。还发现，与变压器相比，CNN因此，在这项研究中，CNN被用作主要的深度学习架构。AlexNet由Alex等人（2012）实现，被广泛认为是CNN的鼻祖和深度学习的催化剂Alex- Net毫无疑问在ImageNet挑战赛（ILSVRC）的历史上取得了主流的知名度。ImageNet是一个可视化数据集，拥有超过1500万张标记的高分辨率照片，涵盖约22，000 个类别。ImageNet数据集具有出色的质量，因此学术界希望测试他们的图片分类模型。AlexNet在2012年成为第一个赢得ImageNet挑战赛的深度学习架构，其广泛的利润率约为11.3%。AlexNet团队利用GPU训练来提高效率。在2012年之前，图像分类模型失败的失败率大约为25%;然而，在2012年 ImageNet挑战中，AlexNet的错误率超过了15.3%。AlexNet对于重新关注深度学习研究至关重要。它的架构类似于LeNet-5，但具有额外的层和过滤器，从而获得更好的范围和更多的学习变量。这项工作表明，深度学习框架可以用于学习特征，而不是手动产生具有深度域意识的特征（Alzubaidi等人， 2021年）。AlexNet有8层，其中5层是卷积层，具有不同的内核大小和几个过滤器。其他3个是完全连接的层。它使用激活函数来增加非线性和提高收敛速度，并使用多个GPU来加快训练速度。不同的内核大小是AlexNet在图像数据集上表现良好这样的核大小使模型能够充分理解和记录输入数据的基本特征在所提出的模型中，我们在不同的卷积层中实现了类似的内核大小变化像AlexNet这样的深度CNN拥有超过6000万个参数，形成了一个强大而有效的深度学习系统，可以解决大量数据集的问题。但是，在稀疏数据集（如Google Jigsaw Dataset）的情况下，这些模型往往会过拟合，从而导致模型结果不佳。过拟合是与CNN模型中的良好泛化相关的主要挑战（Cawley，2012）。当一个模型在训练数据集上表现得很好但在测试数据集上失败时，它就是过拟合的。几个直观的概念来帮助正则化，以尽量减少过拟合。在Drop-Weight（Reghunath等人，2019）技术，每个训练周期丢弃连接（权重），而不是神经元本身。另一种技术是数据增强（Mikoajczyk和表1与现有模型的比较。研究人员方法准确性ROC-AUC哈拉拉波普洛斯LSTM97+%–例如，2020Guggilla等人，CNN模型和LSTMCNN（79.56% F1）–2016查克拉巴蒂模型Tf-idf与机器LSTM（75.10% F1）百分之九十八点零八0.732020格奥尔加科普洛斯学习基本CNN百分之九十一点二–例如，2018凯文和尼哈，LSTM百分之九十二点七–2017Theodora等人，人物等级百分之九十四–2016Manav等人，2017嵌入CNN自定义嵌入百分之九十七点七八0.7240关于LSTMGrochowski，2018），这是防止过度拟合在大量数据上训练模型的最直接的技术。另一种技术被称为批量归一化，它有助于减少内部协变量的变化，从而显著加快深度神经网络的训练。（谢尔盖和克里斯蒂安，2015）。表1给出了基于有毒评论分类的不同方法的不同现有模型的比较研究。它推断，尽管在基于深度学习的CNN、LSTM和ANN的帮助下，毒性检测有了显着的改进，但检测模块的准确性仍有改进的余地该表还表明，词嵌入的使用提高了该技术的性能。许多研究人员尚未评估ROC-AUC评分来检查其技术的可用性。对ROC-AUC评分进行评估的现有技术描述了模型无法精确区分类别。3. 挑战和推论通过前面几节介绍的研究，我们发现了一些问题，这些问题表明并证实我们需要一个新的系统来解决问题。首先，快速文本单词嵌入技术与其他两个单词嵌入方法的不同之处在于Word 2 Vec和GLOVE在单个单词上训练，而Fasttext在n-gram字符上训练。其次，快速文本可以产生更准确的词嵌入不常见的词，甚至在训练过程中没有遇到的话。第三个问题是，FastText比最近在卷积神经网络上进行的实验要准确得多，而且它可以在常规CPU上训练四分之一的时间，而且内存复杂度更低。根据范围在挑战中，FastText提供了一系列预训练模型。例如，我们的模型使用crawl-300 d-2 M.vec.zip，这意味着训练了200万个单词向量。各种基于深度学习的技术，包括基本的ANN，CNN和LSTM，可以应用于有毒评论分类。第四个问题是，没有添加单词嵌入的基本CNN模型不能很好地检测毒性。最近基于深度学习的有毒评论分类技术表明，准确率达到了97%左右。可以使用基于AlexNet的模型架构来提高有毒评论分类的准确性和ROC-AUC评分，I.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7551FastText的单词嵌入。我们设计的系统解决了这些挑战和推论。4. 拟议工作4.1. 系统模型提出并实现了一种受AlexNet启发的新型3层CNN模型，用于检测维基百科数据集上的毒性。这个系统最初通过删除停用词、标点符号和词形化来清理注释。该模型接受嵌入矩阵，这是Fasttext词嵌入的结果。该模型使用正则化技术Dropout来克服过拟合。图2展示了所提出的系统的工作流程。在算法1中描述了所提出的系统的方法步骤。算法基于AlexNet的三层CNN的方法步骤关于不同组件的简要讨论如下：4.2. 数据集描述3层CNN模型使用Google Jigsaw中Conversation AI团队于2017年12月发布的数据集。它包含维基百科讨论页面中最突出的用户评论，有160，000多个带标签的注释用户评论。人类老鼠将这些言论标记为“有毒”，“严重有毒”，“侮辱”，“威胁”，“淫秽”和“身份仇恨”。该任务被构造为多标签分类问题，因为注释可能同时与不同的类链接。Jigsaw没有对可用的六个类进行正式定义。然而，Jigsaw明确指出，有毒言论是“一种严厉的，侮辱性的，不合逻辑的陈述，可能会引发你退出辩论”。根据一个系统的文献综述（Androcec，2020），在有毒评论分类领域的图3中所示的数据集描述得出结论，有毒评论在数据集中发生得最多，而威胁发生得最少。此外，数据-集合被分成70：30的训练集和验证集。从这个数字来看，算法1.拟议系统的方法步骤。输入：拼图维基百科评论数据集输出：3层CNN模型对有害评论进行分类1. 数据集加载和变量加载：X：数据集（维基百科评论）Y：[MAX_FEATURES = 30000 //标记化的单词数MAX_LENGTH=200 //注释的最大长度EMBEDDING_FILE = Fasttext预训练的单词向量。EMBEDDING_MATRIX（MAX_FEATURES，MAX_LENGTH] ={0}2. 数据集清理X_LEMMA = LEMMATIZE（X）X_WITHOUT_STOPWORDS = STOPWORD_REMOVAL（X_LEMMA）X_CLEAN = PUNCTUATIONS_REMOVAL（X_无止动器）3. 数据集预处理WORDS =标记化（X_CLEAN，MAX_FEATURES）WORD_SEQUENCE = CONVERT_TOKENS_TO_SEQUENCES（WORDS）PADDED_SEQUENCES = PAD（WORD_SEQUENCES，MAX_LENGTH）4. 使用快速文本的嵌入矩阵形成EMBEDDING_INDEX =字典{}在EMBEDDING_FILE中输入单词：i. COEFFICIENTS = EMBEDDING_FILE [单词]ii. EMBEDDING_INDEX.append（COEFFICIENTS）端对于word，PADDED_SEQUENCES中的索引做：如果索引MAX_FEATURES做：i. EMBEDDING_VECTOR = EMBEDDING_INDEX [word]ii. 如果嵌入向量！=无：EMBEDDING_MATRIX[index]=EMBEDDING_VECTORend5. 3-层CNN模型训练EMBEDDING_LAYER（WEIGHTS = EMBEDDING_MATRIX）MODEL.TRAINING（X_CLEAN，Y，EPOCHS = 3，BATCH_SIZE = 256）模型评价（指标= ROC-AUC）端同样清楚的是，数据集是不平衡的，并且所有的类不是均等地表示的。在这种分析中，选择准确性作为度量标准通常会导致准确性悖论，即，虽然准确性结果处于高水平，但结果太粗糙，被利用针对ROC-AUC评估指标对所提出的模型进行评估，以克服数据集不平衡的问题4.3. 数据预处理在进行文本分析时，消除噪音是有益的。在处理文本数据之前，需要执行特定的文本清理过程，例如删除标点符号，这意味着删除每个注释中的所有标点符号。接下来使用词元化，指的是词的变形版本，例如各种单数/复数形式或动词形式。例如，go和gone是gone或lemma的词形变化。因此，每个注释都被词元化了。停止词删除法是指重复出现的标准术语，如arti- cles，介词。因此，每句话都省略了停用词。它有助于消除无用的数据段，或噪音，通过将所有字母转换为小写字母，删除标点符号和删除停止词和错误。令牌化过程用于为数据集中的单词分配唯一的数字（Grefenstette，1999）。因此，它会生成前30，000个重复最多的单词的词汇表。使用令牌列表，整个数据集中呈现的所有注释都通过数据编码转换为数字序列输入到神经网络模型中的数据集必须保持精确的维度。为了使数据集具有相同的维度，进行填充，以便形成填充长度为200的数字序列。这样，所有的评论都将具有一致的长度。在实现中，焊盘长度保持略小，以便可以最小化形成一致长度的级联00的数量。文本可以被认为是一系列复杂的单词，机器学习算法需要将单词转换为数字。有很多方法可以做到这一点。一种这样的方法是TF-IDF向量化器，或者换句话说，可以使用机器学习算法完成的计数向量化器。例如，逻辑回归/支持向量分类器或朴素贝叶斯分类器。许多研究已经证明，在文本分类问题中，深度学习神经网络和预训练的嵌入比任何其他方法都能给出更好的结果（Ding等人， 2022年）。我们将I.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7552/图二. 拟议的系统工作流程。克服了在它们的正值的恒等式下的消失梯度问题。ELU包含负值，使它们能够以与批量归一化相同的方式将平均单元激活量驱动到更接近于零，但计算成本更低。在ImageNet上，与具有相同设计的ReLU网络相比，ELU网络显著加速了学习，实现了单一作物，单一模型网络的分类误差小于10%（Clevert例如，2016年）。ELU活化公式如方程式所示。1.在这个等式中，x是conv块的输出，是学习率。ELU：. x对于x≥0ð1Þ图三. 数据集描述。/e- x0<为1个单位通过利用预先训练的单词嵌入模型来利用迁移学习的力量。对于这个实现，我们将使用300维预训练的单词嵌入（快速文本抓取-330 d-2M）。使用快速文本预训练模型，并且之前形成的词汇表中的所有单词都被分配一个预训练的单词嵌入作为密钥。形成嵌入矩阵，该嵌入矩阵由与所述数据集的词汇表中的词匹配的词和嵌入键组成所形成的嵌入基于此嵌入矩阵，可以建立神经网络模型。4.4. 3-层CNN模型在3层CNN模型中，正则化技术dropout（Srivastava等人，2014年）使用。它给出了特殊的结果来克服过拟合。Park和Kwak（2016）观察到Dropout是卷积层的一种重要泛化方法。CNN中的丢弃通过向每层的输出特征图提供噪声来调节网络，从而产生对波动的抵抗力（Barrow等人，2016年）。这种正则化方法背后的概念是防止隐藏层神经元自适应，从而减少网络过拟合。丢弃不适用于体积特征图，因为它意味着激活是独立的。为了克服这一缺点， Spatial Dropout（Tompson等人，2015）用于嵌入块中所提出的模型。在这种技术中，整个特征图被丢弃，而不是单个激活。与现有方法相比，Lee和Lee（2020）使用空间丢弃在CIFAR-10和CIFAR-100数据库上展示了有希望的结果Rectified Linear Unit（ReLu）是神经网络中最著名和最常用的激活函数。但是ReLu因此，在所提出的模型中，指数线性单元（ELU）被应用于向模型的Conv块提供非线性，因为它加速了卷积神经网络中的学习并导致更好的分类精度。ELU提出了基于AlexNet的3层多通道CNN架构（图4）。为了在不同的分辨率下进行特征提取，基于AlexNet过滤器大小，对三个Conv1D通道使用了11、5和3的内核大小。来自每个卷积块的结果进一步通过最大池化层，以通过重述来减少学习的特征大小，同时保持准确性一致。在该模型中，空间丢弃和标准丢弃技术被用作防止模型过拟合的正则化方法。指数线性单元（ELU）激活函数用于CNN泛化的模型。该模型从一个输入层和一个由嵌入层和空间丢弃层组成的嵌入块开始，如图所示。四、该模型进一步分为3个卷积见图4。3-层CNN模型。XI.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7553X块和通过级联层合并的全连接块。关于不同区块的简要讨论如下：1. 嵌入块：词嵌入是获得密集表示以及词的相对含义的最佳方法。Keras API提供了一个嵌入层，可以与神经网络一起使用来分析文本。在给定的NLP作业中，嵌入层是与神经网络模型一起学习的单词嵌入。它需要对文本进行预处理，以便在单个通道中对每个单词进行编码。该模型指定向量空间的大小，通常为50、100、200或300维，并从离散随机整数开始。嵌入层在神经架构开始时使用，并以监督的方式使用反向传播方法进行拟合。因此，它提供了嵌入矩阵作为在数据预处理期间形成的权重，表2训练参数。参数值时代3批量256优化器亚当确认评估Roc-Auc确认分割0.3总模型参数9，415，942实验来计算损失。该损失函数被评估为分类任务中校正的预测概率的对数的负平均值，如等式2所示1N损失函数y·logpy1-y·log 1-py尺寸为（30000，300）。嵌入块的输出形状是（200，300）。在将输出作为输入同时馈送到所有conv块之前，添加0.4的空间丢弃。2. 第一卷积块：该块由64个特征核组成哪里¼-N我我我1/1我ð2Þ过滤器，过滤器大小为11。Conv2D层的结果是具有形状（190，1，64）的第一组特征图特征图进一步通过2维最大池化层，在该2维最大池化层中，特征图被聚合，并且最大值被作为输出，这确保从图集合中提取最突出的最大池层输出的形状为（1，1，64）。每个conv块中的最大池层只会导致形状（1，1，64），以便所有三个conv块的结果可以在以后连接。ELU在所有三个卷积块中用作激活函数，以加速CNN学习。3. 第二卷积块：该块由64个特征核滤波器组成，滤波器大小为5。Conv2D层的结果是具有形状（196，1，64）的这些集合进一步通过2维最大池化层，在该层中，映射被聚合并且最大值被作为输出。在这个conv块中，最大池层输出的形状也是（1，1，64）。4. 第三卷积块：该块由64个特征核滤波器组成，滤波器大小为3。Conv2D层的结果这些集合进一步通过2维最大池化层，其中映射被聚合并且最大值被作为输出。在这个conv块中，最大池层输出的形状也是（1，1，64）。5. 连接：所有三个conv块的输出在连接层中连接，使得所得输出形状为（3，1，64）。此外，使用Flatten（）层将此输出平坦化，以将输出馈送到完全连接的层中。由于CNN平坦化后的结果结构复杂且隐藏了大量的神经元，因此在训练阶段网络可能会过拟合因此，添加了0.4的Dropout以防止由于连接来自CNN块的大量输出而过度拟合模型。这也将确保减少隐藏层神经元之间的6. FC块：前一层的输出然后被馈送到这个密集层。它包含256个单元的全连接层。完全连接层之后是0.2.在神经网络模型中增加了一个具有六个单元的输出层，以提供最终输出。模型训练参数见表2。在此分类中使用了二进制交叉熵损失函数（Zhilu和Mert，2018N：数据点总数y：类标签p（yi）：数据点5. 仿真和性能研究使用Python语言开发了一个仿真程序训练后，所提出的模型基于表中所示的训练参数。二、使用ROC-AUC评分和F1评分评价模型结果。5.1. 精度在提出的3层CNN模型网络训练之后，我们能够实现不错的准确性结果。这表明，包括空间和标准dropout以及ELU激活的新型CNN模型可以在所述数据集上很好地推广。准确度和损耗结果见表。3 .第三章。收敛验证和训练数据在多个时期上的准确性和损失以图形形式示出在图1和2中。分别为5和6。5.2. ROC-AUcROC-AUC用作模型的评估指标。接收操作特征曲线（ROC曲线）是通常用于评估和比较分类器性能的ROC图清楚地说明了所有潜在分类阈值的灵敏度/特异性交换（Melo，2013）。简而言之，它作为一条概率曲线，在区分信号和噪声的不同阈值水平下比较真阳性率（TPR）和假阳性率（FPR）。ROC曲线提供了一个吸引人的功能：它们不受类别分布变化的影响，因此，它在不平衡数据集的情况下是有用的。ROC曲线不会改变，如果表3结果基于准确性和损失。数据集精度损失培训百分之九十七点八六0.0423验证百分之九十九点一五0.0450I.辛格湾，澳-地Goyal和A. 尚德尔沙特国王大学学报7554ð Þ==:¼-：图五. 培训和验证准确性。见图6。培训和验证损失。测试集中阳性病例相对于阴性病例的百分比发生变化（Flach，2016）。AUC（ROC下面积）曲线被认为是用于测量二元分类器的当前有效性的单个AUC值落在0.5和1.0之间，表示最低值和最高值，分别表示随机和理想分类器的性能。ROC-AUC曲线是为各种阈值下的分类问题开发的性能度量。特异性和灵敏度彼此成反比。当我们降低阈值时，我们获得更多的阳性结果，这提高了灵敏度，同时降低了特异性。FPR是1 -特异性，因此，增加TPR会增加FPR，反之亦然。公式和关系在Eq.6、7和8。为0时，分类器将把所有阳性预测为阴性，把所有阴性预测为阳性。当0.5 AUC 1时，分类器具有区分正类值和负类值的合理概率。这是由于分类器识别比假阳性和阴性更多的真阴性和真阳性的能力。当AUC小于0.5时，分类器无法区分正类点和负类点。分类器为所有数据点预测随机类或常规类。还有其他流行的性能指标，如召回精度盈亏平衡点（RPB），顶部的积极性（Pos@Top）（Geng等人，2016，Zheng等人，2021）、Top k-秩精确度（Topk Pre）（Lu等人，2019年）。但是为了评估所提出的3层CNN模型，使用ROC-AUC，因为我们可以通过ROC分析确定最佳截止值。并且由于该度量捕获了范围内特异性和灵敏度之间的权衡，因此它在产生类别输出而不是连续范围的预测模型中是有用的（Thomas等人，2005年）。分类器的AUC得分越大，其区分阳性和阴性分类的能力越好。3-层CNN模型使用ROC来根据用户特定的要求对分类器进行排名和选择，这些要求通常与准确性要求和差异误差成本相关，在上述情况下，我们更喜欢AUC。它是一种用于评估分类器性能的鲁棒性度量，因为它的计算基于整个ROC曲线，因此它包括所有可能的类别。在模型训练之后，平均ROC-AUC得分为0.985387，这是一个相当好的得分。图7示出了微宏观平均曲线。宏观平均曲线分别计算每个类别的指标并取平均值，而微平均聚集所有类的贡献以计算平均度量。提出的三层CNN模型得到了微观平均ROC曲线（面积= 0.9901），而宏观平均ROC曲线（面积= 0.9854）。图8分别显示了六个不同类别的ROC评分。毒性类别

下载后可阅读完整内容，剩余1页未读，立即下载