没有合适的资源?快使用搜索试试~ 我知道了~
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 8(2022)396www.elsevier.com/locate/icte使用基于深度学习CNN-RNN的方法检测假新闻I. Kadek Sastrawan,I.P.A.巴尤帕提·德瓦马德·斯里·阿尔萨印度尼西亚巴东Udayana大学信息技术系接收日期:2021年7月3日;接收日期:2021年9月15日;接受日期:2021年10月6日2021年10月22日在线提供摘要假新闻是为了特定目的而故意传播的不准确信息。如果允许传播,假新闻可能会伤害政治和社会领域,因此进行了几项研究来检测假新闻。这项研究使用了一种深度学习方法,包括CNN、双向LSTM和ResNet等几种架构,并结合了预训练的单词嵌入,使用四种不同的数据集进行训练。每个数据都经过一个使用反向转换方法的数据增强过程,以减少类之间的数据不平衡。结果表明,双向LSTM架构在所有测试数据集上的性能都优于CNN和ResNet第2021章作者(二)出版社:Elsevier B.V.代表韩国通信和信息科学研究所这是一个开放在CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)下访问文章关键词:假新闻检测;深度学习; CNN;双向LSTM; ResNet1. 介绍互联网的发展对社会产生了积极的影响,因为它提供了广泛的信息渠道。这些发展也影响了公司对其产品进行重新设计,以适应技术发展,从而留住客户[1]。这种进步带来了在线社交网络(OSN)的大量发明,特别是多媒体社交网络(MSN),一种专注于多媒体共享体验的OSN [2]。Zhang等人提出了一个框架来解决MSN中内容的权限管理、安全性和易用性。虽然在线和多媒体社交网络在通信和技术方面提供了优势,但这些创新严重影响了社交方面。张等人[3]提出了一种新的时空访问控制模型,用于保护OSN中用户的隐私和信息安全。SrinivasanDhinesh Babu [4]提出了一种并行神经网络来识别谣言,因为它会危害社会[5,6]。这种谣言必须得到证实,并往往导致假新闻。即使被认为是准确的信息有时仍然存在假新闻,无论是故意的还是无意的。Sahoo Gupta [7]提出了一个Chrome扩展程序来检测∗ 通讯作者。电子邮件地址:sastrawanikadek@gmail.com(I.K.Sastrawan),bayupati@unud.ac.id(I.P.A.Bayupati),dewamsa@unud.ac.id(D.M.S. Arsa)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2021.10.003Twitter中的恶意配置文件使用配置文件本身的各种功能和机器学习。Sahoo Gupta [8]还提出了一个Chrome扩展程序,使用多种功能自动检测Facebook上的假新闻。SahooGupta [8]指出,假新闻有四个主要特征:新闻内容,社会内容,目标受害者,创造者和传播者。最近,由于信息的创建和发布变得容易,假新闻的传播变得更加普遍在网上假新闻本身不是真实的,而是制造出来的。为特定目的[9]。一项关于美国公众辨别真假新闻能力的统计数据这一数值仍然较低,社区区分真假新闻的能力不足也在传播假新闻中发挥了作用。互联网上已知的假新闻传播的一个例子是2016年美国总统大选期间的假新闻[11]。假新闻的传播在政治和社会领域具有灾难性影响和潜在危险[12]。因此,由于假新闻传播的影响,对假新闻检测的研究正在加强这项研究广泛分析了几种深度学习方法的性能,并结合了基准假新闻数据集上最先进的词嵌入。我们使用了预训练的单词嵌入,如Word2Vec,Glove和fastText。这些预先训练的词嵌入很受欢迎2405-9595/2021作者。出版社:Elsevier B.V.代表韩国通信和信息科学研究所这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396397预训练的单词嵌入,并被选中,因为它们已经使用大量语料库进行了训练,以产生足够的词汇。每个预训练的词嵌入 与 各 自 的 深 度 学 习 方 法 ( 即 CNN , 双 向 LSTM 和ResNet)相结合,以确定它们在检测假新闻方面的性能。之所以选择CNN和双向LSTM,是因为这两种方法都能在文本处理中获得良好的结果。与此同时,ResNet的开发是为了通过添加残差块来增加CNN对消失梯度的抵抗力。此外,我们还通过经验证明,深度学习在检测假新闻方面的性能可以通过选择适当的词嵌入来提高本文主要分为几个部分:第二部分介绍了文献综述和相关著作。第三部分介绍了研究的阶段和方法。第4节描述了所使用的数据和设备以及实验场景。第5节给出了实验结果和讨论。最后,第6节提出了结论和未来工作计划。2. 相关作品已经探索了各种方法来检测假新闻,例如[13]中的研究,其使用N-gram和Ahmed等人。[13]使用一个名为ISOTFake News的数据集,它可以公开访问,他们使用线性SVM分类器获得了92%的此外,Ozbay和Alatas [14]仅使用Ozbay 和 Alatas [14] 还 尝 试 使 用 ZeroR , CV 参 数 选 择(CVPS),加权的网络包装器(WIHW),DT等23个分类器来检测假新闻。他们报告说,他们的方法优于结果在[13]中,通过获得96.8%,96.3%,97.3%和96.8%的准确率,精确度,召回率和F1分数。Ahmad等人[15]也进行了类似的研究[13,14]。他们比较了个体学习算法和集成学习算法的性能。Ahmad等人。[15]分别测试了逻辑回归(LR)、LSVM、多层感知器(MLP)和KNN算法的性能然后,他们将它们与集成学习进行了比较,如随机森林(RF),投票分类器,Bagging分类器和Boosting分类器。此外,Ahmad等人[15]使用几个数据集比较了这些方法,例如ISOT假新闻数据集[13],假新闻数据集[16],假新闻检测数据集[17]以及由它们组合形成的数据集。第一个数据集的测试结果优于研究结果[14],使用RF算法,准确度,精确度,召回率和F1分数分别为99%,99%,100%和99%。RF算法还在第三和第四数据集上给出了良好的结果,如由第三数据集中的95%、98%、93%和95%的准确度、精确度、召回率和F1分数以及第三数据集中的91%、92%、91%和95%的准确度、精确度、召回率和F1分数证明的。第四个数据集中的91%,按顺序。此外,Ahmad等人的研究[15]使用Bagging Classifier算法结合DT在第二个数据集中分别获得了94%,94%,95%和94%的准确度,精确度,召回率和F1分数结果。Kaliyar等人。[18]提出了一种与[13Kaliyar等人[18]选择了一种名为Glove的预训练单词嵌入,后来与卷积神经网络(CNN)相结合,而不是他们使用假新闻数据集[16],因此,他们提出的方法优于Ahmad等人的研究[15],其中准 确 率 , 精 确 度 , 召 回 率 和 F1 得 分 分 别 为 98.36% ,99.40%,96.88%和98.12%。使用假新闻检测数据集[17]进行的假新闻检测研究也由Bahad等人进行[19],甚至在Ahmad等人的研究之前[15]。这项研究还使用了GloVe预训练的单词嵌入。它将其与几种深度学习架构相结合,例如 例如CNN,递归神经网络(RNN),单向长短期记忆(LSTM)和双向LSTM。从这些研究中获得的结果各不相同。其中一个优于Ahmad等人的研究结果[15],使用双向LSTM的98.75%准确度。该研究[19]还使用Fake or Real News Dataset [20]进行了测试,并使用单向LSTM获得了91.48%的准确率。在[19]的研究一年后,Deepak Chitturi[21]使用相同的数据集进行了类似的研究,即假或真新闻数据集[20]。Deepak Chitturi [21]前胺二级特征,如新闻域,新闻作者和标题,以衡量假新闻检测性能。然后,他们利用词嵌入,如词袋(BoW),Word2Vec和GloVe,结合前馈神经网络(FNN)和LSTM。因此,DeepakChitturi [21]报告说,使用次要特征对性能的提高有积极影响。当加入辅助特征时,FNN的准确率提高了1%,从83.3%提高到84.3%。令人惊讶的是,LSTM的准确率从83.7%显著提高了7.6%,达到了91.3%。虽然有显著增加在性能方面,特别是在LSTM方面,结果仍然没有优于研究[12]。3. 研究方法本研究包括两个主要阶段。第一阶段是训练阶段,如图1所示,从检索存储在数据库中的训练数据开始然后,训练数据经过数据清理过程,以清理质量差的数据。然后将数据扩充过程应用于清理后的数据,以平衡类之间的数据。然后使用预训练的词嵌入对增强的数据进行预处理并将其转换为词向量。通过预训练的词嵌入生成的词向量,然 后 用 于 训 练 深 度 学 习 模 型 : CNN , 双 向 LSTM 和ResNet。最后,将训练好的模型存储在数据库中,以便在测试阶段使用。I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396398↔Fig. 1. 训练阶段。图二. 测试阶段。第二阶段可以在图中看到。二、这个阶段评估训练模型的测试过程,首先从数据库中获取测试数据。测试数据直接进入与训练阶段相同的预处理阶段,而无需经过数据清理和增强阶段。然后,从数据库中提取先前训练的模型,并用于预测预处理的测试数据。最后,将显示预测结果并用于评估模型3.1. 数据清理数据清洗或数据清洗是从数据库中纠正或删除低质量数据的过程[22]。本研究中的数据清理是通过删除没有内容或标签的数据进行的,因为它可能会干扰分析和决策过程。3.2. 数据增强数据增强是一个通常通过使用数据集中的信息创建合成数据来平衡数据集的过程[23]。数据扩充通常用于涉及学习过程的活动中,以减少不平衡类。本研究采用回译作为英文资料翻译德语,然后再翻译成英语。新生成的数据与原始数据不同,但仍然具有相同的含义。本研究选择回译英语德语,因为研究[24]显示了实质性的改善。3.3. 数据预处理增强的数据将经过预处理,其中文本数据被转换为更易于理解的形式以简化特征提取过程[25]。 根据EtaiwiNaymat [25]的说法,预处理包括三个阶段:标点符号删除,停止词删除和词干或词形化。附加的步骤,如折叠和数字删除,有时会根据问题进行[26]。本研究中进行的预处理包括几个阶段,即标记化过程以促进处理[27],然后通过将其转换为小写来对每个单词标记进行大小写折叠[28]。然后,将从令牌中删除非字母表字符,因为它们并不影响分析结果[29]。包含在停用词中的词也被绘制以减少计算负荷。最后,进行词形化以将每个标记转换为其公共根词[30]。3.4. 单词嵌入单词嵌入或分布式单词表示是一种将单词映射到数字向量的技术,其中具有相似含义的单词在可视化时将彼此接近[31]。这是可以做到的,因为单词嵌入可以捕获单词的语义和语法信息,一个庞大的语料库[32]。词嵌入越来越多地用于情感分析研究,实体识别,词性标注和其他基于文本分析的研究,因为它显示出有希望的结果[33]。通常使用一些预训练单词嵌入的例子,即Word2Vec,GloVe和fastText。Word2Vec [34]是用于获得词向量表示的预训练词嵌入之 一 。 Word2Vec 提 供 了 两 种 架 构 选 项 , 即 连 续 词 袋(CBOW)和连续跳过语法。CBOW基于上下文向量或其周围的词预测词的向量,而不管词的顺序如何,而跳过语法基于中间词预测周围的上下文向量。全局向量(GloVe)[35]也是一种流行的预训练单词嵌入,它利用语料库中单词出现次数的矩阵和矩阵分解来获得一个词的向量表示[36]。GloVe的工作原理是首先从一个庞大的语料库中形成一个单词出现次数的矩阵。在此之后,进行因子分解过程在矩阵上输出,以获得单词的矢量表示[37]。FastText [38]是一个预训练的单词嵌入,使用改进的CBOW Word2Vec架构。改善I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396399图三. CNN架构有16层,由输入层、嵌入层、一维卷积层、最大池化层、级联层、全局最大池化层、密集层和输出层组成。通过使用更有效的计算算法和词序来实现[39]。FastText还使用字符n-gram包添加子字信息[40],因为它对表示很少出现或拼写错误的单词的向量有很好的影响[41]。这项研究检查并比较了预训练的单词嵌入,即Word2Vec,GloVe和fastText,对模型检测假新闻的性能的影响。3.5. 深度学习深度学习属于机器学习的一个分支,是经典机器学习的一个进步。与经典的机器学习不同,它仍然需要人类帮助提取其特征[42],深度学习具有自动学习原始数据特征的优势。更具体的特征将从更一般的特征的形成中获得[43]。深度学习可以做到这一点,因为它使用深度神经网络(DNN),由卷积层,池化层和全连接层组成[44]。这项研究使用了一种深度学习方法来检测假新闻。测试了三种不同的深度学习方法,即CNN,双向LSTM和ResNet,以确定哪种方法在检测假新闻方面具有最佳性能。卷积神经网络(CNN)是一种深度学习架构,它使用卷积层来映射输入数据特征。通过应用不同的过滤器大小来排列层以产生不同的特征映射。CNN可以根据特征映射结果获得有关输入数据的信息[45]。池化层通常伴随卷积层,即使使用不同的过滤器也能产生精确的输出维度。池化层还通过在不丢失基本信息的情况下减少输出维度来减轻计算负荷[46]。本研究中的CNN架构改编自Kaliyar等人的研究。[18]可以在图中看到。3 .第三章。具有1000个维度的一个输入层连接到嵌入层,其维度由预训练的单词嵌入维度确定嵌入层连接到具有不同内核大小的三个一维卷积层,其中每个卷积层将产生不同的特征映射。每个卷积层都连接到最大池化层,用于特征压缩和控制过拟合。连接层将组合每个最大池化层获得的特征。然后,连接层与两个卷积层和一个最大池化层连接,以进行进一步的特征提取。最后I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396400表1本研究中使用的数据集数据集名称清洁增强预处理假新闻真正的新闻总ISOT假新闻数据集[13]没有没有没有23.50221.41744.919假新闻数据集[16]没有没有没有10.41310.38720.800假或真新闻数据集[20]没有没有没有3.1543.1616.315假新闻检测数据集[17]没有没有没有2.1351.8704.005见图4。双向LSTM架构。它由输入层、嵌入层、双向LSTM层、全局最大池化层、密集层和输出层组成。全局最大池化层连接到全连接层和输出层。双向LSTM是一种递归神经网络(RNN)类型的架构,由两个位于不同方向的长短期存储器(LSTM)组成。该架构旨在通过提供过去和未来的上下文信息来提高LSTM的记忆能力[47]。图4描述了本研究中使用的双向LSTM架构,其中有一个1000维的输入层,然后是嵌入层。该架构继续使用双向LSTM层,其中LSTM对于两个方向都是相同的。此外,全局最大池化层、全连接层和输出层预测类。残差网络(ResNet)[48]是一种深度学习架构,它利用残差块来最小化消失梯度。残差块可以将信号直接转发到一个层,而无需通过先前的层[49]。本研究中使用的ResNet架构显示在图五. ResNet架构是使用图3中的CNN架构构建的,其中两组卷积层和最大池化层被残差块取代。该残差块的添加预计将增加对消失梯度的结构抵抗力,并使先前学习的信息重新学习并持续更长时间。4. 实验装置本研究中的实验使用了四个不同的数据集,这些数据集也用于以前的研究,即ISOT假新闻数据集[13],假新闻数据集[16],假或真新闻数据集[20]和假新闻检测数据集[17]。表1中描述的每个数据集的特征表明四个数据集具有不同的数据量。这对确定一个人的能力很有用,深度学习模型来处理大量或少量的数据。不幸的是,每个数据集都没有经历数据清理、数据扩充和数据预处理的一个重要方面,因为仍然存在空数据行、数据不平衡、剩余停止字和附加字。因此,数据清理、数据扩充和数据预处理的过程是必要的,以便数据为进一步分析做好准备。经过清理、增强和预处理的数据集也可以公开访问[50]。实验是在Ten- sorFlow、NLTK、pandas和scikit-learn库的帮助下进行的,这些库和设备具有Intel Core i7- 7700HQ CPU 、 NVIDIA GeForce GTX 1050 GPU 和 16 GBRAM。本研究中进行的一些测试旨在确定对结果模型性能的影响,包括测试数据增强方法、优化器方法、批量大小超参数和最终测试。测试中的每个值都使用三种深度学习方法(即CNN,Bidirectional LSTM和ResNet)在四个不同的数据集上进行检查,并结合三种预训练的单词嵌入之一,如Word2Vec,GloVe和fastText。测试中每个值的评估过程使用箱形图或条形图中的可视化。数据增强方法测试两个值,即具有增强的数据和不具有增强的数据。测试了七种方法在优化器方法中:SGD、RMSprop、Adam、Adadelta、Adagrad、Adamax和Nadam。下一个测试是批量超参数,其中测试了五个值,具体为32、64、128、256和512。最后,执行测试,该测试结合了从先前测试中选择的值或方法,以确定深度学习模型的最终性能。5. 结果和讨论5.1. 数据增强进行第一次测试是为了确定数据扩充过程的影响。图6所示的箱形图用于可视化数据增强方法的测试结果。增强的数据具有比没有增强的数据高3.8%的最小值除此之外,增强I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396401图五. ResNet架构,21层。它是由输入,嵌入,卷积,最大池,连接,批量归一化,激活,添加、全局平均池化和输出层。数据的第一和第二四分位值也分别高出0.7%和0.1%。尽管第三和第四四个四分位数值略低,但增强数据具有较高的平均值和较小的框大小,表明结果更加集中和一致。5.2. 超参数调整超参数调优过程通过测试两个值(即优化器和批量大小)来执行,以提高深度学习模型的性能 图 7显示以条形图的形式测试优化器方法的结果。Adamax以较低的损失率获得最高的性能,因此Adamax被用作最终测试的优化器方法。最后,批量测试结果见图。8表明通过在最小值、第一四分位数、中值、平均值和最大值处获得最高值,批量大小64值是最优的。最后的测试过程涉及四个不同的数据集。它是在每个深度学习架构上执行的,这些架构是使用选定的超参数编译的,然后与预训练的单词嵌入相结合。评价指标,I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396402表2将所提出的方法与ISOT假新闻数据集上的最新技术进行比较作者词嵌入模型分类模型精度精度召回F1得分Ahmed等[13个国家]TF-IDF线性SVM百分之九十二–––Ozbay Alatas [4]TF-IDF决策树百分之九十六点八百分之九十六点三百分之九十七点三百分之九十六点八Ahmad等人[第十五条]LIWC随机森林百分之九十九百分之九十九百分百百分之九十九该模型fastTextCNN百分之九十九点八八九十九点八九百分之九十九点八八百分之九十九点八八该模型手套ResNet百分之九十九点九百分之九十九点九一百分之九十九点九百分之九十九点九该模型手套双向LSTM百分之九十九点九五百分之九十九点九五百分之九十九点九五百分之九十九点九五见图6。 数据扩充结果。见图7。 优化结果。如准确度、精确度、召回率、F1分数和混淆矩阵,用于评估模型5.3. ISOT假新闻数据集ISOT假新闻数据集[13]是最终测试中使用的第一个数据集。ISOT假新闻数据集[13]上的测试结果以训练时间和测试性能以及混淆矩阵的比较形式显示在图9中。基于图 9(a),使用ISOT假新闻数据集[13]的 训 练 过 程 需要280 s到706 s,其中CNN是最快的I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396403见图8。 批量结果。双向LSTM是最长的。在图9(b)所示的测试性能中,双向LSTM通过在最小值到最大值之间获得最高值而优于其他两个模型。每个模型的预测结果的总结在图9(c)、(d)和(e)中以混淆矩阵的形式示出,其中每个模型更多地将新闻预测为假新闻。ISOT假新闻数据集上的测试结果比较[13]表2中描述的结果表明,所提出的模型优于其他研究[13双向LSTM + GloVe模型获得99.95%的准确率,精确率,召回率和F1分数。ResNet + GloVe模型的准确率为99.91%,准确率、召回率和F1得分为99.90%最后,CNN+ fastText模型准确率、召回率和F1分数的性能分别提高了99.89%和99.88%。5.4. 假新闻数据集在最终测试中使用的第二个数据集是假新闻数据集[16],其中的结果和比较可以在图10和表3中看到。使用图10(a)所示的假新闻数据集[16]的训练过程需要190 s到387 s,其中CNN最快,双向LSTM最长。双向LSTM仍然优于其他两个模型,因为它在图1所示的测试性能中获得了最小值到最大值的最高值。10(b).图中 的双向LSTM混 淆 矩阵 。 10(d)也有轻微的I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396404图第九章 ISOT假新闻数据集上的实验结果:(a)每种深度学习方法的训练时间,(b)箱 形 图 中 所 有方 法 的准确率,(c)CNN混淆矩阵,(d)双向LSTM混淆矩阵,(e)ResNet混淆矩阵。见图10。 假新闻数据集上的实验结果:(a)每种深度学习方法的训练时间,(b)箱形图中所有方法的准确率,(c)CNN混淆矩阵,(d)双向LSTM混淆矩阵,(e)ResNet混淆矩阵。I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396表3405将所提出的方法与假新闻数据集上的最新技术进行比较作者词嵌入模型分类模型精度精度召回F1得分Ahmad等人[第十五条]LIWCBagging +决策树百分之九十四百分之九十四百分之九十五百分之九十四该模型fastTextCNN百分之九十六点九二百分之九十六点八六百分之九十六点九八百分之九十六点九一该模型fastTextResNet百分之九十八点一一百分之九十八点一一百分之九十八点零九百分之九十八点一Kaliyar等人[18个国家]手套CNN百分之九十八点三六百分之九十九点四96.88%百分之九十八点一二该模型fastText双向LSTM百分之九十八点六五百分之九十八点六四百分之九十八点六六百分之九十八点六五表4比较所提出的方法与虚假或真实新闻数据集上的最新技术作者词嵌入模型分类模型精度精度召回F1得分该模型fastTextResNet88.88%89.36%89.11%88.88%[21]第二十一话Word2VecLSTM百分之九十一点三–––Bahad等人[19个]手套单向LSTM91.48%–––该模型fastTextCNN百分之九十一点九91.88%91.93%91.89%该模型手套双向LSTM百分之九十四点六94.58%百分之九十四点六四百分之九十四点五九图十一岁 在假新闻或真新闻数据集上的实验结果:(a)每种深度学习方法的训练时间,(b)箱形图中所有方法的准确率,(c)CNN混淆矩阵,(d)双向LSTM混淆矩阵,(e)ResNet混淆矩阵。假阳性(FP)和假阴性(FN)与图2中其他模型的混淆矩阵相比。 10(c)和(e)。表3中描述的假新闻数据集[16]的结果比较表明,采用双向LSTM的拟议模型优于其他研究[15,18]。测试结果表明,双向LSTM + fastText模型提供了最佳性能,准确率为98.65%,精确率为98.64%,召回率为98.66%。ResNet +fastText模型获得了98.11%的准确度和精确度,98.09%的召I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396表3406回率和98.1%的F1分数,低于Kaliyar等人。[18]结果。最后提出的模型具有比Ahmad等人更高的性能。[15]具有96.92%,96.86%,96.98%和96.91%的准确率,精确率,召回率,F1-score分别由CNN + fastText模型拥有。5.5. 假或真新闻数据集Fake or Real News Dataset [20]是最终测试中使用的第三个数据集,其结果和比较见图11和表4。根据图11(a),假或真新闻数据集[20]的训练过程需要80 s到168 s,其中CNN最快,双向LSTM最长。在图11(b)所示的测试性能中,双向LSTM在最小值到最大值处获得最高值,I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396表407407将所提出的方法与虚假新闻检测数据集上的最新技术进行比较作者词嵌入模型分类模型精度精度召回F1得分Ahmad等人[第十五条]LIWC随机森林百分之九十五百分之九十八百分之九十三百分之九十五该模型手套CNN百分之九十八点二四百分之九十八点三二百分之九十八点零九百分之九十八点二Bahad等人[19个]手套双向LSTM百分之九十八点七五–––该模型手套ResNet百分之九十八点九九百分之九十九点零五百分之九十八点八九百分之九十八点九七该模型fastText双向LSTM百分之九十九点二四百分之九十九点一九百分之九十九点二六九十九点二三见图12。 假新闻检测数据集上的实验结果:(a)每种深度学习方法的训练时间,(b)框中所有方法的准确率图,(c)CNN混淆矩阵,(d)双向LSTM混淆矩阵,(e)ResNet混淆矩阵。图11(d)中所示的FP和FN低于图11(d)中其他模型的混淆矩阵。 11(c)和(e)。表4中描述的假或真新闻数据集[20]的测试结果比较表明,使用CNN和双向LSTM的拟议模型优于其他研究[19,21]。双向LSTM + GloVe模型具有最高的性能,准确率为94.6%,精确率为94.58%,召回率为94.64%,F1得分为94.59%。其次是CNN + fastText模型,准确率、精确率、召 回 率 和 F1 得 分 分 别 为 91.9% 、 91.88% 、 91.93% 和91.89%。ResNet + fastText模型的性能最低,准确率、精确率、召回率和F1得分分别为88.88%、89.36%、89.11%和88.88%。5.6. 虚假新闻检测数据集最终测试中使用的最后一个数据集是假新闻检测数据集[17]。假新闻检测数据集[ 17 ]的测试结果如图所示。12以训练时间和测试表现的比较的形式,混淆矩阵使用假新闻I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396表408408检测数据集[17]如图所示。12(a)需要59 s177秒,其中CNN最快,双向LSTM最长。在图中所示的测试性能。12(b),双向LSTM仍然在最小值处获得最高值到最大值。图中双向LSTM的混淆矩阵。 12(d)也有较低的FP和FN相比,其他模型的混淆矩阵图。 12(c)和(e)。表5中描述的假新闻检测数据集[17]的测试结果比较表明,使用ResNet和双向LSTM的拟议模型优于其他研究[15,19]。双向LSTM + fastText模型再次优于其他模型,其性能准确率99.24%,精确率99.19%,召回率99.26%,F1评分99.23%。测试结果还显示,ResNet +GloVe以98.99%的准确率,99.05%的精确率,98.89%的召回率和98.97%的F1分数位居第二。CNN + GloVe只能优于Ahmad等人。[15]结果的准确率为98.24%,精确率为98.32%,召回率为98.09%,F1得分为98.2%。表6显示了一些假新闻的例子和每个模型对新闻的预测。第一条消息是I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396409表6假新闻的例子。新闻模型预测问题罗恩·保罗医生外部限制收音机保罗医生服务12个任期众议院代表三次候选人美国总统致力于政治事业捍卫个人自由健全的货币不干涉主义外交政策法官安德鲁·纳波利塔诺打电话给托马斯·杰斐逊白天服务飞行外科医生美国空军保罗医生搬到德克萨斯州开始平民医疗实践接生4000个婴儿职业产科医生保罗医生为国会服务卡罗尔保罗妻子五十岁五个孩子许多孙子曾孙罗恩保罗新纽约邮报写政治家买特殊利益的人公共生活厚薄雨照耀坚持原则国会议员罗恩保罗从不投票立法,除非提出措施明确授权宪法也国会议员罗恩保罗从不投票提高税收罗恩保罗从不投票不平衡的预算罗恩保罗从不投票联邦限制枪支所有权罗恩保罗从不投票提高国会工资罗恩保罗从不参加政府支付的公费旅行罗恩保罗从不投票增加权力行政部门罗恩保罗投票爱国者法案罗恩保罗投票调节互联网罗恩保罗投票伊拉克战争罗恩保罗参加利润丰厚的国会养老金计划罗恩保罗主席罗恩保罗研究所和平繁荣非营利教育慈善主持人每日罗恩保罗自由报告特别感谢丹尼尔麦克亚当斯克里斯罗西尼迪伦查尔斯克里斯杜安国会议员音频链接请检查保罗博士晚书革命十年了解限制电台网站Suge Knight声称Tupac还活着21年前传奇U说唱歌手Tupac Amaru Shakur死于街头La Vega 9月以来阴谋论形象反复出现证明说唱歌手还活着的人坐汽车tupac射击火说话做离奇的故事年采访美国电视台福克斯音乐大亨Suge解释终身监禁谋杀解释前最好的朋友生活了Suge Knight采访离开医院包装笑开玩笑不能理解某人状态健康变化好坏询问相信说唱歌手还活着suge回复告诉永远不知道包装人相信死亡顺便说一句音乐大亨单独意见图帕克shakur可能还活着前警察最近要求支付百万欧元假图帕克死亡官员放下面的话记录世界需要知道做羞愧交换诚实金钱不能死而世界不知道包括流行故事图帕克图帕克生活古巴教母政治活动家阿萨塔olugbala shakursuge骑士杀死图帕克图帕克回说唱歌手kasinova tha传播音乐p迪迪臭名昭著大单图帕克谋杀图帕克成员光照派光照派杀死图帕克成为强大图帕克被绑架 外星人fbi杀死tupac相关文章苏格骑士终于承认tupac活着的视频猫王活着的人说服猫王活着的新照片出现警察尝试失败苏blacklivesmatter警察尝试失败苏blacklivesmatter读者认为故事事实添加两个10分新闻路易斯安那州警官试图起诉blacklivesmatter损害法官忍住让知道荒谬的索赔来源http:wwwcarbonatedtvnewscoptriedtosueblacklivesmatterandwaschedinsteadCNN Real双向LSTM假ResNet FakeCNN假的双向LSTM假ResNet RealCNN假的双向LSTM假ResNet FakeBidirectional LSTM和ResNet成功地将新闻分类为假新闻,但CNN由于内容长度和名词而失败,因为假新闻往往具有简短的内容并使用普通名词。第二条新闻也有较长的内容和使用专有名词,报告的讲话和挑衅性的句子。CNN和Bidirectional LSTM成功地将这条新闻归类为假新闻,但ResNet失败了。最后一条新闻有简短的内容、外部链接和常见的名词,这样每个模型都可以很容易地将新闻归类为假新闻。6. 结论本研究使用回译方法对每个数据集应用数据增强过程,以减少类别不平衡。进行测试,以确定数据扩增对所产生的模型的性能的影响测试结果表明,数据增广具有积极的效果,特别是在提高模型性能的一致性。本研究还使用四个不同的数据集评估了几种深度学习方法,如CNN、双向LSTM和ResNet。每种深度学习方法都与预训练的单词嵌入相结合,即Word2Vec,GloVe和fastText。根据测试结果,双向LSTM在所有测试数据集上的表现都优于CNN和ResNet。手套和fastText也给出了很好的结果,因为它们每个都可以在两个不同的数据集中表现出色。我们使用几个数据集评估了深度学习方法与流行词嵌入的结合这些数据集经过了清理、增强和预处理过程,可以公开访问。在未来,我们希望在印度尼西亚实施我们的方法来检测假新闻,因为目前印度尼西亚的假新闻检测系统还有很大的改进空间。为应对这些挑战,需要进一步收集数据并调整印度尼西亚文本处理方法CRediT作者贡献声明I. Kadek Sastrawan:写作-原始草稿,写作-审查&编辑。I.P.A.巴尤帕蒂:写作--初稿,写作--审校&编辑.Dewa Made Sri Arsa:写作-原始草稿,写作-审查编辑。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认所有的作者都同意出版这个版本的手稿。I.K. Sastrawan,I.P.A.巴尤帕蒂和D.M.S.ARSAICT Express 8(2022)396410引用[1] P.C. Verhoef,T.Broekhuizen,Y.Bart,A.Bhattacharya,J.齐东:N. Fabian,M. Haenlein,数字化转型:多学科反思和研究议程,J.Bus。Res.122(2019)889http://dx.doi.org/10.1016/j.jbusres.2019.09.022[2] Z.张河,巴西-地孙角,澳-地Zhao,J. Wang,C.K. Chang,B. B.Gupta,CyVOD:A novel trinity multimedia social network scheme,Multi- media Tools Appl. 76(2017)18513-http://dx.doi.org/10.1007/[3] L. Zhang,Z. Zhang,T. Zhao,一种新的在线社交网络时空访问控制模型和可视化验证,Int. J. Cloud Appl. Comput. 11(2021)17http://dx.doi.org/10.4018/IJCAC. 2021040102。[4] S.斯里尼瓦桑公司Dhinesh Babu,一种用于在线社交网络中更快谣言识别的并行神经网络方法,Int. J. Semant。Web Inf. Syst. 15(2019)69 http://dx.doi.org/10.4018/IJSWIS. 2019100105.[5] M. Takayasu , K. Sato , Y. 萨 诺 角 Yamada , W. Miura , H.Takayasu , Rumor diffusion and convergence during the 3.11earthquake : A Twitter c
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功