多模态假新闻检测方法的研究及应用

33 浏览量更新于2024-01-18 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报SSM：面向文体和语义相似度的多模态假新闻检测Muhammad Imran Nadeema，Mr. Chang，Kanwal Ahmeda，Zhiyun Zhenga，Dun Lia，Mr. Chang，MuhammadAssamb，Yazeed Yasin Ghadic，Fatemah H.Alghamedyd，Elsayed Tag Eldine，a郑州大学计算机与人工智能学院，中国郑州450001 b巴基斯坦巴努科技大学软件工程系c阿拉伯联合酋长国艾因大学计算机科学系d沙特阿拉伯伊玛目阿卜杜勒拉赫曼本费萨尔大学应用学院计算机系埃及未来大学工程与技术学院，New Cairo 11835，Egypt阿提奇莱因福奥文章历史记录：2022年12月13日收到2023年3月5日修订2023年4月11日接受2023年4月21日在线提供保留字：虚假新闻检测深度学习多模态自然语言语义特征A B S T R A C T多年来，利用文本和视觉信息格式的捏造和假新闻故事的数量有所增加。这与用户从网站和社交媒体平台获取新闻的可能性增加相吻合。虽然已经有各种研究使用机器学习技术检测文本中的假新闻，但对多媒体数据伪造问题的关注较少。在本文中，我们提出了一种面向文体和语义有五个不同的模块，使我们的方法：首先，我们使用了双曲层次注意力网络（Hype-HAN）提取文体特征。其次，生成新闻内容摘要，并计算标题与摘要的相似度.第三，计算视觉特征和文本特征之间的语义相似度第四，分析图像的伪造。最后，提取的特征进行融合，最终分类。我们在三个标准的假新闻数据集上测试了SSM框架结果表明，我们建议的模型优于基线和最先进的方法，并且更有可能在复杂环境中检测到假新闻。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，虚假信息和假新闻已成为同义词，指的是广泛的内容，包括但不限于点击诱饵、讽刺、谣言、恶作剧、宣传、造谣、误传和讽刺。误传、造谣、谣言、恶作剧、点击诱饵、宣传和讽刺之间的主要区别在于每个术语背后的意图。错了*通讯作者。电子邮件地址：imran_nadeem@gs.zzu.edu.cn（M.I.Nadeem），Kanwal_ah-med@gs.zzu.edu.cn （ K.Ahmed ）， iezyzheng@zzu.edu.cn （ Z.Zheng ），ielidun@zzu. edu.cn （ D. Li ）， gmail.com （ M. 阿萨姆邦）， Yazeed. aau.ac.ae（Y.Y. Ghadi ），falghamedy@iau.edu.sa （F.H. Alghamedy ），elsayed. fue.edu.eg（E.T. Eldin）。沙特国王大学负责同行审查制作和主办：Elsevier信息是虚假的信息，传播时没有欺骗的意图。虚假信息也是虚假信息，但它是故意传播来误导人们。谣言是未经证实的信息，可能是真的，也可能不是。恶作剧是故意通过传播虚假信息来欺骗人们。点击诱饵是耸人听闻或夸张的标题或内容，旨在吸引点击.宣传是政府或组织传播的信息，以促进特定的观点或议程。讽刺是一种幽默，用讽刺或夸张来评论时事或社会问题。理解这些术语之间的差异对于评估信息的准确性和可信度非常重要（Ruffo等人，2023年）。“假新闻”一词也可以指捏造或撰写的旨在误导公众的报道。根据消息来源（ Meel 和Vishwakarma，2019; Bondielli和Marcelloni，2019），假新闻在形式上与真实新闻相似，但在目标或结构上不同。社交媒体平台的激增为虚假信息的传播提供了肥沃的环境。随着读者的注意力从印刷品转向网络和社交媒体，记者面临着新的挑战。多媒体的广泛使用https://doi.org/10.1016/j.jksuci.2023.1015591319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报2技术，特别是操纵性的或经常不相关的和脱离上下文的吸引人的图像，被用来引诱和迷惑读者，以便快速传播伪造的信息内容。在研究中（Kaufhold等人，2020; Zahra等人，2020年; Li等人，2022），作者研究了社交媒体帖子对危机管理和情绪分析的价值（Ahmed等人，2023年）。网络平台的黑暗面，今天主宰着我们的生活，笼罩着人类社会，因为它们被利用来传播欺骗性的假新闻，以达到极其破坏性的目的（Nadeem等人，2023 a;Nadeem等人，第2023段b）。建立一个识别假新闻的系统存在两个主要困难。首先，假新闻是精心制作的，以欺骗读者并模仿合法的新闻媒体，使人们很难区分事实和虚构。其次，虚假信息的产生速度和数量超过了专家彻底验证新闻可信度的可能性。这是由于误导性新闻的数量超过了可能性（Nadeem等人，2022年）。这些研究（Jin等人，2017;Qi等人，2019）表明，故意和可验证的假新闻文章通常包括文本和视觉信息。为了实现快速传播，假新闻的发布者往往依赖于捏造或歪曲事实的文本和图像。充满社会色彩的话题和冲突往往会激发对随行图像的情感影响和视觉影响的详细书面描述。有许多不同类型的媒体可以用来传播虚假信息。由于是多媒体汇编，识别虚假信息需要的不仅仅是看单一类型的内容。每种信息模式对谣言的传播都有不同程度的影响。然而，假新闻经常使用照片和短语等内容，这些内容具有情感驱动，快速传播的想法。然而，很少有研究探讨这些渠道对新闻的影响。因此，要识别假新闻，重要的是要结合新闻的多个方面。目前，假新闻检测算法要么依赖于uni-模态数据或组合许多数据源（Ma等人，2016年; Ma等人，2019年）。虽然一些模型确实考虑了不同模态之间的相似性及其对多模态数据进行有效建模的潜力（Giachanou等人，2020 a; Giachanou等人，2020 b），需要一种更新和改进的方法来更好地理解上下文和相关的相似性（Wang例如，2018年; Yang等人，2018年; Zhou等人， 2020年）。对虚假新闻典型特征（如图片操纵和不一致的照片）的深入一些假新闻使用戏剧性、幽默或诱人的视觉效果来吸引读者首次发表（Ma等人，2016）包括来自社交网络的多模态内容，可以与深度神经网络一起使用，以发现虚假新闻。该研究（Wang etal.，2018）提出了一种基于多模态特征的对抗性神经网络，用于新形式假新闻的端到端事件检测然而，这些尝试大多集中在文本上，而不是视觉材料的有效建模这些可见的特征是通过预先训练的卷积神经网络（如VGG19）获得的，这使得难以证明缺乏任务相关信息的内在价值以及假新闻图像的元素（Antol等人，2015; Lin等人， 2009年）。同时，这些技术结合了许多模态的元素，而忽略了新模态中的重叠。国家外汇管理局（Zhou et al.，2020）方法考虑图像及其伴随文本匹配的紧密程度。为了完成图像到文本的转换（Vinyals等人，2017），相似性比较模块采用称为image2sequence的预训练模型。image2sequence的目的是更好地与图像内容的客观声明对齐，而不是与情感文本对齐它缺乏照片中存在的情感元素，这对于检测假新闻至关重要。Ajao等人（2018）已经进行了使用LSTM和混合LSTM-CNN架构的实验。然而，他们也指出，混合模式可能会表现得更好，只有与更广泛的数据进行培训。Agarwalla等人（2019 ）使用支持向量机（SVM），逻辑回归（LR）和朴素贝叶斯（NB）对新闻文本的标题和正文进行Lidstone平滑，用于假新闻分类。可能向量特征依赖于相关数据集并且不适合用于检测假新闻的标准模型。Vishwakarma等人（2019）提出了抓取和验证在线搜索作为分析假新闻可信度的一种手段。这种技术很大程度上依赖于由人类交互创建的白名单，以获得可靠的链接。Lago等人（2019年）使用图像取证方法来检测更改的照片，并使用验证程序来确保图像与新闻文章相对应。Meel和Vishwakarma（2021）证明，文本的分层注意力网络以及图像标记和视觉方面的法医分析的组合可以用于检测假新闻。提出的面向文体和语义相似性的多模态假新闻检测（SSM）的目的是克服上述方法的缺点，以提高假新闻检测的性能。为了有效地检测假新闻，所提出的SSM由五个单独的模块组成：文本文体特征学习模块，标题和新闻摘要相似性测量模块，图像语义和新闻摘要相似性测量模块，图像伪造检测模块，以及特征融合和分类模块。利用相似性度量模块可以直接对真实新闻数据进行度量。与现有方法相比，该方法能够更好地捕捉多模态新闻数据中不同模态数据的相似性，通过分析文本和图像的语义特征，更有效地检测复杂环境中的假新闻. 本文I. 双曲层次注意力网络（Hype-HAN）的深层架构用于识别假新闻数据集中单词和句子的风格和内容特定的隐藏模式这些模式是通过分析文本的风格和内容发现的II. 我们对新闻正文进行了概括，突出了文本的最重要特征，并计算了标题新闻正文内容之间的相似度。III. 通过开发用于提取视觉数据的分支网络，我们能够更好地捕捉假新闻视觉表达中的语义方面。IV. 计算视觉语义特征与新闻内容摘要的相似度，以确定图像与文本的相关性。V. 利用图像伪造检测模块中提到的错误水平分析（ELA）方法，使用预训练的EfficientNetB7来检测假新闻图像的物理有效性以下是文章结构的概要第二节介绍了相关领域研究人员的工作。第3节介绍拟议的方法。第4节讨论了实验装置、数据集和实验结果。第五节给出了结论和未来的研究方向2. 文献综述存在与假新闻的检测相关的各种任务，例如谣言检测（Cao等人，2019; Imran等人，2020年;马M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报3例如，2019）和垃圾邮件检测（Kaghazgaran等人，2018; Wang等人，2017年）。检测假新闻的最大挑战是使用特征区分新闻故事。为此，我们回顾了以下三个领域的当前工作：基于手工特征的假新闻检测;基于单模态数据的假新闻检测;以及基于多模态数据的假新闻检测。这些特征可以通过在线讨论组，社交网络，甚至一些说明性的视觉效果来获得。2.1. 机器学习方法为了识别假新闻，这种技术在很大程度上依赖于人类创造的属性。使用特征工程从与事件相关的数据中提取传播结构、地理位置、用户影响和情感极性的相似性。然后，这些属性用于训练分类器，例如决策树（DT）、支持向量机（SVM）等，以区分虚假和真实的新闻报道（Castilloet al.，2011; Jin等人，2016; Reis等人，2019年; Wu等人，2015年）。研究人员（Castillo等人，2011）已经训练了一种DT算法，以使用基于各种标准的情感评分来识别谣言，例如微博上发布的URL数量和用户注册的时间长度。为了检测谣言，Wu et al. （2015）采用了一种支持向量机分类器，该分类器对微博发布的位置、发布微博的客户端、文本符号的情感极性等特征进行了训练。Reis等人（2019）提出的新特征集是基于对先前提出的用于识别假新闻的141个文本特征的评估。然而，如其他作者所述（Castillo等人，2011; Mikolov等人，2013; Popat等人，2016年），建立成功的手工制作的功能需要高度相关的领域和具体事件的知识。然而，该技术依赖于手工制作的功能，这些功能并不强大，从它们中收集的特征向量也不是，因为该方法在检测假新闻方面没有任何背景专业知识。此外，识别具有定制功能的虚假新闻是一项具有挑战性的任务。2.2. 基于深度学习的单模态方法许多研究人员试图使用深度学习模型来自动构建深度特征的过程，以发现虚假新闻。该研究的目的（Ma等人， 2016）是通过收集时间语言数据来研究使用深度神经网络呈现推文的可行性。为了专注于不同的时间和语言细节，Chen等人（2018）调整了具有注意力过程的递归神经网络（RNN）标记数据对于深度学习模型的开发至关重要，收集此类数据一直是检测虚假内容研究的使用深度学习模型识别谣言的最大障碍是数据注释的困难为了发现网络谣言，一些研究人员试图避免数据标签，而是应用无监督学习的概念。如Chen等人（2018）所建议的那样，在自动编码器的前端添加多层递归神经网络（RNN ）这项研究（Raza 和 Ding ，2022 ）引入了一种基于transformer的假新闻检测模型虽然无监督学习方法不必处理标记问题，但模型使用深度学习的单峰方法可以更准确地检测假新闻假新闻是无用的，因为它包含了误导性的内容和图像（Ma等人，2016; Liu和Wu，2018; Ma等人，2018年）。2.3. 基于深度学习的多模态方法近年来，对利用多模态数据的深度学习方法感兴趣的研究人员数量有所增加（Imran等人，2020; Truong和Lauw，2019）。作者（Zhao等人，2019）描述了一种多模态方法来测量由图像和文本的一致性驱动的社交媒体帖子的基调。为了实现创建可动态解释的推荐的目标，Liu 等人（2020 ）引入了一种新颖的专注递归神经网络（Ante-RNN），它融合了文本和图像。该研究（Kumar等人，2020）引入了一种混合深度学习模型，用于跨多个渠道进行准确、实时的情感预测。目前的研究使用预训练的深度CNN模型，如VGG19，来提取图像特征，并将所得的视觉性能与来自新闻中各种模态的数据的文本信息混合（Jin等人，2017; Wang等人，2018年;Yang等人，2018; Khattar等人， 2019年）。为了解决识别虚假信息的问题，Jin et al. （2017）将来自社交网络的多模态内容纳入其深度神经网络解决方案。使用多模态特征，Wang et al. （2018）提出了一个端到端的基于事件的反神经网络来检测假新闻的新实例。一项研究（Khattar等人，2019）提出了一种基于学习多模态数据的共享表示来然而，这些部分主要集中在信息集成上，很少关注可视化内容的有效建模它们依赖于如此广泛的视觉线索，以至于它们掩盖了假新闻图像中的重要尽管如此，上述模型，如TextCNN或LSTM，无法有效地挖掘文本和上下文之间的联系，这严重限制了它们在文本组件中检测假新闻的能力（Jin et al.，2017年; Zhou等人，2020年）。另一种检测假新闻的方法称为 SAFE （ Zhou et al. ，2020），它比较文本和图像的相似性。但是这个模型使用一个预先训练好的模型来生成图像描述，并且在他们的实验中，Ajao et al. （2018）发现添加1DLSTM模型的单词嵌入层之后的CNN提高了预测虚假推文的准确性。然而，作者强调在训练混合模型时需要使用足够大的数据集。Agarwalla等人（2019）使用Python仅使用基于向量的方法来提取某些特征并训练分类器可能不是通用假新闻检测的最佳方式，因为这些方法固定于特定的数据集。Vishwakarma等人（2019）提出了一种假新闻身份验证方法，其目标是评估视觉内容的可靠性，无论平台如何。该模型首先检测从照片中检索到的文本中的实体，然后爬行网络以找到更多符合实体分类标准的信息。它使用了一个值得信赖的网站白名单，人们已经确定这些网站是假新闻还是真新闻。因此，结果可能不充分，并且高度依赖于白名单。此外，白名单还需要人们的时间和精力，他们可能会犯错误或有偏见。Lago等人（2019）使用文本和视觉数据进行实验，使用传统和现代技术发现假新闻。Splicebuster是一种先进的图像拼接检测器，用于图像分析，并使用基于随机森林（RF），LR和CNN的分类器进行假新闻分类但是视觉和语篇之间的差异却被忽视了M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报4nm在后期的融合过程中。Meel和Vishwakarma（2021）提出了一个基于文本和视觉信息集成的多模态框架。单词和句子编码器，以及在单词和句子级别的注意力层，被用来创建分层注意力网络（HAN）。此外，他们还创建了一个可视化摘要，并提取了新闻文章的标题和正文中的文本语义。检查了创建的视觉摘要和文本语义之间的相似性，以进行假新闻分类。该模型考虑了新闻文章的全长，可能过长或过短。在文本语义特征的情况下，这可能导致过拟合或欠拟合，以及用于检测假新闻的关键特征的丢失单模态和多模态技术被 Segura-Bedmar 和 Alonso-Bartolome（2022）用于分类虚假信息。使用基于CNN的架构，他们的多模态方法结合了文本和视觉信息。图像有助于传播欺骗性信息、讽刺和虚假联系。 Davoudi等人（2022）使用包括来源、作者和URL域的元数据来追踪新闻项。预训练模型、统计特征融合网络、新颖的推理策略和来自新闻文章的变量被用作集成模型的一部分，该集成模型还将这些特征作为统计特征合并。Chen等人（2022b）提出了一个融合来自多个来源的信息的模型。从用户节点中提取的特征包括用户信息、传播和时间序列。Das等人创建的模型。（2022）是抽象的，考虑到在现实生活和媒体中观察到的广泛特征。为了模拟传播树Wei等人（2022）实现了一个两阶段网络，首先，两个单峰网络通过对比学习来学习跨模态相关性，然后对网络进行微调以检测假新闻。Singhal等人设计了类似的策略。（2022）从占主导地位的模态中选择性地提取重要数据，同时从较弱的模态中消除无关信息。使用预先存在的上下文表示，Koloski等人（2022）表明，基于知识图的文档表示可以获得卓越的性能。Chi和Liao（2022）提出的QA-AXDS是一个基于对话树形式的定量论证模型的谣言检测和用户交互系统Raza 和 Ding（2022）提出的模型建立在Transformer架构上，它由两部分组成：编码器组件从假新闻数据中获取表示，解码器子系统根据过去的数据检测行为Jarrahi和Safari（2022）将CNN与3D输入相结合，以检测社交媒体上的虚假他们专注于出版商的功能如何最近的研究在假新闻检测的主题是总结-表1-3中列出我们提出了一种新的SSM多模态超越当前的假新闻检测方法，例如需要手工制作的特征和对广泛特征的依赖。我们的模型捕捉文本和图像的语义元素，以及视觉模态的物理特征，它通过五个子网络协同工作与目前的方法相比，我们的模型在识别复杂场景中的假新闻方面优于以前的技术。3. 方法本节介绍SSM组件的体系结构和处理。为了揭示假新闻的隐藏模式，一个双曲层次注意力网络（CZhang和Gao，2021）（Hype-HAN）正在使用文本数据进行训练，文本数据是新闻标题和正文的结合。新闻标题与新闻文章的摘要相比两者的相似性揭示了标题与新闻内容摘要的相关性此外，图像的语义特征提取和比较的摘要，找到视觉和文本内容之间的语义相似性。图像取证用于打击伪造图像（Meel和Vishwakarma，2021）。最后，我们将独立的模型组合起来，如图所示。1.一、3.1. 预处理和词嵌入在此阶段，即预处理阶段，通过删除任何冗余、多余或不相关的信息来清理数据。为了准备文本数据进行分析，使用NLTKpython库的Stop Word Removal、Stemming和Lemmatization、Normalization和Tokenization过程。在停止词删除过程中，不重要的单词和符号被删除，而词干和词形化将句子分解为组成部分，规范化确保句子符合行业标准，标记化将较长的字符串分解为更易于管理的块。词干提取是一个简单的启发式程序，它从单词中删除词缀，使它们更容易转换为基本形式。在某些情况下，原始单词的根形式可能被认为是决定性的。缩略语、拼写错误和词汇表外的单词形式的噪音在在线内容和社交媒体数据中很常见，这使得文本规范化至关重要。为了获得文本标记的矢量表示，我们采用了预训练的GloVe单词嵌入（Pennington等人，2014年）。使用像GloVe这样的无监督学习技术，我们可以通过总结从语料库中提取的全局词-词共现矩阵来构建词嵌入。与其他单词向量格式相比，GloVe使用共现矩阵来捕获全局统计数据和单词的含义是有利的。为了确保多媒体文件的完整性，每一个实例都是通过对文本和多媒体数据的预处理以及随后的拼接来完成的，并最终确定了它的三个参数：标题/标题、正文/文本和图像。3.2. 文本文体特征学习HAN能够识别假新闻数据中单词和句子的隐藏风格和主题模式（Yang et al.， 2016年）。由于复杂网络需要大的嵌入量，而欧氏空间中的层次链接很难理解，因此我们将计算过程限制在双曲空间中，充分利用了双曲空间的诸多优点。由于双曲线坐标本身具有信息性，因此我们不仅可以用它来表示词与句之间的显性关系，而且还可以用它来表示词与词之间概念之间更为微妙的联系。Hype-HAN使用超曲空间中的分层注意力网络来学习原始内容的表示。图2示出了Hype-HAN的图形表示。假设在所考虑的文档中，第n个词在第m个短语中的输入嵌入是enm。这个句子我们将Euclidean-GRU层描述为Eq.1.一、e四分之一G-R！Uen m;G←R！Uemn1eM.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报表1文献综述总结。5名称数据集类型贡献限制混合CNN-RNN（Ajao等人， 2018年）LR、SVM、NB，PHEME假新闻文本文本利用CNN和混合CNN-RNN架构来识别与假新闻项目相关的特征，而无需事先掌握领域专业知识。应用逻辑回归、SVM和朴素贝叶斯CNN和RNN经常需要更大的数据集和多层神经网络来成功训练模型;此外，CNN和RNN的分类性能在没有优化的情况下是有限的。使用基于矢量的方法来提取Lidstone平滑（Agarwalla等人，检测与Lidstone平滑的身体和标题的新闻文章。某些特征和训练分类器不是一个精确的解决方案，因为这些方法2019年度）现实参数，FakeNewsNet文字+图片调查假新闻报道一个特定的数据集。高度依赖可靠链接列表。的基于规则的分类器（ Vishwakarma 等人， 2019年度）EANN（Wang等人，Twitter、微博文字+图片使用在线搜索、抓取和验证。提出了一种完全反神经网络，白名单是由人类编制的，它不可避免地包含一定的偏见或错误。该模型2018年）发现新的假新闻代表性而不是准确的代表性Att-RNN（Jin等人，Twitter、微博文字+图片开发了深度神经网络系统，的图像。所采用的基础模型的潜力，（2017年）MVNN（Qi等人， 2019年度）Twitter、微博文字+图片考虑到社交媒体的多模态材料。确认文本和视觉内容都是检测文本成分中的假新闻的能力受到其无法充分揭示文本和上下文之间关系的显著限制。晚期融合方法不能解释通常包括在捏造的新闻故事中，视觉和文本TF-IDF，RF，LR，CNN，中世纪文字+图片是有意传播的采用图像取证方法检测形式，即使它确实研究了许多视觉方面的融合。视觉和文本之间的差异余弦相似性，Jaccard相似性（Lago等人， 2019年度）MVAE（Khattar等人，2016,BuzzFeedNews，CrawlerNewsTwitter，微博文字+图片修改了照片，并使用了一个验证程序，以确保图像与新闻文章适当对应。使用多模态数据的假新闻检测在后期融合过程中忽略模态。视觉材料的有效建模不是一个2019年度）学习常见表征的能力。这个模型的主要关注点，但相反，汉魏之围，假新闻文字+图片采用了一个分层的注意力网络的文本专注于数据融合。考虑到新闻ELA，语义匹配（Meel和Vishwakarma，2021）检测，所有数据，假新闻样本以及图像标记和法医分析的组合，用于假新闻拘留的视觉方面文章中，文本语义特征可能导致过拟合或欠拟合。因此，它可能导致有效的假新闻检测属性的损失。表2文献综述总结。名称数据集类型贡献限制SAFE（Zhou等人， 2020年）PolitiFact，GossipCop文字+图片通过探索文本和视觉性能受到阻碍，因为该模型依赖于预先训练的模型来生成图片描述，并且无法区分两个数据集的相似程度。多模态CNN（Segura-Bedmar和Alonso-Bartolome，2022）DSS（Davoudi等人，2022年）Fakeddit文本+图片作者使用了单峰和多峰方法，特别强调基于卷积神经网络（CNN）的多模态方法的成功。FakeNewsNet一个动态系统（DSS），它使用传播树和立场网络一起发现假新闻，只要它出现在网上。Multimodal使用早期融合策略，不使用任何相似性或图像伪造检测方法。该模型缺少多模态图像特征实现。UMLARD（陈例如，（2022b）Twitter15，Twitter16，微博基于transformers模型的文本编码器表示，用于编码上下文敏感的语言特征，以检测假新闻。致力于社交网络及其特性。Das等人（2022）COVID-19FakeNews，FakeNewsNet文本随机森林是一种预训练的模型集成框架，由于其高泛化能力和随机采样，在检测假新闻方面表现出色。主要重点放在与句子构建相关的语言学和逻辑学上。CMC（Chen等人，2022 a）微博，PolitiFact，GossipCop文字+图片该模型采用图像增强的文本表征学习、跨模态知识提取和多模态上下文注意网络来提高图像和文本之间的语义交互。CMC共享的多模式信息没有得到充分利用。Singhal等人（2022）MediaEval，微博Koloski等人（2022）COVID-19，LIAR，PAN2020，FakeNewsNet文字+图片拟议的模式内关系突出表明，并非所有模式都同样负责决策。探索了各种文档结构，以确定哪种最适合快速准确地检测假新闻。此外，还提供了一组新的知识图文档表示学习技术。由于所提出的方法需要针对每种模态的单独监督学习阶段，因此计算成本很高。不同的表示集成提高了各种问题的性能，但没有一个单独的表示或表示集成一致地工作。M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报6W表3文献综述总结。名称数据集类型贡献限制QA-AXDS（Chi和Liao，2022）FND-NS（Raza和Ding，2022）Twitter 2017，Twitter2019年，Reddit，FigureEight（F8）NELA-GT-2019，Fakeddit文本所提出的方法能够提取隐藏在非结构化文本输入中的专家级知识，并将其转化为正式的定量论证结构。该模型采用了一个Transformer架构，由两个子组件组成：一个编码器，用于从假新闻源中学习表示;一个解码器，用于根据历史数据预测行为。通过研究弱监督学习和无监督学习，以及将这些方法集成到网络中，可以提高社交网络中真实无标签谣言的处理能力。作者提到的局限性包括领域级错误分析，新闻文章的地面真实源级别标签，监管薄弱以及资源有限。FR检测（Jarrahi和Safari，2022）FakeNewsNet Text + Image介绍了新闻使用的几个关键特征这些指标包括可信度、影响力、社交性、有效性和寿命。CreditRank算法考虑了网络中每个出版物的过去表现和当前地位计划提取和调查出版商提供的更多功能以及它们之间的联系。Fig. 1. 所提出的SSM多模式的架构。图二.双曲线层次注意力网络。CZhang和Gao（2021）为自己设定了一个目标，通过阅读所有的可以作为比较的基准。他们认为隐藏状态之上的另一层是Eq。2、学习H。培训材料。在确定ee的相对重要性M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报7WW双曲词基于它们之间的距离，Th他在四分之一坦。W w emn b w2M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报8MNMNMMNM.ΣMM-MMMMCXW1/1MNsKw¼6X@mnceK7MNK21sine2rmn124nMc以下步骤激活ee0作为eh0锰0.注意力权重概率为0.5，ReLu的激活函数，通过二进制交叉熵计算的损失，以及优化器Adam，我们正在训练一个对于单个单词，通过Eq. 3 .第三章。@mn¼exp.-dwdh.Th;eh-Tw3网络，批量大小为32个epoch。在最后一步中，我们应用SoftMax来获得真实/虚假二进制分类.一旦双曲线注意力权重被记录下来，stein中点用于聚合出现在与Eq相同的句子四、X23MN3.3. 标题和新闻摘要措施新闻内容摘要生成器和相似性度量都包含在框架的这个子模块该算法MnL@mnceK5ð4Þ1表示子模块的操作流程。C.eKq11;1-kemnk-cose2rmn3.3.1. 新闻内容摘要社交媒体帖子带有醒目的标题和照片，旨在吸引更多读者访问网站，但在ceK被称为洛伦兹因子，第m个句子的学习表示被写作sKw。通过采用Einstein-GRU单元对新闻内容中的每个句子进行编码，然后使用爱因斯坦中点聚合这些句子，来生成句子级别的表示。这个过程类似于由字级编码器完成的编码。在研究（CZhang and Gao，2021）的基础上，我们提出了一个双曲空间层次注意网络，用于获取新闻文章文本的文体表征我们意识到，并不是帖子来源中的每一句话都我们采用了一个层次化的基于注意力的网络来确定不同短语的相关性。假设在候选线程中，第m个短语中的第n个单词的输入嵌入是em n 。为了学习第m个句子的表示sKw，我们采用双曲词级编码器来学习更多关于Hype-HAN的背景。与单词级编码器类似，我们现在使用Mobius门循环单元M-GRU循环单元来编码原始帖子中的每个短语为了从由单词级编码器产生的句子向量spw学习句子表示sp为了对文本进行编码，我们采用了基于庞加莱球模型的M GRU编码器。结果从Eq。五、在假新闻的情况下，这篇文章点击诱饵是这种形式的剽窃的另一个名称（Bondielli和Marcelloni，2019）。本节的目标是提供输入新闻故事的摘要，根据标题突出显示最关键的细节为了实现这一目标，我们采用了著名的和强大的TextRank提取摘要算法（Mihalcea和Tarau，2004年），因为它的高性能，快速执行时间，易于实现。输入文本以图形的形式表示，其中算法中的顶点是要评分的句子，边是它们之间的关系。这种类型的连接是基于两个短语在其共同内容方面的连接程度然后，图中的每条边被分配一个权重，该权重表示它所连接的短语对/顶点之间的关系的重要性。在图被构造之后，文本中的每个句子使用基于图的加权评级来给出分数之后，我们将句子分数反转，并按降序排列句子。最后，选择得分最高的五个句子作为摘要。3.3.2. 文本相似性度量现在将标题中的标记与新闻文章文章之间的相似性M-GRU作为sp¼-R！U暴徒.spw;GR←U 暴徒.公司简介ð5Þ背景和主题影响其可信度（Meel和Vishwakarma，2021）。词之间进行比较，以确定其水平的语义相似性使用余弦相似性如图2所示，Sp是双曲空间中源帖子中第m个短语的最终上下文感知表示（庞加莱球模型），即，SpsH2ds，其中ds是输入嵌入项的维数measure.如果标记计数大于或等于新闻文本中标记总数的百分之十二，则认为该新闻是合法的。如果两者不一致，就会出现红色警告。说这消息是假的我们计算出最后，给了我们EQ。六、埃姆在源文章的句子中它n维空间中两个向量之间的余弦相似性，通过将两个向量的点积除以它们的Spsp; sp;.. . ：; sp6数量级。句子之间的余弦相似度，X和Y可以计算为Eq。7 .第一次会议。其中SpsH2ds×n是包含学习新闻内容的矩阵表示。句子的平均长度已通过填充或缩短为32个字。平均每篇文章40句。验证集用于超参数调整。关注-余弦相似度NXi YivuXN2vuXN2ð7Þ通过双向GRU的处理，从GloVe词嵌入和GloVe词嵌入中获得100维词/句子注释。ti¼1XitYi1/150-三维GRU注释。使用dropout正则化，其中Xi和Yi分别是向量X和Y的分量M.I. Nadeem，K.艾哈迈德Z. Zheng等人沙特国王大学学报9-·第11条ΣðargLs经验值;算法1.标题和新闻摘要措施要求：新闻文章确保新闻真实1：Summary [top 5] = TextRank（新闻正文）2：Token_Headline = Tokenize（新闻标题）3：Token_Summary = Tokenize（摘要）4：计数= 05：对于Token_Headline中的每个token6：对于Token_Summary中的每个token 7：计算（文本相似度）8：如果（文本相似性P0.75）9：计数+=110：if CountP 0.12（length（Summary））11：return3.4. 图像语义与新闻摘要测度该模块负责从链接到新闻的图片中提取语义信息。然后将语义信息与先前收集的新闻文章摘要进行比较。从新闻摘要文本和图片语义中增加的特征的比较对于确定所提出的SSM的可靠性和有效性起着至关重要的作用。子模块的工作流程由算法2表示。3.4.1. 文本相似性度量根据这项研究（Qi等人， 2019），捏造的新闻图像比真实的新闻图像更容易引起情感反应，这在语义和物理层面的情感成分研究中都有所反映。在模型构建阶段，我们将伪造检测模块的结果与从卷积神经网络获得的低级别特征集相结合，以对图像进行物理级别的检查我们首先使用EfficientNetB7预训练模型对输入图像进行编码，以改善视觉部分我们在预训练的EfficientNetB7模型的分类层之前使用了一个1024维的全连接层作为编码阶段一个1024维的矢量被用来存储图像数据。当量8演示方法：Sv¼EfficientNetB7v8其中v是输入图像，Sv是EfficientNetB7检索的视觉语义特征。然后，图像的语义元素被发送到注意力机制中，以将焦点吸引到情感表达高度集中的区域（Vaswani等人，2017年）。一旦获得，每个特征将被分配一个权重，以指示其在视觉模态表示中的9 .第九条。kv¼Z Ttanh.WvSvbvav¼Xexpkv我原始图像的质量语义表示具体来说，我们使用双向GRU（BiGRU）来构建图像到序列模块，以提高图片将图像特征与文本特征对齐是图像到序列模块的常见任务，因此，它被广泛用于创建图像描述。在这项工作中，我们介绍了图像序列模块。我们将图像这一阶段类似于文本分析中的当量10以其数学形式描述了所提出的方法，此外，利用图像的语义信息优于直接使用图像的特征（Ruffo等人，2023年）。fv¼BiGRUsemv10其中，semv表示EfficientNetB7检索到的高级语义表示，并且fv示出了使用BiGRU提取的视觉语义进展。3.4.2. 图像相似性量度将文章的文本信息与其伴随的视觉数据进行比较也是用于检测假新闻的技术（Lago等人，2019年）。我们已经建立了一种机制，可以测量文本和照片之间的相似度，以检测假新闻。使用图像特征学习模块和摘要生成模块，我们能够在前一个模块中获得摘要和照片的矢量表示。我们利用全连接层作为每个子网络的最后一层，并要求两个子网络共享最后一层的权重，以确保它们学习图像和文本的相同表示空间（Zhen等人，2019年）。通过结合图片和文本的特征，我们可

下载后可阅读完整内容，剩余1页未读，立即下载