深度学习在假新闻检测中的优化和改进：一个社会效益的研究

71 浏览量更新于2024-01-02 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 1（2021）100051使用深度学习方法优化和改进假新闻检测，以实现社会效益Tavishee Chauhan，M.Ea，1，Hemant Palivela，PhDb，2，a计算机工程系，PICT，Survey No.27，Near，Trimurti Chowk，Bharati Vidyapeeth Campus，Dhankawadi，Pune，Maharashtra 411043，Indiab人工智能和机器学习负责人，eClerx Services limited，Building#11，6 th Floor，K Raheja Mindspace，Plot #3，Thane-Belapur Rd，TTC Industrial Area，Airoli，Navi Mumbai，Maharashtra 400708，IndiaABsTRA cT假新闻是一个已经讨论了很长一段时间的话题。在互联网时代之前，它主要通过黄色新闻传播，重点是耸人听闻的新闻，如犯罪，谣言，事故和有趣的新闻。为了从这些假新闻传播中拯救人们的生命，早期阶段成为最关键的一步。人们在不知不觉中传播假新闻，成为假新闻传播的一部分。而最初的假新闻传播者是一个以传播假新闻为目标的无辜者。为了阻止这一系列事件，虚假新闻的检测及其传播模式对社会和政府来说变得非常重要。存在各种技术来检测社交媒体中的假新闻，其中神经网络已经显示出有效的结果。在这项研究中，一种基于深度学习的方法被用来区分虚假新闻和原始新闻。LSTM神经网络已被用于构建所提出的模型。除了神经网络，手套词嵌入已被用于文本词的向量表示。而且，对于特征提取或矢量化，使用了标记化技术。N-gram的概念被用来增强所提出的模型。比较分析分析了多种虚假新闻检测技术。所提出的模型的结果进行了评估，使用精度指标。该模型的准确率达到99.88%。1. 介绍在这个技术星球上，有大量不断发展的技术有助于理解人类行为。早些时候，在那个时代，人机交互仅仅被想象为一种幻觉。在我们的星球，一个巨大的天体周围，存在着一种生物文明和一种将我们与同一片土地联系在一起的关系。它将我们与属于同一个星球的联系联系起来，并建立了一个巨大的社会生活。为了发展这个社会，有一群人有权管理某个地区。社会被许多方面所包围，主要是人类，环境，可以为改善人们服务的多种行业。为了监督这些活动，特定国家的政府制定了一些需要社会遵守的规则。为了协助政府，各种新兴技术可以帮助政府建立安全政策。人工智能是约翰·麦卡锡在1955年创造的一种强大的技术。后来机器学习、深度学习、自然语言处理、神经网络、预测分析被发现。随着新兴技术的出现，每个领域都有了长足的发展。因此，即使是政府也一直在将这些技术纳入每一项可能的政策中，以改善人们的生活。人工智能是新兴技术之一，它改变了人们看待商业问题的视角（Palanivelu& Vasan-thi，2020; Ruiz-Real，Uribe-Toril，Torres，&DePablo，2021）。越来越多的公司正在转向高级分析和机器学习来解决问题。随着人工智能时代的发展，自然语言处理（NLP）为有兴趣通过现有数据了解人类情感的企业提供了大量机会（Kang，Cai，Tan，Huang，Liu，2020）。NLP可以用于所有类型的自然和社会交流，包括音频，视频和文本。为了识别文本数据集中各种多样的有用模式和趋势，文本挖掘一直在帮助这样做。在当今的市场环境中，NLP的战略使用使企业能够获得比其他竞争对手更大的竞争优势。人工智能和自然语言处理可以帮助应对多个领域的庞大非结构化数据，包括医疗保健、教育、假新闻、商业部门、安全和信任以及政府部门的社区意见。自然语言处理可以更有效地实现人机交互，从而提高企业的决策和整体效率（Bahja，2020）。自然语言是指个人如何互动，包括语音，文本和情感。说话作为一种交流方式比写作（文本）更吸引人（Eisenstein，2019）。∗ 通讯作者。电子邮件地址：chauhantavi@gmail.com（T. Chauhan），hemant outlook.com。Palivela）。1印度浦那大学计算机技术学院计算机工程系2印度孟买埃森哲服务公司ATCI数据科学高级研究科学家https://doi.org/10.1016/j.jjimei.2021.100051接收日期：2021年6月16日;接收日期：2021年11月17日;接受日期：2021年11月19日2667-0968/© 2021作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiT. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000512如今，人类和机器产生的数据量大大超过了人类承受、评估和基于这些数据做出复杂决策的潜力。企业面临的主要挑战之一是分析人类行为。商业智能用于提供一种简单的方法来集成聊天机器人，以加强业务发展（Vashisht Dharia，2020）。本文作者（Yuan et al.，二零二一年）旨在根据过往审阅者分析业务回顾，以提出未来创意建议及促进业务溢利增长。这就是自然语言处理用于帮助业务需求和增加业务利润以及为客户提供定制服务的地方。这些在线评论也是对商业决策以及电子商务和电子治理的一种监督。因此，各国政府希望加强其政策和服务，缩小公民与政府之间的差距。在某些时候，甚至社会也可能误导互联网反对政府不支持的原始内容。政府还可以使用NLP方法来改善反馈分析、监管合规性和政策分析，所有这些都将有利于社会（Kang等人，2020年）。这些发现表明，许多研究人员将信任视为欠发达国家采用电子政务的关键组成部分，而不是安全和获得的知识等重要问题（Mustaf，Ibrahim，Mohammed，2020）。电子政务中的安全和信任问题也导致了假新闻的发展，这反过来可能会损害社会和政府。假新闻是社交媒体的一个令人震惊的部分，它的入侵和扩张可能导致可怕的事件。本文的作者（Cheng Chen，2020）了解消费者参与、自我实现和冲动对假新闻的公众支持和重要影响。有几种情况对社会产生了影响，在某些情况下不仅带来了好处，而且也带来了危险。由于假新闻给社会带来的危险，它被认为是当今最热门的话题之一。论文作者（García 、 García 、 Prieto 、 Moreno Guerrero 、&Rodríguez Jiménez，2020）的发现显示了假新闻主题的流行趋势，这被视为与世界各地许多科学学科相关的重要趋势。调查结果显示，这些出版物不仅依赖于检查真实性，但也开始追求一个新的调查路线，教育扫盲和限制互联网上这类新闻的使用。假新闻往往传播得更快，而且不被识别。如果说假新闻曾经在印刷品中很突出，那么随着社交媒体的出现，特别是Facebook News Feed的出现，假新闻已经变得更加普遍。假新闻的泛滥与政治极端主义、后真相政治有关。本文的作者（Vosoughi，Roy，Aral，2018）试图通过检查2006年至2017年Twitter上的谣言级联数据集，了解和分析假新闻对社会的影响，以更好地了解假新闻如何传播。作者还发现了大量假新闻的传播。共有300万人传播了约126 000条谣言。虚假新闻比真实新闻传播到更多的受众。因此，揭露假新闻的目的必须是为了利益-社会的支持，以及政府的支持。我们需要的不是试图掩盖假新闻在扩张后的传播，而是这样一个管理系统，它可以打击假新闻传播的后果，并避免社会成为一个神秘的部分传播假新闻这项研究旨在识别和理解假新闻对政府和社会的影响。因此，假新闻传播从很久以前就一直在嗡嗡作响。为了社会的福祉，检测假新闻是首要责任。随着社交媒体数据的大量增长和新兴技术的出现，在假新闻开始大量传播之前就意识到这一点至关重要。除了揭示假新闻检测的重要性外，还建立了一种方法。为了改善对假新闻的发现，提出了一种基于深度学习的LSTM神经网络模型。该模型有助于检测假新闻和真实新闻。首先，在训练模型之前使用了停用词的概念。对于特征提取或向量化，一种标记化的方法已经接近，大量的令牌的词嵌入。对于单词嵌入，遵循GloVe概念，将每个单词表示为矢量形式。在此之后，文本通过主LSTM神经网络，在那里它进入架构中存在的不同层。最终，该模型将被设置为识别真实新闻和虚假新闻。本文的下一个要素汇总如下。以下是在第二，给出了做这项研究的目的和多个作者关于假新闻，假新闻传播，其对社会的影响和存在的检测假新闻的技术的研究工作的收集的第三，揭示了假新闻传播的质疑事件及其对社会的第4介绍了所提出的模型，有关数据集的信息以及提出假新闻检测模型所需的在第5中进行了所提出的模型及其性能评估的结果。第六节，讨论了理论贡献和实践意义。最后，第7节描述了调查结果的结论和建议的模型。2. 研究目标与文献综述假新闻是一个由来已久的话题。在互联网时代之前，它主要通过黄色新闻传播，集中在犯罪，谣言，事故和搞笑新闻等壮观的新闻上（Stein-Smith，2017）。由于社交媒体的特点，传播假新闻很简单，因为用户可以将假新闻分享给朋友，然后朋友可以将其传播给朋友，这个循环继续下去。对假新闻的评论可以在不同的时间煽动其我们的论文的基本主题是关于识别社交媒体内容是真实还是虚假的目标。社会学习对于各种经营决策的重要性已经越来越普遍。在业务决策的工作中，学习会降低新体验的质量。相关工作表明了假新闻对社会的影响。假新闻可以产生广泛的影响，从令人烦恼到误导和误导整个人口甚至政府（Feldman，Papanastasiou，&Segev，2019）。目前可获得的用于检测假新闻的方法中很少涉及基于知识的方法、语言方法、机器学习方法、混合方法和主题不可知方法（De Beer& Matthee，2020）。正如硬币有两面一样，同样，技术和社交媒体携手并进，它们的利润伴随着某些陷阱。Facebook、Instagram、YouTube和Twitter已经成为提供新闻和娱乐的强大平台，这要归功于移动设备的使用越来越多，以及与3G/4G网络的简单Wi-Fi连接。随着社交媒体和技术对社会的积极影响，每一个都有其局限性或极端性。这里提到了使用社交媒体的一些局限性和优势，以及对有助于检测假新闻的各种技术的分析（ BondielliMarcelloni，2019）。假新闻传播者通过提供虚假信息进入互联网社区。机器学习技术也被用来构建预测性假新闻模型。通过分析假新闻的众多特征，作者通过分析这些特征来检测假新闻（Singh，Ghosh，Sonagara，2021）。一组工具或应用程序是T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000513假新闻往往会通过哪些渠道传播。它们涉及最常用的应用程序是Twitter，WhatsApp和Facebook。这些是无辜的人遇到假新闻传播者的主要平台（Igwebuike Chimuanya，2020）。此外，美国twitter上的用户语言也遵循了计算语言学方法，以促进虚假（Li Su，2020）。错误信息的传播、文化象征的挪用以及新闻媒体的积极参与，促进了民粹主义言论、分裂观点和恶意观点的传播在传播信息。作者揭示了2016年美国总统大选后的影响。社会成员及其愿景的扩大在其起源上是独特的，是高度激进和怀疑的公众在社交网络中花费更多时间的直接结果。作者分析了总统新闻如何开始传播，然后逐渐扩大。作者谈到了媒体素养;作为培养更多批判性媒体消费者的一个突出反应机制，必须重新调整，以回应维持敌意和不信任参数的公众（ Mihailoviotty ，2017）。我们社会中新闻和信息的创造和消费在互联网和社交媒体的多个平台的新时代，电子商务正在不断发展。传统媒体&在线社交媒体使新闻制作和传播标准化，它也变成了一个温床，误导和假新闻导致错误信息（Nagi，2018）。印度和美国的总统和总理分别使用Twitter与他们的追随者和选民沟通。因此，政治家和官员通过社交媒体与公民的直接联系对世界各国政府的运作方式产生了重大影响。遵循传统和分析方法来理解和分析目前与假新闻有关的问题。此外，作者发现假新闻传播对社会的负面影响（Nagi，2018）。分析了社交媒体平台上出现的假新闻。作者继续研究当前的情况，并评估了2018年媒体素养指数的结果，该指数考察了各国对上述有害事件的容忍度。分析了假新闻的预防措施，以及这方面的教育和促进媒体素养。该研究对近年来社会上重新出现的一个问题提出了一个理论观点，并侧重于需要采取的安全预防措施。随着注意力的中心是在教育和媒体素养领域为公众采取行动，同样重要的是要了解社会，并采取必要措施防止文明成为越来越多的假新闻的罪魁祸首（Hossová等人， 2018年）。自然语言处理的使用使我们能够构建这样的一个可以有效识别假新闻和真新闻的模型。为了解决这些假新闻的问题，作者采用了自然语言处理（NLP）方法，并建议将事实核查与语言特征分析相结合，以真正区分假新闻和真新闻（Zhou，Guan，Bhat，Hsu，2019）。为了检测假新闻，使用ConvNet-RNN混合方法以及LSTM模型对假新闻和真实新闻进行分类（Ma Tan，2021）。在本文中，作者决定使用随机森林算法和NLP来区分值得信赖的新闻和不值得信赖的新闻（Vijay，Basha，&Nehru，2021）。基于直接从文本中提取的关系特征，如情感、实体和事实，利用语义虚假新闻检测系统。它使用了具有不同程度真实性的简短文本来证明，添加语义特征可以提高准确性，戏剧性地（Brazilianu Andonie，2020）。EX射线检测方法依赖于新闻内容或社会背景，以及特定的基于用户的数据。对于假新闻识别，研究人员考虑了报纸文章的实质内容和社交网络中回声室（基于社交媒体的用户社区，他们分享相同的观点）的存在（Kaliyar，Goswami，&Narang，2021 a）。为了检测虚假新闻，新闻的内容和流行的回音室集中在社会网络。由于其无监督性质，用于检测虚假新闻的标准因子分解方法通常与传统的机器学习模型一起使用（Kaliyar，Goswami，Narang，2021 b）。本文的作者（Kaliyar，Goswami，Narang，2021 c）提出了一种基于BERT（来自变压器的双向编码器表示）的FakeBERT深度学习策略，通过合并具有可变内核大小和屏幕的单层深度卷积神经网络（CNN）的几个并行块与BERT。提出了一种检测欺诈性新闻的新方法，该方法结合了优化方法（Ozbay& Alatas，2021）。首次提出了一种基于非线性递减系数和振荡惯性权重的增强Salp SwarmOptimization（SSO），以确定假新闻识别的最佳最优解决方案。创建文本和视觉模块来检查多模态数据集的性能，以加强使用CNN模型进行虚假新闻识别的持续研究。使用卷积层，潜在模式被利用并在文本和图像中找到。作者提出了一种多模态耦合ConvNet架构，通过融合两个数据模块，基于文本和视觉内容有效地对在线新闻进行分类（Raj Meel，2021）。除了假新闻的传播及其对社会的影响外，还有各种技术可以区分假新闻和真实新闻。创建了一个图形感知的共同注意力网络（GCAN），这是一个独特的基于神经网络的模型，可以预测特定的推文是假的还是真的（Lu Li，2020）。在Chrome环境中引入了一种自主的假新闻检测方法，可以检测Facebook上的假新闻。此外，作者还使用了与Facebook帐户相关的几个变量以及一些新闻文章功能，使用深度学习来评估帐户&的活动（Sahoo Gupta，2021）。在这里，机器学习技术被用来检测假新闻。实验采用了三种常用方法：朴素贝叶斯，神经网络和支持向量机（Aphiwongsophon& Chongyang vatana，2018）。有一个显着的需要，以创建方法来检测基于新闻内容的虚假新闻。理论驱动模型用于检测假新闻的方法是由作者在这篇文章中提出的（Zhou，Jain，Phoha，Zafarani，2020年）。该技术从词汇、句法、语义和语篇等几个层面对新闻内容进行分析。对于虚假新闻分类，本文作者（Nasir，Khan，Var- lamis，2021）介绍了一种新型的混合深度学习模型，该模型融合了卷积和递归神经网络。一种方法是将GloVe（单词表示的全局向量）模型（一种常用的单词嵌入技术）转换为一种名为GloVeNoR的新方法，该方法评估图中的节点嵌入并使用二阶随机游走创建语料库，在这项研究中进行了探索（Kulkarni，Katariya，Potika，2020）。使用手套作为简单且低成本的人机界面HMI可以快速跟随人类手指的动作，从而产生简单的人机界面通信介质。当结合众多纺织传感器和正确的机器学习方法时，它具有巨大的潜力，可以使用极简主义设计的手套执行复杂的手势识别，从而在真实和虚拟空间中实现完全控制。通过使用手势来实时完成各种手势识别活动，以提供非常有效的虚拟现实/增强现实（VR/AR）控制，诸如手枪射击、棒球投掷和遥控器布置，由于机器学习技术，这些都是可能的（Wen等人，2020年）。3. 从理论到假新闻尼日利亚社会一直面临着社会、经济、以及在尼日利亚2019年大选期间的政治上。对尼日利亚公众造成这种威胁的罪魁祸首是选举期间假新闻的传播。根据这项研究，假新闻和随之而来的后真相概念可能会继续对尼日利亚政体构成威胁，除非采取强有力的措施。T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000514为了有效地抑制假新闻和后真相现象的影响，将这些主要利益相关者--政府、立法者和普通民众--纳入其中的三重参与模式应该进化，然后给药的信（Pate等人，2019年）。后真相对涉及政治的媒体产生了重大影响。假新闻的影响和它在后真相之后的影响存在差异（角落，2017）。Twitter在政治领域越来越广泛地被用作传播思想和反馈的手段。唐纳德·特朗普是2016年美国总统选举的提名人之一，他使用Twitter作为与公众联系的手段，甚至在胜利后也继续使用。特朗普使用Twitter的言论引起了批评，因为他在各种问题上发表了评论，对希拉里克林顿，以及他就职典礼的观众人数，奥巴马政府的政策，移民和外交关系。特朗普使用Twitter最引人注目的方面之一是他经常使用术语讽刺大众媒体比如“假新闻”和“不诚实的媒体”这些条款引起了公众对媒体报道的信任。鉴于客观现实，可以声称特朗普和媒体一样，是传播错误信息的罪魁祸首（罗斯·里弗斯，2018）。假新闻甚至征服了COVID-19大流行的现状。而这一次在各种社交媒体平台中，What- sapp将人们困入了假新闻的流通中。几部声称描绘来自中国的景象的电影，就像显示受害者躺在街上的景象的图像一样，正在WhatsApp上流传，以证明冠状病毒的影响。其中一些视频已被曝光为过时的镜头，模拟演习，甚至是事实核查组织的电影序列。此外，事实核查人员质疑政府的建议，该建议建议将植物和顺势疗法作为预防COVID-19的补救措施。这提高了假新闻的传播方式让人们开始相信在这些谣言中。事实核查组织报告说，印度南部的一名男子在看到多个冠状病毒视频后自杀，并假设他也可能被感染。这个...政府必须立即采取行动有3000人在监控范围内在此之后，中央政府不得不采取关键步骤来打击假新闻的传播。为了打击虚假信息，中央政府随后命令电信提供商提供录音，澄清冠状病毒作为手机客户Purohit（2020）的来电铃声。此外，卫生工作者因传播假新闻而被捕（Saez- Trumper，2019）。4. 方法根据这项研究，我们的目标是训练我们的模型，以正确预测一条新闻是真是假。首先，我们的目标是建立一个能够有益于政府和社会的模式。其次，我们的重点是通过早期发现来最大限度地减少假新闻的传播，以便阻止其进一步扩大。接下来，我们的目标是拯救社会，避免在不知不觉中传播假新闻，使其远离传播社区。4.1. 数据集描述为了区分真实新闻与假新闻，数据来自两个不同的来源。假新闻和真新闻数据集摘自kaggle.com（Ahmed，Traore，Saad，2018）。数据集总共有大约四万篇文章，其中既有假新闻，也有真新闻。虚假新闻数据和真实新闻数据被分成两个不同的数据集，每个数据集大约有20，000篇文章。而另一个数据集是手套Twitter数据，这是一个预先训练的数据集，并由本文的作者识别。cle （ Pennington ， Socher ，Manning，2014）.该数据集包含四列，即标题，主要文本，主题和日期。图1. 新闻文章中对应的假和真的类别。图2. 每个类别的假新闻和真实新闻的主题趋势。4.2. 数据可视化和预处理数据集被分为两类，一类被标记为真类别，第二类被标记为假类别。数据可视化通过将数据显示在可视化的上下文中（如地图或图表），帮助我们理解相对数据的含义。这使得在大型数据集中发现趋势、模式和异常值变得更容易，因为这使得数据更容易为人类大脑分析。该数据集分为两类，即假新闻和原创新闻。第一类是由类“1”表示的真实新闻类别数据预处理是一个关键步骤，涉及在执行之前操纵数据，以提高效率。它涉及数据清理和数据转换，这将在下一节中看到。从数据预处理开始，图1分别显示了关于相应类别标签fake和real的文章数量。可以看出，在两个数据集中没有太多的差异。很明显，数据集是稳定的。在图中，“0”类（蓝色条）代表假新闻类别，“1”（橙色条）代表真新闻类别。由于这两类新闻的主题部分的内容不同，因此可以删除每条新闻的相应主题、标题和日期，从而只保留正文，以供进一步处理。图2解释了一起构建数据集的各种主题。各学科的计数说明了新闻在社会中的传播。橙色条代表可信和真实的新闻而蓝色条表示不可信或假新闻。的主题真正的新闻讲的是政治新闻和国际新闻。而另一边的假新闻则在新闻、政治、T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000515图3. 原始新闻数据集的Word云表示。见图4。假数据集的Word云表示。政府新闻、左翼新闻、美国新闻和中东地区新闻。4.2.1. 停用词停用词是对句子意义没有多大帮助的英语单词。它们可以很容易地被解雇，而不会损害句子的意义。停用词的例子包括像the，he和have这样的词（Nezu Miura，2020）。这些单词之前已经被收集并存储在一个名为corpus的包中，可以在NLTK目录中观察到。它可以安装在Python环境中。自然语言工具包（NLTK）是一个基于Python的集合用于英语的符号和统计自然语言处理（NLP）的工具和应用程序。为了从句子中消除停用词，将文本划分为单词，然后检查单词是否在NLTK的停止词列表中。如果特定的词存在于语料库的集合中，则该词被删除。4.2.2. 词形化词形化的过程是将非切分形式（通常是有意义的词）还原为一般形式。词干提取是指提取词干或词根形式，这些词干或词根形式可能完全反映语义思维，也可能不完全反映语义思维。4.3. 数据处理图图3和图4分别示出了真实新闻和假新闻集合内的关键词。要为每个类别创建一个单词云，最多考虑2000个单词。这样的词被称为词云，它描绘了一堆以各种大小和多种长度表示和突出显示的词。在图3中，观察到的更响亮和更大的单词是White、House、United、State 、Donald、Trump，这意味着这些单词对原始新闻数据集有同等贡献。而在图4中，更大胆和更响亮的词是一个，说，唐纳德，特朗普，希拉里，克林顿这意味着这些词在假新闻数据集中同样有贡献。术语越大、越厚，它在文档中出现的频率就越高，意义也就越显著。这些词被认为是从两个独立的输入图5. 新闻中实词的长度分类。见图6。新闻中假词的长度分类一个是假新闻，另一个是真新闻。根据每个类别，云这个词被产生了。在图图5和图6展示了相对于X轴的各种结果的数据表示。如图5所示，新闻的原始或真实词的范围从5到8。可以看出在原始新闻中，范围在6和7之间的文本具有最高的频率，这意味着这样的文本是最频繁的。而在图6中，这是针对数据集新闻范围在5和8.可以看出，假新闻中的文本范围在6和7的频率最高，这意味着这类文本T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000516图7. 矢量化的过程。最常见的。文本数据可视化有几个好处，例如快速确定最常用的单词，以识别文本是所有关于，表示所有数据的图表中的正面和负面评论的数量。这种数据可视化有助于进一步处理，如以下部分所述。4.4. 标记化：特征提取或矢量化标记化是将每个单词表示为一个数字。为了使用文本数据进行预测建模，文本被解析以删除特定的单词，这被称为标记化过程。然后，进行特征提取（或向量化），即将单词转换为整数或浮点数，以便用作机器学习方法的输入机器学习技术广泛应用于文本分析领域。然而，由于大多数算法需要固定大小的数值特征向量，而不是可变长度的原始文本文档，因此无法直接向它们提供原始数据（符号序列）。以下是从文本内容中提取数字特征的最常见方法：• 通过使用空格和标点符号作为标记分隔符，文本可以被标记化并为每个潜在的标记分配一个整数id。• 每个文档中出现的标记都可以计数。• 出现在大多数样本/文档中的标记被归一化，并且随着标记的重要性降低而加权。多维样本是包含给定文档的所有标记频率的向量。因此，可以使用矩阵来表示文档的语料库，该矩阵具有每行文档和每出现在语料库中的标记（例如，单词）一列。将文本文档的集合转换为数值特征向量的过程称为向量化。词袋或“n-gram袋”表示指的是这种特定的方法（标记化，计数和规范化）。词的出现被用来描述文档，但是词在文档中的相对位置信息在很大程度上被忽略了。这里，使用了CountVectorizer，这是一个简单的工具，用于标记文本文档集合以及构建已知单词的词汇表。CountVectorizer是一个很棒的Python工具，用于将将给定文本转换为矢量-基于每个单词的频率（计数）在完整的文件中。当我们有大量的这样的文本，并希望将每个文本中的每个单词转换为矢量。图7示出了以序列的形式将词到词向量化的过程。文本挖掘在很大程度上依赖于n-gram，n-gram是一组来自大型文本或句子序列的n个项目的共现或连续序列。在这种情况下，项目可以是单词或字母。句子中唯一的单词被称为1 grams或unigrams。Bigram（2-gram）是两个单词的组合。一个三元组是三个词的混合。如图 8、从句子到词的n元语法分析已经被示出。 Unigram是一个模型，它只依赖于一个词的频率，而不考虑前面的词，如图所示。第九章图第八章用于Uni-gram、Bi-gram和Tri-gram的过程的示例。见图9。 Unigram分析图10. 二元语法分析图11. 三元语法分析Bigram是指仅使用先前单词来预测当前单词的模型，如图10所示。这是一个三元模型，如果两个前面的话考虑到图。十一岁N-gram模型预测在给定序列的N-1个单词的序列之后最可能的单词。这是一个在文本语料库上训练的概率模型。像这样的模型在广泛的NLP应用中很有用，包括语音识别，机器翻译。N-gram模型是通过统计某些词序列在语料库中出现的次数并预测其可能性来构建的。通过N-gram语言模型预测给定N-gram在语言中的任何单词序列内的可能性。本文作者（田、宋、夏，2020）呈现了一个人物--T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000517|��基于神经网络模型的多通道注意强化联合任务的研究。在注意力模块中，基于各种参数将n-gram特征分成组，并且根据它们在给定场景中对于联合任务的重要性对每组内的n-gram进行加权和区分。社交媒体帖子已根据体育过滤器进行分类，其中作者对情感分析的两种特征提取技术（即字符n-gram和单词n-gram）进行了比较分析（Sharounthan，Nawinna，De Silva，2021）。最近的研究表明，外部自监督信号（或通过非监督学习获得的知识，如n-gram）可以有效地为理解语言（如中文）提供有意义的语义判断，并提高许多下游任务的性能。为了进一步改进编码器，作者提出了具有大量数据和先进训练方法的预训练n-gram增强编码器（Song，Zhang，Wang，&Lee，2021）。n-gram和（n- 1）-gram的相应预测频率可以用于计算n-gram概率，这是对该解决方案的第一个基本见解。因此，n-gram和（n-1）-gram的频率可以是：图12. 长短期记忆结构。在标记化过程之后，scikit-learn中的其他参数可以用于微调模型输入。为了微调模型输入，这里使用了最大特征的概念。与其使用所有单词，不如使用最大数量的单词来降低模型的复杂性和大小。对于我们的模型，我们认为最大特征为10，000，最大长度为300。GloVe模型是在全局词-词共现矩阵X的非零条目上训练的，该矩阵跟踪单词在语料库中一起出现的频率收集统计数据-�� （一）��|��…��…��）=��（��1....��|��）（一）用于该矩阵X的TIC需要在整个语料库上运行一次这��12��−1��（��1... .��-1|��）对于大型语料库，pass可能在计算上很昂贵，但它是一个-其中，（）表示子串w在L的短语中出现的预测次数。4.5. 单词嵌入：GloVeGloVe顾名思义，全局向量是一种无监督学习技术，可以生成单词向量表示。结果表示揭示了词向量空间的迷人的线性段，训练基于全局词到词共现统计的语料库。与Word2vec不同，gloVe的优点在于，它不仅依赖于本地统计（单词的本地上下文信息）来生成单词向量，而且还结合了全球统计（单词共现）。用于学习词的向量空间表示的EX学习技术已经有效地吸引了使用向量算术的细粒度语义和语法学习，但是这些正则性的起源仍然是一个谜。因此，开发了一种新的全局对数线性回归模型，该模型结合了两个关键模型家族的优点：全局矩阵因子分解和局部上下文窗口方法（Pennington等人， 2014年）。由于比值由三个字i、j和k决定，因此最通用的模型如下：��时间投资。因为非零矩阵条目的数量通常基本上少于语料库中的单词的总数，所以子矩阵训练迭代基本上更快。4.6. 神经网络：深度学习LSTM模型为了建立我们的模型，我们使用了神经网络。并且使用序列模型，该模型适合于具有用于每层的一个输入张量和一个输出张量的简单层堆叠。模型必须知道要预测的输入形状。因此，在顺序模型中，第一层必须接收输入形状的信息。序列分类是一个预测建模问题，其目的是预测一种给定的跨越空间或时间的输入序列的类别。事实上，序列可能具有不同的长度，包含广泛的输入符号词汇表，并且可能需要模型学习输入序列中符号之间的长期上下文或连接，这使得这一挑战变得艰难。因此，一种长短期记忆模型被用来识别假新闻。LSTM网络是一种递归神经网络，它使用LSTM单元块代替传统的神经网络层。输入门、遗忘门和输出门是这些单元的三个组成部分如图 12，新的序列值��被连接到��（��（二）左侧列��-1的先前输出• 抑制这种组合输入的第一步是使用双曲正切其中��，i和j是语料库中的词。它们与各种探测词的共现概率之比k可以用来描述这些术语之间的联系。当他们的比例��在闪烁的时候。虽然F可能是一个由神经网络指定的复杂函数，但这将隐藏正在尝试的线性结构来描绘。可以考虑两个实体之间的点积层.• 然后，在第二阶段中，通过输入门路由输入压缩输入乘以输入门的输出，输入门是一层S形激活节点。不需要的输入向量的任何部分都• 由于sigmoid函数产生0和1之间的值，因此可以教导将输入连接到这些节点的权重以产生��值接近于零，允许某些输入值被��（（词-词共现矩阵中的词和上下文词之间的区别是主观的，因此允许这两个角色之间的交换。F可以保持同态性质，其确保除法F（A）/F（B）可以用于表示减法F（A-B）：哦，不。”• 遗忘门循环是通过该单元的数据流中的下一个阶段。��LSTM是LSTM单元中的遗忘门变量• 为了建立递归的有效层，将递归-1添加到输入数据中。使用加法运算而不是乘法运算减少了梯度消失的可能性。• 然而，这种重复循环是由一个遗忘门控制的，��（��=（四）功能类似于输入门，但有助于网络学习。��判断哪些状态变量应该被T. Chauhan和H. 帕利韦拉International Journal of Information Management Data Insights 1（2021）1000518∑• 最后，在输出层有一个双曲正切压缩函数，其输出由输出门控制。这个门决定哪些值- ues从细胞计数器实际上被允许作为输出。使用双曲正切激活函数，输入被压缩在-1和1之间。这可以表示如下：��=其中，输入偏置是输入偏置，输入和先验单元输出权重分别表示输入和先验单元输出权重。��遗忘门可以表示为：��=��1是前一个状态和遗忘门的元素乘积的输出。而输出门可以给出为：��=该网络的最终输出将是��如图所示。 12岁我们使用堆叠的LSTM模型来增强我们的系统。在使用LSTM的堆栈版本时，返回序列被设置为true。当返回序列设置为true时，每个神经元的隐藏状态的输出被用作后续LSTM层的输入。将一件作品分类从特定新闻到真实新闻或假新闻，复杂的LSTM模型需要多个LSTM和Dense层。• 第一层是嵌入层，它用32个长度向量表示每个单词。• 接下来的两层是LSTM层，分别有128和64个存储单元。• 有两个密集输出层。第一个密集层由32个存储单元和reLu激活函数组成。• 下一个密集层是输出层，由单个神经元和sigmoid激活函数组成。在神经网络中，密集层只是一个规则的神经元层。上一层的每个神经元都从上一层的所有神经元接收信息权重矩阵X W、偏置向量b和前一层的激活构成了这一层。为了避免过度拟合，本文的作者（Tan等人，2019）通常在他们建议的网络中选择一个或两个厚层。整流器单元（ReLu）是CNN神经元输出最常用的激活函数（LiYuan，2017）。使用ReLU函数优于其他激活函数的关键好处是，它不会同时刺激所有神经元。ReLU是一个非线性的激活函数，像tanh或sigmoid，在卷积后计

下载后可阅读完整内容，剩余1页未读，立即下载