RPaSDT-在线社交网络谣言检测工具包

146 浏览量更新于2024-01-27 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沪公网安备31011502000118号原始软件出版物RPaSDT-谣言传播和来源检测工具包达米安·弗罗什恰克军事技术大学，UL。将军Sylwestra Kaliskiego 2，00-908华沙，波兰ar t i cl e i nf o文章历史记录：接收24八月2021收到修订版2021年12月12日接受2022年保留字：Python在线社交网络信息传播谣言源检测a b st ra ct如今，在线社交网络是世界各地用户之间的主要通信方式。不幸的是，它们越来越多地被用于恶意目的。找到谣言来源是控制、预防和了解网络中虚假信息传播的重要尝试。为了缓解这个问题，RPaSDT（谣言传播和源检测工具包）已被开发，以允许用户准备和配置一个初始的网络拓扑结构，传播过程，然后利用众所周知的源识别算法来估计基于给定的扩散图的真实来源。该工具包设计用于以基于窗口的方式工作，以同时显示所有执行的分析。它也可以用于其他领域，例如，识别有影响力的节点，模拟流行病在社会中的传播，或规划营销活动以获得最佳结果。©2022作者（S）。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本0.2.0此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00167Code Ocean compute capsule不可用，因为它是一个GUI工具包法律代码许可证MIT使用GIT的代码版本控制系统软件代码语言、工具和服务使用Python、Docker、Python、isort、typing编译要求，操作环境依赖Python，Docker，参考库：matplotlib，ndlib，network，PyQt5，cdlib，numpy如果可用，链接到开发人员文档/手册https://github.com/damianfraszczak/rpasdt/blob/main/README.md问题支持电子邮件damian. wat.edu.pl软件元数据当前软件版本0.2.0此版本可执行文件的永久链接https://github.com/damianfraszczak/rpasdt/tree/main/dist法律软件许可证MIT LICENCE计算平台/操作系统iOS，Linux，Microsoft Windows安装要求依赖Python，Docker，参考库：matplotlib，ndlib，network，PyQt5，cdlib，numpy如果可用，请链接到用户手册-如果正式出版，请在参考列表中引用该出版物https://github.com/damianfraszczak/rpasdt/blob/main/README.md问题支持电子邮件damian. wat.edu.pl电子邮件地址：damian. wat.edu.pl。https://doi.org/10.1016/j.softx.2022.1009881. 动机和意义社交媒体平台为社会内部的信息2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx达米安·弗罗什恰克沪公网安备31011502000118号2非常紧凑和紧密。人们使用社交媒体来分享信息、情感和趋势。在网络中将信息从一个人或社区传递到另一个人或社区被称为信息扩散或信息传播。社会网络结构的特点是无成本，大规模，即时通信，使这一过程非常方便。报纸、电视、广播等常见的信息传播变得越来越不受欢迎。此外，据说对大多数人来说，社交媒体平台是信息的主要来源，这使他们接触到非常不同类型的信息。有很多例子可以说明如何正确地使用它们，比如警告人们危险的情况，或者为慈善事业筹集资金。已经提到了社交媒体平台的属性，它们也创造了分享包含恶意内容的信息的绝佳机会。最近，据观察，这些事件的数量正在增加，并可能影响到生活的各个方面，即，影响选举结果或经济和精神状况[1识别恶意信息的来源至关重要，因为它可以减少虚假信息，从而避免更严重的问题。此外，检测源的问题在其他情况下，网络的传播是至关重要的，比如在疾病中找到零号病人。这可以阻止病毒的传播控制疾病的蔓延。另一个例子是，识别网络中的特洛伊病毒或计算机蠕虫可以提高其有效性。近年来，研究人员开发了一套解决这一问题的方法和技术。所提出的解决方案取决于观测类型、网络拓扑结构、信息扩散过程等。[3不幸的是，所提出的方法还没有被组合成一个共同的框架，使得它很难分析，使用和比较与他人。本文旨在介绍RPaSDT软件，它有助于克服上述问题，并旨在允许轻松和标准化的访问范围广泛的源识别算法，同时使分析，评估，可视化和比较的过程变得容易。而且，它还提供了一组可以在逆向问题中使用的函数：基于在给定的网络中，找到传播在最短时间内覆盖整个网络的节点。这个问题也是流行病管理和准备专门的营销公司的根本[6]。一些解决方案提供与所呈现的软件类似的功能。[7-该工具包扩展了具有动态意见模型的传播方法，可用于任何网络拓扑[4]。市场上有很多用于复杂网络分析的专用工具[10并分析传播并基于它找到源。没有开源工具提供所有提到的功能，并允许利用专用API或CLI的可用功能。据作者此外，没有提供这种先进的GUI和CLI层的解决方案，其以如此复杂的方式覆盖网络中的传播、模拟和源识别的过程，这两个层都利用了共享的API，其他研究人员可以轻松地使用它们。该解决方案旨在为研究人员开发新的源识别方法提供一个起点，并使他们能够在不需要知道辅助库的情况下将其实现放在这里。综上所述，工具包允许研究人员基于任何网络拓扑（包括实际网络）准备传播实验，选择和配置用于来自网络中所选源的信息传播的扩散模型，并利用公知的源识别算法来基于扩散网络估计源。除此之外，该工具包还提供了一系列有助于网络分析的功能。总而言之，所有这些都被打包到可访问性层中，使软件易于使用GUI，并且对于使用CLI的广泛网络快速而有价值。2. 软件描述实现的工具包允许用户在任何类型的网络拓扑结构下准备谣言传播实验，以及众所周知的文献扩散模型，并根据传播图，确定潜在的扩散源。值得一提的是，所描述的工具包提供了一组辅助工具来执行复杂的网络分析，以选择不同的源并验证在给定拓扑和源集合下的扩散如何这有助于找到最佳配置来建模，例如，广告摄像头，并了解不同模型、参数和网络拓扑的传播效果。该软件还可以模拟其他领域的传播和源检测，如流行病或病毒检测。可以使用工具包中的可用模型模拟这些传播，并使用可用方法模拟源识别过程。最好的作者关于这方面的知识是第一个软件，不仅允许它模拟和可视化的信息/流行病等，传播，而且还提供用于任何类型的网络中的源检测的一组复杂的公知算法。此外，它是第一个开源项目，提供了一个广泛的源识别算法集的最先进的和众所周知的方法实现。2.1. 软件构架所提出的应用程序基于Python [13]和一组基于图形的辅助库[14-它的体系结构已经定向，以提供一个伟大的界面，易于在GUI和基于CLI的环境中使用。众所周知，很难在基于GUI的工具包中可视化广泛的网络[6]，因此在这种情况下，软件提供了CLI层，使其能够在没有UI的情况下执行所有操作。所实现的功能的架构基于适配器设计模式，以组合不同的算法，从而在一个命令下获得结果。GUI层已经用PyQT [17]实现，PyQT是基于C++的QT UI库的Python包装器这意味着实现的软件可以很容易地在任何操作系统上分发。GUI层是基于多窗口方法构建的，这意味着每个窗口提供不同的功能集，并包含单独的分析环境（见图1）。①的人。这种方法允许用户以同时对不同方面进行复杂的分析。此外，由于每个窗口都有其上下文，因此当前窗口中的更改不会影响前一个和下一个创建的窗口，除非它们是在当前窗口配置上创建的。该工具包对硬件和服务没有任何特殊要求。它为Windows和Linux用户提供了专用的安装程序，使非技术人员易于安装和使用。开发环境基于Docker，因此很容易运行和扩展当前功能，而无需手动安装和配置任何外部依赖项。达米安·弗罗什恰克沪公网安备31011502000118号3图1.一、RPaSDT-可视化执行分析的多窗口方法。表1窗口的摘要图形可视化工具栏项它们提供以下功能：返回到初始视图、撤消或重做操作、在网络上平移、放大和缩小、编辑子图、图形管理、将当前图形导出为图像、编辑图形渲染属性图形分析工具栏项它允许您使用中心性指标、社区检测和网络属性执行任何类型的图形分析。实验工具栏项目它们提供以下功能：导出当前情况与其他研究人员共享，使用不同算法自动选择源，导航到传播步骤。传播管理工具栏项它们提供传播管理功能，如编辑扩散模型参数、清除传播、运行以步进模式进行模拟，以批处理模式运行模拟，运行模拟以感染所有节点，选择并运行源检测。2.2. 软件功能RPaSDT已在基于窗口的方法中实现，以可视化和管理分析的不同方面。每个窗口都包含一个单独的模型，它不会影响其他窗口。这意味着用户可以在初始网络结构上运行多个单独的分析实验并进行比较，如下图所示值得一提的是，用户可以以任何方式重新排列窗口，这将使其更容易同时进行分析。每个窗口都有一个单独的工具栏，提供了一组不同的操作来执行，这些操作可以分为两个主要部分：常规功能和特定于情况的功能（请参见表1）。实现的工具包允许用户通过以下步骤对基于传播的实验进行复杂的分析1. 生成或加载初始网络拓扑。用户可以使用其中一种即用型网络拓扑，例如，‘‘Karate club’’,2. 使用不同的基于图的算法分析初始网络结构，如中心性度量、社区检测或网络拓扑度量。3. 基于分析或使用提供的算法自动选择传播源，例如，随机地或基于中心性度量。4. 选择、配置和运行一个传播模型。模拟可以在三种不同的模式下执行：分步、批处理和整体。通过这种方式，用户可以容易地看到情况在每个步骤中是如何变化的。达米安·弗罗什恰克沪公网安备31011502000118号4图二. 通过执行度中心性和社区检测分析生成的情况。5. 根据给定的扩散图识别传播源。这个过程可以在不同的时刻执行，提供了一个很好的机会来了解感染节点的数量如何影响源检测算法的准确性。6. 验证源检测精度。3. 说明性实例RPaSDT是一款直观的软件，可直接引导用户从分析过程的开始到结束。确认论文的最佳方法是展示如何准备和进行以下要求的实验：A Watts–Strogatz synthetical graph will be used as a net-work网络将在不同的方面和指标下进行分析。源节点将基于其中心性度量来选择。SI模型的谣言扩散过程将用6次迭代来模拟。扩散网络将在不同的角度和度量下进行分析。基于扩散图，将基于一些源识别方法来估计源节点（见图11）。 2）的情况。在第一步中，用户有义务创建或导入已经创建的实验。要创建新的实验，用户必须提供有关它的一些基本信息：即，名称和图形类型，然后用户必须提供图形类型配置。配置参数取决于图形的类型。目前，用户可以从以下选项中进行选择：生成一个合成图：使用一些典型的图形拓扑结构，如加载基于以下格式的自定义图形拓扑：邻接标记、GML或JSON格式。在下一步中，用户可以执行图形拓扑的分析该软件提供了一种方法来分析节点的重要性与中心性的措施，发现社区的基础上不同的算法和分析的情况下图的水平。在下一步骤中，用户有义务选择用于传播模拟的源。它可以自动完成，也可以在执行分析时完成。默认情况下，选定的节点标记为红色，但可以通过用户设置进行更改之后，用户必须选择和配置用于模拟网络传播的扩散模型。准备就绪后，将弹出传播管理窗口。来源的数量不受限制。当初始情况完全配置好后，用户应该设置一个传播实验。该工具包允许建模处理各种方法，如流行病模型、社会影响模型，独立的级联模型或基于身份的模型，以及意见动态模型。广泛的可用传播模型允许用户在给定的网络拓扑下模拟和验证不同的场景和方面。在用传播模型的参数配置传播模型之后，扩散实验准备开始。如前所述，传播窗口带来了传播管理工具栏，允许管理模拟过程。它可以在三种不同的模式下运行：分步，批处理和完全网络感染。此功能允许用户监视和了解所选传播模型将如何在具有给定源集合的不同网络拓扑下工作以及它将如何进行。在这一点上，该软件还可以用于其他领域，如特定社会中的流行病模拟，特定用户群下给定产品的广告活动预测，或预测内部网络中计算机病毒感染的传播及其可能的后果（见图10）。 3）。值得一提的是，利用基于窗口的构建UI的方法，研究人员可以用图形比较·········达米安·弗罗什恰克沪公网安备31011502000118号5图3.第三章。谣言传播模拟的结果与其他窗口一起可见。见图4。谣言源检测过程的结果。不同的扩散模型将如何同时覆盖网络以这种方式分析传播是有益的它使他们能够发现关于这一点的关键问题，例如，利用什么模型，最关键的节点将最快地参与传播，或者什么模型将在有限的时间内提供节点的最佳覆盖。实验的最后一步是根据提供的传播图执行源识别过程所选算法的结果以两种方式显示：通过图形，其中黄色标记估计的源节点。此外，在源检测工具包的其他选项卡上，显示了在源检测任务中使用的最流行的分类度量，如准确度，召回率，精度，f-测量，或实际和错误检测节点之间的距离误差[4，18]，但也提供了一组众所周知的分类度量[19]和混淆矩阵可视化（见图2）。 4）.UI的多窗口方法的利用提供了在不同条件下同时比较不同的源识别方法的另一个极好的机会，例如，不同的网络覆盖范围，传播模型，或真实的来源集（见图1）。 5）。4. 影响所提出的工具包提供了一个广泛的工具集，允许用户快速，轻松地创建实验sce- narios或导入真实的研究传播，并找到网络中的传播源。该软件利用一组现有的库来构建，分析和可视化Python语言中的网络，并提供了一个额外的层，使研究人员更容易使用它们。一般来说，这些功能可以通过研究人员的脚本以不那么交互的方式轻松实现所提供的工具包带有UI和CLI界面，以克服这个问题。UI层是根据多窗口方法实现的，该方法允许研究人员查看不同的网络分析，同时，这使得更容易理解问题并找到潜在的解决方案。该软件也可以很容易地用于分析，模拟，传播，并在其他领域如流行病、病毒检测或广告活动中执行源检测，因为这些领域的传播可以用工具包中的可用模型来模拟，并且源识别过程可以用可用方法来所提供的软件附带达米安·弗罗什恰克沪公网安备31011502000118号6图五. 同时通过网络渲染对不同算法的谣言源识别准确率进行了比较。在线提供的文档[20]提供了GUI、CLI和API的使用示例，以执行复杂的分析，并包含从头开始运行和配置应用程序的说明。据作者所知，这是第一个允许用户模拟和可视化的软件程序信息/流行病等，传播，并提供用于任何类型网络中的源检测的一组复杂的公知算法。目前，该工具包为单源和多源检测问题提供了一个实现。单一来源可以使用以下方法检测：NetSleuth [20]，DynamicAge [21]，RumorCenter [22-多个源可以利用上述技术检测，利用超过20种社区检测和网络划分方法将多源检测问题转换为几个独立的单源定位问题[28-还有许多其他方法来检测谣言来源[3，18，31]，但上述方法在文献中引用最多。该工具包5. 结论RPaSDT是一个最先进的工具包，提供了一组功能，以帮助研究人员执行复杂的网络分析，模拟信息传播，并识别扩散源与众所周知的方法。该软件同样重要的是，该工具包附带了CLI层其允许用所提供的算法分析广泛的网络。所提出的软件可以在许多领域中扩展，如提供一组新的网络分析方法，提供从互联网的社会网络导入网络结构的可能性建立一个网络的基础上推文或实现其他来源识别方法。RPaSDT仍在开发中，因为它是作者博士学位的一部分。关于准备一种新方法来识别在线社交网络中此外，本文还重点研究了不同社会网络的信息传播数据融合据作者所知，这是第一个以如此复杂的方式解决网络传播问题的解决方案，也是第一个竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]希格登河假新闻的剖析：批判性新闻素养教育。奥克兰，加利福尼亚州：加利福尼亚大学出版社; 2020年。[2]Meel P，Vishwakarma DK.“假新闻，谣言，社会媒体和网络中的信息污染：对最新技术，挑战和机遇的当代调查”。专家系统应用2020;153：112986。http://dx.doi.org/10的网站。1016/j.eswa.2019.112986的网站。[3] 弗伦奇·什恰克D“假新闻源检测-当前问题和研究的最新调查”。第37届国际商业信息管理协会会议录。 Cordoba ， Spain; 2021 ， p. 11381-9.http://dx.doi.org/10.6084/m9.figshare.16545675网站。[4] 弗伦奇·什恰克D在线社交网络中的信息传播-模拟案例研究。第38届国际商业信息管理协会会议录。西班牙塞维利亚 ; 2021 年，https://doi.org/10.6084/m9.figshare.18974987.v1。[5] Jin R，Wu W.传播模型和源估计器的方案用于在线社交网络中的谣言源检测：一项简短的调查“十年的研究”。2021，ArXiv210100753 Cs，[在线]。查阅网址：http://arxiv.org/abs/2101.00753[查阅日期：二零二一年三月十三日[6]K. Raj PM，Mohan A，Srinivasa KG.用Python进行社交网络分析Cham：Springer International Publishing; 2018，http://dx.doi.org/10.1007/978-3-319-96746-2。[7]Karczmarczyk A，Jankowski J，Wavetróbski J.“OONIS -面向对象的网络感染模拟器”。SoftwareX2021;14：100675.http://dx.doi.org/10.1016/j.softx.2021.100675的网站上发布的。达米安·弗罗什恰克沪公网安备31011502000118号7[8] 作者声明：John G. “网络传染病模拟”。计算机生物医学2007;37（2）：195-205。http://dx.doi.org/10.1016/2005.12.002.[9] 杨伟杰，杨伟杰，杨伟杰. "可视化分析方法来比较社交网络中的传播模型。电子处理理论计算科学2015;181：65-79。http://dx.doi.org/10.4204/EPTCS.181.5网站。[10][10]杨文，杨文.“Cytoscape自动化：增强基于工作流的网络分析”。GenomeBiol 2019;20（1）：185. http://dx.doi.org/10.1186/s13059-019-1758-4网站。[11] Gephi. - 开放图形可视化平台。2021，https://gephi.org/[于2021年8月11日[12]Graph-tool ：使用 Python 进行高效网络分析。 2021 ， https ：tool.skewed.de/[于2021年8月24日查阅]。[13]欢迎来到python.org。2021，https://www.python.org/[于2021年8月[14]作者：Rossetti G，Milli L，Cazabet R. ‘CDLIB: A python library to extract,com- 应用网络科学 2019;4 （ 1 ）： 52. http://dx.doi.org/10.1007/s41109-019-0165-9网站。[15]Rossetti G，Milli L，Rinzivillo S，Sagrbu A，Pedreschi D，Giannotti F.'Ndlib：一个python库，用于模拟和分析复杂网络上的扩散过程。Int J DataSci Anal 2018;5（1）：61-79. http://dx.doi.org/10.1007/s41060-017-0086-6.[16]'Networkx - Networkx文档'。2021，https://networkx.org/[于2021年8月11日查阅]。[17]Qt for Python - Qt for Python 2021，https://doc.qt.io/qtforpython/[于2021年8月11日查阅]。[18] ShelkeS ， AttarV.在线 SocNetwMedia2019;9 ： 30-42.http://dx.doi.org/10.1016/j.osnem的网站。2018.12.001。[19]哈里森·M机器学习袖珍参考：在Python中使用结构化数据。北京;波士顿：O' R e i l l y ; 2 0 1 9 。[20] 放大图片作者：J.“发现流行病的罪魁祸首：有多少和哪些？”2012年IEEE第12届数据挖掘国际会议。布鲁塞尔，比利时; 2012年，第11-20页。http://dx.doi.org/10.1109/ICDM.2012.136。[21] 菲奥里蒂五世，钦尼奇“用光谱技术预测爆发源”。2012，ArXiv12112333Math-PhPhysicsphysics，[Online].查阅网址：http://arxiv.org/abs/1211.2333[查阅日期：2021年5月6日[22]Shah D，Zaman T. 网络谣言：谁是罪魁祸首？ IEEE TransInform Theory2011;57（8）：5163http://dx.doi.org/10.1109/TIT的网站。2011.2158885。[23]Shah D，Zaman T.“检测网络中计算机病毒的来源：理论和实验”。ACMsigmetrics计算机系统测量和建模国际会议论文集。 New York，New York，USA; 2010，p. 203. http://dx.doi.org/10.1145/1811039的网站。1811063。[24] 董伟，张伟，谭顺华. 在：IEEE int symp inf理论。2013年，第2671-5页。http://dx.doi.org/10.1109/ISIT.2013.6620711。[25]Zhu K ， Ying L. SIR 模型中的信息源检测：基于样本路径 2013 年，ArXiv12065421物理学，[联机]。查阅网址：http://arxiv.org/abs/1206.5421[查阅日期：二零二一年三月十三日]。[26]Das K，Kumar Sinha S.“基于中心性度量的方法用于检测Twitter社交网络中的恶意节点 ” 。 IntJEngTechnol2018;7 （ 4.5 ）： 518.http://dx.doi.org/10.14419/ijet.v7i4.5.21147网站。[27]Ali SS，Anwar T，Rizvi SAM.“A revisit to the infection source identificationproblem under classical graph centrality measures”. 在线 Soc Netw Media2020;17：100061. http://dx.doi.org/10.1016/j.osnem.2020.100061网站。[28]Luo W，Tay WP.“识别网络中的多个感染源”。在：2012年会议记录的第四十六届阿西洛马会议信号。Systems and computers（ASILOMAR），PacificGrove，CA，USA;2012，p.1483-9.http://dx.doi.org/10.1109/ACSSC.2012.6489274网站。[29]臧文，张萍，周春，郭磊。“发现社交网络中的多个扩散源节点”。ProcediaComput Sci 2014;29：443-52. 网址：//dx.doi.org/10.1016/j.procs.2014.05.040网站。[30]臧文，张萍，周春，郭磊。“在SIR模型下定位社交网络中的多个源：分而治之的方法”。JComputSci2015;10：278-87.http://dx.doi.org/10.1016/j.jocs.2015.05.002网站。[31]姜军，温S，于S，向Y，周W.“确定网络中的传播源：最新技术和比较研究”。IEEECommunSurvTutor2017;19（1）：465-81.http://dx.doi.org/10.1109/COMST.2016.2615098网站。

下载后可阅读完整内容，剩余1页未读，立即下载