在线社交网络信息扩散预测框架DIFCURV的有效性与精度

119 浏览量更新于2023-12-05 收藏 3.33MB PDF 举报

曲线拟合

数学模型

身份认证购VIP最低享 7 折!

30元优惠券

阵列12（2021）100100DIFCURV：在线社交网络扩散曲线拟合和预测的统一框架Charalambos Christoforou1，Kalliopi Malerou1，Nikolaos L.雅典娜？瓦卡利？齐察斯塞萨洛尼基亚里士多德大学信息学院，54124，塞萨洛尼基，希腊A R T I C L E I N F O保留字：在线社交网络信息扩散预测曲线拟合A B S T R A C T在线社交网络（OSN）中的信息传播分析由于其对不同业务部门的影响而引起人们极大的兴趣。在众多的OSN中，著名的微博客服务Twitter脱颖而出，原因很多，比如平台的流行程度和数据访问的便利性。在OSN流行的微博Twitter服务中转发等活动这种级联活动（如转发）的形式在识别信息源（如推特）的影响力和生命周期方面起着至关重要的作用。本文提出一个具有双重功能的整体框架：（i）检查稳健的数学模型在拟合一段时间内转发数量产生的曲线时的有效性，以及（ii）使用这些数学模型来预测仅使用其中一小部分（作为输入数据）的所检查的转发的行为。所研究的数学模型源于简单的数学函数或基于创新扩散理论，这是一个重要的理论，用于研究尚未彻底用于OSNs扩散预测的扩散现象。建议的框架（所谓的DIFCURV）封装适当的数据预处理程序，以及解释性分析与可视化和统计分析增强。在DIFCURV框架的曲线拟合部分，一种取决于曲线斜率的优化方法被部署到错误超过定义阈值的推文故事中，从而显著降低了错误。为了预测转发的时间演变，在详细探索和检查不同的方法后，选择了非线性最小二乘曲线拟合方法。此外，对于增长率变量的近似，提出了三种方法，并展示了平均增长率作为最合适的方法OSNs域。有效性DIFCURV框架展示了几个数值实验的结果，一个大的数据集，包括超过200万的转推总数为所有检查的故事。DIFCURV预测结果与已有的文献进行了比较，结果表明，本文提出的信息扩散预测框架具有更高的精度和效率。1. 介绍由于Twitter、Facebook和Instagram等在线社交网络（OSN）的出现，在线信息和知识共享的过程发生了根本性的变化。根据对于Ellison和Boyd [1]，OSN站点被定义为基于web的服务，其允许个人：（i）在有界系统内构建公共或半公共简档，（ii）清楚地表达与他们共享连接的其他用户的列表，以及（iii）查看和遍历他们的连接列表以及由系统内的其他人建立的连接列表。因此，OSN用户不断地以新兴和不可预测的速率创建、发布、交互和传播内容。了解的机制考虑到大数据量及其非预测性的挑战，OSN中的这种信息扩散已经成为重要的、活跃的和动态的研究领域。研究和预测OSN中的信息扩散对许多任务和服务具有很强的潜在有益影响。分析OSN中的信息传播可以得出关于影响扩散过程最剧烈的因素的重要结论。这些结果可以进一步用于优化社交媒体中帖子的广告和外展。此外，信息扩散的预测还可以用于诸如市场营销，联系我们通过菲利普·福涅尔-维格∗通讯作者。电子邮件地址：avakali@csd.auth.gr（A. Vakali）。1前两位作者贡献相等，他们的名字按字母顺序排列。https://doi.org/10.1016/j.array.2021.100100接收日期：2021年3月8日;接收日期：2021年7月16日;接受日期：2021年10月8日2021年10月23日在线提供2590-00562021的自行发表通过Elsevier Inc.这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayC. Christoforou等人阵列12（2021）1001002考虑到新帖子的病毒式传播能力，为广告作品提供定制价格。OSN内容不仅涉及源内容（例如帖子的文本），还涉及其元信息（例如发布时间，地理位置等）。其与整个信息扩散过程强相关。例如，研究推特中的信息传播应该涉及内容源（文本帖子）及其元信息（即转发活动），这表明转发或转发来自原始来源的推文。类似地，在其他OSN平台中，如Instagram（其中主要传输的源内容是图像），应考虑源图像及其元源信息（例如图像处理功能）。同样，在YouTube这样的视频共享社交媒体平台上，研究需要进行修改，以考虑源本身（视频）及其附带的元信息（例如视频功能，下载次数等）。OSN信息传播的早期研究集中在建模和预测哪些用户传播信息以及该信息元素传播所需的时间。已经采用了几种方法来解决这些问题。曲线拟合方法是对OSN数据的演化和扩散进行建模和预测的最流行方法之一。由于OSN数据由时间序列表示，因此在时间间隔内对一组重新发布进行建模，以捕获源内容（例如推文）传播，如其元信息（例如重新推文）所表示的那样[2]。曲线拟合方法已在许多领域中用于预测时间序列（如农业和其他应用领域[3]）。受这种跨域预测的启发，研究OSN中的信息扩散可以采用类似的方法。除了曲线拟合之外，还提出了各种机器学习方法，特别是通过使用训练模型进行预测[4然而，基于机器学习算法的方法需要大量的输入数据来正确训练模型并给出准确的结果。在现实世界的OSN中收集这种随时间演变的数据成为一个相当具有挑战性的问题，因为大多数OSN的API必须对数据收集施加限制和约束，这是由于法律和道德方面的影响。因此，曲线拟合算法是确定模型参数的适当替代方法，因为它需要较少的数据来给出准确的结果[7，8]。对OSN信息实体采用曲线拟合由于OSN时间序列的快速性及其演变的不规则波动（诸如在趋势内容的情况下，例如在“趋势推文”中）而带来挑战。此外，大多数现有的曲线拟合方法依赖于各种OSN相关的参数（例如，用户的数量和流行程度以及所检查的网络的拓扑结构），因此，没有提供可以模拟OSN数据处理任务的通用模型。因此，需要新的曲线拟合方法来准确地预测复杂的动态OSN中的时间依赖性扩散。在各种OSN平台中，Twitter已经成为研究信息传播模型和相关现象的范例来源，主要是因为它允许访问其内容（推文来源）和元信息（转发，提及等）。为此，世界各地的许多研究小组对其进行了广泛的分析。相关研究的一些实现已经有助于理解Twitter中的人类行为，例如研究哪个群体对一条信息做出反应，或者哪个信息在社交活动期间或之后传播得更快[9，10]。Foroozani和Ebrahimi [11]研究了OSN（如Twitter和Digg）的扩散类型的多样性，他们强调了不规则性和异常信息扩散的情况。在信息扩散曲线的预测方面（例如转推随时间的变化），现有方法涉及许多参数[12]，并且依赖于特别检查的OSN。另外，这些方法需要大量的训练数据来确定模型的参数，这给实际应用带来了瓶颈在该阈值下，地面实况和带注释的输入数据受到限制。由于OSN的元信息（如retweet）在信息传播过程中起着重要的作用，许多早期的OSN传播研究工作都集中在用户的retweet活动。虽然这种研究工作的核心要素是转发活动，但每种方法的目标可能完全不同。总之，Fridaus等人[13]定义了三个主要的Twitter特定信息传播相关的研究问题：1. 用户会转发哪条推文？为了在内容源（tweets）中选择最突出的，2. 谁会转发目标推文？检测在元信息（retweet）3. 为什么有些推文会得到更多的转发？获取内容源及其Meta信息影响这项工作重新考虑了这些早期的研究问题，重新调整的研究重点是如何转推曲线演变的时间？我们选择Twitter和转发来实现我们的分析和实验的原因如下所述：• 数据比其他OSN更容易检索。Twitter通过许多应用程序编程接口（API）提供其数据，这些API可用于检索tweets和实验所需的其他元数据。虽然其他平台已经关闭或限制访问其数据，但Twitter在2021年宣布推出一个新的产品轨道，旨在满足学术研究社区使用Twitter数据进行研究的需求。此外，除了Twitter API之外，还开发了许多工具，以提供各种推文和转推收集，例如DMI-TCAT[14]。• Twitter被广泛使用。Twitter和类似Twitter的OSN在许多关注信息传播的作品中被用作数据源。与其他研究人员拥有共同的数据源，使我们的结果与其他研究人员的比较更容易，得出的结论更准确。• 转推作为扩散机制。的扩散 Twitter（转推）的机制对于分析和预测是直接的。特别是，可以轻松地对retweet执行多个分析，因为它同时提供几种信息类型例如，文本内容、情感、用户等。本研究中使用的转推信息是转推帖子与原始推文帖子之间的时间差，以及转推帖子的数量。在特定的时间间隔内收到的推文所提出的方法建立在简单，全面，易于理解的数学模型（主要基于一阶常微分方程的初值问题），而不需要任何形式的培训和网络知识。更具体地，对于预处理部分，收集一组转推数据，从该转推数据形成各种不同类型的曲线。所开发的框架分为两个部分：扩散曲线拟合和扩散预测。在“扩散曲线拟合”部分中，将针对六个模型测试每条曲线以获得精确拟合。对于曲线最好的拟合没有达到预定义的阈值，已经开发了一种使用原始曲线的斜率的算法，并且显示出成功地显著降低了误差百分比。在扩散预测部分，基于已知数据的子集，框架使用创新扩散的三个数学模型和曲线拟合方法预测扩散曲线。在第一预测阶段结束时，计算误差，并且如果误差高于预定义阈值，则框架用新的初始数据预测曲线。主要的方面是最小化相对百分误差（在曲线拟合方面）和准确地预测信息扩散的多种形式的曲线。本文接下来的部分结构如下：第2部分总结了相关的工作，并强调了现有的开放问题C. Christoforou等人阵列12（2021）1001003的方法和贡献，目前的工作，而基本概念和基本原理概述在第3节。在第4节中介绍并详细介绍了拟议的框架DIFCURV，而数据集详细信息和实验结果记录在第5节中。最后，第6节给出了结论和未来的工作方向。2. 相关工作在本节中，总结了现有文献的调查，重点是基于曲线拟合的方法来预测OSN上的信息扩散。2.1. 信息扩散模型已经提出了几种模型来描述OSN中的信息扩散。一些最具代表性和广泛使用的是：• 流行病学模型源于传染病传播的建模。参与流行病学模型的节点分为以下三类：– 可能被感染的易感（S）节点– 已感染的（I）节点– 已删除（R）已感染但现已治愈的节点四个主要的流行病学模型是：– SI模型[15，16]：易感节点，即可能被感染的节点，当被感染时保持在该状态。因此，网络的节点要么属于S状态，要么属于I状态。– SIS模型[17，18]：在这里，与SI不同，受感染的节点可以恢复，改变状态，并再次变得易受感染，也就是说，再次变得容易感染。– SIR模型[19-– SIRS模型[22，23]：处于R状态的节点可以再次回落到S状态，因此可能再次被感染。• 影响力模型利用用户容易受到OSN中其他用户影响的事实。影响力模型分为三类：– 个人影响力检查OSN用户对与其存在直接链接的另一个用户的影响[24，25]。– 社区影响力发生在OSN内部创建的群组内。该模型可用于找到信息成为病毒的概率[26]并研究标签的扩散[27]。– 当信息在两个或多个OSN之间扩散时，就会发生网络影响。后一个模型的应用是影响最大化，即给定一个网络，一个信息和扩散成本，决定网络的哪些节点必须用于最大化扩散[28，29]。• 独立级联（IC）模型，其中已经感染的节点可以在下一个时间间隔内以一定的概率感染其相邻节点。因此，在任何时间间隔，节点都可以根据连接它与邻居的链路的概率被感染。网络知识是使用IC模型的必要该模型可用于确定复杂网络中信息扩散的可能性[30]以及一条信息如何在时间上传播[6，31]。• 线性阈值（LT）模型，其中每个节点都有一个激活阈值和每个相邻节点的影响因子。在任何时间间隔，受感染的节点都会试图影响它们的邻居。如果影响的总和超过节点的阈值，则该节点被感染。LT可用于找到可能影响OSN中信息扩散的因素[32]，以解决影响最大化问题[33]和竞争影响传播[34]。• 创新扩散模型利用新思想（创新）通过渠道暂时传播到社会系统中的个体的过程来研究信息传播。[35- 38 ]中使用了多智能体系统和相关评价的模拟在[39]中提出了通过使用真实数据来预测给定用户网络中的信息扩散创新扩散的理论和数学模型将在随后的章节中进一步解释，因为它们也是本研究中使用的一些模型表1对本小节中介绍的信息扩散模型进行了比较。这一比较是基于所审查的大多数出版物。具体而言，基于两个因素对模型进行比较：• 网络结构的知识显示了模型在没有关于发生扩散的网络的信息时给出结果的能力。当模型需要网络知识时为YES，不需要时为NO。部分当用户的直接链接的知识是必要的• 范畴是根据模型的基本应用进行的分离。解释模型倾向于解释信息是如何在OSN中传播的。另一方面，预测模型试图预测信息将如何在OSN中传播从表1中可以看出，创新扩散模型的适应性最强它们可以用来解释OSN中的现象此外，它们不需要网络知识的事实使它们具有应用程序所需计算能力基于这些原因，它们被选为本文中使用的主要模型2.2. 曲线拟合法如[40]中所定义的，曲线拟合是构造曲线的过程，即数学函数的图形，其具有对一系列数据点的最佳拟合，可能受到某些约束。在此过程中，因变量和自变量之间的关系由表征良好拟合模型的目标确定[41]。曲线拟合可以涉及插值（需要精确拟合数据）或平滑（使用“smooth "函数被构造成近似地拟合数据。平滑与回归分析高度相关，回归分析侧重于统计推断问题，例如用随机误差测量的曲线拟合数据中存在的不确定性;参见例如[2]。 Bhattacharya等人[42]专注于的OSN的度分布的适当拟合，并开发了一种方法，以找到最合适的分布的六种可能的组合的幂律和对数正态分布的基础上选择的过渡点。在OSN领域，曲线拟合主要用于机器学习方法。一般来说，机器学习问题可以分为分类、回归和聚类问题。分类是预测一个离散类标签的任务，回归预测一个连续的数量，和聚类划分数据成若干组，根据他们的特点，使对象有一定程度的相似性。机器学习中的回归问题通过各种算法来解决，例如线性和多项式回归，神经网络，回归树和随机森林。C. Christoforou等人阵列12（2021）1001004表1信息传播模型的比较。Twitter数据在基于机器学习的工作中被广泛使用。Bunyamin等人在[43]中提供了学习方法和特征在预测准确性和特征重要性方面的性能的系统比较。特别是，Hong等人在[44]中使用逻辑回归预测了一条推文是否会被转发以及会被转发多少次。在[45]中，基于广泛的内容特征和独立于上下文信息，使用逻辑回归也解决了哪些推文将被转发的问题。在[46]中，提出了一种不同的方法，使用新的泊松回归损失来优化网络训练。在[47]中，大竹等人使用与日本动画相关的推文数据集评估了扩散现象。他们使用NLP方法描述推文的内容，并使用推文的时间序列数据，创建了一个复制扩散现象的混合模型2.3. 信息扩散在这里，现有的方法进行了概述，关于预测的信息扩散OSNs。预测通常指的是确定超出某些初始可用输入数据的时间和空间扩散。在空间维度上，必须预测信息到达的深度，并且在时间维度上，必须预测在其原始发布之后每个时间间隔内共享信息的用户数量。一些开发的方法使用上述第2.1节中提到的模型，而其他方法则依赖于不同的方法。确切地说，在[7，8]中，分别通过流行病学模型和偏微分方程（PDE）技术，利用曲线拟合来估计用于信息预测的模型的参数。流体动力学偏微分方程模型在[48]中用于预测时间和空间信息扩散。在[5]和[4]中分别使用了基于线性代数和微分方程的模型参数估计训练集。机器学习也被用于信息扩散的预测。在[49]中，根据寿命和转发次数预测了推文的受欢迎程度。主题类似的推文，从知识库中提取给定的推文、转发模式和属性，然后用于预测。在[50]中，通过采用基于用户、基于时间和基于内容的特征，使用朴素贝叶斯、支持向量机和随机森林算法进行预测所有模型的前提是存在一个训练集。2.4. 现有方法的未决问题和目前工作的贡献现有提出的模型和方法具有一定的缺点。在这项工作中，我们提出了一个总体框架，即DIFCURV，它没有这些缺点。在本节中，我们支持- 请参见对所解决的缺点以及DIFCURV对上述最新技术的贡献的描述以前，大多数现有的模型需要大量的训练数据，以实现准确的预测，从而使用数据库是必不可少的。相反，本文对于扩散预测只需要少量的初始时间间隔扩散数据就能达到足够的精度。而且，在预测完成后不需要保存数据，因此不需要数据库。此外，大量现有方法依赖于机器学习或神经网络，因此需要对不同模型进行训练。相比之下，本文使用的方法是预测每个故事的信息扩散，跳过了这两个时间和资源消耗的过程。特别是，所有的变量都是动态定义的，并分配给实验中研究的每个故事。这对于OSN中的预测非常重要，因为每个OSN帖子都有不同的特征。因此，模型的变量不可能是先验已知的，每个故事都是一样的至于本研究对上述技术水平的贡献，在于：• the innovation in models’ usage 此外，如表1所示，创新扩散模型可以解释这种行为，也可以预测信息扩散。然而，所采用的数学模型还没有被广泛和系统地用于建模和预测准确的微博服务中的信息扩散。• 一个易于采用的模型的命题，该模型由灵活有效的数学方法支持，旨在以显著的准确性捕获OSN信息扩散的时间演变（通过转发活动进行研究）;大多数采用的数学方法来自经典的人口动力学模型。• - 基于错误监视的对不同传播场景的转发数据的时间演变的预测。当导出的曲线拟合数据与实际数据之间的误差大于某个预定义阈值时，采用特定的算法优化方法来改善所获得的曲线拟合结果。• DIFCURV框架拟合和预测不同类型数据能力在大范围的转发曲线中被检验。如所获得的结果所示，DIFCURV实现了对平滑曲线以及非平滑曲线的满意评价，例如，初始快速增加的曲线或在几个时间点显示突然增加C. Christoforou等人阵列12（2021）1001005|=��|（一• 所提出的方法的灵活性和适应性被期望在研究OSN信息扩散的各个领域中证明是有益的。由转推数据相对于时间形成的曲线的斜率被确定，并且该曲线在由斜率值确定的特定（切割）点处分解为两部分。将这两部分分开处理，可以得到更精确的实际数据曲线拟合3. 基本概念和基本原理在这一节中，基本概念，基本原理和符号，需要介绍的主要部分的文件，给出。这项工作研究了两个方面的信息扩散在OSN。首先，对于给定的一系列按时间间隔的重新发布的故事，通过使用数学模型确定拟合到给定数据的优化扩散曲线。其次，利用最佳的数学模型，在已知少量初始时间序列数据的情况下，对扩散曲线进行准确预测。本文的双重目的需要适当地统一，以便更容易理解，并给出更紧凑的结果。下面，所有符号都以统一的方式呈现。本文还介绍了该框架中曲线拟合和曲线预测部分所采用的数学模型以及所采用的方法。表2中提供了所采用的数学模型所采用的符号，以及拟议的统一框架中使用的符号，表3中总结了该符号。许多数学模型已被用于在各种网络中进行预测。为了这项研究的目的，六个模型用于曲线拟合部分的开发框架和三个其中的预测部分。即一项和两项幂、两项指数和创新扩散的三个数学模型。前面提到的前三种方法在曲线拟合中应用广泛。相比之下，后三种方法具有坚实的理论背景，但迄今为止尚未在现有的曲线拟合和预测实验中得到广泛应用，更具体地说，在OSN领域3.1. 误差度量用于评估模型和开发框架的误差度量是均方根相对误差（RMSRE），其定义为：两项幂模型（Power 2）。任何可以用以下形式表示的函数：A（）=+，（3）��是两项幂级数模型。双项指数模型（Exp2）。任何可以用以下形式表示的函数：A（）=+，（4）��是一个两项指数模型。指数通常用于当数量的变化率与数量的初始量成比例时。3.2.2. 创新扩散模型当一个新的想法（创新）随着时间的推移在社交网络的成员之间传播时，创新的扩散就会发生[51]，它有四个主要特征：1. 创新：一种新的想法，它能引起社会系统中某些成员的兴趣，从而将其传达给其他成员。该系统2. 沟通渠道：创新传播的媒介3. 时间：时间是一个关键的变量;没有创新可以立即通过系统传播，因此，必须经过一段时间间隔，以便成员可以交流创新。4. 社会系统：相互联系并交流思想的个体。具有高影响力的成员可以帮助创新更快地传播创新在OSN中的传播可以如下发生：通信信道可以是Twitter，其中用户发布可以被认为是创新的推文。随着时间的推移，用户的社交系统的成员（追随者，追随者，朋友）可以转发他们感兴趣的一条信息，因此他们的社交系统的成员可以看到。在这项工作中，采用的创新扩散数学模型是Zafarani等人[52]提出的混合影响模型（MIM）、内部影响模型（IIM）和外部影响模型（EIM）。这三种模型都是基于累积采用模型，即：受影响的用户数量��新受影响的用户数与时间t0��- 1时受影响的用户数相加即可计算出t0。这些模型使用两个影响因素：外部影响因素和内部影响因素。一个外部影响因素是推文的内容。一条提供新信息的推文比一条推文更有可能被传播没有新的信息。一个内部影响因素是√√∑ |A��−��|A.与OSN的其他用户的连接，其中，A是在时间t1/2处的实际值，A是在时间t2/3处的预测/拟合值，以及所考虑的时间采样点的总数。��3.2. 使用的数学模型3.2.1. 传统数学模型在曲线拟合中广泛使用以下三种常规数学模型。一项模型的功率（功率1）。任何可以用以下形式表示的函数：A（）=，（2）��是一项幂级数模型。常数是变化常数或比例常数，常数是幂;和都是非零实数。��外部影响模型（EIM）。该模型只考虑影响信息传播的外部因素（主要受外部因素影响的此类信息的一个例子是成为病毒式传播的新闻），并由初始值问题描述��A（��）=��[ − A（��）]，A（0）= A0，（5）��其中，A（λ）是在时间λ0处的受影响用户的数量，A0是在初始时间λ0处的原始受影响用户的数量，承载能力（受影响用户的最大数量）和λ是外部影响因子。在EIM中，通常认为A0 = 0。（5）的解为：A（）= −（− A0）−��（−��0），（6）因此受影响的用户的数量随时间呈指数增加，并且在承载能力处渐近饱和这个模型只取决于故事的重要性，它由因子α来量化。因此，它描述了用户之间没有显著影响的故事。2=1因此，来自具有许多连接的用户的推文很可能成为病毒。C. Christoforou等人阵列12（2021）1001006��一个小女孩。（八）1+1一个小女孩。（十）��表2数学模型符号。A（1）时间点的受影响用户：转发故事的用户数量随时间的��A在2000年的受影响用户数：在最初2000年转发故事的用户数��时间tInitialtime interval：我们最初开始研究扩散的时间间隔承载能力：可能转发故事的潜在用户总数��外部影响因素：取决于故事内容并影响转发��模仿因素：取决于发布故事的用户的网络并影响转发数量��增长率：影响故事转发数量的因素表3框架符号。·用作信息扩散预测输入数据的已知初始小时数（λ> 1）总扩散��时间点的故事转发次数=时间点��大小为100+1的列表，包含100+1小时内每小时的转发��[1，2，��增长率的值，已计算与增长率��梯度点内部影响模型（IIM）。在该模型中，考虑了内部影响因素，即发布原始信息的用户的网络。拥有庞大网络和巨大影响力的用户的推文属于这一类。该模型描述为：��A （ �� ） =�� A （ �� ） [ − A （ �� ） ] ，A （ ��0 ） = A0 ，（7）其中��是内部影响因子。初始值问题（7）的解是：（）=A0A0+（− A0）−��（−��0）该模型预测与OSN的用户相关的故事，其中个人相互联系并可能相互影响。稀疏网络中的扩散是很难预测的，因为在稀疏网络中，外部因素，即，一个故事有多有趣变得很重要混合影响模型（MIM）。该模型既考虑了发布推文的用户的网络，也考虑了推文的内容。当一个拥有庞大网络的用户发布一条重要新闻时，有一个快速的增长率，并保持稳定的步伐，直到它稳定在。它在所有三种模型中收敛速度最快，可用于快速收敛到的高增长率故事。3.3. 增长率公式为了估计确定所需的增长率，考虑并测试了两个数学公式，即复合年增长率2（CAGR）和回报率3（RoR）;这两个公式以前都曾用于财务分析。复合年增长率。复合增长率描述的是一项投资如果每年稳定增长，每年的利润再投资，用来表示投资增长率的几何级数的比率。这种累积模式类似于随着时间的推移而增加的转发，因此，采用以下CAGR公式来估计增长因子（）1��扩散很可能遵循这种模式。它被描述为：��A（��A（）= A，（9）A（，）=��- 1，�� =��−��+1，（11）��0 0它的解决方案是−��（−A0）−（+）（−��0）��（）=+A0��（−A0）−��（��+混合影响模型是外部影响模型和内部影响模型的组合。因此，理论上可以使用这种其中，“1”是考虑的第一个小时，“2”是考虑的最后一个小时，“3”是考虑的第一个小时和最后一个小时之间的时间间隔数，“3”和“4”分别是考虑的第二个小时和最后一个小时的转发数��收益率RoR描述了一项投资在特定时期内相对于投资原始成本的净收益或损失。这种收入的增加类似于一段时间后一个故事的转发RoR的公式为：模型来预测几个类别的故事，比如高风险的故事，��−��一个内部因素和一个小的外部因素，反之亦然。图图1显示了EIM、IIM和MIM的代表性比较��（��对于φ= 4 × 10−2，φ= 10−5，= 13000，0= 1，且A0 = 300（以��其中参数，��和与（11）相同。在实际OSN场景中，因子α和β的值取决于所检查的网络的特定特性结果表明，EIM模型在扩散开始时速度较慢，并保持一个恒定的速度，直到稳定在。它的收敛速度最慢，在介绍了误差度量、所采用的数学模型和增长率公式之后，我们将在下一节详细分析所开发的框架。��所有这三种模型，因此，EIM可以用于缓慢增长的故事。IIM在扩散的最初几个小时内速度较慢，但随后速度增加，直到稳定在。它比EIM收敛得更快，因此，IIM可以用于在扩散初期增长速度较慢的故事，然后以更高的速度增长MIM2Investopedia - CAGR定义。1/2019.取自https：//www.investopedia.com/terms/c/cagr.asp。3 Investopedia-回报率。 2019年1月。取自https：//www.investopedia.com/terms/r/rateofreturn.asp网站。C. Christoforou等人阵列12（2021）1001007图1.一、三种创新扩散模型的代表性比较。图二. DIFCURV框架。4. 用于OSN扩散曲线拟合和预测的DIFCURV框架图中所示的建议DIFCURV框架。2为Twitter中的扩散曲线拟合和扩散预测提供了一个高效的统一管道，并启动了数据预处理阶段，以支持下一个精心设计和互连的组件和任务。预处理DIFCURV框架的预处理阶段对于框架的两个部分是相同的，并且由两个步骤组成1. 计算转发次数。在这项工作中，研究扩散的时间演变的转推。对于一个给定的目标推文，所有被保存到数据库中的故事的转推都是基于时间间隔计算的2. 累计总和信息的传播是不断增加的，因为用户转发一个故事，总是受到这个故事的影响。从每个新的时间间隔计算的故事的转发被添加到从所有时间间隔计算的转发的总和。先前的时间间隔，以形成在这个（新的）时间间隔的累积和。预处理阶段返回一个列表，其中包含一个故事的累计转发总数。现在，DIFCURV的两个部分被分开分析，以使演示更加简洁。4.1. 扩散曲线拟合在本小节中，我们将广泛分析与扩散曲线拟合相对应的框架部分以及所使用的每种模型和方法。扩散曲线拟合过程分为两个阶段：主阶段和细化阶段。主阶段针对每个推文故事运行，而细化阶段仅针对其主阶段执行导致的错误大于定义的阈值。对于扩散曲线拟合部分的实现，转推计数的时间间隔非常小，即以秒为单位。此外，数据被形成为两个平行的列表，一个包含转发计数，一个包含时间差。主要阶段包括三个步骤：重复删除在推文故事的累计转发总和列表中，可能会出现许多重复。在小数据集中进行的测试得出的结论是，这一事实可能会对曲线拟合过程造成问题，因此实施了重复删除。更准确地说，如果，例如，在时间差1和2三个和两个转推C. Christoforou等人阵列12（2021）1001008分别发生，列表的值最初将是（1，1）、（1，2）、（1，3）、（2，4）和（2，5），其中第一个值指的是时间差列表，而第二个值指的是转发计数列表。在上面的例子中，在删除重复项之后，列表的保留值将仅为（1，3）和（2，5）。曲线拟合（CF）通过删除重复项，现在可以通过两个平行列表适当地形成转发计数随时间的曲线。然后，应用与所有所选模型的曲线拟合。特别地，在形成实际数据的曲线并且为每个模型的变量分配适当的值之后，预测数据的曲线可以并与原始曲线进行比较误差估计原始曲线与模型（共六个）生成的每条曲线的比较提供了每个模型成功的概述。在下一步中，计算所有六个使用的模型的误差，并且最佳拟合是具有最小误差的模型。如果该最小误差小于所定义的阈值，则该过程终止，否则其继续细化阶段。细化阶段是为了改进被认为不成功的结果而创建的。其实施方式如下：梯度点（T*）检测第一步是将时间间隔分为两部分，作为A部分和B部分。为了检测用于切割时间间隔的最适当的点，计算曲线的斜率。更详细地，计算每个点A与点A+距离之间的分数Δ Δ k，其中Δk是固定的预定义值。��使用的条件是Δ T≥0.5，T* 是该条件首次数据端点选择。第一个过程是数据端点选择，即给定累积和列表，使用已知数据创建子列表。初步测试的结果表明，作为输入数据的扩散的初始小时数，影响显着的准确性。为此，创建了具有不同初始小时数的子列表，以用作主阶段的输入数据。例如，如果随时间推移的转发列表由8小时的扩散组成，将创建7个子列表。第一个子列表包括扩散的前2小时，第二个子列表包括扩散的前3小时，以此类推，最后一个列表包括扩散的所有8小时主要和细化阶段主要阶段和细化阶段包括三个步骤，即承载力估计、扩散预测和误差估计。承载能力估算。承载力（）值的估计对于预测扩散的准确性很重要。此步骤包含以下两个子过程：1. 增长率计算对于在数据端点选择步骤（数据端点选择）中创建的每个子列表，计算增长率（增长率）。��2. 承载能力计算对于上一步计算的每个增长率（增长率），计算承载能力（增长率）。��扩散预测（DP）。在这一步中，通过使用创新扩散的三个模型进行扩散预测。对于在上一步中计算的每个承载力值和作为输入数据的已知初始扩散小时数，将为每个模型预测扩散曲线。误差估计。对于这三个方程中的每一个预测的曲线，满意��条件定义背后的想法是，如果分数小于0.5，那么所讨论的点随时间有一个平滑的变化（因此曲线在该点不涉及突变），因此，在该点切割时间间隔将是毫无意义的。CF-A部分和B部分在梯度点（T*）检测之后，下一步是对A部分和B部分重复曲线拟合过程。以这种方式，形成每个部分的预测数据的曲线，并将其与原始曲线的相应部分进行误差A和误差B估计通过均方根相对误差估计每个部件的误差。在下一步骤中使用新的估计误差来设置最佳拟合预测的新误差创新扩散模型，计算RMSRE（1）。具有最小误差的预测曲线被认为是最佳拟合。新数据端点选择。如果主阶段的最小误差大于阈值误差，则执行新数据端点选择和细化阶段该过程与数据端点选择类似，不同之处在于每个列表的第一个值。与数据端点选择相反，此过程的输出列表以第一个值开始，第二个值是扩散的时间间隔。例如，如果随时间推移的转发列表由8小时的扩散组成，则创建6个子列表。第一子列表包括扩散的第2和第3小时的转推计数，第二子列表包括第2、第3和第4小时的转推计数，以此类推，最后一个子列表包含第2至第8小时的转推计数4.2.1. 主要和细化阶段对于主要和细化阶段，有一些内部过程需要进一步解释。新错误集新的错误集由下式计算：4.2. 扩散预测��1+100万美元2��2增长率计算。为了计算承载力所需的增长率（10%），复合年增长率（11）和收益率��(12) 被考虑。为了计算精确的扩散系数值，必须提供整个扩散曲线的这是在这里，我们将讨论扩散预测部分以及所有测试过的方法。扩散预测过程也分为两个阶段：主要阶段和完善阶段。主阶段针对每个推文故事运行，而细化阶段仅针对其主阶段执行导致的错误大于定义的阈值。在DIFCURV框架的扩散预测部分中，所述阶段由相同的步骤和内部程序组成，但具有不同的输入数据。这对于预测方案是不现实的，因为仅来自初始时间间隔的信息是可用的。提出了三种近似方法：1. 最后一个至第一对于创建的每个子列表，使用子列表的第一个和最后一个值作为公式（11）中的输入来计算GACR，根据：��A= A（1，A+1）.（十三）C. Christoforou等人阵列12（2021）1001009（∑）图三. 估计平均值的方法比较。见图4。 A-E型曲线形式因此，对于值1和1+ 1，使用（11）计算出的增长率为100%。�� 例如，��乘以用于计算工时的小时百分比，如下所示：包含8小时扩散的转发数。A（1，8）的值等于A（1，8），即对于1，8和A等于8。��=1分+1分��2.��（，（十四）2. 平均增加百分比对于创建的每个子列表，值RoR（12）使用每个值与前一个值计算这些值的平均值其中，n+ 1是计算其增长率（n）的子列表n的大小，扩散的总时间和n（n-1，n）��C. Christoforou等人阵列12（2021）10010010图五. 一项主要阶段结果的功率。见图6。两项主要阶段结果的功率。见图7。两项指数主阶段结果。两个连续值的回报率用于计算的分数��+1如下：��表示用作已知输入数据的（1∑+1��）+1用于计算总时间扩散上的变量为例如，如果一个子列表包含8 h的扩散（扩散时间为7），则��=��2.A（1，n），（15）RoR（12）是针对第一和第二个小时（（1，2））、第二和第三个小时（（2，3））以及列表中直到第七和第八个小时（（7，8））的所有其他值计算的。将这些值的平均值乘以已知小时数的百分比，得到107。3. 平均生长速率对于创建的每个子列表，计算列表中每个值和列表中第一个值的CAGR（11）。计算这些值的平均值并乘以小时百分比其中A（1，n），n> 1是复合年增长率的每一个值与由（11）给出的第一个值的关系。��例如，如果一个子列表包含8小时的转发计数（转发次数7），则计算第一和第二个扩散小时（A（1，2））、第一和第三个扩散小时（A（1，3））的复合年增长率（11），依此类推，直到第一和第八个小时（A（1，8））。这些值的平均值乘以已知小时数的百分比，得到107。图3显示了估计的误差与

下载后可阅读完整内容，剩余1页未读，立即下载