社交媒体中的“嗡嗡声”：病毒现象的检测与应用

39 浏览量更新于2023-10-15 收藏 571KB PDF 举报

在线社交网络

分类技术

身份认证购VIP最低享 7 折!

30元优惠券

在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1443社交媒体中的嗡嗡声：检测短暂的病毒现象克莱门斯·多伊塞尔隐私与安全主席，TUDresdenclemens. tu-dresden.de本杰明·席勒隐私与安全主席，TUDresdentu-dresden.de诺拉·詹森法兰克福歌德大学信息系统与信息管理系主任jansen@wiwi.uni-frankfurt.de奥利弗·欣茨法兰克福歌德大学信息系统与信息管理系主任ohinz@wiwi.uni-frankfurt.de扬·罗伊博尔德隐私与安全主席，TUDresdenjan.reubold@ tu-dresden.de托尔斯滕·斯特鲁费隐私与安全主席，TUDresdenthorsten. tu-dresden.de摘要社交媒体互动发生在各种各样的背景和规模。绝大多数帖子几乎没有引起讨论，而一些帖子则开始流行并成为病毒。我们研究的病毒性，明确的“嗡嗡声”-职位，引起激烈的互动，在很短的时间内，因为他们经常被观察到，有时在物理世界中的个人和公司的严重后果。Buzz的早期检测可以通过给予他们在早期阶段做出反应的机会来帮助减轻或防止针对公司或个人的大规模社交媒体愤怒的负面后果。收集Facebook页面上超过100，000个帖子的标记集，我们首先使用逻辑回归探索定义Buzz的属性这种方法有助于我们解释结果并得出实用建议。随后，我们训练分类器并应用基于机器学习的分类技术来展示自动预测的潜在能力。我们实现了高召回率和中等精度，其中广泛的特征集上的特征提升产生了最有希望的结果。我们的研究表明，Buzzes很好地描述了来自以前被动用户的大量评论，评论的大量喜欢，以及延长的讨论时间-这些属性可用于区分无关紧要的帖子和潜在的不稳定帖子。ACM参考格式：ClemensDeusser，Nora Jansen，Jan Reubold，Benjamin Schiller，OliverHinz，and Thorsten Strufe. 2018年。社交媒体中的嗡嗡声：检测短暂的病毒现象。在WWW '18伴侣：2018年网络会议Companion，2018年4月23日至27日，法国里昂。 ACM ， New York ， NY ， USA ， 7 页。https://doi.org/10.1145/3184558.3191591本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利1引言在线社交网络（OSN）通信经常被少量的Buzzes-“病毒式传播”并远远超出其最初来源的帖子所支配这样一个Buzz可以对大众话语产生特殊的影响并有可能强烈地塑造公众对产品、公司、机构、公众人物和普通个人的看法-无论是正面的还是负面的。例如，2013年，公关主管贾斯汀·萨科在登机前发了一条希望我开玩笑的我在全球范围内，相关的标签迅速上升到Twitter上的第一位。她形容这件事的后果是“令人难以置信的创伤”1，缩短了她的旅行，失去了工作。在另一个例子中，一只很受欢迎的狮子被一位美国牙医射杀，这再次激起了人们的愤怒，导致他的家和办公室遭到破坏。无论个人对这些人的行为有什么看法，这些迫害都与合法的现代社会不可调和。不应让个人在没有经过任何适当程序或没有机会为自己辩护以抵御世界各地的暴民的情况下，使其生活遭受严重认识到这一现象的潜在动力，并给予有关各方更多的时间作出反应，可能有助于减轻一些后果。一个负面的嗡嗡声也可以针对公司，就像联邦快递公司的情况一样，一名员工被拍到不太温柔地递送包裹。在这种情况下对品牌的损害可能是实质性的，并且难以通过传统的公关方法来防止公司对此的反应是雇佣社交媒体经理，他们不仅对有关公司的负面网络故事做出澄清或道歉，而且还通过放大积极的事态发展来迅速做出反应。这些管理人员可以有效地利用预警系统，更快、更好地作出决策。作为最后的示例，Buzz不需要是正的或负的。它也可以是良性的，就像在“连衣裙”4的情况下发生的那样;一张连衣裙的照片引起了世界范围内的混乱，不知道它是由什么颜色制成的。WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915911https://tinyurl.com/zmzhu592https://tinyurl.com/wp-cecil3https://tinyurl.com/mirror-fedex4https://tinyurl.com/wp-dress在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1444本研究分析了这样的嗡嗡声。为了提供可扩展的早期检测，我们的目标是只使用公开的Facebook页面的元数据来检测它们。首先使用逻辑回归探索它们的特性和各自的特征，随后采用更先进的机器学习（ML）技术。逻辑回归对于解释结果是有用的，并且可以用于直接为人类决策者导出建议，而ML技术产生更好的分类结果。2相关工作在最近的文献中，病毒性经常以多种形式进行研究我们将重点关注通过分类技术以某种形式发现或预测病毒式传播的出版物，因为这些出版物与我们的工作最相关。Kaltenbrunner等人[8]分析新闻网站Slashdot，以预测某个帖子将收到的评论数 Ma等人 [11] Tsur和Rappoport [16]预测了Twitter上标签的流行程度。具体来说，它们预测给定的主题标签在特定时间范围内出现的次数他们发现上下文或结构特征比内容特征更重要虽然这一发现支持我们考虑元数据而不是内容的方法，但我们没有在数据集中包含丰富的结构数据。许多出版物正在研究他们称之为“级联”的现象这个想法是，一段内容通过以级联方式共享和重新共享来传播。Cheng等人[2]预测这种级联的大小，这意味着一段内容在这样的结构中共享的次数。值得注意的是，他们通过重新制定预测问题，而不是预测最终的大小，他们预测增长超过所有级联的中值大小的可能性，至少已经增长了这么大，从而避免了在检查极其罕见的现象时出现的问题其他作品则研究了特定类型内容的病毒式传播特别是图像病毒性已经在几种格式中进行了研究Guerini等人[6]研究Google Plus上的视觉内容，Deza和Parikh [3]研究社交新闻聚合网站Reddit，Szabo和Huberman[15]分析门户网站Digg和YouTube。这些出版物都没有从手动标记的数据集接近病毒性动态相反，他们依赖于直接的指标，通常计算股票，投票或喜欢的数量，有时与其他指标相结合。我们不知道以某种形式用手动标记的基础事实分类或预测病毒式传播的出版物。3数据集及其特点在本节中，我们将介绍我们的数据集，收集方法和衍生特征。3.1数据收集和描述为了研究Buzzes，并证实和评估我们的说法，我们从76个公共Facebook页面中收集元数据我们使用Facebook Graph API进行此过程，因为它允许访问其页面上的一组丰富的元数据，特别是关于帖子的元数据。我们收集的具体数据字段包括：• 每个页面的名称和喜欢ID、内容、时间戳、喜欢和每个帖子的共享计数ID，内容，时间戳，喜欢和评论者ID的每个评论在这些职位。我们选择这些页面是基于对报道病毒式社交媒体事件的在线报纸和其他网站页数（带蜂鸣器）七十六（五十）#posts119,910#评论12,938,690#蜂鸣器（>2周）一百零五（一百）我们清理了这个数据集，删除了Facebook报告的不一致信息的帖子，以及仅从Facebook其他地方转发内容清理后，最终数据集由总共119，910个帖子组成。为了确保Buzz上的活动有足够的时间进行开发，我们还排除了在收集样本前两周内发布的所有内容。我们随后分析了剩余的数据集，并且四个编码器根据以下嗡嗡声的定义将每个帖子手动标记为嗡嗡声或非嗡嗡声：“Buzz是一个特定的帖子，行为或主题，最初通过社交媒体传播，突然引起了令人惊讶和非凡的关注，导致许多观点。在这方面，帖子是文本、视频和/或图片。它可以导致某些在线反应，诸如喜欢、共享、评论、模仿，和/或离线反应，诸如参与事件或购买某个物品。在大多数情况下，这种特殊的注意力会持续几天或几周。在极少数情况下，它会持续几个月。起初，在大多数情况下，没有新闻机构参与。不过，以后单家媒体可能会报道炒作。因此，超过四分之一的数据被所有四个编码器标记，以便控制其可靠性。所有其他帖子都至少由两个人编码在意见不一致的情况两位作者讨论并决定了最终标签。3.2特征在下面的部分中，我们将解释我们收集的用于进一步分析的不同功能（表1概述了我们使用的所有功能）。我们收集帖子的所有直接相关的元数据，例如对帖子的喜欢，分享和评论的数量（nolikes，noshares，nocomment），以及帖子评论的平均长度（contentlenдth）和不同评论的喜欢数量（commentlikes）。考虑到某些页面比其他页面更受欢迎，我们添加了一个功能，即根据相应页面的平均喜欢，重新分享和评论（postlikes，postshares，comments）的数量进行划分我们还发现，与帖子直接相关的评论（firstlevel）和对这些评论的回复（replies）的数量在在线讨论的过程中变化很大，因此每个都被包括为特征。Buzz的特征通常是许多人讨论某个主题并评论给定的帖子。霍尔特表明，大多数参与讨论是给予当人们辩论不同··在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1445.∗常规元数据功能帕格利凯什数据检索时的页面点赞总数似海报的帖子点赞数，除以平均每页的帖子点赞数后股帖子共享数，除以每页的平均帖子共享数评论每篇文章的评论数，除以该页面上文章的平均评论数第一级回复初始帖子的评论数答复回复其他评论的评论数回复率答复数除以评论数重复已回复的第一级评论数，除以评论数用户评论的不同用户数老年用户以前在页面上发表过评论的用户数新用户用户-旧用户新用户比率新用户中继用户评论超过一次的用户数评论喜欢每条评论的平均点赞数作者评论帖子作者的评论数除以作者评论的平均数contentlength注释消息字符串的平均长度时间特征第一个四小时间隔第一个小时内评论之间的平均秒数第一季评论第一个小时内发表的评论数除以评论数拉斯图尔最后一小时的索引，包含至少1%的评论总数maxhourcomments评论活跃度最高的一小时内发表的评论数除以评论数最大小时评论活动最多的小时索引最大导数评论数对时间函数的导数的最大值极小导数评论数对时间函数的导数的最小值完整性指数该点的指数，以小时为单位，在此之后至少有一定比例的总评论被发布（对于5%，10%、25%、50%、75%、90%和95%）极值注释随时间变化函数中的最小值和最大值的数量，每小时表1：功能描述观点[7]。考虑到一个帖子涉及一个有争议的话题，许多用户实际上会参与讨论这些新闻机构拿起和报告的Buzz可以作为一个放大器的活动的现象，吸引额外的，潜在的共同被动用户参与[13，14]。因此，我们还测量了通常活跃的用户（旧用户）和以前没有积极参与该页面讨论的用户（新用户）以及新用户的百分比（新用户比率）。为了涵盖讨论中的参与度，我们计算了重复评论或回复同一帖子的用户数量（重复用户），然后将他们对帖子的评论数量除以所有用户对帖子的平均评论数量。为了反映Buzzes的时间属性，我们最后测量了讨论的不同时间属性。这些包括帖子发布后第一个小时内的交互频率（firsthourinterval），以及第一个小时内的评论数量（firsthourcomments）和讨论的高峰活动期间的评论数量（maxhourcomments），每个除以总活动。对于讨论似乎已经结束的Buzzs，我们测量其持续的小时数（lasthour），并通过以下方式估计累积活动分布：计算讨论的某些百分位数发生的时间（完成指数）。最后，我们通过计算极端情况的数量（每小时评论的最小和最大数量，极值）以及活动的最大和最小梯度（maxderivative，minderivative）来计算时间活动的简单统计数据。4研究和检测嗡嗡声为了研究Buzzes，我们首先使用逻辑回归来探索数据集。随后，我们训练常见的分类器，以证明自动早期检测的Buzz，后的可行性。4.1使用逻辑回归的探索将帖子分类为热点或非热点，我们有一个二分法的结果变量。因此，我们估计几个逻辑回归模型[12]。逻辑回归根据不同的解释变量估计结果变量发生的可能性回归描述为：Jzk= α +βjXjk（1）j=1在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1446e其中，α是Y截距，βs是回归系数，Xs是一组预测因子。α和β通过最大似然法估计发生可能性的建模不是基于线性回归方法，而是基于逻辑函数。其给出为：zπ（Y）=（1+ez）⑵其中π表示结果变量Buzz的概率。为了评估它们的依赖性，我们检查了所有解释变量之间的相关性，并获得了一组变量，其中相关性从不超过临界值（CMP.详情见表2我们测量估计模型的质量（cmp. 表3）使用伪R2，我们使用贝叶斯信息准则（BIC）来确定两个模型之间的改进[1]。考虑到功能的讨论，我们估计了第一个模型，仅包括功能模型1表明，当与之交互的新活跃用户的数量增加时，帖子更可能是Buzz。它已经表现出0.2007（cmp.表3）。当进一步分析第一个模型的结果时，我们发现它确实倾向于将名人的某些帖子以及现场问答会话和彩票分类为Buzzes。因此，我们扩展了第二个模型，每个评论的平均点赞数（评论点赞数）和原始作者在讨论中的评论数（作者评论数）。结果支持这种方法，第二个模型表现出轻微的正相关的两个功能与因变量，以及较高的伪R2的。25和轻微降低的BIC。两者都强调了热烈讨论的特点，对给出的评论的反应比非巴斯的情况更多。因此，我们可以说，通过添加这两个进一步的特征，我们获得了更好的结果，将帖子分类为Buzzes。为了反映在未预期的水平上的短暂活动的时间特征，我们通过讨论的最活跃小时（maxhourcomments）期间的帖子数量扩展了第三个模型。结果最初似乎违反直觉，因为该特征与因变量呈负相关。然而，它表明，Buzz在其存在的整个时间内收到大量评论，从而导致高峰和平均时间内的帖子数量之间的差异很小。对其他帖子的讨论往往表现出更多的差异，因此更明显的差异，产生更高的特征值。这一事实如图1所示。虽然所有帖子的活动在开始时都是最高的，但Buzz活动比非Buzz活动持续的时间更长，后者往往会在几个小时内消失。随着伪R2的增加和BIC的减少，我们得出结论，添加此功能有助于提高分类。最后，我们要测试整个活动是否包含支持信息。喜欢、分享和评论都是用于此目的的潜在特征。然而，测试它们的共线性，我们发现它们不是彼此独立的，因此只使用它们中的每一个。这些测试表明，评论的数量具有最高的解释力，因此我们将评论作为一个功能添加到模型4中。该第四模型最终产生最高的伪R2和最低的BIC。也反映我们的定义很好：它表明，整体的直接和间接活动以及与帖子的持续高水平互动，这也吸引了其他被动用户，这些都很好地定义了Buzz现象。图1：针对非蜂鸣器（虚线）绘制的蜂鸣器（实线）的注释进度随后的探索，我们应用第四个模型的初始分类实验的一个额外的，独立的测试集。这个测试集包括近24，000个帖子和20个Buzzes。表4总结了结果。π用作使用我们的逻辑回归模型进行分类的阈值。对于实验的不同π值，我们自然得到不同的选择0.2的相当大的π，仅识别八个蜂鸣器，而十二个标记的蜂鸣器被错误分类。只有六个帖子被错误地归类为Buzzes，尽管它们没有相应的标签。因此，大的π值产生超过50%的精确度和低于50%的召回率。另一方面，选择0.01的小π以较低的精度产生较高的召回率：20个蜂鸣器中有16个被正确识别，这意味着召回率为0。8. 不幸的是，假阳性的数量也相当高，这导致0的低精度。14.这支持了我们的期望，即一方面正确识别Buzzes，另一方面有大量的选择中间π值0。05导致更好平衡的结果在正确检测到的20个蜂鸣器中有13个，召回率相当高。65，并且假阳性的数量相对较低，精度为0。43.由于我们的数据集由于真实反映了现实而导致了关于嗡嗡声和非嗡嗡声的不平衡，我们必须注意到，标准逻辑回归被认为对此类罕见事件的研究仅具有有限的适用性。因此，我们还使用“relogit”函数[ 10 ]来估计模型在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1447新用户比率评论喜欢作者评论maxhourcomments评论新用户比率1.0000评论喜欢0.1209*1.0000作者评论0.0525*0.0518*1.0000maxhourcomments0.2136*0.1092*0.00491.0000评论0.0940*0.0609*0.1543*-0.0259*1.0000表2：特征相关矩阵（p 0.01（*））因变量：Buzz模型1模型2Model 3模型4新用户比率6.898*（11.90）7.490*（11.95）7.890*（10.44）5.909*（7.77）评论喜欢0.205*（7.56）0.247*（7.78）0.222*（6.72）作者评论0.136*（6.91）0.128*（5.03）0.110*（4.11）maxhourcomments-8.603*（-7.86）-4.521*（-4.66）评论0.0734*（13.52）恒定-11.46*（-22.19）-12.27*（-21.52）-10.39*（-14.40）-10.52*（-14.77）伪R20.20070.25180.38660.6113BIC1056.51012.9850.1571.2表3：使用logistic回归的模型（N = 94927）估计参数总结，p <0.01（*）。括号中的t-统计量;伪R2和BICπ= 0。01π= 0。05π= 0。2检测嗡嗡不嗡嗡召回检测嗡嗡不嗡嗡召回检测嗡嗡不嗡嗡召回观察Buzz没有嗡嗡声16964238670.800.996013177239460.650.99938612239570.400.9997精度0.14290.99980.43330.99970.57140.9995表4：逻辑回归结果罕见病例然而，比较各自的结果产生相同的质量或轻微的偏见，更高的召回率和更低的精度的情况下，重新登录。这种比较可以被认为是一个测试的鲁棒性，我们的结论是，即使是基于“logit”函数的结果是有效的一般。逻辑回归提供了对Buzzes所表现出的属性的深入了解，从而为决策者和业务分析师提供了有用的见解。考虑到我们得到的分类结果，我们看到仍然有一些改进的空间。4.2训练更多分类器为了验证我们的模型并研究分类任务的改进，我们还使用了更复杂的机器学习技术。随机森林[9]、支持向量机和AdaBoost[5]提供了最稳健的结果。我们使用传统的网格搜索优化了我们所有方法的超参数-通过在可能的超参数值的预定间隔中进行穷举搜索来确定参数的过程。在这个网格搜索中，我们分配了一个偏向回忆的偏好，因为避免假阴性的优先级高于避免了由于Buzz稀有而导致的误报在随机森林的情况下，我们随机选择了1600个非蜂群的子集，并在多次迭代中对结果进行平均，从而去除离群值结果，以说明蜂群是罕见事件的事实。训练随机森林，优化参数的结果显示，最相关的特征是评论，postlikes，postshares，firstlevel，回复，用户，newusers，repeatusers，paglikes和extremas。这再次反映了我们对Buzz的定义，即具有高活动性的帖子，并且观察到被动用户。AdaBoost和SVM使用了所有可用的数据和特征，以及缩放的参数。4.3结果和比较训练这些分类器，我们获得了更好的结果相比，逻辑回归（cmp。表5），如预期的那样。随机森林、Ad-aBoost和SVM都实现了Buzzes的高召回率，其中AdaBoost还实现了中等精度和Buzz识别的最高F1得分。在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1448随机森林支持向量机自适应增强检测嗡嗡不嗡嗡召回检测嗡嗡不嗡嗡召回检测嗡嗡不嗡嗡召回观察Buzz没有嗡嗡声18512239120.900.997918602239030.900.997516234239400.800.9990精度0.26090.99990.23080.99990.41030.9998F10.40450.99890.99840.36730.99870.99820.54240.99940.9990表5：使用另外的分类方法的结果5限制在不与以前的陈述相矛盾或抑制我们的结果的有效性的情况下，某些限制适用于本文中使用的方法和结果。这里提到的限制是我们所知道的。选择具有更高的Buzzes发生可能性的Facebook页面会对数据集产生偏差，其中Buzzes的数量被过度表示。这阻止了我们使用数据来推断Buzz的总体流行率，但应该不会对分类模型产生影响。除了页面选择之外，使用单个OSN可能会引起对我们结果的普遍适用性的例如，可以认为，其他OSN可以提供数据的附加维度或由于不同的操作方式（例如，不同的操作方式）而呈现不同的相关性。Twitter的功能非常不同，可能会导致不同的行为）。虽然来自更多来源的更多数据可能会改善我们的结果，但选择仅基于元数据的功能可以让我们具有一定的通用性，而Facebook在OSN中的采用最为广泛因此，它提供了迄今为止最大的用户群，据我们所知，它的受众在在线社区中的代表性不亚于其他OSN。除了我们为数据源所做的选择之外，数据量也总是一个可能的争论点。尽管我们收集了大量的数据，但由于它们的稀有性，我们只能识别出少量的蜂群在这种情况下，小样本量是不可避免的，我们的结果显示出很高的显着性。我们希望在这里解决的另一个问题是特征的选择，特别是我们将自己限制在元数据上的事实。Facebook不仅在公共页面中展示了丰富的线程数据，而且还展示了大量的结构和内容数据。然而，Facebook并不提供对所述数据的容易访问，特别是结构数据难以获得。这不仅限制了我们检索这些数据的努力，也使我们的结果不太适用，因为其他人可能也没有现成的数据。另一方面，与内容相关的数据打开了许多复杂的维度，这些维度很难解释并且需要大量资源，这再次限制了我们结果的适用性，并且也产生了完全不同的贡献。因此，我们将自己限制在元数据上的目标主要是为未来的研究和应用提供可用的结果。6结论这篇论文讨论的是Buzzes--一种植根于社交媒体的现象，在社交媒体上，帖子在很短的时间内受到了非凡的关注。媒体经常观察和讨论嗡嗡声，但据我们所知，从未对嗡嗡声进行过科学的定义或分析。观察到Buzzes对公众话语和意见有特殊的影响，我们断言，他们的早期检测是可取的，以帮助防止品牌损害，甚至诋毁个人和机构。它还可以帮助营销活动检测和利用积极的Buzzes。在讨论了与类似现象相关的Buzzes的合适定义后，我们分析了Facebook上的Buzzes收集和注释来自76个Facebook页面的超过100，000个帖子的大型数据集，我们仅对帖子的元数据使用逻辑回归来识别定义的特征，并可以帮助将帖子分类为Buzzes。结果表明，嗡嗡声确实具有在短时间内剧烈活动的特点–了解Buzzes的特点，我们随后的目标是通过训练知名的分类器来提供更好的早期检测。我们为他们提供了总体特征集合，而不是逻辑回归的手动选择因此，事实证明，与同一Facebook页面上的帖子的平均值相比，帖子接收的分享和喜欢的数量有助于增强分类。使用网格搜索训练随机森林和SVM立即产生了更好的召回率，并且应用自适应提升产生了最佳结果（使用F1分数测量）。我们看到了各种各样的场所，以扩大我们的工作在未来。在本文中关注Facebook页面之后，我们将探索其适用性，以考虑更多的结构化数据，包括个人的帖子和自我网络此外，对其他社交媒体的适用性，例如Twitter，Instagram和G+提出了有趣的问题。首先，它将有助于验证现象和我们的方法，它还可能揭示不同网站上讨论特征的相似性和差异性，侧重于不同类型的内容。最后，我们目前正在现场工作，而不是事后检测的嗡嗡声。引用[1] A. C. Cameron和P.K. 特里维迪微观计量经济学：方法与应用。剑桥大学出版社，2009年。在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1449[2] J. 成湖，澳-地Adamic，P.A. Dow，J.M. Kleinberg和J.莱斯科韦茨可以预测级联吗？在WWW，第925-936页[3] A. Deza和D.帕里克了解图像病毒式传播。在CVPR，第1818-1826页，2015年。[4] P. A. 道湖A. Adamic和A.弗里盖里facebook大瀑布的剖析In ICWSM，2013.[5] Y. 弗罗因德河Schapire和N.安倍一个简短的介绍来提升。Journal-JapaneseSociety For Artificial Intelligence，14（771-780）：1612，1999.[6] M. Guerini，J.Staiano和D.阿尔巴尼亚人探索图像病毒在谷歌加。在SocialComputing，第671-678页，2013中。[7] R. 霍尔特互联网上的对话：语言，公民身份和计算机介导的通信。格林伍德出版集团，2004年。[8] A. Kaltenbrunner河谷Gomez和V.洛佩兹slashdot活动的描述和预测。在Web会议，LA-WEB 2007。拉丁美洲IEEE，第57-66页。[9] H. T. 金随机决策森林在proc 第三届，加拿大蒙特利尔，1995年8月，第14-18页。[10] G. 国王和 L. 小曾。罕见事件数据的 Logistic 回归 Political analysis ， 9（2）：137[11] Z. Ma，A.Sun和G.Cong. 关于预测twitter上新出现的主题标签的受欢迎程度Journal of the American Society for Information Science and Technology，64（7）：1399[12] C.- Y. J. 彭，K.L. Lee和G.M. 英格索尔逻辑回归分析与报告简介。教育研究杂志，96（1）：3[13] A. 雷诺兹新闻影响图片的。媒介效应：理论与研究进展，10（1），2002年。[14] M. 罗伯茨， W 。 Wanta 和 T.H. D. Dzwo. 在线设置议程和突出问题。Communication Research，29（4）：452[15] G. Szabo和B.A. 休伯曼预测在线内容的受欢迎程度Communications of the ACM，53（8）：80[16] O. Tsur和A.拉波波特hashtag里有什么基于内容的微博社区思想传播预测 Web搜索和数据挖掘国际会议，第643-652页，2012年。

下载后可阅读完整内容，剩余1页未读，立即下载