在线社交网络和媒体中基于用户贡献的社会资本分析

41 浏览量更新于2023-10-15 收藏 522KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1457基于在线社交网络和媒体活动的用户贡献型社会资本分析塞巴斯蒂安·沙姆斯慕尼黑工业大学德国慕尼黑sebastian. in.tum.de扬·豪法慕尼黑工业大学德国慕尼黑hauffa@in.tum.de格奥尔格·格罗慕尼黑工业大学德国慕尼黑grohg@tum.de摘要为了提高在线社交网络和媒体（OSNEM）的通信质量，我们设想了一个系统，模型一个人的贡献社会资本（CSC），其中包括他们的能力，可信度和社会责任。具有可用的CSC分数可以激发社交行为和相互支持。该系统是基于三个支柱：OSNEM活动的分析，在虚拟社会资本市场系统的互动，和个人背书。在本文中，我们提出了我们的调查有关的第一个支柱。为了获得数据集，我们进行了一项实验，其中165名参与者在自定义社交网络平台上进行互动并相互评估地面实况数据来自这些评估。该数据集显示出与较大的OSN相似的特征通过不同的机器学习算法，我们研究了贡献型社会资本可以从网络属性和网络活动中提取的假设，这些网络属性和网络活动通过每个参与者的贡献数量等特征进行评估。贡献型社会资本的预测显示出比基线有所改善。参与者在预测的CSC分数之后的排名显示出与根据地面实况评估的排名的中等相关性。我们还研究了分析功能的相对重要性，以及排除不活跃用户以更好地了解微观层面上的网络动态的影响。所选功能也可用于大多数其他OSNEM平台，如Facebook和Twitter。这使得我们的调查的大规模应用。关键词网络分析;社交媒体分析;贡献型社会资本; OSNEM平台;信息抽取ACM参考格式：Sebastian Schams，Jan Hauffa，and Georg Groh.2018年。基于在线社交网络和媒体活动的用户贡献型社会资本分析在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，New York，NY，USA，8页。https：//doi.org/10.1145/3184558.3191593本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915931引言当人们交谈时，相当多的信息是通过非语言方式传递的。随着越来越多的互动发生在网上，一些非语言线索消失了。这使得评估交互伙伴变得更加困难，特别是在与匿名用户交互时，其动机是未知的。当前研究的一个目标是从不同的OSNEM平台提取和评估用户特征，从而有助于弥补这种信息不足。从在线数据源中提取的用户属性仍然相对较少研究，这是社会资本。社会资本有多种定义。Robison等人[21]将此归因于社会资本高度依赖于环境的性质，并认为社会资本的定义往往考虑到具体的应用。一般来说，可以区分两种类型的社会资本。第一个描述了社交网络在宏观层面上的属性。普特南在这方面给出了一个典型的定义，他将社会资本描述为“社会组织的特征，如网络、规范和社会信任，这些特征促进了互利的协调与合作。[18]或者，人们可以从个人（自我层面）的角度来看待社会资本，并描述他们周围的微观网络。例如，林将社会资本描述为“一个广泛的概念，通常侧重于通过成为社会网络的一部分而获得的价值，因此被称为社会资源的总和。”[16]在本文中，我们关注的是个人社会资本。但是，我们并不关注一个人通过成为网络的一部分而获得的社会资本，而是关注每个用户添加到他们的社会网络中的社会资本。Schams和Groh[22]将其描述为贡献型社会资本（CSC），它包括一个人因其能力，可信度和社会责任而产生OSNEM上的大多数交互都可以用这三个属性来知识和专长是能力评估的一部分，在对许多基于事实的讨论和贡献进行评估时，这一点是不言而喻的。可信度方面包括指导是否信任信息提供者的决定的信任和声誉最后，社会责任方面考虑到一个人通过帮助或分享信息对他人采取社会行动的意愿。信任和社会责任的加入是贡献型社会资本研究与纯粹的专家鉴定的区别。作为CSC的评估框架，我们设想一个系统，是基于三个支柱：社会网络分析，社会资本市场系统，以及个人和机构的认可。本文的重点在于第一个支柱：社会网络和社会内容分析。在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1458≥贡献型社会资本在第2节中，以前的工作对社会资本提取在线数据源进行了审查。完整的CSC评估系统在第3节中描述。第4节描述了我们进行的实验，以创建具有地面真实评估的社交网络数据集。第5节分析了该数据集。第6节提供了对未来工作的总结和展望。2相关工作据我们所知，目前还没有出版物涉及从在线数据源中直接提取社会资本或贡献性社会资本然而，可以认为CSC与其他属性有关，如专业知识，信任，声誉或影响力。在本节中，我们简要回顾了研究从不同在线数据源提取这些特征的出版物。详细的概述可以在先前的工作中找到[22]。2.1对社交网络平台的分析Hassan [11]研究了可能与影响力相关的网络特征。他列出了喜欢和朋友的数量作为特征属于“识别”类“活动生成”的类别包括诸如帖子的数量、在书面帖子上接收到的评论的数量、其他人对用户的帖子的分享的数量以及内链接的数量（用户或其帖子被引用的次数）之类的特征。用户包含外链（URL给出的来源的次数被Hassan列为“新颖性”类别。Rao等人提出了一种推断和不断更新用户影响力的方法。 [19]通过汇总来自不同社交媒体平台和其他来源的数据，他们训练了一种机器学习算法来计算Klout分数，据称该分数与用户的真实影响力相关。2.2微博客分析Anger等人[1]表明，在微博客服务Twitter上发现的不同用户统计数据的比率可以用影响力来解释在一组奥地利Twitter用户中，他们证明了，例如，高比例的转发和提及可以识别有影响力的用户。使用类似于Google的PageRank [ 17 ]的算法[25]确定了不同类别的有影响力的Twitter用户除了他们的TwitterRank算法之外，他们还研究了度中心性，PageRank和主题敏感的PageRank。Hadgu和Jäschke [10]使用支持向量机，分类和回归树和随机森林以及逻辑回归来识别Twitter上的专家他们使用了几个功能，如推文总数，追随者和朋友。还使用了配置文件信息和用户统计数据作为专业知识的基础事实，他们确定了科学家的概况，因为他们可以被视为各自领域的专家。分类的精度在0.88和0.96之间最有用的功能是推文的数量。2.3分析线程讨论板有关线程讨论板的出版物很少。然而，我们想向读者指出Richterich和Gilbert[7]讨论了Reddit的排名算法，Golbeck关于Slashdot[9]上信任的研究，以及Bouguessa等人讨论的方法。 [4]识别在线社区中的权威用户。2.4科学计量学分析在科学计量学中，一些最常用的衡量标准是衡量科学家重要性的指数赫希指数就是一个很好的例子。其定义如下：“[。. . 索引h[被定义为具有引用数h的论文的数量，作为表征研究人员的科学产出的有用指数。“[12]一个发表了许多只被引用一次的论文的科学家可能与一个只发表了一篇经常被引用的论文的科学家具有相同的h指数h指数的变体是Egghe的g指数[6]，或GoogleScholar提供的i10指数[3]。其他研究由Kas等人进行[14]，谁应用中心性措施的科学数据库，李等人，他在一个学术社交媒体平台上确定了有影响力的科学家[15]。总而言之，大多数相关工作使用经典的数据驱动方法，其包括从收集的社交媒体数据中提取相关特征，识别被假设为与所调查的特征相关的地面真值或直接对其进行手动标记，以及采用监督机器学习算法来预测特征。3贡献型社会资本体系正如在引言中所解释的，在每一次互动中，我们都会根据语言和非语言交流来判断对方。这评估通常在日常互动中自动发生，并可能通过过去的经验和他人的意见来了解[23]。作为增加CSC透明度的一步，我们提出了一个系统模仿这一过程。如前所述，它由三个支柱/三个主要信息来源组成：OSNEM中观察到的相互作用，CSC在社会资本市场中的积累，以及通过认证和认可证明的现实生活中的专业知识（见图1）。本文的重点在于第一个支柱不同的在线数据源▪ 社交网络平台▪ 微博▪ 科学计量▪ 线程讨论板市场活动中社会资本的转移和▪ 参与者拥有的虚拟货币▪ 通过接收这种货币，用户可以根据不同的主题建立社会认证和代言▪ 机构（例如，大学）▪ 其他参与者图1：CSC系统的三大支柱。本文重点介绍第一个支柱。在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1459一接收者B从在线数据源提取CSC因此，我们给出一个• α·CSCWi·∆SCC是受α在下文中更详细地描述了整个系统的概述和社交网络和α因子∆SCC。一、A CSCWi，以及转移资本的金额科.作为一个人的贡献性社会资本的衡量标准主题t中的一个人。系统水平的第一个支柱是从在线数据源可获得的大量数据第一步是确定相关数据源。贡献型社会资本关注的是一个人通过与其他网络参与者的互动，以分享知识和提供帮助的形式，为他们的社交网络增加的价值。因此，最相关的数据源侧重于交互，而不是个人信息。满足这些要求的五个数据源是：• 社交网络平台（如Facebook），• 微博客（如Twitter）、• 线程讨论板（如Quora或Reddit），• 科学计量学• 直接通信（如电子邮件）。电子邮件或Whatsapp消息形式的直接通信通常是私人的，因此我们不在本出版物中考虑在某种程度上，其他四个来源可以公开访问和调查CSC评估。可以根据特征来描述与数据源相关联的平台中的每个用户的交互。利用这些特征和反映用户的CSC的地面真值，可以调查是否可以利用机器学习算法提取CSC。类似的系统已被用于评估的影响，如Rao等人所示。CSC值可以沿着用户感兴趣的主题划分，以确定主题敏感的识别这些主题可以，例如，通过topic建模实现[2]。当将CSC分数分配给必须考虑的主题，用户可以权威地谈论他们的专业领域之外的事情。推断CSC的另一种方式是直接将主题分配给CSCW是一种市场系统的使用，在这种系统中，每个参与者都有一定数量的虚拟货币，我们称之为社会资本货币（SCC）。SCC在注册时分发或作为类似于基本收入的每月付款市场参与者可以自由转移货币一个人可以为信息或服务付费，在社交媒体平台上感谢他人的良好贡献，或者承认有益的社交行为。当进行交易时，发送者指定促使交易的接收者的社会行为的主题。的B术语∆SCC赋予较大的权重，即更重要的是交易。因子α的性质需要在未来的研究中确定，作为避免CSCW膨胀和保持小转移效果之间的折衷。第三个支柱包括认可和认证所反映的真实世界知识认证由机构、公司或政府颁发，并允许参与者在系统内复制现实世界的贡献性社会资本这种认证的例子是大学学位或完成在线课程。CSCW的增加量应取决于三个因素：获得学位所需的时间获得学位所需的技能具有可比背书的用户的CSCW（以提供参考框架其他人的认可是一个类似的过程，这给了复制现实生活中CSC的机会。在这种情况下，CSCW的增加应取决于背书人的CSCW该系统可以在网上互动带来的透明度的程度需要在几个实际的实验中进行调查。在本文中，我们分析了在线社交网络的提取重要的是要记住，这样的研究可能会给用户的隐私带来潜在的线索，同时也要记住这样一个系统的伦理含义。没有公开可用的数据集已经用适合于CSC的包含分析的地面实况注释。因此，我们进行了一项实验，目的是收集网络互动数据，并从参与者那里获得社会资本的真实情况。4构建社会网络数据集该实验是在2017年夏季学期技术学院的社会计算课程的实践部分进行的慕尼黑大学。参与是自愿的，但鼓励课程的学生这样做，因为他们将在课程的练习中使用匿名的数据摘录。这通常被认为比收件人分析人工社交网络超过400名学生课程，242注册到系统和165我们收集在货币SCC。A人员将∆SCC传输给B人员i，A的和CSCWA′are：SCCA′=SCCA−∆SCC（1）至少有一个由其他人进行的地面实况评估网络平台基于Elgg1，一个用于创建自定义社交网络平台的开源框架为用户提供了CSCWi′=CSCWi（二）类似于Facebook和Twitter的功能他们可以创造A有图片的个人资料，互相关注，写帖子或评论对于受体B，SCCB’和CSCWB’如下变化：SCCB′=SCCB+∆SCC（3）CSCWi′=CSCWi+α·CSCWi·∆SCC（4）自己或他人他们还可以“喜欢”帖子和评论，并发送私人消息。学生可以在社交网络平台上做出贡献-在学期中间的九周时间期间B BA这一次244个帖子，2868条评论，1930个关注关系，两个项对B的n w C S C W B ′有贡献• CSCWi是B在事务之前的CSCW。1https://elgg.org/···在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1460165名参与者创建了3651个赞用户可以自由地写他们想要的东西。为了鼓励讨论，讲座中给出了有争议的话题的不同对话开始：政治中的民粹主义，生活在慕尼黑，健康食品和可持续性。用户对这三个主题进行了积极讨论本文的作者没有参与实验，也没有对任何讨论进行评论或评论，以免影响网络的动态。观察到的行为类似于人们在Facebook或Twitter等平台上看到的行为。一些人讨论时事，另一些人发布有趣的内容、模因，有时还发布垃圾邮件般的消息或广告（例如，他们组织的大学活动）。4.1地面实况评估对于地面实况评估，学生被要求回答关于课程中其他学生的问卷他们会收到一份所有注册学生的名单，可以选择他们有信心评估的学生。共有165名学生进行了539次评估，平均每人3.3次评估。只有这165人被考虑进行进一步分析。问卷由8个问题组成，每个问题与CSC的三个假设影响因素之一相关：能力，可信度和社会责任感。所有评估都是按100个未标记步骤的比例制作的能力评估应与一个人在网络中表现出的知识和专长有关因此，我们要求在实验期间作为讨论启动器的三个主题中进行直接评估。对于这些问题，量表的左侧（0）被标记为“完全没有经验”，右端（100）被标记为“非常有知识”。信任评估的目的是评估一个人在多大程度上受到他人的信任使用了三个问题，这些问题受到Jones等人的研究的启发关于诊断信任[13]。他们通过对信任的总体评估，对另一个人关心另一个人的福利的信念，以及最后对这个人在多大程度上是公平和诚实的感觉来得出结论。CSC的第三部分，社会责任，评估了两个问题。第一个问题是关于这个人的环境友好性，第二个问题是关于他们的社会支持和参与程度。这八个问题为参与者提供了一个多方面的方法来评估他们的对手，个人特征比直接评估贡献的社会资本更容易评估问卷全文见附录A。通过对所有值求平均值来计算每人的单个CSC值。这被用作以下分析的基础事实。平均CSC值为64.0，标准差为11.5，最小值为29.8，最大值为94.8。分布如图2所示。特征平均值σ最小值最大值电话：+86-510 - 8888888评论17.4 39.6 0 47喜欢的文章（活跃）6.2 8.1 0 47喜欢的评论（活跃）15.9 49.1 0 581喜欢的帖子（被动）4.3 7.3 0 34喜欢的评论（被动）12.7 35.1 0 353对帖子的评论回复16.4 30.5 0 176已发送的消息收到的信息3.1 6.6 0 68关注11.7 12.0 0 104朋友13.6 31.4 0 347人物职位350.5 734.8 0 5331人物评论1790.53578.8 0 34696字符消息348.5 2458.9 0 30128表1：从社交网络平台收集的特征给出了每个人的平均计数，以及标准偏差和最小值和最大值。透露他们的年龄。国籍主要是德国（64.2%），8.5%来自印度，2.4%来自土耳其，其余24.8%来自其他27个国家。4.3 对网络的表1显示了这165人向组织战略网络捐款的平均数。它列出了相应的特征、它们的平均值（例如，每个人的职位数）、标准偏差以及最小值和最大值。所有收集的特征大致遵循幂律分布，即少数人对大多数贡献负责这在图3、4和5中针对书面评论、关注者的数量以及评论上收到的喜欢的数量进行了可视化这与我们在更大的网络中看到的一致[8，20]。地面实况大致遵循正态分布，如图2所示。这是从大量评价的平均值中可以预料到的。353025201510504.2参与者的人口统计165名学生中，男生占76.4%，女生占23.6% 平均年龄为23.2岁。18-21岁占35.2%，22-25岁占26-29岁为15.8%，30-35岁为3.6%。2.4%的人决定不做30 40 50 60 70 80 90地面实况图2：地面真值的分布·垃圾箱中的人数··在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1461605050404030302020十十十0电话：+86-0512 - 8888888传真：+86-0512 - 88888888评论数0电话：+86-0510 - 8888888传真：+86-0510 - 8888888在评论中获得点赞图3：网络评论贡献的直方图4035302520151050电话：020 - 406080100关注人数图4：关注者数量的直方图4.4研究的潜在缺陷数据集有几个潜在的缺点需要提及。大多数捐助者是受过大学教育的20至30岁的男生这并不代表总人口，尽管社交网络平台的用户主要在35岁以下，而且更常见的是男性[24]。165的样本量相对较小。数据收集和大学讲座的交叉可能导致了偏见。网络的参与是自愿的，不会以任何方式影响成绩。但是，我们不能排除有些学生只是因为希望给人留下好印象而以某种方式参与或贡献。在实验过程中，我们试图通过开放的沟通来对抗这种偏见关于地面实况评估，类似的偏差是可能的评估是保密的，从未向用户展示。但是，可能存在正偏差图5：网络中参与者在评论中收到的喜欢数量直方图因为学生可能不想消极地评价别人。在所有此类实验中，均可预期此类偏倚。与其他运行多年的OSNEM相比，九周的时间框架很短在解释研究结果5数据集中的CSC分析我们的分析的主要目的是调查的研究问题“一个人的贡献的社会资本可以近似基于他们在社交网络平台的互动？“. 为此，我们对整个数据集和活跃用户子集进行了两种不同的分析。5.1预测和与整个数据集的相关性两种不同的方法被用来测试的假设。第一个评估是基于与基线估计器相比的网络活动相关特征（参见表1）来预测贡献性社会资本分数用户组根据其预测的CSC分数进行排名，然后与基于地面事实的排名进行比较。5.1.1基于网络特征的CSC分数预测使用几种不同的算法进行评价：线性回归（直接使用表1中列出的特征进行正则化和不进行正则化），以及利用决策树、随机森林和神经网络的回归。我们对所有算法使用10折交叉验证神经网络在一个隐藏层中具有200个神经元，并且逻辑S形函数作为隐藏层的激活函数随机森林回归有十棵树，对树的最大深度没有限制。为了评估结果，将每个模型的预测的平均误差（预测的社会资本得分和真实值之间的平均差）与总是预测训练数据的平均真实结果垃圾箱中的人数垃圾箱中的人数垃圾箱中的人数·····在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1462算法平均绝对误差改进基线9.11线性回归9.03 0.8%线性回归正则化8.73 4.2%决策树8.45 7.2%随机森林7.57 16.9%表2：对于所有165个用户，与基线预测器相比，不同算法的性能。该改进通过算法优于基线的程度来算法平均绝对误差改进基线9.06线性回归9.86 - 8.8%线性回归正则化8.98 0.9%决策树7.94 12.4%随机森林7.20 20.6%表4：针对139个活跃用户的子集，与基线预测器改进通过算法超过基线多少来指示。算法 PearsonSpearman 线性回归0.24（ 0.0019）0.44（0.0001）线性回归<正则化0.29（0.0001）0.46（0.0001）决策树0.44（0.0001）0.41（0.0001）<<随机森林0.42（0.0001）0.41（0.0001）<<表3：预测排名与地面实况排名之间的相应算法的Pearson和Spearman相关性第一个值是相关性，括号中的值是p值。在表2中总结。最好的结果是随机森林回归，它比基线预测器的性能高出近17%。然后是深度为4的决策树。使用Lasso正则化的线性回归、神经网络和线性回归仅略优于基线预测器。5.1.2根据CSC对人员进行排名。对于排名任务，我们使用相同的算法来预测每个用户的CSC分数。然后根据预测值对所有参与者进行排名该排名与具有地面实况的排名之间的相关性用于评估预测的良好性结果总结在表3中。对于所有算法，我们可以观察到弱到中等的正相关性。p值表明所有算法在0.01水平具有统计学显著性使用算法决策树（r= 0.44）和随机森林（r=0.42）实现了最大的Pearson相关性，这两种算法在先前的分析中均实现了第二好和最好的改进。Spearman相关性最高的是正则线性回归（ρ = 0.46）。决策树和随机森林回归也显示出中度正相关（ρ = 0.41和ρ = 0.41）。线性回归和神经网络回归的情况特别有趣。两种算法在第一次分析中仅显示出边际改进。在排名中，他们证明了线性回归的r = 0.24和神经网络的r = 0.29的弱正相关性。这可能表明，算法根据CSC对人们进行排名比预测具体值更容易。算法Pearson Spearman线性回归0.22（0.0079）0.43（0.0001）线性回归正则化0.34（0.0001）0.46（0.0001）决策树0.53（0.0001）0.46（0.0001）随机森林0.59 0.0001）0.49（0.0001）<<表5：预测排名与真实排名之间的相应算法的Pearson和Spearman相关性。第一个值是相关性，括号中的值是p值。5.2预测和与活跃用户子集的相关性在165名参与者的数据集中，一些学生对社交网络的贡献很小因此，我们仅对活跃成员进行了第二次分析，以调查潜在差异。我们执行了与上一小节相同的两个评估，这次只针对至少写了一个帖子或评论并且至少与另一个用户成为好友的用户。这导致了139名活跃参与者的数据集。5.2.1基于网络特征的CSC分数预测。对于活跃参与者组，平均地面真实CSC值为65.0，因此略高于整个组的值64.0。所用算法的所有参数设置均相同。预测结果汇总于表4. 结果比整个数据集要好得多。随机森林回归（20.6%）和神经网络回归（19.7%）都导致了约20%的改进。决策树也表现出轻微的改善（12.4%）。简单线性回归算法的表现比完整数据集差，平均误差比基线预测值大。使用Lasso正则化，它的表现只稍微好一点。这指示当不活跃用户被排除时，网络特征与地面实况CSC值之间的关系可以不太好地由线性函数描述。5.2.2根据CSC对人员进行排名。根据预测的CSC分数对学生进行排名显示了类似的结果，如表5所示。所有算法将活跃的在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1463用户的CSC排名与地面真值正相关。用神经网络实现了最高的Pearson相关性（r = 0.63）。随机森林和决策树排序也实现大于0.5的值（r = 0.59和r=0.53）。用线性回归实现的r=0.22的相对弱的相关性再次指示地面实况与特征之间的关系很可能不是纯线性的。当使用Spearman相关性时，随机森林（ρ = 0.49）和神经网络（ρ = 0.47）也获得了最佳结果。然而，所有的相关值都更接近。5.3结果讨论当尝试预测CSC值时，使用活跃用户子集的实验产生了比基线预测器约20%的改进，并且在排名列表上的Pearson相关性值高达0.6。这些值表明，有可能从社交网络平台中存在的功能来预测贡献型社会资本。然而，这些值只是小到中等，并且可能由于实验的缺点而另外有偏差，正如我们在第4.4节中讨论的那样。因此，重要的是要谨慎使用，直到研究结果得到现有社交网络平台数据的大规模实验的支持。我们不知道有任何类似的实验分析社交网络中的贡献型社会资本，因此很难比较我们的结果的价值然而，人们可以提出其他几点意见：预测贡献型社会资本的最佳算法是随机森林（两个数据集的最佳结果）和神经网络，后者在活跃用户网络上表现也很好对于根据用户在整个数据集上的CSC得分对用户进行排名，我们使用决策树和随机森林回归（Pearson相关性）或具有和不具有正则化的线性回归（Spearman相关性）获得最佳结果。在活跃用户数据集上，神经网络和随机森林（Pearson相关性）分别给出最佳结果，随机森林和神经网络（Spearman相关性）。似乎通过对用户进行排名比通过预测具体的CSC值可以实现更好的结果。通过排除不活跃的用户，提高了分析的质量与预测任务的16.9%相比，这导致了20.6%的改善，并且Pearson相关性为0.63而不是0.44。还可以研究不同特征对于预测的重要性由于随机森林回归通常导致最好的结果，我们选择这个算法来讨论它们的相对重要性。如表6所示，五个最重要的特征是用户在他们的评论上收到的喜欢的数量、用户写的评论的数量、写的帖子中使用的字符的数量、帖子激发的评论的数量以及用户具有的追随者的数量。这五个特征占模型重要性的70%以上（当省略特征时预测误差增加[5]）。其中三个特征是用户从其周围网络获得的支持的指标，即接收到的喜欢、启发的响应和特征重要性累积喜欢的评论（被动）24.9% 24.9%评论15.0% 39.9%人物篇14.2% 54.1%评论回复11.0% 65.1%关注者7.5% 72.6%人物评论5.2% 77.7%喜欢的评论（活跃）4.9% 82.7%朋友4.4% 87.0%字符消息2.9% 89.9%喜欢的帖子（活跃）2.5% 92.4%收到的信息2.3% 94.7%已发送邮件2.1% 96.8%职位2.1% 98.9%表6：活跃用户数据集上随机森林回归的不同特征的相对和累积重要性追随者的数量评论的数量以及帖子的长度是用户参与的标志。其他参与方式，如关注其他人或喜欢其他用户的帖子或评论，对于CSC的预测不太重要帖子的数量和他们收到的喜欢是在列表的底部这可能是由于他们的数量相对较低（平均每人1.5个帖子和4.3个帖子）。6总结和展望在本文中，我们描述了贡献的社会资本，并提出了我们的愿景，一个系统，以确定它的基础上，社会网络活动，市场互动，和背书。此外，我们描述了一个实验，以调查CSC是否存在于社交网络平台中，并且可以用机器学习检测到。该实验产生了165名参与者的数据集，该数据集具有通过问卷评估的网络活动和地面真值。我们对整个网络和一个活跃用户子集进行了两种类型的分析第一项研究是基于网络活动预测CSC分数，并将其与简单的基线预测因子进行比较。第二个是根据预测的CSC值对人们进行排名，并将结果与真实排名相关联。有一个小的改进，关于预测和两个列表之间的中度相关性然而，由于实验的局限性，这只是OSNEM中CSC可预测性的一个证据，而不是一个明确的证明。为了解决我们的实验的缺点，我们建议在更大的社交网络平台上进行进一步的研究在未来的工作中，我们将调查CSC与虚拟货币的市场互动之间是否存在联系。····在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂1464A地面实况评估问题参与者可以通过八个问题来评估其他已知用户的能力，可信度和社会责任感所有评估均以0至100的量表进行A.1能力测评请评估此人政治中的民粹主义（例如，特朗普对墨西哥的隔离墙、欧洲的难民危机等）生活在慕尼黑（例如，体育和休闲活动，寻找负担得起的生活，在TUM讲座等）健康食品和可持续性（例如，卡路里计数、基因改变的营养、可持续性等）A.2信任评估请评估你对这个学生的信任程度你对这个学生的信任程度如何这个人在多大程度上关心你的福利-这个人在多大程度上是公平和诚实的-他们是否坚持自己的话，并使用健全的A.3社会责任请帮助我们了解所选人员的环境友好程度和社会参与程度。环境友好性（例如，支持环境保护机构、可持续食品、废物分类等）社会支持/参与（例如，支持友好团体，帮助其他学生/朋友/陌生人，支持老年家庭成员等）致谢非常感谢Christian Höfer，他帮助设计了实验，感谢DennisAssmann，他支持实验的监督，感谢Valeria Chernenko，他支持分析。感谢所有参与的学生引用[1] I. Anger和C.基特尔2011年。衡量Twitter的影响力第11届知识管理与知识技术国际会议论文集- i-KNOWhttps://doi.org/10.1145/2024288.2024326[2] D. M. 布莱2012年。概率主题模型。Commun. ACM 55，4（2012），77-84.[3] Google Scholar Blog. 2011. Google Scholar Citations 向所有人开放。（2011年）。2018年1月31日检索自https://scholar.googleblog.com/2011/11/google-scholar-citations-open-to-all.html[4] M.布盖萨湖本·罗姆丹2015.识别在线社区中的权威。 ACM Transactions onIntelligentSystemsandTechnology6，3（2015），23.https://doi.org/10.1145/2700481[5] L. 布莱曼2001年随机森林马赫学习. 45、1（Oct. 2001），5https：//doi.org/10.1023/A:1010933404324[6] L. 埃格2006年g指数的理论与实践Scientometrics69，1（2006），131https://doi.org/10.1007/s11192-006-0144-7[7] E. 吉尔伯特2013年。Reddit上的普遍供应不足Proceedings of the 2013Conference on Computer-Supported Cooperative Work（2013），803-808.https：//doi.org/10.1145/2441776.2441866[8] M. Gjoka，M.库朗角T. 巴茨和阿西娜·马科普卢2009年Facebook中的散步：在线社交网络中用户的统一抽样CoRRabs/0906.0060 （2009 ）。arXiv：0906.0060http://arxiv.org/abs/0906.0060[9] J. 戈尔贝克 2009 年计算与社会信任。 287 https://doi.org/10 。 1007/978-1-84800-356-9_11[10] A. T. Hadgu和R.耶施克2014年识别和分析twitter上的研究人员。在CEURWorkshop Proceedings ，第 1226 卷中。 164-165. https://doi.org/10 的网站。1145/2615569.2615676[11] S. 哈桑2013年。确定衡量社交媒体影响力的标准10，1（2013），86-91.[12] J. E. 赫希2005年量化个人科研成果的指标Proc Natl Acad Sci U S A102，46（2005），16569https://doi.org/10.1073/arXiv：physics/0509048[13] S. L. Jones和P.普拉丹·沙阿2015年。诊断信任的轨迹：委托人，受托人和二元影响的时间视角对感知的信任度。应用心理学杂志（ 9 2015 ）。https://doi.org/10.1037/apl0000041[14] M. Kas，K.M. Carley和L.R. 卡莉2012年。科学网络的趋势：了解科学网络的结构和统计 Social Network Analysisand Mining 2，2（2012 ），169-187.https://doi.org/10.1007/s13278-011-0044-6[15] N. Li和D.吉列2013年。在学术社交媒体平台上识别有影响力的学者。Proceedings of the 2013 IEEE/ACM International Conference on Advances in社交网络Analysis and Mining-ASONAMhttps://doi.org/10.1145/2492517.2492614[16] N. 是林书2002年《社会资本：社会结构与行动理论》，2001年。278页。北京大学出版社.[17] L. Page，S.布林河Motwani和T.威诺格拉德一九九九年。首页>外文书>社科>社会>The PageRank Citation Ranking：Bring Order to the Web 技术报告1999-66。斯坦福信息实验室。http://ilpubs.stanford.edu:8090/422/先前的编号= SIDL-WP-1999-0120。[18] R. D. 普特南一九九五年独自打保龄球：美国 Journal ofdemocracy 6（1995），65-65.[19] A. Rao ， N.Spasojevic ， Z.Li 和 T.DSouza 2015 年。 Klout Score ： MeasuringInfluenceAcrossMultiple社交网络.（2015），8.http://arxiv.org/abs/1510.08487[20] T. 拉斯托吉 2016 年。估计虚假社交网络帐户的幂律方法。CoRRabs/1605.07984（2016）。http://arxiv.org/abs/1605.07984[21] L.J. Robison，A.A.Schmid和M.E.Siles 2002 年社会资本真的是资本吗ReviewofSocialEconomy60，1（2002），1-21.https://doi.org/10.1080/00346760110127074arXiv：https://doi.org/10.1080/00346760110127074[22] S. Schams和G.Groh. 2018年。不同类型在线数据源的社会资本提取。提交（2018）。[23] B. 崔西. 2004年销售心理学托马斯·尼尔森。 https://books.google的网站。de/books？id=8np-oAEACAAJ[24] TUG 2017。截至2017年1月，Facebook全球用户的年龄和性别分布（2017年）。2018年1月28日检索自https://www.statista.com/statistics/376128/facebook-global-user-age-distribution/[25] J. Weng、黄毛叶蝉E.Lim，J.Jiang和Q.他外2010年。Twitterrank：寻找话题敏感的有影响力的Twitter用户。Proceedings of the Thi

下载后可阅读完整内容，剩余1页未读，立即下载