在线社交网络中信息获取的努力中介

104 浏览量更新于2023-12-04 收藏 899KB PDF 举报

在线社交网络

网络位置

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+Ⓧ在线社交网络中信息获取的努力中介JEON-HYUNG KANG和Kristina LERMAN，南加州大学信息科学研究所在社交网络中，个人对信息的访问取决于信息的分布方式以及个人在网络中的位置。此外，每个人在管理社会关系方面投入的努力也各不相同。使用来自社交媒体网站的数据，我们研究了努力和网络位置之间的相互作用如何影响社交媒体用户先前关于网络在信息获取中的作用的研究在衡量多样性的能力方面受到限制。3的信息。我们通过从社交媒体用户与追随者在线分享我们使用学习的主题来衡量用户从他们在网上关注的人那里获得的信息的多样性我们确认，用户在结构上不同的网络位置，桥梁，否则断开区域的追随者网络，往往会接触到更多样化和新颖的信息。我们还表明，用户谁投资更多的努力，在他们的活动在网站上不仅位于网络中的结构更多样化的位置比参与度较低的用户，但也收到更多的新颖和多样化的信息时，在类似的网络位置。这些发现表明，网络结构和网络信息获取之间的关系比以前认为的更加微妙。CCS概念：网络→社交媒体网络;在线社交网络;附加关键词和短语：社交网络、社交媒体、概率主题模型、网络中的信息ACM参考格式：姜全亨和克里斯蒂娜·勒曼2017.努力在在线社会网络中对信息的获取起中介作用. ACM Trans. Web 11，1，Article 3（March 2017），19 pages.DOI：http://dx.doi.org/10.1145/29905061. 介绍人们利用他们的社会联系来获取新信息，他们可能会利用这些信息来获取个人利益[Granobletter 1973; Burt 2004]。社交网络中的信息是不均匀分布的，这使得社会学家们开始研究个人的网络地位与他或她通过社交接触所接收到的信息的新颖性和多样性之间的关系对社会和组织网络的研究发现了所谓的经纪人职位的重要性，这种职位将个人与原本没有联系的人联系在一起[Granadotter 1973; Burt 1995，2005; Aral and Van Alstyne2011]。通过跨越（或桥接）不同的社区，经纪人职位使人们接触到新颖而多样的信息，这带来了新的工作前景[Granobartter 1973]和更高的薪酬[Burt 1995，2004]。但社会这项工作得到了空军科学研究办公室（合同FA 9550 -10-1-0569）、国防高级研究计划局（合同W 911 NF-12-1-0034）和国家科学基金会（基金CIF-1217605和SMA-1360058）的部分支持作者 H. 康（当前地址），谷歌， 1600 圆形剧场公园路山景城， CA 94043; 电子邮件：jeonhyungkang@gmail.com; K。Lerman，USC信息科学研究所，4676 Admiralty Way，Marina del Rey，CA 90292;电子邮件：lerman@isi.edu。允许制作部分或全部本作品的数字或硬拷贝供个人或课堂使用，不收取任何费用，前提是复制品不以营利或商业利益为目的制作或分发，并且复制品在第一页或显示器的初始屏幕上显示此通知以及完整的引用。本作品的版权归ACM以外的其他人所有，必须予以尊重。允许使用学分进行摘要复制，再版，张贴在服务器上，再分发到列表，或在其他作品中使用本作品的任何组成部分，需要事先特定的许可和/或费用。可向出版部索取，ACM，Inc.2 Penn Plaza ， Suite 701 ， New York ， NY 10121-0701 USA ，传真： 1 （ 212 ） 869-0481 ，或permissions@acm.org。c 2017 ACM 1559-1131/2017/03-ART3 $15.00DOI：http://dx.doi.org/10.1145/2990506ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月3：2J. - H. Kang和K. Lerman将经纪人职位上的个人与网络中的其他人联系起来的联系通常代表较弱的、更随意的关系[Granlitter 1973; Onnela et al. 2007]。沿着这些“弱”联系的不太频繁的互动限制了流向个人的信息量[Aral and Van Alstyne 2011]。因此，那些能够并愿意在社交互动中投入更多精力的人将管理更多的社交关系，从而增加他们通过这些关系获得的信息量[Aral andDavid 2012; Miritello et al. 2013 b]。具体来说，Aral和Van Alstyne表明，个人可以通过将自己置于经纪人的位置或通过更频繁地与他们的社会联系人沟通来增加他们通过电子邮件接收的信息的多样性和新颖性[Aral和Van Alstyne 2011]。与电子邮件和电话交互相反，其中信息在一对社交联系人之间交换，社交媒体用户向他们所有的联系人广播信息。Bakshy et al. [2012]表明，弱关系共同向Facebook用户提供更多的新信息，尽管这些关系中的互动不频繁这些发现表明，社交媒体用户增加获取新信息的一个简单方法是建立更多的联系，例如，通过关注更多的然而，认知（和时间）约束限制了个体2014年]。此外，社交媒体用户在他们愿意花费在参与网站上的社交互动上的努力方面差异很大，这包括策划社交联系人、消费内容和生成新内容。作为某些任务所需努力的代理，研究人员使用人们产生或检查的项目数量：例如，他们在信息检索任务期间检查的搜索结果数量[Cooper 1968]，他们在数据输入任务期间输入的数字数量[Healy et al.2004]，他们在数据链接任务期间检查的记录数量[Wu et al. 2014]，或者在搜索过程中输入的单词数量[Gonza'lez-Rubi oetal. 2010年]。遵循这一传统，我们通过用户在网站上的活动来衡量用户的努力程度，特别是用户发布的帖子数量。该指标通常在社交媒体网站上具有非常偏斜的分布[Wilkinson2008]，反映了用户在参与网站上所花费的努力的巨大差异。根据这一衡量标准，大多数人表现为临时用户，很少付出努力，很少参与网站，而少数人是高级用户，在网站上投入大量精力。这种变化对个人所收到的信息及其在网络中的地位的影响尚不清楚。那些能够（或者至少愿意）在网站上更活跃的人会收到更多样化和新颖的信息吗？他们是否精心策划自己的社会关系，使自己进入提供更多新信息的网络位置？在这项工作中，我们使用来自微博客网站Twitter的数据来研究网络结构之间的相互作用，人们愿意投入精力与网站互动，以及他们从联系人那里获得的信息的新颖性和多样性。先前关于网络在个人获取信息中的作用的研究在测量信息多样性方面能力有限，例如，使用词袋[Aral and Van Alstyne 2011]或预定义类别[Kang and Lerman 2013 b]。相比之下，我们使用社交媒体中信息共享的概率主题模型从社交媒体用户在线共享的消息中学习他们感兴趣的主题。我们在第3节中介绍了该模型，并在预测用户将转发的消息（即，重新分配）。我们证明，该模型具有竞争力的性能，而且，产生的主题的描述。我们使用学习的主题来衡量人们从他们的联系人（即他们关注的人）那里这使我们能够研究网络结构和信息之间的我们的研究结果，在第4节中介绍，ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月网络中的信息获取三这表明网络结构和信息获取之间的关系比以前认为的更加微妙。首先，人们不能通过增加社会接触的数量来增加他们所接收的信息的多样性。其次，我们确认，人们在结构上不同的网络位置，桥梁，否则断开区域的追随者图，暴露于更多样化的主题，通过他们的接触比人在结构上不太多样化的位置。然而，我们证明，努力是一个重要的变量调解获得新颖和多样化的信息。在Twitter上发布许多消息的活跃用户往往比不活跃的用户收到更多新颖和多样化的信息这表明，那些愿意（或能够）在Twitter上参与更多活动的人会管理他们的由于努力是个体在社交网络中处理信息的认知能力（或至少是投入时间的动机）的有用代理2. 数据描述Twitter是一个在线社交网络和微博服务，允许用户跟踪其他人的活动，以查看他们最近发布（推文）或转发的消息当用户发布或转发消息时，它会广播给他或她的所有追随者，然后他们能够在自己的流中看到它。Twitter提供了一个用于数据收集的应用程序编程接口（API）我们使用了过去从Twitter收集的两个数据集2012年的数据集[Kang andLerman 2015]包含了从2011年11月到2012年7月在社交网络上传播的推文，其中包括一个URL来监控信息。这些数据是通过从流媒体API中监控包含http://t.co潜在种子URL并收集包含它们的所有推文来由于包含URL的推文总量非常大，因此他们专注于广泛共享的URL。他们选择了在流媒体API中首次出现的5天内出现一次以上的URL作为种子，这是基于在流媒体API中出现频率更高的URL在Twitter上更受欢迎的启发他们收集了这些种子URL的整个历史记录，直到在它们最后一次出现在Twitter RESTAPI中的 5天内没有更多的tweet包含它们这产生了来自950万用户的1250万条推文2014年的数据集包含来自5,600个初始种子用户的推文[Smith et al.2013年]和他们的朋友从2014年3月到2014年10月从5,600名初始种子用户开始，他们收集了这些用户关注的所有用户帐户，以及每个帐户时间线上至少前200条推文。该数据集包括来自190万用户的2380万条推文，其中有1780万条社交网络链接。3. 社会媒体的概率主题模型我们使用一个概率主题模型来学习用户用户分享哪些信息，朋友分享哪些信息，也就是他们关注的用户，他们决定与自己的关注者分享，这取决于许多因素，包括用户是否看到信息，其主题以及用户及其关注者的兴趣社会推荐[Ma et al.2008;Wang和Blei2011; Kang等人2013]用于表示用户的兴趣和项目的主题（即，消息），它们作为K维主题向量共享。一旦从用户的转发历史中学习到这些隐藏的主题向量我们提出了VIP模型[Kang和Lerman2015]来捕获三个基本的社交媒体上信息共享的要素：项目它的有趣性或病毒性，以及它与用户的个人相关性可见度模型ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月三J. - H. Kang和K. LermanFig. 1. 社交媒体的VIP主题模型。观察到的变量是项目采纳，或转推（r），和转推项目的单词w该模型规定项目采用由项目对用户的可见性（v）、其个人相关性（δ）和适应度（η）共同确定The “law of surfing”parameters (相关性由隐藏的用户主题（u）和项目主题（θ）配置文件确定。项目Z表示分配给每个观察变量w的主题，α是分布的超参数其他超参数是σθ、σu和ση。K是主题数，N是用户数，D是项目数。用户是否首先看到信息;病毒式传播描述信息在曝光后传播的容易程度;相关性描述信息与用户兴趣的匹配程度。虽然VIP改进了以前对在线传播的信息进行建模的方法，但它有许多缺点：（1）它对二进制项采用进行了建模（即，转发）使用正态分布;（2）它使用了完整的用户项采用矩阵，这在计算上是低效的;以及（3）它没有提供潜在主题的描述。在本文中，我们改进了模型，以解决所有三个缺点。首先，我们用多项逻辑模型而不是正态分布对社交媒体用户的二元行为（转发与未转发的项目）进行建模其次，我们使用随机优化来从随机抽样的负面（非转发）和正面（转发）二元组中学习，而不是使用完整的用户-项目采用矩阵，而不会过度拟合正面二元组。我们的随机推理算法处理许多用户-项目的二元组，并可以分布有效的计算。此外，在概率主题模型的帮助下，我们可以提供一个可解释的低维信息表示，作为与这些主题相关的最可能的单词。图1用图形表示了我们的模型。该模型捕捉了导致用户在社交媒体上转发（r该模型还包括共享信息中包含的单词W，允许我们学习描述性主题。项目可见性。来自用户的朋友的消息作为项目列表被递送到用户的社交媒体流。用户更有可能关注列表顶部附近的项目，而不是流中更深处的项目[Lerman and Hogg 2014]。因此，在顶部流位置中的项目比列表中较低的项目具有更高的可见性。对一个条目的可信度或者说用户看到该条目的概率进行建模使我们能够从用户没有转发的条目中学习，也可以从他或她转发的条目中学习。缺少响应可以用两种方式来解释：用户看到了项目，但没有ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月网络中的信息获取三.=+=−+η我θ虽然其他模型使用平滑部分解释了对无响应知识的缺乏[Wang and Blei2011; Kang andLerman2013 a]，但我们使用可见性来估计缺乏响应可归因于用户没有看到项目的概率。在我们收集的数据中，我们不知道物品的确切位置，因此，我们无法计算其可见性。相反，我们估计项目对用户的平均可见性，并将此值分配给每个项目。平均可见性取决于用户流中积累的新项目的数量项目对用户i的平均可见性如下：vi<$G（1/（1 + ρi），L）（1 − IG（μ，λ，L））.（一）L第一个因子给出了用户i发现一个项目的概率，这取决于她的流中新项目的数量。用户在两次访问站点之间收到的新项目数量越多，用户查看任何特定项目的可能性就越小。因此，平均可见度取决于用户访问站点的频率朋友向用户的流发布新项目的速率与他或她访问流以查看项目的速率之间的这种竞争通过具有成功概率p的几何分布来建模 1/（1ρi）：G（一）p）Lp，其中L表示发现项目所需的伯努利试验次数。这些速率的比值ρi给出了用户流中新条目的预期数量除了列表的长度，我们还需要捕捉用户在列表中导航的深度，以发现较低位置的项目。等式（1）中的第二个因子给出了用户将导航到流中的至少第（L1）个位置以观看项目的概率。这通过具有平均值μ和形状参数λ以及方差μ3/λ的逆高斯IG的上累积分布来估计，. −λ（L − μ）2 λ2μ2L（1/2）（二）参数μ和λ被称为“冲浪定律”参数[Huberman et al. 1998年]。项目病毒。社交媒体用户转发条目，即使他们之前没有表现出对他们的主题的持续兴趣。这通常是病毒式的，普遍感兴趣的项目，如突发新闻或名人八卦的情况。因此，我们使用ηj<$N（0，σ 2）.（三）项目相关性。用户可能会转发一个主题与他或她的兴趣很好地一致的项目。我们计算项目j与用户i的个人相关性为δij<$gδ（uTθj），（4）其中，符号T表示转置操作，ui表示用户i的主题简档，θj表示项目j的主题简档，并且为了简单起见，gδ是线性函数ui<$N（0，σ2IK），uθj<$N（φj，σ2IK），（五）ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月exp2πL3.三J. - H. Kang和K. Lermanu.exp（v g（δ +η））irilllOiηθ我=∼N=+中国22σ∼uη其中K是主题的数量，φj是基于推文文本的项目我们假设项目j的主题轮廓θj接近主题比例φj，但基于用户的转发行为偏离它。现在我们将描述如何得到φ以提供信息的可解释表示。我们使用一个广为人知的文本挖掘算法，潜在狄利克雷分配（ LDA ） [Blei etal.2003]，其分析文档中单词的共现，以学习表示项目的隐藏主题。在我们的例子中，LDA捕获项目每个项目的主题分布（φdj）是多个主题的混合，每个主题（βk）是词的分布。在我们的设置中，语料库D是tweet的集合D的可能性被计算为所有项目和每个项目中的所有单词的乘积：p（D|β，φ，z）=. .φd j，zwβzw，w，（6）dj∈Dw∈dj其中zw是为文档dj中的每个词w分配的主题索引，φdj，zw是为项目dj选择主题zw的可能性，βzw，w是为主题zw选择特定词w的可能性。通过社交流的项目采用或转发的生成过程可以形式化如下：对于每个用户，我的天啊。N（0， σ2IK）生成vi对于每个项目jL（G（1/（1+ρi），l）（1−IG（μ，λ，l）生成ηj（0，σ2）生成φjDirichlet（α）生成<$j（0，σ2IK）并设置θj <$jφj对于每个单词wjm生成主题分配zjmMult（φj）对于每个用户生成单词wjmMult（βzjm）对于流中的每个项j，生成采用r ijp（I（r ij））|u i，v，θ，η，O i）我们使用Softmax函数对用户项采用进行建模，这使得K维向量的值公式如下：p（I（r ij）|u i，v，θ，η，O i）=exp（vigr（δij+ηj）），（7）∈其中I（rij）是指示函数，当用户i转推项目j时，I（rij）为1，否则为0，Oi是用户i观察到的项目。为了简单起见，我们将gr定义为线性函数。主要目标函数如下：N D1 .一、1 .一、4=−uT ui−ηjTηj2 σ 2i2 σ2jD-一个（θ j− φj）T（θ j− φj）θjACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月我网络中的信息获取三NND⎝⎝==| |2 |R|σiu| || |||·.=−exp（vi（δil+ ηl））<$− vi（δij+ η j）<$.∈我−我J+的版本。我日志. .LL（1/ρi+ 1）（ρi/ρi+1）l（1−IG（μ，λ，l）<$（八）. .好吧⎞⎞方程的最后一项使二进制评级和预测评级之间的误差最小化。等式的第二行将解释推荐的主题与内容之间的误差最小化这两个分量之间的重要性可以用σθ来控制。最大后验（MAP）估计等价于在给定σu、σθ、ση、μ、λ、ρ和r的情况下使U、V、θ、η和φ的完全对数似然（4）最大化。3.1. 模型学习为了优化方程（8），我们开发了随机梯度下降算法。给定当前估计，我们取方程（8）关于ui、θj和ηj的梯度，并迭代地优化参数{ui，θj，ηj}。导出的更新方程如下：算法1：随机优化初始化模型参数U、V、θ、η、φ，对于t1到T，对于U，从D-ri中随机选择ri迷你批Si生成Oi ri SiforjinOidou i←u i−μ[v jθ j<$+12ui]θj←θj−μ[viui<$+12（θj−φj）]2 |r·j|σθηj←ηj− μ [vi <$+12ηj]首尾相接端2|r·j|ση其中ri是用户i转推的项目的数量，并且rj是转推项目j的用户的数量。我们通过添加来自非转推集合（D-ri）的随机采样的ri个项目并且从每个用户的非转推和转推项目集合递增地学习来生成观察项目集合Oi我们使用学习率μ，在每次迭代中折扣0.9倍[Koren et al.2009年]。梯度（α）的公式如下：exp（vigr（δij+ηj））lOexp（vigr（δil+ηl））I（rij）的。（九）给定{ui，θj，ηj，β}，我们还可以使用詹森不等式更新主题比例φj在本文中，我们通过使用随机LDA [Hoffman et al.2010]学习LDA参数来分离学习过程，而不是更新LDA参数，并专注于学习适应度和相关性参数。请注意，对于可见性（v），我们不学习“冲浪定律”参数（μ和λ），因为它们同样适用于所有用户来对列表浏览进行建议的推荐模型可以增量更新，以模拟动态用户转发，ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月∇日志l∈Oi三J. - H. Kang和K. Lerman=-我η==-}∈=×∈我D我IJ我我JJ表I.本研究中使用的模型参数参数值一些议题K= 100用户主题配置文件项目主题配置文件项目适合度σ2=104uσ2=104θσ2=10η冲浪定律μ= 14。0λ= 14。0浏览次数38典型过帐费率1.4实时它也是计算效率高的，因为它可以通过在多台计算机上分解数据集来分发3.2. 模型选择我们使用相同的“冲浪定律”参数μ 14。0和λ 14。0，正如Kang和Lerman[2015]， Hogg等人[2013]以及Hogg和Lerman[2012]在他们的社交媒体研究中所做的那样。包括用户i收到的URL在内的新帖子的预期数量，ρi，通过速率（接收的URL帖子）/速率（访问）计算。比率（收到的员额）是成比例的我我我用户i关注的朋友的数量（Nfrd（i））和他们的平均活动。为了估计所有用户的活动，我们使用来自我们数据的用户的典型URL发布率：rate（postsreceived）= 1。4Nfrd（i）。我们使用以下公式估计用户i用户i的帖子数量（N个帖子（i））。Hogg等人[2013年]估计，Twitter用户每篇帖子的访问量为38次（2014年数据集）。此外，由于大约20%的推文包括URL [Chaudhry et al.2012]，则用户i的发帖速率变为速率（visits）7。6N职位（i）（2012年数据集）。对于模型超参数，我们改变参数K {10，30，50，100，200}和{λu，λ θ{10 −4，10−3，...，104}通过在验证集上使用网格搜索。在本文中，我们设置参数K 100，λu0。01，λ θ0。001，对于PMF和CTF，对PMF表现最好对于VIP [Kang和Lerman 2015]和所提出的模型的适应度参数，我们改变σ2∈ {10 −4，10 −3，.，104}，而我们修复其他参数为σ2=104和σ2=104。在本文中，我们设置σ2=10。模型参数θ u η在表I中进行了总结。3.3. 模型评估我们评估所提出的模型，使用它来预测哪些项目的用户将转推。对于该任务，用户iE [R] ij D] E [v i D] T（E [δ ij D]+ E [η]|D]）|||rv（uTθ+η），（10）其中是训练数据。采用概率由用户可见度vij、使用主题属性eij、主题属性eθj和项目适应度ηj决定。为了评估性能，我们使用精确度（P）、召回率（R）和归一化贴现累积增益（nDCG）来评估前x个推荐帖子。P@x。Precision@x计算列表中前x个项目中每个用户转发的项目的比例。我们平均所有用户的精度@x。ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月网络中的信息获取三=表II.在Twitter数据集上使用Precision@x（P@x）、Recall@x（R@x）、Normalized DCG@x（nDCG@x）进行整体预测性能R@x。Recall@x计算每个用户在所有转推项目中成功发现的前x排名列表中的转推项目的比例。我们平均所有用户的召回@xnDCG@x。归一化折扣累积增益@x根据前x列表中的位置计算转推项目的加权得分它会对top-x列表底部的转发项进行惩罚。我们平均所有用户的nDCG@x我们将每个用户转推的项目分为五个部分来构建训练集和测试集。我们使用五重交叉验证，并将所提出的模型的性能与五个基线模型进行比较：RANDOM，FITNESS，RELEVANCE，VIP和 CTR。RANDOM基线从用户i的流中随机选择项目，即i的朋友推的基线FITNESS使用由VIP学习的项目适应度值（η）来推荐k个最高适应度项目。基线RELEVANCE基于PMF学习的用户主题和项目主题向量提出协作主题回归（CTR）[Wang andBlei2011]最初被引入用于推荐科学文章。它结合了协同过滤（PMF）和概率主题建模（LDA）。它从用户-项目采纳矩阵和项目内容中捕获两个K维低秩用户和项目隐变量该模型使用文本信息和负二进制，但与我们的方法不同，它使用42函数而不是Softmax。为了进行公平的比较，我们实现了Softmax版本。根据我们的实验，由于社交媒体的二进制采用，Softmax-CTR优于原始CTR。表II显示了模型在用户项目采用预测任务上的总体表现。在本文中，我们设置x10，因为推荐太多的项目是不现实的。从我们的实验中，我们发现，结果是一致的，不同数量的K.虽然nDCG@x使用正确答案在前x排名列表中的位置，但它不会惩罚前x排名列表中未转发的项目或丢失的转发项目，因此必须同时考虑所有三个度量的性能。直觉上，更好的模型应该具有更高的P@x、R@x和nDCG@x。实验结果表明，该模型在查准率和查全率上分别比随机模型提高了135.61%和87.85%。与随机模型的比较对于揭示后推荐任务的复杂性很重要。FITNESS和RELEVANCE模型的精度分别比随机模型提高62.21%和33.95%，在召回方面，分别。VIP比RELEVANCE的准确率和召回率分别提高了52.08%和47.06%; CTR比RELEVANCE的准确率和召回率分别提高了61.82%和39.28%。这表明，考虑到认知偏见，可以提高社交媒体中用户项目采用的可预测性，就像单独考虑项目的文本描述一样。在所有模型中，该模型产生最好的性能，表明建模文本，以及可见性，在社交媒体推荐应用程序中是至关重要的。ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月三点J. - H. Kang和K. Lerman.=-−=−表III.研究中使用的变量变种描述S网络规模（活跃好友数量）ND网络分集O努力（平均）每日发布的推文数u用户主题向量。（k维向量）FTD朋友话题多样性（Friend Topic Diversity）4. 网络环境下的信息存取我们使用上述模型学习的主题来研究信息如何在网络中分布，以及用户的网络位置与他们从社交媒体朋友那里获得的信息之间的关系为了包括用户发布的消息，以及他们转发的朋友的消息，我们通过为每个原始消息分配等于1的可见性来4.1. 变量的定义继Aral和Van Alstyne[2011]和Aral和David[2012]之后，我们定义了一组变量来表征用户，他们的网络位置以及信息的新颖性和多样性。表III中总结的变量定义如下。网络大小。我们将用户i的网络大小Si定义为用户i在时间段Tnt内从其接收消息的朋友的数量，我们将该时间段视为数据收集时间段。我们只考虑活跃的朋友，也就是在聊天期间发布消息的朋友。网络大小定义为Si=l∈NifrdI（rl），（11）其中，Nifrd是用户i的朋友的集合，并且当且仅当朋友l在时间段tweett期间发推时，指示符函数I（rl）为1，否则为0网络多样性。用户在网络中的位置会对潜水员产生重大影响-接收到的信息量。位置可以通过其结构多样性来表征，结构多样性表示用户i有多少其他未连接的联系人。我们使用局部聚类系数[Watts和Strogatz1998]Ci来衡量网络位置的结构多样性，Ci量化了用户iCi=2 ×| {e jk：j，k∈Nifrd，e jk∈E}|S i（S i− 1）.（十二）变量e jk如果用户j跟随用户k，则为1，反之亦然;否则为e jk0 。的触点之间可能的连接总数为Si（Si①的人。一个很高的星团-ING系数意味着低网络分集，反之亦然。因此，我们将用户i的网络分集定义为ND i1Ci.请注意，经纪人头寸高网络多样性，而紧密结合的社区中的个体处于低网络多样性的位置。用户努力。包括Twitter在内的大多数社交媒体网站都将来自朋友的物品显示为按时间顺序排列的列表，最新的物品位于顶部。用户扫描列表，如果他或她发现一个有趣的项目，他或她可以通过转发与他或她的追随者分享。他或她将继续浏览列表，直到他或她失去兴趣或分心[Hodas和Lerman 2012]。很难量化用户处理了多少列表，因为网站不提供此信息。相反，我们使用活动作为用户愿意（或能够）在Twitter上投资的努力的代理。ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月网络中的信息获取三点=I..∈∈ii我们通过用户i每天发布和转发的平均消息数来衡量用户iO|Ri|、（十三）特哪里|R i|是来自用户i的tweet的数量。信息多样性。我们通过朋友学习主题的方差来衡量用户i我们将信息多样性定义为朋友主题兴趣向量的平均成对余弦距离FTDi=2×jNfrdk Nfrd（1− cos（uj，uk））S i（S i− 1）.（十四）信息新奇。新信息总量是衡量网络信息含量的另一个重要指标。在许多社交媒体服务中，同一条消息或一条信息可以被多个朋友转发多次由于Twitter为每条消息提供了一个tweetid作为唯一标识符，因此我们可以衡量用户在一段时间内接触到的新信息量根据Aral和Van Alstyne的研究，我们将这个数量称为非冗余信息（NRI i），尽管在Aral和Van Alstyne的研究中，这个数量不是直接测量的，而是从主题多样性和朋友活动中获得的4.2. 信息与网络结构处于不同网络位置的用户接收的信息系统地涉及不同的主题。为了研究这个问题，我们根据用户的网络多样性（ND）对他们进行了排名，并将他们分为两个相等大小的组：高网络多样性和低网络多样性。表IV比较了这两组用户的主题概况中前10个主题的代表性关键词高网络多样性中的用户（即，经纪人）职位倾向于对更一般的话题感兴趣，例如体育（另一方面，处于低网络分集位置的用户密集的社区）集中于更专业的、个人的主题，诸如爱好（这与这样的网络位置通过代表紧密、亲密关系的强联系将人们4.3. 增加对新信息的用户在网络中控制自己位置的最简单方法之一就是关注更多的人。但这是否能改善在线社交网络中获取新信息的途径呢？在社交新闻聚合器Digg上，随着用户关注更多的人，新信息的数量也在增长，但很快就饱和了，远远低于Digg网络中新信息的总量[Kang andLerman 2013 b]。事实上，没有一个网络职位可以访问Digg上超过75%的新信息总量（以发布的独特新闻故事数量衡量）。ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月三点J. - H. Kang和K. Lerman表IV.与网络内不同位置的用户的前10个主题相关联的关键字根据网络多样性（ND）将用户分为两个群体#低ND高ND1课程减肥声学失去动机吉他闪光增益专业连接配置文件网页设计bigdata更新2宠物狗动物采用赞美猫救援爱情伴侣放松儿童父母手术英寸焦虑肥胖孤独症3阅读书评kindle小说封面出版佛陀英国体育场荷兰竞技场4美好幸福的希望早晨生日祝福起诉工党州长秘鲁全国巴勒斯坦5瑜伽锻炼练习跳医生适合身体背部饮食布鲁克林祈祷奥克兰纪录片6日本图画诗漫画电影院照片艺术中心科学展览文化纸画博物馆7甘蓝基因纳帕香肠缠绕式喷煤机相机拍摄时间轴佳能镜头重音时间轴具有8子/父通用旅行准备包逃生世界杯呐喊足球赛出售足球天才球员9家居设计工作室网站室内建草坪布局太空火星计划者牛顿艾萨克现代10美丽夏日城市公园国家海滩岛度假村免费赢取电子邮件礼品机会入场券图2显示了Twitter用户接收的新信息量（NRI）与其网络规模（S）的关系。总的来说，随着用户关注更多的朋友，新奇信息的数量也会增加。然而，与Digg不同的是，接收到的新信息量随着网络规模的增长呈次线性增长，并且不会饱和。为了研究新信息的量如何取决于用户的努力，我们根据他们的努力（O）将用户分为四个相等大小的类（四分位数）。顶部四分位数包含发布最多消息的最活跃用户，底部四分位数包含发布最少tweets的最不活跃用户最活跃的用户（顶部四分位数）平均每天发布大约五条推文，而最不活跃的用户（底部四分位数）平均每天发布大约两条推文在同样的网络规模下，最活跃和最不活跃的用户收到的新信息量似乎没有什么区别，至少当他们关注10个以上的朋友时是这样。然而，当更活跃的用户位于Twitter追随者图中结构更多样化的网络位置时，他们往往比位于结构不太多样化的网络位置的用户从他们的朋友那里接收到更多的新图3显示了按努力划分的相同用户类别的新信息（NRI）和网络分集（ND）之间的关系。虽然收到的新信息量存在很大差异，但愿意在Twitter活动中投入更多精力的活跃用户（图3中的红圈）往往会通过增加网络多样性来增加他们对新信息的接触。此外，对于相同的网络位置，他们往往会收到更多的新信息比不活跃的用户。4.4. 增加对各种信息的用户如何从社交媒体上的朋友那里获得更多样化的信息？他们是否应该跟随更多的人，以增加收到的信息量？或者他们应该把自己转移到不同的网络位置？ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月网络中的信息获取三点图二. 用户收到的新信息量是他们关注的朋友数量的函数。根据用户的努力程度，也就是他们发布的推文数量，将用户分为四类显示了顶部（最活跃）和底部（最不活跃）四分位数的结果图三. Twitter用户接收的新信息量是其网络位置多样性的函数。用户根据他们的活动分为四类。显示了顶部（最活跃）和底部（最不活跃）四分位数的结果我们使用斯皮尔曼相关性来衡量收到的信息的多样性之间的关系的强度，由朋友的主题多样性（FTD），和用户有多少不同的信息之间的区别最小（r = 0。1226,ACM Transactions on the Web，卷。号111、第3条，公布日期：2017年3月三点J. - H. Kang和K. Lerman====-见图4。网络多样性（ND）是2014年Twitter数据集中最活跃和最不活跃用户的活跃好友（S）数量的函数。用户被分为四个相等大小的类的基础上的努力（O），我们比较顶部和底部的四分之一用户。均

下载后可阅读完整内容，剩余1页未读，立即下载