基于两个评级网站的产品对照实验方法

97 浏览量更新于2023-10-16 收藏 18.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7930Track: 用户建模、交互和Web体验 WWW 2018，2018年4月23日至27日，法国里昂7940Track: 用户建模、交互和Web体验 WWW 2018，2018年4月23日至27日，法国里昂7950如下所讨论（第2.2节），这种情况可以看作是模拟了两个“平行宇宙”：我们可以观察到同一产品在每种可能的处理下的情况。换句话说，我们现在有了对照实验，这是单一网站观察研究的主要缺点所在。02.1步骤描述0我们现在详细描述我们的方法。它包括5个步骤。第一步：在两个评级网站之间匹配产品。我们自然实验所利用的基本设备是在两个不同的网站上跟踪同一产品，因此我们只使用可以在两个网站上识别的产品，并且丢弃所有其他产品。第4.1节描述了我们在一对啤酒评级网站上使用的匹配算法；它基于产品名称之间的字符串相似性，我们相信它足够通用，可以适应其他数据集。第二步：定义配对处理组。在每个网站上，根据产品在该网站上的第一个评级（处理）将每个产品标记为“高”（H）、“中”（M）或“低”（L）。如果第一个评级在相应网站上的第一评级中处于前p%（在我们的具体案例研究中，我们使用p =15），则将其定义为H；如果它在底部p%中，则将其定义为L；否则将其定义为M。在这一步之后，每个产品都属于由交叉乘积{ T 1 T 2: T 1 , T 2 ∈ { H , M , L}}定义的九个配对处理组中的一个，其中两个字母捕捉了产品在网站S1 和S 2上通过相应的第一个评级接受的处理；例如，HH表示该产品在两个网站上都获得了高的第一个评级，HL表示它在S 1上获得了高的第一个评级，在S 2上获得了低的第一个评级，LH表示它在S 1上获得了低的第一个评级，在S 2上获得了高的第一个评级，等等。第三步：平衡配对处理组，确保对于每个(T 1 , T 2 ) ∈ { H , M , L } × { H , M , L }，配对处理组T 1T 2 中的产品数量与组T 2 T 1中的产品数量相同。我们可以通过从两个组中较大的那个组中进行随机子采样来实现这一点。这一步确保对于每个网站S和每个配对处理组T 1 T 2 （其中T 1 ≠ T 2 ），两个处理T 1 和T 2的概率各为50%。第四步：聚合包含相同治疗组{ T 1 , T 2}的配对处理组。这将减少配对处理组的数量到六个：HH、HM、HL、MM、ML、LL；例如，聚合后，组HL包含在S 1 上具有H，在S 2上具有L的产品和在S 1 上具有L，在S 2上具有H的产品。这样做是为了每个组有更多的数据点，但我们建议还要对非聚合数据进行单独分析作为一个合理性检查。第五步：比较同一配对处理组中不同处理的结果。我们考虑组HL、HM和ML，其中同一产品在两个网站上接受了不同的第一个评级。通过比较两个网站上的后续评级，我们可以在不受任何与产品相关的混淆（如固有质量）的影响下，独立估计处理效应，即聚集效应。特别地，对于给定的产品P和给定的评级指数i，我们将P在接受较高第一个评级的网站上的第i个评级与其在接受较低第一个评级的网站上的第i个评级进行比较。如果差异为正，这支持处理（第一个评级）和结果（第i个评级）之间存在因果关系的假设，即聚集效应。通过将差异作为评级指数i的函数进行跟踪，我们还可以研究聚集效应随时间的变化速度。0最有趣的配对处理组是HL，因为它对应于处理之间最明显的差异。然而，由于HL组在实践中通常出现的频率较低于较不极端的组（HM和ML），我们建议也研究后者。最后，作为一个合理性检查，还建议在分析中包括对称的组HH，MM和LL。02.2 假设0上述方法使我们能够估计第一个评级（处理）对后续评级（结果）的因果效应，前提是满足以下两个假设。第一个也是最关键的假设，实际上是自然实验的定义属性，即处理分配是随机的：给定具有不同第一个评级的产品P是否在S1上获得较高的第一个评级，在S2上获得较低的第一个评级，或者反之，不能取决于P，S1和S2的任何属性。换句话说，处理分配T必须独立于产品P和站点S（图2(c)）。如果是这样，并且T的变化与O的变化相关，则T和O之间的关联很可能是因果关系。否则（图2(d)），产品或站点的属性，或两者的组合，可能解释了处理分配和结果，这可能导致仅有相关性而没有因果关系，这将使考虑匹配而不是天真的单站点观察研究的目的落空。请注意，根据构造，处理分配仅独立于产品本身：每个产品在匹配数据集中都包含两次，每个站点一次，其中一个站点具有较高的第一个评级，另一个站点具有较低的第一个评级，从而对于给定产品的两种可能处理有50/50的分布。同样，根据构造，处理分配也独立于站点本身：在平衡配对处理组（第2.1节的步骤3）之后，每个站点具有与较高第一个评级的产品数量相同的产品，与较低第一个评级的产品数量相同，从而对于给定站点的每个配对处理组中的两种可能处理有50/50的分布。然而，这并不意味着处理分配独立于产品和站点的组合；例如，S1上的用户可能比S2上的用户更喜欢某种产品，这可能导致在S1上对该种产品进行较高的第一个评级（处理）的概率增加，与S2相比。在我们的设置中，证明处理确实独立于产品和站点的组合，可以确立研究的内部有效性。如何证明特定研究的内部有效性取决于所使用的数据集。（有关我们在啤酒评级案例中如何进行的方法，请参见第4.3节。）虽然如果在匹配数据集中立即不满足这种独立性，我们不能谈论自然实验，但仍然可以通过明确平衡数据集来实现，例如，通过倾向得分匹配[15]。第二个假设是匹配数据集准确反映完整数据集。一般来说，并不是所有产品都在两个评级站点上都存在，因此匹配将选择所有产品的子集。如果匹配样本存在偏差，即在匹配之前与完整数据集系统性地不同，这可能会阻止我们将自然实验的结果推广到所有产品的集合。02 当 X ⊥⊥( Y , Z )（“ X 独立于 ( Y , Z )”）时，意味着 X ⊥⊥ Y 和 X ⊥⊥Z，但反过来则不成立。0Track: 用户建模、交互和Web体验 WWW 2018，2018年4月23-27日，法国里昂7960表1：数据集大小。0BeerAdvocate RateBeer0啤酒厂 16,758 24,1890啤酒 280,823 442,081 啤酒（≥5个评级）96,156166,043 啤酒（≥10个评级）61,193 104,062啤酒（≥20个评级）38,533 60,4510用户 153,704 70,174 用户（≥10个评级）48,59517,744 用户（≥100个评级）14,488 6,4190评级 8,393,032 7,122,0740在这两个网站上对产品进行了评级。例如，可以想象特别好的产品更有可能同时出现在两个网站上，这将使我们的发现特定于好产品而不是普通产品。通过证明匹配样本是无偏的，我们建立了所谓的研究的外部有效性。（有关我们在产品方面如何进行的详细信息，请参见第4.3节。）03 数据：两个啤酒评级网站0我们将我们的方法应用于啤酒评级的特定场景。出于以下几个原因，这种设置非常适合：市场由两个专门用于评级和评论啤酒的大型网站（BeerAdvocate和RateBeer）主导，每个网站都有近20年的历史，网站设计非常相似，并且有大量重叠的评级产品。McAuley等人提供了旧版本的数据[11,12]，但由于该版本是在2012年产生的，我们重新爬取了数据；现在的数据从2001年延伸到2017年8月。30尽管我们专注于一个案例研究，但我们的方法同样适用于其他评级网站对，只要评级产品的交集很大（参见第6节中的讨论）。03.1 啤酒评级网站的描述0BeerAdvocate和RateBeer是两个最大的在线啤酒相关网站。尽管它们为啤酒爱好者提供了一个通用的空间，包括文章、讨论论坛和交易平台，但它们的主要目的是收集和整理用户提供的啤酒评级。在这两个网站上，啤酒根据五个方面（外观、气味/香气、口感、整体）进行评级，然后通过加权求和得到1到5之间的评分。这两个网站在布局和视觉外观方面也相似。它们都在每个啤酒的页面上突出显示最新的评级以及当前的累计平均值（RateBeer还显示啤酒在所有啤酒中的排名），因此我们可以假设即将对啤酒进行评级的用户会意识到这些信息。03.2 评级数据集的基本分析0在这里，我们讨论了两个啤酒评级数据集的一些特性，这些特性与我们对羊群行为的研究相关。我们首先在表1中总结了数据集的规模，表明每个网站都包含数十万个啤酒的评级，来自数万个酿酒厂的评级，由数万名用户评级，总计数百万个评级。03 数据可根据要求提供。代码：https://github.com/epfl-dlab/when_sheep_shop。0这两个网站吸引了截然不同的用户群体。特别是，BeerAdvocate主要由来自美国的用户（74%的用户）访问，其次是加拿大（2%），其他单个国家的用户不到1%。尽管RateBeer的用户群体也主要来自美国（38%），但更加平衡，来自加拿大的用户占5%，来自英国的用户占4%，来自波兰的用户占2%，来自澳大利亚的用户占2%，等等。BeerAdvocate更加以美国为中心的用户群体也反映在其评级的啤酒酿酒厂上：在BeerAdvocate上代表的所有酿酒厂中，有44%来自美国，而在RateBeer上这个比例只有29%。其他国家在两个网站上的比例相似（参见表4中的“未匹配”）。这些差异意味着在两个网站上选择一组匹配的评级啤酒样本不可能很好地反映出两个网站上产品的整体分布，这是我们在第4.3节中要解决的问题。图3（a）绘制了两个网站的评级直方图。我们清楚地看到，BeerAdvocate上的用户倾向于给出比RateBeer上的用户更高的评级。作为一个附注，我们还指出，图3（a）的评级分布与其他评级网站经常观察到的大多数极高或极低值的双峰分布明显不同[8]，并且这种分布被归因于“吹嘘和抱怨”效应。在啤酒评级网站上，评级似乎不太受失望或积极惊喜的选择偏差的影响。图3（a）的直方图汇总了从2001年到2017年8月的所有评级。接下来，我们按年份对评级进行分组，并绘制年均值（图3（b））和标准差（图3（c））。我们观察到，这两个数量都不会随时间保持恒定：均值增加，而标准差从年份到年份递减。假设被评级的啤酒的内在质量保持大致恒定，上升的均值可以解释为分数膨胀，而下降的标准差可能表明对于什么应该构成平均啤酒的评分达成了共识。这意味着，为了比较不同网站和时间段的评级，我们必须考虑来自网站约定（偏移的评级直方图）和这些约定的时间漂移（上升的均值和下降的标准差）的偏差。因此，我们不考虑原始评级，而是考虑标准化评级（也称为z分数）：对于每个网站和每年，我们计算所有评级的均值和标准差。然后，我们从年份t中的所有评级中减去t年的均值，并将其除以t年的标准差，以使每年的评级集的均值为0，标准差为1。04 跨网站匹配产品0我们的方法依赖于两个不同网站上评级的一组产品。通常并没有明确给出两个网站之间的产品对齐（例如通过一致的唯一标识符），而是通常需要自己启发式地进行匹配。在本节中，我们描述了我们在BeerAdvocate和RateBeer之间实现高质量对齐的算法（第4.1节），报告了匹配样本的基本统计信息（第4.2节），并讨论了其外部和内部有效性（第4.3节）。04我们发现BeerAdvocate直方图中的明显峰值是由给予所有五个方面相同评分的评论引起的（参见第3.1节），这些评论往往非常短或甚至为空，这似乎表明这些评论是匆忙输入的。0Track: 用户建模、互动和Web体验 WWW 2018年4月23日至27日，法国里昂7970Track: 用户建模、互动和Web体验 WWW 2018年4月23日至27日，法国里昂7980两个网站的评级直方图在标准化后完全重叠，因此现在可以对评级进行比较。重要的是要注意，尽管两个网站的标准化评级分布相同（图4(a)），但在BeerAdvocate和RateBeer上有许多个别产品的评级差异很大。为了强调这一点，图4(b)是一个散点图，显示了BeerAdvocate上的评级与RateBeer上的评级，每个啤酒由其在每个网站上的平均标准化评级进行总结。点云远离对角线的事实清楚地显示了许多啤酒在两个网站上的评价不同。从这个角度来看，我们的自然实验的目的是确定诸如Lost Rhino IceBreaker（引言中标记为红十字）这样的啤酒如何出现在图4(b)的边缘——是通过群集还是纯粹的好运或坏运。04.3 匹配样本的有效性0从我们的观察研究中得出正确的结论需要第2.2节中提出的假设。本节的目的是展示这些假设，特别是外部和内部有效性，通过匹配的啤酒评级数据集在经验上得到满足。0外部有效性。在匹配时更注重精确度而不是召回率（第4.1节）会以损失许多我们不太自信的匹配为代价，这可能引入选择偏差，潜在地损害我们结果的外部有效性：如果我们研究的样本与整体人群存在根本性差异，我们的结论可能无法从前者推广到后者。首先回顾第3.2节，两个网站之间存在一些显著差异：就产品和用户而言，BeerAdvocate更加以美国为中心，而且在评级的啤酒数量方面也较小（表1）。由于匹配啤酒的数量上限是较小数据集中的啤酒数量，我们最好的希望是将BeerAdvocate中的所有啤酒与RateBeer中对应的啤酒进行匹配。这将保持BeerAdvocate中原始数据的分布，并使RateBeer的分布偏向它。图5和表4显示，即使较小的BeerAdvocate不是RateBeer的子集，匹配仍会产生一个非常类似于BeerAdvocate的数据集。图5检查了数据在匹配之前（每对中的左边框）和匹配之后（每对中的右边框）的三个典型属性（平均啤酒评分、每个啤酒的评分数量和每个酿酒厂的啤酒数量），分别针对BeerAdvocate（每个图的左面板）和RateBeer（每个图的右面板）。我们观察到，匹配并没有明显改变BeerAdvocate的分布，而RateBeer的分布确实发生了变化。表4列出了匹配之前每个数据集中存在的酿酒厂的最常见的原产国，以及匹配数据集中的情况。我们得出两个观察结果。首先，即使在匹配之前，两个数据集中的国家分布相似，但是BeerAdvocate包含更大比例的美国酿酒厂。其次，匹配更接近较小数据集BeerAdvocate的分布，而不是RateBeer的分布。我们还比较了匹配之前和之后的风格分布，结果相同，匹配数据集与BeerAdvocate的分布非常相似（按频率递减的顺序：0表4：配对前后（第2.1节，第1步）的酿酒厂位置，按匹配后的百分比排序。0不匹配匹配0BA RB0美国 44.4% 28.6% 47.8% 德国 8.5%8.3% 6.4% 英国 6.1% 8.8% 5.8%加拿大 5.1% 3.7% 4.9% 意大利 2.2%4.3% 2.7% 比利时 2.0% 1.9% 2.5%法国 2.4% 3.5% 2.3% 西班牙 1.9%3.2% 2.3% 澳大利亚 2.4% 2.3% 2.2%荷兰 1.5% 2.1% 2.1%0美国IPA10.8%匹配前，与12.1%匹配后；美国淡色艾尔6.2%与6.8%；Saison/农家艾尔5.0%与5.9%，等等）。我们得出结论，我们的匹配样本对于BeerAdvocate是无偏的（如上所述，这是我们能够期望的最好结果），因此我们得出的结论至少可以推广到所有的BeerAdvocate。请注意，这是一个保守的陈述；我们没有看到任何明确的迹象表明我们的结论不应该也适用于RateBeer的所有内容。0内部有效性。正如在第2.2节中所讨论的，我们需要证明处理分配T（啤酒的第一次评分）与评分站点S和被评产品P是独立的。虽然，如上所述，我们通过构造有T ⊥⊥ S和T ⊥⊥ P，但这并不意味着T⊥⊥（S，P）。例如，原则上可能（虽然不太可能）是站点S1上的用户都喜欢淡啤酒并讨厌黑啤酒，而站点S2上的用户都喜欢黑啤酒并讨厌淡啤酒。这将导致所有淡啤酒在S1上同时看到高处理（第一次评分）和高结果（随后的评论）；而所有黑啤酒在S2上同时看到高处理和高结果。在这种情况下，处理和结果之间的相关性不是因果关系，而是由于站点特定的偏好混淆。因此，我们需要通过实证检查处理分配的分布（即接收较高第一次评分的概率）在所有站点和产品属性的组合中大致相等。请注意，只有在处理之前可用的属性应在此处考虑，因为所有其他属性可能是处理的结果，而不是原因。这使我们无法考虑各自啤酒收到的评分，例如。检查每个站点上所有啤酒属性的处理概率将是困难的，特别是考虑到我们有限的数据集大小。但我们认为最可能的混淆因素是啤酒风格和生产国家：控制风格也大致固定了啤酒的最显著属性，如苦味、颜色、酒精含量等；而控制生产国家则考虑到BeerAdvocate用户更有可能是美国人，因此可能对美国啤酒有偏见（或反对）。对于最常见的风格和国家，我们在表5中给出了相应的数字。每个感兴趣的组合（HM，ML，HL）都有一个表。对于每个啤酒属性（风格或国家）和站点的组合，我们列出了具有较高处理的啤酒数量。0Track: User Modeling, Interaction and Experience on the Web WWW 2018，2018年4月23日至27日，法国里昂7990Track: User Modeling, Interaction and Experience on the Web WWW 2018，2018年4月23日至27日，法国里昂8000Track: User Modeling, Interaction and Experience on the Web WWW 2018，2018年4月23日至27日，法国里昂H-0.032 [-0.193, 0.123]0.226 [0.045, 0.393]L-0.392 [-0.572, -0.231]-0.066 [-0.220, 0.099]H0.270 [0.225, 0.314]0.498 [0.460, 0.542]M0.057 [0.006, 0.107]0.376 [0.334, 0.423]M on BAM on RBM-0.506 [-0.563, -0.450]-0.229 [-0.279, -0.176]L-0.657 [-0.721, -0.596]-0.414 [-0.467, -0.363]8010表6：分解的配对处理组的标准化第5评分（带有95%置信区间），即在第2.1节的第4步之前，例如，单元格（L，H onRB）包含在第一次评分为L时第一次评分为H的站点上的平均第5评分。0BA上的H RB上的H0BA上的H RB上的H0第一次评价是积极的还是消极的可能取决于诸如第一位评价者品尝啤酒时是否阳光明媚、是否胃口不好或是否与丈夫吵架等随机因素，这可能引发连锁反应，可能产生严重后果：由于许多用户依赖评分网站来决定购买什么，第一次评价的随机性可以明显影响生产者的业务。0对评分网站设计的影响。解决这个问题的一个简单想法是，在产品收到少于最低评分数量之前，隐藏所有的评价。例如，如果要求至少有十个评价才显示评分，这意味着实际上前十个评价彼此独立，不受群体效应的影响。一旦第十一个评价者到来，他们将看到一个反映产品固有质量的平均评分，比任何一个单独的评价更接近真实情况。因此，即使第十一个评价者受到之前评价的影响，他们也会受到更少随机性的影响。未来的工作应该通过A/B测试来验证这个假设。0社区重叠。我们指出，即使两个网站之间的信息通过在两个网站上活跃的用户流动（实际上存在这样的用户），我们的结论仍然成立：因为我们专注于具有不同第一次评分的产品，所以我们研究的产品之间的依赖关系必须是有意的反群体效应，这很难解释。0关于群体效应的先前研究。早期关于人类群体行为的研究（主要来自市场营销和经济学）受到了生物学关于动物群体行为的研究的启发[7]，这可能解释了为什么最早的人类群体行为的实证研究考虑了农民[18]和投资银行家[16]。由于数据稀缺，早期的研究大多是理论性的[1]，但随着互联网的兴起，实证研究变得更加可行。自然而然，最有力的证据来自实验研究。著名的Muchnik等人[13]在新闻网站中插入了随机的第一次评分，并研究了用户对这些处理的反应。有趣的是，他们发现赞成和反对票都会对后续的投票产生影响，但在他们的案例中，反对票的影响被社交纠正所抵消，即善意用户通过随后的赞成票来弥补反对票的影响。在我们的案例中，即使社交纠正可能会发生，它肯定不能抵消随机的早期评分的负面影响（图6）。一项后续实验[6]在社交书签网站Reddit上发现了群体效应的证据，但没有发现社交纠正的证据。实验是强有力的工具，但运行成本高且涉及随机操作，引发了伦理挑战，例如Muchnik等人[13]没有透露他们操作的网站。模拟[17]和观察研究[2, 3,10]可以作为替代方法，但要避免我们在引言中提到的问题往往需要复杂的建模假设和混淆因素的控制方法。0相反，我们提出了一种基于自然实验的方法，虽然也是观察性的，但通过利用处理分配是随机的情况，消除了明确控制混淆因素的需要。我们的方法受到了“双重对比法”[4,5]的启发，该方法首次应用于研究汽车安全带的有效性（Rosenbaum [15, Sec. 1.4]提供了该研究的简明摘要）。0我们方法的适用性。观察研究的明显优势是廉价且不干扰所研究的系统，尤其是因为不同的环境可能以不同的方式受到群体效应的影响（例如，社交纠正对新闻报道的影响与Reddit帖子的影响不同），因此我们应该研究各种情况。幸运的是，我们的方法非常普适（第2节）。我们只需要一组在两个不同网站上评分的产品，并且这些产品在两个网站上是可对齐的。我们再次强调，在分析结果之前，验证每个环境的有效性非常重要。特别是，我们需要确定匹配样本是否对所有样本集合（外部效度）是无偏的，并且跨网站匹配产品是否确实导致第一次评分（处理分配）与产品和网站属性（内部效度）无关。在评估有效性时，我们只能限于观察到的产品特征。特别地，我们认为啤酒的风格和国家是主要的潜在混淆因素，因为它们涵盖了大多数其他可能的混淆因素，无论是观察到的还是未观察到的（第4.3节）。尽管存在这种外在的论证，我们强调当将我们的方法应用于其他数据集时，研究人员应该意识到无法完全排除未观察到的混淆因素。当没有压倒性的外在论证支持处理与产品和网站属性（内部效度）的独立性时，可以进行敏感性分析[15]，以量化处理在多大程度上取决于这些属性，才会改变我们的结论。0未来的工作.我们希望研究人员采用我们的方法来研究更多的兽群行为场景.我们认为亚马逊上的产品评级是一个特别有趣的案例，因为亚马逊在多种语言中都有网站（例如Amazon.com，Amazon.de，Amazon.fr），每个网站都有独立的评级系统，但覆盖了一系列重叠的产品子集.此外，由于每个产品都有一个唯一的亚马逊全球标识符，匹配是轻而易举的.我们的研究结果提出了一些有趣的问题：某些用户（例如新手）比其他用户更容易受到兽群行为的影响吗？接触到随机评级是否会持久地改变用户的后续行为（而不仅仅是产品的后续评级）？最后，对于同一产品在多个网站上的评级，我们能否开发模型将它们组合成更真实的综合评分？0致谢. 我们感谢Julian McAuley和Carlos Castillo进行深入讨论.0跟踪：用户建模，Web上的交互和体验WWW 2018年4月23日至27日，法国里昂8020参考文献0[1] Abhijit V Banerjee. 1992. 兽群行为的简单模型. 季度经济学杂志 107, 3 (1992),797–817. [2] Judith A Chevalier和Dina Mayzlin. 2006. 口碑对销售的影响：在线书评.市场研究杂志 43, 3 (2006), 345–354. [3] Wenjing Duan，Bin Gu和Andrew BWhinston. 2008. 网络评论重要吗？面板数据的实证研究. 决策支持系统 45, 4 (2008),1007–1016. [4] Leonard Evans. 1986.双重配对比较：一种确定占用特征如何影响交通事故中死亡风险的新方法. 事故分析与预防18, 3 (1986), 217–227. [5] Leonard Evans. 1986. 安全带在预防死亡中的有效性.事故分析与预防 18, 3 (1986), 229–241. [6] Maria Glenski和Tim Weninger. 2017.评级对社交新闻帖子和评论的影响. ACM智能系统和技术交易 8, 6 (2017), 78. [7] WilliamD Hamilton. 1971. 自私兽群的几何. 理论生物学杂志 31, 2 (1971), 295–311. [8] NanHu，Paul A Pavlou和Jennifer Zhang. 2006.在线评价能否揭示产品的真实质量？在线口碑传播的实证研究和分析建模.在第7届ACM电子商务会议上. 324–330.0[9] Nitin Jindal和Bing Liu. 2007. 分析和检测评论垃圾. 在第7届IEEE国际数据挖掘会议上.547–552. [10] Young-Jin Lee，Kartik Hosanagar和Yong Tan. 2015.我是跟随我的朋友还是跟随大众？在线电影评级中的信息级联. 管理科学 61, 9 (2015),2241–2258. [11] Jure Leskovec和Andrej Krevl. 2016.SNAP数据集：斯坦福大型网络数据集收集（2014）.http://snap.stanford.edu/data（2016）. [12] Julian J McAuley，JureLeskovec和Daniel Jurafsky. 2012. 从多方面评论中学习态度和属性.第12届IEEE国际数据挖掘会议论文集（2012），1020–1025. [13] Lev Muchnik，SinanAral和Sean J Taylor. 2013. 社会影响偏见：一项随机实验. 科学 341, 6146 (2013),647–651. [14] Andreas Roider和Andrea Voskort. 2016.金融市场的声誉群体行为：实验室实验. 行为金融学杂志 17, 3 (2016), 244–266. [15] PaulR Rosenbaum. 2010. 观察研究设计. Springer. [16] David S Scharfstein和Jeremy CStein. 1990. 兽群行为和投资. 美国经济评论 80, 3 (1990), 465–479. [17] TingWang和Dashun Wang. 2014. 为什么亚马逊的评级可能会误导您：关于兽群效应的故事.大数据 2, 4 (2014), 196–204. [18] Kislev Yoav和Nira Shchori-Bachrach. 1973.创新周期的过程. 美国农业经济学杂志 55, 1 (1973), 28–37.0跟踪：用户建模，网络上的交互和体验 WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载