众包中的批准投票和激励：解决标记训练数据需求增长的方法

178 浏览量更新于2023-12-18 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月$众包中的批准投票和激励尼哈尔湾SHAH，机器学习系和计算机科学系，卡内基梅隆大学13周登勇，谷歌大脑对标记训练数据的需求日益增长，使众包成为开发机器学习应用程序的重要工具。在这里，众包平台上的工作人员通常被示出未标记项目的列表，并且对于这些项目中的每一个，被要求从所提供的选项之一中选择标签。众包平台中的工作人员不是专家，因此必须明智地获取工作人员已知的信息。关于这一目标，目前的系统有两个关键的缺点：（一）工人的激励措施与请求者的激励措施不一致;（二）界面不允许工人通过强迫他们在一组选项中做出单一选择来准确地传达他们的知识在这篇文章中，我们通过引入批准投票来利用工人的专业知识来解决这些问题他们对真实答案有部分了解，并将其与两个严格适当的评分规则相结合。我们还建立了有吸引力的性能，我们的评分规则的最优性和唯一性。我们还对亚马逊土耳其机器人进行了初步的实证研究，这些实验的结果验证了我们的方法。CCS概念：·信息系统→众包;其他关键词和短语：适当的评分规则，激励措施，标签ACM参考格式：尼哈尔湾Shah和Dengyong Zhou。2020.众包中的批准投票和激励。ACM跨经济计算8、3、第十三条（2020年6月），40页。https://doi.org/10.1145/33968631介绍在大数据时代，随着深度学习等机器学习模型的日益复杂，对大量标记数据的需求正在以前所未有的规模增长。这些标记任务过去通常由领域专家完成。然而，专家人数有限将限制数据集的规模。在现代，这些大规模的标签任务是通过商业网络服务来执行的，例如Amazon Mechanical Turk，数百万的众包工人或注释者执行任务以换取货币支付[49]。一个众包标签任务由一组项目组成，例如要标记的图像，每个项目都与一组排他性类别（或选项）相关联通常，每个工人都需要这篇文章在2015年国际机器学习会议（ICML）上发表尼哈尔的作品B. Shah的研究部分得到了微软研究院博士奖学金的支持，部分得到了美国国家科学基金会（NSF）1755656的资助。作者地址：N. B. Shah，卡内基梅隆大学机器学习系和计算机科学系，5000 Forbes Avenue，Pittsburgh PA 15213，USA;电子邮件：nihars@cs.cmu.edu，D.周，谷歌大脑，747第六街南，柯克兰，华盛顿州98033;电子邮件：dennyzhou@google.com。本作品采用知识共享署名-非商业性使用-禁止演绎国际4.0许可协议进行许可。© 2020版权归所有者/作者所有。2167-8375/2020/06-ART13https://doi.org/10.1145/3396863ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月十三：2N. B. Shah和D.周图1.一、一个任务的插图，（a）标准的单一选择界面和（b）批准投票界面。为了选择类别（即，一个单一的选项），她认为是最有可能是正确的。更正式地说，它涉及引出工人的信仰模式。这种在实践中，通过众包获得的数据通常是相当错误的[31，59，60]，由于缺乏专业知识的工人，缺乏适当的激励措施，往往缺乏一个适当的接口，工人表达他们的知识。在这篇文章中，我们考虑了一个“批准投票”的方式，从工人的标签。Ap- proval voting[2，32，44，61]是一种投票形式，每个投票人可以投票人不再指定这些候选人中的其他偏好。在我们的众包背景下，批准投票界面允许工人选择多个每个问题都有多个选项。1参见图1中的示例。在心理学和社会选择理论中，赞成投票比单一选择系统有许多优势[2，8首先，批准投票界面很容易理解[36]。批准投票为员工提供了更大的灵活性来表达他们的信念;例如，允许员工表达多个选项之间的任何混淆，而不是被迫选择其中一个选项。赞成投票也更有效地利用了具有部分知识的工人的专业知识。例如，库姆斯[9]认为：此外，库姆斯[9]认为，“参加测试的个人应该被指示划掉所有他们认为错误的选择。”在这个批准-投票接口下，我们要求员工选择她认为“很可能”正确的选项（我们将在后续部分中正式说明）。在众包的设置中，与单一选择相比，选择多个选项将允许获得关于这些非专家工作者的部分知识的更多信息。这一额外信息对于困难的标签问题特别有价值，可以识别困难的来源。让我们通过图1所示的示例来说明此设置在众包中的效用。这个问题要求工作人员识别图像中的动物在这个例子中是一只豹子。假设有两个工人。第一个工人认为真正的标签是“Cheetah”或“Leopard”，但肯定不是其他任何选项;第二个工人对图像的其他方面感到困惑，并认为真正的标签是“Jaguar”或“Leopard”，但肯定不是其他任何一个如果每个工人只允许选择一个答案（图1（a）），如果[1]心理学文献通常将赞同投票称为众包中的批准投票和激励十三：3ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月工人们随机地从两个选项中选择一个，第一个工人选择“Cheetah”，第二个工人选择“Jaguar”的概率为25%。此外，有50%的机会，一个工人选择因此，在每一种情况下，他们的回答都不会提供关于真实标签的任何明确与此相反，在赞成投票界面（图1（b））中，如果让员工选择第一个员工的（“Cheetah”，”Leopard”）和第二个员工的（“Jaguar”，“Leopard”）这两个让他感到困惑的选项事实上，对于我们的第二个例子，我们继续考虑图1中的问题。现在假设一个工人肯定知道正确答案是在单选设置中，第二个工作者可以随机选择其他三个选项中的一个，并且在没有选择“Leopard”的情况下另一方面，在赞成投票设置中，允许第二个工人通过选择所有三个考虑中的选项来传达她的困惑;这允许推断尽管它在获取部分知识方面提供了灵活性，但由于缺乏激励，仅批准投票可能不我们还需要激励员工适当地报告他们的答案。为此，我们需要将批准投票与支付机制结合起来，使得当且仅当工作者如实地披露她对众包问题的部分知识时，她才能获得她的最大预期支付。在包含客观问题的众包任务中，包含“黄金标准问题”是一种标准做法[19]黄金标准问题在实际问题中随机混合，并且工人不知道哪些问题是黄金标准。这些黄金标准的问题被用来核实工人提供的答案，并构成向工人支付工资的基础黄金标准问题通常由专家（他们通常比众包工作人员贵得多）生成，或者作为大量众包工作人员的答案的集合而获得在本文中，我们不会关心这些黄金标准问题的来源，而只是假设我们可以访问一组我们知道正确答案的黄金标准问题评分规则的框架[4，21，35，51]考虑了支付机制（或评分规则）的设计，以得出对事件的预测，其实际结果将在未来观察到。支付是代理人的响应和事件结果的函数。支付被称为“严格适当的评分规则”，如果它的期望，相对于代理人对事件的信念，是严格最大化时，代理人报告她的真实信念。我们的设置可以被认为是设计严格适当的评分规则，因为黄金标准问题提供了实际的结果。在这种情况下，我们在本文中追求两个主要目标。第一个目标，用非正式的术语来说，就是设计严格适当的评分规则，激励员工只选择那些她认为很可能是正确的选项。我们考虑两个设置的基础上的精确意义的“很可能”-一个意义是在绝对的条款和一个相对的-这些设置正式指定后，在文章中。现在，对于第二个目标，我们注意到，虽然之前已经在相当通用的设置下研究了适当的评分规则，但一般理论提供了非常广泛的评分规则类别，并且没有指定任何特定的评分规则。然而，在我们的众包应用程序中，我们必须选择一个特定的评分规则进行部署。因此，除了严格的适当性之外，我们还努力建立我们提出的评分规则的唯一性和/或最优性的附加属性，以额外地激励它们的使用。十三：4N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月相关工作在这项工作中，我们设计了适当的评分规则，依赖于一些“黄金标准”的问题，以验证工人的反应。然而，在许多情况下，黄金标准问题可能不可用;例如，如果问题是主观的，或者生成这些黄金标准问题的专家太贵。有一条平行线文献[11，16，29，34，41，45]，探讨了在没有任何金本位问题的情况下运作的支付机制的设计。然而，其中设计的支付机制通常只能提供较弱的担保（例如，多个纳什均衡）和/或需要附加信息的引出（例如，预测其他工人的反应），因为缺乏一个黄金标准答案进行比较。特别有趣的是Lambert和Shoham的论文[35]，它考虑了一个用于引出多项选择题的真实答案的一般本文仅关注单个选择题的研究，因为引用参考文献[35]，“我们可以通过对每个问题的收益求和来考虑完整问卷的收益”。这种方法与我们工作的一个关键重点是正交的，即如何将不同问题的收益结合起来：考虑一个单一的赞成投票问题。该问题可以被认为是一组子问题，该组中的每个子问题对应于询问一个特定选项是否正确。Lambert和Shoham [35]的结果为每个子问题产生了（严格）适当的评分规则，然后可以将其总结为一个问题的（严格）适当的评分规则。在本文的第3节中，我们实际上表明，只有一种方法可以组合这些子问题。Lambert和Shoham [35]建议将所有问题中的付款汇总到一个包含多个问题的一般问卷中。相反，在本文的第4节中，我们发现，令人惊讶的是，有一种不同的方法可以组合多个问题的收益（乘以每个问题的收益），并且这种方法唯一地满足某些理想的性质。原则上，可以将整个问卷视为一个问题，但正如Lambert和Shoham [35]所指出的那样，这可能在计算上是禁止的。一些先前的作品研究了特定环境下众包应用程序的批准投票，例如问答论坛[27]和Doodle民意调查[68]。本文的重点是设计激励性支付机制，其性质基本上与环境的性质无关。本文作者的一部分人过去的工作[55]考虑了具有传统单一选择设置的众包设置，也引发了工作人员对每个响应的信心。一个严格适当的评分规则，提出了该设置，然后被证明是唯一一个满足“没有免费午餐”公理提出。虽然本文的设置与Shah和Zhou [55]的设置不同，但有趣的是，我们为不同的接口和不同的假设集导出的评分规则是唯一可以满足没有免费午餐公理的规则（适用于我们的设置）。一个重要的补充问题是设计方法来聚合多个工人的反应，以估计各种问题的真实答案。这是必需的，因为从工作者获得的数据通常是有噪声的。为此，许多统计汇总方法- ods[7，12，26，30，33，37，47，53，62，66，67]已在文献中提出;然而，它们主要考虑单选设置，其中任何工人只能为每个问题选择一个选项。这些工作考虑了响应中错误的某些统计模型，··众包中的批准投票和激励十三：5ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月在假设的模型下，提出算法来估计问题的正确答案，通常具有理论保证我们的方法补充了这些技术，因为我们努力通过新颖的界面和激励机制直接从众包平台获得更高质量的标签也就是说，关于统计聚合的文献主要集中在单选设置上，并且设计用于批准投票设置的统计聚合算法是一个重要的开放问题一个相关的问题是选择好的工人或给工人分配适当的任务，这些问题在参考文献[1，22，58，64]中进行了研究。在我们的工作中，我们假设工人已经被选中，特定的任务已经分配给那个工人。最近的一些工作专注于从多个工作人员那里获取数据，其总体目标是执行某些特定的估计任务[5，13，17，18]。相比之下，我们的目标是确保工人审查他们自己的低质量（原始）数据，而不会限制我们对任何特定下游算法或任务的关注。参考文献[23，65]中设计了依赖于声誉或社会规范的非经济激励。另一方面，我们考虑将AmazonMechanical Turk等付费众包平台作为我们的背景。结果总结我们考虑两个设置的激励工人的上下文中，为每个问题，选择选项，她认为是“很可能”是正确的这两种情况在“很可能”一词的确切含义上有所不同。我们现在简要描述这些设置和我们的相关结果。我们考虑的第一个设置涉及到根据工人的信念，引出正确的概率大于某个预先定义的阈值的选项。我们将此设置称为绝对阈值。我们设计了一个评分规则，这种设置，并表明它是严格适当的。此外，我们还证明了在一定的制度，我们提出的规则是唯一可能的严格适当的评分规则。第二种设置涉及相对阈值，其中工作者必须选择相对于其他所选选项正确性的可能性高于特定阈值的选项。我们设计了一个严格适当的评分规则，并证明了该规则的几个附加性质：（1）它是唯一能满足“没有免费午餐”条件的严格适当的评分规则，（2）它也是严格适当的(3)它实现了基于业绩的付款的基本限制。最后，我们报告的结果，我们进行初步实验，以验证我们的方法的某些基本假设，并抓住任何可能出现的障碍，在实际的实施和评估。在从工人那里获得的数据中，我们观察到这组初步实验确实支持我们的假设。此外，实验性部署并没有对我们的设置和评分规则的实际使用发出任何危险信号文章的结构文章的其余部分组织如下：我们首先在第2节中描述正式的问题设置和文章的目标。在第3节中，我们提出了理论结果绝对阈值的设置。然后，在第4节中，我们提出了相对阈值的理论结果，其中包括作为特殊情况的启发支持的信念的问题。我们在第5节中介绍了实验结果。我们在第6节中讨论了未来的工作，以此结束本文的正文。文章还包括三个附录。附录A包含与文章内容相关的某些辅助结果。附录B给出了正文中附录C提供了有关实验的其他详细信息十三：6N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月≤≤∈∈−≥ ≤∞∈∈联系我们{− −}--2问题设置考虑N1个问题，每个问题都有B个选项（2 B< ）来选择。为每个 B选项中的一个是正确的。我们假设这N个问题包含G（1GN）“黄金标准”问题，即校长知道答案的问题先验的这些黄金标准问题被假定为在N个问题中均匀随机混合，并且基于她在这些G问题上的表现来评估工人。对于任何整数K，我们使用[ K ]的标准符号作为集合1，.的简写。、K. 我们让1：True，False 0， 1 表示定义为1 x的指示函数 = 1，如果x为真且1x =零否则，请执行以下操作。在这种严格适当的评分规则的设置中，我们使用黄金标准问题来评估工人的答案并计算工资，我们可以考虑独立于所有其他工人的任何工人的评分规则。因此，在问题设置中，我们只考虑一个工人，理解评分规则可以独立地应用于所有工人。对于N个问题中的每一个，我们假设工人在她的脑海中有一个概率分布，代表她对相应选项正确概率的信念。形式上，考虑任何工人和任何问题i[N]。对于任何选项b[B]，工人相信选项b[B]正确的概率是p ib[0，1]，对于某些潜在值p i1，. ，p iB，其总和为1。我们假设工人的这些信念分布是相互的，独立的问题[20]。2.1付款函数（评分规则）如前所述，员工对于金标准中的任何问题，我们用集合（B1）中的一个值来表示工人在这个问题上的表现的评价，.，B：该值的大小表示工人选择的选项的数量，并且如果正确的答案在所选选项的集合中，则符号为正，否则为负。例如，如果工作人员为某个金标准问题选择了四个选项，但没有一个是正确的，则该响应的评估表示为请注意，我们不区分不正确的选项;也就是说，支付方案取决于取决于正确选项的选择和所选选项的数量，但假设与不正确选项的标识无关。随后呈现的唯一性结果在此假设下操作。我们假设支付是有界的，也就是说，任何支付都必须位于区间内[αmin，αmax]对于某些值αmin和αmax>αmin。两个参数αmin和αmax的选择可以在考虑各种因素的情况下进行，例如所使用的众包平台的指导方针、预算约束和最低工资。我们假设两个参数的值是已知的。让f：{−（B− 1），.，B}G →[αmin，αmax]表示支付功能。我们将在整篇文章中互换使用“支付函数”和“评分规则”这两个术语。必须设计这个函数f来激励工人。为了使所有可能的评分规则都处于平等的地位，我们将αmax固定为最佳可能结果的支付，即工人在金标准中为每个问题选择正确的选项（而不是其他选项）：f（1，.，1）= αmax.（一）众包中的批准投票和激励十三：7ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月∈∈∈· · ·iyiG∈∈∈∈i=1我LJI在本文中，我们假设所有评分规则满足等式（1），并要求位于区间[αmin，αmax]内。在续集中，我们使用符号f#和f#来表示本文中提出的两个评分规则。article和f表示任何一般评分规则。2.2预期付款额对我们的分析来说，一个重要的量是期望报酬，其中期望是从工人的角度出发的，并且考虑了在N个问题中选择G个黄金标准问题的随机性，以及代表她对N个问题的信念的N个概率分布让我们把这个概念正式化。假设对于问题i[N]，让yi[B]表示工人选择的选项数此外，让si[0， 1]表示在工人的信念下，问题i的正确答案位于y i个选择选项的集合中的换句话说，si表示由工作者选择的y i个选项的信念之和：如果工作者选择选项41，.，4y，则si=（pi 41+ +pi4）。那么，从工人1.一、G.lf（l，y，j，. ，G y j1）的。（1−sj）1{i=−1}s1{i=1}\。（二）. N（j1，.，jG）n[N]（n1，.，G）∈{−1，1}G Z吉吉i=1等式（2）中的外部求和对应于相对于随机变量的期望。G个金标准问题在N个总问题中的分布。等式（2）中的内部求和对应于关于工人的选择是正确的信念的期望更详细地，值为1，. .，G对关于正确答案是否存在于G黄金标准问题中的每一个的所选选项集合中的所有可能事件进行检查，和术语。G （1−sj）1{i=−1}s1{i=1}r表示概率（根据工作者的定义），（一）每一个事件的发生例如，如果工人选择了所有选项（yi=B），每个问题i [N]，则正确答案必然位于所选选项的集合中（即，对于每个i [G]，si = 1），然后支付精确地评估为f（B，.，B）。由于存在金标准问题，任何员工的表现都可以得到验证只基于她自己的答案（不依赖于其他工人的答案）。因此，支付给不同工人的工资并不相互依赖，因此，我们只考虑一个工人而不失一般性。在这篇文章中，我们假设工人的目标是最大限度地提高她的预期报酬，其中的期望是相对于随机选择的G标准问题，也相对于工人的信念，关于正确的各种选项，为每个问题。2.3目标在高层次上，我们的目标是激励工人，对于每个问题，选择她认为很可能是正确的所有选项。我们考虑两个目标的基础上，是否希望引出的选项，其信念是在一个预先定义的阈值以上的绝对或相对的意义。2.3.1绝对的控制。在这种情况下，我们假设给定参数σ（0，1）的值。对于每一个问题，我 [N]，我们希望工人精确地选择一组选项{b∈ [B]|（3a）十三：8N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月≥ ···≥联系我们∈⎩ıB4=1 第四章（四）⎭⎩ıB4=1 第四章（四）⎭而不选择选项而不选择选项{b∈ [B] |p ib<σ}。（3b）然后，我们的目标是设计激励这种行为的支付机制定义1（绝对持牌的严格适当评分规则）。支付函数是绝对阈值的严格适当的评分规则，如果从工人的角度来看，当她选择集合（3a）中的所有选项而不选择集合（3b）中的任何选项时，她的期望支付（2）工人被允许为她的信念正好是σ的选项采取任何一种方式。当工人对某个选项的信念等于σ时，我们不从评分规则中强加要求我们在第3节中讨论了绝对阈值的设置。2.3.2相对稳定。考虑以下两个关于工人对于B = 10个选项的问题的信念的场景：场景I：信念是（1/4，1/4，1/16，.，1/16）;情景II：信念是（2/3，1/3，0，.，0）。然后，在场景I中，人们可能希望让工人选择前两个选项，因为其他选项的概率很低。在情景II中，人们可能希望工人选择第一个选项，但不选择第二个选项，因为第一个选项和第二个选项的信念之间存在显著差异。但是，第2.3.1节中设置的固定绝对阈值σ不能同时满足这两个要求。因此，在本节中，我们考虑一个基于相对阈值的替代要求：工人被激励逐个选择选项，当且仅当它对相对于已经选择的选项的信念有足够的贡献时才选择选项。形式上，要求与预先指定的值ρ（0， 1）相关联。考虑任何问题i[N]。设（1），.，（B）表示B选项的排序，使得工人对问题i的信念遵循此顺序，即，pi（1）pi（B），其中工人任意断开联系。然后，我们希望工人精确地选择选项集⎧⎪⎨⎪b∈[B]ı.pi（b）>ρ，（4a）⎧⎪⎨⎪b∈[B] ı.pi（b）<ρ。（4b项）换句话说，在选择了最有可能的选项之后，只要所选选项对所选选项的总信念的贡献比ρ大一小部分，则必须按照信念的降序逐个选择剩余选项。例如，本小节前面描述的两种情况都可以通过选择ρ = 0来同时适应。4.请注意，正如在绝对阈值的设置（第2.3.1节）中一样，如果公式（4）中置信度的相对值正好等于ρ，则我们不施加任何要求。定义2（严格正确的评分规则相对控股）。支付函数是相对阈值化的严格适当的评分规则，如果从工人的角度来看，当她对每个问题i ∈ [ N ]选择集合（4a）中的所有选项而不选择集合（4b）中的任何选项时，期望支付（2）我们在第4节中讨论了相对阈值的设置。众包中的批准投票和激励十三：9ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月∈22「..Σ−||−{≥}2.∈−|| −i联系我们−3绝对阈值在本节中，我们考虑激励工人选择所有选项的设置，对于某个固定参数σ（0， 1），她的信念严格大于σ，如2.3.1节所述。在继续之前，我们必须详细说明问题设置的某些迂腐细节。让我们定义两个整数smin和smax为smin=1{σ1}和smax=min{考虑任何问题。注意，如果σ1B σB，那么让工人选择零个选项是没有意义的，因为至少有一个选项的信念必须是1或更高。还可以观察到，对于任何σ∈（0，1）的值，它是B1允许工人选择一个或多个选项是没有意义的，因为从数学上讲，这些选项的概率不可能超过σ。因此，我们将强制工人为任何问题选择至少smin和最多smax选项让x1，. ，x G表示工人对G黄金标准问题的回答的评价（回忆2.1节），因此目标是设计支付函数f（x1，. ，x G）时，|X i|∈ {smin，. ，smax}。最后，我们注意到，如果B=2或如果σ≥1，则该设置退化为Shah和Zhou [ 55 ]中研究的因此，我们在本节中考虑区域B ≥ 3且σ∈（0，1）。3.1建议评分规则我们提出的用于设置本节的评分规则被提供为评分规则1。为了便于记法，我们将该评分规则表示为f#。评分规则1：绝对阈值• 输入：对G金标准问题答案的评估（x1，.，x G）• 输出：付款Gf#（x1，.，x G）= κ#（Bx i1）σ+1 x i1 + αmin，i=1其中k# =αmax−αmin（（B−2）σ+1）G让我们来解释一下这个评分规则。对于任意问题i [G]，分量（B x1）σ+1x i1的评分规则f #对选择错误的选项惩罚σ，对选择正确的选项奖励1。总的付款是这些成分的产物回答所有黄金标准问题。常数κ#仅用于调整支付以适应（αmin，αmax）要求。下面的定理现在证明了与我们的评分规则相关的保证第3.1节. 考虑任意σ ∈（0，1），N ≥ G ≥ 1，B ≥ 3. 那么，评分规则1是严格适当的绝对阈值。这个结果的证明首先计算出在诚实响应的情况下的期望支付，然后通过一些代数论证表明，每隔一个响应必须导致严格较小的支付。本节的其余部分将专门讨论这一证明。THEOREM 3.1的 P屋顶在不失一般性的情况下，假设αmin=0，因为评分规则的性质是严格适当的，对于任何恒定的移位和支付的正标度都是不变我们采用简洁的符号α：=αmaxαmin。还记得术语十三：N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月.− −−i−ii{}i≥∈4=14=12≥≥≥.l（B−1）σ+.（poiR−σ）\.（五）∈≥≥IRIR首先考虑N=G=1的情况假设工人p1，.，p B. 当工人选择选项{o1，. ，o m}，对于某些m，等于M（B 1）σ + （p oR σ）.4=1因此，选择任何选项oi使得poσ对预期支付贡献一项poσ0，而选择任何选项oj使得poj>σ贡献一个正的量poσ>0。<<因此，当工人选择所有信念大于σ的选项，而不选择任何信念低于σ的选项时，支付严格最大化。这就完成了N=G=1的证明。现在让我们考虑N=G1的情况。假设对于任何问题i [G]，工人选择了i1，.，o im。由于工人的信念在所有问题中的独立性，预期报酬等于G MIi=1Z4=1l注意每个术语。（B − 1）σ +。乘积中的mi（po−σ）是非负的。而且对于任何问题i∈[G]，工人都有一个选择所有选项的行动，做相应的术语。（B− 1）σ+。Mi （p o-σ）严格正的。因为工人的目的是为了最大化期望报酬，使等式（5）相对于工人鉴于这一事实，如果乘积等式（5）中的每个单独分量被最大化，则乘积也必然被最大化。每个单独的分量简单地对应于前面讨论的N=G=1的设置因此，调用我们先前的结果，我们得到，当工人为每个问题选择所需的选项时，N=G让我们最后考虑一般情况下的N G1。回想一下等式（2），一般情况下的预期报酬是两个预期的级联：外部预期是关于G个黄金标准问题在总共N个问题中的均匀随机分布，而内部预期是基于黄金标准问题的选择的不同问题的工人信念，并将注意力限制在这些G个问题上上面关于N=G的论证证明了内部期望中的每一项当工人按要求行动时，它被最大化外界的期望并不影响这一论点-我是说。因此，当工人以所需的方式选择选项时，预期的报酬最大化。Q3.2唯一性在本节中，我们将讨论我们的第二个目标，即在许多可能的选项中选择一个严格适当的评分规则。特别是，我们表明，评分规则1的核心结构必须是任何严格适当的评分规则的一部分。第3.2节. 考虑任意σ（0，1），N1，和任意B3.当G= 1时，我们提出的评分规则，评分规则1，是唯一可能的严格适当的评分规则，直到一个恒定的移动和积极的缩放。众包中的批准投票和激励十三：ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月..联系我们κ=−联系我们∈≥ ≥≥这个结果的证明表明，任何严格正确的评分规则f必须满足以下四组方程（当G=1时）：f（m+1）=（1 −σ）f（m）+ σf（−m）对于所有m∈{1，.，smax−1}，f（m+2）=（1 − 2 σ）f（m）+2 σf（−m）对于所有m∈{1，...，smax−2}，f（−smax）=f（smax）−f（smax−1）+f（−（smax− 1）），以及f（0）=σf（1）+（1 −σ）f（− 1）。这四组条件加在一起，只留下两个自由度的选择支付函数f，因此唯一的特点评分规则，以一个恒定的转变和规模。完整的证明见附录B.1。虽然我们没有一个完整的答案，什么是4相对阈值在下文中，我们首先提出了我们提出的严格适当的评分规则，这个问题，并随后得出我们的评分规则的几个有吸引力的属性。4.1严格正确的评分规则我们首先介绍我们提出的评分规则，用f表示，作为评分规则2。评分规则2：相对阈值• 输入：对G金标准问题答案的评估（x1，.，x G）• 输出：付款Gf{\displaystyle f}{x}1，.，x G）= κ（1ρ）|Xi|1 x i1+ αmin，i=1其中αmax−αmin（1−ρ）G报酬仅根据对工人回答黄金标准问题的评价而定。很容易用语言来描述评分规则：支付是αmin加(i) 如果未为一个或多个问题选择正确答案，则为(ii) 对于所选的每个选项，κ降低（100ρ）%支付规则的部分（i）是评分规则2的描述中的指示符函数1xi 第（ii）部分由于项（1ρ）而产生|Xi|. 项κ仅用于确保满足（αmax，αmin）条件下面的定理表明，这个乘法评分规则确实是严格适当的：第4.1章. 考虑任意ρ（0，1），N G 1，和B 二、那么，评分规则2是严格的适合于相对阈值化。定理4.1的证明见附录B.2。这个证明首先计算出当工人按要求选择选项时的预期报酬，然后通过一些仔细的代数论证，表明任何其他选项的选择都将导致严格较低的报酬。十三：N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月--−{−}4.2附加属性我们现在通过提供我们提出的评分规则2的几个额外的吸引人的属性来实现我们的第二个目标。4.2.1一个公理化的“唯一性”推导。我们首先描述我们提出的评分规则的公理推导证明了“唯一性”的评分规则推导涉及Shah和Zhou的如果一个工人对一个问题选择的选项集中没有正确的选项，我们就说这个工人对这个问题的回答是此外，如果一个工作者选择了至少一个选项，同时也遗漏了至少一个选项，也就是说，当工作者提供了一些不同选项的区别信息时，我们说他已经有了这些原则，没有免费午餐公理被定义如下：定义3（没有免费午餐公理;改编自[55]）。如果对金本位制中每一个试图提出的问题的回答都被证明是错误的，那么工人得到的是最低限度的报酬，即，f（x1，. . ，xG）=αmin（x1，. . . . ，xG）∈{−（B−1），. . ，−1，B}G\{B}G.首先，要注意没有免费午餐公理是一个非常温和的条件。例如，即使一个工人为每个问题均匀随机选择B个选项，22G“没有免费午餐”这条公理就会发挥作用。第二，注意到我们没有在事件（x1，.）下施加任何限制。，x G）=B G。在这个事件上强加“没有免费午餐”的条件只会使“没有免费午餐”的要求更强，从下面的定理4.2可以得出，任何严格适当的评分规则都不可能满足这个更强的要求。也就是说，我们稍后在定理4.5（a）中表明，我们的评分规则对于这个事件也是最优的现在我们来看本节的主要结果。第4.2章. 评分规则2是满足没有免费午餐公理的相对阈值的唯一严格适当的评分规则。定理4.2的证明见附录B.3。证明依赖于以下引理，它提供了一个必要条件，任何严格适当的评分规则都必须满足这个必要条件（这可能满足也可能不满足没有免费午餐）：4.3.BLOG相对阈值化的任何严格适当的评分规则f必须满足f（x1，.，xi −1，xi+1，xi+1，.，x G）=（1 − ρ）f（x1，. ，xi−1，xi，xi+1，. ，x G）+ ρf（x1，. ，x i−1，−x i，x i+1，. ，xG），对于每个i ∈ [G]和（x1，. ，xi −1，xi+1，. ，x G）∈ {−（B − 1），. ，−1，1，. ，B}G −1，xi∈[B − 1].注意引理没有使用没有免费午餐的条件。换句话说，引理考虑了对黄金标准问题1，... ，i 1，i +1，G. 确定这些问题的评估，它说，在任何严格适当的评分规则下，对问题i的评估（xi+1+1）的支付必须是对问题i的评估xi和xi下的支付的凸组合。此外，该凸组合中的系数必须精确地等于参数ρ。附录B.3.1给出了这个引理的证明。重复应用这个引理，再加上没有免费午餐公理，就得到定理4.2的结果。众包中的批准投票和激励十三：ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月∈{−}B4.2.2获得支持。这一部分的动机是库姆斯的一个命题[9]，即“参加测试的个人应该被指示划掉所有他们认为错误的选择。”有了这个动机，我们考虑激励员工不要选择他们认为错误的选项，而选择其他选项。更正式地说，对于每个问题，我们希望激励工人在B选项中选择信念分布的支持：{b∈ [B] |p ib 0}，（6）对于每个问题i[N]。[2]这一要求的另一个动机是它可以简单地向工人描述所需的任务。由于信念分布的支持必须包含至少一个项，我们将要求工人为每个问题至少选择一个选项。因此，本节中考虑的评分规则是映射集合（B1），.，1，1，...，B到区间[αmin，αmax]。在附录A.1（命题A.1）中，我们表明，没有严格适当的评分规则，可以实现这个目标。然而，我们呼吁心理学文献做出一个额外的假设，使我们能够解决这个问题。有大量的心理学文献证明了人类的处理和感知是粗糙的例如，米勒的著名论文[ 40 ]建立了人类的信息和存储能力：一个普通人通常最多可以区分七种人类计算的这种粒度在许多后续实验中得到验证[50，56]。Jones和Loe [28]建立了更细粒度的响应诱导的无效性。Mullainathan等人[42]假设人类经常将事物归类; Siddiqi [57]在特定环境中通过实验验证了这一假设。本着人类处理过程的粗糙性的同样精神考虑某个（固定且已知的）值ρ>0，并假设根据工人的信念，任何问题的任何选项的概率3.由于必须考虑到工人对一个问题完全一无所知的情况当她的信念在所有选项上均匀分布时，我们限制ρ1。<总结一下，我们做出以下B定义4（粗略的信念假设）。工人对任何问题的任何选项的信念都存在于集合{ 0 }<$（ρ，1]中，对于某个（固定且已知的）值ρ ∈（0，1）。我们的目标是设计严格适当的评分规则，支持启发下的粗信念假设。一种选择是通过设置σ=ρ/2来使用评分规则1;这将是严格正确的。但是，我们将在这里追求一个更有趣的方向我们表明，我们的评分规则2也适合法案的严格适当性的证明如下定理4.1的推论，在那里我们表明，引起支持下的粗信念假设是一个特殊的情况下设置的相对阈值。然后，我们将在随后的章节中展示，就这一目标而言，这一评分规则具有许多CORO llARY 4.4. 任何严格适当的评分规则相对阈值也是严格适当的，以引起支持工人的信念下的每一个问题的粗略的信念假设。因此，评分规则2是严格适当的，在粗略的信念假设下，引起工人的信念的支持这一推论的证明见附录B.4。[2]这当然是一个程式化的要求，通过零信念，我们考虑的是极低的概率，工人实际上将其视为零。[3]我们很快就会明白，这里选择符号十三：N. B. Shah和D.周ACM Transactions on Economics and Computation，卷。号83、第十三条。出版日期：2020年6月∈≥--i=11Gi=1我4.2.3基于绩效的薪酬。回想一下，我们要求对完美回答（f（1，.））的工人支付αmax。，1）=αmax），并且我们还强制要求每个工人至少支付αmin（f（x）[αmin，αmax]对于每个x）。在金额（αmax，αmin）固定的情况下，请求者可能希望确保基于绩效的报酬，这确保了相对于其他人而言，优秀工作的报酬更高。给定一定的货币预算，这种基于性能的支付将确保大多数支付是为了更好的性能，从而能够支持良好的工作并阻止垃圾邮件发送者。从长远来看，这些影响反过来又会使优秀的员工受益，因为他们将获得请求者预算的更大份额。在本节中，我们将探讨基于绩效的

下载后可阅读完整内容，剩余1页未读，立即下载