使用可配置游戏获取多种知识：FindItOut

129 浏览量更新于2023-11-29 收藏 1.25MB PDF 举报

知识获取

人类计算

身份认证购VIP最低享 7 折!

30元优惠券

1709×→··一号选手准备！使用可配置游戏获取多种知识Agathe BalaynJiang，Gaole HeJiang，Andrea HuJiang，Jie Yang，andUjwal Gadiraju荷兰代尔夫特理工大学网络信息系统{a.m.a.balayn，g.he，j.yang-3，u.k. gadiraju}@ tudelft.nl，hjc3299@gmail.com摘要获取常识知识正在重新受到开发神经符号AI系统或调试深度学习模型的兴趣。目前很少了解的类型的知识，可以收集使用现有的知识elicita- tion方法。此外，这些方法无法满足几个下游人工智能任务的不断发展的要求。为此，除了负面或歧视性知识之外，收集广泛和隐性知识也非常有用。为了解决这一研究差距，我们开发了一款新颖的游戏，“FindItOut”，通过易于配置的游戏机制从人类玩家那里引出不同类型的知识。我们从一个众包平台招募了125名玩家，他们玩了2430轮，产生了超过15万个知识元组。通过对这些元组的广泛评估，我们表明FindItOut可以成功地创建具有良好玩家体验的多元知识。我们通过两个下游任务的镜头评估游戏的效率（比参考基线高出10以上）和所产生的知识的有用性-常识问题回答和区分属性的识别。最后，我们提出了一个严格的定性分析的元组的特点，通知未来使用的FindItOut跨各种研究人员和从业者社区。CCS概念• 以人为中心的计算协作和社会计算;界面设计原型。关键词知识获取，判别知识，神经符号人工智能，常识，人类计算ACM参考格式：AgatheBalaynZhao ， Gaole HeZhao ， Andrea HuZhao ， Jie Yang ， andUjwal Gadiraju. 2022. 一号选手准备使用可配置的游戏获取多种知识。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29 日，虚拟活动，法国里昂。 ACM ，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3485447.3512241平等贡献。本作品在知识共享下许可署名-非商业性使用-相同方式共享国际4.0许可协议。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.35122411引言随着人工智能和机器学习在各个领域的扩散，获取知识是无处不在的必要条件[40，50]。例如，几年前，人们发现知识对于构建自动化代理很有用，这些代理可以对常识事实进行推理[39]。随着机器学习技术在不同用例中的发展，这种必要性现在重新浮出水面[10]。知识可用于评估机器学习模型获得的“知识模式”的有效性，并由最近的可解释性工作[33，34]为各种推理任务[20，23]所强调。在最近的神经符号人工智能工作中，知识被集成到模型中[13，21]，以促进更准确的推理机制的学习，因为它们不仅仅依赖于潜在的有偏见的统计数据模式。知识工程是一个研究领域，专注于开发收集知识的方法[37]。通过简单的界面或复杂的交互（如有目的的游戏）询问人类，通过挖掘现有的文本资源，或通过对已知事实进行逻辑推理以推断新事实，从而收集知识[16，50]。鉴于对知识的新需求，我们确定了与这些知识有关的三个重要差距启发方法，我们的目标是解决这项工作。我们对通过这些方法可以收集的知识类型的理解仍然很肤浅。知识可以根据领域及其预期用途使用不同的质量类型学进行分类。它从显性到隐性，从一般到具体，从概念到情景，从浅到深，从常识到专业等等。然而，以前的作品并没有提供一个深入的特点，他们收集的知识。这可能是在人工智能任务的背景下利用这些知识的障碍例如，考虑这样一个问题：“一个人从离婚中得到了什么？”, 虽然前四个似乎与“离婚”高度相关在这里，重要的是要把“收获”与积极的东西联系起来，人类能够心照不宣地做到这一点。隐性和常识知识-“所有人都拥有的关于日常世界的知识”[25]，具有被多个人共享的品质，并且是基本的，隐含的，大规模的，开放的领域[50]-已被预示为未来人工智能系统的关键要素[26]。收集的知识仍然有限且不完整[22]，导致某些任务中的错误。启发式方法在很大程度上促进了生成知识的创建，但既不是歧视性的，也不是否定性的知识-尽管新的人工智能任务需要这样的知识，例如，用于丢弃错误的AI模型[2，3，22]。判别知识允许区分两个概念（例如，章鱼，与鱼相反，没有鳍）-相反1710·WWW到生成性知识，限定一个单一的概念。否定知识通知元组的无效性以表征一个概念或两个比较的概念（例如，人不是职业）。利用人类智慧和常识知识可以收集现有资源之外的有针对性的知识。然而，由于缺乏对可以从人类（或在线人群工作者）引出的知识类型的理解以及伴随的知识广度，典型的知识获取方法不容易被配置为满足不同的要求（例如，知识的缄默性、特异性）。我们将我们的工作定位在涉及人群的知识启发技术的背景下[16，45，50]。在此，我们从有目的的游戏（GWAP）领域的先前工作中汲取灵感，这些工作在以有效的方式收集各种知识方面表现出了希望。流行的GWAP，如ESP游戏[46]，Peekaboom[49]和Phetch [47]已经提供了证据来证明这种方法的效率及其灵活性（例如，使用游戏化和诸如禁忌词的机制来调整收集的数据的类型）。结合人群计算框架的发展[11]，GWAP可以允许大规模获取知识，同时使用不同的激励措施吸引人类。然而，据我们所知，还没有开发或提出GWAP来收集歧视性或负面的知识。因此，我们首先设计并实作了一个名为“FindItOut”的新GWAP然后，我们描述了可以使用FindItOut收集的知识的多样性，以及这些知识在相关AI任务中的实用性。我们强调了FindItOut在鼓励参与者将显性知识和相关隐性知识外化方面的适用性。最后，我们证明了效率的游戏受到不同的参数。我们做出以下贡献：一种新颖的可配置的GWAP1，其便于收集正面和负面的、生成的和辨别的知识，同时便于愉快的玩家体验。一组结构化的维度，通过这些维度可以描述通过用户交互收集的知识对使用FindItOut和付费在线众包可能产生的知识类型和质量的描述。针对两个不同的AI任务对游戏的吞吐量和实用性进行了广泛的评估我们的研究结果表明，FindItOut是非常有效的获得隐性，歧视性和消极的知识-缺乏现有的知识库。我们还表明，游戏的可配置性允许引出知识，可以是特别有用的人工智能任务，如常识问题回答和识别的歧视性属性。2背景相关文献2.1知识作为探究的主题在社会科学。不同类型的知识已经出现[31]。其中最常见的一个是明确性。明确的知识也可以轻易地传递给其他人。”[8]的一项建议。相反，隐性知识很难表达。它1https://github.com/delftcrowd/FindItOut[..] 心智模式、信念和观点如此根深蒂固，以至于我们认为它们是理所当然的，无法轻易表达出来”[29]。与隐性知识相比，显性知识更有可能已经存在于可用的知识库中[18]。我们提出的游戏涉及人类玩家，并推动他们对他们可能不会立即想到的概念进行陈述。因此，我们假设（和评估），我们的游戏允许收集隐性知识，除了明确的那种。隐性知识和显性知识之间的区别主要用于组织中知识创造过程的形式化[29]。特别是，组合[28]是从先前的显式知识的组合中合成显式知识的过程。我们的游戏通过将关于不同概念的明确知识合成到单个知识库中来实现这一点。外化[28]是从隐性知识中创造显性知识的过程，通常使用专家访谈和问卷调查，或专家的自我分析 [ 27 ] 。在我们的工作中，我们评估了我们的 GWAP ，FindItOut，可以通过游戏机制支持和操作外部化的程度计算机科学专业最近的人工智能推理任务描述了与生成知识相反的辨别性知识。虽然生成知识大致对应于关于不同实体的信息，但判别知识允许识别这些实体之间的差异，这“允许掌握意义的微妙方面”。和]有助于意义的计算建模的进展最近的作品[2，3]在开放世界假设下的知识推理也讨论了否定知识的重要性。它可以增强用于知识探索和问题回答的知识库Biswas et. al [5]还建议利用负面陈述作为线索，帮助玩家找到对特定问题的答案。随着人们对这些类型知识的兴趣越来越大，FindItOut是第一个直接收集歧视性和否定性知识的GWAP，这些知识总是可以通过简单的后处理转化为生成性知识。2.2知识获取有目的的游戏（GWAP）用于有效地从人群中收集大量知识[45]。他们已经被证明在收集某些类型的知识方面表现良好。多人GWAP。 Verbosity [48]是第一个为收集常识知识而提出的GWAP。这是一个两人游戏，禁忌启发，合作的游戏，其中一个叙述者球员给提示，以猜测球员谁应该猜测的话，叙述者是暗示。它使用评分系统来激励玩家提供最相关的输入。还有一个单人游戏版本，以验证收集的知识。提示有一个模板格式，其中包含一个关系，可以用额外的单词填充普遍共识[24]是一款受FamilyFeud启发的竞技游戏，收集特定目标的知识。它根据目标列表和模板问题列表生成问题，玩家输入尽可能多的答案（单个单词）分数是根据具有相同答案的玩家数量计算的。单人GWAP。 RobotTrainer [32]是一个游戏，它收集知识规则，排名它们的适当性，并评估它们的有效性。为此，它被组织在三个级别，玩家可以编写基于模板的规则，这些规则应该用来回答一个问题····一号选手准备使用可配置游戏获取多种知识WWW1711或者评估这些规则。它被证明提供类似的结果，以非游戏为基础的互动，但更多的参与的用户。20个问题游戏[42]要求玩家思考一个概念，游戏顺序生成一个20个基于关系模板的问题列表，以尝试猜测概念，玩家应该如实回答这些问题。尽管设计简单，但玩家发现这个游戏比简单的基于模板的输入系统更喜欢。概念游戏[15]类似地生成要求参与者验证的规则，以减少参与者生成断言的认知负荷。其他游戏已经提出，如虚拟宠物，融洽，猜猜看？！，OntoProto，SpotTheLink [37]，要求玩家同意概念之间的关系，猜测其他概念描述的概念，或回答问题以提取知识。与现有的GWAP相比：（a）FindItOut通过设计，具有比以前的游戏更高的吞吐量。它使问题和答案都与知识的创造相关的想法可操作化。这导致与上述两个玩家的游戏相比收集更多的知识，因为两个玩家同时贡献不同的知识元组，与玩家交互允许创建单个知识元组的其他游戏相反。（b）FindItOut是唯一一款直接允许收集歧视性和负面知识的游戏。以前的游戏需要直接输入与预先存在的特征相关的概念，或者填写模板。他们没有留下负面投入的空间，这也消除了间接引起歧视性知识的机会。（c）FindItOut所提供的知识在设计上更加多样化。虽然它重新使用了以前的关系模板和评分系统的想法，但它与20个问题和共识不同，因为它创建的知识更加多样化，因为模板中的规则是人工生成的，并且比单个单词更丰富（关系和多达5个单词的2.3除了GWAP，还有其他互动方法[50]用于知识启发。FindItOut的一个基本特征是它的问题和-swering工作流程，灵感来自离线游戏猜猜谁？，以及来自诸如CuriousCat [6]的众包框架，该框架通过向涉及其当前环境的众包工作者提出问题来收集上下文常识知识（例如，他们所在的餐厅的大小）。 Cosmos QA [17]和Socialiqa [35]是通过要求群众工作者制定需要常识知识的问题和答案来收集的数据集，这些问题和答案与从博客或先验知识库（例如，ATOMIC）。我们从这些作品中汲取灵感，并激励人群工作人员通过游戏机制制定问题。3多元知识提取为了引出和收集积极和消极的辨别性和生成性知识，我们提出了FindItOut [4]-一个受流行游戏“猜猜谁？”启发的竞争性2人游戏。控制游戏设计的功能性和非功能性需求在第2页中进行了阐述。2https://sites.google.com/view/finditout-www22/home3.1知识启发根据现有的知识库，我们的目标是以概念之间关系的形式生成知识。我们收集的三重生成知识对应于一个概念，一个关系和一个特征输入，并采取两种可能的格式。它可以是一个积极的三重+概念、关系、输入>其中输入是由游戏者在游戏中输入的文本。例如，+表示概念teapot可用于泡茶。我们还收集负知识作为负三元组-<概念，关系，输入>，这表明关系和输入不适用于概念。例如，-表示概念teapot不能用于跑步。辨别知识。我们还收集有区别的知识。这种知识用正四元组+<概念#1，概念#2，关系，输入>，其中关系及其相关联的输入适用于概念#1，但不适用于概念#2，从而允许区分两者。例如，表示概念teapot与概念shoe的不同之处在于只有teapot可以用于泡茶。相反，负四元组意味着关系和输入不允许区分两个概念。3.2游戏名称：FindItOut初始化。在游戏开始时，两个玩家都有一个由多张卡片组成的棋盘，代表不同的语义概念。每一张卡片上都有一张图片，说明了这个概念、它的名字以及当你把鼠标悬停在卡片上时它的潜在定义。游戏板可以根据目标要求进行配置和布局。这些图板是用贪婪的方法生成的：一旦为一个图板检索到一些初始概念，其他相关的概念就会被附加到图板上，或者通过在WordNet分类中搜索，或者通过适应手头的任务-当人们想要理解两个预定义概念之间的差异时，这两个概念可以同时添加）。游戏随机分配一张牌给每个玩家作为他们的IT卡。每个玩家的主要目标是通过反复提问并根据对手的回答排除可能的候选人来猜测对手的IT卡（在他们的卡被识别之前）。游戏难度可以配置，影响棋盘上的牌数。拥有更多卡片的游戏板预计更具挑战性，因为它们要求玩家思考同时区分更多概念的问题。我们还希望这些板能推动玩家表达更多的隐性知识。轮流提问和回答。为了平衡双方的获胜机会，并遵循通过GWAP获取知识的最佳实践[ 14 ]，这两个玩家轮流扮演提问者和回答者的角色。让参与人1在给定的回合中担任提问者。他们有两个选择：提问或猜测。选择ASK会促使参与者1提出一个问题来问参与者2。然后，参与者2被要求回答参与者1的问题，选择四个选项之一：“是”，“否”，“可能”，“不清楚”。“Maybe” is an appropriate answer in cases where it isambiguousWWWAgathe Balayn、Gaole He、Andrea Hu、Jie Yang和UjwalGadiraju1712. 结果是（n是游戏板的大小）知识元组。康-图1：FindItOut主界面和工作流程。（1）提问者输入一个问题。（2）回答者选择一个答案。（3）阿斯克翻转相关卡片。本回合收集的知识示例在（3）的右上角展示（不在游戏中一定条件选择“不清楚”表示参与人1需要重新表述这个问题，因为参与人2没有理解它。根据答案，玩家一通过点击牌来翻转牌，以将它们从竞争中消除，并缩小玩家二的IT牌的可能候选人。这一回合结束，参与人2成为提问者。选择GUESS允许玩家1在棋盘上指定一张牌作为他们对玩家2的IT牌的猜测然后，玩家2被提示自己猜测，之后游戏结束。如果玩家1的猜测与玩家2的信息卡相匹配，则玩家 1获胜这个动作只能在每个玩家分别根据简单或困难的游戏水平问了2或3个问题后才能选择。这种设计选择劝阻玩家尝试随机猜测，不会有助于知识创作图1展示了这个工作流程和游戏玩法。问题表述。由Asker制定的问题遵循模板<关系，输入>。该关系是从预定义的一组关系中选择的，并且输入是由Asker手动输入的自然语言命题，限制为5个单词（为了便于后处理并限制作弊的可能性）。我们采用这种基于模板的问题回答策略，因为以前的作品已经证明了他们的潜在效率。例如，OMCS项目[38，39]确定了结构化的基于关系的模板在收集规则类型知识方面更有效，并且结果比完全依赖自然语言更有用。因此，通过使用基于模板和自然语言问题表述的组合，FindItOut为我们提供了调整潜在目标知识的可配置性。禁忌语。我们使用禁忌语来确保玩家提出的问题不会太简单，并允许提取有用的知识。我们阻止玩家输入包含与棋盘上的概念具有相同词根的自然语言输入。例如，如果游戏板上的概念是“鸟”，则玩家不能问“我的卡是鸟吗？”。随着时间的推移，可以添加新的禁忌词，以防止收集多余的知识。3.3后处理产生的知识提取知识。我们处理每一个回合，以创造基于知识的知识。在收到对手的回应询问者的翻转卡片动作提供收集（+ / --）卡片形式的新元组所需的所有信息<，关系，输入>，在哪里“卡？”卡片被翻转。具体地，当接收到问题的答案时，问题中的关系和输入直接应用于批次A：预留卡，即，先前未翻转的牌和保持未翻转的牌的批次，其中符号对应于答案（是是+，否是-）。在回合中被翻转的那批牌（B批：翻转的牌）得到的是答案符号的倒数。例如，考虑问题是“我的卡片有翅膀吗”的序列<，答案是“否”，然后Asker翻转“鸟”卡，我们构建知识三元组+bird，has，wings>。判别知识是用批处理中的两个概念（A和B）和四重模板提取的任何概念对都可以被聚集以生成判别知识，n2从每批产品中挑选一个概念，来自同一批的两个概念导致负的判别知识。质量控制回答者在回答问题时撒谎是最好的，这样提问者就会被误导（理性游戏用户模型[14]）。我们通过游戏设计来解决这个问题。在游戏结束时，两名玩家都会看到对手的IT卡和他们自己的问题历史，并且可以报告任何回合的错误/错误答案或犯规。当从转弯中提取知识时，我们自动过滤掉报告的转弯，并手动识别离群值（例如，不按要求翻牌的玩家，在游戏中作弊，问无意义的问题）。3.4技术实施FindItOut作为一个实时的、响应式的Web应用程序实现（参见附录A.1），以方便和可移植性（只要支持Web浏览器，游戏就可以在任何平台上运行它支持与连接到应用程序的自愿玩家以及从付费众包平台招募的玩家进行互动。设计选择。卡片数据通过查询WordNet获取概念定义，并通过Google搜索获取概念的视觉表示。在当前版本的游戏中，我们选择了8个关系，从ConceptNet[25]中提取（IsA，HasA，HasProp，UsedFor，CapableOf，MadeOf，PartOf，AtLocation）-参见表3-，基于它们的共性，它们对名词的适用性以及对游戏板中显示的概念的目前，我们提出了两个游戏难度：8牌在棋盘上，16张牌很难一号选手准备使用可配置游戏获取多种知识WWW17134研究设计和设置FindItOut被设计成可配置和模块化的，从而促进准确和多样的知识的启发（我们在本研究中收集的知识的概念被选择为抽象和具体的名词）。它旨在为玩家创造愉快的体验，同时作为收集知识的有效手段。这些是我们接下来要评估的目标4.1措施和建议我们通过对两个难度级别的元组进行定性和定量分析来评估FindItOut。在相同的条件下，没有一个具有众包的全球行动方案可以作为直接可比的基线。因此，我们利用用于知识收集系统的标准评估镜头[ 50 ]，以及对知识和游戏的可享受性的定性分析这些措施说明如下：知识收集的效率我们测量的元组（正和负的三元组和四元组）的数量，从游戏中产生的，以及重叠的知识-边缘元组的两个球员跨游戏和回合产生的分数。通过考虑FindItOut游戏持续的平均时间和回合数以及其成本，我们可以衡量知识生成的吞吐量和效用收集知识的质量我们分析每个结果元组的正确性和多样性。为此，我们利用一个客观的衡量标准-在游戏中使用的关系类型，以及一个主观的衡量标准-我们手动对每个结果元组进行多个维度的评分（有意义性，正确性和解释的多样性，偏见，典型性，特异性，缄默性）。玩家体验。我们使用玩家体验问卷[1]来评估玩家使用FindItOut的体验，并了解他们享受的程度。玩家被要求在他们选择在一个会话中玩在这个阶段，我们还收集了玩家对游戏的开放式评论和评论。4.2收集知识虽然上述措施可以帮助我们理解和量化生成的知识的特征，但它们并没有直接突出引出的知识对具体人工智能任务的有用性为了解决这个问题，我们调查的有用性，我们收集的生成和歧视性的知识，考虑两个独立的和流行的任务。覆盖区分属性任务是作为2018年SemEval挑战的一部分引入的[22]，并且包括“预测”一个词是否允许区分两个概念（例如，尿是词对{肾，骨}中的区分特征）。这与我们通过FindItOut收集的辨别性知识非常一致。因此，我们调查在多大程度上填充板在我们的游戏与这个任务的概念，并有玩家与这些板互动，让我们收集这样的知识。因此，我们计算的覆盖范围内引发的知识与任务的歧视性的话。以判别属性（DA）数据集中的概念1、概念2、特征>三元组为参考，首先进行知识从FindItOut中提取的共享这两个概念的元组将这些元组作为候选，我们生成要注释的参考候选对。我们将覆盖评估（candi- datetuple是否覆盖参考三元组）任务分散到5名志愿者，其中10%的参考三元组重叠。为了使知识元组可读，我们为引用和候选生成语句。常识推理的隐性线索。一般通过测量后续推理任务中的性能增益来评估生成知识的可靠性，例如需要丰富常识知识的问题回答[50]。我们生成游戏板来提取常识问答（CSQA）基准[44]子集的元组，并评估提取的知识是否有助于进行常识推理。在生成知识元组之后，我们使用SimCSE [12]作为检索工具包来获得每个问题选择对的前k（k = 5）个相关候选项。为了保留与问题高度相关的候选人，我们过滤掉相似度小于0的候选人。5. 我们只保留所有选择都有至少10个候选人的问题，从而获得了179个问题的子集。接下来，我们进行手动评估，以标记候选知识元组是否（1）正确，（2）与问题高度相关并可能有助于推断答案，或（3）直接确认答案或丢弃干扰项。此外，我们评估是否收集有用的知识元组所涵盖的主要现有的常识知识库4.3参与者和程序玩家我们从多产众包平台[30]招募参与者来玩FindItOut。所有参与者都是18岁以上的熟练英语使用者，他们在多产平台上的批准率至少为90% 如果参与者没有像预期的那样翻牌，或者在游戏中作弊方面表现出离群值（例如，告诉对手他们的IT卡或经常给出错误答案）或问毫无意义的问题。所有参与者都获得了2.5英镑的奖励，相当于每小时7.5英镑的工资，被平台视为“良好”的支付。为了鼓励参与者积极参与游戏，我们每赢一场就奖励参与者0.15英镑的额外奖金。玩家在进入游戏时由我们的系统随机匹配，彼此不认识玩家被要求玩5个强制性游戏，三个在简单的难度水平和两个在困难的水平。难度的不断增加让玩家逐渐熟悉游戏机制。完成这五个游戏后，玩家可以玩其他游戏或退出问卷。生成游戏板。对于CSQA任务，在同一问题中出现的概念被附加到一块板上（例如，{飞机，学校，墨西哥，战斗，人类，乐队，工厂，医生}，或{乡村，绘画，村庄，火车，地面，山脉，岩石，小屋}。在区分属性（DA）任务的情况下，选择来自相同三元组和来自相同语义场的概念（例如，{镜子，项链，香烟，灯笼，蜡烛，围巾，灯，吊灯}，或{父亲，国王，女儿，儿子，王子，叔叔，兄弟，堂兄}）。DA任务的概念为了用有限的预算覆盖尽可能多的来自DA数据集的三元组，我们只考虑包含两个频繁概念的三元组（即，至少发生5次，1714WWW正判别三元组）。使用每一个概念作为种子，我们生成了一个贪婪的搜索策略，以最大限度地提高可能覆盖的三元组的游戏板。考虑到具有良好多样性的游戏板可以潜在地创建更好的游戏体验，我们过滤掉具有重叠概念的游戏板（简单游戏的阈值为2，困难游戏的阈值为6）。最后，生成了41个简单的游戏棋盘和22个困难的游戏棋盘来自CSQA任务的概念我们从CSQA数据集[44]中选择至少涉及5个有意义的单字概念（问题概念和选择概念）的问题，得到864个问题的子集。与DA数据集的棋盘生成类似，我们利用贪婪搜索策略来最大化同一问题中出现的概念，以放置在一个游戏棋盘中。有了这个标准，多个问题可以“合并”到一个板上（见附录A.2）。最后，115个简单的游戏板和70个困难的游戏板产生有关的CSQA任务。4.4知识的定性评估定性维度的定义。由于缺乏自动化、标准化的知识质量评价方法，边缘通过GWAP引出，我们进行了一个定性的评价，相对于知识的“正确性”和“多样性”的生成的知识我们手动地用“正确”、“不正确”或“不确定”（当有疑问时）对元组的事实正确性进行评级。我们遵循迭代编码过程[43]，根据计算机科学和社会科学相关文献提供的几个维度（正确性、真实性、偏见、缄默性、典型性、特异性）来表征知识的多样性。表1列出了用于评估知识元组的维度根据定义，知识是真的[31]，因此，将其划分为不止一个二元命题是困难的。因此，我们不使用与以前的作品相同的Likert尺度维度[39]，而是提出了正确性的多维描述。注释程序。我们通过选择和注释从与DA任务有关的游戏板收集的样本的子集来分析生成知识的质量。我们随机抽取了30个高难度游戏（产生了1628个生成知识元组），收集它们所涵盖的概念，然后选择通过简单游戏收集的所有知识元组，其中棋盘包括一些以前的概念（147个游戏和2429个知识元组）。判别元组可以从具有不同符号的两个生成元组生成。因此，判别元组的质量和符号被生成元组的质量和符号所覆盖本文的5位作者对这些维度随机选取的50个生成知识元组进行了注释，并一起对代码进行了改进，直到达到完全一致在此之后，每个作者独立地注释了793个元组，包括95个元组的公共子集，允许我们测量注释者之间的一致性。 Krippendorff α评分分别为0。91为有意义，0。37为正确（与0。38和0。45为有问题的符号和关系），0。偏差为31，0。23为典型性，0。39为特异性（0. 当仅使用两个值时为510。33为沉默（0. 43（仅使用两个值）。分歧5结果讨论5.1游戏效率知识量。总体而言，DA和CSQA数据集分别进行了255场（164场简单，91场困难）和242场（142场简单，100场困难）比赛。这导致收集了75，491和85，923个知识元组。对于DA数据集（和CSQA数据集），5.28%（4.39%）的元组是生成正元组，6.38%（6.66%）的元组是生成负元组，22.8%（20.4%）的元组是判别正元组，65.6%（68.5%）的元组是判别负元组。91.1 与DA游戏板有关的知识元组的百分比和97%的w.r.t. CSQA板由唯一的元组组成，而其余的元组在回合或游戏中多次生成。DA游戏板和CSQA游戏板的平均游戏时间分别为367.2 s（SD=722.3）和377.8 s（SD=192.3），DA游戏板和CSQA游戏板的平均游戏时间分别为3.88圈（SD=1.63）和4.09圈（SD=1.41）。同样，困难的游戏持续了397.5秒（SD=201.4）的DA板-分别。CSQA板为428.4（SD=204.3），要求为5.69（SD=1.98）5.78（SD=1.63）圈。吞吐量总的来说，对于DA数据集，每分钟生成13.9个元组，这是Verbosity [48]3的十倍。我们将游戏的吞吐量定义为引发元组的数量除以引发它们所花费的时间（以秒为单位）在图3（cf. 附录），我们报告了DA和CSQA任务的游戏吞吐量，这取决于游戏的回合以及引发的知识元组的类型。在这两种情况下，吞吐量随着轮次而降低，因为在后面的轮次中存在较少的未覆盖卡，导致在翻转新卡时生成较少的元组。正如预期的那样，高难度游戏的吞吐量高于简单游戏，特别是游戏的第一轮由于在困难的游戏中，游戏板上有更多的卡片，玩家被激励去问尽可能多的卡片，更多的知识直接从早期的几轮中引出。这也是为什么这些困难游戏的判别知识和生成知识之间的差异高于简单游戏的原因（对于提问者来说，一个“好”的问题会导致翻转/未翻转的卡片的最佳数量，由于游戏机制保持不变，因此在数据集之间没有观察到重大差异。效用我们将效用计算为每单位时间（以秒为单位）提取的价值与成本（以磅为单位）的比值。对于DA数据集，我们认为提取的值是隐含的、特定的或非典型的元组的数量，因为这些元组不能轻易地从其他来源收集。对于CSQA数据集，我们认为提取的值是正确且与CSQA任务相关的元组的数量。在图2中，我们根据游戏的回合和难度报告了两个数据集的归一化效用。两项任务的平均效用随时间变化不大，尽管标准差很大。这是因为球员在比赛中获得的知识类型差异很大。困难的游戏对应于DA任务的FindItOut的更高效用，而简单的游戏对应于CSQA任务的更高效用。一般来说，较大的游戏板可以有效地帮助生成更有价值的知识元组，这是因为包含了更多的卡片。作为CSQA游戏是由于任务的主观性：知识和准确性，一个事实因个人对世界的经验而异[3]根据报告的近似数字：29.47/23.58 = 1.25元组/分钟。一号选手准备使用可配置游戏获取多种知识WWW1715有效性一个有效的元组是可理解的[50]，并且输入不是作弊的结果（例如，卡上的可视内容的描述）。invalid+（tap，UsedFor，can your card used home），+（mother，HasA，colorbrown in it） valid+（camel，AtLocation，in africa）15表1：分析知识元组的维度标签对应于用于收集注释的比例维说明标签示例正确+（lamp，HasProperty，makes light）不正确 - （鼹鼠，IsA，捕食者），-（松鼠，UsedFor，游泳）一个元组可以是有偏见的，因为它只在特定的上下文中为真，因为一个人可以被自己的世界观所偏见。表示从某人的角度来看元组的感知典型性指示元组中输入提供的详细信息级别unbiased +（cucumber，IsA，fruit），-（dishwasher，UsedFor，preserving food）biased+（crab，HasA，big claws），-（trousers，usedFor，mainly women）高+（船，地点，水上），-（插头，用途，限制某物）中+（汽车，用途，单人），-（手指，地点，家具上low+（fan，IsA，mostly black in colour），-（aunt，UsedFor，amarried person）high+（skirt，IsA，typically femaleclothing），-（tap，UsedFor，restricting sth.）特异性负元组总是特定的，因为可以有无限数量的负例子。中+（zebra，AtLocation，in africa），-（catfish，HasA，shell）低+（lamp，HasProperty，makes light）表示一个人是否很难表达高+（螃蟹，HasA，煮熟时的红壳），-（床，零件，厨房用具）默会事实，以及人们倾向于容易想到这一事实的程度medium+（crocodile，AtLocation，jungle），-（avocado，PartOf，group or bunch）（或其“相反”事实）当讨论元组low中的概念时+（elephant，IsA，herbivore），-（lion，IsA，herbivore）表2：独立性卡方检验的p值，用于检查游戏轮次与定性分析的每个维度之间的关系（†：显著关系）。水平正确性偏置典型性特异性缄默所有3.41e-15†4.55e-08†1.94e-05†1.89e-06†4.89e-04†容易5.40e-17†5.22e-04†1.46e-03†1.39e-03†2.81e-02Diff.1.22e-05†1.11e-06†2.06e-08†2.24e-03†6.15e-06†(a) 判别属性数据集。（b）CSQA数据集。图2：FindItOut相对于每个数据集的效用，并在不同回合和难度级别上计算。棋盘是基于问题生成的，游戏棋盘越小，关注特定问题的概率越高这突出了FindItOut的可配置性的好处。5.2知识素质下面，我们报告了我们对判别属性数据集的结果正确性。总的来说，95。6%的生成元组有意义。其中，90。6%的元组是正确的（88。8%，92。正元组和负元组分别为1% 作为比较，Verbosity [48]报告了85%的正确生成元组。同样，76. 2%的判别元组是正确的。多样性的定性研究作为通过我们的游戏引出的知识类型的多样性的第一个迹象，我们调查了玩家使用的关系类型。21.4%的问题采用了IsA，20.0%采用了HasA，13.9%采用了UsedFor，13.4%采用了HasProperty，13.1%采用了CapableOf，其他关系的比例均低于10%。由于每个关系对应于不同类型的信息，这显示了我们的游戏收集的元组的多样性。独立性卡方检验显示，运动员的关系与比赛回合之间存在显著相关性，χ 2（77，4235）= 620。59，p<. 000，这意味着，在回合中进化在前几轮中，ISA主要用于提出简单的、有区别的问题。在后面的几轮中，其他关系的频率增加，因为需要问更多的隐性问题来区分未翻转的卡片。尺寸. 我们的定性分析所引发的知识元组揭示了高度多样性的知识收集的类型。无偏元组占86.3%，高度隐性元组占38.3%（中度占21.3%），高度特异元组占57.5%（中度占16.9%），非典型元组占7.98%。这些发现证实了FindItOut允许将隐性知识外化，这通常在现有的知识库中找不到。我们调查的知识类型如何演变的回合，相对于简单和困难的游戏，和整体。为此，我们对每个知识维度的注释与游戏中的回合之间的独立性进行了卡方检验。为了校正由于多次检验而导致的误差膨胀，我们应用了Bonferroni校正，使α的显著性阈值降至0。05= 0。003. 在表2中，我们报告了这些检验的p值。总的来说，我们发现每个知识维度都在引发元组的轮次这在简单和困难的游戏中是一致的，除了对应于简单游戏的元组的默认性。在图6中，我们显示了每轮游戏中收集的每个维度的元组百分比。这表明了每轮的演变趋势我们发现，高典型性元组的数量随着轮次的增加而减少，而具有高特异性和高缄默性的元组在初始轮次后趋于增加。这样观察的理由有两方面. 经过几轮博弈后，保留概念很难用一般的和明确的知识来区分随着游戏及其积极的猜测和思考机制，玩家更深层次的洞察力和生活经验被激活/唤醒[9]。多个+（tower，CapableOf，be used as home）（高层建筑/埃菲尔铁塔）单个+（avocado，HasProperty，green（most part））指示元组是否可以有不同的解释（其中至少有一个是正确的），或一个单一的解释。含义多样性正确性Truth表示元组是否表示正确的事实。典型性WWWAgathe Balayn、Gaole He、Andrea Hu、Jie Yang和UjwalGadiraju17165.3人工智能任务的可靠性区分性属性的覆盖范围对于DA数据集生成的41个简单游戏板和22个困难游戏板，我们最多可以覆盖3948个三元组。由于预算有限，招募了55名参与者来玩这些游戏，从而潜在地覆盖了3369个三元组。为了过滤掉嘈杂的参考三元组，我们手动标记它们的有效性，并找到2987个有效三元组（包含1649个独特的概念对）。这2987个有效三元组被认为是参考。对于覆盖率的注释，5位作者注释了1102个普通样本和9808个独立样本。与Krippendorffα的评定者间一致性为0。47，这是合理的主观任务[7]。为了评估生成的元组如何超出DA数据集，我们分析了覆盖注释中使用的所有候选元组（5485）的正确性5位作者共注释了545个普通样本，

下载后可阅读完整内容，剩余1页未读，立即下载