AI队友的身份和表现对人类-AI合作的信任影响

80 浏览量更新于2024-01-31 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

计算机在人类行为139（2023）107536AI与人类队友的信任：队友身份和表现对人类-AI合作的影响张光禄a，*，李亚庄a，肯尼思科托夫斯基 b，乔纳森凯根 aa卡内基梅隆大学机械工程系，匹兹堡，宾夕法尼亚州，15213，美国b美国宾夕法尼亚州匹兹堡卡内基梅隆大学心理学系，邮编15213A R T I C L EI N FO保留字：人工智能信托欺骗拟人论人机交互决策A B标准人工智能（AI）的最新进展使研究人员能够创建更强大的AI代理，这些代理正在成为人类的称职队友。然而，人类对人工智能的不信任是可能阻碍人类与人工智能合作的关键因素。虽然人工智能代理已经被赋予了拟人化的特征，例如像人类一样的外观，但在先前的研究中，为了提高人类对人工智能的信任，人类是否对人工智能队友有更多的信任，如果他们被欺骗，是否能实现更好的人类-人工智能联合表现，这仍然是一个悬而未决的问题。他们的AI队友的身份是另一个人类。这项研究评估了队友身份（与AI）和队友表现（低性能与高性能AI）对人类-AI合作的影响。这项研究的结果表明，人类在行为上比其他人更信任AI。通过更频繁地接受他们的AI队友此外，队友的表现也有一个标志-在这项研究中，人类-AI联合表现的显着影响，而队友身份则没有。这些结果提醒人们，在未来涉及人类与人工智能合作的应用中，不要欺骗人类关于人工智能身份的信息。1. 介绍人工智能（AI）技术使机器能够从经验中学习并模仿智能人类行为。许多人工智能驱动的工具已经被创建并应用于关键领域，如医疗保健，教育和能源（Beck，Stern，Haugsjaa，1996&;Jha，Bilalovic，Jha，Patel，Zhang，2017&;Sujan，Baber，Salmon，Pool，&Chozos，2021）。这些工具增强了人类的能力，并帮助人类解决具有挑战性的问题。近年来，人工智能的进步使研究人员能够创建更强大的人工智能代理，为人类与人工智能合作提供新的机会。人工智能代理，被称为人工智能，正在成为超越人类工具的称职的队友（Seeber等人，2020年）。例如，最近的一项认知研究表明，人类-人工智能混合团队在解决危机管理的资源分配问题方面优于人类团队（McNeese，Schelble，Canonico，&Demir，2021）;另一项研究发现，在复杂的无人机机队设计和路径规划任务中，人工智能能够管理人类工程团队的设计过程，至少与人类管理者一样（Gyory等人， 2022年）。尽管人工智能已经显示出与人类合作的承诺，（Wilson Daughter，2018&），人类对人工智能的不信任是一个关键因素。阻碍人类与人工智能合作的因素（ Glikson Woolley ， 2020&;SiauWang，2018&）。一项针对美国近2000名消费者的调查显示，42%的受访者不信任任何类型的人工智能。在不同行业的人工智能应用中，只有16%的受访者信任人工智能医疗诊断，13%的人信任自动驾驶汽车，4%的人信任人工智能在人力资源相关工作中的应用（Dujmovic，2017）。同样，根据对11个行业的1000名公司高管的调查，研究还发现，对人工智能的信任程度低是恶性循环的主要组成部分，这种恶性循环阻止了80%的美国公司在规划和决策中使用人工智能（Plastino，2021）。拟人化，也称为人类相似性，提供了改变人类对人工智能的信任并促进人类与人工智能合作的独特方法（ Glikson Woolley ，2020&;Pingdom，Dabija，Ene，2021&）。不同的拟人化特征，如人类的外观，语言交流和非语言情感展示，对人类对自动化的信任和人类行为反应的影响已经通过许多认知研究进行了评估（Boone &Buck，2003;Culley &Madhavan，2013; de Visser等人，2012; de Visser等人，2016;Fo X 等人， 2015; Hoff &Bashir ， 2015; Kulms &Kopp ， 2019; Lee&See，2004; Vonder Pütten，K raümer，Gratch，&Kang，2010）。例如，人类参与者对计算机代理的帮助有更高的信任度* 通讯作者。电子邮件地址：glzhang@cmu.edu（G. Zhang），lmchong@andrew.cmu.edu（L. Chong），kotovsky@cmu.edu（K. Kotovsky），cagan@cmu.edu（J.Cagan）。https://doi.org/10.1016/j.chb.2022.107536接收日期：2022年7月15日;接收日期：2022年8月29日;接受日期：2022年10月15日2022年10月20日网上发售0747-5632/© 2022作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章，获得了CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表人类行为期刊主页：www.elsevier.com/locate/comphumbehG. Zhang等人计算机在人类行为139（2023）1075362在TNO信任任务期间与另一种没有这种外观的试剂相比具有类似人类的外观（deVisser等人，2012年）;在驾驶模拟器实验中，人类驾驶员也信任与他们具有相似外观的虚拟代理，而不是与他们具有不同外观的虚拟代理（Verberne，Ham，&Midden，2015）。这些认知研究的重点是以计算机代理而不是AI队友的形式实现自动化的拟人化。虽然计算机代理可以通过 AI 技术实现（ Glikson&Woolley，2020），但考虑到近年来AI能力的进步和媒体对AI争议的激烈报道，目前尚不清楚人类是否认为AI队友与计算机代理相同（Bao等人，2022年;梅斯，2021年;帕扎内塞，2020年;小&王，2018年;西蒙例如，2000年）。此外，在先前的研究中，没有使用关于计算机代理的身份的欺骗，并且人类参与者知道他们与计算机代理一起工作，即使计算机代理在这些研究中表现出拟人化的特征，例如用户界面中的人类照片或人类语音通信。重要的是，近年来有几个AI通过了图灵测试，而人类在某些场景下无法区分AI和人类（图灵，2009;Warwick Shah，2016&）。为了提高人类与人工智能，人工智能的身份也已被隐藏在几个现实世界的应用程序，如Google Duplex，让人们相信他们正在与另一个人互动（O'Leary，2019）。然而，据我们所知，智能体身份（“人类”与AI）对人类与AI合作的影响尚未得到广泛研究。基于这些研究空白，本研究通过一个人类被试的研究，评估了队友身份对人-AI合作决策的影响，特别是对人类对AI信任的影响。在研究中，所有参与者都与同一个AI队友一起工作。一半的参与者被告知他们与AI队友一起工作（即，没有欺骗），另一半的参与者被告知他们与另一个人类参与者作为他们的队友一起工作，但实际上他们与AI队友一起工作（即，欺骗）。由于很难创造和训练一个完美的AI队友（例如，在实践中，队友表现的影响（不完美但高性能的人工智能与低性能的人工智能）对人类-人工智能合作决策的影响也通过研究进行了评估。研究中采用了一种流行的合作决策过程人类参与者首先做出最初的决定，观察他们的队友的决定，然后做出最终决定。这样的决策过程使每个参与者的独立表现和与他们的队友的联合表现的测量基于他们的最初决定和最终决定。这些测量允许评估团队成员身份和绩效对具有不同专业知识水平的人类参与者（好的、一般的和差的决策者）的影响。值得注意的是，这项研究并不旨在回答与欺骗有关的一般伦理问题，例如在实践中使用欺骗是否道德正确（Carson，2010）。相反，本研究通过实证研究探讨了人类-人工智能合作决策的以下三个具体问题：1. 当人类与人工智能队友合作时，如果他们被欺骗认为他们是与人类队友而不是人工智能队友合作，他们是否会对队友有更多的信任，并实现更好的人类-人工智能联合表现？2. AI队友的表现是否对人类对AI的信任以及人类与AI的联合表现有显著影响？3. 对于具有不同专业水平的人类，队友身份和队友表现是否对他们对AI的信任和人-AI联合表现有不同的影响？2. 方法以人类为被试，研究了队友身份和队友绩效对人-AI合作决策的本研究的主要焦点是人类AI关节，在四种不同的条件下（“人类”与AI队友以及高性能与低性能AI），AI的信任度在这项研究中，参与者与AI队友一起解决国际象棋难题。人类-AI联合表现是由人类-AI团队做出的最终决策的整体质量来衡量的，人类对AI的信任是通过参与者在研究期间的行为（接受与他们最初决定不一致的队友的决定）以及参与者在研究结束时自我报告的能力和对队友的帮助来检查参与者2.1. 参与者根据卡内基梅隆大学机构审查委员会（IRB）批准的方案，参与者从美国和加拿大的26所教育机构招募，并完全在线完成研究。所有参与者在参与研究之前都知道国际象棋的基本规则（但不需要是专家级的国际象棋选手）。共有128名参与者完成了整个研究。这些参与者被随机分配到四个实验条件（即，每种条件下32名参与者，以便在研究后分析中进行统计学显著性检验）。每个参与者都会收到一张10美元的礼品卡，以补偿他们的时间和努力。在研究中达到一定表现水平的参与者将获得额外的10美元礼品卡作为奖励，奖励的表现阈值见第2.4节。所有参与者在被招募参加研究时都被告知补偿和额外奖励。在研究前获得所有参与者的知情同意。在两个涉及欺骗的实验条件下，参与者在研究结束后会得到一份报告，解释他们对队友身份的欺骗。2.2. 任务每个参与者都有一个代表许多现实世界决策场景的国际象棋难题任务。国际象棋难题任务提供了参与者拥有广泛的决策选择和结果，参与者可以接受或推翻队友&具体来说，参赛者被要求与队友一起做出最佳动作，给定棋盘状态。国际象棋难题任务包括四个步骤，如图所示。1.一、参与者首先自己选择一个动作然后他们观察队友的动作考虑到他们的初始移动和他们的队友的移动，参与者做出他们的最后一步。值得注意的是，参与者的最后一步可能与他们的初始步和他们的队友的步不同.参与者会收到他们最后一步的反馈在拼图的最后如果他们的最后一步是有利的，他们会得到5分，如果他们的最后一步是不利的，他们会失去5分。这项研究包括20个一步棋难题。20个国际象棋难题对所有参与者都是一样的。这20个国际象棋棋盘状态是从公开可用的Mate-in-4棋盘状态（http：//wtharvey. tX t）。这些选定的棋盘状态中的每一个都允许参与者选择许多可能的移动。对于给定棋盘状态的每个可能移动，Stockfish（https://github.com/official-stockfish/Stockfish）计算评估分数，其中Stockfish是一个开源CPU国际象棋引擎，曾多次赢得顶级国际象棋引擎锦标赛（Sergio，2022）。对于给定的棋盘状态，在研究中，具有正评价分数的棋步被定义为有利的棋步，并且其他棋步（具有负评价分数）被定义为不利的棋步。值得注意的是，20个国际象棋棋盘状态中的每一个都有多个有利的移动。这样，当队友在给定的棋盘状态下做出有利的移动时，参与者仍然能够做出不同的有利的移动作为他们的最后一步棋的棋盘状态。研究中使用的AI队友也是基于G. Zhang等人计算机在人类行为139（2023）1075363×Fig. 1. 四步国际象棋拼图任务。参与者首先自己移动，然后观察他们的队友的移动，做出他们的最后一步，并收到他们的最后一步的反馈。步骤1和步骤3中的两个橙色箭头代表参与者在研究中的移动。研究程序的详细信息见第2.4节。Stockfish国际象棋引擎。例如，一个准确率为80%的AI队友在研究中的20个棋盘状态下进行了16次有利移动和4次不利移动。为了保持一致性，根据Stockfish评估，AI队友做出的有利移动总是给定棋盘状态的最佳移动（具有最高评估分数），而AI队友做出的不利移动总是第七最佳移动，其在研究中总是具有负面评估分数。2.3. 条件采用2 2析因实验设计，研究了队友身份和队友绩效对人-AI协作决策的影响如图2所示，队友认同感和队友绩效是本研究的两个自变量，每个变量都有两个水平。对于两个无欺骗条件（条件1和条件2），参与者被告知他们将在研究开始时与AI队友一起解决国际象棋难题。对于两个欺骗条件（条件3和条件4），参与者被告知，他们将与另一个人类参与者作为他们的队友在研究开始时解决国际象棋难题，但实际上他们与另一个人类参与者一起工作。与研究中相应的无欺骗条件相同的AI队友。条件1和条件3中的参与者与高表现的AI队友合作，其中高表现的AI队友具有80%的准确性，并在步骤2中对研究中的20个国际象棋难题进行16次有利移动和4次不利移动（如图1所示）。相比之下，条件2和条件4的参与者与一个低性能的AI队友一起工作，在研究中只有20%的准确率。在研究中，表现差的AI队友做出了4个有利的动作和16个不利的动作。2.4. 程序这项研究是通过亚马逊网络服务（AWS）工作空间进行的。所有参与者都被要求在研究前阅读并签署在线同意书。签署同意书后，每个参与者都会通过电子邮件获得自己的AWS WorkSpaces登录信息。然后，参与者登录AWS WorkSpaces并按照界面中显示的说明完成研究。在研究开始时，参与者通过界面被告知他们将与队友（AI队友或另一名人类参与者）合作，这取决于他们的状况，如图所示。（2）至图二. 2× 2析因实验设计。队友认同感和队友绩效是本研究的两个自变量，每个变量都有两个水平（AI队友和高性能与低性能AI）。G. Zhang等人计算机在人类行为139（2023）1075364===×解决23个国际象棋难题（3个用于练习，20个用于学习）。Partic-然后，两个欺骗条件中的被试被告知他们所选择的队友的名字是泰勒，并且他们的队友在研究的以下部分中被称为泰勒（例如，图1中所示的“泰勒移动“）。在这里，性别中立的名字，泰勒，是用来消除研究中的性别偏见。对于两个不欺骗条件，AI队友没有给出具体的名字，在研究中队友被称为“AI队友”。所有参与者还被告知，他们将在整个研究过程中与同一名队友合作，但详细关于他们的队友的信息，例如AI队友的准确性，不会提供给参与者。在参与者开始解决国际象棋难题之前，通过界面向他们提供有关国际象棋难题任务过程和研究评分系统的信息。简要介绍图1所示的四步程序。参与者被告知，如果他们的最后一步棋是有利的，他们将获得5分，如果他们的最后一步棋是不利的，他们将失去5分。参与者还被告知，如果他们在研究结束时获得40分或更多积分，然后，参与者解决三个国际象棋难题的做法和20个国际象棋难题的研究，一个接一个。值得注意的是，参与者没有时间限制来完成这些谜题，界面中也没有显示计时器。研究完成后，要求参与者在退出AWSWorkSpaces之前填写在线研究后调查问卷。2.5. 测量每个参与者的20个最后动作的累积得分用于衡量人类-AI联合表现（团队表现），的study.在此外，参与者性能通过他们在研究中的20个初始移动的累积得分来衡量，其中使用第2.4值得注意的是，与最后一步不同，参与者在研究中不会收到他们最初动作的反馈。初始移动的分数仅用于研究后分析。在之前的认知研究中，人类对自动化的信任通常是通过人类参与者接受建议的次数来从自动化和行动，以及人类参与者自动化的感知能力和有用性（Glikson&Woolley，2020）。同样，在这项研究中，人类对队友的信任通过参与者在研究过程中的行为和他们在研究结束时对队友的评价来检查。参与者接受其队友不同于其初始移动的移动的次数被用作信任的行为度量（行为trust）（de Visser等人，2017年; Kulms &Kopp，2019年; Van Dongen&VanMaanen，2013年），以及参与者&在研究后问卷中报告的对其队友的感知能力和乐于助人是自我报告的信任措施（自我报告的信任）（Kulms Kopp，拼图？以及“在这项研究中，你的队友对你解决国际象棋难题有多大帮助？"。最后两个问题使用七点李克特量表，参与者从七个答案选项中选择一个答案（例如，对于最后一个问题，从“非常没有帮助“到“非常有帮助“）。2.6. 数据分析先前的认知研究结果表明，人工智能的使用对高性能人类设计团队的影响不同于对低性能人类设计团队的影响（Zhang，Raina，Cagan，&McComb，2021）。为了评估队友身份和队友表现对不同国际象棋专业水平的参与者的影响，本研究的每种条件下的32名参与者，被称为所有人类国际象棋选手，根据他们在研究中的初始动作的累积得分分为8名优秀的人类国际象棋选手，16名公平的人类国际象棋选手和8名差的人类国际象棋选手。对于人-AI联合绩效（团队绩效）和人类对其队友的行为信任，使用双向方差分析（ANOVA）来检验队友身份和队友绩效对所有参与者和参与者的影响，不同水平的国际象棋专家由于有序数据是从研究后问卷中收集的，使用Mann-WhitneyU检验来分析队友身份和队友表现对参与者自我报告的对其队友的信任和参与者感知的工作量的影响从具有不同国际象棋专业知识水平的参与者收集的数据是单独分析，作为一个整体。3. 结果3.1. 人-AI联合表演每个参与者的人类-AI联合表现是通过参与者在研究中的20个最后动作的累积得分来衡量的。人-AI关节性能的双因素ANOVA结果见表1。这些结果表明，队友表现对所有人类棋手的人-AI联合表现有显著影响在研究中（P8.713表1中的10-8），而队友的影响同一性不显著（表1中p0.2740）。也没有显著的相互作用效应（表1中p0.5110）。具体而言，与低表现AI队友合作时相比，参与者在与高表现AI队友合作时平均获得更高的最终动作得分。从人类-AI联合表现的双向方差分析中也发现了同样的结果，对于公平的人类棋手和较差的人类棋手。然而，对于善良的人来说，表1人类-AI联合性能的双因素ANOVA结果。粗体表示统计学显著性（p0.05）。<2019年）。参与者来源F-统计数据p值研究问卷。研究后问卷包括八个问题-所有人类棋手队友身份1. 207 0. 2740选项。前六个问题来自官方的NASA任务负荷指数（NASA TLX）（Hart Staveland，1988&）。这六个问题评估-队友表现32.368.713×10在六个量表上评估参与者沮丧参与者从0到100中选择一个数字作为这六个问题的答案。后研究的最后两个问题问卷评估参与者帮助，互动0.4346 0.5110性能互动0.3308 0.5698公平人类棋手队友身份1. 275 0. 2634他们的队友的丰满。在两个无欺骗条件（条件1和条件2）中，参与者被问到队友表现57.472.54610¡10一起解决国际象棋难题吗”可怜的人类象棋相互作用0.2341 0.6302队友身份2.056 0.1627你的队友在解决国际象棋难题的研究？“。同样，在两个欺骗条件（条件3和条件4）中，球员队友表现24.263.403×10四、是问 ”“怎么会呢主管是你队友在解棋相互作用好人棋队友身份0.013230.9092球员队友2.2360.1460×G. Zhang等人计算机在人类行为139（2023）1075365==×=×=×=-=×在国际象棋选手中，队友表现的影响不显著（表1中p0.1460）。所有参与者和具有不同国际象棋专业知识水平的参与者的人类-AI联合表现的平均值和标准差在RendiX A中提供。3.2. 对队友的行为每个参与者对他们的队友的行为信任通过计算参与者接受他们的队友的不同于他们的初始移动的移动作为他们的最后移动的次数来测量。人类对其队友的行为信任的双因素方差分析结果见表2。所有人类象棋的双因素方差分析结果运动员认为，队友绩效和队友认同对人类对队友的行为信任有显著影响（p=8.893× 10- 7和p=4.594× 10- 3），以及交互作用不显著（表2中p=0.6971）。具体来说，对于所有人类棋手来说，当他们被欺骗时，他们接受队友关于他们的AI队友的身份，并相信他们在研究中与另一名人类参与者一起工作。此外，当参与者与高性能AI队友一起工作时，与低性能AI队友相比，人类对其队友的行为信任平均变得更高。表2中的结果还表明，只有队友的表现对人类行为有显著影响，优秀人类棋手对队友的信任（p七五七一10-3英寸表2）和公平的人类国际象棋选手（p9.203表2中的10- 10）。相比之下，对于较差的人类棋手，只有队友认同对其行为信任有显著影响（p <8.153表2中的10- 3）。人类的平均值和标准差所有参与者和具有不同水平国际象棋专业知识参与者对队友的口头信任提供在RANKEDIXB中。3.3. 自我报告的对队友的研究后问卷中被试如图 3、岗位的结果-对所有人类国际象棋选手的研究问卷显示，当参与者被告知他们与另一名人类参与者（欺骗）而不是AI队友（没有欺骗）一起工作时，他们报告他们表现不佳的队友更有能力和帮助。然而，当参与者与高绩效的队友一起工作时，身份认同对被试的知觉没有显著影响能力和乐于助人。所有人类棋手的结果也表明，队友的表现对参与者的感知能力和他们的帮助有显着的影响。表2人类对队友行为信任的双因素方差分析结果。粗体表示统计学显著性（p0.05）。<无论他们被告知他们是与另一个人类参与者还是AI队友一起工作。对于不同棋艺水平的被试，研究还发现，当与低水平的队友合作时，队友认同感对低水平的人类棋手的能力感知和队友的帮助感知有显著影响（p0.01088和p 0.02004 inPalladixX C），但这种影响对公平的人类象棋选手和优秀人类棋手（p> 0.05）。3.4. 感知工作量每个参与者NASA TLX对所有人类棋手的测试结果如图4所示。这些结果表明当被告知他们与另一个人类参与者（欺骗）一起而不是一个AI队友（没有欺骗）。关于NASA TLX的时间需求的问题是“任务的速度有多快？”。如图4所示，在NASA TLX的其他五个尺度上，没有发现所有人类棋手的显著结果。对于parti-研究还发现，与高表现的“人类”队友一起工作时，与高表现的AI队友一起工作时相比，贫穷的人类棋手4.462 × 10- 4），但对正常人棋手和正常人棋手的影响不显著（p>0.05）。4. 讨论基于第一节介绍的三个研究问题，该研究的结果表明：（1）当参与者将其队友视为另一个人而不是AI时，参与者接受其AI队友的决定的频率较低并且没有实现更好的人类-AI联合表现（即，“人类“对AI）。然而，参与者报告说，他们的低绩效队友更有能力和帮助当他们被欺骗了他们的AI队友的身份，并相信他们与另一个人（即，低性能的“人类”与低性能的AI）。(2)队友表现（高表现与低性能人工智能）对人类和对人工智能和人类-人工智能联合性能的信任。(3)队友身份和队友表现对人类信任AI和人类-AI联合表现的影响对于具有不同专业知识水平的参与者（好，公平和差的人类棋手）是不同的。几个详细结果及其背后的潜在原因讨论如下：第一，队友身份（“人类”与人工智能）对参与者在本研究中对队友的行为信任有显著影响，其中行为信任是通过每个参与者接受队友的移动的次数来衡量的，这与他们在研究中的初始移动不同。重要的是，所有参与者都与AI一起工作研究中的队友，并发现参与者接受他们的AI来源F-统计数据p值teammate’s他们与另一个人类参与者而不是人工智能合作效果全人类棋手队友身份8. 3334. 594×10<$3这种欺骗行为的信任可以归因于参与者队友表现26.788.893×10×7对他们的AI队友的国际象棋专业知识的高期望。先前的认知研究结果表明，好人棋相互作用0.1522 0.6971与具有专业知识和经验的队友（Soll Larrick，2009&年;队友身份1.859 0.1836玩家…3Van Swol，Paik，&Prahl，2018）。在这项研究中，虽然参与者队友表现8.2857.571×10如果没有提前告知人工智能的准确性，参与者可能仍然会期望互动0.2066 0.6530公平人类棋手队友身份1. 201 0. 2775他们的人工智能队友比人类有更好的国际象棋专业知识，可能知道人工智能已经击败了人类国际象棋冠军，例如队友表现52.639.20310¡10IBM Deep Blue击败了国际象棋世界冠军Garry Kasparov 在1997年（Hsu，2002）。这种欺骗对行为信任的影响可怜的人类象棋互动0.02451 0.8761队友认同8.1118.153×10¡3也可以解释为较高的时间需求参与者球员队友表现0.7573 0.3916在研究中，当他们被欺骗了他们的人工智能队友的身份，并相信他们正在与另一个人一起工作时，互动0.05633 0.8141参与者。如第3.4节所述，被告知他们×G. Zhang等人计算机在人类行为139（2023）1075366图三. 参与者对他们的队友（所有人类棋手）的感知能力和帮助。(a)研究后问卷中报告的队友能力（1 -“非常不称职”，7 -“非常称职”）。(b)研究后问卷中报告的队友乐于助人（1 -“非常不乐于助人”，7 -“非常乐于助人”）。粗体表示统计学显著性（p <0.05）。见图4。参与者的感知工作量（所有人类棋手）。(a)当参与者与低绩效AI队友一起工作时，感知的工作量（0 -“非常低”，100 -“非常高”）。(b)当参与者与高性能AI队友一起工作时，感知到的工作量（0 -“非常低”，100 -“非常高”）。粗体表示统计学显著性（p<0.05）。与另一名人类参与者作为他们的队友（欺骗）一起工作的参与者在研究后问卷中报告的时间需求高于被告知他们与AI队友（没有欺骗）一起工作的参与者。由于放松的环境被认为是确保有效团队合作的关键因素（Parker，2008），参与者在本研究中感到匆忙完成任务时，不太可能与队友合作。在这里，参与者可能会感到匆忙，因为他们认为他们的人类队友一直在等待他们在研究中的反应第二，对于具有不同水平国际象棋专业知识的参与者，第3.2节中的结果表明，只有队友的表现（高-表现与低表现的AI）对优秀的人类国际象棋选手对其队友的行为信任有显著影响，而为了可怜的人类象棋玩家，事实正好相反，只有队友身份（“人类”与AI）对行为信任的影响人类象棋高手与劣等棋手之间的差距是由于他们的象棋专长的差异。优秀的人类棋手能够更好地判断他们的队友的举动是否可怜的人类棋手这就解释了为什么AI队友perfor-在这项研究中，曼斯只对优秀的人类棋手的决策产生了重大影响。此外，参与者对他们的队友的国际象棋专业知识的不同期望也有助于人类国际象棋选手之间的差异。由于参与者在研究中没有得到关于他们的“人类”队友的任何信息&，例如他们的队友的个人信息和国际象棋经验，参与者对他们的“人类”队友的国际象棋专业知识的推断可能是基于他们自己的国际象棋专业知识（Ross，Greene，House，1977 ; Sherman，1999）。 Presson，&Chassin，1984）。因此，差的人类棋手倾向于期望他们的“人类”队友具有低水平的国际象棋专业知识。考虑到他们对人工智能在国际象棋方面的高专业知识的潜在了解，可怜的人类国际象棋选手更有可能与人工智能队友合作，而不是另一个人类参与研究。相比之下，优秀的人类国际象棋选手倾向于合理地期望两者都具有高水平的国际象棋专业知识。他们的对他们在研究中的决策没有重大影响。第三，本研究还发现，队友身份（（大赦国际）G. Zhang等人计算机在人类行为139（2023）1075367当参与者与表现不佳的AI队友一起工作时，对参与者的行为信任和自我报告的对队友的信任产生了相反的影响具体来说，参与者接受他们的低绩效团队-在研究过程中，队友被告知他们与另一个人类参与者而不是AI队友一起工作。自我报告的信任结果可以解释为当参与者相信他们与研究中的另一名人类参与者一起工作时所面临的社会压力。社会压力使人们的行为方式与社会规范一致（Hechter Opp，2001&）。在这项研究中，参与者可能不愿意报告他们的人类队友不称职和不乐于助人，因为他们不想通过给予负面反馈来冒犯另一个人除了社交压力，参与者表现不佳的人工智能队友由于参与者可能会根据他们在研究之前的先验知识期望他们的AI队友具有很高的国际象棋专业知识，当AI在研究过程中表现不佳时，参与者对AI感到失望，因此在研究后的问卷中对AI给予更多的负面反馈这项研究的结果和上面讨论的潜在原因为涉及人类-人工智能合作的现实世界应用提供了重要的影响，例如在自动驾驶汽车，机器人控制，制造和医疗服务领域的人类-人工智能协作决策（Contreras-Masse，Ochoa-Zezzatti，García，P'erez-Dominguez，&Elizondo-Cort'es，2020; Ji等人， 2018; Okamura&Yamada，2020）。具体来说，在实践中，假设当人类被欺骗认为他们正在与另一个人一起工作时，人类与人工智能的联合性能总是可以得到改善我们的研究还警告说，关于人工智能作为人类身份的欺骗与先前研究中使用的拟人化特征并不相似，例如类似人类的外观和言语交流等。欺骗可能会降低人类这项研究有几个局限性，为未来的研究提供了机会。首先，这项研究的参与者可能期望他们的AI队友的国际象棋专业知识比人类更好然而，在这方面，人们可能不会对人工智能的专业知识有如此高的期望与AI队友一起完成其他任务。例如，先前的研究表明，人们对人工智能的会话能力的期望通常低于对人类的期望（Burgoon等人，2016;Grimes，Schuetzler，&Giboney，2021）。为了概括这项研究的结果，未来的研究需要研究队友身份和队友表现对不同领域各种任务的人-AI合作的影响。此外，参与者在这项研究之前并没有被告知AI队友是如何创建和训练的，AI队友也没有解释为什么在研究过程中会做出每一个特定的动作。未来的研究可以引入有效的策略来提高AI的透明度和可解释性，以校准人类对AI的信任在人类与人工智能合作之前和期间。此外，在本研究的最后，人类自我报告的信任，他们的队友被测量的参与者未来的研究可能会使用与信任相关的其他措施（例如，参与者参与者决策过程中这些度量的变化5. 结论这项研究的结果表明，当人类被欺骗并认为他们与人类队友而不是AI队友一起工作时，他们不会取得更好的表现。此外，AI队友作为另一个人类的身份增加了人类的在这项研究中，时间需求和减少人类接受队友决定的次数，被称为人类对队友的行为信任。这些结果告诫人们不要在实践中欺骗人类关于其AI队友的身份，因为这种欺骗可能无法增强人类对AI的信任，人机联合表演。这项研究还发现，队友表现（高性能与低性能AI）和队友身份（具体来说，队友的表现是结果发现，对优秀和公平的人类棋手对队友的行为信任有显著影响相比之下，在本研究中，队友认同感只对较差的人类棋手对队友的行为信任有显著影响人类个体经验和因此，特定任务中的专业知识是未来涉及人类-人工智能合作的认知研究和应用中必须考虑的关键因素。信用作者声明张广禄：概念化，方法论，形式分析，调查，软件，数据策展，写作-初稿，写作-评论编辑，可视化，项目管理;Leah Chong：概念化，方法论，软件，写作-评论编辑;Kenneth Kotovsky：概念化，方法论，资源，写作-评论编辑，监督，资金获取;Jonathan Cagan：概念化，方法论，资源，写作-评论编辑，监督，资金获取。&&&&竞合利益作者声明，他们没有已知的可能影响本文所报告工作数据可用性数据将根据要求提供致谢该材料部分由空军科学研究办公室通过合作协议FA 9550 -18-0088提供支持。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映申办者的观点。G. Zhang等人计算机在人类行为139（2023）1075368附录A. 人类-AI联合性能表A.1人类-AI联合性能的平均值和标准差参与者N条件AI队友身份AI队友表现平均STD所有人类棋手32 1无欺骗高性能AI 33. 44 4. 2132 2无欺骗低性能AI 9. 28 0. 6832 3欺骗高性能AI 22. 19 6. 7732 4欺骗低性能AI 9. 00 0. 70优秀人类棋手8 1无欺骗高性能AI 51. 25 5. 438 2无欺骗低性能AI 46. 25 5. 288 3欺骗高性能AI 53. 75 5. 858 4欺骗低性能AI 42. 50 3. 42公平人类国际象棋选手可怜的人类棋手16 1无欺骗高性能AI 35.00 4.9216 2无欺骗低性能AI-11. 88 5.0216 3欺骗高性能AI 25. 63 5. 6616 4欺骗低性能AI-15. 63 6.738 1无欺骗高性能AI 12. 50 7. 868 2无欺骗低性能AI-51. 25 3.288 3欺骗高性能AI-16. 25 16.108 4欺骗低性能AI-51. 25 4.49图A.1. 人类-AI关节性能的平均值和标准差。每个参与者的人类-AI联合表现通过参与者在研究中的20个最后动作的累积得分来衡量。附录B.人类对队友行为信任的均值和标准差表B.1人类对队友行为信任的均值和标准差参与者N条件AI队友身份AI队友表现是说STD所有人类321没有欺骗高性能AI7.940.58棋手322没有欺骗低性能AI5.060.59第1001章人类高手32328341欺骗欺骗没有欺骗高性能AI低性能AI高性能AI6.443.094.880.720.440.9482没有欺骗低性能AI2.880.62公平的人类8816341欺骗欺骗没有欺骗高性能AI低性能AI高性能AI4.131.388.630.960.430.60棋手162没有欺骗低性能AI4.380.40可怜的人类16168341欺骗欺骗没有欺骗高性能AI低性能AI高性能AI8.063.639.630.720.551.21棋手82没有欺骗低性能AI8.631.5083欺骗高性能AI5.501.9484欺骗低性能AI3.751.11G. Zhang等人计算机在人类行为139（2023）1075369图B.1. 人类对队友行为信任的平均值和标准差。每个参与者对他们的队友的行为信任通过计算参与者接受他们的队友的不同于他们的初始移动的移动作为他们的最后移动的次数附录C. 可怜的人类棋手图C.1. 贫穷的人类棋手对队友能力和帮助的感知。(a)研究后问卷中报告的队友能力（1 -“非常不称职”，7 -“非常称职”）。(b)研究后问卷中报告的队友乐于助人（1-“非常不乐于助人”，7 -“非常乐于助人”）。粗体表示统计学显著性（p<0.05）。附录D. 可怜的人类棋手G. Zhang等人计算机在人类行为139（2023）10753610图D.1. 可怜的人类棋手的感知工作量。(a)当参与者与低绩效AI队友一起工作时，感知的工作量（0 -“非常低”，100 -“非常高”）。(b)当参与者与高性能AI队友一起工作时，感知到的工作量（0 -“非常低”，100 -“非常高”）。粗体表示统计学显著性（p<0.05）。引用鲍湖，克劳斯，N. M.，Calice，M. N.，Scheufele，D.舒费勒，马斯-地一、维尔茨角D、Brossard，D.，等（2022年）。谁的AI？不同的公众如何看待人工智能及其社会影响。人类行为中的计算机。https://doi.org/10.1016/j.chb.2022.107182，107182.贝克，J.，斯特恩，M.，&Haugsjaa，E.（1996年）。AI在教育中的应用XRDS：Crossroads，ACM学生杂志，3（1），

下载后可阅读完整内容，剩余1页未读，立即下载