AI辅助决策：人类是否接受建议及差异行为

86 浏览量更新于2023-11-29 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1697→你会接受AI的建议吗？预测人工智能辅助决策中的人类行为XinruWang王欣茹美国印第安纳州西拉斐特xinruw@purdue.edu陆卓然美国印第安纳州西拉斐特lu800@purdue.edu铭贤美国印第安纳州西拉斐特mingyin@purdue.edu摘要互联网用户每天都要在网上做出许多决定。随着人工智能的快速发展，人工智能辅助决策- 人工智能模型提供决策建议和信心，而人类做出最终决策-已成为人类与人工智能协作的新范式在本文中，我们的目标是定量地了解人类决策者是否以及何时会采纳AI模型我们通过将人类决策者在每个决策任务中的认知过程分解为两个部分来定义人类行为模型的空间评估不同动作的效用）和选择组件（即，选择要采取的动作），并且我们在模型空间中执行系统搜索以识别最适合真实世界人类行为数据的模型。我们的研究结果表明，在人工智能辅助决策中，人类决策者此外，人类决策者在效用评估中表现出扭曲决策信心的倾向。最后，我们还分析了人类对人工智能建议的采纳行为的差异CCS概念• 以人为中心的计算人机交互理论、概念和模型;人机交互的实证研究。关键词人工智能辅助人类决策，行为模型，人体实验ACM参考格式：王心如，陆卓然，鸣音。2022.你会接受AI的建议吗？预测人工智能辅助决策中的人类行为。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，纽约州纽约市，美国，12页。https://doi.org/10.1145/3485447.3512240在这方面，王、陆两人的贡献是相当的。本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.35122401介绍互联网用户每天都在网上参与许多决策活动，从为自己做出投资选择，到为社区评估新闻的真实性，再到为公民科学项目注释生物医学图像最近，已经开发了许多AI驱动的决策辅助工具来支持人类决策，并且这些决策辅助工具的广泛使用已经创建了人类-AI协作的新范例，即，人工智能辅助决策-也就是说，给定一个决策任务，基于人工智能的决策辅助提供决策建议，而人类决策者做出最终决定。例如，投资者可能会被人工智能交易工具建议在网上买卖股票，公民科学家可能会从深度学习模型中获得建议，从视网膜图像中检测糖尿病视网膜病变为了充分释放人工智能驱动的决策辅助工具在帮助人们做出更好决策方面的潜力，至关重要的是要深入了解人类决策者如何对人工智能提供的决策建议做出反应。特别是，人类如何决定是否信任AI模型并在决策任务中采用其建议？为此，在人机交互社区中有越来越多的实验研究，这些研究经验性地确定了可以影响人们对AI信任的各种因素，例如AI模型的准确性[ 20，35，45 ]，模型对决策任务的信心[ 35，47 ]以及人类与AI之间的协议水平[ 26 ]。然而，深入探讨这些因素如何相互作用以影响人类对AI建议的采用的机制的尝试是非常有限的。这意味着在人工智能辅助决策过程中，我们失去了对人类行为进行更全面和定量理解的机会，这可能会为人类认知过程的理论发展提供信息。此外，由于对人类采纳AI建议的定量理解有限，AI社区中关于优化人类-AI联合决策的[3]）经常对人类如何与AI模型交互做出简单化的假设（例如，假设当AI模型的置信度高于阈值时，人类将总是接受AI的推荐）。因此，在人工智能辅助决策中建立真实人类对人工智能建议的采纳行为的计算模型，可能有助于重新设计人工智能，以考虑现实人类的反应，从而增强人类与人工智能的合作。因此，在这项研究中，我们专注于一个基本的人工智能辅助决策设定并寻找最佳的计算模型来表征人类决策者具体地说，在这种情况下，人类决策者被要求解决一个二进制序列，WWWXinru Wang，Zhuoran Lu，Ming Yin1698在AI模型的帮助下进行决策试验在每次试验中，AI模型都会向人类决策者提供其二元决策然后，人类决策者可以通过接受或拒绝模型的建议来做出最终决定，并且根据最终决定是否正确，人类决策者将获得一些奖励或惩罚。人类决策者的目标是在所有决策试验中最大化她的累积效用，尽管她在做出这些决策时不会收到任何关于她最终决策正确性的反馈。为了表征人类决策者是否会在每次试验中采用AI建议，我们通过将人类在每次试验中的认知推理过程部分来提出人类行为模型空间接受或拒绝AI），以及用于随机选择的选择组件确定要采取的动作在每个组件中，我们首先定义一些基本模型，以捕获人类决策者如何基于AI模型对其推荐的信心计算每个动作的效用为了反映人类决策者在决定是否采用人工智能推荐可能会考虑自己对决策试验的判断以及她对这种判断的信心，我们进一步定义了一组人类调整效用模型和人类调整选择模型。为了探索双组分模型的哪些组合可以最好地捕捉真实世界人类决策者我们还改变了决策的利害关系（即，与正确/不正确决策相关的奖励/惩罚），以模拟不同的决策环境。我们发现，在解释真正的决策者采用人工智能辅助时，同时使用人类调整效用模型和人类调整选择模型的双组分模型优于基本效用和选择模型的组合。这表明人类在做出人工智能辅助决策时倾向于将自己的意见与人工智能的建议相结合。性能最佳的双成分行为模型表明，人类决策者倾向于将加权函数应用于AI模型的推荐决策正确的预测概率估计此外，如果人类以高置信度同意推荐，则他们也倾向于增加他们接受AI推荐的可能性，并且如果他们不同意，则减少。最后，比较不同决策风险水平下解释人类行为的最佳模型，我们发现，当决策风险较高时，人们倾向于降低对AI模型正确性的信念，并且在选择是否接受或拒绝AI建议时更倾向于依赖自己对决策试验的判断。总之，这些结果为定量描述人类对人工智能辅助的采用行为提供了一个有用的起点2相关工作人工智能辅助决策的实证研究已经进行了许多实证研究，以探索人们是否愿意在AI辅助制作中信任AI，以及哪些因素会影响人们的信任。除了探索人工智能的信任如何受到一些最直接的因素的影响，例如人工智能模型的性能指标[20，35，45，47]，最近对提高人工智能的可解释性的兴趣激增（例如，[16，18，36]）导致越来越多的评估了解人工智能解释是否以及如何影响人们对人工智能模型的信任[23，31，41，47]。最近，研究人员开始研究人们在一些特殊条件下对AI模型的信任，例如当分布发生变化时[8，23]。模拟人类决策。理解人们如何做决定是心理学和经济学的中心问题。人们已经提出了各种理论框架来解释人类在不确定性下的决策行为。最早的框架之一是预期效用模型，它基于这样一个假设，即个人总是选择使其预期效用最大化的选项[40]。然而，人们偏离最优决策的观察结果的反复出现导致了许多新理论的发展。例如，替代方案之一是随机效用模型[27]，该模型指出期权的效用由可观察部分组成（例如，期望效用）和不可观测的随机误差项。另一个替代者是前景理论（PT），它最流行的现代变体是累积前景理论（CPT）[11，24，39]。研究还进行了模拟人类行为的设置，其中代理人必须在不确定性下反复做出决策[2，44]。最近，已经探索了使用机器学习来预测人类决策的数据驱动方法，以补充理论驱动方法[12，29，30]。人类与AI/自动化之间的交互建模随着人工智能驱动的辅助工具在决策中的使用越来越多，越来越多的研究开始设计能够优化人类-人工智能团队决策性能的人工智能模型。这些研究中的许多旨在通过在人工智能和人类之间找到有效的“劳动分工”来利用人机互补性，或者通过以监督的方式训练算法模型来利用机器和人类的独特优势[ 9，34 ]，或者通过在强盗反馈设置中制定问题来明确地将任务路由到适当的一方[ 2，13 ]。最近，一些研究人员（例如，[3]）还研究了在人工智能辅助决策环境中优化人类-人工智能团队绩效的问题，其中人类始终是最终决策者。然而，这些研究往往对人类如何与人工智能互动做出过于简化的假设（例如，接受人工智能的建议，如果这最大化了她的预期效用），尽管人类决定是否信任人工智能的推理过程是高度复杂的[4，5，19]。此外，各种作品直接对自动化中的人类信任进行。例如，人机交互领域的研究通过分析自主性能、人类代理行为和实时生理信号，提供了关于人类代理与机器人代理交互时人类信任如何随时间变化的共同办法你会接受AI的建议吗？预测人工智能辅助决策中的人类行为WWW1699∈−（）下一页H（）下一页（）下一页{−}（）（）[]（）下一页（） {（|）−（−|） }JJ联系我们（（））（）[−]≤ ≤（）[]（）（）[]因此，最大化她的累积效用不t=1 在所有T试验中Ut。decision making. pngyt=ym， t，否则yt=是的，是的。人类决策者被告知，基于她在每次试验中的最终决策的正确性，如果她的最终决策是正确的（即，yt=yt，yt是试验t的正确决定），她将获得奖励1（即，U t= 1）;否则，她将收到fβ（i. 例如， Ut=−β ）。人类的deci。Sionmaker图1：我们在本文中研究的AI辅助决策设置。这些研究中使用的大多是数据驱动的，包括时间序列模型[22]，机器学习技术[25]和贝叶斯推理框架[42]，在为学习模型提供基于理论的解释方面花费的努力有限与以往的研究不同，本文着重于从计算上探索真实人类在人工智能模型辅助下的行为，并借鉴行为经济学的理论构建人类行为模型的要素。3问题描述我们现在正式描述我们在本文中研究的AI辅助决策设置（参见图1的概览图）。假设决策试验可以由n维特征向量x（即，xRn），y是在这个试验中要做出的正确决定在这项研究中，我们专注于决策任务的二进制选择的决策，即，y+1， 1.我们使用m x表示AI模型m x= + 1：P y= +1 x， 1：P y= 1 x .给定m x，AI模型将向人类决策者做出决策推荐，该决策推荐由两部分组成-推荐的二元决策ym=arg maxm x，以及对其推荐决策的置信度cm=maxm x=m x y= ym。我们假设AI模型的置信度经过校准，即c m =P y =ym。同样，我们假设人类的决策-决策者也会对决策试验形成自己的判断-h（x）用于描述人类在这项研究中，我们关注的场景是，人类决策者在每次试验后不会立即收到关于她在试验t中的最终决定是否正确的反馈。因此，我们研究的目标是定量描述人类决策者如何选择采用AI模型在每个试验t中确定dt）。4模型在本节中，我们概述了一组计算模型，用于模拟人工智能辅助决策中人类决策者对人工智能建议的采纳行为。具体来说，我们提出了一个空间的模型，通过分解人类决策者的认知推理过程中的每个决策试验分为两个部分（见图A1在附录中的模型空间的图）-效用组件，其中决策者评估不同的行动的效用，和选择组件，其中决策者随机选择一个行动采取的基础上估计效用的每个行动。4.1实用部件效用分量表征人类决策者如何估计每个动作j的效用ut接受，拒绝中审判决策。我们首先考虑几个基本的效用模型，其中人类决策者仅根据AI模型的输出来推断每个动作的效用，即u_t= f_m_x_t .此外，我们推测人类决策者自己对决策试验的判断也可能影响她对每个动作的感知效用-例如，当人类决策者自己的二元决策与模型的决策不同时，她可能会降低她接受AI模型推荐的动作的估计效用。为了反映这种可能性，我们进一步提出了一些人类调整的效用模型来捕捉人类可能的行为，即将她自己的判断和AI模型的建议结合起来，以评估每个动作的效用，I. 例如， u∈t=f（m（xt），h（xt））.决策审判，=arg maxh（x）是人类nary decision，并且ch=maxh x=h x y= yh是人类最后，我们现在假设人类决策者被要求在AI模型的帮助下完成一系列T决策试验在每个试验t（1 t T）中，向人类决策者提供特征向量x t，以及AI模型的二进制建议ym，t和置信度cm，t。她也把自己的关于审判的h（xt）号判决。有了这些信息，胡-4.1.1基本实用模型。我们考虑两种基本的效用模型：预期效用（EU）：在这个模型中，与预期效用理论相一致，我们假设人类决策者估计一个行动的效用，作为她对采取该行动所能获得的效用的预期由于我们假设AI模型的置信度是校准的，因此AI模型在决策试验t上的置信度cm，t有效地反映了模型的二进制决策y m，t正确的概率。因此，我们有：一个人的决策者需要做出最后的决定，阿勒特（阿勒特格莱姆山m，tactiondt∈ {accept，reject}要么接受AI模型的二进制u接受=EU y =y）=（1+β）c −β建议或拒绝。也就是说，当dt=accept时，不排斥=EU（yt=−ym，t）=1−（1+β）cm，t·拉WWWXinru Wang，Zhuoran Lu，Ming Yin1700pk+（1k−（）[]（）下一页（）（）（）[]基于CPT的效用（CPTU）：在行为经济学中，累积前景理论（CPT）[11，24，39]提供了预期效用理论的概括，以解释人类特别地，CPT的关键观察是人们倾向于以非线性方式解释概率，使得存在概率加权函数以将客观累积概率转换为主观累积概率。此外，CPT指出，人们倾向于超重极端事件，但低估概率加权函数具有反S形状），这与等级相关的期望效用理论[24，33]一致在本研究中，遵循早期文献[21，32，38]，我们采用概率加权函数w（p）=其中k> 0是控制函数形状的参数。当0k 1时，概率权函数呈倒S形，k越小，<<概率就越失真。当k>1时，加权函数呈S形（即，低估极端事件而高估平均事件）。最后当朴素贝叶斯（NB）：在该规则中，假设对AI模型的二进制决策建议的正确性可能性的两个概率估计（即，例如， hxtyt=y（m， t）和c（m， t）是相互条件独立的。因此，人类决策者根据贝叶斯规则的简单实现来组合这两个估计：cm+h，t=11+（1−cm，t） ·（1−h（x t）[yt=y<$m，t]）cm，t·h（x t）[yt=ym，t]根据这一规则，人类决策者倾向于对决策的正确性可能性产生比人工智能模型或她自己的个人估计更确定的最终估计。换句话说，人类决策者在汇总后对每个决策的正确性可能性的最终估计中变得“过度自信”。加权平均对数赔率（WMLO）：这条规则是一个组合，平均和朴素贝叶斯规则[7]的概念，它指出聚合概率估计的对数几率是个体估计的对数几率的平均值：k=1，加权函数是线性函数w p=p，并且基于CPT的效用实际上变得与cm+h，t 为 exp（α），1+ exp（α）期望效用注意这里，我们有w（p）=1−w（ 1−p）。当1cm，th（xt）[yt=ym，t]人类决策者应用概率加权函数为了解释AI模型其中α=2（ln1−cm，t+ln1−h（xt）[yt=ym，t]）不接受不排斥=（1+β）w（cm，t）−β=1−（ 1+β）w（cm，t）由于采用概率的对数几率值会突出极端概率的差异（即，接近0或1的概率），因此，该规则的净效果是在取平均值之前拉伸极端概率。4.1.2人类调整的效用模型。在人类调节效用中模型，我们试图捕捉这样一种可能性，即人类决策者在评估决策时，将自己对决策试验的判断h xt与AI模型的输出m x t相不同行动的效用。具体来说，考虑到人工智能模型调整后的朴素贝叶斯（ANB）：遵循这个调整后的朴素贝叶斯规则[7]，人类决策者首先通过贴现并将其移动到接近0.5来纠正每个概率估计，然后使用朴素贝叶斯规则将其人类决策者的m+h，t1（cm，t）γ这个建议的决策正确的可能性是由h（xt）[yt=ym，t]-当决策者自己的双决策c=1（1−a） ·（1−b），其中ea=（cm，t）γ+（1−cm，t）γ，与AI模型的相同我们有（h（xt）[yt=y<$m，t]）γttm th t;否则，y=yt tt1h t.b=（h（xt）[yt=y<$m，t]）γ+（1−h（xt）[yt=y<$m，t]）γh（ x）[ y=y，]=c，h（x）[y=ym，]=–考虑到她自己和人工智能模型的概率估计h x t ，yt=ym， t和cm， t，人类决策者需要将它们组合以产生聚合估计c m+h，t，以在她计算接受或拒绝模型的推荐的效用之前推断AI模型的二元决策推荐正确的可能性。为此，两个定性在概率预测聚合文献[6，7，28]中，先前已经提出了不同的方法--通过取平均值来组合估计的折衷方法，以及倾向于将组合估计推到极端的朴素贝叶斯方法（例如，与这两种方法相对应，我们在本研究中考虑了4种方法来聚合人工智能模型的二元决策分类上的人类和模型置信度：平均化（AVG）：遵循这一规则，人类决策者只需将其信心和AI模型的信心进行，每个决定作为最终的、聚集的置信度，即，cm+h，t=参数γ在0到1之间变化，并控制应用朴素贝叶斯规则之前的调整程度-当γ=0时，所有概率都转换为0.5，而当γ=1时，不对概率进行调整。最后，在人类决策者获得AI模型对决策试验的二元决策推荐的聚合置信度c m+h，t之后，她可以计算遵循任何基本效用模型的每个动作的效用，如我们在第4.1.1节中所讨论的。也就是说，将4种增强信心的方法与2种基本效用模型相结合，我们总共有8种可能的人类调整效用模型。4.2选择组件选择组件描述了人类决策者如何随机决定采取哪种行动同样，我们首先考虑几个基本模型，在这些模型中，这种选择过程只受到根据每个动作的估计效用，即，例如，rt=<$（ut，ut），cm，t+h（x t）[yt=y<$m，t]其中tj接受拒绝二、rj是选择动作j∈ {接受，拒绝}的概率···拉拉·a·b·+你会接受AI的建议吗？预测人工智能辅助决策中的人类行为WWW1701J'j→∞≥→JJ接受J拒绝接受拒绝JJ.Jj′e xp（δu′t′）在实验中，我们从1300个候选贷款中随机抽样，这些贷款是我们从银行卡中挑选出来的。我们证实，人类可能认为4个因素对贷款的预测性很高R贷款申请人要么全数偿还贷款，要么拖欠还款，在试验测试中，jrt=1。然后，我们考虑了她的决定，以及她自己的决定信心：选择过程受人类决策者自身的影响审判的判决，特别是在人类和模型之间的一致性我们不接受不排斥不接受不排斥·exp（η·ym，t·yh，t·（ch，t−0. （5））·e xp（−θ·ym，t·yh，t·（ch，t−0. （5））因此，研究人类调整的选择模型，调整后，人类决策者将贝韦托岛例如， rt=<$（ut，ut，m（xt），h（xt））.的值来确保。jrt=1。在该模型中，参数η和4.2.1基本选择模型。在本研究中，我们考虑了三种基本的• 贪婪：假设具有最高估计效用你是J。那么，当j = j时，rt=;否则，rt=1−。换句θ（η，θ>0）描述了人类决策者对每个动作的选择概率的程度--η（或θ）越大，人类决策者根据自己的判断接受（或拒绝）AI模型的决策推荐的概率就由于所提出的调整方法可以应用于j j j任何基本选择模型产生的概率，在这项研究中，换句话说，具有最大效用的动作将被选择，但是存在恒定的机会（即，（1）人会犯错误。• Logit：人类决策者采取行动的概率我们总共有3个人调选择模型与3个基本选择模型相对应。texp（δut）由softmax函数rj=.j′expJ（δut）.的Logit5实验设计模型是经济学中广泛使用的离散选择模型[1，37]，它假设人类在与更大的效用相关联时更经常地选择次优选项模型中的参数δ反映了人类决策者对效用的敏感性：当δ 0时，人类决策者采取随机行动，当δ0时，人类决策者几乎总是采取估计效用最优的双栏（DH）：前两个模型假设，人类在每次试验中独立地选择行动。在双栏模型[10]中，我们假设在每次试验中，概率为π（π 0），人类决策者采取与上次试验相同的行动，而不管该行动的估计效用如何。这可能反映了人类对AI模型的固有信任或不信任。此外，在人类决策者在试验中考虑效用的条件下，她选择每个行动的概率遵循Logit模型：为了探索双成分模型的哪些组合可以最好地捕获人工智能辅助决策中人类决策者5.1决策任务在我们的实验中，我们要求受试者完成的决策任务是评估贷款违约风险。具体来说，在每项任务中，受试者都会看到贷款申请人的个人资料，包括7个特征-贷款金额和利率，还清贷款的月数，每月分期付款的价值，以及申请人在回顾这些信息后，受试者被要求预测该申请人是否会拖欠贷款。我们在实验中向受试者展示的贷款申请人资料来自记录P2P贷款信息的公共数据集(1−π)exp(δuˆt)Rt=j′exp（δu′t′）t−1平台，LendingClub [43].将问题简化为二进制π +。J ，j=d预测，我们限制我们的注意力只在那些情况下，（1−π）exp（δuJt−1贷款进一步，贷款风险评估课题的工作任务4.2.2人为调整的选择模型。在人类调整的选择模型中，我们试图描述人类决策者对决策试验的判断如何改变她采取行动的方式。直觉上，如果人类决策者自己的二进制决策规则t与AI模型的决策规则m，t相同（不同），则她可以增加（减少）接受模型的决策推荐的概率此外，她对自己的决定越有信心（即，ch，t越大，她将增加（减少）rt越多贷款的违约风险，即，贷款金额，利率，安装-ment收入比，和申请人因此，我们通过确保这四个因素中的每一个的值的均衡分布以及这些因素的交叉点，5.2初步研究：仅限人类决策我们首先进行了一项试点研究，以收集关于人类如何在没有人工智能模型帮助的情况下进行贷款违约风险预测的数据。在这项初步研究中，每个受试者都被要求完成而减少（增加）rt。为了反映这种直觉，我们建议一系列40个贷款风险评估任务，以下调整方法。特别是，人类决策者首先使用基本选择模型计算选择每个动作的概率。然后，她将根据她的决定与AI模型之间的一致性调整这些从我们的任务池中的300个任务的子集中采样在每个任务中，受试者被要求提供她的二元预测（即，此外，她还需要通过表明以下概率来报告她对自己预测的信心：R布雷尔布雷尔·杰勒德1702（）下一页（）下一页（）下一页WWW她相信她的预测将是正确的，因为值在50%到100%1之间。共有211名受试者参加了这项初步研究。从这个试点研究收集的数据后，使我们能够学习人类决策功能hx推断人类决策者在实践中，给定一个决策任务，任何关于人类如何在这个任务上做出决策的历史数据都可以有效地作为决策的基础。“pilot5.3人工智能辅助决策实验我们的真实实验是为了收集人工智能辅助决策设置下的人类行为数据而进行的。5.3.1人工智能模型。首先，我们训练了一个基于LendingClub数据集的梯度提升树模型来预测贷款申请人是否会拖欠贷款。然后，我们使用直方图分箱方法[46]来校准该模型我们在一个hold-out测试数据集上评估了该模型的性能，发现AUC得分为0.731，表明预测有效性合理因此，该模型的输出（包括二进制预测和预测置信度）作为决策建议提供给实验中每个决策任务5.3.2实验性治疗。在我们的实验中，我们包括两种处理来模拟不同类型的决策环境。特别是，我们怀疑人类决策者在人工智能辅助决策中的行为可能会随着决策的风险而变化。如第3节所讨论的，我们可以使用参数β来表征决策的相对风险，参数β是错误决策引发的惩罚与正确决策相关的奖励之间的比率。因此，我们通过改变β -的值来创建两个处理，在高惩罚（HP）处理中，我们设置β = 2，而在低惩罚（LP）处理中，我们设置β=0。5. 因此，我们从这两种治疗方法中获得的行为数据使我们能够探索人类决策者是否利用不同的过程来决定是否在决策的利害关系不同时采用AI模型5.3.3实验程序。我们通过在亚马逊土耳其机器人（MTurk）上发布人类智能任务（HIT）并招募MTurk工人作为我们的受试者来进行实验。到达后，受试者被随机分配至两种实验治疗之一。受试者被告知，他们需要完成一系列贷款违约风险评估任务的HIT。我们还告诉受试者，他们将获得一个初始余额为200虚拟积分的奖励账户，并且他们的奖励账户余额将根据她在每个任务中的预测是否正确而更新（尽管更新的账户余额不会实时显示给受试者）-正确的预测将带来10分的增加，而错误的预测将导致LP治疗中的受试者扣除5分，HP治疗中的受试者接下来，受试者接受了关于贷款申请人个人资料中每个特征的含义在[1]在任务界面上，我们告诉受试者，如果她认为自己的预测正确的概率低于50%，那么她可能想推翻自己的预测。在教程的最后，我们通过资格问题测试了受试者是否理解贷款申请人简介中的信息，受试者只有在正确回答后才能继续。在完成教程后，受试者开始在我们的AI模型的帮助下，从我们的任务池中随机选择一组40个决策任务（我们排除了在试点研究中使用的300个任务的子集）。具体来说，在每个任务中，受试者首先看到贷款申请人的个人资料以及AI模型对该个人资料的预测和信心，然后她需要通过接受或拒绝模型的建议来做出最终预测（参见附录中的图A2了解我们的受试者被明确告知，模型的置信度得分是经过校准的。我们没有立即向受试者提供任何反馈，以确定她或模型的预测在任何任务上是否正确。我们的实验在美国东部时间工作日上午8点到下午6点发布只有工人参加过我们试验性研究的工人不允许参加真正的实验，每个工人只能参加一次。此外，我们还包括三个常识性问题（例如，在我们的HIT中，注意力检查问题，后来帮助我们过滤掉不注意的受试者的数据。实验的基本费用是1.80美元。我们将受试者的奖金账户余额转换为实际奖金支付，使用400点对1美元的比率，这导致最高奖金为1.50美元。受试者在我们的HIT上花费的时间中位数为8.1分钟，导致每小时工资中位数为15.9美元。6结果在过滤了注意力不集中的受试者的数据后，我们在人工智能辅助决策实验中获得了 404 名受试者的数据（ HP ： 214 ， LP ：190）。在本节中，我们首先检查各种计算模型在解释普通人类决策者在AI辅助决策中采用AI模型建议的行为（即，学习一个模型来预测所有人类受试者然后，我们将探讨决策风险的变化如何影响人类行为。6.1模型训练6.1.1人类决策函数h x。我们首先通过利用在我们的试点研究中收集的数据作为训练数据来学习人类的决策函数hx。具体来说，我们通过将每个受试者自我报告的二元预测和预测信心的组合转换为受试者对该任务的积极预测的信心来处理数据任务（即，h（x）[y=+1]）。接下来，对于每项任务，我们使用所有参与该任务的受试者的h（x）[y=+1]平均值。任务来表示平均决策者的二元决策y h和置信度c h = h（x）[ y= y h ]。通过5折交叉验证，我们发现该模型预测y h的平均准确度为0。783，其平均绝对误差在预测c h时为0。056. 在下文中，我们使用该模型你会接受AI的建议吗？预测人工智能辅助决策中的人类行为WWW17036.1.2人类行为模型。为了评估不同模型在人工智能辅助决策中拟合人类决策者平均行为的性能也就是说，我们将该治疗的受试者随机分为5组，然后根据受试者的划分创建五个行为数据集在交叉验证的每次迭代中，给定特定类型的双组分模型（例如，EU+Logit），我们根据训练折叠训练模型，使用网格搜索来识别最佳超参数，并实施学习率调度和早期停止以避免过度拟合。然后，我们通过计算受试者在实验中采用AI建议的平均负对数似然（NLL）值来我们通过报告5次交叉验证迭代中平均NLL的平均值，比较了各种模型在拟合平均人类决策者行为方面的性能直觉上，平均NLL越低，模型越好。最后，除了双成分模型，我们还训练了一些标准的监督学习模型（例如，SVM、logisitic regression、XGBoost），其基于任务特征xt、AI模型的推荐y m，t和决策试验中的置信度c m，t来直接预测dt在这些模型中，逻辑回归模型实现了最低的平均NLL，因此我们将其用作以下分析的基线。6.2模型性能比较6.2.1基本实用程序+基本选择。我们首先研究了由基本效用模型和基本选择模型组成的双成分模型在预测人工智能辅助决策中一般人类决策者的采纳行为方面的性能。我们在这里发现，平均决策者然而，基本效用模型和基本选择模型的所有组合都显示出比基线逻辑回归模型更差的表现此外，我们注意到，对于包含双栏选择模型的模型，π的最佳参数值总是估计为0，有效地使双栏模型退化为Logit模型。这意味着普通人类决策者在每次试验中是否采用AI模型的建议的决定可能是以个案的方式做出的，而不是受到其固有信任分配的有鉴于此，我们在进一步的分析中将双栏模型排除6.2.2人性化调整模型接下来，我们将探讨在决策试验中考虑人类自己的判断是否可以提高双组分模型的预测性能。为此，我们首先将效用模型固定为基本模型，同时将选择模型替换为人为调整的选择模型。例如，图2报告了人类调整选择模型和基本选择模型在HP治疗中拟合平均决策者行为的比较。我们发现，对于基本效用和图二：当使用基本实用模型时，HP治疗中的双组分模型的性能，并且选择模型是基本的（灰色条）或人为调整的（绿色条）。红线代表基线logistic回归模型的性能误差条（阴影）表示平均值的标准误差。在选择模型中，对选择组件应用基于人类的调整显著提高了模型在拟合人类行为数据方面的性能，我们在LP处理中也观察到类似的趋势（见附录中的图A4）。此外，我们尝试将选择模型固定为基本模型，而将实用模型替换为人类调整版本。在这种情况下，我们发现，当选择模型是Logit模型时，对双成分模型的效用成分应用基于人为的调整的预测性能（见附录中的最后，我们将调整同时应用于效用和选择模型图3比较了由人为调整效用模型和人为调整选择模型组成的双组分模型与由基本效用模型和基本选择模型组成的双组分模型的预测性能在这两种处理中，我们发现，在预测平均决策者的行为方面，我们可以得到的最佳预测性能（遵循调整的朴素贝叶斯规则）和人为调整的选择模型2。此外，表现最好的双组分模型可以匹配基线逻辑回归模型的平均性能，而它们的性能方差减小。总的来说，我们的研究结果提供了明确的证据支持这样一种推测，即普通的人类决策者在决策试验中会结合自己的判断来决定是否接受AI模型此外，这种判断可能会影响决策者的行为，通过多个步骤，在他们的6.3最后，我们探讨了在决策风险不同的不同决策环境中，决策者对人工智能辅助的平均采用率是相似还是不同的。为此，我们比较了调整后的基于CPT的效用模型（遵循调整后的朴素贝叶斯规则）和调整后的Logit选择模型组合的两种实验处理之间的学习模型参数，因为这种双组分模型实现了两种治疗的最佳预测性能。该双组分模型共有5个模型参数：k、γ、δ、η、θ。2在应用调整之前选择基本效用/选择模型似乎不会显著影响双组分模型WWWXinru Wang，Zhuoran Lu，Ming Yin1704接受接受接受（）下一页（）下一页（）[]（）[]（）[]（）下一页(a)低惩罚待遇（b）高惩罚待遇图3：当效用模型和选择模型都是基本模型时（灰色条），以及当效用模型和选择模型都是人为调整模型时（其他四个条），双成分模型的性能红线代表基线模型的性能。误差条（阴影）表示平均值的标准误差。类似地，然后我们查看模型的选择组件中的三个模型参数，即，δ、η和θ-它们累积地将人类决策者对AI正确性的最终信念b t，以及她对自己的决策的信心c h，t，转化为a接受AI模型推荐的概率（a）bt的差异（b）rt的差异(c)rt的差异这种转换遵循不同的公式，人类决策者自己的决策是否与人工智能的决策一致。图4（b）和4（c）显示了增益图4：比较两种治疗中的人类行为HP和HP之间rt平均值的差异不同的决策风险。颜色反映平均值接受不h，tHP治疗中变量（bt或rtLP处理的不同组合的b和c，当接受取LP处理中该变量的平均值。我们首先注意到，基于我们通过5重交叉验证获得的5个模型，基于CPT的效用模型中参数k的平均估计值为k LP = 1。99（σ = 0. 07）对于LP处理和kHP= 0。63 σ= 0。01对于HP治疗-我是说。这意味着在LP处理中，平均决策者倾向于应用S形加权函数来解释概率，而在HP处理中，概率加权函数呈反S形换句话说，当决策风险较低时，人们倾向于高估接近0.5的概率，而当决策风险较高时，人们倾向于低估它们。接下来，我们关注属于模型的效用分量的两个模型参数，即，k和γ。回想一下，k和γ的累积效应是将AI模型它的决策建议cm，t和人类决策者的对AI模型决策的信心yt=ym ， t转化为一个扭曲的概率bt=wcm+h，t，这是人类决策者在置信度聚合和概率加权后对AI模型正确性的最终“信念”。因此，在特定情况下，应给出相同的cm、 t和hxt yt=ym， t，当决策风险不同时，b t的值会有什么不同。给定我们在5重交叉验证中学习的5个行为模型bt之间的HP治疗和LP治疗，对于所有组合，cm，t和hxt国家 yt=ym，t，结果在图4（a）中显示为热图。我们发现，随着决策风险变得越来越大，人类决策者倾向于越来越低估AI模型的决策建议正确的可能性，因为对于大多数AI置信度和人类置信度的组合，他们对AI正确性的最终信念在HP处理中比LP处理中要小。当AI模型的置信度（即， c m，t）相对较低，而人类决策者在她的决策中是高度不确定的（即，例如，（h（xt）[yt=ym，t]）约为0.5）。人类决策者分别同意或不同意AI模型的决策建议。我们发现，当人类自己的决定是相同的（不同的）作为AI的，这种协议（不同意）导致一个一致的概率较高（较低）的平均决策者接受AI的建议时，决策风险较大。当一个人对自己的决定c h，t的信心很高时，这一点尤其突出。7结论与讨论在本文中，我们提出了一个两个组件的人类行为模型空间，包括效用组件和选择组件，来描述人类我们评估了各种计算模型在这个空间中拟合通过大规模随机实验收集的真实人类行为数据的性能。我们的研究结果表明，人类调整的模型优于仅基于AI模型输出的模型，这表明人类倾向于在决策试验中使用自己的判断来衡量是否采用AI建议。此外，模型参数的比较表明，当决策的风险变得更大时，人们倾向于降低对AI推荐正确性的信念，并在AI辅助决策中更多地依赖自己的判断。我们目前的研究有一些局限性例如，我们的行为模型的性能可能受到人类决策函数hx的准确性的限制。此外，人们是否会接受人工智能建议可能会受到现实世界人工智能辅助决策环境中更多因素的影响，例如人工智能解释的存在和人们对一个决定的固有认同。我们相信我们的工作仍然为未来更现实的人机交互建模提供了一个通用框架。例如，决策中的固有偏好可以通过具有“默认”决策的选择模型来捕获，而人工智能解释的存在可能表明人类调整还应该考虑人类和人工智能的理由是否匹配。我们你会接受AI的建议吗？预测人工智能辅助决策中的人类行为WWW1705希望我们的工作能够激发更多的研究，在建模人与人工智能的互动，并在现实的人类行为模型集成到人工智能驱动的决策辅助优化。致谢我们感谢Alexandros Psomas和所有匿名评论者提供了许多有用的评论。我们感谢国家科学基金会在IIS-1850335资助下对这项工作的支持这里表达的任何意见，发现，结论或建议仅是作者的意见。引用[1] OA Adeogun，AM Ajana，OA Ayinla，MT Yarhere和MO Adeogun。2008年Logit模型在收养决策中的应用：对尼日利亚拉各斯州杂交胡子鲶的研究。美国-欧亚农业与环境科学杂志4，4（2008），468[2] Amos Azaria，Ya2016年。在重复的人机交互中提供策略建议。自治代理和多代理系统30，1（2016），4-29。[3] Gagan Bansal，Besmira Nushi，Ece Kessels，Eric Horvitz，and Daniel S Weld.2021. 最准确的AI是最好的队友吗为团队合作优化AI（2021年

下载后可阅读完整内容，剩余1页未读，立即下载