有效人工智能团队构建：机器学习模型与多个专家补充，提高预测准确度与适应性

18 浏览量更新于2024-02-04 收藏 672KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文--形成有效的人工智能团队：构建机器学习模型，补充多个专家帕特里克·海姆1分，塞巴斯蒂安·谢尔哈姆1分，2分，迈克尔·沃辛1分，Johannes Jakubik1和Gerhard Satzger1卡尔斯鲁厄理工2GESIS -莱布尼茨社会科学研究所patrick.hemmer，michael.voessing，johannes.jakubik，gerhard. kit.edu，sebastian. gesis.org摘要机器学习（ML）模型越来越多地用于经常涉及与人类专家一起工作的应用领域。在这种情况下，当ML模型难以预测某些情况时，将其推迟到单个人类专家可能是有利的虽然大量的工作集中在具有一个不同的人类专家的场景在这项工作中，我们提出了一种训练分类模型的方法，以补充多个人类专家的能力。通过与分配系统一起联合训练分类器，分类器学习准确预测人类专家难以预测的那些实例，而分配系统学习将每个实例传递给最合适的团队成员-分类器或人类专家之一我们评估我们提出的方法在公共数据集上的多个实验与我们的方法优于以前的工作，比最好的人类expert或分类器更准确。此外，它可以灵活地适应不同规模和不同专家多样性水平的团队1介绍在过去的几年中，机器学习（ML）模型的性能已经可以与越来越多的应用领域中的人类专家的性能相媲美[Estevaetal. ，2017]。例如，在医学中，几项研究已经证明，ML模型可以超过放射科医生在胸部X射线中诊断肺炎的性能[Irvinet al. ，2019]或在检测糖尿病视网膜病变方面达到类似性能[Gulshanet al. ，2019]。尽管有这些竞争性的结果，个别专家在输入空间的不同区域仍然比ML算法更准确[Raghuet al. ，2019]，例如，由于有限的模型容量，有限的训练数据，或存在这些作者贡献相等。ML模型无法访问的边信息[Wilderet al. ，2020]。在这种情况下，先前的工作已经调查了这些不同的能力是否可以被杠杆化，以使ML模型能够通过学习仅预测实例的一部分并将剩余的实例传递给do-main专家来补充单个人类专家的弱点 [Bansalet al. ， 2021;Deet al. ，2021;Madrasetal.， 2018;MozannarandSontag，2020;Raghuet al. ，2019;Wilderet al. ，2020]。尽管在许多现实世界的应用中，多个人类专家可用于负载共享和覆盖不同的实例[Chouldechova等人，，2018;Grønsund和Aanestad，2020]，这些研究中的大多数都集中在ML模型自己为给定实例做出决定或将其留给单个人类专家的设置上。因此，由于不同的能力，它们不会利用单个人类专家之间的潜在因此，从团队的角度来看，提高整体性能的潜力仍然没有得到利用。领域专家预测的差异可以，例如，源于不同的知识水平或个人偏见[Lampertet al. ，2016]。此外，高度专业化领域的快速发展，医学，使得领域专家越来越难以获得单个专业领域内的所有知识。这就需要识别适当的人类专家，以便在ML模型难以预测时将特定实例分配给它们。因此，我们提出了一种方法，该方法联合（1）训练分类器以专门补充多个人类专家的个人弱点，以及（2）训练分配系统以将每个实例分配给分类器或一个特定的人类专家。具有几个可用的人类专家和一个分类器的设置被分配实例的团队成员然后对整个团队的一半总的来说，我们的工作做出了以下贡献：首先，我们提出了一种新的方法，优化每-通过在考虑可用人类专家的个人能力的情况下，联合训练分类器和分配系统，来虽然分类器学习准确地预测人类专家不太胜任的输入空间的区域，但分配系统学习将每个实例分配给最适合的团队成员。其次，我们证明了我们的方法可以提高arXiv：2206.07948v1 [cs.AI] 2022年6月+v：mala2277获取更多论文1∈HΣΣ∈Y{∈XD {}X → X →最新技术水平，通过在两个数据集上进行实验，合成生成人类专家-一个数据集由包含仇恨言论和攻击性语言的推文组成[Davidsonet al. ，2017]和流行的CIFAR-100数据集。我们表明，我们的方法不仅可以处理不同的团队规模，而且还可以更好地利用高人类专家的多样性方面的能力比以前的工作[Keswani等人。，2021]。此外，我们直观地说明了我们的方法中的分类器对人类专家不太准确的实例进行了正确的预测，并且分配系统学会将这些实例准确地分配给分类器。第三，我们展示了我们的方法在现实世界中的适用性，从医疗领域的一个例子。胸部 X 射线数据集[Majkowskaet al. ，2020;Wang等人，2017]提供了合适的设置，因为注释不仅包括放射科医师裁定的标签（其用作高质量的“金标准”），而且还包括个体放射科医师水平上的注释。在这种情况下，先前的工作已经对数据集进行了实验评估，所述数据集或者仅提供人类专家标签的分布，例如，CIFAR-10H [Petersonet al. ，2019]或无法追溯到个人专家的标签，例如，Galaxy Zoo 数据集[Lintottet al. ，2008年]。我们在www.example.com上提供了我们的代码和本文的附录https://github.com/ptrckhmmr/human-ai-teams。2相关工作近年来，人们对优化人类-AI团队的性能越来越感兴趣-团队由人类专家和分类器组成[Hemmeret al. ，2021]-通过将实例的子集分配给单个人类专家 [Deet al. ，2021;Keswaniet al. ，2021;Madrasetal. ，2018;Mozannarand Sontag ， 2020;Okatiet al. ， 2021;Raghuet al. ，2019;Wilderet al. ，2020]。在这种情况下，Raghuet al.[2019]分别训练分类器和预测人类专家是否出错的模型。通过基于两个模型中的哪一个具有更高的不确定性来推迟，可以实现优于完全自动化（即，分类器预测所有实例）和单独的人工努力（即，人类专家预测所有情况）。虽然作者孤立地训练分类器以优化其性能，但不同的研究强调，分类器也可以被训练来专门补充人类专家几种方法提出联合训练分类器和延迟系统[Madrasetal. ，2018;Wilderet al. ，2020]。其他方法利用具有理论保证的目标函数[Deet al. ，2021;Mozannar和Sontag，2020]。De等人 [2021]专注于支持向量机和最大化子模块功能，以优化团队绩效。Mozannar和Sontag[2020]优化了由成本敏感学习产生的一致的替代损失。进一步的相关工作已经研究了最佳分流政策[Okatiet al. ，2021]，用户发起的延迟选项[Bansalet al. ，2021]，或从bandit反馈中学习互补性[Gaoet al. ，2021]。一般来说，这些方法集中于将分类器与单个人类专家相结合。但实际上，不止一个人类专家通常是可用 [Chouldechovaet al. ，2018;Grønsund and Aanestad，2020]。因此，在资源稀缺的领域，咨询正确的专家以避免潜在的代价高昂的错误是特别重要的。我们的AP-PROACH扩展的想法，分类器应该补充的优点和缺点，一个单一的人类专家的设置与多个人类专家。该系统将实例分配给由多个人类专家和互补分类器组成的团队中的一个专家。并行工作提出了一种多标签分类方法，其中分类器要么进行预测，要么将实例推迟给多个人类专家之一[Keswaniet al. ，2021]。然而，该方法并没有利用人类专家3问题公式化在本节中，我们将介绍优化人类-AI团队在分类任务上的性能的问题。给定一个训练示例x，我们学习预测其地面真值标签y=1。. .，k，其中k表示类的数量。除了y，我们假设可以访问到m个人类专家对所有训练实例的预测h，以隐式地学习它们的优点和缺点。每个 h 是 m 维向量，其中h=[h1，. . .，h m]，其中hj∈Y<$j∈{1，. . . ，m}。我们把这些数据结合起来，训练数据集=（x，y，h）NP，其中N表示数据实例的数量，以联合训练分配系统 A ：Rm+1和分类器F：Rk。这里，P是一个（未知的）联合分布，m+1表示人类-AI团队的总规模，A和F的输出是指各自模型的倒数第二层。分类器预测y=f=argmaxF（x），并且分配系统指示每个团队成员的能力，包括对于实例x具有a=A（x）的分类器。将所有团队成员的个人预测组合在一起y=[h1，. . . ，hm，y∈clf]，并且最有能力的团队成员j max= arg max a的index导致团队预测y∈team=y∈jmax。我们的目标是尽量减少球队的损失Ltea m （F ，A，x， y ，h）=E （ x ， y ， h ） <$Pl（y，y <$tea m）.（1）为了最小化损失，分类器需要在人类专家不太准确的情况下准确。分配系统4方法在本节中，我们提出了我们的方法，该方法联合训练分类器以补充多个人类专家的能力，以及将实例分配给人类专家或分类器之一的分配系统。我们首先介绍用于训练两个组件的代理损失我们的方法借鉴了专家混合（MoE）框架，该框架将多个分类器与门控网络相结合，并同时训练它们[Jacobset al. ，1991]。+v：mala2277获取更多论文←X→∈X→联系我们←ew=←端←ΣΣΣΣh（i），. . . 、h（i）、c端l=1L门控网络结合了我们方法的分类器算法1训练的输出并划分输入空间，使得每个分类器要求：D ={（x，y，h，. . . ，h）}N，训练数据被训练来预测一个分区的输出但是，与1m1与MoE框架不同，我们将一个分类器F的输出与人类专家的固定预测相结合。除了使用分配系统A作为门控网络之外，我们还使用它在团队成员之间分配实例。给定分配系统a=A（x）的输出，我们得到团队成员j产生的概率wj实例x的正确输出，y和hj是独热编码的Require：F，具有F的分类器：Rk要求：A，分配系统A：Rm+1对于迭代次数，对小批量B1，. . . ，N对于i B做aA（x（i））对于j = 1，. . . ，m +1 doeajjm+1ealj= 1，. . . ，m +1。（二）eajjm+1all=1l=1分类器端f（x（i））对于l = 1，. . . ，k doezlCi=ezi克l=1 ezli= 1，. . . ，k，（3）克o=1ΣT←1ezoΣM其中z=F（x）是分类器的输出然后我们来-将条件概率c与独热编码的对于l = 1，. . . ，k doP茶m（Y=1|x（i））←m+1wjTl，j人类专家的预测，端L（i）=− kj=1y（i）l〇 g（P）m（Y=l|（i）其中hj∈ {0，1}k。利用所有团队成员的预测-反向传播Lteam=1L（i）i∈BbersT和概率w，我们推导出条件团队水平端|B|m+1P茶m（Y=i|x）=wjTi，ji=1，. . . ，k.（五）j=1最后，使用团队预测和one-hot编码的地面实况标签y，我们计算交叉熵损失KLteam（F ，A，x，y ，h）=−yilo g（Ptea m（Y=i|（六）i=1以联合训练分配系统和分类器。在等式（5）中使用用分配系统的softmax概率加权的所有组成员的预测是用作等式（1）中的输入以确保可微性的组预测的软松弛我们在算法1中形式化了我们的方法，并基于附录B中关于分类器和分配系统的偏导数分析，提供了关于损失函数内部工作的直观信息5实验在本节中，我们评估了我们的方法在不同环境下的性能，包括合成和真实世界的人类实验者。首先，我们证明了我们的方法适用于Twit-ter仇恨言论检测数据集上不同规模的团队[Davidsonet al. ，2017年]和CIFAR-100数据集[Krizhevsky，2009年]。其次，我们使用CIFAR-100研究了人类专家的多样性对团队绩效的影响CIFAR-100中100个子类和20个超类的存在使我们能够建模更精细的人类专家的能力。第三，我们通过展示来自NIH临床中心的胸部X射线数据集的结果来评估其现实世界的适用性[Ma-jkowskaet al. ，2020;Wang等人，2017]包含真实的放射学家的注释。附录A中提供了其他实验结果和实施细节。基线。我们将我们的方法（分类器专家团队）的性能与多个基线进行比较。第一个是由Keswani等人提出的联合稀疏框架（JSF）。 [2021年]。与我们的方法相比，作者通过训练m+1个二进制sigmoid分类器并将每个实例分配给具有最高sigmoid权重的团队成员来实现多标签第二种是单类--使用交叉熵损失来预测所有实例（一个分类器）的分类器与我们方法中的分类器具有相同的架构。对于第三个基线，我们将实例随机分配给团队中的一位人类专家（随机专家）。对于第四个基线，我们将所有实例分配给团队中最准确的人类专家（最佳专家）。此外，我们还报告了两个额外的基线，以调查分类器和人类专家对团队绩效的贡献。这两个基线都是本工作中概述的方法的简化首先，我们用相同数量的分类器替换所有m个人类专家，产生一个大小为m+1的分类器组。这些具有与我们的方法中的分类器相同的架构，并且根据算法1与分配系统联合训练。对于第二种情况，我们忽略了分类器，专家团队规模m.然后使用人类专家来使用算法1训练分配系统。T=[h1，. . . ，hm，c]，（4）W+v：mala2277获取更多论文∼ U·U·U4·[2014 -05 -23][N5.1仇恨言论和攻击性语言数据集我们首先在包含仇恨言论和攻击性语言的Twitter数据集上进行实验[Davidsonet al. ，2017]。数据和专家生成。该数据集由24，783条标记为仇恨言论，攻击性语言或两者都没有的推文组成。我们遵循Keswani等人描述的数据集预处理过程。 [2021年]。我们将其转换为二元分类任务，1表示仇恨言论或经常性言论，语言，0表示两者都不是这些推文是第二个标签表示他们的第二个标签。选择（即，非裔美国人英语（AAE）或非裔美国人英语（non-AAE）。我们使用这个方言标签创建m个合成experts。对于每个专家，我们对数量p，q（）进行采样，（）是均匀分布。正确分类非AAE推文的概率由p表示，而q表示正确分类非AAE推文的概率。直接分类AAE推文。对于[3m]专家，我们定义M随着团队规模的不断扩大，整体表现也会随之提高。这与我们的预期一致，因为随着团队规模的增加，更多准确的人类专家可能会进入团队，并且其中至少一个团队成员可能执行准确预测的覆盖特征空间可能会增加。当仔细观察时，我们发现我们的方法（分类器专家团队）优于所有基线。所有团队规模的平均改进在JSF基线上为3.66%，在一个分类器基线上为6.76%，在最佳专家基线上为7.92%，在随机专家基线上为28.38%，在分类器团队上为7.44%。从我们的方法比专家团队提高6.96%的性能来看，很明显，我们方法中的分类器可以准确地预测人类专家能力所不覆盖的5.2CIFAR-100数据集本节的分析是三方面的，并使用CIFAR-p（0. 6，1）和q（0.6，p）专家们，我们4. 对其余[四|100数据集[Krizhevsky，2009]。首先，我们进一步3mq U（0. 6，1）和p U（0. 6，q）。因此，在本发明中，专家们对非AAE的推文和[m]更准确|我们的方法与不同的团队规模的性能的实验证据。第二，我们调查了影响因素--专家们对AAE的推文更准确。模型我们使用预训练的GloVe词嵌入[Pen-ningtonet al. ，2014]以生成100维特征向量。这些特征用于训练我们的方法和al-taximic基线。分类器和分配系统由一个神经网络建模，该神经网络由50个单元的单个隐藏层和随后的ReLU激活组成。实验设置。为了研究团队规模的影响，我们产生了2到20个人造人类专家。数据集分为训练、验证和测试部分，分别包含80%、10%和10%的数据。我们训练100使用Adamopt imizer的epoch，学习率为510−3，余弦退火学习率调度器和批量大小的512。我们在验证分割上应用提前停止，并在测试分割上报告结果。我们用不同的种子重复实验5次。结果我们在图1中显示了我们的方法的团队准确性和人类专家数量的相应基线。我们看到，除了随机专家基线绘制人类专家之外，所有方法都表现出增加，人类专家能力的多样性对我们方法的影响。第三，我们可视化我们的方法是如何在分类器和人类专家之间分配实例的，相对于每个团队成员数据集和专家生成。该数据集由从100个子类中提取的60，000张图像组成，这些子类被分组为20个相同大小的超类。使用20个超类进行分类任务，使用100个子类进行合成人类专家生成，与Twitter数据集相比，我们可以更细粒度地建模他们的能力。对于第一个分析，我们以下面的方式模拟人类专家。通过设计，对于m个人类专家中的每一个，队员们，我们做了一个 wkj（ 7 0 ， 5 ） j1，. . . .，m，其中kj表示每个人类专家完美预测的子类的数量对于m个人类专家中的每一个，完美预测子类的集合都是随机均匀抽样的，而不需要从所有100个子类中进行替换子类并映射到各自的超类。对于其余的子类，每个专家在所有超类中随机均匀预测。对于第二个分析，我们100 1009595909085807575702 4 6 8 10 12 14 16 18 20多的专家700 2 4 6 8 10 12 14 16 18 20专家多样性（不重叠类的数量）JSF Random Expert Classifier Team One Classifier最佳专家专家团队分类器专家团队JSF分类器团队一个分类器专家团队最佳随机专家分类器专家团队图1：我们的方法的团队准确性和Twitter数据集上团队规模增加的基线。着色区域显示标准误差。图2：我们的方法的团队准确性和CIFAR-100上人类专家多样性（非重叠类的数量）增加的基线。着色区域显示标准误差。准确度（%）准确度（%）4+v：mala2277获取更多论文∈··--------(a) （b）分类器百分百百分之五十0%的百分比(c)实例分配百分百百分之五十0%的百分比图三：在CIFAR-100输入空间的子集上，团队成员的表现的可视化-（a）中的人类专家的准确性和（b）中的分类器准确性-以及（c）中的分配系统的实例分配。在iN次运行中选择m=2个人类专家。为了隔离多样性的影响，我们在每次运行时改变第二个人类专家的能力，同时保持第一个人类专家的能力不变。对于i=1，我们选择前90个子类1，. . .，90，两个人类专家都能完美地预测相应的超类。对于其余的子类，两个专家在所有超类中随机一致地预测。然后，我们改变第二个人类专家的能力，使得对于运行i，完美预测的子类是i，。. . ，89 +i.通过每次运行将i增加1，其中两个人类专家中只有一个完美预测的子类的数量增加了2个子类，导致多样性增加。对于第三个分析，我们诉诸于这些多样性情景之一。模型我们使用ResNet-18模型[Heet al. ，2016]在ImageNet上预训练为具有512个输出单元的固定特征提取器。这些特征用于训练我们的方法和算法基线。分类器和分配系统由一个神经网络建模，该神经网络由一个具有100个单元的单个隐藏层和随后的ReLU激活组成。实验设置。对于第一个分析，我们评估了具有2到10个人类专家的团队的性能，这些专家具有正态分布的数量的完美预测的子类，如前所述。对于第二次分析，我们将第二个人类专家的i从1变化到11，以逐渐增加非重叠子类的数量。结果，对于游程i=1，分集为0，对于游程i=11，分集为20。对于第三肛门-ysis中，我们选择一个多样性的问题，即在第一人类专家被定义为1，. . . 90，第二个为6，. . .，95-可视化实例如何相对于每个团队成员的相应能力在分类器和人类专家之间分布。我们将50，000张训练图像分为80%和20%的训练和验证分割，并使用10，000张测试图像作为测试分割。我们训练模型100个时期-使用亚当优化器，学习率为510−3，余弦退火学习率时间表r，我们的衰减为510−4，批量大小为512。我们在山谷里申请提前停车-数据拆分并报告测试拆分的结果。我们用不同的种子重复实验5次。结果首先，与第5.1节的结果一致，我们发现我们的方法受益于越来越多的人类专家。这与我们的预期一致，因为至少一位专家在不同子类或超类的所有子类中具有优势的概率更高，越来越多的人类专家。在这两种情况下，分类器可以集中在输入空间的更小区域平均而言，我们的方法（分类器专家团队）比JSF基线高出19.77%，比最佳专家基线高出19.73%，比单一分类器基线高出25.86%，比随机专家基线高出30.75%，比分类器团队高出24.88%。尽管我们的方法中分类器的贡献随着团队中人类专家的增加而减少，但它最大限度地利用了每个团队成员这可以从与专家团队相比0.98%的性能增益中观察到。我们参考附录A中的图A1以获得额外的可视化。其次，我们发现，对于分类器&专家团队，人类团队成员能力的更高多样性有助于更高的团队绩效，如图2所示。尽管分类器的贡献在日益多样化的人类专家的存在下减少，但它在所有运行组件中为专家团队增加了2.40%的平均性能增益。相反，JSF基线并没有从多样性的增加中受益，而是将实例分配给最好的人类专家。请注意，我们在图2中汇总了最佳专家和随机专家基线，因为这两个人类专家在设计上具有相同的准确性。最后，我们在图3中说明了我们的方法的功能：（1）分类器对于可视化，我们使用UMAP算法将隐藏层的特征减少到2维[ McInnes etal. ，2018]并在每个六边形中聚合一组图像。图3a和图3b分别示出了2个人类专家和分类器的准确度。结合起来，插图显示分类器主要学习优化其在人类专家往往不太准确（图3a中的黄色和红色六边形）的图像（图3b中的绿色六边形）上的性能。图3c显示了分配系统将那些实例分配给人类专家不太准确的分类器。这里，暗区域表示将图像分配给分类器，而亮区域表示分配给人类专家之一。5.3NIH数据集最后，我们在NIH临床中心收集的真实胸部X射线数据集上评估了我们的方法[Majkowskaetal. ，2020;Wang等人，2017]。在之前的实验中，我们在某些特征之间诱导了一种合成连接，精度分配至分类器+v：mala2277获取更多论文··- 专家团队团队准确率（%）83.13（±0.21）84.70（±0.13）84.59（±0.12） 83.63（±0.08）89.52（±0.29）89.05（±0.19）88.45（±0.19） 87.20（±0.36）95.34（±n/a）91.01（±n/a）88.84（±n/a）91.31（±n/a）83.44（±0.16）85.09（±0.17）84.83（±0.23） 83.69（±0.27）我们的方法：95.34（± 0.04）91.08（±0.04）88.33（±0.11）91.29（±0.11）- C. &E.团队95.45（±0.06）91.72（±0.12）90.36（±0.15）91.51（±0.13）表1：我们的方法的团队准确度和基线，包括由NIH数据集上的分类器F和两名放射科医生组成的4个不同人类AI团队的标准误差(i.e.、鸣叫方言或图像子类）和人类专家相反，对于NIH数据集，它仍然事先不清楚功能与人类专家的能力相关的程度数据集。该数据集包括放射科医生对来自ChestX-ray 8数据集的4，374张胸部X射线图像的4个放射学发现的注释[ Majkowska etal. ，2020;Wang等人，2017]。我们关注的是临床上重要的发现空域不透明的发生，其具有普遍性（即，受该疾病影响的数据集中的患者百分比）为49.50%。对于每张X射线图像，由3名放射科医师组成的小组裁定真实标签，作为此外，每个图像报告来自22名人类专家的群组的三名放射科医师中的每一个的注释。每个放射科医生都可以通过唯一的ID进行识别，由于空间限制，我们列出了最后三位数字模型我们使用在CheX-pert数据集上预训练的ResNet-18模型-一种用于胸部X射线照片解释的不同X射线数据集[Irvinet al. ，2019]-其用作具有512个输出单元的固定特征提取器。对于我们的方法和算法基线，我们使用这些特征进行模型训练。分类器和分配系统由具有30个单元和ReLU激活函数的单个隐藏层神经网络建模。实验设置。我们与4对放射科医生进行实验，共享由两个放射科医生标记的800多个图像。由于交叉点不足，第三名放射学家无法加入团队。我们执行10倍交叉验证，同时确保来自一名患者的图像为了使放射科医师的单次绩效接近其总体绩效，我们使用分层。对于每个交叉验证运行，我们使用7倍用于训练，2倍用于验证，以执行早期停止，因为由于数据集大小较小，一个验证倍上的团队表现并不总是测试倍上团队表现的良好代表其余fold作为测试数据。我们使用Adam优化器训练模型20个epoch，学习率为110−3，权重衰减为510−4，批量大小为64。我们再重复一遍-用不同的种子试验5次。结果表1比较了我们的方法与基线的性能。详细地说，我们的方法（分类器专家团队）的性能优于其他基线。31.88（±4.73）98.78（±0.32）98.55（±0.34）61.69（±1.15）79.90（±0.29）94.67（±0.02）表2：分类器、放射科医师ID = 357和放射科医师ID = 117在分配给它们中的每一个的实例子集此外，团队成员特别是在高风险决策中（例如，医学），性能改进可以有助于进一步减少误诊的潜在严重后果。仔细观察分配给每个人类专家和分类器的图像子集，可以发现每个团队成员在分配给他们的子集上的表现最高。表2使用人类-AI团队的示例通过对角线值说明了这种分配[F，357，117]。因此，分类器学习并被分配到输入空间的比放射科医师更准确此外，分配系统基于两个放射科医师的能力在他们之间分配剩余的实例。六、结论在这项工作中，我们通过联合训练分类器和分配系统，利用人类专家和AI模型的互补能力。虽然分类器增强了人类专家我们提供了实验证据与合成和真正的人类专家的注释，这样的团队的能力，不仅优于先前的工作，而且还实现卓越的性能结果没有一个团队成员可以单独完成。此外，我们表明，我们的方法可以应付不同程度的人类专家的多样性，一般受益于更多的人类团队成员。由于我们在运行时不限制专家的可用性和容量，因此如果最准确的团队成员不可用，未来研究的机会可以探索负载平衡策略或替代分配策略。最后，我们假设可以访问人类专家为了解决这一限制，进一步的工作可以将我们的方法扩展到没有被团队中的所有人类专家注释的杠杆年龄数据。道德声明由于这项工作追求的是增强人类专家弱点的算法的训练，因此它受到重要的伦理考虑。我们的目标是实现改进的性能相比，全自动化和唯一的人力-福特，这可能是有益的高风险的决策。然而，该方法理论上可以用来估计单个团队成员对团队整体绩效的贡献这可以用于将表现不佳的专家排除在团队之外。然而，识别个别专家的弱点也提供了一个机会，通过有针对性的培训来教育他们。- 随机专家- 第一高手- 分类器团队ID =117单个准确度（%）分配给分类器FID = 357ID = 117分类器FID = 35797.73（±1.76）78.93（±2.47）96.43（±1.86）方法[法，357，117][法，357，121][法，249，124][法，249，296]基准缐：- JSF- 一个分类器94.6990.1488.6990.92+v：mala2277获取更多论文引用[Bansal et al. ，2021] Gagan Bansal，Besmira Nushi，EceKa- mar，Eric Horvitz和Daniel S.焊接最准确的人工智能就是最好的队友吗？为团队合作优化人工智能在AAAI，2021年。[Chouldechova et al. ，2018] Alexandra Chouldechova，Di- ana Benavides Prado ， Oleksandr Fialko ， andRhema Vaithianathan. 儿童虐待热线筛查决策中算法辅助决策的案例研究在FAT中，2018年。[Davidson et al. ， 2017] Thomas Davidson ， DanaWarmsley，Michael W.梅西和英格玛·韦伯。自动仇恨言论检测和攻击性语言问题。在ICWSM，2017年。[De et al. Abir De，Nastaran Okati，Ali Zarezade，andManuel Gomez-Rodriguez.分类为人类援助。在AAAI，2021年。[Esteva et al. [Andre Esteva ， Brett Kuprel ， Roberto A.Novoa，Justin M. Ko，Susan M.作者：Helen M.布劳和塞巴斯蒂安·特龙使用深度神经网络对皮肤癌进行皮肤科医生级别的分类Nature，2017.[Gao et al. 高瑞江，Maytal Saar-Tsechansky，Maria De-Arteaga ， Ligong Han ， Min Kyung Lee 和 MatthewLease。人工智能与强盗的合作反馈。在IJCAI，2021年。[Grønsund 和 Aanestad ， 2020] Tor Grønsund 和 MargunnAanestad。增强算法：新兴的人在环工作配置。战略信息系统杂志，2020年。[Gulshan et al. Varun Gulshan，Renu P. Rajan，Ka- sumiWidner ， Derek J. Wu ， Peter Wubbels ， TylerRhodes ， Kira Whitehouse ， Marc Coram ， Greg SCorrado ， Kim Ra- masamy ， Rajiv Raman ， LilyH.Peng，and Dale R.网络专家。印度糖尿病视网膜病变检测中深度学习算法与人工分级的性能比较。JAMA Ophthalmology，2019。[He et al. 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR，2016年。[Hemmer et al. Patrick Hemmer ， Max Schemmer ，MichaelVüssing，andNiklasKühl. 混合智能系统中的人机互补性：结构化在PACIS，2021年。[Irvin et al. ， 2019] Jeremy Irvin ， Pranav Rajpurkar ，Michael Ko，Yifan Yu，Silviana Ciurea-Ilcus，ChrisChute ， Henrik Marklund ， Behzad Haghgoo ， RobynBall，et al. Chexpert：a large chest radiograph datasetwith uncertainty labels and expert comparison.在AAAI，2019年。[Jacobs et al. ，1991] Robert A.雅各布斯Jordan，StevenJ.Nowlan和Geoffrey E.辛顿当地专家的适应性神经计算，1991年。[Keswani et al. Vijay Keswani ， Matthew Lease 和Krishnaram Kenthapadi。走向公正和准确地推迟到多个专家。在AIES，2021年。[Krizhevsky，2009] Alex Krizhevsky.从微小的图像中学习多层特征技术报告，多伦多大学，2009年。[Lampert et al. ， 2016] Thomas A Lampert ， Andre'Stumpf，andPierreGan cBogarski. 对注释者一致性、地面实况估计和算法评估的实证研究 IEEETransactions on Image Processing，2016。[Lintott et al. Chris J. Lintott ， Kevin Schawinski ， An zeSlosa r，KateR. Land，St ev enBamford，DanielI. 托马斯，M。放大图片创作者：Michael S.作者声明：Daniel Andreescu，P. Murray，and Jan van den Berg.星系动物园：斯隆数字巡天观测星系目视观测的形态学。皇家天文学会月刊，2008年。[Madras et al. ，2018] David Madras，Toniann Pitassi，and Richard S.泽梅尔负责任地预测：通过学习延迟来提高在NeurIPS，2018年。[Majkowska et al. Anna Majkowska，Sid Mittal，David FSteiner，Joshua J Reicher，Scott Mayer McKinney，Gavin E Duggan，Krish Eswaran，Po-Hsuan CameronChen ， Yun Liu ， Kalidindi ， et al. Chest radiographinterpretation with deep learning models ： assessmentwithradiologist-judicatedreferencestandardsandpopulation-adjusted evaluation.放射学，2020年。[McInnes et al. Leland McInnes ， John Healy 和 JamesMelville。Umap：降维的一致流形逼近和投影。arXiv预印本arXiv：1802.03426，2018。[Mozannar和Sontag，2020] Hussein Mozannar和David A.桑塔格学习服从专家的一致估计器。2020年，《国际反洗钱法》[Okatiet al. NastaranOkati ， AbirDe 和 ManuelRodriguez。分类下的微分学习。在NeurIPS，2021年。[Pennington et al. Jeffrey Pennington ，Richard Socher，and Christopher D.曼宁Glove：单词表示的全局向量。在EMNLP，2014年。[Peterson et al. ，2019] Joshua C. Peterson，Ruairidh M.作者：Thomas L.格里菲思和奥尔加·鲁萨科夫斯基Hu- man不确定性使分类更加鲁棒.在ICCV，2019年。[Raghu et al. Maithra Raghu ， Katy Blumer ， GregCorrado， Jon Kleinberg ， Ziad Obermeyer 和 Send-hilMullainathan。算法自动化问题：预测、分类和人力。arXiv预印本arXiv：1903.12220，2019。[Wang et al. [2017年]王晓松，彭一凡，卢乐，

下载后可阅读完整内容，剩余1页未读，立即下载