SAIBench：科学研究领域人工智能基准测试标准的统一化和实现

158 浏览量更新于2023-12-05 收藏 1.39MB PDF 举报

中国科学院

微软亚洲研究院

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

BenchCouncil交易基准，标准和评估2（2022）100063SAIBench：为科学设定AI基准李亚涛a，b，c，张建峰，詹建峰a，b中国科学院计算技术研究所，海淀区科学园南路6号，北京，中国b中国科学院大学，第一。北京市石景山区玉泉路甲19号，100049，北京，中国c微软亚洲研究院，2号楼，北京市海淀区丹棱街5号，100080，北京，中国A R T I C L E I N F O保留字：科学计算人工智能基准测试A B S T R A C T科学研究界正在接受基于人工智能的解决方案，以针对易于处理的科学任务并改善研究工作流程。然而，这些解决方案的开发和评估分散在多个学科中。我们将科学的人工智能基准问题正式化，并提出了一个名为SAIBench的系统，希望能够统一努力，并实现新学科的低摩擦入职。该系统通过SAIL实现这一目标，SAIL是一种特定于领域的语言，可以将研究问题，AI模型，排名标准和软件/硬件配置解耦为可重用的模块。我们证明了这种方法是灵活的，可以适应不同角度定义的问题， AI 模型和评估方法。该项目的主页是https://www.computercouncil.org/SAIBench。1. 介绍人工智能在过去几年中取得了持续而重大的进展，深度学习方法可以说是最具代表性和最受关注的方法。得益于人工智能加速器和通用架构不断增长的计算能力，新的人工智能范式和模型被提出，大大提高了这种数据驱动方法的可扩展性，灵活性和适用性。因此，IT行业正在欢迎AI驱动的解决方案，将它们集成到现有的数据处理管道中，否则需要人工干预或高昂的计算成本。这一趋势也在传播到科学研究界，因为研究人员越来越有兴趣利用最先进的人工智能解决方案来解决同样困难的任务，因此人工智能科学。从总体上看，科学研究活动可以是机械性的，也可以是创造性的机械研究活动可以通过算法指定，具有量化或计算可验证的输入/输出。另一方面，创造性的研究活动打破了机械系统，例如，通过定义一个新的问题或引入难以量化的想法。在这项工作中，我们称计算可验证的研究任务为“易处理的科学任务”。也就是说，引入人工智能科学解决方案是为了改进科学研究工作流程，通常针对易于处理的科学任务，例如：• 数学问题解决-解决数学定义明确的问题.• 模式匹配-分类，识别模式，并检测大量科学数据中• 预测-计算未来的世界状态，给定世界状态的初始快照和不断变化的规则。• 数据质量增强-提高从不完善的观测中获取的数据的质量，例如不完整、碎片化、有噪声的传感器数据。• 控制-使用执行器将传感器读数驱动到期望的状态，尽管两者都不完美• 假设和证实-提出一个理论（如方程），符合观察。这些任务的示例如表1所示。“科学人工智能”一词然而，我们认为，要充分发挥潜力，人工智能对于科学来说，仅仅挑选一种人工智能方法，将其与特定的任务相匹配，并将其与现有的方法进行比较是不够的。人工智能方法的一个优点是，它们将问题细节和数学过程抽象为将输入转换为输出的通用函数-也就是说，每个人工智能模型都具有适应其他任务的潜力，有些（例如，神经网络）甚至是通用近似器。科学是广阔的，人工智能的方法有很多。评估任务方法对的单一努力会让其他研究团体不知道模型能够处理的潜在任务和可以应用于任务的潜在模型。这个问题被夸大了，因为人工智能研究正在快速向前发展，当一个特定的方法被北京市海淀区科学院南路6号中国科学院计算技术研究所，邮编：100190中国电子邮件地址：yatli@microsoft.com（Y.Li），jianfengzhan@ict.ac.cn（J.Zhan）。https://doi.org/10.1016/j.tbench.2022.100063接收日期：2022年4月15日;接收日期：2022年5月11日;接受日期：2022年5月11日2022年5月24日在线提供2772-4859/©2022作者。 Elsevier B.V.代表KeAi Communications Co. Ltd.提供的出版服务。BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表标准和评价期刊主页：www.keaipublishing.com/en/journals/benchcouncil-transactions-on-benchmarks-standards-and-evaluations/BenchCouncil交易基准，Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000632表1简单的科学任务的例子。数学问题求解偏导数方程一般矩阵乘法矩阵分解积分蒙特卡罗方法模式匹配物种分类事件识别[2]气候分析[3]异常检测高能粒子模拟分子动力学流体动力学蛋白质折叠增强基因组序列比对天文图像增强医学图像增强表2资格标准示例。随机微分方程多体相互作用正定矩阵分解问题设置丙氨酸二肽直丝静磁社区大气模式（CAM5）[5]模拟问题案例ANI-1x [6]，GDB-17 [7]OASIS [8]问题设置已被实践和确认。这允许计算方法与现实世界互操作控制MRI重建托卡马克等离子控制[4]传感器触发实验，因为特定的实验设置可以虚拟复制。假设与验证自动物理定律发现符号回归如果一个科学计算任务被选中，或者一个任务被适配为人工智能方法，那么它可能已经被最先进的技术所击败为了帮助整个科学研究社区系统地吸收和整合人工智能研究的进步，并避免在开发和评估方面的重复努力，我们提出了SAIBench，一个连接科学计算任务和人工智能方法的系统，并自动对每个合理的组合进行基准测试，收集性能指标，并将其投射到每个研究社区的排名中。不同背景的研究小组可以专注于他们的需求，同时利用其他基准构建模块，而不必重新发明端到端的评估流程。本文的其余部分组织如下。我们首先在第2节中定义了科学AI基准测试的问题。在第3节中，我们讨论了方法，目标和挑战。第四部分详细阐述了系统的设计，包括各个组成部分的细节。我们将在第5节中展示涉及多个模块的端到端场景。2. 问题定义在这里，我们定义了科学AI基准测试的问题。首先，我们有一组易于处理的科学任务，如前一节所定义的，以及一系列人工智能方法，每个方法都需要经过训练才能解决特定的问题。为了评估这些任务的方法，不同的科学界有不同的标准。例如，高能物理中的仪器会产生zettabytes的数据，而人工智能模型的训练数据几乎是无限的。同时，对于生物学和生命科学，有时只有几百个数据点，需要高样本效率，以及强大的泛化和外推到看不见的问题配置的能力。尽管如此，方法的鉴定可分类如下：• 按问题类别定义。对于纯粹的计算任务，如数学问题求解，最好针对问题的类别，看看该方法如何在每组数学约束下执行。例如在解方程时，希望研究一种方法对于刚性和非刚性系统如何表现，其中两种类型都包含它们的问题类定义。• 由问题设置定义。与纯数学问题类相比，这种类型的问题定义通常在类下包含特定的约束以匹配物理设置。科学研究界已经建立了备受尊敬的• 由问题案例定义。对于某些任务，我们只对整个问题空间中的一个狭窄范围感兴趣。大多数数据驱动的任务都属于这一类，其中任务的典型工作负载由收集和/或标记的数据定义。在研究领域中也定义了“黄金标准”，即具有较高精度和其他期望属性的计算方法，但计算成本高昂。然后，这些方法用于收集非常具体的问题案例的数据，可以开发和评估其他更快但不太准确的方法。这种分类并不是相互排斥的，因为有些任务需要多个资格标准来正确定义问题。例如，机器人控制算法可以在模拟设置和从真实世界传感器收集的数据点上进行测试。然而，原则是这种分类描述了问题定义的层次-定义越倾向于前者（问题类），需要的计算就越多;另一方面，越倾向于后者（问题案例），数据就越多。此外，问题定义作为AI模型行为的规范，用于训练和测试。这些资格的示例见表2。然而，基于AI的方法可能需要训练，因此所有三种类型的问题定义必须减少到逐个案例的训练数据点-对于问题类，问题定义应该生成充分覆盖问题空间的独立问题实例。对于问题设置，问题定义应该生成符合约束的状态对于数据驱动的问题案例，问题定义应该简单地从数据集中枚举此外，方法的评估取决于生成测试的问题定义。对于每个测试用例，性能用成本函数表示。对于一个数学问题实例，成本函数可以是相对于地面真值解的误差，或者相对于等式约束的误差[9，10]。对于模拟设置，可以通过比较从这些实验中得出的性能指标来获得成本函数，如之前对特定任务的工作所示[11最后，对于数据驱动的问题案例，数据集可以分为训练集和测试集，成本函数是应用于测试集的损失函数。最后，重要的是要认识到，不同的基准社区使用“性能”一词来指代不同的概念。科学的AI基准测试不仅关注AI模型的准确性，还关注计算成本。计算成本可以进一步分为两个阶段：（1）模型达到一定精度的成本，以及（2）一旦模型被正确训练，使用模型进行推理任务的成本。对于第一阶段，标准做法是根据最佳/平均/最差精度测量训练时间（挂钟或总CPU/GPU时间），而对于第二阶段，则是吞吐量/延迟等。完成推理任务。Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000633此外，对于这两个阶段，我们可以使用标准的并行计算基准测试技术[14]来研究系统性能，以揭示解决方案的不同性能特征，例如解决方案的时间或成本效率。3. 方法SAIBench的主要目标是为所有相关的研究工作建立一个包容和互连的环境，包括问题定义，人工智能方法，训练算法，软件和硬件环境，度量定义和排名定义，并在给定的计算资源下有效地提供基准测试结果。这一目标带来的迫切需要是多方面的。我们需要用模块化的范例设计系统，并为不同的模块提供友好的编程接口。它应该处理不同编程语言和环境之间的阻抗不匹配，同时保持一致的标准。传统上，这是通过语言绑定（例如，计算化学包NWChem [15]可以执行自己的脚本语言，或由Python语言绑定控制）或基于文件的进程间通信来实现的，这是次优的，因为不同的编程环境可能具有不兼容的结构，无法绑定到单个进程中，并且分布式计算模块无法轻松建模。模块应该是自描述的，这样系统就可以自动发现它可以参与的基准测试任务，因此除了针对基准测试任务的模块化接口之外，还应该有一个协议用于模块交换元数据并相互关联。设计这样一个协议是具有挑战性的，因为它必须是通用的，可扩展的，但携带具体的含义。例如，如果我们将AI模型的输入/输出建模为所需维度的张量，则会对AI模型可以解决的问题施加严格限制，系统将无法关联此AI模型即使是稍微不兼容的张量，更不用说必须转换以适应的非张量数据。另一方面，如果我们简单地为每个模块附加一个文本描述，这对于机器理解来说太难了，并且需要人类的干预来建立联系。为此，需要机器可理解的灵活性和可扩展性，以使模块能够不那么严格地协作。上一个例子展示了AI模型的模块应该如何描述自己。类似地，对于问题定义，它应该以编程方式设置训练和测试夹具，并进行实验。通过这种方式，之前所有三种类型的问题定义都可以被规范化，并可以被AI模型访问。在此外，它还应该公开元数据，使系统能够检查执行工作流，并确定可以由其他模块完成的任务。这种类型的元编程在编程语言研究和最近的机器学习框架中实践，在声明性语言和特定领域语言（DSL）中实现[16]，但在科学计算中基本上未被探索，其中大多数执行引擎采用正如我们上面所讨论的，该系统不是一个单一的基准，一个这样的集合，将被投射回每个研究领域，并通过排名标准进行汇总。利益冲突自然会出现，例如，有利于速度与有利于准确性，第一原则度量与特定的一组派生属性。系统应该能够允许相同指标的不同视角，并为排名模块提供一个接口来声明它们的偏好。一个端到端的AI解决方案对一个易处理的科学任务的性能取决于多个方面，包括AI模型、训练算法、计算软件栈、赋能硬件等。这些因素并不线性地贡献最终的性能，例如，特定的AI模型可能在一种硬件配置下具有最佳的工作精度属性，而在其他硬件配置下则没有。因此，需要将所有这些因素视为基准超参数。有几个影响带来了这个要求。AI模块实现应该是声明性的，而不是绑定到特定的软件/硬件堆栈;软件堆栈模块应该声明功能（例如，矩阵乘法和反向传播），使得系统找到兼容的模型-软件对;而且，软件栈模块应该描述硬件兼容性并接受标准化的硬件配置描述符，以便系统可以自动安排可伸缩性测试。所有组件模块化和参数化后，整个基准测试工作流程可以如下所示。每种类型的模块都为基准测试任务引入了一些维度，目标是针对所有这些维度的笛卡尔积进行枚举和测试，其中问题空间中的每个点表示特定任务、求解器、度量、软件和硬件配置的组合。这使得模块可以宣传自己，发现其他模块，从而重用数据并相互交互，而无需事先知道它们。这种范式与FAIR科学数据管理指导原则[18]非常一致，该原则表明科学数据应该具有可查找性，可访问性，互操作性和可重用性。这是这项工作的方法与以前的AI基准测试和科学基准测试系统之间的关键区别，其中基准测试场景是预先确定的工作负载和模型组合，并且添加新的AI模型或数据集不会被系统中的现有模块自动发现和重用，并且必须由程序员编写脚本。最后但并非最不重要的是，由于系统自动发现潜在的-在基准测试任务中，期望系统可以向它们并发地调度计算资源。由于不同的基准测试任务可能需要不同的计算环境，系统可以为每个任务弹性地提供环境包括操作系统、运行时库、安装脚本和测试夹具数据。挑战在于如何设计系统以有效地支持这些需求并最小化部署开销。4. 系统设计在本节中，我们将说明系统的总体设计，深入了解每个系统组件，并讨论如何应对上述挑战。该系统的架构如图所示。1.一、工作流程很简单。规划器从模块存储库中提取所有模块，并根据元数据描述符将它们连接到可行的元组中。然后将执行计划分派到弹性计算平台，其提供存储器、处理器和加速器，其中每个基准测试任务元组在“基准测试荚”中执行。BenchPod的目的是为计算资源提供任务级隔离，与计划器交互的通信端点以及实验编排。问题定义模块可以即时生成数据，也可以将已知的数据集检索到BenchPod实例中。硬件定义模块获取硬件资源。软件定义模块基于标准化的软件包需求描述符，构造一个容器化的软件环境.容器的入口点是由BenchPod实例提供的shim程序，它协调求解器、指标收集和聚合的实际执行。4.1. SAIL：科学AI领域特定语言以前的AI基准测试系统要么隐式地定义一系列内置模块[19，20]，要么公开一个标记语言模式来定义模块[21]。为了更好的可编程性，可扩展性和用户人体工程学，我们建议定义模块与嵌入式领域特定语言（eDSL）称为SAIL。eDSL是作为Python包实现的，因此模块实现者可以利用Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000634Fig. 1. 系统架构。图二. MNIST问题定义。现代IDE的功能，如编写模块定义时的自动完成和类型检查。设计eDSL意味着必须将所需的功能改造成目标语言。为了实现这一点，我们利用了各种最适合所需功能的Python语言结构。有些特性可以通过静态分析来实现，例如，我们使用Python装饰器来识别模块入口点。这样，我们就可以轻松地扫描反射模块，并构建我们的模块存储库。我们使用Python类来表示我们的类型系统的类型描述符，这是一个双重角色的构造，既编码静态分析的类型信息，又在基准测试运行时分发代码。基准测试概念被建模为众所周知的全局对象，并且附加到它们的方法表示基准测试原语。这给了用户一个提示，这些概念是有状态的，并且原语可以用作计算例程和数据存储。最后，我们使用声明性方法来构建AI模型的计算图。表3显示了一些语言构造示例。模块脚本，而不是直接在Python解释器中执行，首先被发送到SAIL解析器。SAIL解析器用计算节点代替实际的执行逻辑，并连接具有计算依赖关系的节点以构建计算图，类似于自动微分框架中的磁带记录技术[22]。然后解析器分析计算图并合成实际的基准测试代码。eDSL提供了自己的类型系统，将张量和符号方程作为一等公民，并提供帮助函数来帮助连接不同的模块。事实上，通过适当的类型推断，甚至不需要显式声明模块的输入/输出类型。脚本语言的灵活性也简化了模块定义，例如，图2说明了这是一表3SAIL语言结构的示例。特征结构模块入口点Decorators @ProblemDefinition@MetricDefiniton。. .类型描述符类类Tensor标量类。. .概念和原始人著名的火车。分类全局对象模型。预测Test. Compare.. .人工智能模型声明式方法流水线线性ReluSoftmax . .典型这个问题的定义读取四个输入文件，将它们连接成对，并将数据点和相关的分类任务声明到Train和Test集合中。请注意，对于某些类型的问题，训练和测试集合的存在并不是必需的-例如，PDE请注意，MNIST的问题定义类似于机器学习训练循环-但不完全如此。关键是它只定义问题，而不试图解决或评估结果。这使我们能够将不同的评估指标插入工作流。例如，机器学习社区传统上关注整个数据集的平均性能，而在生产关键环境中，人们可能更喜欢评估99%的性能。Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000635拒绝上下文。这在前面的示例中已经演示过，其中模块可以使用DSL原语Fail来指示它不知道如何解决问题，或者硬件不支持当前的软件配置。此外，系统构建了一个图，其中节点是数据类型，边是转换器，并采用广度优先搜索来允许类型转换器组合从而多个转换器可以一起工作以放松类型约束并提高模块兼容性。这个过程类似于关系数据库中的内部连接操作，系统构建完整的模块元组作为测试场景。除了自动发现，模块还可以显式声明与其他模块的关系，以缩小搜索空间。逻辑在算法1中给出。图三. 自定义评估度量定义。百分位精度，或硬故障条件，如图所示。3.代码中还显示了一个简单的计时器指标，一个任务可以用多个指标进行评估。例如，代码中的两个将组合转换成工作关键损耗2D图。对于迭代任务，度量也将被迭代地评估，并且模块可以选择在多个迭代中保持状态，记住数据点或获得平均值等。即使对于相同的任务，不同的研究社区在性能评估方面也有不同的兴趣。例如，科学研究小组关注最终结果的质量，而计算机系统研究人员关注系统性能指标，如吞吐量和延迟[24]。这就是为什么我们进一步将排名模块与问题和指标分开。排名模块可以参考多个度量并将它们聚合以获得总顺序，或者实现两个实例之间的比较以获得部分秩序这种方法的另一个优点是，模块定义可以接受输入参数并以编程方式生成配置。例如图4我们定义了如何根据硬件配置为TensorFlow选择正确的docker image标签，很难用标记语言建模。这也允许我们定义通用AI模块，以适应不同的输入大小和类型，并建议超参数值。图5显示了一个简单的神经网络的定义，它不仅定义了计算图，还定义了预期的任务、输入/输出类型转换和层宽度sug-gestion，以便规划器可以网格搜索这个超参数。代码片段中还显示了两个类型转换器，当组合时，可以自动将原子序列的输入转换为单个级联张量。4.2. 自动基准测试任务发现如前所述，模块定义不用于基准测试任务的实际执行相反，它们是隐喻，语法结构，可以看作是一个基准测试。系统扫描所有python文件，并使用反射来识别模块入口点，并在模块存储库中为它们创建记录。然后，系统从存储库中枚举所有模块，并构造候选测试夹具，这些测试夹具是元组不同类型的模块。对于每个候选元组，系统执行其中的模块，提供输入参数，并提取信息，例如模型可以解决的问题，研究领域执行顺序由模块的类型和隐含的依赖关系决定-问题定义首先执行，因为它们通常不依赖于其他模块，并填充关联度量和排名所需的元数据。在执行过程中，系统维护当前测试夹具的上下文，并从已经执行的模块中累积元数据在候选元组中，以及后面的模块可以通过元数据匹配（例如，通过匹配数据类型）或主动4.3. 实验编排当计划器完成生成基准配置元组时，有必要修剪不必要的条目并为其余条目制定计划。在基准测试任务中有多个不变性，以帮助修剪。例如，给定相同的AI模型、软件/硬件配置以及（不同问题的）类似问题大小，吞吐量（以FLOPS计）可以是相当的。同样，精密度评价不应受到严重影响，不同的软件/硬件配置上的相同模型和问题。执行器应该只选择重要的元组，以最大限度地提高所有度量维度的测量多样性，包括模型性能，可扩展性，泛化性等。一旦修剪完成，调度问题就涉及如何估计每个元组的成本，并有效地将它们打包到硬件任务时间轴上。Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000636见图4。 TensorFlow软件配置。5. 为例图五. AI模型定义。比分子动力学，例如拉曼光谱学。这是一个典型有多种方法可以为该问题指定AI模型- 即，给定一组原子（原子类型、位置和速度），预测单个标量能量值。一种方法是实现端到端能量预测模型[27，28]。另一种方式旨在捕捉端到端解决方案的本质，并让系统综合整个模型。上述能量预测模型的一个关键见解是原子配置是置换不变的，这意味着输入应该被建模为一组原子，而不是一个列表。因此，我们的目标是使系统能够构建一个AI模型，以尊重这一属性并利用现有的构建块。一个可能的解决方案如图所示。7，其中输入经过类型检查是一个列表，模块需要一个子模块，它可以完成指定的任务（分子动力学上下文中的预测），将元素类型映射到输出类型。然后将逐元素结果求和以组合置换不变输出。通过这种方式，系统能够选择我们之前定义的模块，例如原子嵌入转换器和用于进行元素预测的MLP模型。现在我们讨论另一个基准场景，基于深度学习的电子显微镜图像分割，它正在成为生物化学中的一个热门话题[29该主题的主要挑战之一是由于复杂且昂贵的数据采集过程而导致的训练数据稀缺。鉴于有限的数据，监督现在我们讨论一个特定用例的细节，分子动力学（MD）。给定原子的初始状态（位置和速度矢量），这个问题要求预测原子的运动。在实践中，该问题被分解为力预测（分子力学）的问题，以及随着时间的推移计算新状态的积分力。特别地，力预测是通过分子动力学研究团体开发的多种方式实现的。 ‘‘Classical MD’’ employs empirical models tocompute pairwise forces between atoms, and first-principle methods(AIMD) employ quantum mechanic methods as DFT [问题定义模块如图6所示。它包括两个阶段。首先，在分子动力学软件包（如ORCA或高斯）的指导下，训练人工智能模型来预测系统的势能。然后，该模型的性能进行评估上一组不同的原子配置。与仅评估模型输出的传统AI正是问题脚本的灵活性使我们能够对能量以外的其他装置进行建模，这可以扩展到其他基准领域。深度学习方法需要大量的人为干预，并且可能无法推广到看不见的数据[32，33]。规避数据问题的一种方法是引入半监督深度学习技术，例如使用大量未标记数据进行预训练[34]。在基准测试系统中支持预训练意味着被评估的模型应该能够将其部分内部状态（权重）从一个任务携带到另一个任务，并相应地调整其计算图。问题定义还应该评估模型在不同训练数据量下的性能，以测试其样本效率。这个场景的代码如图所示。八、5.1. 与其他基准测试系统的如上所述，以前的系统集中于一组固定的测试场景[19此外，缺乏声明性模块意味着很难在基准测试套件和外部科学计算软件包之间共享数据，这在科学AI基准测试中至关重要。例如，SAIBench中的Gradient原语差异见表4。Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000637见图6。分子动力学问题定义。表4见图7。排列不变模型定义。建议适合研究领域参数。可以做更多的设计工作来解决模型开发和调试的需要，例如，除了训练和测试之外，还可以进行模型验证。基于Python的eDSL有其局限性，主要是由于语言的语法约束。为了更自然地表示模块，更适合于科学计算的编程语言可以调查[35]。目前，SAIBench针对易于处理的科学任务，这些任务是可以计算和测量的机械程序。将其扩展到更具创造性的科学研究活动是具有挑战性的，因为这需要系统正式建模科学活动。概念，并获得更深入的了解研究课题，动机-与其他基准系统的比较。SAIBench MLPerf MLP3概念、方法和目标，以及各种概念如何相互作用。此外，自动化基准测试需要定义良好的度量，不同的科学任务/标准精度、系统吞吐量可扩展性，MLCommon虽然开放式的科学研究思想，一般来说，很难量化。覆盖模块声明性硬编码标记测试场景自动发现固定固定6. 讨论我们已经详细阐述了系统设计的方法和概述，但我们期待着进一步开发组件。所有可能的测试超参数的蛮力枚举可能是不可行的，而修剪可以机械地改善在这种情况下，期望特定问题模块可以除了基于类型的模型组合，给定特定问题定义的自动AI模型合成也是一个有前途的方向，因为基于AI的代码生成[36，37]。7. 结论我们已经提出了科学AI基准测试的定义，它是科学任务定义、AI基准测试和系统性能基准测试的集合。然后，我们提出了我们的科学人工智能基准测试方法，其关键思想是解耦和模块化各种组件，自动对合理的组合进行基准测试。我们提出了一个系统设计Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000638见图8。电子显微镜图像分割。其中各种模块用用于科学AI计算的领域特定语言实现。我们已经证明，这种设计足够灵活，可以支持对不同类型的科学任务进行基准测试，定义AI模型，导出多个指标，将指标组合到排名标准中，并配置所需的硬件/软件。竞合利益李亚涛报道说，微软亚洲研究院提供了资金支持. 李亚涛报告说，中国科学院计算技术研究所提供了行政支持。詹剑峰报道说，中国科学院计算技术引用[1]A.N.实验室，人工智能科学报告。URLhttps://publications.anl.gov/anlpubs/2020/03/158802.pdf。[2]K. Albertsson，P.Altoe，D.Anderson，J. 安德森，M。安德鲁，J.P.A.埃斯皮诺萨，A. 奥里萨诺湖 Basara ， A. Bevan ， W. Bhimji ， D.博纳科西湾 Burkle ， P.Calafiura，M.坎帕内利湖Capps，F. Carmi-nati，S.卡拉扎，Y. F. Chen，T.Childers，Y.Coadou，E.Coniavitis，K.克兰默角David，D.戴维斯A.德西蒙，J. Duarte，M. Erd-mann，J. Farbin，M. Feickert，N.F. 卡斯特罗角菲茨帕特里克，M.Floris，A.Forti，J. Garra-Tico，J. Gemmler，M. Girone，P.格雷舍S. 格莱泽河谷Gligorov，T.Gol li n g ，J. 格劳湖Gray，D.Greenwood，T.黑客J. 哈维湾海格纳湖Heinrich，U.海因茨湾Hoober-man，J. 荣格堡，M. 卡根，M。Kane，K.Kanishchev，P.Karpienski，Z.Kassabov，G.Kaul，D.克茜拉T. Keck，A.Klimentov，J. 科瓦尔科夫斯基湖Kreczko，A.库雷平河库奇克，V. Kuznetsov，N.克勒岛Lako-mov，K. Lannon，M. Lassnig，A.利莫萨尼湾Louppe，A.曼古山口Mato，N.Meenakshi，H.Meinhard，D.梅纳斯湖莫尼塔S. Moort-gat，M. Neubauer，H. Newman，S. Otten，H.帕布斯特，M.帕格尼尼 Paulini ， G. 珀杜大学 Perez ， A. Picazio ， J.Pivarski ， H. Prostitol ， F.Psihas， A. 拉多维奇河 Reece ， A. Rinkevicius ， E. Rodrigues ， J.Rorie ， D.Rousseau，A. 绍尔，S. Schramm，A.Schwartzman，H.Severini，P. Seyfert，F.Siroky，K.斯卡齐特金M. Sokoloff，G.斯图尔特湾斯蒂嫩岛斯托克代尔湾坚强，W。孙习泰国人，K. Tomko，E. Upfal，E. Usai，A. Ustyuzhanin，M. Vala，J.Vasel，S. 瓦莱科萨，M. Verzetti，X.Vilasis-Cardona，J.R. 弗利芒岛Vukotic，S.J. Wang，G.瓦茨，M. Williams，W. Wu，S.文施湾杨，澳-地Zapata，高能物理社区中的机器学习白皮书。网址http://arxiv.org/abs/1807.02876。[3]T. Kurth，S.作者：J. Mudigonda，N. Luehr，E. Phillips，A. M a h e s h ，M.Matheson，J.Deslippe，M.Fatica，M.HoustonPrabhat，Exascaledeeplearningforclimateanalytics ， in ： ProceedingsoftheInternational Conference forHigh Performance Computing ， Networking ，Storage，and Analysis，[4] J. Degrave，F. Felici，J. Buchli，M.诺伊纳特湾Tracey，F. Carpanese，T. 埃瓦尔德，Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）1000639R. Hafner，A. Abdolmaleki，D. de las Casas，C. 唐纳湖弗里茨角加尔珀蒂A. Huber，J. 基林，M. Tsimpoukelli，J. Kay，A. Merle，J.-M. 莫雷角努里，F. Pesamosca，D.普福岛索特角Sommariva，S.科达湾Duval，A.法索利，P. Kohli，K. Kavukcuoglu，D. Hassabis，M. Riedmiller，通过深度强化学习对托卡马克等离子体的磁控制602（7897 ）414-419 。http://dx.doi.org/10.1038/s41586-021-04301-9网站。网址https://www.nature.com/articles/s41586-021-04301-9.Y. Li和J. 詹BenchCouncil交易基准，标准和评估2（2022）10006310[5]R.B. Neale，A.Gettelman，S.公园，C.-C. Chen，P.H.劳里岑，D.L.威廉姆森，A.J. 康利，D.Kinnison，D.Marsh，A.K.史密斯，F。维特河加西亚，J。F. 拉马克，M. Mills，S.蒂姆斯，H。Morrison，P.Cameron-Smith，W.D.Collins，M.J.亚科诺，R.C. 复活节 X Liu， S.J. Ghan ， P.J. Rasch， M.A. 泰勒， NCAR社区大气模型（CAM 5.0）的描述289。[6]J.S.史密斯河祖巴秋克湾Nebgen，N. Lubbers，K. Barros，A.E. Roit-berg，O.Isayev，S. Tretiak，ANI-1ccx和ANI-1x数据集，分子的耦合簇和密度泛函理论性质， Sci. 第 134 章 . 得双 dx.doi.org/10.1038/s41597-020-0473-z 值 . 网址http://www.nature.com/articles/s41597-020-0473-z。[7]L.鲁迪基特河van Deursen，L.C. Blum，J. L. Reymond，Enumeration of 166billionorganic small molecules in the chemical universe database GDB-17 ， J.Chem.Inform.模型52（11）2864-2875。http://dx.doi.org/10.1021/ci300415d网站。网址https://pubs.acs.org/doi/10.1021/ci300415d。[8]D.S.马库斯，T.H.王，J.帕克，J.G. Csernansky，J.C. Morris，R.L. Buckner，开放获取系列成像研究（OASIS）：年轻人、中年人、非痴呆和痴呆老年人的横断面 MRI 数据， J.Cogn 。 Neurosci.19 （ 9 ） 1498-1507 。http://dx.doi.org/10.1162/jocn.2007.19的网站。9.1498网址https://direct.mit.edu/jocn/article/19/9/1498/4427/Open-Access-系列成像研究-OASIS-Cross。[9]E. 渭南市， J.阿憨 A. 仁岑，深学习型数值方法对于高维抛物型部分微分方程和倒向随机微分方程式，Commun. 数学Stat. 5 （四）349-380. http://dx.doi.org/10.1007/s40304-017-0117-6网站。网址https：//collaborate.princeton.edu/en/publications/deep-learning-based-numerical-methods-for-high-dimensional-parabo.[10] M. Raissi，P. Perdikaris，G.E. Karniadakis，Physics-informed neural networks：A deep learning framework for solving forward and inverse problems involvingnonlinear partial differential equations，J.Computat. Phys.378 686-707. 网址：//dx.doi.org/10.1016/j.jcp.2018.10.045网站。网址https://www.sciencedirect.com/science/article/pii/S 0021999118307125。[11] F. Noé，Machine learning for molecular dynamics on long timescale，in：K.T.舒特河Chmiela，O.A. von Lilienfeld，A. 特卡钦科河 Tsuda，K.- R. Müller（ Eds. ）， Machine Learning Meets Quantum Physics ， Springer InternationalPublishing，pp. 331http://dx.doi.org/10.1007/978-3-030-40245-7_16[12] A.马特湖Pasquali，H. Wu，F. Noé，用于分子动力学深度学习的VAMPnets，Nature Commun。9（1）5，http://dx.doi.org/10.1038/s41467-017-02388-1。网址https://www.nature.com

下载后可阅读完整内容，剩余1页未读，立即下载