未来计算领域的统一基准和评估方法

75 浏览量更新于2023-12-05 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

BenchCouncil交易基准，标准和评估2（2022）100064BenchCouncil对新兴和未来计算基准的看法中国科学院计算技术研究所先进计算机系统研究中心A R T I C L E I N F O保留字：科学和工程基准非本征性质过程纠缠实例化偏置统一基准定义概念框架基准方法监督学习新兴计算未来计算BenchCouncil计划A B S T R A C T在计算机、管理或金融学科中，工件或对象的可测量属性是外在的，而不是内在的--依赖于它们的问题定义和解决方案实例。的过程问题定义、解决方案实例化和度量的过程是纠缠在一起的。只有在实例化之后，才能测量问题的解决方案。定义、实例化和度量具有复杂的相互影响。与此同时，技术惯性使实例化陷入高维解空间的一个子空间甚至一个点。这些令人生畏的挑战，新兴的计算能力，使计量无法为基准社区工作。建立独立的基准科学和工程迫在眉睫。本文提出了一个统一的基准定义，概念框架，和一个可追溯的和监督学习为基础的基准测试方法，奠定了基准科学和工程的基础。我还讨论了BenchCouncil对新兴和未来计算的计划。正在进行的项目包括定义智能，本能，量子计算机，Metaverse，行星级计算机的挑战，以及重新制定数据中心，科学人工智能和CPU基准套件。此外，BenchCouncil将与ComputerCouncil合作开发用于行星级计算的开源计算机系统，用于科学系统的AI和Metaverse。1. 介绍基准测试在不同的学科中广泛应用，但没有一致的定义。例如，在计算机科学学科中，社区使用一组工作负载实现来测量CPU（处理器）性能[1，2]。在机器学习中，使用地面真值标记的标准化数据集用于定义数据科学问题[3，4]。在管理学科中，搜索行业最佳实践并与不同的产品，服务和流程进行比较[5，6]。所有这些都被称为基准或基准测试。在之前的工作中，我总结了五类基准测试[6]：度量标准、具有定义属性的标准化数据集、代表性工作负载、代表性数据集和行业最佳实践。这种不一致或混乱是由以下事实造成的。根据JCGM 200定义，计量学是测量及其应用的科学[7，8]。计量学测量独立于观察者的固有属性，如长度，时间和功率。每个固有属性都有一个真值，其中概率可以说明包含真值的覆盖区间[7，8]。然而，计算机、管理或金融学科中的工件或对象的可测量属性是外在的，而不是内在的-依赖于它们的问题定义和解决方案实例。与线性和静态的计量过程不同，基准的过程具有电子邮件地址：zhanjianfeng@ict.ac.cn。网址：https://www.benchcouncil.org/zjf.html。https://doi.org/10.1016/j.tbench.2022.1000642022年5月25日网上发售复杂的相互影响。问题的定义、解的实例化和测量过程是纠缠在一起的，不可分割的，只有在实例化之后，问题的解才能被测量，我称之为过程纠缠。用户坚持使用现有的产品、工具、平台和服务，称为技术惯性[9]。技术惯性将问题的解决方案困在特定的探索路径中--一个子空间甚至是高维解决方案空间中的一个点。实例化偏差影响外在属性的测量。我们的社会越来越依赖于信息基础设施，其令人生畏的复杂性使以前的系统相形见绌，这使得跟踪问题定义变得困难。相反，解决方案的有偏见的实例化成为问题的代理，不见森林。如图 1、这些艰巨的挑战：外部属性、过程纠缠和实例化偏差导致基准社区无法重用度量知识，以及基准社区（如计算机、管理和金融）事实上的隔离，从而开发不同的方法、工具和实践。建立独立的基准科学和工程迫在眉睫呼应我过去的呼吁[6]，这篇文章进一步建立了基准科学和工程。我从问题和解决方案的角度来定义基准。基准是一个显式或隐式的2772-4859/©2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect标准和评价期刊主页：https://www.keaipublishing.com/en/journals/benchcouncil-transactions-on-benchmarks-standards-and-evaluations/BenchCouncil交易基准，J. 詹BenchCouncil交易基准，标准和评估2（2022）1000642Fig. 1. 关于计量学，基准测试的挑战-外在属性，过程纠缠和实例化偏差-解释了为什么计量学不能为基准测试社区工作。首先，基准测试的属性不是固有的，而是依赖于它的问题定义和解决方案实例。第二，只有在实例化之后，才能度量问题的解决方案。问题定义、解决方案实例化和度量的过程是纠缠在一起的，它们具有复杂的相互影响。第三，实例化引入了许多偏见。问题的定义、问题的实例化、作为问题的代理的实践解决方案的实例化、或者定量地测量解决方案空间的测量标准。我提出了一个简明的概念框架的基准科学和工程，在其核心是外在的属性。外部属性是一种基准属性，它不是固有的，而是依赖于问题定义和解决方案实例。我提出了一个可追溯的和监督的学习为基础的方法来解决外部属性，过程纠缠和实例化偏见的挑战。该方法的本质有两个集成的部分：管理从问题定义和解决方案实例化到度量的过程的可追溯性;通过监督学习参考从问题定义、解决方案实例化到度量的完全理解的过程来搜索最佳解决方案。此外，我还讨论了BenchCouncil对新兴和未来挑战的计划。正在进行的项目包括定义智能、本能、量子计算机、Metaverse、行星级计算机的挑战，以及重新规划数据中心、科学人工智能和CPU基准套件。此外，BenchCouncil将与ComputerCouncil [10]合作开发用于行星级计算[11]、人工智能科学[12]和Metaverse [13]的开源计算机本文的结构如下。第二节介绍背景和挑战，并解释了为什么计量学不能为基准社区工作。第三部分描述了为什么新兴的计算技术会挑战基准测试。部分四是为基准科学与工程奠定了基础，包括基准的统一定义、概念框架和基准方法。第五节详细介绍了安理会第六节结束2. 背景和挑战：为什么计量学不能直接用于基准科学和工程在本节中，我首先介绍了作为背景的计量概念，然后介绍了基准测试的挑战，并解释了为什么计量学不能在基准测试社区中工作2.1. 背景：计量概念如图2.提出了一个简单而系统的计量学概念框架，以阐明为什么计量学不能直接用于建立基准科学和工程。我提出并修改了[7，8]中的大部分概念但是我定义了一些概念来强调为什么计量学不能为基准社区工作固有属性。为了保持简洁，我只保留必要的计量概念。固有性质是现象、物体或物质的独立于观察者的性质，例如，能量和能量[7]。固有属性可以具有各种量值。真量是独立于观察者的个体现象、物体或物质的固有属性的大小，例如，半径一个给定的圆，动能的一个确定的粒子在一个给定的系统[7，8]。测量单位[8]是一个定义及其物理实现，用作将值分配给真值的参考。J. 詹BenchCouncil交易基准，标准和评估2（2022）1000643‖ ‖ ‖‖图二. 一个简单但系统的计量概念框架，用于澄清为什么计量不能直接重用基准科学和工程。有些概念是我自己定义的，而其他概念是从[7，8]中重用或修改的。仅保留必要的计量概念以保持简洁。数量。测量标准[8]是测量单位的物理实现，具有规定的量值和相关的测量不确定度。测量[8]是将真实数量与测量标准进行比较，以将真实数量分配给一个或多个可追溯到测量单位的量值的过程。通过测量获得的量值被称为测量量值[7]。真量值[7]是与量的定义一致的量值，是未知的测量目标[7]。覆盖概率[7]是指定的覆盖区间包含真实量值的概率。2.2. 基准测试的挑战：外在属性、过程纠缠和实例化偏差在以前的工作中，我注意到计算机、管理或金融学科中的人工制品或对象的属性与经典的人工制品或对象的属性不同，如长度、时间和功率。计算机、管理或金融学科中的工件或对象的属性是外在的，取决于它们的问题定义和解决方案实例。相反，像时间和长度这样的经典性质是固有的，与观察者无关。从概念的角度来看，很容易说有三个基本过程：问题定义、解决方案实例化和度量。然而，问题的定义是抽象的，只有在实例化之后，对问题进行衡量。此外，问题定义、解决方案实例化和测量过程是纠缠在一起的，不可分割的，我称之为过程纠缠。只有充分理解非本征性质和过程纠缠的副作用，才能避免许多陷阱。我从不同的角度阐述了这一观点。在提出基准科学和工程的概念框架之前（我将其推迟到第4.2节），我将继续使用第2.1节中的计量概念来描述挑战。问题定义的细微变化可能会导致各种各样的解决方案和显着不同的测量量值。我以经典的矩阵乘法问题[14，15]为例。Blalock等人。[15]将经典的矩阵乘法问题重新表述如下。下面的重新表述引自[15]。A和B是两个矩阵。A是��，B是��， ≫ >=. 给定计算时间预算，任务构造三个函数g（k）、h（k）和f（k），以及常数k和k，使得��(��(A), ℎ()) +��− A<��（1）第一章以获得尽可能小的误差（）。�� 对于这个重新定义的问题，他们引入了一种基于学习的算法，大大优于现有的方法[15]。这是一个典型的例子，一个问题的定义的微妙变化，导致各种各样的解决方案和显着不同的测量量值。此外，不同级别的解决方案实例化也相互影响，最终影响测量的量值。最明显的例子是深度学习。算法和神经网络结构起着重要的作用.硬件实现，如不同的精度，例如，单精度、双精度或混合精度会影响学习动态。即使对于具有不同规模的相同系统，系统规模和小批量之间的相互作用也会显著影响测量的量值，如达到质量的时间-达到最先进质量的计量过程是线性和静态的。然而，对于基准，如图所示。1、问题定义、解决方案实例化和度量过程纠缠在一起，相互影响复杂。问题定义中的细微差异将导致各种各样的解决方案，其实例化最终会显著影响测量的量值。解决方案实例化为测量工具提供了基础，后者使用经常更新的实践状态实例化，这会影响测量的量值。此外，测量的量值提供了在解空间中搜索最佳实例化此外，实例化引入了许多偏见，我称之为实例化偏见。例如，在计算机系统和体系结构学科中，Wang等人[21，22]发现，仅仅进行依赖于微体系结构或独立于微体系结构或独立于ISA（ISA是指令集体系结构的缩写）的工作负载表征（一种测量形式）将导致误导或错误的结论。测量量值的这些显著差异是由不同级别的解决方案实例本身造成的。在执行微体系结构相关或微体系结构无关或ISA无关的工作负载特性化之前，必要的步骤是分别在特定的微体系结构、特定的指令集体系结构或中间表示（非常接近源代码）上实例化计算机工作负载基准。社区选择广泛使用的ISA，IR（中间表示）进行实例化。Matsuoka等人还发现了实例化过程中的偏差和复杂性陷阱的实现[23]：一方面，计算机工作负载基准的任何实现都需要对算法、编程语言、数据布局和并行化方法的多个隐含偏差;另一方面，从大型或遗留科学代码中抽象并针对先前的计算机架构进行调整的基准，使协同设计参与者陷入仅考虑类似架构的陷阱。其他观察来自数据集，许多社区（如机器学习）使用这些数据集来显式或隐式地定义问题。建立一个能够捕捉真实世界特征的代表性和保真度数据集的成本高得令人望而却步。因此，在现实中，目标往往退化为一个可行的数据集。例如，对于ImageNet [3]，J. 詹BenchCouncil交易基准，标准和评估2（2022）1000644收集熟悉的动植物图片很容易，而稀有的很难得到。考虑到数据集是在自动驾驶和自动医疗诊断等诸多挑战中，这种牵强的方法有许多隐藏的缺陷和风险。3. 新兴计算技术使挑战更加严峻1现代社会是数字化的，越来越依赖于信息基础设施。信息基础设施包括大规模物联网（IoT）、边缘设备、数据中心和高性能计算机。这些系统协作处理大数据，训练AI模型，并为庞大的最终用户提供由AI推理增强的互联网服务，并保证服务质量。从基准测试的角度来看，大数据、人工智能和互联网服务等新兴计算与SPECCPU（桌面工作负载）[1]、TPC-C [25]、TPC-Web（传统Web服务）[26]和HPL（高性能计算）[27]基准测试所表征的传统工作负载有很大不同，这带来了严峻的挑战。第一个挑战是分裂。有大量的碎片化应用场景，与过去有明显的不同[24]。例如，提出了数百甚至数千种称为NoSQL或NewSQL的ad-hoc大数据解决方案来处理不同的应用场景。对于AI，同样的观察也成立。有数十甚至数百个组织正在开发人工智能训练或推理芯片，以分别应对不同应用场景中的挑战[19，28]。第二个挑战是事实上的孤立。互联网服务提供商巨头拥有并将真实世界的数据集和工作负载甚至人工智能模型视为头等机密问题。宝藏隐藏在数据中心中，并在学术界和工业界之间隔离，甚至在不同的提供商之间[29]。这种可怕的情况对我们的社区发展开放和成熟的研究领域构成了巨大的障碍[29]。第三个挑战是协作的复杂性：HPC系统、数据中心、边缘和物联网设备协同应对挑战;在协作中，数据集、工作负载、机器学习或AI模型的不同分布可能会对系统的行为产生实质性第四个挑战来自于基于服务的体系结构。一方面，软件即服务（SaaS）的开发和部署模型使得工作负载变化非常快（所谓的工作负载流失） [30]，它是不可扩展的，甚至不可能创建为每个可能的工作负载提供新的基准或代理[31]。对另一方面，现代互联网服务采用基于微服务的体系结构，通常由具有跨不同数据中心的长且复杂的执行路径的各种模块组成。由于最坏情况下的性能（尾部延迟）[32]确实很重要，基于微服务的架构也对基准测试提出了严峻的挑战[29，33]。最后但并非最不重要的挑战是人工智能的随机性。人工智能技术被广泛用于增强现代产品或互联网服务。人工智能的本质是随机的，允许多个不同但同样有效的解决方案[19]。许多因素表明了人工智能的不确定性，例如，较低精度优化对最终模型质量的不利影响，缩放训练对时间质量的影响，以及在时期质量方面的运行间变化[19]。然而，度量过程要求是可重复的（同一个团队）和可再现的（不同的团队）。这一冲突带来了严重挑战。新兴的计算技术使第2.2节中讨论的基准测试挑战更加严峻。首先，很难追溯最初的问题定义，即要达到的目标。第二，将解决方案的实例化作为问题的代理，会加剧实例化偏见，并使社区进一步陷入特定的解决方案中。1本节是根据一份未发表的技术报告[24]撰写的，我是该报告的主要作者。4. 建立科学和工程本节提出了基准的统一定义、概念框架和基准方法，为基准科学和工程奠定了基础4.1. 基准的统一定义在此之前，我总结了五类基准[6]：测量标准、具有定义属性的标准化数据集、代表性工作负载、代表性数据集和行业最佳实践。在本节中，我给出了一个简单而统一的定义，涵盖了五类基准测试，并揭示了它们的本质。基准是问题的显式或隐式定义，问题的实例化，作为问题代理的实践解决方案的实例化，或者定量测量解决方案空间的测量标准。基准有三个基本过程，其中一些在实践中经常被省略或隐含地陈述：定义、实例化和度量。我在4.1节的其余段落中从不同的角度解释了定义和实例化的过程。我把测量过程的讨论留在4.2节和4.3节。4.1.1. 定义第一个过程是定义。明确或隐含地定义问题是基准在几乎所有学科中可以发挥的基本作用。只有明确了问题，我们找出解决方案并将其与其他方案进行比较。例如，艾伦·图灵在1950年[34]提出了什么是智能的问题作为一个模仿游戏：游戏测试一个机器人是否可以区分机器图灵有很多方法可以定义问题，例如，使用自然语言或数学。从准确性的角度来看，数学定义问题是一个更好的选择。不幸的是，许多问题不能以这种方式准确描述NAS并行基准测试[35]声称应采用纸笔方法[24]指定常见要求。纸和笔的方法是一种模糊的描述-它可以是数学的，文本的，甚至是视觉的。在计算机科学学科中，这种方法在数据库社区中得到了很好的实践，但在计算机体系结构社区中Shun等人[36]提倡使用问题定义来构建基准的方法，他们创建了基于问题的基准套件（PBBS）。PBBS是一组基准测试，用于比较并行算法方法，并行编程语言风格和机器架构。具体地说，基于问题的基准要求问题规范，一组输入分布，而不详细说明算法方法，编程语言或机器架构方面的要求[36]。4.1.2. 实例化第二个过程是实例化问题或实例化实践状态解决方案作为问题或挑战的代理。作为替代或者补充，这是两种不同的方式。首先，使用问题的实例化。例如，一个数据集经常被用来实例化机器学习社区中的一个问题。 Li等人[12]进一步将问题定义分为问题类、问题设置和问题案例。其次，一个实例的国家的实践解决方案被用作代理的问题。例如，计算机架构社区提供了一组计算机工作负载的实践实现，如SPECCPU [2，37]。SPECCPU是这些问题的代理J. 詹BenchCouncil交易基准，标准和评估2（2022）1000645可以追溯到测量单位的测量度量通过测量获得的值被称为测量度量值[7]。真正的度量值[7]是与特定于具体问题定义和解决方案实例的外在属性的度量度量的定义一致的值真正的度量值是一个未知的测量目标[7]。覆盖概率[7]是真实度量值包含在指定覆盖区间内的概率。4.3.基于可追溯和监督学习的标杆管理方法图三. 基准科学与工程的概念框架。这种替代或补充有两个原因。首先，作为替代，它充当了难以定义的问题的代理。其次，作为补充，实例化带来了丰富和必要的细节，设置了更具体的问题设置。每个实例化是问题的解决方案空间中的子空间或点-这通常是实践状态，例如，使用源代码或二进制代码，这会带来实例化偏差。4.2. 基准科学与工程的概念框架如图3、提出了基准科学与工程的概念框架.外部属性是一个基准属性，它依赖于问题定义及其解决方案实例。外在属性可以具有各种量值。度量指标是基准的外在属性的大小，这取决于问题定义和解决方案实例。计量单位[8]是一个定义及其实现，用作用于向测量度量分配值的参考。测量标准[8]是测量单位的实现，具有规定的度量值、相关的测量不确定性以及可重复（同一团队）和可再现（不同团队）的测量方法。测量工具实现了可校准和可追溯的测量标准。可追溯性[7]是一种属性测量结果的不确定度，通过记录的不间断校准链将结果与参考值联系起来，每个校准链都对测量不确定度有影响。衡量工具应当是开源的，可以由不同的团队复制测量[8]是将测量指标与测量标准进行比较以分配一个或多个测量值基准测试没有内在属性，其外在属性依赖于它的问题定义和解决方案实例化。同时，定义、实例化和度量的过程是纠缠在一起的，它们之间存在着复杂的相互影响.我提出了一个可追溯的方法来应对上述挑战，其核心是管理从问题定义和解决方案实例化到测量的过程的可追溯性。图4表明问题定义、解决方案实例化、外部属性、度量标准、度量工具和度量值之间存在复杂的相互影响。问题定义是这种关系的根源。下面没有其他实体，如解决方案实例化，可以直接影响问题定义。尽管如此，解决方案实例化可能会为问题定义的细微变化提供线索，从而显著影响其他实体。在最高层次，我建议对问题进行正式定义，并追踪问题的不同微妙定义之间的关系。对于许多实践水平的基准，定义过程被省略了。它应该定期关注从问题定义到解决方案实例化的过程，否则过时的实例化将是一个陷阱。解决方案实例化为度量工具提供了基础。必须寻找最先进或最实用的解决方案，并在测量工具中实现它们。从问题的定义到解决方案的实施都是爆炸式的。换句话说，低层有更多的状态空间[6]。例如，在计算机工作负载基准中存在从数学问题定义、算法、中间表示、ISA特定表示到微架构表示的增加的状态空间。技术惯性将解困在特定的探索路径中--高维解空间中的一个子空间甚至一个点，称为实例化偏差。实例化偏差影响外在属性的测量。此外，无指导的探索可能会偏离优化的解决方案。我提出了基于监督学习的方法来解决实例化偏见的挑战。监督学习是机器学习的一个分支，它使用具有已知结果的标记数据来训练预测模型。图图4显示了从问题定义、解决方案空间实例化、外部属性、度量标准、度量工具到度量指标值的完整理解过程，作为基础事实。从这个基本事实中，很容易了解到顶层实体的变化如何影响底层实体。例如如果问题被重新公式化，解决方案实例化相应地改变。最后，测量的度量值受到显著影响。基准的作用是将问题与其解空间联系起来。通过探索解空间并观察其变化对测量的度量值的影响，可以搜索寻找最佳解决方案。这个搜索过程可以利用最先进的深度学习技术。当然，这种学习动态将非常复杂。图5展示了如何在计算机体系结构中使用这种方法的示例。J. 詹BenchCouncil交易基准，标准和评估2（2022）1000646图四、一种可追溯和基于监督学习的基准测试方法，用于解决外部属性，过程纠缠和实例化偏差的挑战。图五. 基于可追溯和监督学习的基准测试方法在计算机体系结构中的应用。这一数字是从[22]引用的，的作者。4.4.重新解读五类基准我使用4.1中提出的基准定义来重新解释[6]中定义的五类基准第一类基准是用于测量问题的解空间的测量标准。我使用Linpack基准--一个类基准。Linpack基准测试[38]被广泛用于报告高性能计算机的性能。Linpack的问题定义是一个n阶线性方程组：A=A。该解决方案使用具有部分主元的LU分解。度量指标是求解算法的浮点运算计数，即（2次浮点3次浮点3 + 2次浮点2）运算，以及运行基准测试的执行时间HPL是一个参考J. 詹BenchCouncil交易基准，标准和评估2（2022）1000647‖‖‖ ‖‖ ‖图第六章 BenchCouncil计划定义新兴和未来计算的挑战，并与 Co m p u t e r C o u n c i l 合作开发开源计算机系统。用于评估不同高性能计算机实现（解决方案）的测量工具的实现。该测量标准还详细说明了可再现和可重复的测量方法，以与其他解决方案进行比较：用户必须报告解决方案精度的残差，��闪烁（A闪烁）。 TOP500列表报告测量的度量值。度量标准高度依赖于其问题定义和解决方案实例。第二类基准测试是在被测系统上运行的代表性工作负载[6]。代表性的工作负载是问题的定义或作为问题代理的实践解决方案的实例化。基于问题的基准测试套件（PBBS）[36]，TPC-C [25]，TPC-Web（传统Web服务）[26]是典型的问题定义示例。它们还提供了作为测量工具的实践解决方案的实例。没有明确的问题定义，SPECCPU（桌面工作负载）[1] ，BigDataBench [39] ， BigBench [40] ， AIBench [20 ，33] 和MLPerf [19]是实践解决方案的实例化，它们充当问题的代理第三类基准是使用标准化数据集对问题进行隐式定义。标准化数据集代表了具有定义属性的真实数据科学问题，其中一些具有基础事实[6，41]。ImageNet [3]（深度学习基准）和MIMIC-III [4]（重症监护基准）是典型的例子。第四类基准是代表性的数据集，用作参考文献[6]。这类基准是问题的实例化。例如，从一组代表性的基础数据计算出的指数（统计度量），并用作金融工具或合同的参考[42]，是金融中的基准。伦敦银行同业拆借利率（Libor）和欧元银行同业拆借利率是众所周知的金融基准[6，42]。第五类基准是行业最佳实践在不同的领域[6]。标杆管理是指不断寻找具有卓越性能的行业最佳实践，并根据这些实践来衡量产品、服务和流程[5，6]。行业最佳实践是针对问题或重大挑战的最佳实践解决方案的实例。5. BenchCouncil图6介绍了BenchCouncil的计划，以定义新兴的和未来的计算和合作的开源计算机系统与Comput- erCouncil的挑战。首先，我介绍了BenchCouncil第一，什么是智能？什么是本能？智力和本能的区别是什么？预先训练的语言模型，如BERT和GPT-3，似乎超越了图灵测试的能力[43]。许多以前的作品已经重新阐述了什么是智能的问题[44，45]。有必要重新审视从智能问题定义、解决方案实例到测量的过程。例如，有许多方法可以在某种程度上解决这些挑战，包括传统的机器学习，深度学习和脑启发计算。让他们在同一个舞台上竞争是至关重要的。根据[46]，本能是一种与生俱来的冲动或动机，通常是为了响应特定的外部刺激而采取行动。但是我们如何区分智力和本能呢？章鱼、鸟、猿和蚂蚁的行为有什么不同它们是智慧还是本能？其次，量子计算机作为一种新的计算范式出现，具有前所未有的能力[47];量子计算机最擅长的问题或重大挑战是什么？如何在处理不同或重叠领域的问题或重大挑战方面，实践中的计算机是否与量子计算机竞争？在深入研究解决方案的不同层次的实例化第三，计算机算法几乎控制着我们社会的运行。迫切需要思考，指定，验证和测试算法在嵌入我们的社会之前必须具有哪些基本属性。想想Twitter和Facebook对许多以投票为基础的民主社会选举的影响。在将这些算法付诸实践之前，提出针对这些算法的第四，信息基础设施成为我们社会的基石[10]，许多基础应用（如医疗应急管理和智慧城市应用）依赖于由大量物联网（IoT）设备、边缘和数据中心组成的行星级分布式系统，我称之为行星级计算机[11]。数据集、工作负载或AI模型的不同分布可能会对系统J. 詹BenchCouncil交易基准，标准和评估2（2022）1000648物联网、边缘和数据中心之间的交互正在经历快速发展[24]。社区如何为这些超大规模的新兴和未来应用程序提出基准[33]？Metaverse是一个总括术语。它被预测为人们沉浸式访问互联网，与网络世界中的其他人或数字化身进行交互以及管理数字资产的全新方式。尽管许多行业巨头正在朝着这些目标努力，但这个过程本身就是一个概念、原型、产品或服务形式的寒武纪爆炸。迫切需要提出一个基准套件来定义Metaverse问题或挑战，探索和评估最先进和最实用的解决方案[13]。许多老问题需要重新表述。例如，伯克利的多学科小组提议使用13当人工智能被视为传统和新兴科学领域的新曙光时，如何重新阐述这些问题[12]？数据中心已成为现代社会的基础设施。在大数据、人工智能、互联网服务等领域存在大量碎片化的应用场景，与以往有明显不同[24]。容器等虚拟化技术被广泛用作资源管理和性能隔离设施。然而，当前的BenchCouncil基准套件（如BigDataBench [39]和AIBench [20，33]）是零散的，没有提供数据中心问题或挑战的全面定义。此外，缺乏简单但优雅的抽象会妨碍实现效率和通用目的[24]。例如，提出了数百甚至数千个ad- hoc NoSQL或NewSQL解决方案来处理不同的大数据应用场景[24]。认为关系代数是数据库理论与实践的通用代数，可以使用五个原语来编写，如select，project，product，union和difference [49]。虽然特定领域的软件和硬件协同设计是有前途的[50]，但缺乏简单但统一的抽象有两个副作用[24]：构建一个ad- hoc解决方案的成本过高;单一用途的系统和架构是结构化的。资源共享的障碍提出简单而优雅的抽象概念是管理流程可追溯性的一个组成部分，问题定义到解决方案实例化。像SPECCPU [2，37]这样的CPU基准测试套件推进了不同处理器架构的发展。然而，SPEC CPU是作为问题代理的实践解决方案的实例化，严重偏向于市场主导的CPU架构，C等高性能语言以及高性能计算和桌面工作负载。BENCHCPU项目[51]将提出一个新的CPU基准套件。5.1. 与ComputerCouncil作为一个非营利国际组织，国际开源计算机理事会（ComputerCouncil）的使命是团结科学和技术界，以应对信息技术脱钩的挑战。ComputerCouncil发起了开源计算机系统（OSCS）倡议，以应对IT解耦的挑战。ComputerCouncil将选择三个新兴领域：行星级计算机-基于物联网，边缘和中间体构建的行星级分布式系统和应用程序[11]，科学AI[12]和Meta- verse [13]作为OSCS计划的初始目标。BenchCouncil将与ComputerCouncil合作：前者侧重于基准，而后者则专注于三个新兴领域的开放源码计算机系统。6. 结论这篇文章总结了基准测试的挑战，如外部属性、过程纠缠和实例化偏差。基准的可测量属性不是固有的，而是依赖于它们的问题定义和解决方案实例。问题的定义、解的实例化和测量过程是纠缠在一起的，并且具有复杂的相互影响。技术惯性导致了一个特定的探索路径-一个子空间甚至一个点在一个高维的设计空间。这些挑战使得计量学无法为基准社区工作，并呼吁独立的基准科学和工程。提出了一个统一的基准定义、概念框架和一个可追溯的、基于监督学习的基准方法，为基准科学和工程奠定了基础。基准是对问题的明确或隐含的定义，问题的实例化、作为问题的代理的实践解决方案的实例化、或者定量测量解决方案空间的测量标准。在概念框架的核心，外在属性是一个基准属性，它依赖于问题定义及其解决方案实例。所提出的基准测试方法的本质有两个集成的部分：管理从问题定义和解决方案实例化到测量的过程的可追溯性;通过监督学习参考从问题定义和解决方案实例化到测量的完全理解的过程来搜索最佳解决方案。此外，我详细阐述了BenchCouncil致谢我非常感谢先生。代少鹏先生编写参考资料，戴少鹏先生和钱和先生绘制图表。1、2、3、4和6，以及王磊博士，感谢他们对图1、2、3、4和6的介绍进行了讨论并做出了重大贡献。1，4，6和校对在这篇文章。图[22]第五章是作者的一个例子。第3节和第5节的一部分基于未发表的技术报告[24]，我是该报告的主要作者。技术报告[24]基于我在 SC2019BoF 上的演讲，网站链接是https://www.benchcouncil.org/file/BenchCouncil-SC-BoF.pdf 。演讲结束后，我作为第一作者起草了技术报告[24]。我非常感谢其他作者的讨论和贡献：王磊博士，高万玲博士和任锐博士。引用[1]SPEC，SPEC CPU 2017 Benchmark，2017，https://www.spec.org/cpu2017/.[2]R.熊猫，S。Song，J. Dean，L.K.十年的等待：SPEC CPU 2017是否拓宽了性能范围？在：2018 IEEE高性能计算机体系结构国际研讨会，HPCA，IEEE，2018年，pp。271-282.[3] J.邓，W.东河，巴西-地Socher，L.J. Li，K.利湖，加-地Fei-Fei，Imagenet ： A large-scalehierarchical image database ， in ： 2009 IEEEConference on Computer Vision andPattern Recognition，IEEE，2009，pp. 248-255[4] A.E.作者声明：John，L. Shen，L.w.H. Lehman，M.冯，M.加塞米湾穆迪，P.安东尼·切利，R.G. Mark，MIMIC-III，一个可免费访问的重症监护数据库，Sci.数据3（1）（2016）1[5]M. Zairi，P. Leonard，《标杆管理的起源及其意义》，载于：《实践标杆管理：完整指南》，Springer，1996年，第100页。22比27[6] 詹杰，呼吁建立科学与工程的基准，BenchCouncilTrans.BenchmarksStand.Eval。1（1）（2021）100012.[7]I.比普姆岛IFCC岛国际理论和应用化学联合会岛ISO，国际计量词汇-基本和一般概念及相关术语（VIM），2012年，第2012页，JCGM200。[8]R.N. Kacker，关于JCGM国际计量词汇中的量、值、单位和其他术语，Meas。Sci.Technol. 32（12）（2021）125015.[9] J.Zhan，技术兴衰的三大定律，BenchCouncilTrans.BenchmarksStand. Eval. 2（1）（2022）100034.J. 詹BenchCouncil交易基准，标准和评估2（2022）1000649[10] 詹杰，开源计算机系统倡议：动机，本质，挑战和方法，BenchCouncil跨基准标准评估。 2（1）（2022）100038.[11] ComputerCouncil，物联网，边缘，数据中心和网络作为计算机：为新兴和未来计算构建开源行星级计算机（PSC），2022，https://www.computercouncil.org/PSC。[12] Y. Li，J. Zhan，SAIBench：Benchmarking AI for science，BenchCouncil Trans.基准标准评估（2022年）。[13] ComputerCouncil，MetaverseBench：实例化和量化元界问题，基准和挑战，2022，https://www.computercouncil.org/MetaverseBench。[14] V.V. Williams，Multiplying matrices faster than coppersmith-winograd，in：Pro-cephaly of the Forty-Fourth Annual ACM Symposium on Theory of Computing，2012，pp. 887-898[15] D. Blalock，J. Guttag，Multiplying matrices without multiplying，在：国际机器学习会议，PMLR，2021年，第102 页。992-1004[16] Z.江湖，澳-地Wang，X.熊，W.高氏C. Luo，F. 唐角，澳-地兰，H. Li，J.Zhan，Hpc ai500：Hpc AI系统基准测试的方法，工具，屋顶性能模型和指标，2020，arXiv预印本arXiv：2007.00279。[17] P. Goyal，P. Dollár，R. Girshick，P. Noordhuis，L. Wesolowski，A. Kyrola，A.Tulloch，Y. Jia，K. He，Accurate，large minibatch sgd：Training imagenet in 1hour，2017，arXiv preprintarXiv：1706.02677.[18] Y.你Z放大图片作者：Zhang，J. Keutzer，Imagenet培训分钟，在：第47届并行处理国际会议论文集，2018年，第100页。1比10[19] P. Mattson ， C. Cheng ， G. 迪亚莫斯角 Coleman ， P. Micikevicius ， D.Patterson，H. Tang，G.Y. Wei，P. Bailis，V. Bittorf等人，Mlperf培训基准，Proc. 马赫学习. 系统2（2020）336[20] F. 唐，W。 Gao，J. Zhan，C. 兰，X. 温湖，澳-地小王， C. 罗， Z. 曹操，X.Xiong，Z.江等，Aibench培训：平衡的行业标准人工智能培训基准测试，在：2021 IEEE系统和软件性能分析国际研讨会，ISPASS，IEEE，2021年，pp。24-35[21] L. Wang，X. Xiong，J. Zhan，W. Gao、X. Wen，G.康氏F. Tang，Wpc：跨中间表示、isa和

下载后可阅读完整内容，剩余1页未读，立即下载