没有合适的资源?快使用搜索试试~ 我知道了~
BenchCouncil交易基准,标准和评估1(2021)100012号召树立标杆理工科占剑锋中国科学院计算技术研究所A R T I C L E I N F O保留字:基准科学与工程起源与演变计量标准标准基准层次结构元基准A B S T R A C T目前,多学科之间没有一致的基准。甚至没有以前的工作试图将不同类别的基准在多学科。 本文考察了基准期限的起源和演变。总结了广泛存在于多学科的度量标准、具有定义属性的标准化数据集、代表性工作负载、代表性数据集和最佳实践等五类基准。我认为,在发展这门学科的过程中,有两个紧迫的挑战:在多个学科之间建立一致的基准测试,以及开发元基准测试来衡量基准测试本身。我建议建立基准科学和工程;主要目标之一是建立一个跨学科的标准基准层次结构。现在是推出多学科基准、标准和评估期刊TBench的适当时机,以传达基准科学和工程的最新技术和实践水平1. 基准期的由来与演变标杆管理是所有行业的普遍做法,实际上在生活的许多领域[1]。例如,奥运会短跑运动员或基金经理或IT产品经理可能会将自己与基准或接近的竞争对手进行比较,以评估他们的表现。不幸的是,基准术语在多学科中独立发展,并具有相关但不同的含义。本节探讨基准概念的起源和演变我发现,现代基准概念(接近其当前定义)首先出现在测量科学中[2],以基准标记(两个单词之间用空格隔开例如,在大地测量学中,基准点是一种标记,其相对于基准面的高度已通过水准测量确定-测量相对于基准面的已建立点之间的高度差的操作[3]。后来,这个概念扩展到多学科。在计算机学科中,最早的基准测试工作之一[4]可以追溯到1962年奥尔巴赫公司Joslin将这种基准测试工作定义为这些报告包括使用典型的基准测试任务(许多基本功能)报告性能数据大约在1965年,Joslin [5]指出,计算机评估中最重要的问题应该是“这个系统需要多长时间 处理我的工作量(我的计算机应用程序)?“.这种探索性的方法产生了工作负载建模、应用程序基准测试、综合基准测试和标准基准测试的概念,电子邮件地址:zhanjianfeng@ict.ac.cn。网址:https://www.benchcouncil.org/zjf.html。https://doi.org/10.1016/j.tbench.2021.1000122021年12月21日在线提供至今仍在使用[4]。这些概念看似抽象,与基准点概念没有直接关系,但有一定的联系。主要原因可能是计算机在当时是一个新事物。以下是对这些概念的简单解释。建模是从整个真实工作负载中选择一组有代表性的程序样本[4],这是确保基准质量的关键因素。应用程序基准测试是在几种不同的计算机配置上运行的程序的混合,以获得处理特定应用程序的比较性能[5]。由于在不同系统之间移植实际应用程序的困难(成本),1969年,Bucholz [6]主张更大程度的抽象- 模拟实际应用的综合基准-是必要的使不同系统之间的比较切实可行。综合基准测试成本的上升推动了基准测试的标准化。1976年,一个由政府和行业人士组成的小组成立,以确定标准基准库的可能性[7],这是这方面的第一次尝试作为一个通用术语,在1987年版的《牛津参考词典》中,基准被定义为测量员编辑们显然没有考虑出现在计算机学科中的基准概念,但他们的基准定义与我们在本节开始时提到的大地测量学中的基准定义相似;Zairi等人[3]认为这个定义是今天在管理学科中使用基准这个词的开始2772-4859/©2021作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect标准和评价期刊主页:https://www.keaipublishing.com/en/journals/benchcouncil-transactions-on-benchmarks-standards-and-evaluations/BenchCouncil交易基准,J. 詹BenchCouncil交易基准,标准和评估1(2021)1000122图1.一、从 计 量 学 角 度 对第一类基准的 解 释 [8,9]。在管理学科中,施乐公司是标杆管理的先驱[3]:它的根源始于1979年,通过这个过程进行外部评估,后来被称为竞争性标杆管理。这种基准研究和实践[3]包括对最佳竞争对手的深入、持续研究,包括对竞争对手产品、技术流程、他们实现了什么以及如何实现的详细逆向工程,以及对竞争产品的运营能力和功能的拆解分析。这种基准测试实践在原理上与计算机学科的基准驱动性能工程非常相似。后者试图揭示计算机系统性能瓶颈的根本原因,并根据具体的工作负载对计算机系统进行优化。逐渐地,基准测试作为一种战略质量工具扩展到业务的各个方面,并逐步融入管理过程[3]。在这种情况下,Zairi等人[3]将其定义为根据导致卓越性能的行业最佳实践来2. 五类基准本节研究了多学科中的五类基准测试。我的意图不是提供一个一致或统一的基准定义。相反,我试图揭示基准的本质在五个不同的场景。我把对一致性基准的讨论放在下面两节中。第一类基准是衡量标准。在计算机学科中,Linpack基准测试属于这一类,它被广泛用于报告高性能计算机的性能。我从计量学的角度对这一范畴进行了解释。计量指南联合委员会(JCGM)[8]将测量标准定义为一个量的定义的实现,其规定值和相关的测量不确定度用作参考。如图1、基准实现了量的定义、测量单位、测量方法和具有规定测量不确定度的参考实现。量是被测对象的可测量属性,如长度,能量等。基准测试包括两个阶段:基准测试的设计和实现以及使用基准测试测量对象第二个是在被测系统上运行的代表性工作负载。第1节中讨论的计算机学科中的应用基准或综合基准是 这一类.它们为系统设计提供设计输入,实现方式的它们不一定符合测量标准的严格定义,但也用于评估系统。例如,在计算机学科中,许多深度学习工作负载(算法)是随机的,重复性很差[10,11]。深度学习是一种人工智能(AI)工作负载。然而,它们是在系统设计和实现中不可忽视的代表性工作负载。一般来说,第一类基准是根据更严格的标准从第二类基准中选出的。图2探讨了如何定义计算机学科中的代表性工作负载。从数学问题定义到算法、中间表示、特定于ISA的表示(ISA是指令集架构的缩写)和微架构表示的自由度越来越大。第3节将进一步讨论这一挑战。第三种是标准化的数据集,它代表现实世界的数据科学问题[12],具有定义的属性,其中一些具有地面真理。ImageNet [13](深度学习基准)和MIMIC- III [14](重症监护基准)是典型的例子。基准 这一类别通常用于衡量不同的算法。 最先进的算法实现加上数据集通常构成第二类的基准第四个是代表性数据集,用作参考。例如,金融基准是一种指数(统计测量),从一组代表性的基础数据计算,用作金融工具或合同的参考[15]。著名的金融基准包括伦敦银行同业拆借利率(Libor)和欧元银行同业拆借利率[15]。第五是不同领域的行业最佳实践。基准测试是一个持续的过程,旨在寻找能够带来卓越性能的行业最佳实践,并根据这些实践来衡量产品、服务和流程[3]。施乐公司率先并加强了这一基准测试过程。3. 的挑战正如我在第二节所阐述的,这五类基准有着密切的联系。然而,目前,没有跨多学科的一致基准。甚至没有以前的工作试图将这五类基准在多学科中联系起来。计量科学为这一方向奠定了基础。然而,它们主要关注经典量,如长度,时间和功率。与这些经典量显著不同的是,计算机、管理或金融学科中的对象的属性是J. 詹BenchCouncil交易基准,标准和评估1(2021)1000123图二. 在计算机学科中,一个代表性的工作量,第二类基准,是分层定义的。从上到下是一个数学问题定义,一个算法,一个中间表示,一个ISA特定的表示,一个微架构表示。较低级别有更多的状态空间。现状实践中只分析了一个微体系结构表示,它只是一个子空间,甚至是高维空间中的一个点[16]。此层次结构定义可以扩展为其他学科。数学问题的定义和具体实施对数学问题的研究有很大的影响,这就提出了一个严峻的挑战。不同的观察角度可能会扭曲可观察的属性。例如,如图所示。2.计算机工作量的量值受数学问题定义、具体算法、不同ISA和微体系结构实现的影响很大。我进一步以第一类基准为例来证明应对这一挑战的重要性。用经典超级计算机来衡量“量子至上”是一个基本问题。谷歌然而,在2021年,一群科学家和工程师在Sunway超级计算机上宣布,他们通过算法和架构创新将Google Sycamore的经典模拟采样时间从之前声称的10,000年减少到304秒。速度-两种不同类型系统的量值之比-在未来肯定会发生巨大变化。在图1中定义的层次结构下很好地理解基准测试。 2在正确解释速度的含义之前, 否则会误导科学界。在其他学科中,情况可能会变得更加复杂,因为清晰的等级定义也是一种奢侈。在多个学科之间建立一致的基准非常具有挑战性。另一个挑战是如何衡量基准本身。前人的工作对这个问题进行了初步的探讨。比如说, 在计算机学科中,一个(好的)基准的特征, 也就是说,代表性[4,20],相关性,可重复性,公平性,可验证性,可重复性和经济性在[21,22]中进行了讨论。然而,这些属性大多是主观的。我们需要一个元基准来评估这些基准。笔者以代表性特征为例,目前的理论和实践都无法说服社会各界认真对待这一课题。从数学的角度看,建立数学基础,考虑高维空间中的代表意义是必要的。不幸的是,在实践中,基准方法似乎是临时性的。例如,据报道,领先的应用程序商店中有680万个应用程序[23]。 社区如何推断移动电话市场的代表性工作负载(和基准)?4. 该提案我认为有必要建立基准科学和工程;目标之一是建立跨学科的标准基准层次原因有二首先,不同类别的基准有一正如我们在第2节中所讨论的,第一个基准类别是根据更严格的标准从第二个类别中选择的其次,通过这种层次结构,我们可以应对基准成本上升的挑战。例如,我们可以将更多的资源放在主基准上,同时通过可追溯性将其他基准与主基准相关联。图3是我的建议。最重要的是保持基准一致,以下措施将有助于实现目标:(1) 统一定义基本量和计量单位;(2) 实现不同精度(因此成本)水平的数量和计量单位;(3)标准基准层次的可溯源性[8]是测量结果的一个属性,通过记录的完整校准链,结果可以与参考相关,每个校准链都对测量不确定度有贡献。在第一层,国际社会需要确定基准的基本原则,实现基准量、计量单位、主要计量标准,这是所有其他基准的参照。第二层是第一类和第二类基准。它们将重用第一层中基本数量和度量单位的定义和实现。同时,导出量和计量单位的定义和实现也是必不可少的。第三层是第二和第四类基准。社区经常需要重新审视和思考数学或数据问题的定义,以提供最先进和最实用的实现。第四层是第五类基准。在寻找最佳实践的过程中,有必要密切关注所有层级5. TBench:基准科学和工程的场所我认为现在是时候推出一本新的期刊,BenchCouncil Transactions onBenchmarks,Standards,and Evaluations(简称TBench)。它将提供一个交流和解决上述挑战的场所,因为在这一领域没有多学科和跨学科的期刊。我只注意到在管理学科中有一本密切相关的期刊,名为《标杆管理:国际期刊》。J. 詹BenchCouncil交易基准,标准和评估1(2021)1000124图三. 标准基准层次结构建议。一个新的期刊的至关重要的是要保证高质量的意见书及时得到高质量的评论。 根据过去在计算机学科其他知名期刊和会议上的经验,这是我的主要背景,我有一些考虑。在计算机学科中,与其他顶级学术论文相比,期刊论文通常无法获得一致和及时的评论。例如,不同的副编辑邀请来自不确定来源的审稿人来处理有较大偏差的论文。相反,计划委员会会议在顶级会议上提供相对一致的评论。另一个问题是严重的拖延。总体而言,处理一篇论文的平均周转时间为三个月至一年。一些期刊拒绝大多数投稿,任由不了解其内容的工作人员处理,以加快流程并减少外部审查负担。这将损害我们的社会有两个原因。首先,同行评议的价值在于提供建设性的反馈,这是我们科学界的基石。二是会导致编辑权利的滥用。最后一个问题是大多数期刊采用单盲评审,这妨碍了公平评审。为了解决上述问题,我制定了以下计划。(1)Consis-帐篷和可靠的评论。除了大约30名创始编辑或编辑,类似于会议的程序委员会成员,我们将邀请大约30名副编辑(具有博士学位的初级研究人员)。度)。副编辑类似于会议的外部审查委员会成员。一个由创始编辑、编辑和副编辑组成的团队将为一致和可靠的评论提供基础。(2) 快速通道同行评审。主编(EIC)将阅读每篇论文的摘要和介绍。假设团队认为这是一篇具有高影响力的高质量论文。在这种情况下,他们将邀请三位编辑进行及时的审查,包括可能的远程讨论,并在三周内做出最终决定。该小组将请一名编辑和两名副编辑审查其他文件。总体而言,该团队将在一个月内完成一轮决策(3) 双盲审查过程。EIC团队中没有利益冲突(COI)的一名成员负责检查COI,而另一名EIC和编辑不知道作者的身份, 最终决定每一篇发表的文章都由至少三名独立评审员使用双盲同行评审过程进行评审。作者不知道审稿人的身份,审稿人也不知道作者的身份致谢我非常感谢许多人对TBench的贡献,特别是Tony Hey教授讨论了TBench计划,Lei Wang博士讨论并校对了本文,Shaopeng Dai先生编辑了参考文献,Qian He先生绘制了图表,Zhengxin Yang先生讨论了计量学相关工作,Chitra Krishnamoorthy女士,Divyaa Veluswamy女士,以及KeAI和Elsevier的其他工作人员出版TBench。没有你们所有人,启动TBench是不可能的。引用[1]A.克莱尔,绩效评估,在:CFA协会投资基金会,2014年,pp。173-205.[2]S.S. Stevens等人,论测量尺度理论,Bobbs-Merrill,大学部,1946年。[3]M. Zairi,P. Leonard,《标杆管理的起源及其意义》,载于:《实践标杆管理:完整指南》,Springer,1996年,第100页。22比27[4]B.C. Lewis,A.E. Crews,作为计算机性能评估技术的基准测试的演变,MIS Q。(1985)7-16.[5]E.O. Joslin,计算机的评估和性能:应用基准:有意义的计算机评估的关键,在:1965年第20届全国会议,1965年,第100页。27比37[6] W.张文,系统性能测试的一种新方法,北京:计算机科学出版社,1998。[7]D.M. Conti,标准基准图书馆研究小组的调查结果,(500 - 538)9月。商务部,国家标准局,计算机科学与技术研究所,1978年。[8]I.比普岛IFCC岛国际理论和应用化学联合会岛ISO,国际计量词汇- 基本和一般概念及相关术语(VIM),第3版。 JCGM 200:2012,in:JCGM(Joint Committeefor Guides in Metrology),2012.[9]R.N. Kacker,关于JCGM国际计量词汇中的量、值、单位和其他术语,Meas。Sci.Technol. 32(12)(2021)125015.[10] F. 唐,W。 Gao,J. Zhan,C. 兰,X. 温湖,澳-地 小王, C. 罗, Z. 曹操,X.Xiong,Z.江等,Aibench培训:平衡的行业标准人工智能培训基准测试,在:2021 IEEE系统和软件性能分析国际研讨会(ISPASS),IEEE,2021年,pp。24-35[11] Z. 姜,W. Gao,F. 唐湖,澳-地 Wang,X. Xiong角 罗角,澳-地 兰,H.Li,J.Zhan,HPC AI500 V2. 0:HPC AI系统基准测试的方法、工具和指标,2021年IEEE集群计算国际会议(CLUSTER),IEEE,2021年,第10页。47比58[12] 麻省理工学院,Automl基准数据集,2021年,https://openml.github.io/automlbenchmark/benchmark_benchets.html,2021年12月2日访问[13] J.邓,W.东河,巴西-地索赫尔湖,美-地J. Li,K.利湖,加-地Fei-Fei,Imagenet:A large-scalehierarchical image database,in:2009 IEEEConference on Computer Vision andPattern Recognition,IEEE,2009,pp. 248-255J. 詹BenchCouncil交易基准,标准和评估1(2021)1000125[14] A.E. 约翰逊,T.J.波拉德湖Shen,H.L.Li-Wei,M.冯,M.加塞米湾穆迪,P. Szolovits,洛杉矶Celi,R.G. Mark,MIMIC-III,一个可免费访问的重症监护数据库,Sci. 数据3(1)(2016)1[15] 国际证监会组织,《金融基准》,技术报告,2013年。[16] L. Wang,X. Xiong,J. Zhan,W. Gao、X. Wen,G.康氏F. Tang,Wpc:跨中间表 示 、 isa 和 微 体 系 结 构 的 全 局 工 作 负 载 表 征 , IEEE Comp. 阿 奇 特 Lett.(2021年)。[17] F. 阿鲁特湾 阿里亚河 Babbush,D. 培根,J.C. 巴尔丹河 巴伦兹河比斯瓦斯,S. Boixo,F.G. Brandao,D.A.Buell等人,量子霸权使用可编程超导处理器,自然574(7779)(2019)505-510。[18] J. 韦尔斯湾Bland,J. Nichols,J. 哈克,F。Foertter,G.Hagen,T.Maier,M.阿什法克,B. Messer,S. Parete-Koon,宣布超级计算机峰会,技术报告,橡树岭国家实验室。(ORNL),Oak Ridge,TN(United States),2016.[19] Y. Liu,X. Liu,F. Li,H.傅,Y。Yang,J.Song,P. Zhao,Z. Wang,中国山杨D. Peng,H.陈先生,例如,缩小1比12[20] F.潘,W。Wang,A.K.杨俊栋,从海量数据中寻找代表集,第五届IEEE国际数据挖掘会议(ICDM '05),IEEE,2005年,第100页。8页。[21] J. v. Kistowski,J.A. Arnold,K. Huppler,K.- D. Lange,J.L. Henning,P.Cao,如何建立基准,在:第六届ACM/SPEC性能工程国际会议论文集,2015年,第100页。333-336[22] K. Huppler,《构建良好基准的艺术》,载于:技术会议《绩效评估和基准》,Springer,2009年,第100页。18比30[23] Statista,领先应用商店中可用的应用数量,2021年,https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/,于2021年12月2日访问。詹剑峰博士是中国科学院计算技术研究所(ICT)和中国科学院大学(UCAS)的正教授,也是中国科学院ICT软件系统实验室主任。他获得了学士学位。1996年和1999年获西南交通大学土木工程硕士学位和固体力学硕士学位,2002年获中科院软件所和加州大学中科院计算机科学专业硕士学位。他的研究领域从芯片、系统到基准测试。一个共同的思路是基准测试,设计,实施和优化各种系统。他做出了大量有效的努力,将他的学术研究转化为先进技术,以影响通用生产系统。多项技术创新和研究成果,包括他的团队在基准测试、操作系统、集群和云系统软件方面获得了35项专利,为推动中国乃至世界的并行和分布式系统做出了直接贡献。在过去的二十年里,他指导了90多名研究生 、 博 士 后 和 工 程 师 。 Jianfeng Zhan 博 士 创 立 并 担 任BenchCouncil主席,并与Tony Hey教授共同担任TBench的联合EIC。自2018年以来,他一直担任IEEE TPDS副主编。2006年获国家科技进步二等奖,2005年获中国科学院杰出成就奖,2013年获IISWC最佳论文奖。
下载后可阅读完整内容,剩余1页未读,立即下载
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)