办公桌面性能评测系统CpsMark:面向物联网的集中采购办公桌面性能评估

133 浏览量更新于2023-12-05 收藏 1.47MB PDF 举报

用户体验

硬件性能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

BenchCouncil交易基准，标准和评估2（2022）100084研究文章CpsMark+：面向物联网的集中采购办公桌面性能评测系统张跃，吴彤中国计量科学研究院A R T I C L E I N F O保留字：计算机基准测试硬件性能评估用户体验场景化工作负载集中采购A B S T R A C T近几十年来，各种公司的快速业务扩张对办公台式机的需求不断增长。然而，对系统性能的不恰当评估和对实际使用条件的不明确认识往往阻碍了在多个方案中做出完美选择的努力。视角下为了优化集中采购中桌面性能的评估流程，提出了一个基于模拟用户体验的办公桌面性能评测系统CpsMark+。具体而言，CpsMark+包括面向工作负载的工作负载，描绘了从现代办公例程中的协作工作流建模的代表性用户行为，并根据不同的任务类型灵活调整了适当反映最终用户体验的指标。最先进的基准测试之间的对比实验证明了CpsMark+对各种硬件组件的高灵敏度，例如，重复性好，变异系数小于3%。在一个实际案例研究中，我们还证明了CpsMark+在模拟现代办公场景下的测试计算机系统的用户体验，以提高集中采购中办公桌面性能评估的质量的有效性。1. 介绍计算机的性能过去很容易通过其硬件配置来表示.然而，随着计算机体系结构变得越来越复杂，使用规范作为度量标准将在许多实际场景中给出整体计算机性能的不完整画面[1]。这种评价方法是有偏差的，因此不能跟上蓬勃发展的设计理念带来的计算机性能的快速提高此外，计算机市场的迅速扩大使得识别系统性能变得更加困难。上述障碍导致了各种计算机基准的使用。然而，现有的大多数基准无法满足集中采购办公计算机的绩效评价要求。微和内核基准测试是通过重复单调的操作或运行合成工作负载中的关键算法来构建的。这些基准仅仅反映了特定系统中某个组件的部分性能，主要由研究人员或制造商用于追求创新的计算机设计。虽然一些较新的基准，例如，BusinessApplications Performance Corporation∗ 通讯作者。电子邮件地址：zhyue@nim.ac.cn（Y.Zhang），wut@nim.ac.cn（T.Wu）.https://doi.org/10.1016/j.tbench.2023.100084面向一般最终用户体验的面向服务器的评估[2]。然而，它们不是开源基准，因此评分方法和工作量操作的不透明性损害了其公平性和透明度，而公平性和透明度对于集中采购至关重要为了解决SYSmark和PCMark的局限性，开发了用于微型计算机的开源基准测试CpsMark 1.0 [3]。然而，CpsMark 1.0的设计理念不是以用户为导向，而是强调工作负载能力。由于这样的设计理念，在实践中，用户抱怨工作负载特征是有偏见的，度量标准是不灵活的。此外，其基准方法的设计没有充分考虑到办公室的情况。此外，很难准确把握最终用户的具体需求，更不用说个人偏好了，尤其是在集中采购中。这种不可访问性使得没有必要制定性能评估过程，并限制了现有计算机基准的合理利用。本文旨在解决上述问题，并系统优化集中采购中利用基准评估办公台式机性能的流程。具体来说，我们重新开发了CpsMark+，这是一个新颖而连贯的基准测试。接收日期：2022年6月8日;接收日期：2022年12月28日;接受日期：2023年1月1日2023年1月5日上线2772-4859/©2023作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表标准和评价期刊主页：www.keaipublishing.com/en/journals/benchcouncil-transactions-on-benchmarks-standards-and-evaluations/BenchCouncil交易基准，Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000842在系统性能和预期使用场景中的模拟用户体验之间建立桥梁的系统，即，现代办公室的日常工作场景。在多个真实世界测试系统上进行的大量实验证明了CpsMark+结果的高灵敏度和可重复性。然后，我们使用CpsMark+作为硬件规格的替代品，在定量评估的整体计算机性能的响应投标在一个真实的情况下，集中采购。实验结果表明，基准评分较好的桌面的用户体验评分明显高于原评标方法，表明CpsMark+在模拟现代办公场景下集中采购办公桌面性能评价的有效性。本文的其余部分组织如下：第2节回顾了相关的工作，并提供了我们开发CpsMark+的动机。第3节总结了在现代办公场景下集中采购的办公计算机性能评估的挑战。第4节描述了我们开发CpsMark+的方法和过程，以及评估和比较CpsMark+与其他相关作品的广泛实验。第5节介绍了一个集中采购的案例研究，我们证明了使用CpsMark+作为计算机基准来模拟日常办公场景中的用户体验以进行桌面性能评估的有效性。第六部分总结了我们的工作，并提出了未来可能的研究方向。2. 背景2.1. 现有基准和衡量标准我们回顾了一些相关的计算机性能评估工作，但其中大多数都存在局限性，在现代办公场景下的集中采购办公台式机的基准，甚至没有设计用于商业用途。SYSmark 2018 [4]采用真实世界的第三方软件作为工作负载来评估计算机的整体性能，并得到广泛应用在商业市场上。使用场景是以主观分组的工作性质（如生产力和创造力）的形式建模的，它不能描述公共工作流中任务之间的合作。在工作负载方面，大多数都是CPU密集型的，对GPU和存储系统的压力很小，使得评估对最终用户在日常使用中可能关心的图形和I/O性能不敏感。此外，系统的反应能力和方案的启动情况是孤立的，由具体的应用程序来衡量，从而削弱了基准测试结果的现实参考价值PCMark 10 [5]报告了通过每个测试组内包含性工作负载的测试指标的几何平均值计算的总分。几何平均值返回一个标准化的分数，该分数平等对待每个工作负载的性能。这种评分方法输出了一个平衡的性能评估结果，它忽略了不同工作负载的重要性的多样性，无法描述在特定场景下的真实用户体验Phoronix测试系统[6]是一个开源和可扩展的基准系统，用于评估多个平台的综合性能。它包括数百个测试程序，涵盖广泛的应用程序，以评估各种指标。然而，贡献者提供的关于基准测试的逻辑和内部的信息很少此外，基准系统对于相同的系统部件具有许多功能重叠的程序，并且需要复杂的依赖关系，这使得它们太通用且效率低下，不能用于集中采购。还有其他针对特定应用领域的基准测试。3DMark [8]主要描述了显卡的实时游戏性能，其对帧率的依赖性作为唯一的度量限制了其在其他领域的进一步使用[2]。SPEC CPU 2017 [9]包含一系列从内核中提取的浮点和整数算法的计算密集型应用程序，以评估CPU的计算性能。该工作负载具有综合性和偏性，更适合于处理器的学术研究和工业开发中的模拟实验。斯坦福SPLASH基准系统[10]评估了具有真实科学工作负载的共享内存多处理器的并行算法，这对办公室例程几乎没有用处。诸如STREAM [11]和Imbench [12]的微基准测试仅通过单调的程序操作来测试单个度量，如单个硬件组件的内存带宽或延迟，这使得它们忽略了整个计算机系统内混合工作负载操作的资源分配和协调[13]。2.2. 我们升级CpsMark+的动机为了解决上述SYSmark和PCMark的局限性，我们在2014年发布了微型计算机基准测试CpsMark 1.0，该测试基于从典型计算场景中提取的一系列CPU密集型工作负载来评估处理器性能[3]。但是，CpsMark 1.0的设计主要关注工作负载容量，而不是反映最终用户体验。工作负载操作被设计为CPU密集型并且彼此隔离，因此它不能反映真实场景中的整体性能和用户体验，相反，这要求工作负载是一致的和交互的。评分方法平等对待每一个工作量，忽略了他们在实际任务中的不同重要性。此外，作为工作负载的第三方软件和基准支持的操作系统（Windows 7）在蓬勃发展的计算机相关市场中被淘汰。这些缺点通常只能使CpsMark 1.0成为单个客户的简单技术参考，而无法帮助办公电脑集中采购时根据实际需求在过去的几年里，基准测试的作用一直是购买计算机的焦点。一些组织，如德国的数字协会Bitkom英特尔还推荐了一些现有的基准作为筛选投标人入围名单的标准[1]。受基准测试不断演变的影响，我们重新设计了CpsMark1.0通过在面向办公室的工作场景下利用模拟最终用户经验建立一致的基准系统，以更好地评估集中采购的绩效，并最终于2019年开发了CpsMark+。3. 评估办公室桌面系统性能的方法3.1. 计算机体系结构和使用的演变研究人员和消费者过去常常仅仅通过检查硬件规格来比较不同计算机系统的性能。延迟和吞吐量曾经是计算机性能评估中的典型指标，因为当时只有输入数据的大小和内容会影响应用程序的处理速度[2]。为了性能评估，更好的硬件总是导致更高的吞吐量和更低的延迟，因此计算机体系结构只是各个组件的无机组合。随着计算机体系结构和使用变得越来越复杂，计算机配置的简单信息很难明确预测不同场景中的程序性能[15]。这种转变逐渐引起了众多基准测试的蓬勃发展，基准测试是一个客观的测试程序系统，通过运行一系列相同的应用程序或其他计算机操作，返回与基线平台相比的归一化测试分数。这些基准测试通常被设计为模拟恒定计算机系统上的特定类型的工作负载，人们可以通过这些工作负载进行比较。Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000843在特定工作环境下，替代计算机的性能。尽管如此，现代计算机应用程序越来越多地与人类、物理世界以及彼此交互--通常是同时进行的。例如，一些新类型的计算任务（如异构计算[16]）可以基于嵌入的代码段对不同的子任务进行分类，并自动将其分配给最合适的计算资源以进行有效执行，从而使整个任务的总时间消耗最小化。许多任务操作这可能是一个随机过程，并导致动态结果。任务、硬件和人之间的复杂交互使得很难根据单个任务甚至孤立执行的多个任务来描述给定系统的整体性能[2]。一般来说，现代计算机系统的整体性能不仅仅是一个函数单个硬件和执行的应用程序，而是硬件体系结构、软件执行和资源分配模式以及人类如何与计算机系统交互的复杂集成[17]。3.2. 在集中采购中获取使用要求的障碍计算机性能的有效评估过程必须建立在明确认识到测试系统的预期使用场景的基础上，然而，这对于办公室台式机来说尤其困难。在集中采购中，经常需要大量评估办公台式机的性能，这是一个漫长而艰苦的过程，只有当局的意见才能主导采购决策。因此，决策过程通常远离真正的利益相关者[18]，例如，内部客户或外包工作的外部客户。采购和招标文件的原则是由管理层密集制定的，几乎没有反映出采购项目的实际用途。即使在个人购买的情况下，由于现代计算机功能全面、使用灵活，相对于传统电子产品，现代台式机的潜在使用信息在性能评价过程中仍然不易直接参考。例如，热衷于3D游戏的游戏爱好者可能也会关注软件工程师所需的计算性能。因此，很难捕捉现代办公桌面的明确使用需求，这阻碍了对系统性能的有效评估，突出了计算机基准测试如何精确地反映特定场景中的最终用户体验。3.3. 难以反映真实用户体验在各业务领域，问卷调查是获取用户体验和满意度的最直接方式之一，但与许多其他类似调查一样，在实践中，问卷调查只能在真正的最终用户持久使用之后进行，这使得在发布之前帮助供应商改进产品或在客户选择新产品时作为参考的时效性较低。领域各种基准测试的兴起解决了上述部分问题，但巨大的挑战在于如何在没有人工干预的情况下准确反映用户体验。对于一个特定的计算机产品，不同的潜在客户群体的使用可能是不同的，这需要基准工作负载和实际用户行为之间的准确匹配。此外，每个用户在评估计算机性能时可能具有不同的标准，这取决于使用习惯或产品依赖性。毫无疑问，这种现象会影响感知的用户体验，因此需要更周到的指标和评分设计方法论最后，不可能用任何单独的基准来消费性地反映计算机产品的用户体验，因为可能的过度特定设计将导致基准过度拟合，并使其不太适用于更广泛的使用。因此，权衡基准的相关性和普遍性也很关键。4. CpsMark+基准测试工具在本节中，我们将详细介绍开发CpsMark+的相关标准、方法和流程。我们还进行了分析和比较实验方面的典型特征的计算机基准。4.1. 标准和设计特点研究人员一直在理论上探索建立完美基准的艺术[19，20]。Kistowski等人。[20]断言所有标准化的基准都受到一组通用的crite-RIA，例如，相关性、可重复性、公平性和可验证性，这些都被证明是必要的。然而，在每个领域中，根据其目标、预期使用场景或其他考虑因素，期望标准包括特定于各个基准的附加特征。集采日常工作场景下办公电脑性能对标的实质是从用户体验的角度对电脑系统进行正确的评估，并根据具体的采购需求描述系统性能。在本文中，我们提出了以下基准标准，用于指导CpsMark+功能的设计• 应用程序和软件操作应该是面向场景的，以反映真实的用户行为.特别是在集中采购中，最终用户几乎无法对当局的采购决策产生重大影响，因此工作量应与最终用户在许多方面感兴趣的行为或预期用途密切相关，例如，工作量特征和输入数据集。• 应消除任务之间的合作和不同的重要性，抄写。最终用户通常不会对所有任务或甚至单个任务中涉及的应用程序有相同的性能要求。在实践中，如果多个应用朝着共同的任务或目的操作，则它们的顺序和一致性将影响总体工作效率，因为某些应用的加速可能比其他应用的加速更有益• 指标的设计应该灵活，并考虑到非线性，这意味着复合度量不应该同等地对所有应用进行加权。考虑到现代桌面的复杂使用，不同工作负载的期望指标可能会有所不同。例如，在人类交互方面，人类无法感知低于某个阈值的更快响应时间。而对于其他一些任务，可以忽略不同系统上执行时间的差异。• 基准测试应该是开放源代码和供应商中立的。封闭源代码基准测试的开发可能会受到操纵某些供应商通过有偏见的工作量设计，导致怀疑[21]和信誉的丧失。公开基准使公众能够监督，并保证基准结果的公正性，这在集中采购中至关重要。4.2. 整个开发过程和基准框架与大多数计算机基准测试不同，CpsMark+旨在用于集中采购，其中一个单一的基准测试结果可能会影响员工群体购买和使用特定产品。因此，在开发过程中，遵循迭代和增量策略比在早期阶段制定方案以Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000844图1.一、Cp sMark+ 的主要软件组件和整体基准框架。后续设计步入正轨。我们将整个开发过程划分为多个阶段，并与相关的检查点相关联，以确保完成。在每个阶段，通过市场调查或咨询从不同的最终用户那里获得需求，然后选择代表对决策和实施的结果进行反馈。我们根据反馈改进我们的工作，并在每个阶段重复这样的程序。基于第4.1节中提出的标准，CpsMark+的主要软件组件及其整体基准框架如图所示。1.一、CpsMark+基准测试工具包含三个组件：• 自动安装程序，批量安装第三方应用程序和主控制程序（MCP）。MCP负责基准测试的执行，包括测试初始化、资源提取、数据完整性检查、工作负载扩展、日志记录、度量测量和计算以及报告生成。• 资源包，包括工作负载操作的输入文件行动。• 第三方应用程序包，包含所有第三方应用程序的设置MCP 的源代码在线维护于 https://github.com/wanghong3116/CpsMarkPLUS，该源代码仍在进一步改进中并可能发生变化。资源和第三方应用包已上传至国家计量数据中心网站，可通过https：//jc在线访问。nmdc.ac.cn/view-40-609748.html网站。请注意，CpsMark+仅支持Microsoft Windows 10。我们没有像大多数商业基准那样将输入文件、工作负载应用程序和MCP集成到一个单一的包中，这使得我们的工作透明且易于维护。第一使用CpsMark+，每个第三方应用程序的试用版自动安装在测试的计算机系统上，并通过执行自动设置程序进行配置。同样，每个工作负载以完整软件的形式独立运行，相应的应用程序不合并到MCP中，只从被测计算机系统的后台同步接收指令。这样的设计减少了MCP对系统性能的影响，并且能够清楚地查看日志提供的工作负载状况MCP设计为串行布局，包含两个独立的测试模块。用户可以初始化要运行的迭代次数消除基准结果的波动。由序列组成的对于有序执行的工作负载，每个模块独立地生成反映包容性工作负载的性能的综合得分。测试计算机系统在以下时间段自动重新启动：用于消除变化的系统状态的影响的两个模块（例如，高速缓存）上的模块独立性。4.3. 工作负载CpsMark+有两个独立的模块，用于模拟现代办公场景中感知的用户体验，即，综合应用（CA）和综合计算（CC），可在测试过程中选择并独立运行。它们中的每一个都有一系列以特定顺序执行的工作负载。在本节中，我们将详细介绍每个模块中工作负载的设计和特征。4.3.1. 办公室计算机的用户轮廓提取Chen等人[22]指出，基准测试应该与实际的应用领域相关联，并反映生存中的实际虽然大型雇主可能有许多用户细分，但适当的分类可以最大限度地减少复杂性，并更好地了解特定用户细分的性能要求。对于现代办公场景中台式计算机的日常使用，我们从职业和专业的角度抽象了最终用户的配置文件，如表1所示。由于CpsMark+是为现代办公场景中使用的台式计算机的商业评估而设计的，因此表1中总结的用户配置文件不包括在实验室、研发中心、工厂或远程办公的用户。本文主要针对大部分知识工作者和部分高级用户进行研究。4.3.2. 使用场景建模和应用选择企业某个特定部门的用人单位往往从事固定的日常工作，因此在办公计算机集中采购时，应更加重视同质工作部门特定任务的性能要求。为了将工作负载的设计与测试计算机的面向使用场景高度关联，我们专注于探索在日常办公场景中工作的预期最终用户根据抽象的办公计算机用户模型，我们将使用模型聚类为四组常见的办公场景Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000845表1计算机最终用户的配置文件用户类别代表性职业任务工作者·客户服务•前案头协商•银行职员•Data Entry Specialist•人力资源知识工作者大部分学生•教师和教授•公司管理员•财务顾问提供多种建议•产品经理从多角度高级用户多媒体设计师使高清视频•从事复杂建模的专业建筑师•医生检查精细的3D医学图像•基本文档操作•单个操作系统级应用程序•简单的连接需求•静态2D图形•很少的计算场合•内容创建•频繁网页浏览•中等复杂的应用•适度科学计算•可变多媒体处理，如图形和视频•足够的内存•复杂内容创建•密集的视频和3D图形处理•CPU运算量•快速系统响应•应用程序的平稳运行表2工作负载的应用程序选择模块使用场景应用版本Microsoft® PowerPoint 2016（16.0.4266.1003）Microsoft® Word 2016（16.0.4266.1003）综合应用文件处理Microsoft®Excel 2016（16.0.4266.1003）Adobe® Adobe ® Adobe® Adobe ®（19.010.20091）WinRAR 5.91（64位）综合计算Google®Chrome浏览器73.0.3683.75Microsoft®Outlook 2016（16.0.4266.1003）Autodesk®AutoCAD 2018（22.0.49.0）Adobe® Photoshop CC 2019（20.0.1）Autodesk®3ds Max 2018（20.0.0.966）多媒体处理基于它们在特定工作流程内的总体功能，即，文档处理、互联网服务、图形设计和多媒体处理，描述如下：• 文档操作场景包含对常见格式的文档的多个操作，这在现代业务的大多数情况• 互联网服务场景主要包括网页浏览和电子邮件的创建，通常是资源获取和信息交流的辅助手段。• 平面设计的场景是指视觉表达的想法通过符号、图片和文字的组合来传达信息，这对于海报制作等产品展示任务至关重要。• 多媒体处理场景涉及利用计算机用于将图形、声音、视频等媒体信息数字化并集成到特定的交互界面中，广泛应用于咨询、营销和管理等领域。对于工作负载应用程序，我们根据流行度指标选择桌面级办公根据Chinaiern的中国办公软件市场调查报告[23]，我们的软件市场专家为现代办公中的每个使用场景选择了流行和典型的应用程序，总结在表2中。由于开发和验证工作负载需要足够的时间，因此在CpsMark+发布时，某些应用程序的版本不是最新的。此外，CpsMark+的预期应用是最广泛使用的版本，而不是最新版本。虽然像WinRAR这样的应用程序是最新的，因为它是可行的，由最终用户即时更新Adobe®Premiere Pro CC 2019（13.0）Adobe® After Effects CC 2019（16.0）HandBrake CLI 1.3.04.3.3. 测试模块构造虽然使用场景的特定选择确保了基准测试的高代表性，但是将具有来自各种使用场景的相似性能依赖关系的应用分组可以轻松地提供描绘最终客户所需的整体性能的全面画面，并增强基准测试的可用性。因此，我们将使用场景合并为两个单独运行和评分的模块，如下所示：• 综合应用（CA）模块包括文档操作和Internet服务场景，这些场景反映了大多数业务工作场所中任务或知识工作者的轻度和中度使用，最终用户可能会更关注这些场景整体性能、响应和平滑度。• 综合计算（CC）模块包括以下场景图形设计和多媒体处理，这反映了专业领域的高级用户的大量使用，最终用户可能关注CPU密集型的执行效率或GPU密集型计算任务。在每个模块中，除了相似的性能依赖性之外，使用场景高度相关，并且往往会出现在日常办公场景下的常见工作流程中。此外，基于从包容性工作负载测量的度量的总和，每个使用场景被赋予不同的权重。这种方法可以确保基准测试结果与最终用户所需的计算机性能之间的直接和密切的联系。4.3.4. 组件和设计细节为了反映现代办公室中办公计算机的用户体验，工作负载不仅要面向用户，而且要能够模拟用户行为。因此，CpsMark+的工作量更多平面设计互联网服务Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000846MCP不是应用程序自动化的概念，而是三个元素的逻辑集成：从资源包中提取的输入数据集，通过MCP执行的应用程序对输入数据集执行的工作负载操作，以及生成的输出。对于每个工作负载，选择输入数据集以在功能上再现可能由最终用户在现代办公场景中使用的资源或材料。具体而言，我们选择原始数字内容或半成品项目文件，这些文件主要是非结构化数据，如文本、图像、视频、网页和其他特定应用程序文件，例如，3dsMax场景文件。然后，我们将探索在应用程序的日常使用中经常出现的基本操作单元，并将它们集成到一系列可以完成常见任务的工作负载操作中。我们通过设计多样化的操作来保证工作负载的完整性，这些操作独立地生成完成的文件作为每个应用程序的输出。此外，MCP中没有随机过程，因此生成的输出由输入数据集和工作负载操作唯一确定。CA模块的工作负载操作按执行顺序简述如下：• 谷歌浏览器. 模拟用户浏览网页并在选项卡之间切换。通过本地配置的网络服务访问网页。网页包含文本、图片、 JS（JavaScript）脚本和Flash。• Microsoft PowerPoint。设置新模板样式并创建公里.输入文本并调整字符格式、对齐方式和字体大小。添加图片、标题和排版。插入带有填充数据的表格和图表。浏览幻灯片。• 微软Word. 输入字符，修改标题和字符格式，分割段落，设置目录，插入图片，创建表格和图表，输入数据。• Microsoft Excel。使用固定公式生成和组织数据。根据特定规则对数据进行分类和输入。计算和排序常用统计数据。按类别绘制折线图，设置标题和样式，调整大小和位置。宏定义和执行。• Adobe Acrobat. 转换PowerPoint、Word和Excel文档-在以前的工作负载中所做的部分转换为PDF文件，请逐页浏览这些PDF文件。• WinRAR。压缩和压缩混合文件在多个-垫，包括图像，视频，文档，数据库和日志文件。• Microsoft Outlook. 模拟用户接收、浏览电子邮件的操作脱机的帐篷和附件，包括Word、Excel和Power Point文件。上传新附件、编辑电子邮件正文并回复。简要介绍了CC模块的工作负载操作执行顺序如下：• Adobe Photoshop。使用PSD（Photoshop文档）文件做一个垂直的海报。将目标区域从源材料中分离出来，并设计图层布局。在新图层中，设置标题和说明，添加徽标，并调整其大小、坐标和透明度。合并所有图层，虚拟化背景并将其合并为一张大图片。• Autodesk AutoCAD。使用DWG文件绘制分布式结构建筑物的真实图表。在主框架中，绘制每个区域的结构和矢量标识，添加坐标，并标记大小。更改图层的颜色并使用不同的线条样式。设计布线，绘制管线分布和流向。• Autodesk 3ds Max 设计鲸鱼的3D模型。发展3D框架，着色纹理，添加灯光效果，通过计算光源位置，入射角和反射角制作反射和阴影效果。生成鲸鱼模型的运动轨迹和动作，渲染分段的动作序列帧。• Adobe Premiere。剪辑和拼接源视频素材，添加镜头过渡和字幕，合成声音效果，渲染和预览输出视频。• Adobe After Effects 添加粒子爆炸效果，渲染烟花爆炸动画序列1800帧和30 FPS。• 手刹。将H.264编码的源视频转换为4K256编码的目标视频与2K分辨率，容器格式是MP4。如果启用，将利用硬件加速。在每个模块中，工作负载按上面指定的顺序执行。某些特定应用程序的生成输出的格式甚至内容与后续应用程序的输入数据集的格式相同。这样的设计使得测试模块能够描述在整个公共工作流中跨任务的协作。例如，CA模块的工作负载模拟以下一致的用户行为：通过Internet准备资源、创建内容、处理文档和发送电子邮件4.4. 度量设计和测试实施虽然工作效率在大多数评估计算机性能的基准测试中是一个普遍的度量标准[24]，并且在帮助客户做出决策时被广泛引用，但由于以下原因，单一度量设计可能无法讲述用户体验的真实故事首先，人们对所有任务或甚至对单个任务的相同部分没有相同的性能要求，因此用户体验通常是多样化和变化的。例如，广告公司的专业设计师可能更关注多媒体处理的时间消耗，而办公室秘书的用户体验与频繁文档操作的响应速度和流畅性密切相关。第二，用户体验的感知是非线性的，有难度来量化。在人类交互方面，人类无法感知到低于特定阈值的更快响应时间，因此任务的进一步加速将不会带来更好的用户体验。例如，超过显示器支持的帧速率将不再改善图形任务的用户体验，而在这种情况下，程序执行可以通过更好的GPU来加速因此，在CpsMark+的上下文中，我们将工作效率定义为被测系统在特定工作负载内完成与用户体验相关的所有操作所消耗的时间，即，应用程序启动、输入文件加载和基本操作单元，这些在第4.3.4节中概述。然后，我们将定义的工作效率作为CpsMark+的度量标准，并专注于如何测量它，以正确描述现代办公场景中测试桌面的用户体验。4.4.1. 取样方法为了保证度量的针对性，CpsMark+根据不同的工作负载，采用多种方法对被测计算机系统的工作效率进行采样。这种灵活的方法可以通过将应用程序的使用与其性能要求相匹配来区分用户体验。更具体地说，我们将运行时间定义为每个活跃使用系统资源的基本操作单元所花费的时间，而响应时间是任务激活和任务完成之间的时间间隔。取样方法如图所示。二、从文档操作（WinRAR除外）和互联网服务使用场景的工作负载来看，基本操作单元数量多且分布密集，资源消耗轻。其中一些区间由与用户体验评估无关的事件组成，例如，临时保留屏幕显示、计时器干扰，如果将其包括在度量中，则会对工作负载的有效性产生不利影响。Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000847图二、设计指标的两种抽样方法。但是，对基本运算单元的采样次数过多，会积累采样误差，导致程序过程在稳态和瞬态之间频繁切换，影响系统性能。因此，我们对整个任务的开始时间戳和结束时间戳进行采样，并计算其响应时间，即，方法1中的t7 −t0，然后我们对不相关事件的时间间隔进行采样，并从响应时间中减去它们作为这些工作负载的度量。对于CpsMark+的其他工作负载，其基本操作单元相对稀疏，并且具有高度集中的资源消耗。这些基本的操作单元非常耗时，并且贡献了整个任务的大部分。在这种情况下，最终用户的用户体验更容易受到单个操作的执行速度的影响。为了准确地测量运行时间，我们人为地添加额外的短等待，例如，方法2中的t2 − t1，在重量级操作单元之间重置资源消耗。最后，我们对采样的运行时间求和作为这些工作负载的度量4.4.2. UI级与API级自动化基准测试的实施对所设计指标的测试结果有很大的影响。有两种主要方法来自动执行工作负载，即，UI级别和API级别[25，26]。一些基准测试程序利用AutoIt等自动化脚本，通过模拟鼠标点击或敲击来启动和导航应用程序[25]。每个任务的持续时间是在任务完成时测量的。通过特定于应用的方法检测。这种方法在UI级别模仿实际的人类交互，然而，它反而阻碍了性能评估的用户体验的准确反映。虽然对用户体验的估计有些主观，但它应该与计算机系统对真实最终用户的指令的反应或执行程度高度相关，然而，这可能会被模拟用户行为和基于计算机的度量的矛盾组合所扭曲。我们选择独立的API或从应用程序通信标准调用它们，例如，组件对象模型，以自动控制每个工作负载的执行。在这种情况下，应用程序的启动、输入文件的加载和基本操作单元通过包含的一组函数、方法和过程来实现在选定的API或标准中。与UI级实现相比，我们选择API级实现的决定提供了以下一些切实的好处：• 减少作为度量的不相关时间。一方面，UI级实现需要花费大量的时间来根据返回的信号检测任务的完成。例如，自动化脚本可能会等待应用程序显示弹出窗口或可能等待对话框消失，这需要准确的技术识别。这种基于自动脚本的判断过程非常耗时，并且明显落后于任务的完成如最终用户所感知的。另一方面，一些工作负载操作本身需要很多时间来执行自动化脚本。例如，文本输入可以用固定速度的连续键盘来模拟，在所有测试的计算机上具有相同的时间消耗。这种长时间的模拟占了设计指标的很大比例，并使最终用户不重视的测量结果被稀释。• 资源消耗少，测试效率高。尽管一些UI级的自动化基准测试框架声称是轻量级的，对性能的影响很小，但它们仍然比API级自动化消耗更多的计算和内存资源[27]。此外，API级别的自动化需要执行的代码更少，并且不需要处理接口元素。该属性使性能评估成为一个更快、更紧凑的测试过程，并进一步降低了总体资源消耗。• 更高的测试和维护稳定性UI级自动化由于UI的复杂性，任务有时会卡住或陷入无休止的循环。例如，鼠标光标可能由于分辨率的变化而错过某些按钮，或者意外的窗口显示可能导致错误识别。一些应用程序是事件驱动的，如果没有用户与它们交互，它们可以很容易地进入空闲状态[2]。相比之下，API级自动化可以保证每个工作负载操作的准确执行，并有助于缓解外部因素带来的维护困难[28]，例如，应用程序版本的频繁更新。4.4.3. 公制测试在CpsMark+中，针对特定工作负载的设计指标测试通过MCP执行，并在所有工作负载中遵循类似的管道，如图所示。 3.更具体地说，对于第二个工作负载，MCP首先解压缩资源包并将独占输入文件提取到指定位置，然后对它们执行MD5 [29]检查以确保数据完整性。��如果MD5检查失败，则测试将中止并返回到初始化阶段，否则，MCP将向前移动到图3中虚线矩形所示的应用执行阶段，在该阶段测试设计的度量值。��当所有的工作负载操作完成，一个MD5检查是对生成的输出执行。最后，在五秒倒计时之后，如果没有用户输入来中断测试，即，鼠标点击暂停按钮，MCP将继续下一个工作负载，直到整个基准测试完成。值得注意的是，对于文档操作和Google Chrome使用场景中的工作负载，应用程序通过直接打开输入文件来启动，而对于图形设计、多媒体处理和Microsoft Outlook使用场景中的工作负载，输入文件是在单独启动应用程序后加载的。作为影响用户体验的关键因素，应用程序启动的速度是内存和存储性能的良好指标。4.5. 评分方法基准的评分方法集成了设计的度量的测试结果，并产生量化的分数，评估计算机系统的整体性能。对于集中采购中使用的商业基准，评分方法应提供对测试计算机用户体验的准确估计，以帮助当局从替代品中选择更好的产品。对于CpsMark+，其评分方法的设计符合以下标准：• 所得分数没有明显的波动，并且在恒定的计算机系统下可以保持稳定Y. Zhang和T. 吴BenchCouncil交易基准，标准和评估2（2022）1000848=1⎢∑��⎥��图3. CpsMark +中度量测试的工作负载内和工作负载间管道。• 由此产生的分数可以充分区分不同性能的测试计算机• 从不同计算机系统得到的分数之间的成对关系对校准方法和基线平台的规范是中性的具体地说，对于每个模块，我们对在被测计算机系统上执行的每个包含的工作负载的测试度量进行求和，并将其与在基线平台上测试的工作负载度量的总和进行比较。我们计算这两个和的比值，并将其四舍五入到最接近的整数。在这种情况下，分数越高表示性能越好。更具体地说，给定第二个模块和所包括的工作负载的数量，分别是��模块1的得分计算如下：五次运行中第12次工作负载的测试指标的中值。请注意，由于基线平台不是计算机制造商的成品，因此将每个模块内所有工作负载的测试指标集成为基线平台的模块级校准是不合逻辑的。4.7. 基准表征在本节中，我们从灵敏度和重复性的角度分析了CpsMark+的一些基本特性，这是典型计算机基准测试中广泛使用的两个标准。具体来说，我们已经进行了广泛的测试实验与CpsMark+多tiple组装的计算机系统。然后，我们分析测试模块的性能变化的硬件特性的敏感性。我们还探讨了工作负载性能的可重复性下，⎡∑�� ⎤��恒定的计算机系统和稳定的测试环境。��= 1000⋅1个��⎦4.7.1. 实验装置注意，我们不取每个分数的几何平均值作为整体评级，为每个模块设置相同的权重[30]。相反，我们保留并分离分数，以便最终用户可以根据多样化的需求在参考基准测试结果时灵活定制每个模块的权重。在每个模块中，每个测试指标的总和反映了跨工作负载的协作以及它们之间的不同性能依赖关系4.6. 基线平台和校准基线平台作为评估框架的基准点，是大多数基准的先决条件。基线平台的明智选择对最终得分具有重要意义。例如，基线平台的过高配置将导致基准的低灵敏度和弱区分，而劣质的可能导致差的重复性。因此，在开发CpsMark+时，我们研究了集中采购办公电脑的主流配置，并根据CpsMark+中工作负载• CPU型号：Intel® Core™ i3-9100（4核，3.60 GHz，6 MB L3高速缓存）• 图形：Intel® UHD Graphics 630• 内存：Kingston® ValueRAM™ 8 GB DDR4 24

下载后可阅读完整内容，剩余1页未读，立即下载