代理模型的高性能仿真引擎：显著提升与可扩展性

135 浏览量更新于2024-06-19 收藏 15.87MB PDF 举报

本文主要探讨了在高性能计算和可扩展性方面改进基于代理的仿真引擎的关键技术。作者针对生物DynaMo这样的平台，提出了针对大规模研究的仿真引擎优化策略。文章的核心挑战包括： 1. **并行化与性能优化**： - 为了充分利用多核处理器的并行能力，作者设计了一种优化的网格结构，能够有效地搜索邻居并实现线程本地结果的并行合并。这种优化减少了通信开销，提高了整体性能。 2. **内存访问延迟降低**： - 通过引入NUMA感知的代理迭代器，模拟程序更好地适应非均匀内存访问（NUMA）架构，减少了跨CPU核心和内存簇的数据移动。此外，通过使用填充空间曲线对代理进行排序，以及定制的堆内存分配器，降低了内存访问延迟，从而提升内存带宽利用率。 3. **碰撞力计算优化**： - 文章提出了一种机制，条件性地省略不必要的碰撞力计算，这在保持模型精确性的同时，显著减少了计算密集型任务，进一步提高了仿真速度。 4. **可扩展性和比较实验**： - 对比实验表明，新的仿真引擎相比于BioCellion有性能上的显著提升，与Cortex3D和NetLogo相比，速度提升了三个数量级。在实际应用中，新引擎能够在单个服务器上支持17.2亿个代理的模拟，显示出强大的可扩展性。 5. **相关领域与关键词**： - 论文关注于计算方法学中的大规模并行和高性能仿真，以及代理/离散模型的并行算法。同时，它也涉及软件性能优化、性能评估、内存布局优化、内存分配和NUMA技术。 6. **版权和引用信息**： - 本文遵循知识共享署名4.0国际许可协议，发表于PPoPP '23会议，蒙特利尔，2023年2月25日至3月1日，作者提供了可复现结果的详细说明链接。通过这些技术创新，本文的工作对于推动基于代理的仿真技术在科学和工程领域的广泛应用具有重要意义，特别是在处理大规模数据和复杂系统时，为研究人员提供了一种高效且可扩展的工具。

5 2 1 8

3 6

0 1 2 3

5 6

Removed agents: Thread 0: {2, 8} Thread 1: {7}

not_to_left

0 0 0

to_right

not_to_left

1 0 0

to_left

5 0 6

2 0

1 1

#swaps

to_left

5 0 6

Thread 0 Thread 1

ResourceManager::agents_

idx

176

高性能和可扩展的基于代理的仿真与BioDynaMoPPoPP'23，2023年2月25日至3月1日，加拿大蒙特利尔

算法1：模拟算法

1模型初始化()

2对于∈do

3对于∈__do

4();

5结束

6等待()

7并行对于∈do

8对于∈do

9();

10结束

11结束

12对于∈_do

13();

14结束

15等待()

16对于∈__do

17();

18结束

19结束

3最大化并行化3.1基于网格的邻居搜索

确定代理的邻居是所有代理交互的先决条件。例如，在流行病

学模型中的感染行为需要了解是否有任何直接邻居被感染。在

这种情况下，快速高效地找到邻居并最小化所需索引的构建时

间是至关重要的。在每次迭代中构建索引的成本很高，如评估

部分所示。我们利用了迭代开始时已知的相互作用半径。对于

这个固定半径搜索问题，基于网格的解决方案是一个很好的选

择，因为可以使用代理的位置在常数时间内确定代理的盒子[8

]。我们在第6.9节的评估中证实了这一点。将所有代理分配到

一个盒子中的构建阶段可以很容易地并行化。在搜索阶段，网

格通过迭代同一个盒子和周围的盒子中的所有代理来确定所有

邻居。在三维空间中，我们考虑包围查询盒子的3x3x3个盒子

。盒子中的所有代理都存储在基于数组的链表中。盒子只需要

存储起始索引和包含的元素数量。为了避免在构建阶段开始时

将所有盒子清零，我们为每个盒子添加一个时间戳属性，在添

加代理时更新。因此，如果模拟和盒子时间戳不同，我们可以

确定盒子为空。因此，我们可以在(#

)的时间内构建网格，而不是(#+#

)，这对于未完全填充的大型模拟空间是相关的。基于数组的

链表使用与ResourceManager

中相同的代理索引。ResourceManager

是模拟引擎中的一个重要类，它存储原始代理指针并提供添加

、删除、获取和迭代代理的函数。因此，它也受益于第4.2节

中介绍的内存布局优化。这种优化减少了在空间上接近的代理

之间的内存距离。因此，链表元素将更接近彼此，在网格的搜

索阶段中改善链表遍历的缓存命中率。所描述的网格实现可以

在类UniformGridEnvironment中找到。

3.2并行添加和删除代理

为了最大化Amdahl定律[3]中描述的理论上可实现的加速比，

我们通过并行化代理的添加和删除来最大化仿真的并行部分。

默认情况下，BioDynaMo在每次迭代结束时将添加和删除的

副本存储在线程本地，并将其提交给

ResourceManager。添加是简单的；引擎确定添加的总数，

以并行方式增长ResourceManager

中的数据结构，并添加代理指针。相反，删除的并行化是一个

更复杂的过程，因为我们不允许ResourceManager

中存在空的向量元素。如果仿真引擎必须删除存储在向量中间

的代理，它必须在缩小之前将其与最后一个元素交换。下面的

算法旨在并行执行必要的交换和更新以及相关数据结构。图1

简化了为单个NUMA域并行化的算法。该示例假设有七个代

理的仿真，表示为标识符1-7和两个线程，从仿真中删除三个

代理。这些代理以灰色背景突出显示。其他颜色用作视觉辅助

工具，以跟踪必须交换的代理。该算法包括五个主要步骤。首

先，算法确定删除的代理总数，计算向量的新大小（_-

_），并初始化两个辅助数组。辅助数组的大小等于删除的代

理数量。新向量大小在图1中的索引三和四之间的垂直线表示

。其次，每个线程迭代其删除代理的向量并填充辅助数组。如

果代理存储在新大小索引的左侧，则必须将其移动到右侧。因

此，算法将元素索引插入到数组_中。如果代理存储在新大小

的右侧，则在数组__的索引处插入1。用于访问辅助数组中的

元素的最大索引小于删除的代理数量，并且与剩余代理的数量

无关。

1.初始化

2.填充13

3.重新排序13

4.交换13

5.调整大小5316

图1.并行代理删除机制

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

代理模型的高性能仿真引擎：显著提升与可扩展性

云计算仿真器CloudSim.doc

Python-面向嵌入式AI研究的灵活高性能3D模拟器

基于Vue全家桶的Node.js论坛项目实现指南

仿真模型在IT系统测试中的利器：验证功能，保障性能

【强化学习全解】：零基础到高级应用的深度解析（理论与实践）

知识图谱-基于Neo4j+Python+Cypher+KG实现的小型金融知识图谱构建项目-附项目源码+流程教程-优质项目实战

资产管理系统-使用Python+CSS开发的资产配置管理系统-附完整流程教程-优质项目.zip

基于SpringMVC+Spring+MyBatis的博客网站系统源码+数据库+使用说明（毕业设计）

614075276467436开心叠一叠.apk

优秀毕业设计-基于海思Hi3516开发板的RTP流媒体服务器系统-项目实战.zip

最新资源