MD模拟经常在普通计算机上运行,其中一个或更多的
GPU作为计算加速器提供。单节点平台由许多MD软件包
提供支持。[17]张永:18岁。 CHARMM [19], 德斯蒙
德 [20], GROMACS” [ 21 ]
蓝色 HOOMD[ 22 ] Lammps 的” [ 23 ] namad 的” [ 24 ]而
each with different features and performance ( 不同 的 功能
和 性能 )characteristics 。
目前,这些代码最快的单节点兼容性平台包括NVIDIA
A100 SXM 4 GPU;该平台在STMV基准测试上的峰值性
能报告低于0.07 μ s/day [21][25]。1 . 寻求 减少 对 其他 平
台 的 解决 时间 , 增加 超出 8 个 领域 的 处理 单元 数量
improvement on 改 进 the STMV Benchmark 的 ” [ 21 ]
scaling 的IS Even Worse for小 分子 Molecular Systems因为
the成本of Distribution Among 计算机the large 大Number of
GPU Core 的 而 integration 综 合 the 结 果 of Those
Computations on EACH Time step Overshadows 的any gains
from parallelization across the core ( 通过 线 支付 )” [ 27 ]
Several MD 软 件 包 ( GENESIS [ 28 ] ,
GROMACS , HOOMD-blue [ 29 ] , LAMMPS , 和
NAMD )CAN
生物分子系统的十亿分之十到几个十亿个原子,穿过机器
处理通用目的节点的大尺寸数字,但这些机器的缩放并没
有产生超 出0.2 μ s/天的性能。结果 模拟 开放 的 短期
( 分 - Microsecond ) 观点 极端 大 生物 分子 系统 , 但
他们 没有 实现 长期 的 必要 性能 ( 多 Microsecond 至
Millisecond ) 具有 一百 万 科学 原子 或 辐射 的 系统 的
模拟 , 一 个 规模 的 范围 包括 微生 物 组 对 基本 药物
和 研究 的 兴趣Discover .
Aside from the Anton Machines , other supercomputers
specialized for MD Simulation 已经有报道 。MDGRAPE—
4A是一个512—node特殊用途的机器,每个node带有一个
定制芯片。MDGRAPE - 4A 的 容量 尚未 报告 , 但 其 在
STMV ( 从 模拟 中 推断 出 的 性能 )of
~ 100 , 000 atoms ) [32] would be ~ 0.1 μ s/day 。 基 于
FPGA的专业硬件[33][34]已被设计用于MD,且报告了与
单个GPU的性能竞争。
安 东 2 是 全 原 子 MD 模 拟 的 艺 术 现 状 of
Biochemical 生物 化学Systems of up两 个三 个百万原子 .
它 典型 地 被 用于 对 100 个 Microseconds each 进行 模拟
( 虽然 有些 人 达到 了 几 个 千禧 年 ) , 并且 是 我们
药物 发现 和 生物 化学 的 基础研究 | OUR第 512 章安 东
Anton 2 Machines 的 ( With 每 个 node 单 点 定 制 芯 片
( Single Custom-Designed Chip Per Node ) Achieve 。
周 围 10μ s/day of Simulation on the 百 万 原 子 STMV
Benchmark 在 2013 年 的 一 份 报告 中 表示 , 一 项 超过
两 个 订单 规模 的 速度 超过 了 当时 最 快 的 通用 超级
计算机 可用 的 速度 , 并 超过 了 今天 的 顶级 超级 计算
机 。安 东 3 超级 计算机 described in this paperredefines 的
the State of the ART for解决 时间 Time to Solution AS well
作为 per-node throughput on MD simulation , 感谢 新 的
重要 创新design .
V.
I novations 的r危险
本 节 第 一 次 介绍 了 安 东 3 号 芯片 架构 的 概况 ,
而Then Details selected Innovations在subsections A-D 。
安 东 Anton3 何 为 designed from the Ground up 两 个
Reduce通过 最 大 化 并行 化 并 利用 不断 演变 的 硬件 技
术 来 解 决 问 题 的 时 间 。 Though it carries over a few
general design ( 很 少 有 普 通 设 计 ) 主 题 from 安 东
Anton 1而安 东 Anton 2 . 包括the use或 特 悬CHIPS 芯片
with AN综合 性3D torus Network( Fig. ) Anton 3 的 共同
设计 算法 , 硬件 和 软件 - 实际 设计 由 Anton 3 提供 ,
其 适配 器 的 细节 很少 。The Novel Design of the Anton 3
Chip supports many ( 安 东 3 号 芯片 的 创新 设计 )
NEW Molecular 分子Simulation能力而IS乐观 化解决 半 导
体 技术 中 的 两 个 关键 扩展 趋势 : 增加 高 性能 芯片
和 减少 通信 带宽 相对 于 计算 阈值 的 功率 需求 , 以及
增加 MD 的 有效 并行 化Application 。
As在Prior世代 ,the MD Application partitions the 3D 空
间of the chemical系统Into竞争 性BOXES而Assigns 他们两
个 Nodes So that Neighboring 邻 居 chemical 系 统 BOXES
reside on neighboring nodes in the torus 附近 的 节点 。2013
年04月21日@下午12时40分i + n =(Home Box因此,将这
些原子子集的位置发送到其他节点,以允许在不同盒子中
计 算 原 子 之 间 的 力 量 。 the 结 果 resulting 部 队 are Then
returned 相 关 两 个 Their 2.2.1 . subsequently integrates the
forces to update atom positions for the next time 下 一 次 更
新 原子 位置 的 力 。step .
有效 地 平行 化 MD 的 发展 , 以 维持 通信 和 写作
之间 的 平衡 ,communication Bandwidth 的IS Scaling 的
more慢 于 当前 半 导体 技术 中 的 计算 阈值 。 to Address
this挑战 ,the安 东 Anton 3 CHIP adopts a highly regular ,
tiled layout ( Fig. 3b ) that optimizes both communication .
采纳 了 一 个 非常 常规 的 , tiled 布局而Computation 。
the CHIP consists 意 见 primarily 初 of repeated 相 关 Core
Tiles
的 评论
而Edge Tiles
系列
。核心 Tiles Are Arranged In
Anarray of 12 ROWS By 24 columns 在 the Center of the 芯
片 ,并 包括 两 个 专门 的 管道 和 执行 MD 计算 的 通用
目的 处理 器 。Edge Tiles Flank the Core Tile array on the
left and right , managing communication between Core Tiles
and the inter-chip 3D ( 3D ) ( 边缘 Tiles Flank the Core
Tile 数组 在 左 和 右 , 管理 核心 票据 与 Inter-chip 3D 之
间 的 通 信 ) Torus Network ( 英 语 : Using Off-chip
High-Speed Serial Network Outboard ) of the Edge Tiles在
Fig. 3B ) 。 the CHIP contains 96 关闭 芯片 串行 通道
( 英 语 : Off chip serial lanes ) ( SERDES
transmit/receive pairs )at
29 Gbps in each direction , providing 5.6 Tbps of total
bandwidth ( each direction 中为 29 Gbps , 提 供 总 带 宽 5.6
Tbps)
Fig. 3c shows the components of the core tile in more
detail.图3c显示核心区的组件在更详细的地方.网络安全公
司(Core Router
系统
(1)将计算机块连接到2D通用网络
中的芯片。专用
公交 车 位置
而Force
客车
例如 , 原子 位
置 和 力 的 移动 , 并 从Pairwise Point Interaction Modules
( 双 点 交互 模块 )
PPIM : 包括 用于 计算 非 绑定 交
互 的 专用 管道( Subsection )b ) . NEW在安 东 Anton
3, A A特 悬Bond
计算 器
( BC ) handle computation of