第
37
卷第
6
期
2010
年
6
月
计算机科学
Co
mputer
Science
Vo
l.
37
No.6
June
2010
多核机群下基于神经网络的
MPI
运行时参数优化
王洁1,
2
,
4
曾字
3
张建林
1
(首都师范大学信息工程学院
北京
100048)1
(中国科学院计算技术研究所
(北京计算中心
北京
100005)3
北京
100090)2
(奥地利因斯布鲁克大学分布式与并行计算研究实验室
因斯布鲁克
6020)4
摘 要
多核处理器的新特性给孔1P
I
应用带来了新的优化空间,其中调优孔1P
I
运行时参数被证明是优化
MPI
应用
的有效方法。然而最优的运行时参数不仅与多核机群的体系结构有关,也决定于孔1P
I
应用的程序特征。提出并分析
了一种在给定多核机群下基于人工神经网络的优化模型,用于自动为未知的
MPI
程序预测接近最优的运行时参数。
两个不同基准的实验证明了本方法的有效性。实验证明,基于本方法得到的运行时参数所产生的加速比平均达到了
实际最大加速比的
95%
以上。
关键词
多核机群,
MPI
,运行时参数优化,神经网络
中固法分类号
TP393.09
文献标识码
A
MPI
Runtime
Parameters
Tuniog
ßased
00
Neural
Network
00
Multi-core
Clusters
WANG
Jie
1
.
2
.
4
ZENG
Yu
3
ZHANG
Jian-lin
1
C
Co
llege
of
Information Engineering,
Ca
pital Normal University,
Beijing
100048
, China) 1
CInstitute
of
Co
mputing Technology,Chinese Academy
of
Sc
iences,Be
ijing
100090
,China)2
C
Be
ijing
Co
mputing
Ce
nter,
Be
ijing
100005
, China) 3
CUniversity
of
Innsbruck Distributed
and
Parallel Systems Group. Innsbruck
6020
, Austria)
4
Abstract
The
new
features of multi-core add
the
optimization space
for
MPI
applications,and besides
tuning
扎伊
1
runti-
me
parameters
is a common practice perceived
to
optimize
the
MPI
application performanc
e.
However
,
the
best
configu-
ration
of
the
runtime
parameters
not
only depends
on
the
underlying
architecture
of
a specific multi-core
cluster
but
also
on
the
features
of
孔。
1
applicatio
n.
We
constructed
and analyzed
an
effective tuning model
bases
on
artificial neural
net
咱
work
to
automatically predict
the
near-optimal configuration of
runtime
parameters
for
any
unseen
input
programs
under
the
current
multi-core cluster.
Experimental
results
from
two
different
benchmarks
were
presented
to
show
effectiveness
of
our
approach.
We
observed
that
the
speedup gained
by
the
predicted
runtime
parameters
can averagely achieve 95 %
of
the
speedup
gained
by
the
best
parameters
configuratio
n.
Keywords
Multi-core
clusters
,
MPI
,
Runtime
parameters
tuning,
Neural
network
1
引言
多核技术指将两个或多个处理内核集成到一个处理器芯
片当中,并通过将负载分配到多核上来加速应用的处理性能。
随着多核技术以及现代网络技术的发展,越来越多的机群采
用多核处理器作为核心部件,基于多核技术的机群已经成为
高性能计算领域的主流平台
[1]
。截至
2009
年
6
月,排名世界
Top500
的超级计算机中,约
87%
采用了
Intel
和
A
鸟在
D
的多
核芯片,并且约
82%
的超级计算机采用了机群结构[习。消息
传递接口
(MPI
,
Message
Passing
Interface)
是机群下最常用
的并行编程模型,广泛应用于分布式以及共享内存系统。随
着多核技术更加广泛地应用于机群,多核机群下
MPI
应用的
性能优化成为了研究的热点。
目前主流的
MPI
库实现
(Open
MPI
,
MPICH
等)提供了
可调的运行时参数机制,允许用户根据特定的应用需求、硬件
以及操作系统来调优运行时参数,以提升
MPI
应用的性能。
例如,可以根据通讯消息的大小来修改点到点通讯采用的协
议,即修改
MPI
库中由立即通讯协议
(Eager)
转为集中通讯
协议
(Rendezvous)
的阙值参数。可调的运行时参数对多核机
群下
MPI
应用的性能有着重要的影响,但最优的运行时参数
极大程度上依赖于多核机群的存储层次(包括节点内二级或
三级缓存的共享方式等)、机群的网络互联方式(包括
Infini
band
网络、千兆以太网和
Myrinet
网络等)、机群的通讯性能
(包括内存和网络的通讯延迟与带宽)、机群内
MPI
应用的通
讯层次(包括
Chip
内、
Chip
间以及节点内通讯)等因素。
图
1
显示了在多核机群下
5
个运行时参数的不同配置组
到稿日期
32009-07-14
返修日期:
2009-10-23
本文受奥地利蒂罗尔州未来基金会基金
CP7030-015-024)
资助。
王洁(1
977
一)
.女,博士生,讲师,主要研究方向为并行计算、机器学习、数据挖掘等
.E-mail:
wangjie@nci
c.
ac.cn;
曾
字(1
973
一)
.男,博士,
高工,主要研究方向为高性能计算机、体系结构等$张建林(1
966-)
,男,硕士,副教授,主要研究方向为数据挖掘、信息管理等。
•
229
•