如何建立一个GPU加速的研究计算集群(一)

世界上某些最快的计算机是集群组成的。集群是有多个计算机通过高速网络连接起来的一个计算系统。集群计算机比单台计算机可以达到更高的可用性,可靠性和伸缩性。随着对基于GPU的高性能计算采用越来越广,英伟达GPU逐渐成为世界上最厉害的超级计算集群的一部分。世界前500的超级计算机中,包括差不多50个采用了英伟达的的GPU,并且目前世界上最快的计算机泰坦,使用了大约18000个英伟达开普勒GPU。

在这个帖子中,我将会一步一步的介绍设计、部署和管理一个小型的GPU集群整个过程。我会介绍GPU集群的组成部分以及管理的软件技术堆栈。目标是使用一个最少的代价建立一个GPU集群。

构建一个小型研究的GPU计算集群的动机是多种多样的: 1.对生产系统的性能有一个感觉和预估。 2.将你的应用移植到GPU分布式计算上去。 3.调整GPU和CPU的平衡。 4.将集群作为一个开发平台 5.对一个小型的GPU集群是相对小的。

下图展示了建立一个小型GPU集群的步骤。 选择硬件-》确保空间和电源功率还有冷却-》组装-》管理节点安装-》计算节点安装-》管理监控-》运行程序 我们现在了解下这个过程的细节: 1. 选择硬件 选择正确的硬件共有两个步骤: 步骤一: a).节点硬件配置。这是集群节点的详细规格:每个节点包含下面的组件。 1.CPU 2.主板,该主板拥有两个PCIe x16 Gen2/3 接口。主要是为了teslaGPU.另外要有一个PCIex8的插槽,主要是为了其他的显卡的用的。 b).两个网卡插口 c).最少最少16-24G DDR3 RAM d).电源。应该能够扛得住CPU和GPU的消耗。 e).二级存储,固态硬盘或者是SATA。 GPU板子应该能够允许两个PCI插槽插入,所以确保这些插槽能够分开插下。 步骤二:选择正确的GPU。一旦你决定好了机器的配置,你应该也决定好了用哪个芯片的GPU。GPU的品牌是非常重要的。基于开普勒的英伟达特斯拉GPU有两个主要的品牌。 a). 特斯拉工作站产品(C系列) 是主动降温的GPU板子,你只用将他们插入到桌面计算机中就行了。它需要两个6针的电源或者一个8针的电源。 b).服务器产品(M系列)是被动降温的GPU板子,安装在单独的服务器上。

2.分配空间,电力和降温。 这一部分不再细说,主要是合理安排机箱和机架的空间。 3.组装物理硬件 ——————-未完待续…

,强者能同命运的风暴抗争。

如何建立一个GPU加速的研究计算集群(一)

相关文章:

你感兴趣的文章:

标签云: