2016/03/10
NVIDIA TESLA K80 を2基搭載した “GPU TEST DRIVE Trial 2号機” を使用して
分子動力学シミュレータ lammps での計算時間を調査しました。
ソフト
分子動力学シミュレータ lammps
計算内容
Born-Mayer-Huggins型ポテンシャルを100ステップ計算するのに要する時間を調査
http://lammps.sandia.gov/doc/pair_born.html
原子数
30,000
60,000
120,000
400,000
800,000
ハードウェアスペック - GPU TEST DRIVE Trial 2号機 〔HPCT W220gs〕
GPU:NVIDIA TESLA K80 x2
CPU:Intel Xeon E5-2640v3 x2
(8Core, 2.60GHz, 20M Cache, TDP 90W)
RAM:DDR4-2133 ECC REG 128GB(16GB×8)
VGA:NVIDIA Geforce GT740(Onboard Off)
HDD:1TB
O S:CentOS 6.6 x86_64
CUDA Toolkit 7.5 & 7.0
HPCT W220gs
https://archive-lib.hpctech.co.jp/gpuproduct/hpct-w220gs.html
TESLA K80を使用することで、TESLA K40の約4割スピードアップすることを確認しました。また、Born-Mayer-Huggins型ポテンシャルの長距離相互作用の計算における高速フーリエ変換に対しては、GPUは並列性能が悪い結果となりました。
各グラフは原子数ごとに分けており、縦軸には計算時間を、横軸にはCPU、GPUの並列数を表します。
グラフ
▲クリックすると拡大します。
▲クリックすると拡大します。
TESLA K40との比較
原子間ポテンシャルの計算時間 (pair) で比較すると、TESLA K80 デュアルGPUの半分しか使わない場合はTESLA K40よりも遅くなりますが、デュアルGPUをそのまま2つ使えば TESLA K40よりも約4割スピードアップしました。また、長距離相互作用の計算時間 (kspace)では、TESLA K80において使用するGPUを増やすと却って計算時間が増加しました。CPU計算はスケーリングしており、GPU特有の問題と推測されます。
lammps に対して GPU計算は相性が良く、CPUよりも圧倒的に速い事が確認できました。また、TESLA K80 を使用すると TESLA K40 よりも 約4割スピードアップ し、最新機の能力向上を確認できました。