2020/05/22
TECH Report は HPC テックスタッフからの情報発信です。
昨年、PCIe 用 NVIDIA TESLA V100s が販売開始となりました。
今回は PCIe 用 TESLA V100s と NVLink 用 TESLA V100 を使用し、GPU 複数枚に渡り計算を行った場合の PCIe と NVLink の違いを検証します。
PCIe用 V100s | NVLink用 V100 | |
Double-Precision Performance | 8.2 TFLOPS | 7.8 TFLOPS |
Single-Precision Performance | 16.4 TFLOPS | 15.7 TFLOPS |
Tensor Performance | 130 TFLOPS | 125 TFLOPS |
GPU Memory | 32GB HBM2 | |
Memory Bandwidth | 900 GB/sec | |
ECC | Yes | |
Interconnect Bandwidth | 32 GB/sec | 300 GB/sec |
System Interface | PCIe Gen3 | NVIDIA NVLink |
Max Power Consumption | 250 W | 300 W |
環境1 | 環境2 | |
GPU | PCIe 用 TESLA V100s x8 | NVLink 用 TESLA V100 x8 |
サーバ | HPCT R426gs-10GP | HPCT R426gs-8GN |
CPU | Intel Xeon Silver 4208 x2 | Intel Xeon Silver 4208 x2 |
メモリ | 786GB | 786GB |
ソフト ウェア |
Ubuntu18 | Ubuntu18 |
GPU マトリクス |
Tensorflow + resnet の組み合わせで実行した数値を使用枚数も合わせて比較します。
数値が高いほど1秒間あたりに多くのデータを処理する事が出来ています。
1枚動作時は単体での性能が勝る TESLA V100s の方が良い数値となりました。しかし、複数枚動作をさせる場合 PCIe 接続と NVLink 接続では GPU 間通信のルートに差があり、その違いがそのまま数値に現れる結果となりました。
複数枚に渡る計算を行う場合は NVLink 用 TESLA V100を使用した方がより効率的に GPU を使用する事が出来るようです。
今回使用した GPU です。
PCIe用 NVIDIA TESLA V100s
NVLink用 NVIDIA TESLA V100
今回使用したサーバです。
HPCT R426gs-10GP (PCIe用サーバ)
HPCT R426gs-8GN (NVLink用サーバ)
製品の詳しいお問い合わせはこちらから
HPC TECH Engineer : Fujimoto