NVIDIA® V100 Tensor Core GPUs は、前世代 Pascal アーキテクチャを採用した TESLA P100 を超えた世界最先端の GPU アクセラレータです。メモリは 従来の 16GB 搭載版と新たに 32GB 搭載版が追加されました。
最新の GPU アーキテクチャである Volta を採用した NVIDIA V100 は、単一の GPU で CPU 100 個分のパフォーマンスを実現し、データサイエンティスト、研究者、エンジニアがかつては不可能だった課題に取り組むことを可能にします。
NVIDIA V100 は半導体からソフトウェアまで新しい発想で構成され、随所に革新的な技術を使用しています。それぞれの先駆的テクノロジがパフォーマンスの劇的な飛躍をもたらします。
CUDA コアと Tensor コアの組み合わせにより、NVIDIA V100 搭載サーバーの性能は HPC やディープラーニング用途で 100 台のコモディティ CPU サーバーに匹敵します。
|
新たな 640 個の Tensor コアにより、TESLA V100 は 120 Tensor TeraFLOPS のディープラーニング性能を発揮。これは、NVIDIA Pascal 世代 GPU との比較で学習が 12 倍、推論は 6 倍のパフォーマンスです。 |
NVIDIA V100 の NVIDIA NVLink は前世代比で 2 倍のスループットを提供します。8 基までの NVIDIA V100 を最大 300GB/s で接続することで、単一サーバー上での最高性能を発揮できます。 |
新たな「最大効率モード」によりデータセンターの電源容量はそのままに、ラックあたり計算性能を最大 40% 向上させられます。このモードの NVIDIA V100 は最大性能の 80% を、最大消費電力の半分で実現します。 |
900GB/s に向上した帯域幅と 95% 向上した DRAM 効率により、NVIDIA V100 は STREAM 計測で Pascal GPU 比 1.5 倍のメモリ帯域幅を記録しています。
|
NVIDIA V100 はプログラムをシンプルにするために設計されました。新しい独立したスレッドスケジューリングにより同期の粒度を細かく設定可能で、小さなジョブを複数同時に処理する効率を高められます。
|
NVIDIA V100-PCle |
NVIDIA V100-SXM2 |
|
GPU Architecture | NVIDIA Volta | |
NVIDIA Tensor Cores | 640 | |
NVIDIA CUDA Cores | 5,120 | |
Double-Precision Performance | 7 TFLOPS | 7.8 TFLOPS |
Single-Precision Performance | 14 TFLOPS | 15.7 TFLOPS |
Tensor Performance | 112 TFLOPS | 125 TFLOPS |
GPU Memory | 16 GB HBM2 / 32 GB HBM2 | |
Memory Bandwidth | 900 GB/sec | |
ECC | Yes | |
Interconnect Bandwidth |
32 GB/sec | 300 GB/sec |
System Interface | PCIe Gen3 | NVIDIA NVLink |
Form Factor |
PCIe Full Height/ Length |
SXM2 |
Max Power Comsumption | 250 W | 300 W |
Thermal Solution | Passive | |
Compute APIs | CUDA, DirectCompute, OpenCL, OpenACC |