高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

GPU Solution:NVIDIA GPU

Ampere アーキテクチャ採用 AI 推論・HPC 用アクセラレータ

 NVIDIA A30® は NVIDIA Ampere アーキテクチャの Tensor コアとマルチインスタンス GPU (MIG) で、大規模な AI 推論やハイパフォーマンスコンピューティング (HPC) アプリケーションといった多様なワークロードを安全に高速化します。
 A30 搭載サーバは強力な演算能力や HBM2 大容量メモリ、毎秒 933 GB のメモリ帯域幅、NVLink によるスケーラビリティをもたらします。 NVIDIA InfiniBand、NVIDIA Magnum IO、RAPIDS オーブンソースライブラリスイート (RAPIDS Accelerator for Apache Spark を含む) との組み合わせにより、NVIDIA データセンタープラットフォームは、かつてないレベルのパフォーマンスと効率で、巨大なワークロードに対応します。

 

 

 

 

― ディープラーニング トレーニング

 NVIDIA A30 Tensor コア と Tensor Float (TF32) を利用することで、NVIDIA T4 と比較して最大 10倍のパフォーマンスをコード変更することなく得られます。さらに、Automatic Mixed Precision と FP16 の活用で 2倍の高速化が可能になり、スループットは合わせて 20倍に増えます。
 NVIDIA NVLink、PCIe Gen4、NVIDIA Mellanox ネットワーキング、 NVIDIA Magnum IO SDK と組み合わせることで、数千の GPU までスケールできます。
 Tensor コアと MIG により、A30 はいつでも柔軟にワークロードを処理できます。要求がピークのときには本稼働で推論に使用し、オフピーク時には一部の GPU を転用して同じモデルを高速で再トレーニングできます。

 

 AI トレーニング — V100 の 3倍、T4 の 6倍のスループット

 BERT Large ファインチューニング、収束までの時間

 

 

― ディープラーニング 推論

 NVIDIA A30 には、推論ワークロードを最適化する画期的な機能が導入されています。FP64 から TF32 や INT4 まで、あらゆる精度を加速します。GPU あたり最大 4つの MIG をサポートする NVIDIA A30 では、安全なハードウェアパーティションで複数のネットワークを同時に運用でき、サービス品質 (QoS) が保証されます。また、スパース構造により数々の推論パフォーマンスの向上に加え、最大 2倍のパフォーマンスがもたらされます。

 

 AI 推論 - リアルタイム対話型 AI で V100 と比較してスループットが最大 3倍

 BERT Large 推論 (正規化済み)

 レイテンシ 10ms 未満でのスループット

 

 AI トレーニング— V100 の 3倍、T4 の 6倍のスループット

 BRN50 v1.5推論 (正規化)

 7ms 以下のレイテンシでのスループット

 

 

― ハイパフォーマンス コンピューティング

 NVIDIA A30 は FP64 の NVIDIA Ampere アーキテクチャ Tensor コアを備えています。帯域幅が毎秒 933GB/s の GPU メモリ 24GB との組み合わせにより、倍精度計算を短時間で解決できます。HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットを上げることができます。
 FP64 Tensor コアと MIG の組み合わせにより、研究機関は GPU を安全に分割して複数の研究者がコンピューティングリソースを利用できるようにし、QoS を保証し GPU 使用率を最大限まで高めることができます。AI を展開している企業は要求のピーク時に NVIDIA A30 を推論に利用し、オフピーク時には同じコンピューティングサーバを HPC や AI トレーニングのワークロードに転用できます。

 

 HPC — V100 と比較して最大 1.1 倍、T4 と比較して 8 倍のスループット

 LAMMPS (正規化済み)

 

 

― NVIDIA A30 datasheet

 

 

 

 

 

製品仕様

A30 / A100 仕様比較

A30 A100-PCIe
FP64 5.2 teraFLOPS 9.7 teraFLOPS
FP64 Tensor コア 10.3 teraFLOPS 19.5 teraFLOPS
FP32

10.3 teraFLOPS

19.5 TFLOPS
TF32 Tensor コア 82 teraFLOPS |
165 teraFLOPS*
156 teraFLOPS |
312 teraFLOPS*
BFLOAT16 Tensor コア 165 teraFLOPS |
330 teraFLOPS*
312 teraFLOPS |
624 teraFLOPS*
FP16 Tensor コア 165 teraFLOPS |
330 teraFLOPS*
312 teraFLOPS |
624 teraFLOPS*
INT8 Tensor コア 330 TOPS |
661 TOPS*
624 TOPS |
1,248TOPS*
INT4 Tensor コア 661 TOPS |
1321 TOPS*
1,248 TOPS |
2,496 TOPS*
メディア エンジン 1 optical flow accelerator
 (OFA)
1 JPEG デコーダー (NVJPEG)
4 ビデオ デコーダー (NVDEC)
1 optical flow accelerator
 (OFA)
5 JPEG デコーダー (NVJPEG)
5 ビデオ デコーダー (NVDEC)
GPU メモリ 24GB HBM2 40GB HBM2
GPU メモリ帯域幅 933GB/s 1,555GB/s
相互接続 PCIe Gen4: 64GB/s
NVIDIA NVLINK: 200 GB/s**
PCIe Gen4: 64GB/s
NVIDIA NVLink 600 GB/s**
フォーム ファクター Dual-slot, full-height,
full-length (FHFL)
Dual-slot, full-height,
full-length (FHFL)
最大熱設計電力
(TDP)
165W 250W
マルチインスタンス GPU
(MIG)
6GBのGPUインスタンスが4つ
12GBのGPUインスタンスが2つ
24GBのGPUインスタンスが1つ
5GBのGPUインスタンスが7つ
10GBのGPUインスタンスが4つ
20GBのGPUインスタンスが2つ
40GBのGPUインスタンスが1つ

* With sparsity
** NVLink Bridge for up to two GPUs

弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、
すべてのセットアップをおこなっております。

お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。

各種カスタマイズ・詳細なお見積はこちらからお問い合わせください。

製品案内