NVIDIA® T4 Tensor Core GPUs は、ディープラーニング用に最適化された CUDA コア「Tensorコア」を搭載した最新の推論処理用アクセラレータです。2560 CUDAコアと、1クロックで 4×4 行列の積和演算を行なう 320 Tensor コアを搭載しており、FP16 の掛け算 FP32に積算、INT8 および INT4 の掛け算は INT32 に積算され、高スループットかつ低遅延に処理できます。
NVIDIA T4 は、AI 推論のための多精度コンピューティングで画期的な Turing Tensor コア テクノロジを導入しました。FP32 から FP16、INT8、さらに INT4 精度で画期的性能を備えた T4 は、CPU の最大 40 倍のパフォーマンスを発揮します。
対話型 AI、レコメンダー システム、画像検索などのサービスのユーザー エンゲージメントには応答性が重要です。モデルの精度と複雑さが増すにつれ、正解を即座に提供するには飛躍的に膨大な計算能力が必要になります。NVIDIA T4 は、40 倍に向上した低レイテンシ スループットにより、より少数の GPU 対応サーバーでより多くのリクエストにリアルタイムで対応できます。
オンラインのビデオの数が飛躍的に増えるにつれて、ビデオを効率的に検索し、知見を引き出すソリューションの需要も同様に増えています。NVIDIA T4 は、旧世代 GPU の 2 倍のデコーディング パフォーマンスを実現する専用のハードウェア コード変換エンジンを使用して AI ビデオ アプリケーションのために画期的なパフォーマンスを提供します。T4 は最大 38 のフル HD ビデオ ストリームをデコードできるため、スケーラブルなディープラーニングをこのビデオ パイプラインに容易に統合でき、革新的かつスマートなビデオ サービスを実現します。
NVIDIA T4 |
TESLA P4 |
|
Architecture | Turing | Pascal |
GPCs | 5 | 4 |
TPCs | 20 | |
SMs | 40 | 20 |
CUDA Cores/SM | 64 | 128 |
CUDA Cores/GPU | 2560 | 2560 |
Tensor Cores/SM | 8 | NA |
Tensor Cores/GPU | 320 | NA |
RT Cores | 40 | NA |
GPU Base Clock MHz | 660 | 810 |
GPU Boost Clock MHz | 1590 | 1063 |
Peak FP32 TFLOPS | 8.1 | 5.5 |
Peak INT32 TIPS | 8.1 | NA |
Peak FP16 TFLOPS | 16.2 | NA |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 65 | NA |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 65 | NA |
Peak INT8 Tensor TOPS | 130 | 22 |
Peak INT4 Tensor TOPS | 260 | NA |
Frame Buffer Memory Size and Type |
16384 MB GDDR6 | 8192 MB GDDR5X |
Memory Interface | 256-bit | |
Memory Clock (Data Rate) | 10 Gbps | 6 Gbps |
Memory Bandwidth (GB/sec) | 320 | 192 |
ROPs | 64 | |
TDP | 70 W | 75 W |