高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

Information

2012/11/13

GPU計算を加速させるNVIDIA Tesla K20 & K20X

NVIDIA Tesla K20 & K20X




(A4サイズPDFファイル)

K20シリーズに搭載される新世代CUDAコア Kepler。Fermiアーキテクチャは2年前に導入され、並列処理の新たな基準になりました。近い将来に訪れるエクサスケールコンピューティングを展望し、電力効率を重視した設計のKeplerは、Fermiと比べワット当り性能が3倍と飛躍的に向上しました。Kepler GPUは、Fermi世代で培った技術と、そこで学んだ経験をもとに、アーキテクチャを全面的に見直すことで性能の向上を達成しています。また、幅広い開発者やアプリケーションに使える工夫もなされています。

SMX
Fermiと比較して、ワット当りのパフォーマンスが最大で3倍になり、1ペタフロップスものコンピューティング・パワーを発揮するスーパーコンピュータをわずか10ラック分のサーバで構築できるようになりました。SMXでは40nmから28nmへのプロセスのシュリンクで単純にコア数を増やすだけではなく、ハードウェアに大きく依存していたスレッドスケジューラの一部の機能をコンパイラに移管することにより、制御ロジックを大きく削減しました。また、内部動作周波数を半分に落とすと同時にパイプライン段数を減らすことでトランジスタ数と消費電力を削減し、全体として性能を向上させながらエネルギー効率の最適化を実現しています。それらの効果があいまって倍精度演算性能はFermiの2倍を達成し、DGEMMではFermiで約60%だった効率を約80%まで引き上げることに成功しました。

ダイナミック並列処理
この機能はGPUカーネル内から新しいカーネルスレッドを動的に生みだせるようにする技術で、データに応じた動的なスレッドプログラミングが可能となります。この機能があると、並列プログラミングがより簡単に行えるようになり、適応メッシュ制御、高速マルチポール法など、よく利用されるアルゴリズムにGPUアクセラレーションが普及するものと思われます。

Hyper-Q
Kepler GPUユニットに搭載されたCUDAアーキテクチャコアを複数のCPUコアから同時に利用できるようにする技術です。FermiではCPUとのコネクションが1本に限られていましたが、Keplerでは32本のコネクションまで同時に実現できます。その結果複数のCPUからカーネルが同時に呼び出された場合、その必要がなくともシリアライズされていたものが同時並行に実行されることになり、GPUの利用率が大幅に高まってCPUのアイドル時間が短縮されます。Hyper-Qは、MPIを使用するクラスタ・アプリケーション等に最適です。