2014/01/22
最新GPGPU搭載高速計算機を導入頂きました。
遠藤研究室は2013年4月に開設した研究室です。高性能計算のためのソフトウェアの研究を、東工大学術国際情報センターで運用中のTSUBAME2.5スパコンなどを用い行っています。 研究成果の一部は実際にTSUBAMEの設計・運用にもフィードバックされます。
●大規模GPGPUコンピューティング
●メモリ階層活用並列アルゴリズム
●超省電力高性能計算のためのソフトウェア・ハードウェア・冷却技術
研究室ホームページ
http://www.el.gsic.titech.ac.jp/
2013年11月17~22日に米国Denverで行われた国際会議Super Computing Conference 13 (以下SC13)に、学術国際情報センターとしてブースを出展し、遠藤もブース運営・展示などに参加しました。TSUBAME2.5スパコンやそれを用いたシミュレーションの内容、また省電力に特化した小型スパコンTSUBAME-KFCに関する発表を行いました。
TSUBAME-KFCは「油浸冷却」という先進的な冷却方法を採用しており、1200リットルの「油の風呂桶」の中に計算機が沈んでいます。そしてSC13で発表された、省エネスパコンランキングにて
Green500およびGreenGraph500にて、TSUBAME-KFCは“省エネ世界一を獲得することができました。
TSUBAME-KFCの実現のためには先進的な冷却技術が必要であり、「油の風呂桶」型ラックがまず注目されます。しかしそれだけではありません。多数GPUアクセラレータを効率的に用いるソフトウェア技術や、GPUメモリとCPUメモリ、さらには計算内容によっては近年注目されているFlashメモリまでも含めたメモリ階層を効率的に用いるソフトウェア技術が必要です。
スパコン規模のシステムを実現する前段階においては、そのような技術実証のために先進的なアクセラレータやFlashメモリデバイスを早期に導入・評価する必要があります。
上述のように、私たちの研究では最新のHPCテクノロジーを一早く取り入れ、そのデバイスの特性も含めた調査研究が重要となります。GTC 2013(US,Japan)や SC12/13で発表されたデバイスの導入を早期に行いたいと考えていましたのでGPGPU搭載高速計算機を導入致しました。
【1】GPGPU搭載サーバ
SC13で発表されたばかりのNVIDIA社製の高性能GPU Tesla K40を搭載した計算機を導入しました。計算機本体にはIntel IvyBridge世代 8 コアCPUを 2個 16コア(並列)や64GBメモリが搭載され、CPU/GPUともPCI Express Gen3.0に対応しています。これまで主に使用していたのはTesla K20およびK20X (PCI Express Gen 2.0)であり、以前導入した研究室サーバやTSUBAME-KFC, TSUBAME2.5に搭載されています。K40はK20/K20Xと高い互換性を持ちつつも、12GBの大規模ビデオメモリや、PCI Express Gen3.0対応という特徴を持ちます。
これらの特徴は、我々の研究するメモリ階層活用並列アルゴリズムに大きく影響します。我々の研究では、天気予報や構造計算のような計算を、GPGPUの高速コア・高速ビデオメモリを活用しつつも、CPU側のメモリ容量(たとえばノードあたり64GB)を活用することをねらいとしています。そのためにはCPUとGPUを接続する通信路であるPCI Expressバスの高性能化はどうしても必要となります。また、ビデオメモリの大規模化についても、我々のアルゴリズムの必要性が無くなるということではなく、むしろアルゴリズムチューニングの可能性が広がったと捉えており、現在性能評価の最中です。
特に、今回HPCテック社より提案された計算機は、
●上記のような最新GPUを早期に搭載する。
●今後の拡張性に優れている。
●サイズが2Uとコンパクトである。
という優れた特徴がありました。
【2】ioDrive2
さらにFusion I0社のioDrive2(1.2TB)を導入し、既設の研究室のサーバに搭載しました。これによりハードディスクでは不可能な、アルゴリズム拡張の研究が可能となります。古典的なハードディスクは、アクセスバンド幅はせいぜい100MB/s以下、レイテンシは10ミリ秒以上と、メモリ階層の延長として用いるには大きく性能が不足していました。OSによるページング・スワッピング技術が、高性能計算業界ではほとんど顧みられることが無かったのもこのためです。Flashメモリを搭載したSSDにより、この状況は大きく改善され、数百MB/sのアクセスが可能になりましたが、それでも依然としてSATAなどの通信路によって性能が抑制されていました。
それらに対し1GB/s以上の性能を実現するために、PCI-Expressバスに直接接続するタイプのFlashデバイスが近年登場しており、ioDrive2は代表的な最新デバイスです。これを利用することにより、メインメモリにすら入りきらない規模の高性能計算が現実的なものになります。我々の研究しているメモリ階層活用並列アルゴリズムと、ioDrive2の持つ1GB/s超のRead/writeバンド幅・1TB超の大容量を組み合わせて、先進的な大規模高性能計算を実現とする研究を推進しています。
HPCは世界の最先端のテクノロジーが集約するところであり、我々も世界最先端の大学や研究機関と凌ぎを削っていかねばなりません。これからも最新のマルチコアプロセッサ・アクセラレータ(GPUやMICなど)・Flashメモリ・インターコネクトなどのテクノロジーを取り入れながら、新しい高性能ソフトウェア技術の開発に取り組んでいきたいと考えております。