Slurm は、クラスタシステムのためのジョブ・スケジューリング・システムです。高機能、高性能で世界中のスーパーコンピューターや HPC クラスタが導入しています。近年の AI や ゲノム解析等で使用する GPU を含む大規模ヘテロジニアスな環境の利用にも有効です。もちろんクラスタだけでなく1台のワークステーションから利用が可能で、商用の CAE アプリケーションでも採用されている例があります。
Slurm は大まかに以下の3つの機能を提供しています。
・計算を実行するユーザに対してリソース(コンピューターノード)への排他的、
非排他的なアクセスを割り当てる機能。
・割り当てられたノード上でのジョブの開始、実行、モニタリング
(MPI などの並列ジョブでよく使用される)を行う機能。
・待機中のジョブキューを管理することで、リソースの競合を解決する機能。
Slurm の特徴的な機能としては、以下のような点が挙げられます。
・高機能、高性能なスケジューラでありながらフリーでオープンソースの
ソフトウェア( GPL V2 )
・バックアップデーモンを持ち、耐障害性のあるジョブオプションが設定が可能
・1秒間に最大で 1,000 ジョブのキュー登録と、600 ジョブジョブ実行が可能
・ギャングスケジューリングの設定が可能
・アカウント設定とデータベースを統合してフェアな共有スケジューリングが可能
・ネットワーク構成とノード構成に最適化したリソースの割り当てが可能
・GPU リソースのスケジューリングが可能
昨今では AI や ゲノム解析等での GPU を使った計算処理を必要とする事例が多くなりました。Slurm は GPU サーバでの GPU リソーススケジューリングを提供し計算機資源を有効に使う事ができます。
HPC テック・セットアップサービスにて Slurm の設定サービスを行っております。
お気軽にお問い合わせください。
その他のセットアップサービスはこちらよりご覧ください
Bright Computing 社のクラスタ管理ソフトを使うと自動的にインストールすることができ、事前に設定されているので時間や手間を無駄にすることはありません。
Link:https://slurm.schedmd.com/