株式会社HPCテック | HPCT Mini-POD Series

GPU Solution：DEEP LEARNING

MiniPOD - AI INTEGRATED SOLUTION

HPCT Mini-POD Series

お問い合わせ

DEEP LEARNING

　AI や HPC といった大規模なワークロードは日々発生し、処理され、新しい発見があり、また新たなワークロードが生まれています。この増え続ける多様なワークロードの解決に、ワークステーションやアクセラレータを組み込んだサーバ、あるいはスーパーコンピュータ等が活躍しています。

　今日ではアクセラレータを使う事で性能を補う事が一般になり、有名なところでは、NVIDIA 社の GPU を搭載した DGX シリーズや、その DGX シリーズを組み込んだクラウドネイティブなスーパーコンピュータである DGX SuperPOD、そしてその技術を応用した計算機が数多くあります。とはいえ、いくら世の中に大規模なシステムがあっても結局は色々な理由で利用が出来なかったり、逆に大規模すぎて手に余ったりもします。

例えば

▶「もう遅いマシンは使いたくない。」でも外部アクセスが禁止されていたり
　データの外部持ち出しが禁止されている。

▶「一気にすべての環境をそろえて大規模に！」とは考えても予算が…。

▶どうせ買うなら、今後の設備投資を考慮に入れて将来的にも使えてスケール
　しやすい形にしたい。想像つかんけど…。

▶増設しても使い勝手は変わらずに同じ感覚で高性能なシステムを使いたい。
　というか毎度覚えなおすのが面倒くさい。

このような悩みは尽きないものです。

　そこで HPC テックは GPU サーバを中心としつつ、管理サーバやストレージサーバをひとつにまとめた、言わば
「Mini-POD」をシステム化してみました。
　ラックに、ログインノード、ストレージノード、GPU ノード、ネットワーク、をまとめ、システム管理に Bright Cluster Manager を利用することでスケールアウトにも柔軟に対応できます。

　Mini-POD はなるべく柔軟なシステムを目指し、基本セットは変わらずに今のワークロードや予算と相談して、スタートをどこのランクからでも始められるようになっています。また昨今では入手が困難な Infiniband スイッチの他に 100GEthernet スイッチも選べます。ラックについても通常のオープンラックの他に静音ラックモデルも用意しました。

Mini-POD ランク別仕様例

	ベーシックセット	4GPU x3 セット	8GPU x2 セット	DGX-A100 セット
型式	HPCT Mini-POD Series
Manage Node	HPCT RS1X31
Manage System	Bright Cluster Manager
Network	10G Ethernet & 100G Ethernet or InfiniBand
Interconnect	100G Ethernet or InfiniBand
I/O Throughput	5GB/s	10GB/s
GPU Server	HPCT WRSX32-4GP x1	HPCT WRSX32-4GP x3	HPCT RS4E32-8GP x2	NVIDIA DGX A100 x1
Max GPUs	PCIe 4 GPU	PCIe 12 GPU	PCIe 16 GPU	SXM 8 GPU
FLASH Storage	HPCT SG2E32-GRAID
HDD Stoarage	-	HPCT SS4X32-24B	Seagate Exos X 5U84
HDD Storage Bay	-	24	42	84
Racks	HPCT YSR シリーズ
Rack Size	700 (W) x 1200 (D) x 1550 (H)
UPS	APC RM3000 2U
PDU	L6-30 x1	L6-30 x2
L6-20変更	〇	〇	-	-
電源系統	100V 30A ｘ1 200V 30A ｘ1	100V 30A x 1, 200V 30A ｘ2
必要電力	3440W	7340W	8660W	9340W
合計荷重	300Kg	450Kg	500Kg	500Kg

Mini-POD 構成説明

Manage Node

管理ノードとして HPCT RS1X31 をご提案例その１にしました。

SATA SSD をハードウェア RAID で束ね、高速な読み書きが必要な場合は NVMe に変更できます。

HPCT RS1X31
https://archive-lib.hpctech.co.jp/hardware/hpct-rs1x31_edit.html

例：7.68TB SSD x10, スペア 2, RAID6
　　実効容量 46.08TB

Manage System

クラスタ管理ツールに Bright Cluster Manager を提案します。
NVIDIA 社ではメインに使われるなど運用や管理を用意にするマネジメントツールです。
ジョブスケジューリングには、すでに多くのシステムで広く使われている Slurm を採用しています。

Bright Cluster Manager
https://archive-lib.hpctech.co.jp/hardware/bright-for-hpc.html

Network - Interconnect

速度と高性能を求めるなら InfiniBand 一択です。
Mini-POD は GPU 性能を最大化するため、内部ネットワークに高スループット、低レイテンシの Infiniband を利用することができます。
Infiniband は RDMA 通信の他に NVMe over Fabric が使え、ストレージが不足しがちな GPU ノードが外部にある高速な NVMe ボリュームにリモートアクセスする事を可能とします。

NVIDIA Networking Solutions
https://www.nvidia.com/ja-jp/networking/

GPU Server

ハイエンド GPU を 4基～ 8基搭載できるサーバを選択できます。
　・GPU 最大 4基搭載 - HPCT WRSX32-4GP
　・GPU 最大 8基搭載 - HPCT RS4E32-8GP
　・NVIDIA DGX A100

HPCT WRSX32-4GP
https://archive-lib.hpctech.co.jp/gpuproduct/hpct-wrsx32-4gp.html

HPCT RS4E32-8GP
https://archive-lib.hpctech.co.jp/gpuproduct/hpct-rs4e32-8gp.html

NVIDIA DGX A100
https://archive-lib.hpctech.co.jp/gpuproduct/nvidia-dgx-a100.html

FLASH Storage

NVMe SSD 対応ハードウエア RAIDの限界を超え、リードライト性能をより高く求めた製品です。

ネットワークストレージ性能

NVMeOF	IOPS	BW
Sequential READ	11.5k	12.1GB
Sequential Write	9.9k	10.4GB
4K Random Read	2059k	8042MiB
4K Random Write	602k	2351MiB

HPCT SG2E32-GRAID
https://archive-lib.hpctech.co.jp/hardware/hpct-sg2e32-graid.html

HDD Stoarage

HDD メーカーが考えたサーバ Seagate Exos X シリーズを選定しました。
最大84台のディスクを搭載でき、最大容量は 20TB HDD を使用で 1.68TB となります。
再構築の高速化や緊急対応が減る機能があり、電力的にも他社よりも省電力です。

Seagate Exos X 5U84
https://archive-lib.hpctech.co.jp/hardware/seagate-exos-x-5u84.html

Server Rack

大学や研究所でサーバルームが無くとも設置し通常運用ができるよう静音ラックを選定しました。
増えるサーバを考え、U数や冷却性を計算し可能な限り搭載できるサーバラックです。

HPCT YSR Series
https://archive-lib.hpctech.co.jp/hardware/hpct-ysr-series.html