2020/05/26
TECH Report は HPC テックスタッフからの情報発信です。
4月から在宅勤務が続き会社からすっかり通ざかってしまった。今はお客様とメールでのやり取りが多い。こんな時期なので毎日何気なく見たり・聞いたり・触ったり・紹介したりしているメインメモリについて今更ながら考えてみた。済みませんが小生はエンジニアではないので技術的に深い分析が足りない事を予めご了承願いたい。
メモリとは、データを記憶する部品のことです。英語で memory とは記憶を意味します。メモリは、大きく分けてと読み書き両方できる RAM(ラム)と読み出し専用の ROM(ロム)がありますが、一般的にメモリという時は、RAM であるメインメモリのことを指します。スマートフォンやタブレットでは、単に RAM といいます。データやプログラムを 一時的に記憶する部品で、コンピュータでは 主記憶を担当します。分かりやすく例えると机や作業台です。何かの課題に取り組んでいるとします。書類や辞書を並べたり、筆記用具をおいたり、参考書を開いたりします。机の上が広ければ広いほど作業はしやすくはかどります。それと大変似ています。メインメモリもパソコンを使っているときや何かのプログラムを開くときに、作業台のように利用されます。そのためメモリの容量は、パソコンの動作速度に影響を及ぼします。
タイプで分けると以下の2種類(メモリクロック・スピードで分けた)
(1) DDR4 un buffered Memory ECC & non ECC (2666MHz,2933MHz,3200Mhz)
(2) DDR4 buffered Memory REG ECC & LR DIMM ECC (2666MHz,2933MHz,3200Mhz)
DDR4 REG ECC 32GB Dual Rank 2933MHz
1枚の容量で分けると以下の5種類
8GB / 16GB / 32GB / 64GB / 128GB
メモリの規格は、半導体標準化団体 JEDEC により規格化されています。
レジスタバッファ
レジスタバッファが備えられていると、メモリのクロックがレジスタバッファに格納されタイミング
が同期されます。
メモリクロックと信号のタイミングが同期されるため、安定したアクセスができます。
ECC (エラー訂正機能)
エラー訂正機能が備えられていると、メモリ内のデータが誤っていた場合でもエラー訂正ができます。
エラー訂正によりメモリの信頼度が高まります。
機能表
レジスタバッファと ECC は独立した機能のため、それぞれの有り無しのメモリがあります。
機能のありなしによる違い | ||
レジスタバッファ:あり | レジスタバッファ:なし | |
ECC (エラー訂正機能):あり |
ECC Registered DIMM | ECC (ECC Unbuffered DIMM) |
ECC (エラー訂正機能):なし |
Registered DIMM | Unbuffered DIMM |
補足1
レジスタバッファのみが搭載されたメモリはほとんど存在しません。レジスタバッファが搭載
されているメモリは、ほぼ ECC を搭載しています。
補足2
Unbuffered DIMM は “UDIMM” とも呼ばれます。
Registered DIMM は “RDIMM” とも呼ばれます。
Registered DIMM は “Buffered DIMM” とも呼ばれます。
タイプで分けると以下の2種類(メモリクロック・スピードで分けた)
(1) DDR4 un buffered Memory ECC & non ECC (2666MHz,2933MHz,3200Mhz)
CPU がメモリの性能を決める。これらは主には一般向け・コンシューマ向けの CPU である。
Intel Core i や AMD Threadripper に採用。
ゲーム用や事務用がメイン用途なのでコンピュータシミュレーションには向かない。
マザーボードは大凡 4枚・6枚・8枚挿しが殆ど。
(2) DDR4 buffered Memory REG ECC & LR DIMM ECC (2666MHz,2933MHz,3200Mhz)
これらは主にエンタープライズ・サーバ・高速計算機の CPU である。
Intel Xeon や AMD EPYC に採用。
コンピュータシミュレーション・機械学習・Deep Learning・画像処理用に使われ
マザーボードは大凡 12枚・16枚・24枚・32枚・48枚などが殆ど。
32GB x12 = 384GB
64GB x12 = 768GB
128GB x32 =4,096GB (4TB)
RD4R32G48S2933 (DDR4 RDIMM 32GB Dual Rank 2933MHz)
※メモリの半導体には Single Rank、Dual Rank という種類は有るが弊社の製品は同じマザーに
挿しても大丈夫だが LR DIMM は 4Rank で構成されこれは一緒には使えない。
PC Cluster なので沢山のノードを使う時はノードを代えれば大丈夫だ!
RD4LR128G4AS3200 (DDR4 LRDIMM 124GB 4 Rank 3200MHz)
RD4R64G4AS2933 (DDR4 RDIMM 64GB 2 Rank 2933MHz)
※メモリを同じマザーに何枚挿すかだがこれは CPU からメモリへの Channel 数で異なる。
Intel Cascadelake CPU が搭載されているマザーには16枚乗るものが多いけど Channel 数は6なので
同じマザーなら6枚(3枚+3枚)か12枚(6枚+6枚)が推奨。
AMD EPYC CPU マザーには16枚乗るものが多いけど Channel 数は8なので同じマザーなら8枚
(4枚+4枚),16枚(8枚+8枚), 32枚(16枚+16枚)が推奨。
メモリが起因するトラブルは原因とわかりづらい。人間にたとえると“なんか調子が悪い“とかシステムエラーがでるとか?16枚刺さっているとどのメモリが悪いのか探すのが大変。1枚ずつ外していってエラーが発生したメモリを特定しないといけない。32GB / 64GB が16枚なら読み込むまでにひたすら待つ!待つ!待つ! 卒業論文や修士論文の締めや科研費採択案件の提出日に重なったらホント泣きたくなる!神を呪いたい!
HPCテックでは計算機の種類によって異なるベンダーのメモリも扱っているが、今回は HPCTECH のロゴが貼ってあるメインメモリを取り上げる。
① メモリモジュールに搭載されます半導体の 100%スクリニーングテスト。
半導体のテストには全数検査・サンプル検査・特に検査はしないと3種類有るが全数検査を実施。
② IC の部品・パーツナンバをそろえる→全く同じパーツナンバなので均一性が確保される。
就職活動の時に“大学卒“と書くのではなく”必要とされる専門の勉強してきた大学生”と書いてる
ようなもの。
良く見ると半導体のパーツナンバが同じ。
<写真8>
③ メモリはアメリカのテキサス州にある軍事向けの SMT ラインで製造される。
中国とアメリカのサイバー戦争の時代 ”Made in CHINA”は敬遠されがち。
④ メモリになってから最初は簡単なファンクションテスト・通電テスト。
このテストは殆どのメモリメーカが行っている基本的なテストだ
⑤ それが済むと今度は実際のにマザーボードに搭載し48時間(指定時は72時間)以上の連続負荷テスト。
この負荷テストは ECC、System ハングに焦点が置かれフリーの Memtest ではパスしてしまう
信頼性テストが跳ねられる優れものだ。
1枚で 128GB あるメモリが 3200MHz で稼働している。
日本では10年以上前は Memtest などでシステムテストが行われていたが現在は殆ど行われていない。
またそのテスト結果の報告書も用意できる。
Stress Test
⑥ 保証はお使いなられる間保証が受けられるライフタイム保証。
⑦ もしメモリが不良ならその原因解析も行う。ある大手の有名なサーバメーカのメモリトラブルは
委託された業者が交換に来るだけ。原因を教えて頂けないので再発防止ができない!!
当社はその社名の通り、日本の HPC 業界をはじめとした様々な研究分野で役立てられるコンピュータ製品を製造・販売してきております。当然そこで求められるのは確かな品質と性能、そして信頼性です。
当社では精錬されたエンジニアが「全ての製品」を「全て手作業」でひとつひとつ丁寧に、日本で求められる高い品質基準を日々追及して製造しております。その品質基準を維持する取り組みに品質マネジメントシステムを採用し、日々よりよいクオリティの製品を世に出し、日本社会の発展へ繋げるお手伝いをさせて頂いております。
※ HPCテックではリピート率を大変大事にしています。
初めてご利用された方が次ぎまた利用されるか? ISO でも目標にしていますが
80%を掲げています。
引越し・異動・退官などもありますのでこの数字は実は大変な目標です。
HPCテックのお客様は計算機をフルスピードで運転するよ!自動車なら最高速度 140Km で一晩中走り続けるようなもの。大変です!正に耐久レースだ!本当に選ばれた・訓練された者でないと残れない。
※弊社の計算機の最高のスピード・最高の安定性・最高の使い易さを考えて構成を
組んでいるので良く判らない相性問題や計算の途中に止まったりなどが本当に少ない。
※美味しい食事はまずは美味しい素材選びから。
HPCテックが提供する製品は様々な方がそれぞれ異なる目的で使うことになります。
※HPCテックではリピート率を大変大事にしています。ISO でも 80%の目標にしています。
弊社で発生した不具合は原因と対策を考えてお客様に報告しています。
その方が今度もHPCテックの製品をご利用されるように。 感謝!感謝!
Deep Learning GPU Server・高速計算機で採用されています。
付録
大容量メモリが有効な数値流体シミュレーション・大規模可視化計算などにお勧め Intel Cascadelake CPU では 1個当り 1TBのメモリを扱えますので 2個で 2TBになります。
弊社の 1U Rackmount Server DDR4 2933 LR DIMM 64GB x24 =1,536GB (1.5TB Memory) 24Core CPU を2個なら 3GB/Core に 12Core CPU を2個なら 6GB/Core (128GBなら2倍)
AMD EPYC なら 4TB/CPU のメモリ帯域が取れますので 32枚挿しても DDR4 3200 LR DIMM 64GB x32 =2,048GB (2TB Memory) 余裕があります。PC Cluster MPI 並列計算で大容量メモリを確保する方法もありますが SMP Server (Symmetric Multiprocessing) で確保できるようにもなりました。
メモリと15年苦闘してきました:Okuyama