高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

Information

2020/06/03

[TECH Report] Bright Cluster Manager のモニタリング機能 “Bright View” について

TECH Report は HPC テックスタッフからの情報発信です。

 

 

 モニタリングは円滑な運用を行なうためには不可欠ですが、動作検証に時間がかかってしまった経験は無いでしょうか。Bright Cluster Manager で運用を行えば検証済みのモニタリング機能があらかじめ準備されており、安定した運用環境の早期実現が可能になります。他にも多様な管理機能を持っていますが、その機能をできるだけ体験できるよう、オンラインデモが web 上に用意されております。このデモは Bright View を自分で体験するためのもので、実際の運用に近い形で操作を行なうことができます。今回はこのデモを使いながらモニタリング機能の一部を紹介したいと思います。

 

 Bright Computing 社のトップページ(https://www.brightcomputing.com/)右側の [See a Demo] のリンクをクリックしていくとデモが開始します。

 

 開始前の注意事項で「デモの表示がおかしい場合はリロードしてください」との注意事項を確認の上で利用を開始します。実際に利用していてデモ画面の応答がなくなったり更新されないメニューなどに遭遇しました。通信環境が原因の可能性もありますが利用にあたっては多少注意が必要です。応答が悪い場合は指示に従い、ブラウザの再読込を試してください。” Bright View Demo ”の注意事項を読み、Close をクリックするとトップ画面となります。

 

 

 

メニューについて

 Bright View のトップ画面は下記の通りでメニューが分かれて表示されています。このメニューは左側と右上で役割が異なります。左側は主に設定を行うメニューで右上は検出された警告や情報の確認、表示用となります。

 

 

 実はメニューにはもう一つトップ画面では表示されていないものがあり、下記の黄色で囲ったアイコンをクリックすることでメニューが左側の表示が変化します。黄色枠のアイコンの図柄がグラフを模しており、クリックすると中央画面にもグラフ化されたデータが表示されることからもわかると思いますが、このメニューは取得したデータの可視化するためのものです。実際にはドラッグ&ドロップで可視化が可能ですが、今回試したインタラクティブデモでは時間がかかり残念ながら気軽に試せる状態ではありませんでした。

 

 元のメニューへは下図の青枠内、設定マークをクリックすることで設定メニューへもどります。可視化用の項目が多いためこのような切り替えメニューを使用しているのだと思いますが、慣れないうちは少し戸惑うかもしれません。

 

 

 

Monitoring メニュー

 それでは監視機能がどのようなものか確認してみましょう。左側を設定メニューに戻すと Monitorinng というメニューがあり、先ほど解説したアイコンと同じグラフを模した図柄が表示されています。同じアイコンを使用していますが、先ほどはデータを可視化するためのもので、今回の設定側はデータ生成のためのメニューになります。

 

 簡単にですが設定メニューの一部を見てみましょう。Monitoring → Data Producer で表示されるのは監視スクリプトの一覧で、標準で多数のスクリプトが用意されています。
続いて Monitoring → Measurables ですが、これは Data Producer で実行されたスクリプトがどのようなデータを測定しているのかを表示しています。注意して欲しいのは、ここではデータの形式の Type のみで具体的なデータはどこにも記述はされておりません。では Type とはどのようなものでしょうか。

 

 

Measurables Type の種類

 

 Measurables で表示される Type にはいくつかの種類があり、返す値が異なります。“ Health Check ”は PASS, FAIL 等の限られた値を返します。値が単純で状態が把握しやすい為、インストール直後からこの HealthCheck による監視は自動的に開始されます。
 対して“ Metric ”は具体的な数値、例えば HDD の空き容量や CPU の使用率といった値を返します。グラフなどの可視化を行なうには向いていますが、正常・異常の判断基準が異なりますので、管理者が状況に応じて閾値を設定することになります。

 

 HealthCheck、Measurables ともに可視化することもできますし条件を決めてメールで通知を行う事や、特定の動作を実行することもできます。

 

 

ノード状態の確認

 実際にこれらの監視機能が異常を検知した場合はどのようになるのでしょうか。普段はアラームの箇所に赤字で警告メッセージの確認からはじめます。ですが今回は未知の構成のデモ環境のため、回り道になりますがどういった構成なのかを確認してみましょう。

 

 Device → Nodes をクリックしてみてください。20ノードくらい表示されてますでしょうか。これがデモ環境でのノード一覧となり、ここからもノードの状態を把握できます。ホスト名などノード情報が表示されると思いますが、注目すべきは“ STATE ”で表示される色のついた矢印で、
 は起動中で正常。は停止中。従ってこれらはステータス上、特に問題はありません。
 は起動していて何か障害がある事を表しておりますのでこのノードに注目します。

 

 

 Host 名 mon001 に がついていますので一見して mon001 何らか異常があることがわかります。次にどのステータスがおかしいのかを確認しましょう。Option の下矢印を左クリックするとプルダウンメニューが開きますので、Health Check → Latest Health Check を選択します。

 

 

  ウィンドウが切り替わり、mon001 の左にある+をクリックするとこのノードへ実行している Health Check の一覧が表示されます。Value の項目は正常であれば PASS、何らかの問題があれば FAIL となります。“ RandomHealthCheck ”という診断テストが FAIL であることが確認できました。

 

 

 

監視スクリプトの場所

 どの診断プログラムが検出したかを確認してみましょう。メニューに検索する箇所がありますので、“ random ”と入れてみます。

 

 

 候補の一番上に出てくる“ RandomHealthCheck ”にカーソルを合わせてクリックするとメニューが開きます。このメニューはタイトル内に“ DataProducer ”の文字があり、監視スクリプトを管理している箇所を開いている事がわかります。監視プログラムの場所は“ TIMEOUT and other 4 parameters ”下の“ Script ”にパス名が記されています。残念ながらデモ機能ではこのスクリプトの中身までは確認することはできませんでしたが、実際の環境においてはスクリプトの簡単な説明等も確認することができます。

 

 

 

アラームの確認方法

 次に監視スクリプトが問題を検出した場合、どのような通知が行なわれるのかを確認してみましょう。本来であればこの項目を先に確認するべき箇所なのですが、機能説明のため回り道をしてしまいました。下記の図にあるノードのベルのマークのアイコンをクリックします。

 

 

 別枠でウィンドウが開き問題発生の時刻、内容とそのノード一覧が表示されます。先ほど確認した mon001 については MESSAGE が途中で途切れていますが表示枠を引き延ばす事で“ ‘RandomHealthCheck:2 1 1′ is FAIL warning mon001 ”の確認できたかと思います。普段の運用ではアラームのアイコンをクリックし、ここから調査を開始するのですが、今回 FAIL となった RandomHealthCheck についてはデモの為に作られた監視スクリプトで FAIL の解消までは考慮されていないようです。従って今回のデモを使ったモニタリングについてはここで調査終了といたします。

 

 いかがでしょうか。もしかすると説明の過程で聞き覚えのない語句や概念で難しいと感じてしまった方もいらっしゃるかもしれません。豊富な機能の一端を紹介したいために少々込み入った説明もしておりますが Bright Cluster Manager の豊富な機能の一部でもご理解いただければ幸いです。

 インタラクティブデモでは確認できることに制限はありますが、BrightView でのモニタリング機能の一部分を解説させていただきました。

 

 

HPC TECH Engineer : Suzuki