vROps 6.7は初心者に優しい！#2

2回目：アラートからブレイクダウン
— Back Number —
#1：仮想基盤のパフォーマンスは使用率だけでは図れない
 #2：アラートからブレイクダウン
 #3：仮想マシンのリストはカスタムビューで
 #4：6.7バージョンはメトリックの活用がポイント
 #5：vSAN運用管理者にはvROpsは欠かせないツール
日本ヒューレット・パッカード株式会社の中川明美です。
2回目は「アラートからブレイクダウン」です。vROpsを使用してアセスメントをする時、私はアラートの確認から始めます。アラートの確認は現在の問題を把握するために最適なアプローチだからです。一般的にも問題が起きているオブジェクトを特定する場合、最初に行うステップはアラートの確認ですもんね。
アラートの説明の前に、ユーザーガイドのご紹介を！
VMware社が提供するドキュメント「vRealize Operations Manager ユーザーガイド」では、次の3つのシチュエーションにしたがい、問題解決までのアプローチを提示しています。
• 問題が発生したユーザーから問い合わせがあった場合
• 受信箱にアラートが到着した場合
• オブジェクトの状態を監視しているときに問題を発見
◆vRealize Operations Manager ユーザーガイド◆
https://docs.vmware.com/jp/vRealize-Operations-Manager/6.7/vrealize-operations-manager-67-user-guide.pdf
下図は、ユーザーガイドの目次です。先にご紹介した3つのシナリオにアラートの項目が続きます。ガイドの構成も、アラートから始め、次にパフォーマンスやキャパシティの状態を確認する手順になっています。私もこのプロセスでアセスメントを行っています。
こちらのユーザーガイドはとても参考になるのですが、文字だけの73ページのボリュームは文章を読みなれていない人には、ハードルが高いかもしれませんね。。。

では、vROpsのアラートの活用方法をご紹介します。

◆vSphere基盤全体の現状把握◆
vSphere基盤全体の現状を把握するために、vROpsのメインメニューのアラートを選択します。この画面で「すべてのアラート」を確認します。
下の画面ショットでは、2つの仮想マシンで同じ内容のアラートが表示されています。
この段階では、仮想マシンに何らかの問題が発生していることを認識します。

◆対象オブジェクトの現状把握◆
対象オブジェクトのアラートの詳細を確認するために、リンク文字列(青色表示)をクリックすると、下の画面が表示されます。
この画面から、４つの情報を得ることができます。

赤枠：アラートの原因
上の画面ショットでは電源管理の設定がなされていないことが原因として挙げられ、それによってパフォーマンスに影響を与えているのではと推測します。
電源管理のアラートはvROps 6.6から表示されるようになりました。それより前のバージョンでは、非常に高いCPU Ready値またはオーバーヘッドから電源管理が原因なのでは？と分析していました。

青枠：現状を解消するための推奨アクション
「推奨」には、現状を解消するための具体的な操作方法が表示されます。
他の推奨がある場合は、「>その他の推奨事項」の「＞」をクリックすると、表示されます。
上の画面ショットでは、BIOSとESXiホストで電源管理の設定方法を紹介しています。
BIOSの設定は、各サーバーベンダーに問い合わせることをお勧めします。この画面では、「OS Controlled」がありますが、ベンダーによってメニュー名は異なります。
BIOS設定の詳細については、VMware社の以下Knowledge Baseも参考になるかと思いますので是非ご参照下さい。
Virtual machine application runs slower than expected in ESXi

緑枠：詳細情報の表示
いつからパフォーマンスに影響がある状況になったのか、どのメトリックの値が原因なのかを知りたい場合に、次の３つのリンクをクリックします。「ログの表示」は、vRealize Log insightと連携すると表示されます。このBlogでは、「追加メトリックの表示」と「イベントの表示」を取り上げます。

追加メトリックの表示
ログの表示
イベントの表示

追加メトリックの表示
「追加メトリックの表示」をクリックすると、対象オブジェクトのメットリック画面に遷移します。
パフォーマンス低下の原因となるメトリックの左側の◆が黄色で表示されます。
次に、メトリックをダブルクリックすると、右側のウィンドウにグラフが表示されます。このグラフから値の変遷を確認することができます。
メトリックの詳細については、４回目で説明します。

イベントの表示
アラートで表示されているイベントが、いつ警告(またはアラート)レベルに至ったかを時系列で確認することができます。下図にあるように、赤い▲にマウスカーソルを合わせるとイベントの詳細が表示されます。この画面ショットでは、グレーの▲時点でCPUに高負荷がかかり、１０分以内に警告レベルに至っていることがわかります。

黒枠：シンプトン
シンプトンは「事象」と訳されます。ｖSphere仮想基盤で発生した、クリティカル (またはその兆候) な事象を確認することができます。
下の画面ショットで表示されているシンプトンは、「電源管理テクノロジーがOS Controlledに設定されていません」という事象です。このシンプトンには、「CPU競合」のメトリックとそのメトリックに指定された条件 (しきい値) が設定されています。競合値が30%以上の場合、クリティカルレベルのアラートが発生されます。
アラートは、問題の発生を知らせ
るだけでなく、「シンプトン」と「推奨アクション」を関連付けて構成 (作成) することもできます。

メインメニューのアラートはすべてのオブジェクトを対象とします。任意のオブジェクトの詳細な状況を確認する場合は、各オブジェクトを選択します。各オブジェクトのアラート機能をご紹介します。

◆任意オブジェクトのサマリ◆
環境メニューから、任意のオブジェクトを選択し、「サマリ」を確認します。
サマリでは、「健全性」「リスク」「効率」のステータスとアラートが表示されます。バッジ (赤い点線枠) で表示を切り替えます。
右下のパフォーマンス (青い点線枠) ではパフォーマンスに関わる主要なメトリックが表示されます。下の画面ショットでは、電源管理の設定により、競合値が高く、100%を超えるデマンド値になっています。物理CPUが割り当てられず、CPUリソースの要求が高くなっていますね。

◆任意のオブジェクトのアラート◆
アラートのシンプトンでは、リスト形式でクリティカルな事象を時系列で確認できます。
下の画面ショットでは、パフォーマンスに影響があるシンプトンが表示されています。

◆まとめ◆
今回はアラートを取り上げました。このBlogを書くにあたり、アラート画面をじっくり確認した結果、この画面だけで1時間は話せるなという情報量です (笑) 。
vSphere仮想基盤の運用担当者になったばかりという方は、アラート画面の情報量だけで原因を特定するための工数を短縮できるのではないかと思います。アラートによっては推奨アクションも表示されますしね。
vROpsは情報量が多いのが、よいところでもあり、初心者のハードルを上げてしまうところでもあります。しかし、理解度 (習熟度) レベルに合わせて使用するダッシュボード (ユーザーインターフェース) を使い分けると活用の幅が広がります。コンサルティングの場で、ユーザーの方に安心いただくために、順番に覚えればいいのですよとお伝えしています。
次回は少々レベルを上げて、カスタムビューの作成方法をご紹介します。

関連記事

VMware Cloud on AWS の使用状況を確認できる API

VMware Cloud on AWS より i7i.metal-24xl インスタンスの提供開始

vSAN ESAの実力を徹底検証！性能はどこまで進化したのか？