vSAN VxRail グローバルサポート

[GS Newsletter] vSAN パフォーマンス問題時におけるログ収集について

こんにちは、VMware グローバルサポート Newsletter vSAN `チームの曽田です。

今回は vSAN 構成下において、パフォーマンス問題が発生した折に、「vSAN」として我々 VMware テクニカルサポートチームへどのような資料提供すればよいのかご案内いたします。

実をいいますと、既にお客様向けの VMware Knowledge Base (KB) が公開されています。

KB:51477
Collecting vSAN Performance Service data for vSAN performance issues (51477)

内容的にはこの KB 通りなのですが、今回はお客様に実施いただきたい 必要最低限の確認・対応事項 を以下にご説明させていただきます。


1.前提条件

「vSAN パフォーマンスサービス」を問題が発生する前に、事前に「有効化」することが必要となります。

vSAN パフォーマンス サービスの設定
https://docs.vmware.com/jp/VMware-vSphere/7.0/com.vmware.vsphere.vsan-monitoring.doc/GUID-02F67DC3-3D5A-48A4-A445-D2BD6AF2862C.html
(上記URL は vSphere 7.0 を選択しています)

サービスを有効化すること自体は、お客様の環境に影響を与えることはありません。有効化すると、vSAN データストア内に「vSAN パフォーマンスサービスオブジェクト」が作成され、vSAN クラスタ内のパフォーマンスデータの収集が行われるようになります。相まって、vCenter から vSAN パフォーマンス情報が確認できるようになります。(vSAN クラスタ → 監視 → パフォーマンス)

有効後、パフォーマンス問題が生じた場合、vCenter からこれらの画面コピーを取得しておいていただけると問題解決のヒントになるかもしれません。


2.パフォーマンス問題の詳細確認

KB にも記載がありますが、どのようなパフォーマンス問題なのか?

  • High latency on vSAN performance charts
  • VMs experiencing high latency
  • Slow throughput
  • Very high outstanding I/O

いつ発生したのか?詳細な時間の確認。
更に、何かトリガーになるようなオペレーションや
気になった点などをご確認しておいていただけると大変助かります。


3.vSAN クラスター “統計プライマリホスト”の確認

こちらも KB に記載がありますが、vCenter の 「vSAN 健全性(Skyline 健全性)」から確認できます。

(画面は、vCenter 7.0 で確認)

もしくは、vSAN クラスター内ホストに SSH でログインを行い、以下のコマンドでも確認可能です。

localcli vsan health cluster get -t “Stats primary election”

実行例:
[root@vsan:~] localcli vsan health cluster get -t “Stats primary election”
WARNING:root:Connection to hostd is down, need to reconnect
Stats primary election green

Checks stats primary of vSAN performance service
Ask VMware: http://www.vmware.com/esx/support/askvmware/index.php?eventtype=com.vmware.vsan.health.test.masterexist

Node Information
Host Is CMMDS Primary Is Stats Primary
——————————————————–
100.0.0.3 No No
100.0.0.1 No No
100.0.0.2 Yes Yes


4.vSAN クラスター 統計プライマリホストの vm-support ログバンドルの取得

3.で確認した 統計プライマリホストの vm-support ログバンドルを以下 KB をご参考にしていただき取得します。

KB:653
Collecting diagnostic information for VMware ESXi (653)

KB:653(日本語)
VMware ESX/ESXi の診断情報の収集 (653)


5.その他のログ収集について

お客様にてご確認し、何かしらの問題が出ている、異常があるのではないか?と思われる vSAN クラスターホストの vm-support ログバンドル(対象仮想マシンが存在しているなど) も取得いただけますと大変助かります。


6.まとめ

上記 2.4.(5.)  にてご説明した確認情報と、取得いただいたログバンドルを、VMware Customer Connect からサポートリクエストをしていただき、弊社サポートチームへお送りください。
これにより、我々テクニカルサポートチームでは vSAN クラスター内のおおよそのパフォーマンス問題の傾向を確認することができます。
vSAN クラスターホスト数が多いと、全台分のログバンドルを収集する前に、大事なパフォーマンスデータが流れてしまう可能性もあります。(この対応で確認できるデータは、過去2日間です)
その為、

パフォーマンス問題が起きた折は、状況確認と合わせて、速やかに「統計プライマリホスト」の vm-support ログバンドルの取得をお願いします。

また、これらの対応は「状況確認のための必要最低限」の情報収集方法となります。パフォーマンス問題の場合は、他 vSAN クラスターホストや vCenter のログバンドルが必要になる可能性があります。
そのため、他のサポートログバンドルも順次取得しておいていただきますと早期解決に繋がる可能性があります。

尚、KB: 51477 に記載がありますが、再現が簡易であったり、再現方法が明確な場合は、Verbose mode(詳細モード)を有効にして、ログバンドルを収集していただく必要性が出てくるかもしれませんが、通常は無効のままでログバンドルの取得をしていただき問題ありません。