vSAN

VSAN Cormac Blog 〜 障害が発生したディスクのコンポーネントのメタデータ健全性 〜

〜 障害が発生したディスクのコンポーネントのメタデータ健全性 〜
最近、VSANの健全性チェックでコンポーネントのメタデータ健全性障害が発生するケースがあります。
以下のようなメッセージが表示される現象です。
component-metadata-health
最初に確認すべきことは、KB2108690に記載されている以下の内容です。
ノート:この健全性チェックテストは、デステージングのプロセスが遅い(多くの場合はVSANがストレージデバイス上に物理ブロック割り当てを行う必要があるような高負荷状態)場合に、この事象が断続的に発生することがあります。この事象に対するワークアラウンドは、ディスク負荷が高くなるようなアクティビティ(複数の仮想マシンを展開する等)が完了した後に、再度健全性チェックを実行することです。
もし健全性チェックで再度障害が表示されるようであれば、表示される情報は正しく物理ディスクに何らかの問題があるのかもしれません。もし健全性チェックが成功するようであれば、上記アクティビティが原因で発生していた事象でありメッセージは無視しても問題ないでしょう。
それを念頭おいて、どの物理ディスクが潜在的な問題を抱えているのかを確認していきましょう。
上記の障害では、コンポーネントのUUIDを表示していますが、顧客がUUIDと物理ディスクを引き合わせるのは非常に困難です。
現時点で、この確認をするにはRVC(Ruby vSphere Console)を利用する必要があります。では、障害として表示されたコンポーネントのUUIDが、どの物理ディスクに対応しているのかを確認する方法を見ていきましょう。
最初に、健全性チェックで障害と表示されたコンポーネントのUUIDを引数に指定してvsan.cmmds_findコマンドを実行します。いくつかの先行して表示されるカラムは見やすくするために削除して表示しています。コマンドは、クラスタオブジェクト(0を指定)に対して実行しています。
vsan.cmmds_find-1
ここでディスクUUIDを確認できたので、それを次に実行するコマンドの引数として使用します。
ここでもいくつかのカラムを見やすくするために削除して表示しています。
vsan.cmmds_find-2
上記出力結果のdevNameフィールドで、該当物理ディスクのNAA ID(SCSI ID)を確認できました。
健全性チェックテストで問題が発生した際に、上記手順を参考にして物理ディスクの特定を行って下さい。
※現在、この情報をKBとして掲載するためのリクエストを行っています。
原文:Component Metadata Health – Locating Problematic Disk
VMware Storage and Availability Business Unitの シニアスタッフエンジニアCormac Horganの個人ブログを翻訳したものになります。VSANの詳細に関しては弊社マニュアル 、KBをご確認ください。また本記事は VSAN 6.2ベースに記載しております。予めご了承ください。