グローバルサポート vSAN vSphere

vSAN 環境におけるメンテナンスモードについて

こんにちは、VMware グローバルサポート vSAN チーム 首藤です。

今回は VMware vSAN 構成にて把握しておくべきメンテナンスモードの考え方について説明します


vSAN では 耐障害性に基づき、各ホスト上でデータを分散して保持することで冗長化しています。

※ 下記は耐障害性 (Failure To Tolerate) が 1 (FTT 1, ミラー) のケースを例にしています。

特定のホストをメンテナンスモードに入れることで、対象のホスト上に配置している vSAN
データへのアクセスができなくなります。

そのため、vSAN 環境におけるメンテナンスモードについては “vSAN をご利用でない環境”
と比較し、どういった挙動が発生するのか内容を把握しておく必要があります。

vSAN を利用していない環境でも機器の再起動、メンテナンスのために VMware ESXi ホストを
メンテナンスモードへ移行するケースはありますが、vSAN ではこのメンテナンスモードへの
移行時に複数のオプションが選択できます。

– 全データの移行
– アクセシビリティの確保
– データの移行なし

通常の運用では基本的に「全データの移行」もしくは「アクセシビリティの確保」の
2 つをご利用いただく形になります。

後述致しますが、「データの移行なし」については特定のケースを除きご利用頂くのは
控えて頂けますようお願い致します。

それぞれのメンテナンスモードの特徴は下記となります。

## 全データの移行 ##

これはメンテナンスモードを入れるホスト上のデータを別のホスト上のディスクに
移行した後、メンテナンスモードに移行するオプションとなります。

全データの移行を実施してからメンテナンスモードに入る点より、データの冗長性を
確保しつつメンテナンスモードへの移行が可能です。

一方で、全データを別ホストに移行するといった点から、下記の点にご留意頂く必要があります。

– データ移行に伴い、vSAN ネットワークを経由した I/O のオーバーヘッドがかかる

– データ移行を実施してからメンテナンスモードに入るため、メンテナンスの時間が増加する

どの程度負荷や時間がかかるかといった点はよくお問い合わせが入る内容ではありますが
環境に依存する部分もあり、詳細についてのご案内が難しい内容となります。

そのため事前に対象環境、もしくはステージング環境にて十分に検証頂き、動作を
ご確認頂くことで対象の環境でベースとなる指標をお持ちいただけますようお願い致します。

一般的には冗長性を確保したままメンテナンスを行いたいケースや、対象のホストを vSAN クラスタ
から除外するようなケースで利用されることが多いオプションとなります。

##  アクセシビリティの確保 ##

本オプションについてはメンテナンスモードを入れるホスト上のデータへアクセス
できなくなった際に、対象のデータに対して仮想マシンからのアクセスが正常にできる
状態であればデータの移行をせずに冗長性を低下した形での構成を許容するオプションです。


全データの移行と比較すると、データの移行に関する時間が抑えられるため、より
早くメンテナンスモードに移行することが可能です。

全て冗長性が確保できている状態であれば、1 ホストのメンテナンス移行にて移行される
データはないことが想定でき、より早くメンテナンスを行うことが可能です。

一方で、冗長性を欠如している状態を許容しているため、下記の点に留意頂く必要があります。

– この状態で別途障害が発生するとデータへのアクセス不可の状況が発生する可能性がある
(多重障害の位置付け)

– 冗長性が欠如した状況にて デフォルトで 60 分 (※) 経過すると、vSAN 側で冗長性を
回復するために再構成動作 (別のホストでデータの再作成を実施する動作) が自動で発生する。

※ 再構成が動作するまでの時間は下記設定にて調整が可能です。

* Changing the default repair delay time for a host failure in vSAN (2075456)

一般的には一時的な再起動、メンテナンス作業を実施する際にご利用頂いている
オプションになります。

そのためこちらのオプションをご利用いただくケースが多いです。

## データ移行なし ##

このオプションは上記 2 つのオプションとは異なり、vSAN 上のデータの状況をチェック
せずメンテナンスモードに移行します。

事前に vSAN でのデータ整合性について内部でチェックせず移行を進めるので
通常運用では利用しないオプションです。

サポートでのトラブルシュート、対応の一環としてご案内するケースはありますが
ユーザー様にて利用されるケースとしては停電、メンテナンス対応時にクラスタを全停止
する際にご利用いただくオプションとなります。

弊社側でご案内しているクラスタ全停止時の留意事項を含めた VMware KB については下記となります。
併せてご参照頂ければ幸いです。

* vSAN — Maintenance — Simultaneous Host Reboots / Cluster Full Shutdown — Risk for Data Unavailability (60424)

以上が各種オプションの説明となります。なお vSAN 6.7 update3 以降にてメンテナンスモードへ移行する際、事前にどういったデータ移行が
発生するかの概要をチェックできるダッシュボートが提供されています。

—-
* VMware vSAN 6.7 Update 3 リリース ノート

メンテナンス モードで操作している場合のデータ移行の事前チェック。
vSAN の今回のリリースには、ホスト メンテナンス モードで操作しているときに詳細な分析を行うための
専用ダッシュボードが導入されています。この改善の利点としては、データ移行アクティビティの
事前チェックがわかりやすくなるなどが挙げられます。

このレポートを使用して、ホストをメンテナンス モードにする前に、オブジェクトの
コンプライアンス、クラスタの容量予測される健全性について詳細に調べることができます。
—-

下記ドキュメントでもご案内しています。

* ホストのデータ移行機能の確認

どの仮想マシンのデータが影響を受けるかや、vSANデータストアの利用状況の推移
発生しうるvSAN健全性について事前に把握ができます。

メンテナンスモード移行後の状況について把握した上での対応ができますので
こちらも併せて利用をご検討頂ければと思います。

## メンテナンスモード終了後の事後作業について ##

メンテナンスモード終了後には、vSANのデータの冗長性が低下しているケースもあります。
そのため、メンテナンスモード終了後は下記の観点でデータが健全になっているかを
確認しておきましょう。

– vSAN オブジェクトの状態が健全になっている点を確認
vSAN 健全性の vSAN オブジェクトの健全性をチェックすることで、vSAN 上に
配置されているデータが健全かどうかの確認が可能です。

* vSAN Health Service – Data Health – vSAN Object Health (2108319)

– データの再同期処理が動作していないかを確認
vSAN 内部でデータの同期処理が動作している場合、同期状況を確認することが可能です。
詳細については下記ドキュメントをご参照頂けますようお願いします。

* vSAN クラスタでの再同期タスクの監視

如何でしたでしょうか。

メンテナンスモードは ESXi ホストのメンテナンス時ご利用いただいているかと思いますが、普段
ご利用頂いているメンテナンスモードについて、vSAN では上記のような背景を把握した上で
利用を検討する必要があります。

運用時の参考になれば幸いです。