vSAN TIPS & Information グローバルサポート サポート&サービス

[Global Support] vSAN データストア及びディスク使用率 FULL になった場合の状況と対応に関して

こんにちは、VMware グローバルサポート vSAN チーム の小畑です。

今回は VMware vSAN での データストア及びディスク使用率が 100% 近くになった折の状況確認と対処についてご説明いたします。


1.はじめに

vSAN のデータストア使用容量に関するサイジングに関して簡単に説明致します。

vSAN 7.0 U1 未満では一律に空き容量を 30% 確保していただことを推奨としておりましたが、vSAN 7.0 U1 以上ではホストの台数や Operations reserve (操作の予約)及び Host Rebuild Reserve(ホスト再構築の予約)を元に推奨の空き容量のサイジングが異なっております。

詳細に関しては下記のドキュメントをご参照ください。

Designing for Capacity Maintenance and Availability

vSAN 7 U1 makes substantial improvements in the free capacity required for vSAN for to handle
conditions such as host failures, and internal vSAN operations. Internal optimizations were
made to vSAN to dramatically improve its usage of free capacity, and improve the TCO of the cluster.
The generalized cluster recommendation of 25-30% of free capacity is replaced with calculations
that factor in cluster host count, cluster settings, and other considerations.

ただ、上記ドキュメントに記述の上限ギリギリまで使い切るサイジングは突発的なリソース要求や、Thin provisioning で展開した仮想マシンのデータ容量の急激な増加で足りなくなるリスクもあるので、ある程度の余裕は確保した方が安全かと思います。


2.vSAN 容量に関する健全性アラーム

vSAN の容量に関する健全性アラームがいくつか用意されております。場合によっては 状況により容量に関する健全性アラームが複数発生する場合もございます。
これらの健全性アラームが発生した場合に対処せず、そのまま使用を続けていくとディスクの使用率が FULL となり、仮想マシンに影響が発生いたします。それぞれの容量に関する vSAN 健全性アラームを下記にご紹介いたします。

 

  • vSAN Health Service – Physical Disk Health – Disk Capacity (2108907)
    vSAN クラスタ配下のホストにて使用している各 vSAN キャパシティディスクの使用率を監視し使用率が 80% 以上になったディスクを検知する健全性アラームとなります。
    *補足*
    vSAN では 80% 以上の使用率となったディスクに関しては、そのディスクに配置されているデータ(コンポーネント)を他のディスクに移動する(リアクティブリバランス)処理が実施されますが、移動先のディスクの選択にはストレージポリシーの障害許容設定とホストの数の条件及び移動したとしても移動先のディスクの使用率が 80% を超えてしまうような場合にはリアクティブリバランスが実施されない場合があります。
  • vSAN Health Service – Capacity utilization – Disk space (71003)
    vSAN データストア全体の使用率を監視している健全性アラームとなります。
  • vSAN Health Service – Cluster health – vSAN disk balance (2144278)
    vSAN クラスタ配下のホストの各ディスクの使用率から負荷分散の状態を監視する健全性アラームとなります
  • vSAN Health Service – Limits Health – After one additional host failure (2108743)
    こちらは最もリソースが消費されている ESXi ホストで障害が発生した場合にて使用可能なリソースが十分に確保できるかどうかをシミュレーションし、その結果リソースが十分に確保できない場合に一部のオブジェクトの再保護に失敗する可能性があることを示す健全性アラームとなります。

 

上記のような vSAN 健全性アラームが発生時には、vSAN データストアの総容量自体がホストやディスクの障害の発生により減っているかどうかを確認し HW 障害などなく問題無いようでしたら不要な仮想マシンやスナップショットを削除して、vSAN データストアの空き容量を増やして 70% 未満を Keep していただきますようお願いいたします。


3. vSAN ディスク容量が FULL になった場合

vSAN ディスク容量が FULL になった場合は下記のような状況となり仮想マシンが使用できない状態となります。

Graphical user interface, text, application, email Description automatically generated

vSAN データストア総容量としては空きがあるように見えるのですが、

上記の仮想マシンのオブジェクトコンポーネントが配置されているディスクが FULL となっていることが確認できます。

vSAN 健全性の物理ディスクのディスク容量アラームでも 100% 近い値となっていることが確認できます。

上記のディスクにて空き容量が無いため該当仮想マシンのコンポーネントにて必要な容量が確保できず使用できない状況となります。


4.vSAN ディスク容量が FULL になった時の対処

vSAN ディスク容量が FULL になったことにより仮想マシンが使用できない状況となった場合の対処としては該当の FULL となったディスクにて空き容量を確保して頂く必要があります。

FULL となったディスクにオブジェクトコンポーネントが配置されている他の仮想マシンを確認します。下記画面ショットにございますディスク管理から該当のディスクのオブジェクト配置を確認しますと、そのディスクにオブジェクトを配置している仮想マシンを確認できます。

(下記画面ショットでは使用できない “Test-windows2016” と “Test-windows2016-3” が存在することを確認できます)

Graphical user interface, text Description automatically generated

 

FULLとなっているディスクに配置されている仮想マシンを確認し不要な仮想マシンやスナップショットがありましたら、削除していただく、もしくは vSAN データストア以外の別なデータストアにストレージ vMotion することにより その該当ディスクの空き容量が確保できます。

(上記の場合では 仮想マシン “Test-windows2016-3” にて削除もしくは別なデータストアにストレージ vMotion することにより空き容量が確保できることとなります)

*補足*

使用できない “Test-windows2016” 自体は、下記の “質問への回答” が表示されている状態ではストレージ vMotion は実施できません。(保留中の質問があるため実施できないとなります)

 

もし仮想マシンスワップオブジェクトが配置されている仮想マシンがありましたら、その仮想マシンをシャットダウンしていただくと、そのスワップオブジェクトが削除されその分空き容量が増えますが、スワップオブジェクトはサイズ的に大きな空き容量を確保は期待できないかと思います。新しいディスクをディスクグループに追加して、新しいディスクにコンポーネントを移動する方法もございますが、通常すぐに新しいディスクを用意することは困難かと思います。

FULL となったディスクにて空き容量を確保できましたら、”質問への回答” にて ”再実施” を選択していただくことで、該当の仮想マシンの再利用が可能となります。


5.おわりに

今回 vSAN データストア及びディスク使用率が FULL になった場合の影響や対応に関してご紹介させていただきました。実施に FULL になった場合には、すぐに対処を実施することが難しい状況もあるかと思います。vSAN ディスクが FULL となって仮想マシンに影響が発生する前に常に vSAN データストアの使用率は 70% 未満にしていただくことを心がけて vSAN を使用して頂けたら幸いです。