クラウド運用・管理 パートナー

VMware vRealize Operations (vROps) をパワーアップしよう!

2回目:SDDC Management Packs (VSAN/NSX)
– Back Number –
#1…カスタムダッシュボードって難しいの?
#2…SDDC Management Packs (VSAN/NSX)
#3…3rd Party Management Packs (Deep Security)
#4…3rd Party Management Packs (F5/NetApp/UCS)
こんにちは、ソフトバンク コマース&サービスの中川明美です。
2回目は、管理パック「SDDC Management Packs (VSAN/NSX)」についてご紹介します。「Virtual SAN (VSAN)」と「VMware NSX」が盛り上がっていますね!!私も気合いを入れて書きたいと思います。このBlogではVSANの管理パックをインストールしたvROpsを中心に進めます。「vROps+VSAN」運用の参考にしていただければと思います!
◆管理パックの入手方法◆
Solution Exchangeのサイトから、「vRealize Operations」を選択し、管理パックをダウンロードします。下図は、VSANの管理パックをダウンロードする画面です。
ファイル名は、「vmware-MPforStorageDevices-(Build #).pak」です。2016年7月現在の最新バージョンは、「6.0.4-3668305」です。
https://solutionexchange.vmware.com/store

Management-Pack
◆5つのダッシュボード◆
先の管理パックをインストールすると、下図のダッシュボードが追加されます。
VSANを管理するには、メニューの「ダッシュボードリスト」→「MPSD」→「VirtualSAN」を使用します。VSANには5つのダッシュボードがあります。
VSAN
◆”VirtualSAN Troubleshooting”ダッシュボード◆
ダッシュボード名の通り、VSAN全体の問題を確認することができます。
ここからは、当社LabのVSAN環境を例に、画面左の「VirtualSANトポロジ」のオレンジや赤のオブジェクトの原因追究を開始します!!
VirtualSANクラスタを選択
最初にクラスタ全体で問題がないかを確認するために、図1は「VirtualSANクラスタ(赤の点線枠)」を選択しています。この環境は、ESXiホスト6台でクラスタを構成しています。6台のうち4台が、VSAN用のディスクリソースを提供しています。残り2台はコンピュータリソースのみを提供しています。そのため、「アラートリスト」に「VirtualSANホストに誤った設定のストレージがあります(青の枠)」とクラスタに関するアラートが表示されています。
【図1】
Troubleshooting_1
磁気ディスクを選択
図2は、オレンジ表示の「磁気ディスク(赤の点線枠)」を選択しています。画面右で、磁気ディスクの詳細な情報を確認することができます。「使用済みディスクキャパシティ(青の枠)」では、時系列で使用量を追うことができます。80%以上の使用量が続いていますね。
【図2】
Troubleshooting-disk_1
図3は、図2の磁気ディスクを選択した際の「優先度の高い問題(赤の点線枠)」を表示しています。「VirtualSAN磁気ディスクのキャパシティが使用量の限界に近づいています」と問題が表示され、その下には、「ディスクグループに磁気ディスクを追加します」と解決方法が明示されています。青のリンク文字列をクリックすると、磁気ディスクの問題が詳細表示されます。使用量の限界は、80%を超えた時なのですね。
【図3】
Troubleshooting-disk2
磁気ディスクの「オレンジ」や「緑」のオブジェクトを見ながら、「VSANって、リバランスしないのかなぁ?」と疑問がわいてきました。調べてみると、「VirtualSANデータストア」の使用量が80%を超えなければリバランスが起きないそうです。この環境ではデータストアの使用量は80%を超えていないためリバランスが起きません。
参考までに、「Virtual SAN Cluster Insight」ダッシュボードで「コンポーネント数」を確認してみました。図4から、各ESXiホストのコンポーネント数(赤の点線枠)に大きな偏りはないことがわかります。
【図4】
Insights

<結果>
「VirtualSAN Troubleshooting」ダッシュボードで表示された磁気ディスクの問題を解決する方法は、図3の画面で提示されていた「ディスクグループに磁気ディスクを追加する」ですね!
(参考KB)
Virtual SAN Health Service – Physical Disk Health – Disk Capacity
https://kb.vmware.com/kb/2108907
VSAN 6.0以降は、「vsan.proactive_rebalance」コマンドを使用して、手動でリバランスをすることができます。
https://pubs.vmware.com/vsphere-60/index.jsp?topic=%2Fcom.vmware.vsphere.virtualsan.doc%2FGUID-6DC1DCEF-C596-4A11-9DB7-45B119450794.html
◆”VirtualSAN Heatmap”ダッシュボード◆
「データストア」「ストレージコントローラ」「ディスクグループ」「NIC」のスループット等をヒートマップ形式(サイズと色)で表示します。図5では、「VirtualSAN データストア」が大きな赤の四角で表示されています。「サイズのスループット」はデータストアが1つのため大きな四角になっています。「色の遅延」は赤色表示です。ここからは、データストアの問題原因を追究していきます。
【図5】
Heatmap
VSANデータストアのパフォーマンスを向上させる方法の一つは、SSDの追加です。「SSDと最低1本のHDDを追加したディスクグループ」を追加作成します。
SSDの追加がこの環境の問題解決となるのか、収集したデータから分析してみましょう!!
<SSD読み取りキャッシュヒット率>
「VirtualSAN Device Insight」ダッシュボードで、「SSD読み取りキャッシュヒット率(図6:赤の点線枠)」を確認します。高いヒット率です。ここに原因はなさそうです。
ヒット率が著しく低い場合は、「VirtualSAN Entity Usage」ダッシュボードで、「磁気ディスク読み取りスループット(図7:赤の点線枠)」の値や、VSAN上で稼働する仮想マシンのIOを確認します。磁気ディスクへの読み取り値が非常に高く、その高い読み取りが原因で仮想マシンのパフォーマンスに影響を及ぼしているのであれば、SSDの追加は有効です。
<SSDスループット書き込み>
「VirtualSAN Entity Usage」ダッシュボードで、「SSDスループット書き込み(図7:緑の枠)」の値が高く、キャッシュディステージ(HDDへの書き込み)の発生による「磁気ディスク書き込みスループット(図7:紫の枠)」の値が高い場合も、SDDの追加は有効です。今回はいずれの値も高くないため、SSDの追加では解決できなさそうです。
【図6】
Figure6

【図7】
Figure7_1

<結果>
この環境のVSANデータストアのパフォーマンス劣化の原因は、「CPU」です。
VSANはSoftware Defined Storageですから、ESXiホストのCPUを使用して処理します。今回はCPUのパフォーマンスがデータストアの大きな遅延を招いているようです。他に物理NICやストレージコントローラのパフォーマンスにも影響を及ぼしているようです。
問題を解決するには、ESXiホストの追加が必要ですね。
IO-Latency
※Lab環境のESXiホストは、ネストされたESXiホスト(ESXi on ESXi)です。
◆まとめ◆
VSANを監視する際は、「VirtualSAN Troubleshooting」と「VirtualSAN Heatmap」のダッシュボードをおもに活用してみてください。その他の3つのダッシュボードは、根拠となる詳細な数値を確認する場合に適しています。
ストレージは監視する項目や視点が多く、混乱しますね!
vROpsを使用すると、このBlogのように、緑色以外のオブジェクトから始めることができます。VSAN連携では優先度の高い問題と解決方法までを提示してくれます。一つ一つ原因を探していくことと比べると管理工数を抑えることができますね。
このBlogでは、VSANの監視について書きました。機会があればNSXも書いてみようと思います。次回以降の3rdベンダー提供の管理パックについてもお楽しみに!!
nakagawa
ソフトバンク C&Sのサイトで仮想化健康診断の事例を紹介しています。運用のヒントになるかもしれません。
詳細についは、以下↓↓アイコン↓↓をクリックして下さい!
Logo2