Handsome man uses a laptop to work from home, businessman or freelancer. Remote work.
NSX Data Center ネットワーク

VMware NSX-T コンポーネントアップグレード時におけるトラフィックへの影響について

VMware NSX-T Data Center には、日々の運用を支援する様々な機能が備わってます。
この記事では、Upgrade Coordinator を利用してアップグレードした際のダウンタイムの測定結果をご紹介いたします。
Upgrade Coordinator 自身の使い方や流れは、前回の記事をご覧ください。

NSX-T のアップグレード概要

NSX-T は、下記手順でアップグレードを実施いたします。

  1. Upgrade Bundle をアップロード
  2. Upgrade Coordinator のアップグレード
  3. Edge のアップグレード
  4. ホストのアップグレード
  5. NSX Manager のアップグレード

この内、NSX-T 環境内の実通信が流れるのは、 Edge と ホストの 2つなので、
今回は、この箇所でのアップグレードの時間を測定します。

今回の構成

今回は下記のような構成でアップグレードを実施いたしました。

構成のポイントは下記のとおりです。

  • NSX-T は、3.1.3 から 3.2.0 へのアップグレード
  • 外部ルータ、 T0 Gateway 間は、 BGP + BFD (500 msec) で構築
  • Tier 0 (T0) Gateway は、 Active / Standby 構成
  • Client 用のセグメントは、T0 Gateway に直接収容

また、ESXi をアップグレードする際に、メンテナンスモード (Maintenance Mode) と インプレース (In-Place) の 2種類から選択することが可能です。

  • メンテナンスモード
    • vCenter の DRS の機能を利用し、各ホストをメンテナンスモードに移行させながらアップグレード
  • インプレース
    • ESXi ホストをメンテナンスモードにせず、仮想マシンを動かさずアップグレード
    • インプレースアップグレードを利用時の制限事項は、こちらのドキュメント をご覧ください。

今回の検証では、上記2つのパターンで検証を実施いたしました。

テストパターン

本試験では、2パターンで検証いたしました。

  1. Overlay セグメント内の L2通信のみ (East – West 通信)
  2. T0 Gatewayを経由し、外部サーバへの疎通性を含む L3 通信 (North – South 通信)

この通信を、メンテナンスモード と インプレース 、それぞれで構築している環境での、
それぞれのダウンタイムを測定いたしました。

測定結果

測定結果は下記のとおりでした。

1. Edgeのアップグレード

メンテナンスモード、インプレース ともに、同一の Edge を経由するため、その際に約 230 msec 程度の断時間が観測されました。
Edge の Active / Standby の切り替わりの際に発生していました。

2. ホストのアップグレード

ホストのアップグレードを実施した際には、メンテナンスモード を利用した際だけ、最大 500 msec 強の通信断 を観測しました。
こちらは、アップグレード時に発生しているのではなく、テスト用の仮想マシン自身が vMotion している際に発生していました。

インプレースを利用した際には、メンテナンスモードを利用した時よりも、ホストのメモリ消費量が多くなることも観測してます。

いずれのパターンにおいても、外部から テストクライアント に対して SSH で接続しながら、本テストを実行いたしましたが、セッション自体が切断されることは一切ありませんでした。
TCPを利用している通信であれば、再送でカバーできる範囲の通信断が確認できました。

3. NSX Manager のアップグレード

最後に NSX Manager のアップグレード時のダウンタイムを計測しました。
テストの構成図にも記載が無いように、仮想マシンの通信は、NSX Manager を経由しないため、通信としても一切影響を受けませんでした。

また、3.2.1 以降より NSX Manager のアップグレードが、ローリングアップデートへ変更となっております。
これにより、NSX Manager の管理 UIへのアクセスを継続することが出来、従来よりも状況の把握が行いやすくなっております。

詳細は、こちらのブログ (英語) をご参照ください

まとめ

この記事では、NSX-T のアップグレードを実施した際のダウンタイムの測定結果をご紹介いたしました。
内部 / 外部ともに、ほとんど影響無く、 従来のvMotionを実施する際程度のダウンタイムだけで問題なくアップグレードが完了しました。
このように影響なくアップグレードできるインフラを利用することで、“一度入れたら、そのまま寝かせる” インフラから、“常に、最新に追従した” インフラを実現することも可能となります。

本試験結果をご参考にしていただければ幸いです。