こんにちは VMware SASE テクニカルサポートチームの加藤です。
今回は VMware SD-WAN Edge の高可用性(HA)のトラブルシュートに役立つ情報として、トラブル事例とその対応方法をいくつかご紹介します。HA 構成の Edge を利用中にトラブルが発生した際には、ぜひこのページをご一読ください。必要なときに参照できるよう、この記事をブックマークいただくことをお勧めいたします。
■目次
HA 構成の Edge の問題を問い合わせる際の注意点!
スタンバイEdgeの診断バンドルが収集できない
HA 構成の Edge が HA フェイルオーバーする
障害発生時にHA フェイルオーバーが発生しない
HA 構成のスタンバイ Edge がダウンする
HA 構成の Edge が スタンバイを認識しない
HA 構成の Edge が VCO でオフラインと表示される
HA 構成のいずれかの Edge がアクティブの時にのみ、VCO でオフラインと表示される
HA 構成の Edge が HA フェイルオーバーを繰り返す
拡張 HA 構成のスタンバイ Edge が再起動やリンクダウンを繰り返す
拡張 HA 構成のスタンバイ Edgeで WAN リンクを介した通信ができない
WAN リンクのフラップにより HA フェイルオーバーが発生する
WAN リンクの対向装置で MAC フラッピングもしくは L2 ループを検知する
HA 構成の Edge の問題を問い合わせる際の注意点!
カスタマーおよびパートナーの皆様に HA 構成の Edge の問題を問い合わせる際、気を付けていただきたい事項を記載します。
■カスタマーへのお願い
現地で Edge の状態を確認できる場合は、VMware SD-WAN Edge の前面 LED ステータス ライトのガイド (2828742) を参考に、LED の状態 (色や点滅の有無) をまとめてください。その際、写真を取得していただけると、テクニカルサポートで状態をスムーズに確認することができます。
■パートナーへのお願い
テクニカルサポートにサポートリクエストを起票する際には、診断バンドルを取得して、テクニカルサポートへご提供ください。詳細解析が必要の場合は、事象発生中の診断バンドルが必要となる可能性があります。
特に HA 構成の Edge で問題が発生した場合には、スタンバイ Edge の診断バンドルが取得できているかをご確認ください。スムーズに解析を進めるために必要となるためです。具体的には、取得した診断バンドルの zip ファイル内 velocloud/diagtmp 配下に standby.zip ファイルが存在しているかどうかを確認してください。
スタンバイ Edge の診断バンドルが収集できない
HA 構成で診断バンドルを取得した際、何度取得してもスタンバイ Edge の診断バンドル standby.zip ファイルが収集できない場合、スタンバイ Edge の保存容量の問題で standby.zip ファイルが生成されていないと考えられます。
その場合は、何度か生成を実施した旨を記載の上、テクニカルサポートまでお問い合わせください。テクニカルサポートから、お客様の装置にリモートアクセスを行い、診断バンドルを収集します。
HA 構成の Edge が HA フェイルオーバーする
HA 構成の Edge で、HA フェイルオーバーが発生する原因としては、WAN リンクの障害、LAN リンクの障害、Edge の再起動などが考えられます(障害のシナリオも参照ください)。
詳細な原因調査が必要の場合は、テクニカルサポートまでお問い合わせください。
障害発生時に HA フェイルオーバーが発生しない
HA 構成の Edge で 「HA_INTF_STATE_CHANGED」 などの障害を示すイベントが発生しているにも関わらず、HA フェイルオーバが発生しない場合があります。この場合、スタンバイ Edge 側で再起動などの問題が疑われます。詳細な原因調査が必要の場合は、テクニカルサポートまでお問い合わせください。
なお、HA フェイルオーバーが発生しているかどうかは、障害発生に伴い出力される「HA Failure Identified」イベントの内容で currentSerialNumber と previousSerialNumber を比較することで識別可能です。
・current と previous が異なる → HA フェイルオーバーが発生しています
・current と previous が同じ → HA フェイルオーバーが発生していません
(以下は発生していないケースのスクリーンショットです)
HA 構成のスタンバイ Edge がダウンする
VCO の [監視 (Monitor)] > [Edge (Edges)] 画面で「Standby failed」と表示される場合、停電などの電源に関する問題により、スタンバイ Edge が物理的にダウンしている可能性があります。この場合、拡張 HA ではスタンバイ Edge を介したトラフィックが転送できないといったユーザ影響も発生します。
対処策として、まず現地でスタンバイ Edge の状況をご確認ください。もし電源が落ちていた際には電源ケーブル抜き差しなどにより、再起動を実施することで復旧できます。
詳細な原因調査が必要の場合は、テクニカルサポートまでお問い合わせください。その際は、事前にお客様の電源設備に問題がなかったか、停電がなかったかをご確認ください。
HA 構成の Edge が スタンバイを認識しない
HA 構成の Edge において、スタンバイ Edge を認識しない場合、HA 構成が正しい手順で設定されていなかったり、スタンバイ Edge の電源が落ちていたりすることが考えられます。
しかし稀に、正しい手順で HA 構成を設定し、スタンバイ Edge の電源は落ちていないにも関わらず、スタンバイ Edge を認識しない場合があります。「スタンバイを認識しない」とは、例えば以下のようなケースです。
・スタンバイ Edge のシリアル番号が VCO に表示されない
・スタンバイ Edge の WAN リンクが検出されない
・スタンバイ Edge の WAN リンクを介した通信ができない
この場合は「High Availability on a SASE SD-WAN Edge shows peer serial number unknown and no standby links (94607)」に記載された問題 110564 の発生が疑われます。この事象はアクティブ Edge とスタンバイ Edge の間で HA 情報を正しく同期できなかった場合に発生します。拡張 HA ではスタンバイ Edge を介したトラフィックが転送できないといったユーザ影響も発生します。
本事象の回避策はアクティブ Edge を再起動することです。問題 110564は、以下のソフトウェアバージョンで解決されています。
・5.2.0.0 (R5200-20230530-GA) 以降
・4.5.2 (R452-20230628-GA) 以降
HA 構成の Edge が VCO でオフラインと表示される
HA 構成の Edge で、再起動や HA フェイルオーバーが発生した後に、VCO でオフラインと表示される場合があります。
以下の症状が発生した場合は「SD-WAN Edge shows offline on VCO after a reboot due to memory full (90942)」の発生が疑われますので、テクニカルサポートまでお問い合わせください。お問い合わせの際に KB90942 の事象が疑われる旨をお伝えいただけるとスムーズです。
・Edge が VCO でオフラインとして表示される
・データプレーンに影響はない(引き続き正常にユーザートラフィックを転送できる)
・HA ステータスが「Unknown」となる
このケースでは、テクニカルサポートから、お客様の装置にリモートアクセスを行い、調査を行う必要があります。お客様の設定によりリモートアクセスができない場合は、再度事象が発生した際の調査となる可能性があります。
HA 構成のいずれかの Edge がアクティブの時にのみ、VCO でオフラインと表示される
HA 構成のいずれかの Edge がアクティブ状態の時にのみ、VCO でオフラインと表示される場合は、問題のない Edge をアクティブ状態にした上で診断バンドルを取得し、テクニカルサポートまでお問い合わせください。
なお、この事象が発生した場合は問題のある Edge 1 台をハードリセットすることで事象が解決する可能性があります。
HA 構成の Edge が HA フェイルオーバーを繰り返す
HA 構成のEdgeが HA フェイルオーバーを繰り返す場合、スプリットブレイン状態(アクティブ/アクティブ パニック) の発生が疑われます。
スプリットブレイン状態はアクティブ Edge とスタンバイ Edge が相互に通信できない場合に、両方の Edge が自身をアクティブと認識することで発生します。スプリットブレイン状態が発生すると以下のいずれかが発生する可能性があります。
・スタンバイ エッジは UNKNOWN 状態になる
・HA フェイルオーバーにより部分的なトラフィック損失が発生する
3.4.x および 4.x の Edge では、不具合の影響で Edge がスプリットブレイン状態になる事象が発生していました。事象の原因は「High Availability in Velocloud SD-WAN edge- HA Active/Active Panic issue (85112)」に記載されています。
事象が継続する場合には、スタンバイ Edge をハードリセットする、スタンバイ Edge を再起動する、解決しているソフトウェアバージョンにアップグレードする、といった対処が考えられます。
上記の不具合は、最終的に VMware SD-WAN 4.3.1 のリリースノートに記載されている問題 77625 および問題 85369 の解決により解消されましたが、Edge 間を接続する HA リンクが切断された場合などでは引き続き発生します。
問題が解決しているソフトウェアバージョンで本事象が発生している場合は、新規不具合の発生が疑われますので、テクニカルサポートまでお問い合わせください。
拡張 HA 構成のスタンバイ Edge が再起動やリンクダウンを繰り返す
拡張 HA 構成の Edge においてスタンバイ Edge が 1 日に複数回再起動したり、スタンバイ Edge のリンクが 1 日に複数回ダウンしたりする場合は、「SD-WAN Standby Edge or link in Enhanced HA deployment goes up and down causing issues with WAN links (94589)」の発生が疑われます。本不具合は 5.0.1.5 (R5015-20230922-GA) で修正されました。解決策はバージョンアップとなります。
問題が解決しているソフトウェアバージョンで本事象が発生している場合は、新規不具合の発生が疑われますので、テクニカルサポートまでお問い合わせください。
拡張 HA 構成のスタンバイ Edgeで WAN リンクを介した通信ができない
Edge バージョン 4.5.x、5.0.1.x には「拡張 HA 構成のスタンバイ Edge が WAN リンクをブロックする問題 97559 」があります。この問題が発生した場合、スタンバイ Edge の WAN リンクが物理的に問題がないにも関わらず、そのリンクを通した通信ができなくなります。
本事象の回避策は HA フェイルオーバーの実施です。問題 97559 は、以下のソフトウェアバージョンで解決されています。
・4.5.1 (R451-20221213-GA) 以降
・4.5.2 (R452-20231025-GA) 以降
・5.0.1.3 (R5013-20230322-GA) 以降
詳細は「A Standby SD-WAN Edge in an Enhanced High-Availability topology will block its WAN link (91125)」もご確認ください。
WAN リンクのフラップにより HA フェイルオーバーが発生する
HA 構成の Edge において、 WAN リンクの瞬間的なフラップは、 HA フェイルオーバーを発生させません。しかしながらお客様が SNMP 機能を利用している場合、WAN リンクがフラップしたタイミングで HA フェイルオーバーが発生する可能性があります。
このケースは「VMware SD-WAN Edge in HA may experience a Dataplane Service failure if SNMP is configured and WAN links flap, thus causing a failover (93166)」に記載されている問題 95565 の発生が疑われます。回避策は SNMP を無効にすることです。
問題 95565 は、以下のソフトウェアバージョンで解決されています。
・4.5.1 (R451-20220916-GA) 以降
・5.1.0 (R5100-20221204-GA) 以降
WAN リンクの対向装置で MAC フラッピングもしくは L2 ループを検知する
HA 構成の Edge の WAN リンクの対向装置で、MAC フラッピングもしくは L2 ループを検知している場合、VMware SASE 5.2.0 のリリースノートに記載された問題 112452 の影響が考えられます。
この問題は、HA 構成のハートビートに利用される MAC アドレスを保存した origmacs ファイルの内容が、アクティブ Edge とスタンバイ Edge で重複する問題です。なお、データプレーンの通信に利用される仮想 MAC アドレスには影響を与えないため、MAC フラッピングや L2 ループが発生していても、お客様の通信に影響はありません。
解決策はテクニカルサポート側で Edge の origmacs ファイルを削除し、その後スタンバイ Edge、アクティブ Edge の順で再起動することです。本事象が発生しており、事象を解決したい場合は、テクニカルサポートまでお問い合わせください。
まとめ
今回は VMware SD-WAN Edge の高可用性(HA)のトラブル事例についてご紹介しました。HA 構成の Edge の導入を検討されているみなさまや、既に運用されているみなさまのお役に立てれば幸いです。