作者: Colin Jao 饒康立 – VMware資深技術顧問,主要負責VMware NSX產品線,目前致力於網路虛擬化、分散式安全防護技術與新應用遞送方案的介紹與推廣。
承前篇,在本篇內我們針對 NSX-T Data Center 在兩個中心的自動化災備回復機制,與各位進行介紹。
NSX-T Data Center的自動化災備回復機制
當我們希望主中心與災備中心間的NSX-T可以做到自動回復時,在NSX各層構件的架構與切換流程說明如下:
- 控制層的NSX Management Cluster內的各台Manager VM,必須位在一個跨雙中心的vSphere Stretch Cluster上,且NSX-T的管理網段(連接Managers / Edge / vSphere的管理網段)必須要跨雙中心L2連接
- 當主中心完全失效時,原本主中心這邊位於vSphere Stretch Cluster內的x86伺服器失聯,同時代表各台Manager VM也停止服務。此時,Stretch Cluster會將三台Manager VM在災備中心以vSphere HA機制自動重新開啟,並重新組成NSX Management Cluster。在災備中心這邊的Edge / vSphere可繼續與NSX Management Cluster維持通訊
- 各個NSX Edge Cluster在規劃時,需要在主中心及備援中心均具備Edge VM / Bare-Metal Edge的資源。各台Tier-0 / Tier-1路由器在建立時,必須採用Active-Standby架構。透過Edge內Active-Standby的Preemptive選擇機制,Active T0配置於主中心的Edge資源,而Standby T0位於備援中心。此時,所有的T0/T1南北向實體連接與上層網路服務,均是透過主中心的Edge資源來提供
- 當主中心完全失效時,各台T0/T1路由器上的Active構件均失效。此時災備中心的Standby構件接手,因此原有與上層實體網路接取以及網路服務透過NSX內HA切換機制,可持續維持服務。
- 當然在此架構內,T0路由器與上層實體網路的BGP連線需要同時與主中心及災備中心的路由器建立neighbor關係。此時在主中心失效時,災備中心的T0仍可透過此處的實體路由器維持對外連通。
- 於災備中心在運算層的vSphere資源池,本來的網路配置仍可運作,且在NSX Management Cluster回復後可恢復與控制層通訊。當主中心失效時,用戶僅需啟用SRM機制,將原本主中心的虛機在災備中心的資源池重新部署,且網路配置完全不需改變。
自動回復的配置機制示意如下圖:
上述機制的好處是當主中心失效,災備中心可在短時間,且管理人員無須手動介入下,NSX-T的配置與運作環境即可自動在災備端恢復。當然,要達成上述的機制,除了前述的配置要求外,底層的環境需要滿足下列條件:
- 管理資源池 (vSphere Management Cluster) 必須配置為Stretch Cluster。這代表兩地間的網路延遲必須要低於10 ms、有可直接L2打通的底層網路、管理資源池內的外接或內接儲存可支援Stretch Cluster,應該有獨立的儲存線路(一般來說至少5 Gbps頻寬,或是vSAN Stretch Cluster 架構需求 10 Gbps頻寬)來運作Strectch Cluster上的資料同步
- 如果是對外服務,此對外服務的Public IP必須可由企業或同一家電信服務商在災備時進行切換。
- 支援兩中心運算資源連接的實體線路建議支援大於1 Gbps的頻寬,以及必須配置至少1700 的 IP MTU。
- SRM在進行虛機資料抄寫時也會使用到網路頻寬,同樣需要考量。
前端的機制當然架構上很理想,但極有可能會有下列的問題讓客戶不易實作,取得自動切換的好處:
- 企業在兩座資料中心間的延遲時間會超過10 ms。
- 因為成本與實際環境的限制,無法提供足夠頻寬,無法建立兩中心間的Stretch Cluster。
- 在此架構內,T0路由器與實體網路間的接取僅能採用 Active-Standby架構,無法同時使用多台Edge提供多條線路整合出的高頻寬線路。一個方式是改為採用Bare-Metal Edge,單台Edge可以提供30 Gbps以上的頻寬。但如果南北向頻寬就是需要多台Edge,以Active-Active方式提供,此時這種自動化機制就無法運作了
此時有另一個機制可以考慮,也就是接下來我們討論的手動回復機制。文章過長,我們在下篇網誌繼續與大家進行討論。
Comments
0 Comments have been added so far