VMware Cloud

VMware 雲端災備方案 VMware Site Recovery

災備技術是指在一個資料中心發生故障或災難的情況下,其他資料中心可以正常運行並對關鍵業務或全部業務實現接管,達到互為備份的效果。災備是一項綜合系統工程,需要異地定址建設資料中心,涉及到供電、網路、存儲、伺服器等多種不同技術,系統建設複雜程度高、成本高昂,一般只有在大型企業和金融行業應用較多。隨著雲計算的發展,使用者不再需要自己建設災備資料中心,而是利用公有雲的資料中心來建設雲災備,可以大規模降低建設成本,是災備方案建設的一條新思路。雲災備也有一個專門新名詞 DRaaS (Disaster Recovery as a Service),這也是公有雲服務的一個重要應用場景。

隨著公有雲服務 VMware Cloud on AWS (VMC) 逐漸在 AWS 全球資料中心落地,VMware 也推出了雲災備服務 VMware Site Recovery (VSR),這是基於 VMC 雲端的災備解決方案。它可以幫助用戶在私有雲和 VMC 公有雲之間同步應用和資料,當受使用者的私有雲發生災難時,自動在 VMC 雲端恢復受保擴的應用。

在設計災備系統時經常涉及到 RTO 和 RPO 兩個指標,VSR 可以做到 RTO 目標可預知,RPO 目標最高可縮短到5分鐘。

  • RTO (Recovery Time Objective) 就是企業能容忍的恢復時間。災難發生後,從 IT 系統宕機導致業務停頓,到 IT 系統恢復至可以恢復業務運營之間的時間。
  • RPO (Recovery Point Objective) 可簡單地描述為企業能容忍的最大資料丟失量。假設系統一天做一次備份,如果第二天出現錯誤,那從備份完成後到錯誤出現時所寫入的資料都無法挽回了,從上一次備份到發生錯誤之間的時間就是 RPO。

 

VSR 的工作原理

VSR 災備的工作原理是主備環境之間的資料同步,受保護的應用在主環境 (私有雲) 中運行,備份環境 (VMC 公有雲) 負責保存受保護應用的資料備份,VSR 負責主備環境之間的資料同步,這個資料同步的間隔就是 VSR 災備所能實現的 RPO 目標。當主環境發生故障或災難時,VSR 利用在備份環境中最新的備份資料來啟動受保護應用,從而起到災難保護的目的。VSR 利用了 VMware 在私有雲中成熟的災備技術 Site Recovery Manager (SRM) 和 vSphere Replication 來實現雲災備:

  • Site Recovery Manager (SRM): SRM 是一個由 VMware 預先封裝好的 Virtual Appliance,分別安裝運行在用戶的資料中心和 VMC 雲端環境。SRM 負責制定災備計畫,並且可以進行非破壞性的災備方案測試,在災難一旦發生的情況下在備份環境中按災備計畫自動恢復所有受保護的應用。
  • vSphere Replication: vSphere Replication 也是一個由 VMware 預先封裝好的 Virtual Appliance,由它來完成主備環境之間的資料同步。注意,虛機只需要在開始的時候做完全同步,後續只需要同步虛機中變化的內容。

 

利用 VSR 來配置災備方案非常方便,只需要指定受保護的虛機、資料同步等參數,就定義好了一個災備恢復計畫 (Recovery Plan)。執行這個恢復計畫,VSR 就會在災難發生時根據災備恢復計畫來進自動恢復。VSR 提供了一個非常詳細的恢復步驟 (Recovery Step,見下圖),管理員只需要修改其中的某些參數以適應自己的環境和應用需求就行了。例如,VSR 把虛機分為5個優先等級,VSR 會首先啟動所有 Priority 1 的虛機,然後再啟動下一優先等級的虛機;在同一優先等內部,虛機之間還可以指定依賴關係,以確保某些提供基礎服務的虛機先於其他虛機而啟動;使用者可以通過指定虛機的優先等級和依賴關係來確保虛機啟動時的先後順序。

 

VSR 的特點

雖然是新推出的一個雲災備方案,但是因為 VSR 是基於 VMware 在私有雲中的成熟災備技術而構建的,VSR 在誕生之時就能為用戶提供完善可靠的雲災備解決方案,具有以下特點:

  • 非破壞性測試:傳統的災備方案通常只能在模擬環境中進行測試,所以很難評估生產環境是否真能達到設計的 RTO 指標 (即多少時間內能恢復服務);而且災備方案的測試成本很高,一年中往往只能做一到二次,IT 運維團隊大部分時候對於災備方案是否能滿足業務要求是心中沒底的。VSR 的非破壞性測試功能讓災備測試想做多少次就做多少次,更多的測試讓運維團隊能夠及時發現和修復災備方案中的問題,從而對災備方案所能實現的 RTO 目標更有信心。
  • 自動 Failover:當受保護網站發生災難時,VSR 能夠根據在 VMC 雲端保存的資料快像備份來啟動受保護的虛機,從而恢復受保護的應用。
  • 自動 Failback:當私有雲環境得到恢復後,因為災備切換到 VMC 雲端的應用重新處於受保護狀態,只不過這種保護是逆向的,虛機資料從雲端向私有雲同步。然後 VSR 反向執行恢復計畫把受保護的應用從 VMC 雲端自動遷移回原始網站,這個叫作 Failback。
  • 詳細的報告:VSR 能夠生成詳細的報告,裡面記錄了災備恢復的整個工作流程,這些資訊對於某些特定行業的用戶是非常重要的,以滿足審計和合規的要求。

 

VSR 的主要應用場景

VSR 能夠提供的災備方案,還可以是從公有雲到私有雲的災備保護,也可以是 AWS 不同 Available Zone 或資料中心之間的災備保護,使用者可以根據自己的業務需求來靈活應用 VSR 災備保護方案。除了災難恢復之外,VSR 還可以用於私有雲向公有雲計劃性的虛機遷移,主要應用場景包括的負載均衡和硬體系統維護等等。VSR 所提供的災備方案也可以是網站之間雙向的,可以實現單活、雙活等多種災備方案。

 

 

 

擴展閱讀

VMware 和 Intel 攜手幫助用戶向公有雲轉型,讓他們更有信心把公有雲納入 IT 戰略規劃,再也不要為了資訊安全、應用性能、可預見性和敏捷性而進行妥協。VMware 行業領先的軟體技術和 Intel 硬體技術説明使用者充分利用混合雲的優勢,在私有雲和公有雲之間靈活地遷移工作負載,以充分實現混合雲技術所帶來的計算、容量、可見性、靈活性方面的好處。VMware Cloud Foundation、VMware Cloud Services 和 Intel 領先的處理器、全快閃記憶體儲、硬體加速卡和高速網路等給企業帶來更多的選擇,讓他們能夠靈活地構建、運行和管理任何類型的雲計算環境。利用這些私有雲、公有雲和混合雲解決方案,企業可以輕鬆地實現各種雲平臺,規劃好支撐業務發展的雲戰略,讓IT更好地為業務服務。