Home > Blogs > Japan Cloud Infrastructure Blog > 月別アーカイブ: 2017年1月

月別アーカイブ: 2017年1月

VMware vRealize Operations Manager (vROps) をパワーアップしよう! パート2

5回目:vRealize Log Insightとの連携

– Back Number –
#1…最新のV4Hが使いやすくなっている!
#2…ビューの活用方法①
#3…ビューの活用方法②
#4…レポートの活用方法
#5…vRealize Log Insightとの連携
#6…V4HでHorizon RDSホストの監視

こんにちは、ソフトバンク コマース&サービスの中川明美です。
今回はvRealize Operations ManagerとvRealize Log Insightを連携した活用法をご紹介します。

仮想化健康診断では、「ワークロード」と「ストレス」の値を参考に、分析してくださいとお話しています。「ワークロード」は現在の状態を、「ストレス」は過去6週間の平均値を表わしています。
下図の「ストレス」の結果から、木曜の16時から18時、19時から20時の間で負荷が高いことがわかります。たとえば、バックアップなど定時に高負荷な状態が起きる場合は、この画面から原因を推察することができます。しかし突発的な負荷が起きた場合は、原因を調査する必要があります。その際、Log Insightで収集されたイベントから何が起きたかを調査すれば、より早く原因を特定することができます。vROpsとLog Insightを連携することで、よりパワーアップできますね。
stress

このBlogでは、ネットワークの負荷を高めた状態を準備し、原因を特定するまでのプロセスを、連携の活用法としてご紹介します。
ネットワークの負荷を高める方法は、仮想マシン「Win7-01(192.168.250.202)」から、仮想マシン「Win7-02(192.168.250.200)」へPingコマンドを実行します。
Pingコマンドは、「-t:パケットの送受信を無限に繰り返す」と「-l:パケットのデータサイズ(バイト単位)を指定する」の2つのオプションを追加しています。今回は負荷を高めるため「-l 1000」を指定しました。-lのデフォルト値は32バイトです。
実行してしばらく経つと、「推奨」タブに、Win7-01でCPU使用量が高いためストレスが発生しているとアラートが表示されました。
alert

◆vROpsでの分析◆
ここから順に原因を特定していきます!
「Win7-01」の「分析」タブで詳細な状況を確認します。通常とは異なる状態であることを表わす「アノマリ」が高い値を示しています。
anomaly
どのリソースが高い値を引き起こしているかを、画面下部の詳細情報から確認します。
これらの情報から、「ネットワークリソース」に原因があることがわかります。
Detail
「詳細」タブの「仮想マシンのネットワークI/O診断」からは、14:40以降に受信/送信パケット数が上がっていることもわかります。
Detail2
ここで、あらためてネットワークのパフォーマンスについて確認します。

◆仮想ネットワークのパフォーマンス◆
仮想ネットワークは、「スループット」や「パケットドロップ」のメトリックを使用してパフォーマンスを監視します。特に「パケットドロップ」が発生しているかを確認することはパフォーマンス劣化の原因を特定する有効な方法です。
パケットドロップは、受信と送信でパフォーマンス劣化の原因が異なります。そのため対応方法もそれぞれ異なります。

<ドロップ送信パケット>
送信パケットは、ネットワークキャパシティが足りない場合に、仮想NICから仮想スイッチポートの順でキューイングされ、いずれもキューがあふれるとドロップされます。

<ドロップ受信パケット>
受信パケットは、準備できていない場合に、仮想NICから仮想スイッチポートの順でキューイングされ、いずれもキューがあふれるとドロップされます。

「準備できる」というのは、受信する仮想マシンで、仮想CPUに物理CPUが割り当てられた状態です。物理CPUが割り当てられなければ、受信処理を行うことができません。
仮想マシンのCPU使用率は、受信パケットのドロップ数にも影響を与えます。

◆Log Insightでイベントの検索◆
下図は、「IPアドレス」と「dropped」をキーワードに、仮想マシン「Win7-01」のLogを検索した結果です。木曜(12/8)の17時前後にドロップされているイベントがあります。vROpsの「ストレス」で確認した曜日と時間が一致しています。ドロップによるパフォーマンスが劣化していることは確定しました。
LI
参考までに、受信側の仮想マシン「Win7-02」の状況も確認してみます。
こちらの仮想マシンも、「アノマリ」で高い値を示しています。送信側の仮想マシン「Win7-01」と異なるのは、「CPU|準備完了」の値も上がっています。仮想CPUに物理CPUに割り当てられず、受信処理が行われていないことがわかります。
ネットワークのパフォーマンスが劣化している場合は、原因特定にCPUの状況も確認する必要がありますね。
Detail3

◆まとめ◆
Log Insightと連携することで、詳細な日時で何が起きたのかを確認することができます。
vROpsの「詳細」タブでは日時までは確認できますが、具体的に何が起きているかまでは調査するのは厳しいですね。
仮想化健康診断で、具体的な日時で何が起きているのでしょうかと聞かれます。連携すると、このご質問にも対応できますね。ぜひご活用いただきたいと思います。
計9回(パート1 x4回パート2 x5回)にわたり、vROpsの活用法をご紹介してきました。「このBlogで勉強しています」と声をかけていただくこともあり、嬉しいフィードバックでした。
今後も、様々な製品の活用法をご紹介していけたらと思います!

nakagawa
ソフトバンクC&SのサイトでvROpsを使用した仮想化健康診断の事例を紹介しています。ここでは、「vSphere環境を運用管理している方が何に困っているのか」「その困ったことにパートナーのみなさまがどのようにアプローチされているのか」を載せています。インタビュー形式で構成しています。ぜひお仕事に役立つ情報を手に入れてください!
voa

VMware vRealize Operations Manager (vROps) をパワーアップしよう! パート2

4回目:レポートの活用方法

– Back Number –
#1…最新のV4Hが使いやすくなっている!
#2…ビューの活用方法①
#3…ビューの活用方法②
#4…レポートの活用方法
#5…vRealize Log Insightとの連携
#6…V4HでHorizon RDSホストの監視

こんにちは、ソフトバンク コマース&サービスの中川明美です。
今回はレポートの活用方法をご紹介します。レポートを活用するためには、カスタマイズが必要です!!

◆よくあるご質問◆

「レポートの出力期間を変更したい」と質問を受けることがあります。その場合はレポートの元となる「ビュー」の日付範囲を変更します。
レポートは、1つ以上の「ビュー」または「ダッシュボード」、もしくは両方から構成されます。データの表示は「ビュー」または「ダッシュボード」を使用し、レイアウト(配置)や出力形式(PDF/CSV)をレポートの作成ウィザードで指定します。

◆カスタムレポートの作成①◆

既存レポートの出力期間(過去の期間)をデフォルトの30日から特定の2ヶ月間に変更します。
<データタイプの確認>
ここでは、「ホストのCPUデマンドおよび使用量(%)トレンドビューレポート」をカスタムの対象にします。どのビューを元にレポートが構成されているかを確認します。レポートを選択し、「テンプレートの編集」アイコンをクリックします。

edit-report-template

「2.ビューとダッシュボード」の「データタイプ」が表示されます。このレポートは、「ホストのCPUデマンドおよび使用量(%)トレンドビュー」というビューで構成されていることがわかります。

edit-report-template2

<ビュー/レポートの編集>
レポートのデータ表示期間を変更するには、レポートのデータタイプで指定されたビューの日付範囲を変更します。その後、変更したビューに差し替えます。この場合、ビューもレポートもコピーを作成し、変更することをお勧めします。

■ビューの編集
edit-view

■レポートの編集
edit-report
edit-report2

◆レポートの出力◆
レポートのテンプレートを実行し、レポートを出力(ダウンロード)します。
download-report

下図は、日付範囲を変更したレポートをPDFで出力した結果です。「特定の日付範囲」で指定した8月~9月の過去データが表示されています。

display-report

◆カスタムレポートの作成②◆
新規レポートを作成します。前回のBlogで作成したカスタムビューを元にレポートを作成します。
下図は、前回のBlogで作成したカスタムビューです。
custom-view

<レポートの新規作成>
create-report
create-report2

◆まとめ
2つのカスタムレポートの作成方法をご紹介しました。ぜひ活用してみてください!
全体を通したお話となりますが、vROpsに慣れるまでは標準の機能(ダッシュボード/ビュー/レポート)を使用してみてください。vROpsを知る段階で、カスタム機能までを習得しようとすると、「やることがいっぱい」「カスタム機能は難しい」と思ってしまうようです。
まずは、「vROpsで何ができるの?」を知ることから始めてください。その後、カスタム機能を習得するのが理想的です。カスタム機能については、ぜひこちらのBlogをご活用いただけたらと思います。

次回は、vRealize Log Insightとの連携をご紹介します。

nakagawaソフトバンクC&SのサイトでvROpsを使用した仮想化健康診断の事例を紹介しています。ここでは、「vSphere環境を運用管理している方 が何に困っているのか」「その困ったことにパートナーのみなさまがどのようにアプローチされているのか」を載せています。
インタビュー形式で構成しています。ぜひお仕事に役立つ情報を手に入れてください!
voa

VSAN で DR / BCP を実現する VSAN Stretched Cluster !! ~ vSAN stretched clusterとは? ~

第1回 vSAN stretched clusterとは?

img_0284

皆さん、こんにちは。JBCC株式会社の美谷島と申します。

突然ですが、VSAN Stretched Cluster をご存知でしょうか?

先日のvForum 2016 の VSAN Deep Dive セッションでも紹介されていました vSAN stretched Clusterの概要、構築方法などを 今回から4回にわたってご紹介していきたいと思います。

第1回ではvSAN stretched clusterとは?と題してvSAN stretched clusterの概要・メリット、サイジング方法をご紹介します。

弊社では、VMware社のvSphereやHorizonのような仮想化製品のインテグレーションに力を入れています。

その中でも、特に注目したのが ” Software Defined Storage(以下SDS)”です。SDS は一言でいうとソフトウェアでストレージ機能を実装するという技術です。仮想化基盤では可用性を持たせるために共有ストレージ装置が必要となりますが、SDS を導入すれば汎用的なx86サーバだけで共有ストレージ機能を実現できるのが強みです。また、x86サーバを追加するだけで簡単に容量とパフォーマンスを増強することができますので、オンプレミス環境であってもクラウド環境のような柔軟な拡張性が実現できるようなりました。ちなみに SDS は近ごろ大変脚光を浴びている Hyper-Converged Infrastructure のコアテクノロジーでもあります。

現在各社からたくさんの SDS 製品がリリースされておりますが、その中でも VMware 社の vSAN stretched cluster 機能 は BCP 対策も可能な高度な機能を有したストレージです。

私共はこの vSAN stretched cluster に着目して、お客様に新たな選択肢となり得るであろう BCP ソリューションをお届けするためにこれを検証することにしました。

 

vSAN概要

1

まず、stretched clusterを語る前に簡単に vSAN のおさらいをしておきますが、 vSAN は SDS 製品の中でも代表格となる製品です。 従って、 vSAN によって SDS のメリットがもれなく享受でき、その上、各ノードに SSD を配置することで、これをディスクの Read Write の IO のキャッシュとして利用することができパフォーマンス向上も期待できます。さらには、仮想マシン毎に可用性のレベルや QoS をセットすることが可能で、ポリシーベースで柔軟性があるところも他の SDS にはない、非常に大きな強みとなっています。

 

 

vSAN Stretched Cluster概要

ここからが本題となりますが、 Stretched Cluster は通常の vSAN 構成と何が違うのでしょうか。

端的にご説明しますと地理的に離れたサイト間で vSAN が組めるということです。普通に考えれば2サイトにロケーションが分かれればストレージは2つ独立して存在することになるのですが、 Stretched Cluster は2つのサイト間(地理的に離れたサーバ同士)でも1つの共有ストレージとして扱うことができます。

 

2

 

また、災害対策と言うと一般的には Active – Standby 構成となり、災害対策サイト側の機器は普段は稼働することなく、遊んでしまっている状態になってしまい、ちょっと勿体ない構成となってしまいますが vSAN Stretched Cluster は本番サイト、災対サイト 共に Active – Activeで構成できる ことがポイントです。

Active – Active構成にすることで以下のメリットが挙げられます。

 

・災害対策サイト側も Active なのでリソースを有効活用

・ゼロRTO * 1(サイト間でデータは完全同期レプリケーション)

*1 RTO ・・・ Recovery Time Objective

・各サイトにvCenterを配置する必要がなく、本番サイト1つで良い

・本番サイトから災害対策サイトへの切り替え作業が不要

(基本的にL2延伸でサイト間は利用しますので、DNSによるレコード切替、IPアドレス変更といったサイトを切り替える手順を実施する手間が省けます。)

 

シンプルな構成で DR 構成を組みたいといったユーザ様にとってはメリットが大きい構成だと思います。

また、通常の vSANは 同じデータを別ホストにも書き込むことで冗長性を担保していることが特徴ですが、 vSAN Stretched Cluster構成であれば別サイトのホストに可用性のためのデータを書込むことが可能になりますので、サイト障害にも、もちろん データロスなしで対応できます。

 

その他に必要となるコンポーネントとして witness サーバがあります。 Witness サーバとは監視サーバのことであり、サイトの死活監視をしていますので Witness サーバは両サイトとは別のセグメントで立てる必要があります。

vSAN Stretched Cluster 環境では2フォルトドメインまで立てられ、各フォルトドメインに15ホストまで構築可能です。フォルトドメインとは Disk グループで構成される障害の単位になります。

 

vSAN Stretched cluster の要件は以下の通りです。(一般的な vSAN の必要条件はここでは割愛します。)

 

・vSphere 6.0 update1以上

・最適な仮想マシンの挙動を行うためにDRSのアフィニティルールが必要となりますので、エディションはEnterprise Plus以上

・10 Gbps以上のネットワーク帯域(サイト間)

・100 Mbps以上のネットワーク帯域(サイト ー witness間)

・5 msec以下のlatency(サイト間)

・100 msec以下のlatency(サイト ー witness間)

・サイト間はL2接続

・サイト – witness間は L3 接続

 

3

 

既にお気づきかと思いますが、ここで肝となるのがネットワーク(vSANネットワーク)です。

そこで、vSAN ネットワークのサイジング方法をご紹介します。

 

 

サイジング

ここからはサイジングの話となります。まず、CPUやメモリ、 Diskといったサイジングについては通常のvSAN 構成と同様なので以下の VMware 社 川崎様記載のブログを参照ください。

http://blogs.vmware.com/jp-cim/2016/04/vSAN_04.html

 

通常のvSAN構成と違う点としては、片方のサイトが被災した場合も考慮しなければいけないのでCPU、メモリは片方のサイトで賄えるようにサイジングする必要があります。

ネットワークのサイジングについては write のスループットがポイントとなってきます。データを書き込む際の処理の動きは図4の通りとなり、サイト間の vSAN ネットワークが 5msec以内であることが必須要件となります。

データの読み込みは仮想マシンが稼働しているプライマリホスト群から直接読み込みますので別サイトにあるホストにアクセスすることはなく、WAN経由してまでvSANネットワークを使うことはありません。(図5)

 

4

 

5

 

そこで各ホストの write のスループットを算出することで必要となる vSAN ネットワーク帯域が判明できますのでネットワークをサイジングするときは write スループットの算出がお勧めです。

 

※ JBCC社における構成時の参考値

・既存に vSAN を導入している場合

…ESXTOPで算出

・vSphere 環境のみであり、新規に vSAN Stretched Cluster を導入する場合

…既存ストレージの管理画面から取得

 

(例) writeスループット:1 Gbpsの場合

vSAN ネットワーク=1 Gbps ( writeスループット)×1.4(オーバーヘッド)×1.25(障害時に走るtraffic 25 % 込)=1.75 Gbps

 

この場合であれば10 Gbpsの帯域で余裕ですね。

 

以上が vSAN Stretched Clusterの概要、サイジング方法でした。

 

尚、弊社ではストレージのワークロードを分析しお客様環境のIO分析をするストレージクリニックと呼ばれる無償サービスを実施していますのでwriteスループットの算出のみでなく仮想環境のサイジングを実施する際は是非ともご活用ください。

http://www.jbcc.co.jp/products/plan/storage_clinic/index.html

 

ただ、障害時にどのような挙動になるか気になりますよね?

JBCC は日本で最初にvSAN Stretched Clusterをお客様に提案し、ご採用頂きました。

ご採用頂くにあたり私共は、様々な検証をしました。そのときの内容を元に、次回は障害時の挙動に関してご紹介しますので是非ともご確認ください。

 

vSAN Stretched Clusterブログ

第1回 vSAN Stretched Clusterとは?

第2回 障害時の挙動

第3回 構築、運用ポイント

第4回 JBCC推奨構成