TKO Blog シリーズ第 1 回 「Kubernetes 環境の本番運用からマルチクラウドへの拡張まで」 の記事ではマルチクラウド対応を見据えた形で Kubernetes 環境の本番運用で必要となる要素を包括的に提供する Tanzu Kubernetes for Operations(TKO)の全体像をご紹介し、第2回では VMware が提供するKubernetes のディストリビューションの Tanzu Kubernetes Grid(TKG) だけではなく各パブリッククラウドで提供されているマネージド Kubernetes サービスまで含めて、複数の Kubernetes 実行環境を統合管理する Tanzu Mission Control の概要を紹介しました。
シリーズ第3回の本記事では、クラウドネイティブなアプリケーションの運用管理に求められるオブザーバビリティとは何かを押さえた上で、プラットフォームからアプリケーションまでフルスタックのオブザーバビリティを提供し、複数の環境を統合的に可視化する SaaS 型かつマルチクラウドに対応した運用プラットフォームである「VMware Aria Operations for Applications(旧称 Tanzu Observability)」の概要をご紹介します!
※ Tanzu Observability(TO)は、8月29日〜9月1日にUSで開催された VMware Explore 2022 における発表で、マルチクラウド管理ポートフォリオである VMware Aria の1つとしてリブランディングされ、VMware Aria Operations for Applications(以下、AOA) に名称変更されました。今後、ドキュメントや製品紹介ページについても順次名称変更がされていく予定です。
図. VMware Aria Operations for Applications
オブザーバビリティ(可観測性)とモニタリングの違い
近年、マイクロサービスアーキテクチャを採用した開発によって、より短期間でユーザーのニーズを捉えた競争力のあるサービスを市場に提供することでビジネス成長を促進させるというアプローチが注目されています。しかし、このような分散型のアーキテクチャに課題がないわけではありません。個々の機能ごとに分割されたサービスが大量のコンポーネントとして存在し、またそれぞれのサービスが複雑に連携して1つのシステムとして動作し、それらの何百もの依存関係を全て把握することは困難になります。そのため、運用管理はより複雑になり、障害が発生した際に問題の根本原因を捉えることも難しくなります。
また、ユーザーからのアプリケーションのサービスレベルや機能に対する期待値の高さは上がる一方で許容度は下がってきており、ユーザーに影響を与える不具合が何度も発生したり、バグ修正までの時間を要する場合、60%以上の人がそのアプリーションを使わなくなるとも言われています。そのため、リアルタイムな不具合の発見・原因の早期究明がビジネスにおいても死活問題となってきています。このような複雑なシステムで迅速に不具合や改善点を発見するためにシステムの状態を横断的に可視化するオブザーバビリティ(可観測性)を備えた運用が必要である、と言われています。
ではオブザーバビリティと従来のモニタリングの違いはなんでしょうか?
モニタリングとは簡単に言えば「指定したデータ」を収集し何か問題が発生すれば通知するような監視の仕方で、最初から監視すべきコンポーネントと監視すべきメトリックが事前に決定され、それに対応する監視ツールを用いて特定のデータを収集・分析し、特定の目的に役立てます。そのため、モニタリングで収集している特定のデータ以外に関連する問題は盲点となりやすく、そのような問題が発生した場合は根本原因の突き止めが難しくなります。
一方で、オブザーバビリティはシステムやアプリケーションに関連する様々なソースから常にデータを収集し、目的に応じて分析機能を用いてドリルダウンしながら問題の原因や修正方法を見出すことで、システム全体の健全性やパフォーマンス、状態を包括的に把握します。
例えばモニタリングが定期的に医師の診断を受けてその時点での特定の検査項目の情報から診断を行うものだとすると、オブザーバビリティは常に体にウェアラブルデバイスをつけて通常時からありとあらゆるデータを収集して、過去のデータと共に常に分析することで本人が認識していない問題や、異常の予兆をキャッチしたり、具体的な不調がなくてもより健康になることを目指して効率的なトレーニングをすることにデータを役立てるイメージになります。
図. モニタリングとオブザビリティのイメージ
オブザーバビリティを実現する VMware Aria Operations for Applications
オブザーバビリティには次の要素が必要であると言われています。
- 幅広いレイヤーで必要なデータ(メトリクス、ログ、トレース)の収集が可能
- 膨大なデータを意味づけする、相関を見つけ出す分析機能
- 収集したデータや分析結果をわかりやすく可視化できること
単にメトリクスやログといったデータが閲覧できるだけではオブザーバビリティとは言えず、あらゆるデータの関係性を分析し、それらをわかりやすい形で可視化することでリアルタイムな不具合の発見や原因の早期究明、アプリケーションの改善といった具体的なアクションにアプローチできる要素を兼ね備えている必要があります。
ここからは、AOAがどのようにこれらの3つの要素を提供しているかを紹介します。
(1)幅広いレイヤーで必要なデータ(メトリクス、ログ、トレース)の収集が可能
前述した通り、近年はシステム構成も複雑化してきており、複雑なマイクロサービスアーキテクチャにより増えるサービスやクラウド上およびオンプレミス上にあるシステムに関わる全てのコンポーネント(仮想マシン、コンテナ、ネットワーク、ストレージ etc)のデータを収集できる必要があります。
これに対し、AOA はクラウドからオンプレミスのインフラストラクチャ、ミドルウェア等と連携することでアプリケーションレイヤーからインフラレイヤーまで、フルスタックなデータを取得することができます。現在 AOA は AWS や Azure といった主要のクラウド各種サービスから、主要ミドルウェア、VMware 関連製品も含む 250 を超えるインテグレーションを活用して監視が必要となる全てのレイヤーから情報を取得しシステム全体の状態を把握することができ、ユーザーに対してアプリケーションレイヤーからインフラレイヤーに渡るフルスタックなオブザーバビリティを提供しています。
使用可能なインテグレーションの詳細についてはこちらからご確認ください。
図. AOA はあらゆるレイヤーの情報を取得・可視化
AOA は SaaSサービスですので、これらの膨大なデータをオンプレミスに保存する必要がないという点もメリットです。
また、現在は beta 版ではありますが、AOA にログを送り GUI からログ検索を行ったり、収集したメトリクスのグラフやトレースからドリルダウンして関連するログを AOA 内で調査するなど、各種データを連携させて AOA 内でメトリクスの可視化による状況把握からログによる根本原因の調査まで一元的に行うことが可能になっています。
(2)膨大なデータから意味づけする、相関を見つけ出す分析機能
AOA の強みの1つに高度な分析機能を行えるという点があります。AOA は 150 を超える分析用の関数を提供しており、ユーザーはそれらの関数を使用して自由に分析を行うことができます。また、AI/ML モデルを活用した「異常検知」「将来予測」「アラートの自動関連付け」の機能を提供しており、通常時と明らかに異なるデータから異常を自動的に検知したり、発生したアラートに対して関連するイベントやアラート、疑わしいコンポーネントの情報を自動的にまとめて表示することができるため問題の早期発見・解決を支援します。実はこの AOA が持つ AI/ML モデルは既に学習が完了しているため、ユーザーが改めて挙動を学習させる手間は必要はなく、AOA を使い始めた段階から利用が可能という点も大きな特徴になっています。
収集されたデータについては即分析が可能となっており、これらの分析結果はダッシュボードで可視化したり、アラートとしてメッセージツールと連携して通知することで監視に活用できます。
図. AOA 分析機能
(3)収集したデータや分析結果をわかりやすく可視化できること
AOA は様々なインテグレーションに対して すぐに利用できるダッシュボードを提供しており、例えば Kubernetes サービスに対して、クラスタやノード、ポッドなど全ての Kubernetes レイヤから取得したメトリックをダッシュボードに取り込み可視化します。他にも AWS の各種サービスや、VM 環境など様々な ダッシュボードが用意されています。
図. Kubernetes のダッシュボード例
図. AWS のダッシュボード例
他にもトレース(ユーザーがアプリケーションに送ったリクエストを受け取ってから、出力するまでの時系列の一連の流れ)をダッシュボードに表示してボトルネックの特定に役立てたり、アプリケーションから収集したデータから自動的にトポロジーや SaaS サービスとの連携を検出し、マッピングを作成することもできます。
図. トレースの表示
図. アプリケーション内の依存関係や SaaS サービスとの連携をマップとして表示
そして開発者用のダッシュボードやネットワーク担当者用のダッシュボード、特定のアプリケーションに対して関連するデータや分析結果を1つのダッシュボードで統合的に表示させて全体を把握するなど、ユーザーの用途に応じてダッシュボードをカスタマイズすることも可能になっています。
まとめ
今回のブログでは、プラットフォームからアプリケーションまでフルスタックのオブザーバビリティを提供し、マルチクラウドに対応して複数の環境を統合的に可視化する SaaS 型の運用監視ツールの VMware Aria Operations for Applications について概要をご紹介させて頂きました。
TKO Blog シリーズでは AOA のより詳細な機能についても今後ご紹介する予定ですので、どうぞそちらもご期待ください!
また、AOA はフリートライアルで 30 日間無料でお試し頂くことが可能です。
ご興味がある方はこちらからぜひお試しください。