GKE での AI / ML ワークロードの概要

このページでは、AI / ML ワークロード用の Google Kubernetes Engine(GKE��のコンセプトの概要について説明します。GKE は、Google が管理する Kubernetes オープンソース コンテナ オーケストレーション プラットフォームです。

Google Kubernetes Engine は、AI や ML のアプリケーションなど、すべてのコンテナ化されたワークロードを実行するためのスケーラブルで柔軟かつ費用対効果の高いプラットフォームを提供します。大規模な基盤モデルのトレーニング、大規模な推論リクエストの処理、包括的な AI Platform の構築など、GKE は必要な制御とパフォーマンスを提供します。

このページは、AI / ML ワークロードを実行するためのスケーラブルで自動化されたマネージド Kubernetes ソリューションをお探しのデータと AI のスペシャリスト、クラウド アーキテクト、オペレーター、デベロッパーを対象としています。一般的なロールの詳細については、GKE ユーザーの一般的なロールとタスクをご覧ください。

GKE で AI / ML ワークロードを使ってみる

GKE の無料枠を使用すると、数分で GKE の探索を開始できます。これにより、クラスタ管理に費用をかけずに Kubernetes を開始できます。

  1. Google Cloud コンソールで使ってみる

  2. 次のクイックスタートを試してみてください。
    • GKE での推論: 事前定義されたアーキテクチャを使用して、推論用に AI 大規模言語モデル(LLM)を GKE にデプロイします。
    • GKE でのトレーニング: GKE に AI トレーニング モデルをデプロイし、予測を Cloud Storage に保存します。
  3. AI / ML ワークロードのアクセラレータ使用オプションについてで、プラットフォームのアクセラレータ(GPU と TPU)の計画と取得に関するガイダンスとリソースをご確認ください。

一般的なユースケース

GKE は、すべての AI ワークロードをサポートできる統合プラットフォームを提供します。

  • AI Platform の構築: エンタープライズ プラットフォーム チーム向けに、GKE は多様なニーズに対応する標準化されたマルチテナント プラットフォームを柔軟に構築できます。
  • 低レイテンシのオンライン サービング: 生成 AI アプリケーションを構築するデベロッパー向けに、GKE と推論ゲートウェイは、費用を管理しながら応答性に優れたユーザー エクスペリエンスを実現するために必要な最適化されたルーティングと自動スケーリングを提供します。

AI / ML ワークロードに最適なプラットフォームを選択する

Google Cloud には、フルマネージドから完全に構成可能なものまで、ML への移行をサポートするさまざまな AI インフラストラクチャ プロダクトが用意されています。適切なプラットフォームを選択するには、制御、柔軟性、管理レベルに関する具体的なニーズを考慮する必要があります。

ベスト プラクティス:

きめ細やかな制御、ポータビリティ、カスタマイズされた高性能 AI Platform を構築する機能が必要な場合は、GKE を選択します。

  • インフラストラクチャの制御と柔軟性: インフラストラクチャを高度に制御する必要がある、カスタム パイプラインを使用する必要がある、またはカーネルレベルのカスタマイズが必要である。
  • 大規模なトレーニングと推論: GKE のスケーリングと高パフォーマンスを使用して、非常に大規模なモデルをトレーニングしたり、最小限のレイテンシでモデルをサービングしたりする場合。
  • 大規模な費用対効果: GKE と Spot VM および Flex-start VM のインテグレーションを使用して費用を効果的に管理し、費用の最適化を優先する場合。
  • ポータビリティとオープン スタンダード: ベンダーのロックインを回避し、Kubernetes を使用してワークロードをどこでも実行したい。また、既存の Kubernetes の専門知識やマルチクラウド戦略がある場合。

次の方法も検討できます。

Google Cloud サービス 最適な用途
Vertex AI 開発を加速し、インフラストラクチャ管理をオフロードするフルマネージドのエンドツーエンド プラットフォーム。MLOps と価値創出までの時間の短縮に重点を置くチームに適しています。詳細については、AI モデルをホストするうえでの自己ホスト型 GKE かマネージド Vertex AI かの選択をご覧ください。
Cloud Run ゼロまでスケーリングできるコンテナ化された推論ワークロード用のサーバーレス プラットフォーム。イベント ドリブン アプリケーションや、小規模なモデルの費用対効果の高いサービングに適しています。比較の詳細については、GKE と Cloud Run をご覧ください。

GKE が AI / ML ワークロードを強化する方法

GKE は、大規模なトレーニングから低レイテンシの推論まで、AI / ML ライフサイクルの各段階を簡素化して高速化する一連の特殊なコンポーネントを提供します。

次の図では、GKE は Google Cloud内にあり、さまざまなクラウド ストレージ オプション(Cloud Storage FUSE や Managed Lustre など)とさまざまなクラウド インフラストラクチャ オプション(Cloud TPU や Cloud GPU など)を使用できます。GKE は、ディープ ラーニング(JAX や TensorFlow など)、ML オーケストレーション(Jupyter や Ray など)、LLM 推論(vLLM や NVIDIA Dynamo など)用のオープンソース ソフトウェアやフレームワークとも連携します。
図 1: AI / ML ワークロード用のスケーラブルなマネージド プラットフォームとしての GKE。

次の表に、AI / ML ワークロードまたは運用上の目標をサポートする GKE の機能の概要を示します。

AI / ML のワークロードまたはオペレーション GKE がサポートする内容 主な機能
推論とサービング 低レイテンシ、高スループット、費用対効果で AI モデルを弾力的に提供するように最適化されています。
  • アクセラレータの柔軟性: GKE は、推論用に GPUTPU の両方をサポートしています。
  • GKE Inference Gateway: AI 推論ワークロード専用のインテリジェントなルーティングとロード バランシングを提供するモデル対応のゲートウェイ。
  • GKE Inference Quickstart: 一般的な AI モデルのベンチマークされたプロファイルを提供することで、パフォーマンス分析とデプロイを簡素化するツール。
  • GKE Autopilot: クラスタ オペレーションと容量のサイズ適正化を自動化し、オーバーヘッドを削減する GKE 運用モード。
トレーニングとファイン チューニング 非常に大規模なモデルを効率的にトレーニングし、費用を最小限に抑えるために必要なスケーリング機能とオーケストレーション機能を提供します。
  • ノードの起動の高速化: GPU ワークロード専用に設計された最適化により、���ードの起動時間を最大 80% 短縮します。
  • Dynamic Workload Scheduler を活用した Flex Start プロビジョニング モード: 短期間のトレーニング ワークロード用に希少な GPU アクセラレータと TPU アクセラレータを確保する機能が向上します。
  • Kueue: バッチ ワークロードのリソース割り当て、スケジューリング、割り当て管理、優先順位付けを管理する Kubernetes ネイティブの Job キューイング システム。
  • TPU マルチスライス: 大規模なトレーニングを実現するために、複数の TPU スライスがデータセンター ネットワーク(DCN)を介して相互に通信できるようにするハードウェアとネットワーキングのアーキテクチャ。
統合された AI / ML 開発 分散 Python アプリケーションをスケーリングするためのオープンソース フレームワークである Ray のマネージド サポート。
  • Ray on GKE アドオン: Kubernetes インフラストラクチャを抽象化し、大規模なデータの前処理、分散トレーニング、オンライン サービングなどのワークロードを最小限のコード変更でスケーリングできます。

次のステップ