モデルアーティファクトを W&B から NVIDIA NeMo Inference Microservice にデプロイします。これを行うには、W&B Launch を使用します。W&B Launch はモデルアーティファクトを NVIDIA NeMo Model に変換し、稼働中の NIM/Triton サーバーにデプロイします。 W&B Launch は現在、以下の互換性のあるモデルタイプを受け入れています:Documentation Index
Fetch the complete documentation index at: https://wb-21fd5541-mintlify-style-consistency-1776283399.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
デプロイメント時間はモデルとマシンタイプによって異なります。ベースの Llama2-7b 構成は、GCP の
a2-ultragpu-1g で約1分かかります。クイックスタート
-
launch キューを作成する まだ持っていない場合は、以下に例としてキュー設定を示します。

-
プロジェクトにこのジョブを作成します:
-
GPU マシンでエージェントを起動します:
-
希望する設定でデプロイメントローンチジョブを Launch UI から送信します。
- CLI から送信することもできます:

- CLI から送信することもできます:
-
Launch UI でデプロイメントプロセスを追跡できます。

-
完了すると、すぐにエンドポイントに curl してモデルをテストできます。モデル名は常に
ensembleです。