clearml agentダウンロード - clearml agentソースコードのダウンロード

clearml agent

その他のソースコード

v1.9.2

ダウンロード

ClearML エージェント - MLOps/LLMOps が簡単になりました
Linux、macOS、Windows をサポートする MLOps/LLMOps スケジューラおよびオーケストレーションソリューション

? ClearML is open-source - Leave a star to support the project! ?

ClearML エージェント

以前は鉄道エージェントとして知られていました

ローカルまたはクラウドベースのリソース上でジョブ (実験) を実行します。
最適化されたリソース使用ポリシーを実装する
virtualenv または完全にコンテナ化された Docker を使用して、手間をかけずに実行環境をデプロイします。
起動して忘れるサービスコンテナ
クラウドの自動スケーリング
カスタマイズ可能なクリーンアップ
高度なパイプラインの構築と実行

これは、完全な ML/DL クラスターソリューションを提供する、ゼロ構成のファイアアンドフォーゲット実行エージェントです。

5ステップで完全自動化

ClearML Server のセルフホスティングまたは無料枠ホスティング
pip install clearml-agent (任意の GPU マシン: オンプレミス / クラウド / ...) に ClearML エージェントをインストールします。
わずか 2 行のコードでジョブを作成したり、コードに ClearML を追加したりできます
UI のパラメータを変更し、実行をスケジュールします (または AutoML パイプラインで自動化します)。
? ? ? ?

「研究に必要なディープ / 機械学習 DevOps をすべて実行し、さらにいくつか... なぜなら、誰もそのようなことに時間を割くことができないからです。」

今すぐ ClearML を試すセルフホスティングまたは無料枠ホスティング

シンプルで柔軟な実験オーケストレーション

ClearML エージェントは、DL/ML R&D DevOps の次のニーズに対応するために構築されました。

クラスターへのマシンの簡単な追加と削除
専用のコンテナやイメージを必要とせずにマシンを再利用します
あらゆるクラウドとオンプレミスの GPU リソースを組み合わせる
いかなる種類の yaml / json / テンプレート設定も必要ありません
ユーザーフレンドリーなUI
研究者やエンジニアが使用できる管理可能なリソース割り当て
優先サポートを備えた柔軟で制御可能なスケジューラー
クラウド内でのインスタンスの自動回転

ClearML エージェントを使用して、*epsilon DevOps で動的クラスターをセットアップできるようになりました

*イプシロン - 私たちはそうなので?そして本当にゼロの仕事なんてない

Kubernetes の統合 (オプション)

私たちは Kubernetes が素晴らしいと考えていますが、リモート実行エージェントとクラスター管理を始めるのに必須ではありません。私たちは、環境に合わせてベアメタルと Kubernetes 上の両方を実行できるように、 clearml-agent設計しました。

Dockerfile は docker フォルダーにあり、helm チャートは https://github.com/allegroai/clearml-helm-charts にあります。

既存の Kubernetes クラスターと ClearML を統合する利点

ClearML-Agent は、不足しているスケジューリング機能を Kubernetes クラスターに追加します
ユーザーは Kubernetes に直接アクセスする必要はありません。
エンドユーザーに DevOps の知識を必要としない UI と CLI の習得が容易
他のソリューションとは異なり、ClearML-Agent は Kubernetes クラスターの他の顧客と連携して動作します。
コードからのより柔軟な自動化、パイプラインの構築、可視化が可能になります。
簡単な CI/CD ワークフローのためのプログラムインターフェイスにより、GitOps がクラスター内でジョブをトリガーできるようになります
ClearML ML/DL/GenAI 実験マネージャーとのシームレスな統合
ジョブのカスタマイズ、スケジュール設定、優先順位付けのための Web UI
エンタープライズ機能: RBAC、ボールト、マルチテナント、スケジューラ、クォータ管理、フラクショナル GPU サポート

Kubernetes Glue モードでエージェントを実行し、ClearML ジョブを K8s ジョブに直接マップします。

ClearML エージェントヘルムチャートを使用して、コントローラーとして機能するエージェントポッドをスピンします
- または、Kubernetes CPU ノードで Clearml-k8s グルーを実行します。
clearml-k8s グルーは、ClearML ジョブ実行キューからジョブをプルし、(提供された yaml テンプレートに基づいて) Kubernetes ジョブを準備します。
各ポッド内で、clearml-agent はジョブ (実験) 環境をインストールし、実験のプロセスをスピンして監視します。これは、clearml UI に完全に表示されます。
利点: システム内で実行中のすべてのジョブを Kubernetes で完全に表示
エンタープライズ機能
- クォータ/クォータ超過の管理、優先順位、順序を備えた完全なスケジューラ機能が Kubernetes の上部に追加されました。
- フラクショナル GPU のサポートにより、コンテナごとのメモリ/コンピューティング制限付きで同じ GPU を共有する複数の分離されたコンテナが可能になります

SLURM (オプション)

はい！ Slurm の統合が利用可能です。詳細についてはドキュメントを確認してください。

ClearML エージェントの使用

ボタンをクリックするだけで本格的な HPC を実現

ClearML エージェントは、ジョブキューをリッスンし、ジョブを取得し、ジョブ環境を設定し、ジョブを実行し、その進行状況を監視するジョブスケジューラです。

すべての「ドラフト」実験は、ClearML エージェントによる実行をスケジュールできます。

以前に実行した実験は、次の 2 つの方法のいずれかで「ドラフト」状態にできます。

ClearML UI の実験を右クリックしてコンテキストメニューから「リセット」アクションを使用すると、前回の実行で作成された結果とアーティファクトがすべてクリアされます。
ClearML UI で実験を右クリックしてコンテキストメニューから「クローン」アクションを使用する - これにより、元の実験と同じ構成で新しい「ドラフト」実験が作成されます。

実験の実行は、ClearML UI の実験を右クリックしてコンテキストメニューから[エンキュー]アクションを選択し、実行キューを選択して実行するようにスケジュールされます。

実験を作成して実行のためにキューに入れる方法を参照してください。

実験がキューに追加されると、このキューを監視している ClearML エージェントによって実験が取得されて実行されます。

ClearML UI の [ワーカーとキュー] ページには、進行中の実行情報が表示されます。

「ワーカー」タブ: クラスターを監視します
- 利用可能なリソースを確認する
- マシン統計の監視 (CPU / GPU / ディスク / ネットワーク)
「キュー」タブ:
- ジョブのスケジュール順序を制御する
- ジョブの実行をキャンセルまたは中止する
- 実行キュー間でジョブを移動する

ClearML エージェントが実際に行うこと

ClearML エージェントは、次のプロセスを使用して実験を実行します。

新しい仮想環境を作成します (または選択した Docker イメージを起動します)
仮想環境 (または Docker 内) にコードのクローンを作成します。
実験用にリストされたパッケージ要件に基づいて Python パッケージをインストールします
- PyTorch に関する特別な注意事項: ClearML エージェントは、マシンの CUDA_VERSION 環境変数に基づいてトーチパッケージを自動的に選択します。
プロセスを監視しながらコードを実行する
デバッグを容易にするために、クローン作成とインストールのプロセスを含むすべての stdout/stderr を ClearML UI に記録します。
実行を監視し、ClearML UI を使用してジョブを手動で中止できます (または、不幸にしてコードクラッシュが発生した場合は、エラーを捕捉して実験が失敗したことを通知します)。

システム設計とフロー

クリアMLアーキテクチャ

ClearML エージェントのインストール

pip install clearml-agent

ClearML エージェントの使用例

完全なインターフェイスと機能は、

clearml-agent --help
clearml-agent daemon --help

ClearML エージェントの構成

clearml-agent init

注: ClearML エージェントは、キャッシュフォルダーを使用して、pip パッケージ、apt パッケージ、クローンリポジトリをキャッシュします。デフォルトの ClearML エージェントキャッシュフォルダーは~/.clearmlです。

~/clearml.confにある構成ファイルで詳細を確認してください。

注: ClearML エージェントは、 ClearML構成ファイル~/clearml.confを拡張します。これらは同じ構成ファイルを共有するように設計されています。ここで例を参照してください。

ClearML エージェントの実行

デバッグと実験の場合は、ClearML エージェントをforegroundモードで起動し、すべての出力が画面に出力されます。

clearml-agent daemon --queue default --foreground

実際のサービスモードでは、すべての stdout が一時ファイルに自動的に保存されます (パイプする必要はありません)。注意: --detachedフラグを使用すると、 clearml-agent がバックグラウンドで実行されます。

clearml-agent daemon --detached --queue default

GPU の割り当ては、標準の OS 環境NVIDIA_VISIBLE_DEVICESまたは--gpusフラグ (または--cpu-onlyで無効) によって制御されます。

フラグが設定されておらず、 NVIDIA_VISIBLE_DEVICES変数が存在しない場合は、すべての GPU がclearml-agentに割り当てられます。
--cpu-onlyフラグが設定されている場合、またはNVIDIA_VISIBLE_DEVICES="none"場合、GPU はclearml-agentに割り当てられません。

例: 同じマシン上の GPU ごとに 1 つずつ、2 つのエージェントをスピンします。

注意: --detachedフラグを使用すると、 clearml-agent がバックグラウンドで実行されます。

clearml-agent daemon --detached --gpus 0 --queue default
clearml-agent daemon --detached --gpus 1 --queue default

例: 2 つのエージェントをスピンし、専用のdual_gpuキューから取得し、エージェントごとに 2 つの GPU

clearml-agent daemon --detached --gpus 0,1 --queue dual_gpu
clearml-agent daemon --detached --gpus 2,3 --queue dual_gpu

Docker モードでの ClearML エージェントの起動

デバッグと実験の場合は、ClearML エージェントをforegroundモードで起動し、すべての出力が画面に出力されます。

clearml-agent daemon --queue default --docker --foreground

実際のサービスモードでは、すべての stdout が自動的にファイルに保存されます (パイプする必要はありません)。注意: --detachedフラグを使用すると、 clearml-agent がバックグラウンドで実行されます。

clearml-agent daemon --detached --queue default --docker

例: デフォルトのnvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 Docker を使用して、同じマシン上の GPU ごとに 1 つずつ、2 つのエージェントをスピンします。

clearml-agent daemon --detached --gpus 0 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
clearml-agent daemon --detached --gpus 1 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

例: デフォルトのnvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 Docker を使用して、専用のdual_gpuキューからプルして 2 つのエージェントをスピンし、エージェントごとに 2 つの GPU を使用します。

clearml-agent daemon --detached --gpus 0,1 --queue dual_gpu --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
clearml-agent daemon --detached --gpus 2,3 --queue dual_gpu --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

ClearML エージェントの開始 - 優先キュー

プライオリティキューもサポートされています。使用例:

高優先度キュー: important_jobs 、低優先度キュー: default

clearml-agent daemon --queue important_jobs default

ClearML エージェントは、最初にimportant_jobsキューからジョブを取得しようとします。キューが空の場合にのみ、 defaultキューからジョブを取得しようとします。

キューの追加、キュー内のジョブ順序の管理、キュー間でのジョブの移動は、Web UI を使用して実行できます。無料サーバーの例を参照してください。

ClearML エージェントの停止

バックグラウンドで実行されているClearML エージェントを停止するには、エージェントの起動に使用したのと同じコマンドラインに--stop追加して実行します。たとえば、上に示した同じマシンの最初の単一 GPU エージェントを停止するには、次のようにします。

clearml-agent daemon --detached --gpus 0 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 --stop

ClearML サーバー上で実験を作成するにはどうすればよいですか?

ClearML をコードと統合する
マシン上でコードを実行します (手動 / PyCharm / Jupyter Notebook)
コードの実行中、 ClearML は必要な実行情報をすべて記録する実験を作成します。
- Git リポジトリリンクとコミット ID (または jupyter ノートブック全体)
- Git diff (決してコミットしてプッシュしないと言っているわけではありませんが、それでも...)
- コードで使用されている Python パッケージ (使用されている特定のバージョンを含む)
- ハイパーパラメータ
- 入力アーティファクト
これで、自動実行に必要なものがすべて揃った実験の「テンプレート」が完成しました。
ClearML UI で、実験を右クリックし、[クローン] を選択します。実験のコピーが作成されます。
元の実験からクローンされた新しいドラフト実験が作成されました。自由に編集してください。
- ハイパーパラメータを変更する
- リポジトリの最新のコードベースに切り替える
- パッケージのバージョンを更新する
- 実行する特定の Docker イメージを選択します (Docker 実行モードのセクションを参照)
- または、何も変更せずに同じ実験を再度実行することもできます...
新しく作成した実験の実行をスケジュールします。実験を右クリックして「エンキュー」を選択します。

ClearML エージェントサービスモード

ClearML-Agent Services は、ClearML-Agent の特別なモードであり、以前はローカル/専用マシンで実行する必要があった長期にわたるジョブを起動する機能を提供します。これにより、単一のエージェントがさまざまなユースケースに合わせて複数の Docker (タスク) を起動できるようになります。

オートスケーラーサービス (必要が生じ、予算が許す場合にインスタンスをスピンする)
コントローラー (パイプラインとより洗練された DevOps ロジックの実装)
オプティマイザー (ハイパーパラメーターの最適化やスイープなど)
アプリケーション (データの透明性を高めるためのインタラクティブな Bokeh アプリなど)

ClearML-Agent Services モードは、指定されたキューにエンキューされたタスクをスピンします。 ClearML-Agent Services によって起動されるすべてのタスクは、システム内の新しいノードとして登録され、追跡機能と透過性機能を提供します。現在、サービスモードの clearml-agent は CPU のみの構成をサポートしています。 ClearML-Agent サービスモードは、GPU エージェントと一緒に起動できます。

clearml-agent daemon --services-mode --detached --queue services --create-queue --docker ubuntu:18.04 --cpu-only

注: 適切なタスクが指定されたキューにプッシュされていることを確認するのはユーザーの責任です。

AutoML とオーケストレーションパイプライン

ClearML エージェントを使用して、ClearML パッケージと組み合わせて AutoML オーケストレーションおよび実験パイプラインを実装することもできます。

AutoML とオーケストレーションのサンプル例は、ClearML example/automation フォルダーにあります。

AutoML の例:

Toy Keras の訓練実験
- システムに実験テンプレートを作成するには、このコードを手動で 1 回実行する必要があります
上記の Keras 実験テンプレートに対するランダム検索
- この例では、異なるハイパーパラメータの組み合わせを使用して、Keras 実験テンプレートのコピーを複数作成します。

実験パイプラインの例:

最初のステップの実験
- この例では「データを処理」し、完了すると「第 2 ステップ」の実験テンプレートのコピーを起動します。
第二段階の実験
- システムに実験テンプレートを作成するには、このコードを手動で 1 回実行する必要があります

ライセンス

Apache ライセンス、バージョン 2.0 (詳細についてはライセンスを参照してください)

拡大する

追加情報

バージョン v1.9.2
タイプその他のソースコード
更新時間 2025-01-14
サイズ 1.59MB
から Github

clearml agent

ClearML エージェント

以前は鉄道エージェントとして知られていました

シンプルで柔軟な実験オーケストレーション

Kubernetes の統合 (オプション)

既存の Kubernetes クラスターと ClearML を統合する利点

SLURM (オプション)

ClearML エージェントの使用

ClearML エージェントが実際に行うこと

システム設計とフロー

ClearML エージェントのインストール

ClearML エージェントの使用例

ClearML エージェントの構成

ClearML エージェントの実行

Docker モードでの ClearML エージェントの起動

ClearML エージェントの開始 - 優先キュー

ClearML エージェントの停止

ClearML サーバー上で実験を作成するにはどうすればよいですか?

ClearML エージェントサービスモード

AutoML とオーケストレーションパイプライン

ライセンス

agent zero

RD Agent

Qwen Agent

datadog agent

エージェントロズウェル

エージェントスタイル

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

Sunamu

MySchedule.py

waymo open dataset

termwind

wp functions

clearml agent

ClearML エージェント

以前は鉄道エージェントとして知られていました

シンプルで柔軟な実験オーケストレーション

Kubernetes の統合 (オプション)

既存の Kubernetes クラスターと ClearML を統合する利点

SLURM (オプション)

ClearML エージェントの使用

ClearML エージェントが実際に行うこと

システム設計とフロー

ClearML エージェントのインストール

ClearML エージェントの使用例

ClearML エージェントの構成

ClearML エージェントの実行

Docker モードでの ClearML エージェントの起動

ClearML エージェントの開始 - 優先キュー

ClearML エージェントの停止

ClearML サーバー上で実験を作成するにはどうすればよいですか?

ClearML エージェント サービス モード

AutoML とオーケストレーション パイプライン

ライセンス

ClearML エージェントサービスモード

AutoML とオーケストレーションパイプライン