Download clearml agent - download do código-fonte clearml agent

clearml agent

Outro código-fonte

v1.9.2

Baixar

Agente ClearML - MLOps/LLMOps facilitados
Solução de orquestração e agendador MLOps/LLMOps com suporte para Linux, macOS e Windows

? ClearML is open-source - Leave a star to support the project! ?

Agente ClearML

Anteriormente conhecido como Agente de Trens

Execute trabalhos (experimentos) em qualquer recurso local ou baseado em nuvem
Implementar políticas otimizadas de utilização de recursos
Implante ambientes de execução com virtualenv ou totalmente docker em contêineres sem esforço
Contêineres de serviço iniciar e esquecer
Escalonamento automático na nuvem
Limpeza personalizável
Construção e execução avançada de pipeline

É um agente de execução do tipo "dispare e esqueça" de configuração zero, fornecendo uma solução completa de cluster ML/DL.

Automação completa em 5 passos

Hospedagem auto-hospedada ou de nível gratuito do ClearML Server
pip install clearml-agent (instale o agente ClearML em qualquer máquina GPU: local/nuvem/...)
Crie um trabalho ou adicione ClearML ao seu código com apenas 2 linhas de código
Altere os parâmetros na IU e cronograma de execução (ou automatize com um pipeline do AutoML)
? ? ? ?

"Todos os DevOps de Deep/Machine Learning que sua pesquisa precisa, e mais alguns... Porque ninguém tem tempo para isso"

Experimente ClearML agora, hospedagem auto-hospedada ou de nível gratuito

Orquestração de experimentos simples e flexível

O ClearML Agent foi criado para atender às necessidades de DevOps de P&D de DL/ML:

Adicione e remova facilmente máquinas do cluster
Reutilize máquinas sem a necessidade de contêineres ou imagens dedicadas
Combine recursos de GPU em qualquer nuvem e no local
Não há necessidade de configuração de yaml/json/modelo de qualquer tipo
UI amigável
Alocação de recursos gerenciável que pode ser usada por pesquisadores e engenheiros
Agendador flexível e controlável com suporte prioritário
Instância automática girando na nuvem

Usando o ClearML Agent, agora você pode configurar um cluster dinâmico com *epsilon DevOps

*épsilon - Porque nós somos? e nada é realmente zero trabalho

Integração Kubernetes (opcional)

Achamos que o Kubernetes é incrível, mas não é obrigatório começar com agentes de execução remota e gerenciamento de cluster. Projetamos clearml-agent para que você possa executar bare metal e em cima do Kubernetes, em qualquer combinação adequada ao seu ambiente.

Você pode encontrar os Dockerfiles na pasta docker e o gráfico do leme em https://github.com/allegroai/clearml-helm-charts

Benefícios da integração do cluster Kubernetes existente com ClearML

ClearML-Agent adiciona os recursos de agendamento ausentes ao seu cluster Kubernetes
Os usuários não precisam ter acesso direto ao Kubernetes!
Curva de aprendizado fácil com UI e CLI que não requer nenhum conhecimento de DevOps dos usuários finais
Ao contrário de outras soluções, os ClearML-Agents trabalham em conjunto com outros clientes do seu cluster Kubernetes
Permite automação mais flexível de código, construção de pipelines e visibilidade
Uma interface programática para fluxos de trabalho fáceis de CI/CD, permitindo que o GitOps acione jobs dentro do seu cluster
Integração perfeita com o gerenciador de experimentos ClearML ML/DL/GenAI
UI da Web para personalização, agendamento e priorização de trabalhos
Recursos empresariais : RBAC, vault, multilocação, agendador, gerenciamento de cotas, suporte fracionário a GPU

Execute o agente no modo Kubernetes Glue e mapeie os trabalhos ClearML diretamente para os trabalhos K8s:

Use o ClearML Agent Helm Chart para girar um pod de agente agindo como um controlador
- Ou execute a cola clearml-k8s em um nó de CPU do Kubernetes
A cola clearml-k8s extrai trabalhos da fila de execução de trabalhos ClearML e prepara um trabalho Kubernetes (com base no modelo yaml fornecido)
Dentro de cada pod, o agente clearml instalará o ambiente de trabalho (experimento) e girará e monitorará o processo do experimento, totalmente visível na UI do clearml
Benefícios: visão completa do Kubernetes de todos os trabalhos em execução no sistema
Recursos empresariais
- Recursos completos de agendador adicionados ao Top of Kubernetes, com gerenciamento de cota/sobrecota, prioridades e ordem.
- Suporte a GPU fracionária, permitindo vários contêineres isolados compartilhando a mesma GPU com limite de memória/computação por contêiner

SLURM (opcional)

Sim! A integração Slurm está disponível, verifique a documentação para mais detalhes

Usando o Agente ClearML

HPC em escala real com o clique de um botão

O ClearML Agent é um agendador de trabalhos que escuta fila(s) de trabalhos, extrai trabalhos, define os ambientes de trabalho, executa o trabalho e monitora seu progresso.

Qualquer experimento 'Rascunho' pode ser agendado para execução por um agente ClearML.

Um experimento executado anteriormente pode ser colocado no estado 'Rascunho' por um dos dois métodos:

Usando a ação 'Redefinir' no menu de contexto do experimento com o botão direito do mouse na interface do usuário do ClearML - isso limpará todos os resultados e artefatos criados pela execução anterior.
Usando a ação 'Clone' do menu de contexto do clique com o botão direito do experimento na UI do ClearML - Isso criará um novo experimento 'Rascunho' com a mesma configuração do experimento original.

Um experimento é agendado para execução usando a ação 'Enfileirar' no menu de contexto do experimento com o botão direito do mouse na UI do ClearML e selecionando a fila de execução.

Consulte criar uma experiência e enfileirá-la para execução.

Depois que um experimento for enfileirado, ele será selecionado e executado por um agente ClearML que monitora essa fila.

A página ClearML UI Workers & Queues fornece informações de execução contínua:

Guia Workers: monitore seu cluster
- Revise os recursos disponíveis
- Monitorar estatísticas de máquinas (CPU/GPU/Disco/Rede)
Guia Filas:
- Controlar a ordem de agendamento dos jobs
- Cancelar ou abortar a execução do trabalho
- Mover jobs entre filas de execução

O que o agente ClearML realmente faz

O Agente ClearML executa experimentos usando o seguinte processo:

Crie um novo ambiente virtual (ou inicie a imagem docker selecionada)
Clone o código no ambiente virtual (ou dentro da janela de encaixe)
Instale pacotes python com base nos requisitos de pacote listados para o experimento
- Nota especial para PyTorch: O ClearML Agent selecionará automaticamente os pacotes torch com base na variável de ambiente CUDA_VERSION da máquina
Execute o código enquanto monitora o processo
Registre todos os stdout/stderr na interface do ClearML, incluindo o processo de clonagem e instalação, para facilitar a depuração
Monitore a execução e permita abortar manualmente o trabalho usando a interface do usuário do ClearML (ou, no infeliz caso de falha do código, detecte o erro e sinalize que o experimento falhou)

Projeto e Fluxo do Sistema

arquitetura clearml

Instalando o Agente ClearML

pip install clearml-agent

Exemplos de uso do agente ClearML

Interface completa e recursos estão disponíveis com

clearml-agent --help
clearml-agent daemon --help

Configurando o Agente ClearML

clearml-agent init

Nota: O Agente ClearML usa uma pasta de cache para armazenar em cache pacotes pip, pacotes apt e repositórios clonados. A pasta de cache padrão do ClearML Agent é ~/.clearml .

Veja detalhes completos em seu arquivo de configuração em ~/clearml.conf .

Nota: O ClearML Agent estende o arquivo de configuração ClearML ~/clearml.conf . Eles são projetados para compartilhar o mesmo arquivo de configuração, veja o exemplo aqui

Executando o Agente ClearML

Para depuração e experimentação, inicie o agente ClearML no modo foreground , onde toda a saída é impressa na tela:

clearml-agent daemon --queue default --foreground

Para o modo de serviço real, todo o stdout será armazenado automaticamente em um arquivo temporário (sem necessidade de pipe). Aviso: com o sinalizador --detached , o agente clearml estará sendo executado em segundo plano

clearml-agent daemon --detached --queue default

A alocação de GPU é controlada por meio do ambiente de sistema operacional padrão NVIDIA_VISIBLE_DEVICES ou sinalizador --gpus (ou desabilitado com --cpu-only ).

Se nenhum sinalizador for definido e a variável NVIDIA_VISIBLE_DEVICES não existir, todas as GPUs serão alocadas para o clearml-agent .
Se o sinalizador --cpu-only estiver definido ou NVIDIA_VISIBLE_DEVICES="none" , nenhuma GPU será alocada para o clearml-agent .

Exemplo: gire dois agentes, um por GPU na mesma máquina:

Aviso: com o sinalizador --detached , o agente clearml será executado em segundo plano

clearml-agent daemon --detached --gpus 0 --queue default
clearml-agent daemon --detached --gpus 1 --queue default

Exemplo: girar dois agentes, extraindo da fila dual_gpu dedicada, duas GPUs por agente

clearml-agent daemon --detached --gpus 0,1 --queue dual_gpu
clearml-agent daemon --detached --gpus 2,3 --queue dual_gpu

Iniciando o agente ClearML no modo docker

Para depuração e experimentação, inicie o agente ClearML no modo foreground , onde toda a saída é impressa na tela

clearml-agent daemon --queue default --docker --foreground

Para o modo de serviço real, todo o stdout será armazenado automaticamente em um arquivo (sem necessidade de pipe). Aviso: com o sinalizador --detached , o agente clearml será executado em segundo plano

clearml-agent daemon --detached --queue default --docker

Exemplo: gire dois agentes, um por GPU na mesma máquina, com nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 docker padrão:

clearml-agent daemon --detached --gpus 0 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
clearml-agent daemon --detached --gpus 1 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

Exemplo: gire dois agentes, extraindo da fila dual_gpu dedicada, duas GPUs por agente, com nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 docker padrão:

clearml-agent daemon --detached --gpus 0,1 --queue dual_gpu --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
clearml-agent daemon --detached --gpus 2,3 --queue dual_gpu --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

Iniciando o agente ClearML - filas prioritárias

Filas prioritárias também são suportadas, exemplo de caso de uso:

Fila de alta prioridade: important_jobs , fila de baixa prioridade: default

clearml-agent daemon --queue important_jobs default

O agente ClearML primeiro tentará extrair trabalhos da fila important_jobs e somente se estiver vazia, o agente tentará extrair da fila default .

Adicionar filas, gerenciar pedidos de trabalho dentro de uma fila e mover trabalhos entre filas está disponível usando a UI da Web, veja o exemplo em nosso servidor gratuito

Parando o Agente ClearML

Para interromper a execução de um agente ClearML em segundo plano, execute a mesma linha de comando usada para iniciar o agente com --stop anexado. Por exemplo, para parar a primeira das mesmas máquinas mostradas acima, agentes de GPU únicos:

clearml-agent daemon --detached --gpus 0 --queue default --docker nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04 --stop

Como crio um experimento no servidor ClearML?

Integre ClearML ao seu código
Execute o código em sua máquina (Manualmente/PyCharm/Jupyter Notebook)
Enquanto seu código está em execução, o ClearML cria um experimento registrando todas as informações de execução necessárias:
- Link do repositório Git e ID de commit (ou um notebook jupyter inteiro)
- Git diff (não estamos dizendo que você nunca faz commit e push, mas ainda assim...)
- Pacotes Python usados pelo seu código (incluindo versões específicas usadas)
- Hiperparâmetros
- Artefatos de entrada
Agora você tem um 'modelo' do seu experimento com tudo o que é necessário para a execução automatizada
Na UI do ClearML, clique com o botão direito no experimento e selecione 'clone'. Uma cópia da sua experiência será criada.
Agora você tem um novo rascunho de experimento clonado de seu experimento original. Sinta-se à vontade para editá-lo
- Alterar os hiperparâmetros
- Mude para a base de código mais recente do repositório
- Atualizar versões do pacote
- Selecione uma imagem docker específica para executar (consulte a seção modo de execução do docker)
- Ou simplesmente não mude nada para executar o mesmo experimento novamente...
Agende a experiência recém-criada para execução: clique com o botão direito na experiência e selecione 'enfileirar'

Modo de serviços do agente ClearML

ClearML-Agent Services é um modo especial de ClearML-Agent que fornece a capacidade de iniciar trabalhos de longa duração que antes precisavam ser executados em máquinas locais/dedicadas. Ele permite que um único agente inicie vários dockers (tarefas) para diferentes casos de uso:

Serviço de escalonamento automático (gerando instâncias quando surge a necessidade e o orçamento permite)
Controladores (implementando pipelines e lógica DevOps mais sofisticada)
Otimizador (como otimização de hiperparâmetros ou varredura)
Aplicativo (como aplicativos Bokeh interativos para maior transparência de dados)

O modo ClearML-Agent Services irá girar qualquer tarefa enfileirada na fila especificada. Cada tarefa lançada pelo ClearML-Agent Services será registrada como um novo nó no sistema, fornecendo recursos de rastreamento e transparência. Atualmente, o clearml-agent no modo de serviço oferece suporte apenas à configuração da CPU. O modo de serviços ClearML-Agent pode ser iniciado junto com os agentes GPU.

clearml-agent daemon --services-mode --detached --queue services --create-queue --docker ubuntu:18.04 --cpu-only

Nota : É responsabilidade do usuário garantir que as tarefas adequadas sejam colocadas na fila especificada.

AutoML e pipelines de orquestração

O agente ClearML também pode ser usado para implementar orquestração AutoML e pipelines de experimentos em conjunto com o pacote ClearML.

Exemplos de exemplos de AutoML e orquestração podem ser encontrados na pasta exemplo/automação do ClearML.

Exemplos de AutoML:

Experimento de treinamento Toy Keras
- Para criar um modelo de experimento no sistema, este código deve ser executado uma vez manualmente
Pesquisa aleatória no modelo de experimento Keras acima
- Este exemplo criará várias cópias do modelo de experimento Keras, com diferentes combinações de hiperparâmetros

Exemplos de pipeline de experimentos:

Experimento de primeira etapa
- Este exemplo irá "processar dados" e, uma vez feito isso, lançará uma cópia do modelo de experimento da 'segunda etapa'
Experimento de segunda etapa
- Para criar um modelo de experimento no sistema, este código deve ser executado uma vez manualmente