A Microsoft uniu as mãos a instituições de pesquisa como a Universidade da Califórnia, Berkeley e a Universidade de Illinois para abrir a fonte do projeto de sistema de agentes inteligentes de operação e manutenção de automação em nuvem chamado AIOPSLAB. O projeto tem como objetivo realizar a detecção, localização e resolução automáticas de falhas, simulando um ambiente de serviço em nuvem real, melhorando significativamente a observabilidade e a operação e a eficiência de manutenção dos serviços em nuvem. O AIOPSLAB adota um design modular, suporta a colaboração humano-computador e é altamente escalável, facilitando a lidar com diferentes cargas de trabalho e cenários de falha. Suas funções principais incluem cinco partes principais: Coordenador, Serviço, Gerador de Carga de Trabalho, gerador de falhas e observabilidade.
A principal função do AIOPSLAB é apoiar a colaboração entre humanos e agentes digitais através do design modular, que facilita os desenvolvedores a expandir aplicativos e lidar com diferentes cargas de trabalho e cenários de falha. Sua arquitetura consiste em cinco componentes principais: coordenador, serviço, gerador de carga de trabalho, gerador de falhas e observabilidade.
O coordenador é responsável por estabelecer uma sessão com o agente e compartilhar informações sobre questões de benchmarking. Ajuda o agente a resolver efetivamente tarefas chamando uma série de APIs documentadas (como obter logs, métricas etc.). O coordenador também pode operar em nome do agente, como estender ou reimplementar serviços, garantindo que o agente possa operar sem problemas no ambiente real.
O módulo de serviço pode se adaptar a uma variedade de ambientes reais de serviço em nuvem, como microsserviços, sem servidores e serviços únicos. O AIOPSLAB também aproveita o Application Suite de código aberto Deathstarbench, fornecendo aos pesquisadores uma ferramenta para reproduzir e estudar eventos de produção em um ambiente controlado. Além disso, através da integração de ferramentas como o Blueprint, o AIOPSLAB também pode ser estendido a outros serviços acadêmicos e de produção, permitindo uma rápida implantação de novas variantes.
Os geradores de carga de trabalho desempenham um papel importante no AIOPSLAB e são responsáveis por criar simulações de cenários normais e de falha para testar o desempenho de agentes em diferentes condições. Ele gera cargas de trabalho correspondentes de acordo com as especificações do coordenador, ajudando os usuários a testar em várias situações.
O gerador de falhas é uma característica inovadora do AIOPSLAB que permite a injeção de falha de granulação fina em uma variedade de cenários de nuvem. Essa função pode simular todo o processo de falhas complexas e considerar a interdependência entre os microsserviços, fornecendo aos usuários recursos abrangentes de testes e avaliação.
Finalmente, a função de observabilidade integra várias ferramentas de monitoramento para melhorar os recursos abrangentes de monitoramento do AIOPSLAB, garantindo que os usuários possam obter informações personalizadas do sistema para gerenciamento eficaz no caso de uma possível sobrecarga de dados.
Endereço de código aberto: https://github.com/microsoft/aiopslab/?tab=readme-ov-file
Pontos:
A Microsoft e as universidades abertas em conjunto AIOPSLAB, com o objetivo de melhorar os recursos de operação e manutenção de automação dos serviços em nuvem.
O AIOPSLAB suporta vários ambientes de serviço em nuvem através de cinco componentes principais: Coordenador, Serviço, Generador de Carga de Trabalho, gerador de falhas e observabilidade.
As funções de observabilidade integram várias ferramentas de monitoramento para garantir que os usuários obtenham informações eficazes para o sistema e os recursos de monitoramento.
O código aberto do AIOPSLAB fornece novas possibilidades para melhorar a operação e a eficiência de manutenção no campo nativo da nuvem. Estamos ansiosos para mais desenvolvedores que participam e melhoram e desenvolvem conjuntamente este projeto.