Microsoft se ha unido a instituciones de investigación como el Proyecto del Sistema de Agentes Inteligentes de la Operación de Automatización y Mantenimiento de la Operación de Automatización de Automatización de Automatización de Cloud de la Universidad de California, llamado AioPslab. El proyecto tiene como objetivo realizar la detección automática, la ubicación y la resolución de las fallas al simular un entorno de servicio en la nube real, mejorando significativamente la eficiencia de observabilidad y operación y mantenimiento de los servicios en la nube. Aiopslab adopta un diseño modular, admite la colaboración humana y la computadora y es altamente escalable, lo que facilita a los desarrolladores lidiar con diferentes cargas de trabajo y escenarios de falla. Sus funciones centrales incluyen cinco partes clave: coordinador, servicio, generador de carga de trabajo, generador de fallas y observabilidad.
La función principal de AIOPSLAB es apoyar la colaboración entre humanos y agentes digitales a través del diseño modular, lo que facilita a los desarrolladores a expandir aplicaciones y manejar diferentes cargas de trabajo y escenarios de falla. Su arquitectura consta de cinco componentes clave: coordinador, servicio, generador de carga de trabajo, generador de fallas y observabilidad.
El coordinador es responsable de establecer una sesión con el agente y compartir información sobre problemas de evaluación comparativa. Ayuda al agente a resolver tareas de manera efectiva llamando a una serie de API documentadas (como obtener registros, métricas, etc.). El coordinador también puede operar en nombre del agente, como la extensión o la redistribución de servicios, asegurando que el agente pueda operar sin problemas en el entorno real.
El módulo de servicio puede adaptarse a una variedad de entornos de servicio en la nube real, como microservicios, sin servidor y servicios únicos. AIOPSLAB también aprovecha la suite de aplicación de código abierto DeathStarbench, que proporciona a los investigadores una herramienta para reproducir y estudiar eventos de producción en un entorno controlado. Además, a través de la integración de herramientas como BluePrint, AIOPSLAB también se puede extender a otros servicios académicos y de producción, lo que permite una implementación rápida de nuevas variantes.
Los generadores de carga de trabajo juegan un papel importante en AIOPSLAB y son responsables de crear simulaciones de escenarios normales y de falla para probar el rendimiento de los agentes en diferentes condiciones. Genera las cargas de trabajo correspondientes de acuerdo con las especificaciones del coordinador, ayudando a los usuarios a probar en una variedad de situaciones.
El generador de fallas es una característica innovadora de AIOPSLAB que permite la inyección de fallas de grano fino en una variedad de escenarios de nubes. Esta función puede simular todo el proceso de fallas complejas y considerar la interdependencia entre microservicios, proporcionando a los usuarios capacidades integrales de pruebas y evaluación.
Finalmente, la función de observabilidad integra múltiples herramientas de monitoreo para mejorar las capacidades integrales de monitoreo de AIOPSLAB, asegurando que los usuarios puedan obtener información personalizada del sistema para una gestión efectiva en caso de una posible sobrecarga de datos.
Dirección de código abierto: https://github.com/microsoft/aiopslab/?tab=readme-ov-file
Agujas:
Microsoft y las universidades abiertos conjuntamente AIOPSLAB, con el objetivo de mejorar la operación de automatización y las capacidades de mantenimiento de los servicios en la nube.
AIOPSLAB admite múltiples entornos de servicio en la nube a través de cinco componentes principales: coordinador, servicio, generador de carga de trabajo, generador de fallas y observabilidad.
Las funciones de observabilidad integran múltiples herramientas de monitoreo para garantizar que los usuarios obtengan información efectiva del sistema y capacidades de monitoreo.
El código abierto de AIOPSLAB proporciona nuevas posibilidades para mejorar la operación y la eficiencia de mantenimiento en el campo nativo de la nube. Esperamos que más desarrolladores participen en él y mejoren y desarrollen conjuntamente este proyecto.