微软携手加州大学伯克利分校、伊利诺伊大学等研究机构,共同开源了名为AIOpsLab的云自动化运维智能代理系统项目。该项目旨在通过模拟真实云服务环境,实现故障的自动检测、定位和解决,从而显着提升云服务的可观测性和运维效率。 AIOpsLab采用模块化设计,支持人机协作,并具备高度的可扩展性,方便开发者应对不同的工作负载和故障场景。其核心功能包括协调器、服务、工作负载生成器、故障生成器和可观测性等五个关键部分,每个部分都为提升云服务运维效率发挥着重要作用。
AIOpsLab 的主要功能是通过模块化设计,支持人类与数字代理的协作,方便开发者扩展应用程序、处理不同工作负载及故障场景。其架构由五个关键部分组成:协调器、服务、工作负载生成器、故障生成器以及可观测性。
协调器负责与智能体建立会话,并共享有关基准测试问题的信息。它通过调用一系列文档化的API(如获取日志、指标等),帮助智能体有效解决任务。协调器还可以代表智能体进行操作,比如扩展或重新部署服务,确保智能体能够在实际环境中顺利运行。
服务模块可以适应多种真实云服务环境,如微服务、无服务器及单体服务。 AIOpsLab 还利用开源应用套件DeathStarBench,为研究人员提供了一种在受控环境中复现和研究生产事件的工具。此外,通过集成Blueprint 等工具,AIOpsLab 还能够扩展到其他学术和生产服务中,便于快速部署新变体。
工作负载生成器在AIOpsLab 中扮演着重要角色,负责创建正常和故障场景的模拟,以测试智能体在不同条件下的性能。它根据协调器的规范生成相应的工作负载,帮助用户在多种情况中进行测试。
故障生成器则是AIOpsLab 的一项创新功能,能够在多种云场景中实施细粒度的故障注入。这一功能能够模拟复杂的故障全流程,并考虑微服务之间的相互依赖性,为用户提供全面的测试与评估能力。
最后,可观测性功能通过整合多种监控工具,提升AIOpsLab 的全面监控能力,确保用户能够获得定制化的系统信息,以便在可能的数据过载情况下进行有效管理。
开源地址:https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file
划重点:
微软与高校联合开源AIOpsLab,旨在提升云服务的自动化运维能力。
AIOpsLab 通过协调器、服务、工作负载生成器、故障生成器和可观测性五大部分构成,支持多种云服务环境。
可观测性功能整合多种监控工具,确保用户获得有效的系统信息和监控能力。
AIOpsLab 的开源为云原生领域的运维效率提升提供了新的可能性,其模块化设计和强大的功能使其具有广泛的应用前景。 期待更多开发者参与其中,共同完善和发展这个项目。