Enterprise Scale AI Factory
是一种即插即用解决方案,可通过模板工作方式在 Azure 上自动配置、部署和管理 AI 项目。
Marry multiple best practices & accelerators:
它重用多个现有的 Microsoft 加速器/landingzone 架构和最佳实践(例如 CAF 和 WAF),并提供包括开发、测试、生产环境的端到端体验。PRIVATE
网络:所有服务的私有端点,例如 Azure 机器学习、私有 AKS 集群、私有容器注册表、存储、Azure 数据工厂、监控等Plug-and-play
:为每个团队动态创建基础资源,包括动态网络和动态 RBACTemplate way of working & Project way of working:
AI Factory project based
(成本控制、隐私、每个项目的可扩展性),除了基础设施模板外,还提供多种模板: DataLake template, DataOps templates, MLOps templates
,以及可选择的项目类型。Same MLOps
- 天气数据科学家选择从 Azure Databricks 或 Azure 机器学习工作 - 使用相同的 MLOps 模板。Common way of working, common toolbox, a flexible one
:具有 LAMBDA 架构的工具箱,其中包含以下工具:Azure Datafactory、Azure Databricks、Azure 机器学习、Eventhubs、AKSEnterprise scale & security & battle tested
:自 2019 年以来,具有 MLOps 的客户和合作伙伴使用它(请参阅链接),通过通用工具并结合多种最佳实践来加速 AI 解决方案的开发和交付。默认情况下,专用网络(专用端点)。 AI factory - setup in 60h (Company: Epiroc)
- 用例的端到端管道:操作方法
AI factory
- 技术博客
Microsoft: AI Factory (CAF/MLOps)
文档:机器学习操作 - 云采用框架 |微软学习
Microsoft: AI Factory (Well-architected framework)
文档:WAF AI 工作负载 - 架构完善的框架 |微软学习
这 2 种项目类型位于 AIFactory 着陆区内。
该文档通过文档系列围绕角色进行组织。
文档系列 | 角色 | 重点 | 细节 |
---|---|---|---|
10-19日 | CoreTeam | Governance | 设立人工智能工厂。治理。基础设施、网络。权限 |
20-29日 | CoreTeam | Usage | 用户入门和 AI Factory 使用。 CoreTeam 数据摄取团队的 DataOps |
30-39 | ProjectTeam | Usage | 仪表板、可用工具和服务、DataOps、MLOps、私有 AIFactory 的访问选项 |
40-49 | All | FAQ | 各种常见问题。在联系 ESML AIFactory 导师之前,请先查看此处。 |
它还通过 ESML AIFactory 的四个组件进行组织:
成分 | 角色 | 文档系列 |
---|---|---|
1)基础设施:AIFactory | 核心团队 | 10-19日 |
2)数据湖模板 | 全部 | 20-29,30-39 |
3) 模板:DataOps、MLOps、*GenAIOps | 全部 | 20-29, 30-39 |
4)加速器:ESML SDK(Python、PySpark)、RAG Chatbot等 | 项目团队 | 30-39 |
文档链接
CAF/AI Factory
:https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/ready/azure-best-practices/ai-machine-learning-mlops#mlops-at-组织规模人工智能工厂Microsoft Intelligent Data Platform
:https://techcommunity.microsoft.com/t5/azure-data-blog/microsoft-and-databricks-deepen-partnership-for-modern-cloud/ba-p/3640280Modern data architecture with Azure Databricks and Azure Machine Learning
:https://docs.microsoft.com/en-us/azure/architecture/solution-ideas/articles/azure-databricks-modern-analytics-architectureDatalake design
:https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-best-practicesDatamesh
:https://martinfowler.com/articles/data-mesh-principles.htmlESML AI Factory
默认扩展范围为 1-250 个 ESML 项目。Enterprise "cockpit"
。cost dashboard
查看项目处于什么state
(开发、测试、生产状态)日期 | 类别 | 什么 | 关联 |
---|---|---|---|
2024年3月 | 自动化 | 添加核心团队成员 | 26-添加-esml-coreteam-member.ps1 |
2024年3月 | 自动化 | 添加项目成员 | 26-添加-esml-项目-member.ps1 |
2024年3月 | 教程 | 核心团队教程 | 10-AIFactory-infra-subscription-resourceproviders.md |
2024年3月 | 教程 | 最终用户教程 | 01-jumphost-vm-bastion-access.md |
2024年3月 | 教程 | 最终用户教程 | 03-use_cases-where_to_start.md |
2024年02月 | 教程 | 最终用户安装计算实例 | R01-install-azureml-sdk-v1+v2.m |
2024年02月 | Datalake - 入门 | Lakel 中 PROJECT 文件夹的自动 ACL | - |
2023年3月 | 联网 | 无公共 IP:虚拟私有云 - 更新的网络规则 | https://learn.microsoft.com/en-us/azure/machine-learning/v1/how-to-secure-workspace-vnet?view=azureml-api-1&preserve-view=true&tabs=required%2Cpe%2Ccli |
2023年02月 | ESML 管道模板 | Azure Databricks:训练和批处理管道模板。与 AML 管道模板 100% 相同的支持(内/外循环 MLOps) | - |
2022年8月 | ESML 基础设施 (IaC) | Bicep 现在也支持 yaml | - |
2022年10月 | ESML MLOps | ESML MLOps v3 高级模式,支持 Spark 步骤(Databricks 笔记本 / DatabrickStep ) | - |
ESML 代表:企业规模机器学习。
由于需要加速 DataOps 和 MLOps,该加速器于 2019 年诞生。
加速器当时被称为ESML,我们现在在Entperise Scale AIFActory中只将这种加速器称为ESML,或者项目类型=ESML
在人工智能和机器学习方面进行创新,多种声音表示需要拥有一个end-2-end
交钥匙DataOps
和MLOps
的Enterprise Scale AI & Machine Learning Platform
。其他要求包括enterprise datalake design
,能够share refined data across the organization
,以及high security
和稳健性:仅通用可用技术,对具有专用端点的管道和数据的 vNet 支持。一个安全的平台,采用工厂方法来构建模型。
即使存在最佳实践,设置这样的AI Factory solution
Even if best practices exists, it can be time consuming and complex
,并且在设计分析解决方案时,通常需要没有公共互联网的私有解决方案,因为从第一天开始处理生产数据很常见,例如已经在研发阶段。这方面的网络安全非常重要。
Challenge 1:
娶多个,4,最佳实践Challenge 2:
开发、测试、生产 Azure 环境/Azure 订阅Challenge 3:
交钥匙:Datalake、DataOps、内部和外部循环 MLOps 此外,完整的解决方案应该能够通过infrastructure-as-code
100% 进行配置,跨多个 Azure 订阅进行重新创建和扩展,并且project-based
进行扩展多达 250 个项目 - 所有项目都有自己的一组服务,例如自己的 Azure 机器学习工作区和计算集群。 为了满足要求和挑战,需要结合和实施多种最佳实践,例如: CAF/WAF, MLOps, Datalake design, AI Factory, Microsoft Intelligent Data Platform / Modern Data Architecture.
一项开源计划可以一次性帮助所有人,这个开源加速器 Enterprise Scale ML (ESML) - to get an AI Factory on Azure
ESML
更快地提供AI Factory
(4-40 小时内),具有 1-250 个 ESMLProjects,一个 ESML 项目是一组安全地粘合在一起的 Azure 服务。
Challenge 1 solved:
娶多个,4,最佳实践Challenge 2 solved:
开发、测试、生产 Azure 环境/Azure 订阅Challenge 3 solved:
交钥匙:Datalake、DataOps、内部和外部循环 MLOps ESML marries multiple best practices
到一个solution accelerator
中,并实现 100% 基础设施即代码下面是 ESML 使用 3 行代码自动化基础设施并生成 Azure 机器学习管道时的样子。
ESML AIFactory 中的训练和推理管道模板类型可为最终用户加速。
该存储库是一个仅推送的镜像。 Ping Joakim Åström 的贡献/想法。
由于“仅镜像”设计,除了 ESML 管理员之外,无法执行 Pull 请求。请参阅 LICENSE 文件(开源,MIT 许可证) 说到开源,贡献者:
Kim Berg
和Ben Kooijman
的贡献! (感谢 ESML IP 计算器和 esml 项目类型的 Bicep 添加)Christofer Högvall
的贡献! (感谢 Powershell 脚本,启用资源提供程序,如果不退出)azure-enterprise-scale-mlenvironment_setupaifactorybicepesml-util26-enable-resource-providers.ps1