人工智能系统学院
???机器学习系统、LLM(大型语言模型)、GenAI(生成式人工智能)
更新:
- 视频教程 [YouTube] [bilibili] [小红书]
- 我们正在为此仓库准备一个新网站 [Lets Go AI]!!!
人工智能系统之路【必读白皮书】
机器学习系统研究的精选列表。代码链接(如果可用)也存在。现在我们有一个团队来维护这个项目。非常欢迎您使用我们的模板提出拉取请求。
人工智能系统(按类别排序)
ML / DL 基础设施
法学硕士基础设施
特定领域的基础设施
- 视频系统
- 自动机器学习系统
- 边缘人工智能
- 神经网络系统
- 联邦学习系统
- 深度强化学习系统
ML/LLM会议系统
会议
- 开放式数据接口
- SOSP
- 信号通讯
- 国家统计局
- ML系统
- 空中交通管制
- 欧洲系统公司
- 中间件
- 系统芯片
- 小机器学习
一般资源
民意调查
- 迈向高可用性、智能云和机器学习系统 [幻灯片]
- 分布式计算(又称大数据)的精彩系统设计文章、视频和资源的精选列表。 [GitHub]
- Awesome-product-machine-learning:用于部署、监控、版本控制和扩展机器学习的优秀开源库的精选列表 [GitHub]
- 机器学习加速器在生产中的机遇和挑战 [论文]
- Ananthanarayanan、Rajagopal 等人。 ”
- 2019 {USENIX} 操作机器学习会议 (OpML 19)。 2019.
- 如何(以及如何不)写一篇好的系统论文[建议]
- Facebook 的应用机器学习:数据中心基础设施视角 [论文]
- 黑泽尔伍德,金,等人。 ( HPCA 2018 )
- 可用机器学习的基础设施:斯坦福 DAWN 项目
- 彼得·巴利斯、昆勒·奥卢科顿、克里斯托弗·雷和马泰·扎哈里亚。 ( 2017 年预印本)
- 机器学习系统中隐藏的技术债务 [论文]
- 斯卡利、大卫等人。 (国家信息处理计划 2015 )
- 系统设计中的端到端论证[论文]
- 杰罗姆·H·萨尔泽、大卫·P·里德和大卫·D·克拉克。
- 大规模机器学习的系统设计[论文]
- Facebook 数据中心中的深度学习推理:特征描述、性能优化和硬件影响 [论文]
- Park、Jongsoo、Maxim Naumov、Protonu Basu 等人。 arXiv 2018
- 摘要:本文介绍了深度学习模型的特征,然后展示了深度学习硬件的新设计原理。
- 伯克利对人工智能系统挑战的看法 [论文]
书
- 计算机体系结构:定量方法 [必读]
- 分布式机器学习模式[网站]
- 流媒体系统 [书籍]
- Kubernetes in Action(开始阅读)[书籍]
- 机器学习系统:可扩展的设计[网站]
- 对机器学习的信任[网站]
- 自动化机器学习的实际应用[网站]
视频
- ScalaDML2020:向机器学习社区中最优秀的人才学习。 [视频]
- Jeff Dean:“在大型在线服务中实现快速响应时间”主题演讲 - Velocity 2014 [YouTube]
- 使用 PyTorch 从研究到生产 [视频]
- 微服务、Docker 和 Kubernetes 简介 [YouTube]
- ICML 主题演讲:帮助 200,000 名非机器学习专家使用机器学习的经验教训 [视频]
- 自适应和多任务学习系统[网站]
- 系统思考。 TED 演讲。 [YouTube]
- 灵活的系统是机器学习的下一个前沿领域。杰夫·迪恩 [YouTube]
- 是时候用 Rust 重写操作系统了吗? [YouTube]
- InfoQ:人工智能、机器学习和数据工程 [YouTube]
- Netflix:以人为中心的机器学习基础设施 [InfoQ]
- SysML 2019:[YouTube]
- ScaledML 2019:David Patterson、Ion Stoica、Dawn Song 等 [YouTube]
- ScaledML 2018:Jeff Dean、Ion Stoica、Yangqing Jia 等 [YouTube] [幻灯片]
- 计算机体系结构历史、挑战和机遇的新黄金时代。大卫·帕特森 [YouTube]
- 如何拥有糟糕的职业生涯。大卫·帕特森(我是忠实粉丝)[YouTube]
- SysML 18:前景和挑战。迈克尔·乔丹 [YouTube]
- SysML 18:系统和机器学习共生。杰夫·迪恩 [YouTube]
- AutoML 基础知识:自动化机器学习的实际应用。宋清泉、金海峰、胡夏 [YouTube]
课程
- CS692 研讨会:机器学习系统、系统机器学习 [GitHub]
- 网络主题:网络和系统的机器学习,2019 年秋季 [课程网站]
- CS6465:新兴云技术和系统挑战 [康奈尔大学]
- CS294:人工智能系统和人工智能系统。 【加州大学伯克利分校春季学期】(强烈推荐)【机器学习系统(2019 年秋季)】
- CSE 599W:机器学习系统。 【陈天琪】【华盛顿大学】
- EECS 598:人工智能系统 (W'21)。 [莫沙拉夫·乔杜里] [人工智能系统 (W'21)]
- 有关如何用 2k 行构建自己的深度学习系统的教程代码 [GitHub]
- CSE 291F:高级数据分析和机器学习系统。 [加州大学圣地亚哥分校]
- CSci 8980:计算机系统中的机器学习 [明尼苏达大学双城分校]
- 穆力(MxNet、参数服务器):深度学习简介【我认为最好的DL课程】【书籍】
- 10-605:大型数据集的机器学习。 [卡内基梅隆大学]
- CS 329S:机器学习系统设计。 [斯坦福]
博客
- 跨多个 CPU/GPU 并行化以加速边缘的深度学习推理 [亚马逊博客]
- 在几分钟内构建强大的、可投入生产的深度学习视觉模型 [博客]
- 使用 Keras、FastAPI、Redis 和 Docker 部署机器学习模型 [博客]
- 如何部署机器学习模型 - 使用 FastAPI + Uvicorn 创建生产就绪的 API [博客] [GitHub]
- 将机器学习模型部署为 REST API [博客]
- 机器学习的持续交付 [博客]
- A4 格式的 Kubernetes 备忘单 [GitHub]
- Kubernetes 简要介绍 [博客]
- 使用 Web 界面训练和部署机器学习模型 - Docker、PyTorch 和 Flask [GitHub]
- 学习 Kubernetes,中国道家之道 [GitHub]
- 数据管道、Luigi、Airflow:您需要了解的一切 [博客]
- 深度学习工具集 — 概述 [博客]
- CSE 599W 总结:机器学习系统 [中文博客]
- Polyaxon、Argo 和 Seldon 用于 Kubernetes 中的模型训练、打包和部署 [博客]
- 将机器学习 (ML) 模型投入生产的不同方法概述 [博客]
- 成为数据科学家并不能让你成为软件工程师 [第 1 部分] 构建机器学习管道 [第 2 部分]
- PyTorch 中的模型服务 [博客]
- Netflix 中的机器学习 [Medium]
- SciPy 会议材料(幻灯片、存储库)[GitHub]
- 继Spark之后,加州大学伯克利分校推出新一代AI计算引擎——Ray [博客]
- 了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构? [知乎]
- 在 3 小时内学习 Kubernetes:编排容器的详细指南 [博客] [GitHub]
- 数据工程师路线图:向硅谷多家公司学习。 Netflix、Facebook、谷歌、初创公司 [GitHub]
- TensorFlow Serving + Docker + Tornado 机器学习模型生产级快速部署 [博客]
- 将机器学习模型部署为 REST API [博客]
- Colossal-AI:大模型时代的统一深度学习系统 [博客] [GitHub]
- 数据工程师路线图 [Scaler 博客]