AIシステムスクール
???機械学習用システム、LLM (大規模言語モデル)、GenAI (生成 AI)
更新情報:
- ビデオチュートリアル [YouTube] [bilibili] [小红书]
- このリポジトリのために新しいウェブサイト [Lets Go AI] を準備中です。
AI 向けシステムへの道[必読のホワイトペーパー]
機械学習システムの研究の厳選されたリスト。利用可能な場合はコードへのリンクも表示されます。現在、このプロジェクトを維持するチームがいます。私たちのテンプレートを使用してプルリクエストを行うことは大歓迎です。
AI向けシステム(カテゴリ順)
ML / DL インフラ
- データ処理
- 研修制度
- 推論システム
- 機械学習インフラストラクチャ
LLM インフラ
ドメイン固有のインフラ
- ビデオシステム
- AutoML システム
- エッジAI
- GNNシステム
- フェデレーテッド ラーニング システム
- 深層強化学習システム
ML/LLMカンファレンス用システム
会議
- OSDI
- SOSP
- シグコム
- NSDI
- MLSys
- ATC
- ユーロシス
- ミドルウェア
- SoCC
- タイニーML
一般リソース
調査
- 高可用性、インテリジェントなクラウドおよび ML システムに向けて [スライド]
- 分散コンピューティング (別名ビッグ データ) に関する素晴らしいシステム設計記事、ビデオ、リソースの厳選されたリスト。 [GitHub]
- awesome-production-machine-learning: 機械学習をデプロイ、監視、バージョン管理、拡張するための素晴らしいオープンソース ライブラリの厳選されたリスト [GitHub]
- 実稼働環境における機械学習アクセラレータの機会と課題 [論文]
- アナンタナラヤナン、ラジャゴパル、他。 」
- 2019 {USENIX} オペレーショナル機械学習カンファレンス (OpML 19)。 2019年。
- 良いシステム論文を書く方法 (そして書かない方法) [アドバイス]
- Facebook における機械学習の応用: データセンター インフラストラクチャの視点 [論文]
- 使用可能な機械学習のためのインフラストラクチャ: スタンフォード DAWN プロジェクト
- バイリス、ピーター、クンレ・オルコトゥン、クリストファー・レ、マテイ・ザハリア。 (プレプリント 2017 )
- 機械学習システムに隠れた技術的負債 [論文]
- システム設計におけるエンドツーエンドの議論 [論文]
- サルツァー、ジェローム H.、デビッド P. リード、デビッド D. クラーク。
- 大規模機械学習のためのシステム設計 [論文]
- Facebook データセンターにおけるディープラーニング推論: 特性評価、パフォーマンスの最適化、およびハードウェアへの影響 [論文]
- パク、ジョンス、マキシム・ナウモフ、プロトヌ・バス 他arXiv 2018
- 概要: このペーパーでは、DL モデルの特性を示し、次に DL ハードウェアの新しい設計原理を示します。
- AI のシステム課題に関するバークレーの見解 [論文]
本
- コンピュータ アーキテクチャ: 定量的アプローチ [必読]
- 分散型機械学習パターン [Web サイト]
- ストリーミング システム [書籍]
- Kubernetes in Action (読み始める) [書籍]
- 機械学習システム: 拡張性のある設計 [Web サイト]
- 機械学習の信頼 [Web サイト]
- 自動化された機械学習の実際 [Web サイト]
ビデオ
- ScalaDML2020: 機械学習コミュニティの優秀な人材から学びましょう。 [ビデオ]
- Jeff Dean: 「大規模オンライン サービスでの迅速な応答時間の達成」基調講演 - Velocity 2014 [YouTube]
- PyTorch を使用した研究から本番まで [ビデオ]
- マイクロサービス、Docker、Kubernetes の概要 [YouTube]
- ICML 基調講演: 200,000 人の非 ML 専門家の ML 使用支援から得た教訓 [ビデオ]
- アダプティブ & マルチタスク学習システム [Web サイト]
- システム思考。 TEDの講演。 【YouTube】
- 柔軟なシステムは、機械学習の次のフロンティアです。ジェフ・ディーン [YouTube]
- オペレーティングシステムをRustで書き直す時期が来たのか? 【YouTube】
- InfoQ: AI、ML、データ エンジニアリング [YouTube]
- Netflix: 人間中心の機械学習インフラストラクチャ [InfoQ]
- SysML 2019: [YouTube]
- ScaledML 2019: David Patterson、Ion Stoica、Dawn Song など [YouTube]
- ScaledML 2018: Jeff Dean、Ion Stoica、Yangqing Jia など [YouTube] [スライド]
- コンピューター アーキテクチャの歴史、課題、機会の新たな黄金時代。デビッド・パターソン [YouTube]
- 悪いキャリアを持つ方法。デビッド・パターソン (私は大ファンです) [YouTube]
- SysML 18: 展望と課題。マイケル・ジョーダン [YouTube]
- SysML 18: システムと機械学習の共生。ジェフ・ディーン [YouTube]
- AutoML の基礎: 自動機械学習の実際の動作。 Qingquan Song、Haifeng Jin、Xia Hu [YouTube]
コース
- CS692 セミナー: 機械学習のためのシステム、システムのための機械学習 [GitHub]
- ネットワークのトピックス: ネットワーキングとシステムのための機械学習、2019 年秋 [コース Web サイト]
- CS6465: 新たなクラウド技術とシステムの課題 [コーネル大学]
- CS294: システムのための AI と AI のためのシステム。 [カリフォルニア大学バークレー校春学期] (強く推奨) [機械学習システム (2019 年秋学期)]
- CSE 599W: ML 用のシステム。 【陳天啓】【ワシントン大学】
- EECS 598: AI 用システム (W'21)。 [モシャラフ・チョードリー] [AI向けシステム(W'21)]
- 2k 行で独自の深層学習システムを構築する方法に関するチュートリアル コード [GitHub]
- CSE 291F: 高度なデータ分析と ML システム。 [UCSD]
- CSci 8980: コンピューター システムにおける機械学習 [ミネソタ大学ツインシティーズ]
- Mu Li (MxNet、パラメータ サーバー): ディープ ラーニング入門 [私が考えるベスト DL コース] [書籍]
- 10-605: 大規模なデータセットを使用した機械学習。 [CMU]
- CS 329S: 機械学習システムの設計。 【スタンフォード】
ブログ
- 複数の CPU/GPU を並列化してエッジでのディープラーニング推論を高速化する [Amazon ブログ]
- 堅牢な実稼働対応ディープラーニング ビジョン モデルを数分で構築する [ブログ]
- Keras、FastAPI、Redis、Docker を使用した機械学習モデルのデプロイ [ブログ]
- 機械学習モデルをデプロイする方法 -- FastAPI + Uvicorn を使用して本番環境に対応した API を作成する [ブログ] [GitHub]
- 機械学習モデルを REST API としてデプロイする [ブログ]
- 機械学習の継続的デリバリー [ブログ]
- Kubernetes チートシート (A4) [GitHub]
- Kubernetes の優しい紹介 [ブログ]
- Web インターフェイスを使用した機械学習モデルのトレーニングとデプロイ - Docker、PyTorch、Flask [GitHub]
- Kubernetes を学ぶ、中国の道教の方法 [GitHub]
- データ パイプライン、ルイージ、エアフロー: 知っておくべきことすべて [ブログ]
- 深層学習ツールセット — 概要 [ブログ]
- CSE 599W の概要: ML 向けシステム [中国語ブログ]
- Kubernetes でのモデルのトレーニング、パッケージ、デプロイのための Polyaxon、Argo、Seldon [ブログ]
- 機械学習 (ML) モデルを実稼働環境に導入するためのさまざまなアプローチの概要 [ブログ]
- データ サイエンティストだからといってソフトウェア エンジニアになれるわけではありません [パート 1] 機械学習パイプラインの構築 [パート 2]
- PyTorch で提供されるモデル [ブログ]
- Netflix での機械学習 [中]
- SciPy カンファレンス資料 (スライド、リポジトリ) [GitHub]
- Spark 後、UC Berkeley 推出新一代 AI 计算引擎——Ray [ブログ]
- 知っています/事机学/深度学习系统関連の研究が必要なもの何ですか? [Zhihu]
- 3 時間以内に Kubernetes を学ぶ: コンテナのオーケストレーションに関する詳細ガイド [ブログ] [GitHub]
- data-engineer-roadmap: シリコンバレーの複数の企業から学ぶ。 Netflix、Facebook、Google、スタートアップ [GitHub]
- TensorFlow Serving + Docker + Tornado机器学习モデル生产级高速配置 [ブログ]
- 機械学習モデルを REST API としてデプロイする [ブログ]
- Colossal-AI: ビッグモデル時代の統合ディープラーニング システム [ブログ] [GitHub]
- データ エンジニアのロードマップ [Scaler ブログ]