AI시스템스쿨
??? 기계 학습 시스템, LLM(대형 언어 모델), GenAI(생성 AI)
업데이트:
- 비디오 튜토리얼 [YouTube] [bilibili] [小红书]
- 우리는 이 repo를 위한 새로운 웹사이트 [Lets Go AI]를 준비하고 있습니다!!!
AI 시스템으로 가는 길 [꼭 읽어야 할 백서]
기계 학습 시스템에 대한 선별된 연구 목록입니다. 가능한 경우 코드에 대한 링크도 있습니다. 이제 우리는 이 프로젝트를 유지 관리할 팀을 갖게 되었습니다. 우리 템플릿을 사용하여 요청을 끌어오시면 매우 환영합니다 .
AI 시스템(카테고리별 정렬)
ML/DL 인프라
- 데이터 처리
- 훈련 시스템
- 추론 시스템
- 기계 학습 인프라
LLM 인프라
도메인별 인프라
- 비디오 시스템
- AutoML 시스템
- 엣지 AI
- GNN 시스템
- 연합 학습 시스템
- 심층 강화 학습 시스템
ML/LLM 컨퍼런스 시스템
회의
- OSDI
- SOSP
- SIGCOMM
- NSDI
- ML시스
- ATC
- 유로시스
- 미들웨어
- SoCC
- TinyML
일반 자료
조사
- 고가용성 지능형 클라우드 및 ML 시스템을 향하여 [슬라이드]
- 분산 컴퓨팅(일명 빅 데이터)을 위한 멋진 시스템 설계 기사, 비디오 및 리소스의 선별된 목록입니다. [깃허브]
- awesome-production-machine-learning: 머신 러닝을 배포, 모니터링, 버전 관리, 확장할 수 있는 멋진 오픈 소스 라이브러리 목록 [GitHub]
- 프로덕션에서 머신러닝 가속기의 기회와 과제 [논문]
- Ananthanarayanan, Rajagopal 등. "
- 2019 {USENIX} 운영 기계 학습 컨퍼런스(OpML 19). 2019.
- 좋은 시스템 논문을 작성하는 방법(및 그렇지 않은 방법) [조언]
- Facebook의 응용 기계 학습: 데이터 센터 인프라 관점 [논문]
- 헤이즐우드, 김, 그 외 여러분. ( HPCA 2018 )
- 사용 가능한 기계 학습을 위한 인프라: Stanford DAWN 프로젝트
- Bailis, Peter, Kunle Olukotun, Christopher Ré 및 Matei Zaharia. ( 2017년 사전 인쇄 )
- 머신러닝 시스템에 숨겨진 기술적 부채 [논문]
- 스컬리, 데이빗, 그 외 여러분. ( 닙스 2015 )
- 시스템 설계의 엔드투엔드 주장 [논문]
- Saltzer, 제롬 H., 데이비드 P. 리드, 데이비드 D. 클라크.
- 대규모 머신러닝을 위한 시스템 설계 [논문]
- Facebook 데이터 센터의 딥 러닝 추론: 특성화, 성능 최적화 및 하드웨어 영향 [논문]
- 박종수, Maxim Naumov, Protonu Basu et al. arXiv 2018
- 요약: 이 문서에서는 DL 모델의 특성을 제시하고 DL 하드웨어의 새로운 설계 원리를 보여줍니다.
- AI에 대한 시스템 과제에 대한 버클리의 관점 [논문]
책
- 컴퓨터 아키텍처: 정량적 접근 방식 [필독]
- 분산 머신러닝 패턴 [웹사이트]
- 스트리밍 시스템 [도서]
- Kubernetes in Action(읽기 시작) [도서]
- 기계 학습 시스템: 확장 가능한 설계 [웹사이트]
- 머신러닝에 대한 신뢰 [웹사이트]
- 자동화된 기계 학습 실행 [웹사이트]
동영상
- ScalaDML2020: 기계 학습 커뮤니티 최고의 인재들로부터 배워보세요. [동영상]
- Jeff Dean: "대규모 온라인 서비스에서 빠른 응답 시간 달성" 기조연설 - Velocity 2014 [YouTube]
- PyTorch를 사용한 연구부터 생산까지 [동영상]
- 마이크로서비스, Docker 및 Kubernetes 소개 [YouTube]
- ICML 기조연설: ML을 사용하지 않는 200,000명의 전문가가 ML을 사용하도록 지원하면서 배운 교훈 [비디오]
- 적응형 및 멀티태스킹 학습 시스템 [웹사이트]
- 시스템적 사고. TED 강연. [유튜브]
- 유연한 시스템은 머신러닝의 차세대 개척지입니다. 제프 딘 [유튜브]
- 이제 Rust로 운영 체제를 다시 작성할 때가 되었나요? [유튜브]
- InfoQ: AI, ML 및 데이터 엔지니어링 [YouTube]
- Netflix: 인간 중심 머신러닝 인프라 [InfoQ]
- SysML 2019: [유튜브]
- ScaledML 2019: David Patterson, Ion Stoica, Dawn Song 등 [YouTube]
- ScaledML 2018: Jeff Dean, Ion Stoica, Yangqing Jia 등 [YouTube] [슬라이드]
- 컴퓨터 아키텍처의 역사, 과제 및 기회를 위한 새로운 황금 시대. 데이비드 패터슨 [유튜브]
- 나쁜 경력을 갖는 방법. 데이비드 패터슨(저는 열렬한 팬입니다) [YouTube]
- SysML 18: 관점과 과제. 마이클 조던 [유튜브]
- SysML 18: 시스템과 기계 학습 공생. 제프 딘 [유튜브]
- AutoML 기본 사항: 자동화된 기계 학습 실행. Qingquan Song, Haifeng Jin, Xia Hu [YouTube]
강의
- CS692 세미나: 기계 학습을 위한 시스템, 시스템을 위한 기계 학습 [GitHub]
- 네트워크 주제: 네트워킹 및 시스템을 위한 기계 학습, 2019년 가을 [과정 웹사이트]
- CS6465: 새로운 클라우드 기술 및 시스템 과제 [Cornell]
- CS294: 시스템을 위한 AI 및 AI를 위한 시스템. [UC Berkeley Spring] ( Strong Recommendation ) [Machine Learning Systems (2019년 가을학기)]
- CSE 599W: ML용 시스템. [Chen Tianqi] [워싱턴 대학교]
- EECS 598: AI용 시스템(W'21). [Mosharaf Chowdhury] [AI 시스템(W'21)]
- 2k 라인에서 자신만의 딥 러닝 시스템을 구축하는 방법에 대한 튜토리얼 코드 [GitHub]
- CSE 291F: 고급 데이터 분석 및 ML 시스템. [UCSD]
- CSci 8980: 컴퓨터 시스템의 기계 학습 [University of Minnesota, Twin Cities]
- Mu Li (MxNet, Parameter Server): 딥러닝 입문 [내 생각에 최고의 DL 강좌] [도서]
- 10-605: 대규모 데이터 세트를 사용한 기계 학습. [CMU]
- CS 329S: 기계 학습 시스템 설계. [스탠포드]
블로그
- 여러 CPU/GPU에 걸쳐 병렬화하여 엣지에서 딥 러닝 추론 속도 향상 [Amazon 블로그]
- 단 몇 분 만에 강력한 프로덕션 지원 딥 러닝 비전 모델 구축 [블로그]
- Keras, FastAPI, Redis 및 Docker를 사용하여 기계 학습 모델 배포 [블로그]
- 기계 학습 모델을 배포하는 방법 - FastAPI + Uvicorn을 사용하여 프로덕션에 즉시 사용 가능한 API 생성 [블로그] [GitHub]
- REST API로 기계 학습 모델 배포 [블로그]
- 기계 학습을 위한 지속적 전달 [블로그]
- A4의 Kubernetes 치트시트 [GitHub]
- Kubernetes에 대한 간단한 소개 [블로그]
- 웹 인터페이스를 사용하여 기계 학습 모델 훈련 및 배포 - Docker, PyTorch 및 Flask [GitHub]
- Kubernetes 학습, 중국 도교 방식 [GitHub]
- 데이터 파이프라인, Luigi, Airflow: 알아야 할 모든 것 [블로그]
- 딥 러닝 도구 세트 - 개요 [블로그]
- CSE 599W 요약: ML용 시스템 [중국 블로그]
- Kubernetes의 모델 훈련, 패키지 및 배포를 위한 Polyaxon, Argo 및 Seldon [블로그]
- 기계 학습(ML) 모델을 프로덕션에 적용하는 다양한 접근 방식 개요 [블로그]
- 데이터 과학자가 된다고 해서 소프트웨어 엔지니어가 되는 것은 아닙니다. [1부] 기계 학습 파이프라인 설계 [2부]
- PyTorch에서 모델 제공 [블로그]
- Netflix의 머신러닝 [중간]
- SciPy 회의 자료(슬라이드, 저장소) [GitHub]
- Spark 之后, UC Berkeley에서 새로운 AI计算引擎——Ray [블로그]
- 了解/从事机器science习/深titudescience习系统关的研究需要什么样的知识结构? [Zhihu]
- 3시간 이내에 Kubernetes 배우기: 컨테이너 오케스트레이션에 대한 자세한 가이드 [블로그] [GitHub]
- 데이터 엔지니어 로드맵: 실리콘 밸리의 여러 회사로부터 학습합니다. 넷플릭스, 페이스북, 구글, 스타트업 [GitHub]
- TensorFlow Serving + Docker + Tornado机器模型生产级快速부署 [블로그]
- REST API로 기계 학습 모델 배포 [블로그]
- Colossal-AI: 빅 모델 시대를 위한 통합 딥 러닝 시스템 [블로그] [GitHub]
- 데이터 엔지니어 로드맵 [Scaler 블로그]