등록 링크: https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(참고: 무료강의는 반드시 회원가입을 하셔야 합니다! QQ 그룹을 동시에 추가하시면, 이후 강의사항은 그룹에 공지됩니다!)
2단계 강좌는 10월 14일부터 매주 토요일 14:00~15:00까지 Station B에서 생방송됩니다.
각 강좌의 ppt와 코드는 강의와 함께 점진적으로 github에 업로드되며, 일련의 비디오 재생은 스테이션 b에 보관됩니다. 각 강좌의 지식 포인트에 대한 리뷰와 다음 강좌 미리보기를 얻을 수 있습니다. MindSpore 공식 계정의 클래스에 오신 것을 환영합니다. 모두가 MindSpore 커뮤니티로부터 도전할 일련의 대규모 모델 작업을 받습니다.
수업주기가 길어서 중간에 수업일정이 다소 조정될 수 있으니 양해 부탁드립니다.
코스 구축에 참여하는 친구들을 진심으로 환영합니다. 코스를 기반으로 한 흥미로운 개발 사항을 MindSpore 대형 모델 플랫폼에 제출할 수 있습니다.
학습 과정에서 코스웨어 및 코드에 문제가 발견되어 원하는 콘텐츠가 무엇인지 설명하길 원하거나 코스에 대한 제안 사항이 있는 경우 이 저장소에서 직접 문제를 생성할 수 있습니다.
이제 성시 MindSpore 기술 오픈 클래스가 본격화되었습니다. 대형 모델에 관심이 있는 모든 개발자에게 열려 있습니다. 이론과 시간을 결합하여 점차적으로 대형 모델 기술을 얕은 것에서 더 깊게 심화시킬 수 있도록 안내해 드립니다.
완료된 첫 번째 과정(강의 1-10)에서는 Transformer로 시작하여 ChatGPT의 진화 경로를 분석하고 "ChatGPT"의 간단한 버전을 구축할 수 있도록 단계별로 안내했습니다.
현재 진행중인 2단계(강의11~)는 1단계를 바탕으로 종합적으로 업그레이드되어 개발부터 적용까지 대형모델의 전과정 실습을 중점적으로 다루며, 보다 최신의 대형모델 지식을 설명하고 심화한다. 다양한 라인업의 강사님들의 참여를 기다립니다!
장 번호 | 챕터 이름 | 코스소개 | 동영상 | 코스웨어 및 코드 | 지식 포인트 요약 |
---|---|---|---|---|---|
1강 | 변신 로봇 | 다중 헤드 자기 주의 원칙. Masked self-attention의 마스킹 처리방법. Transformer 기반 기계번역 업무 교육입니다. | 링크 | 링크 | 링크 |
2강 | 버트 | Transformer Encoder를 기반으로 한 BERT 모델 설계: MLM 및 NSP 작업. 다운스트림 작업을 미세 조정하기 위한 BERT의 패러다임. | 링크 | 링크 | 링크 |
3강 | GPT | Transformer Decoder를 기반으로 한 GPT 모델 설계: 다음 토큰 예측. GPT 다운스트림 작업 미세 조정 패러다임. | 링크 | 링크 | 링크 |
4강 | GPT2 | GPT2의 핵심 혁신에는 Task Conditioning 및 Zero Shot Learning이 포함되며, 모델 구현 세부 사항은 GPT1의 변경 사항을 기반으로 합니다. | 링크 | 링크 | 링크 |
5강 | MindSpore는 자동으로 병렬화합니다. | 데이터 병렬성, 모델 병렬성, 파이프라인 병렬성, 메모리 최적화 및 MindSpore의 분산 병렬성 특성을 기반으로 하는 기타 기술입니다. | 링크 | 링크 | 링크 |
6강 | 코드 사전 훈련 | 코드 사전 훈련의 개발 역사. 코드 데이터 전처리. CodeGeex 코드는 대규모 모델을 사전 학습합니다. | 링크 | 링크 | 링크 |
7강 | 프롬프트 튜닝 | Pretrain-finetune 패러다임에서 Prompt Tuning 패러다임으로 변경합니다. 하드 프롬프트 및 소프트 프롬프트 관련 기술. 설명 텍스트의 프롬프트를 변경하면 됩니다. | 링크 | 링크 | 링크 |
8강 | 다중 모드 사전 학습된 대형 모델 | Zidong Taichu 다중 모드 대형 모델의 설계, 데이터 처리 및 장점; 이론적 개요, 시스템 프레임워크, 현재 상황 및 음성 인식 과제. | 링크 | / | / |
9강 | 튜닝 지시 | 명령 튜닝의 핵심 아이디어: 모델이 작업 설명(명령)을 이해할 수 있도록 합니다. 교육 조정의 한계: 개방형 도메인의 혁신적인 작업을 지원할 수 없고 LM 교육 목표와 인간의 요구를 조정할 수 없습니다. 일련의 사고방식: 프롬프트에 예시를 제공함으로써 모델은 추론을 이끌어낼 수 있습니다. | 링크 | 링크 | 링크 |
10강 | RLHF | RLHF의 핵심 아이디어: LLM을 인간 행동에 맞추십시오. RLHF 기술의 분류: LLM 미세 조정, 인간 피드백 기반 보상 모델 훈련, 강화 학습 PPO 알고리즘을 통한 모델 미세 조정. | 링크 | 링크 | 업데이트 중 |
11강 | 채팅GLM | GLM 모델 구조, GLM에서 ChatGLM으로의 진화, ChatGLM 추론 배포 코드 데모 | 링크 | 링크 | 링크 |
12강 | 다중모달 원격탐사 지능형 해석 기본모델 | 이 과정에서 중국과학원 항공우주정보혁신연구소 연구실 부소장인 Sun Xian 씨는 다중 모드 원격 감지 해석의 기본 모델을 설명하고 지능형 원격 감지 기술의 개발과 과제를 공개했습니다. 대형 모델 시대의 기본 원격 감지 모델의 기술 경로 및 솔루션. | 링크 | / | 링크 |
13강 | 채팅GLM2 | ChatGLM2 기술 분석, ChatGLM2 추론 배포 코드 데모, ChatGLM3 기능 소개 | 링크 | 링크 | 링크 |
14강 | 텍스트 생성 및 디코딩 원리 | MindNLP를 예로 들어 검색 및 샘플링 기술의 원리와 구현을 설명합니다. | 링크 | 링크 | 링크 |
15강 | 야마 | LLaMA 배경 및 알파카 제품군 소개, LLaMA 모델 구조 분석, LLaMA 추론 배포 코드 데모 | 링크 | 링크 | 링크 |
16강 | 라마2 | LLAMA2 모델 구조 소개, LLAMA2 채팅 배포를 시연하는 코드 읽기 | 링크 | 링크 | 링크 |
17강 | 펑청마인드 | Pengcheng Brain 200B 모델은 2,000억 개의 매개변수를 가진 자동회귀 언어 모델로, 중국 컴퓨팅 네트워크 허브 노드 'Pengcheng Cloud Brain II' 킬로카드 클러스터의 장기적인 대규모 개발을 위한 MindSpore의 다차원 분산 병렬 기술을 기반으로 합니다. 규모 훈련. 이 모델은 영어와 일부 다국어 기능을 고려하여 중국어의 핵심 기능에 중점을 둡니다. 1.8T 토큰에 대한 교육을 완료했습니다. | 링크 | / | 링크 |
18강 | CPM-벌 | CPM-Bee 사전 훈련, 추론, 미세 조정 및 라이브 코드 데모 소개 | 링크 | 링크 | 링크 |
19강 | RWKV1-4 | RNN의 쇠퇴와 Universal Transformers의 등장? Self-attention "punch" Transformer의 새로운 RNN-RWKV의 단점 MindNLP 기반의 RWKV 모델 실습 | 링크 | / | 링크 |
20강 | 환경부 | MoE의 과거와 현재 생활 MoE의 구현 기반: AlltoAll 통신; Mixtral 8x7b: Shengsi MindSpore의 Mixtral 8x7b 추론 시연을 기반으로 하는 현재 최고의 오픈 소스 MoE 대규모 모델, MoE 및 평생 학습. | 링크 | 링크 | 링크 |
21강 | 효율적인 매개변수 미세 조정 | Lora, (P-Tuning) 원리 및 코드 구현 소개 | 링크 | 링크 | 링크 |
22강 | 신속한 엔지니어링 | 프롬프트 엔지니어링: 1. 프롬프트란 무엇입니까? 2. 프롬프트 품질을 정의하는 방법 3. 고품질 프롬프트를 작성하는 방법은 무엇입니까? 4. 고품질 프롬프트를 생성하는 방법은 무엇입니까? 5. Prompt를 실행할 때 발생하는 몇 가지 문제에 대해 간략하게 이야기하겠습니다. | 링크 | / | 링크 |
23강 | 다차원 하이브리드 병렬 자동 검색 최적화 전략 | 주제 1·시간 손실 모델 및 개선된 다차원 이분법/주제 2·APSS 알고리즘 적용 | 위아래로 | 링크 | |
24강 | 학자. Puyu 대형 모델 오픈 소스 풀 체인 툴체인 도입 및 지능형 에이전트 개발 경험 | 이 과정에서는 Shusheng.Puyu 커뮤니티의 기술 운영자이자 기술 전도사인 Mr. Wen Xing과 MindSpore의 기술 전도사인 Mr. Geng Li를 초대하여 Shusheng.Puyu의 오픈 소스 풀 링크 도구에 대해 자세히 설명하게 되었습니다. Shusheng.Puyu 대형 모델 체인. Shusheng.Puyu에서 지능형 에이전트를 미세 조정, 추론 및 개발하는 방법을 보여줍니다. | 링크 | / | 링크 |
25강 | 조각 | ||||
26강 | LangChain 모듈 분석 | 모델, 프롬프트, 메모리, 체인, 에이전트, 인덱스, 콜백 모듈 및 사례 분석 분석 | |||
27강 | RWKV5-6 | / | |||
28강 | 정량화하다 | 낮은 비트 양자화 및 기타 관련 모델 양자화 기술 소개 |