Link de inscrição: https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(Observação: você deve se inscrever para participar do curso gratuito! Adicione o grupo QQ simultaneamente e os assuntos subsequentes do curso serão notificados no grupo!)
A segunda fase do curso será transmitida ao vivo na Estação B, das 14h00 às 15h00, todos os sábados, a partir de 14 de outubro.
O ppt e o código de cada curso serão carregados gradualmente no github junto com o ensino, e a série de reproduções de vídeo será arquivada na estação b. Você pode obter uma revisão dos pontos de conhecimento de cada aula e uma prévia do curso para a próxima. class na conta oficial do MindSpore Welcome to Everyone recebe uma série de grandes tarefas de modelo da comunidade MindSpore para desafiar.
Como o ciclo do curso é longo, o horário das aulas poderá sofrer pequenos ajustes no meio. O aviso final prevalecerá.
Amigos são muito bem-vindos para participar da construção do curso. Desenvolvimentos interessantes baseados no curso podem ser enviados para a plataforma de modelos grandes da MindSpore.
Se você encontrar algum problema com o material didático e o código durante o processo de aprendizagem e quiser que expliquemos qual conteúdo deseja, ou tenha alguma sugestão para o curso, você pode criar um problema diretamente neste repositório.
A aula aberta da tecnologia Shengsi MindSpore está agora em pleno andamento. Está aberta a todos os desenvolvedores interessados em modelos grandes. Iremos levá-lo a combinar a teoria com o tempo e aprofundar gradualmente a tecnologia de modelos grandes, do mais superficial ao mais profundo.
No primeiro curso concluído (Aula 1 a 10), começamos com o Transformer, analisamos a rota de evolução do ChatGPT e orientamos você passo a passo para construir uma versão simples do "ChatGPT"
A segunda fase do curso em andamento (Aula 11-) foi amplamente atualizada com base na primeira fase. Ela se concentra em toda a prática do processo de grandes modelos, desde o desenvolvimento até a aplicação, explicando o conhecimento mais avançado de grandes modelos e enriquecendo mais. conhecimento. Uma formação diversificada de palestrantes, ansiosos pela sua adesão!
Número do capítulo | Nome do capítulo | Introdução ao curso | vídeo | Curso e código | Resumo dos pontos de conhecimento |
---|---|---|---|---|---|
Aula 1 | Transformador | Princípio de autoatenção com múltiplas cabeças. Método de processamento de mascaramento de autoatenção mascarada. Treinamento de tarefas de tradução automática baseado em transformador. | link | link | link |
Aula 2 | BERTO | Projeto de modelo BERT baseado em Transformer Encoder: tarefas MLM e NSP. O paradigma do BERT para o ajuste fino de tarefas downstream. | link | link | link |
Aula 3 | GPT | Projeto de modelo GPT baseado em Transformer Decoder: próxima previsão de token. Paradigma de ajuste fino de tarefa downstream GPT. | link | link | link |
Aula 4 | GPT2 | As principais inovações do GPT2 incluem condicionamento de tarefas e aprendizado zero shot; os detalhes de implementação do modelo são baseados nas mudanças do GPT1. | link | link | link |
Aula 5 | MindSpore paraleliza automaticamente | Paralelismo de dados, paralelismo de modelo, paralelismo de pipeline, otimização de memória e outras tecnologias baseadas nas características de paralelismo distribuído do MindSpore. | link | link | link |
Aula 6 | Pré-treinamento de código | A história de desenvolvimento do pré-treinamento de código. Pré-processamento de dados de código. O código CodeGeex pré-treina modelos grandes. | link | link | link |
Aula 7 | Ajuste rápido | Mudança do paradigma Pretrain-finetune para paradigma de ajuste Prompt. Tecnologias relacionadas ao prompt rígido e ao prompt suave. Basta alterar a solicitação do texto de descrição. | link | link | link |
Aula 8 | Modelo grande pré-treinado multimodal | O design, processamento de dados e vantagens do grande modelo multimodal Zidong Taichu; a visão geral teórica, estrutura do sistema, situação atual e desafios do reconhecimento de fala; | link | / | / |
Aula 9 | Instruir ajuste | A ideia central do ajuste de instruções: permitir que o modelo entenda a descrição da tarefa (instrução). Limitações do ajuste de instrução: incapaz de apoiar tarefas inovadoras de domínio aberto, incapaz de alinhar os objetivos de treinamento de LM e as necessidades humanas. Cadeia de pensamentos: Ao fornecer exemplos em prompts, o modelo pode fazer inferências. | link | link | link |
Aula 10 | RLHF | A ideia central do RLHF: Alinhar LLM com o comportamento humano. Análise da tecnologia RLHF: ajuste fino de LLM, treinamento de modelo de recompensa com base em feedback humano e ajuste fino de modelo por meio de algoritmo PPO de aprendizagem por reforço. | link | link | Atualizando |
Aula 11 | Bate-papoGLM | Estrutura do modelo GLM, evolução do GLM para ChatGLM, demonstração do código de implantação de inferência do ChatGLM | link | link | link |
Aula 12 | Modelo básico de interpretação inteligente de sensoriamento remoto multimodal | Neste curso, Sun Xian, vice-diretor do laboratório de pesquisa do Instituto de Inovação de Informação Aeroespacial da Academia Chinesa de Ciências, explicou o modelo básico de interpretação de sensoriamento remoto multimodal, revelando o desenvolvimento e os desafios da tecnologia de sensoriamento remoto inteligente. na era dos grandes modelos, e as rotas técnicas e soluções do modelo básico de sensoriamento remoto. | link | / | link |
Aula 13 | Bate-papoGLM2 | Análise técnica ChatGLM2, demonstração de código de implantação de inferência ChatGLM2, introdução de recurso ChatGLM3 | link | link | link |
Aula 14 | Princípios de geração e decodificação de texto | Tomando MindNLP como exemplo para explicar os princípios e a implementação da tecnologia de pesquisa e amostragem | link | link | link |
Aula 15 | LAMA | Histórico do LLaMA e introdução à família alpaca, análise da estrutura do modelo LLaMA, demonstração do código de implantação de inferência do LLaMA | link | link | link |
Aula 16 | LAMA2 | Apresentando a estrutura do modelo LLAMA2, lendo o código para demonstrar a implantação do chat LLAMA2 | link | link | link |
Aula 17 | Mente Pengcheng | O modelo Pengcheng Brain 200B é um modelo de linguagem autoregressivo com 200 bilhões de parâmetros. É baseado na tecnologia paralela distribuída multidimensional da MindSpore para desenvolvimento em larga escala de longo prazo no cluster de quilocards 'Pengcheng Cloud Brain II' do nó central da China Computing Network. Treinamento em escala. O modelo concentra-se nas principais capacidades do chinês, levando em consideração o inglês e algumas capacidades multilíngues. Concluiu o treinamento em tokens 1.8T. | link | / | link |
Aula 18 | CPM-Bee | Apresentando pré-treinamento, inferência, ajuste fino e demonstração de código ao vivo do CPM-Bee | link | link | link |
Aula 19 | RWKV1-4 | O declínio da RNN e a ascensão dos Transformadores Universais? As desvantagens do novo modelo RNN-RWKV de prática RWKV do Transformer baseado em MindNLP | link | / | link |
Aula 20 | MOE | A vida passada e presente do MoE A base de implementação do MoE: comunicação AlltoAll; | link | link | link |
Aula 21 | Ajuste fino de parâmetros eficiente | Apresentando Lora, princípios (P-Tuning) e implementação de código | link | link | link |
Aula 22 | Engenharia imediata | Engenharia Prompt: 1. O que é Prompt? 2. Como definir a qualidade de um Prompt 3. Como escrever um Prompt de alta qualidade? 4. Como produzir um prompt de alta qualidade? 5. Vamos falar brevemente sobre alguns dos problemas que encontramos ao executar o Prompt. | link | / | link |
Aula 23 | Estratégia de otimização de pesquisa automática paralela híbrida multidimensional | Tópico 1·Modelo de perda de tempo e dicotomia multidimensional aprimorada/Tópico 2·Aplicação do algoritmo APSS | para cima e para baixo | link | |
Aula 24 | Acadêmico. Puyu grande modelo de código aberto introdução de cadeia de ferramentas de cadeia completa e experiência de desenvolvimento de agente inteligente | Neste curso, temos a sorte de convidar o Sr. Wen Xing, o operador técnico e evangelista técnico da comunidade Shusheng.Puyu, e o Sr. Modelo grande de cadeia Shusheng.Puyu, demonstrando como ajustar, raciocinar e desenvolver agentes inteligentes em Shusheng.Puyu. | link | / | link |
Aula 25 | pano | ||||
Aula 26 | Análise do módulo LangChain | Analise modelos, prompts, memória, cadeias, agentes, índices, módulos de retorno de chamada e análise de caso | |||
Aula 27 | RWKV5-6 | / | |||
Aula 28 | Quantificar | Apresentando a quantização de baixo bit e outras tecnologias de quantização de modelos relacionadas |