Enlace de registro: https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(Nota: ¡Debe registrarse para participar en el curso gratuito! ¡Agregue el grupo QQ simultáneamente y los asuntos del curso posterior se notificarán en el grupo!)
La segunda fase del curso se transmitirá en vivo en la Estación B de 14:00 a 15:00 todos los sábados a partir del 14 de octubre.
El ppt y el código de cada curso se cargarán gradualmente en github junto con la enseñanza, y la serie de reproducciones de videos se archivará en la estación b. Puede obtener una revisión de los puntos de conocimiento de cada clase y una vista previa del curso para la siguiente. clase en la cuenta oficial de MindSpore Bienvenido a Todos reciben una serie de tareas modelo grandes de la comunidad MindSpore para desafiar.
Debido a que el ciclo del curso es largo, el horario de clases puede ajustarse ligeramente a mitad de camino. Prevalecerá el aviso final. ¡Gracias por su comprensión!
Los amigos son bienvenidos a participar en la construcción del curso. Se pueden enviar desarrollos interesantes basados en el curso a la plataforma modelo grande MindSpore.
Si encuentra algún problema con el software y el código del curso durante el proceso de aprendizaje y desea que le expliquemos qué contenido desea o tiene alguna sugerencia para el curso, puede crear un problema directamente en este repositorio.
La clase abierta de tecnología Shengsi MindSpore está ahora en pleno apogeo. Está abierta a todos los desarrolladores que estén interesados en modelos grandes. Lo llevaremos a combinar la teoría con el tiempo y profundizar gradualmente la tecnología de modelos grandes desde lo más superficial a lo más profundo.
En el primer curso completado (Conferencias 1-10), comenzamos con Transformer, analizamos la ruta de evolución de ChatGPT y lo guiamos paso a paso para crear una versión simple de "ChatGPT".
La segunda fase en curso del curso (Conferencia 11-) se ha actualizado integralmente sobre la base de la primera fase. Se centra en la práctica del proceso completo de modelos grandes desde el desarrollo hasta la aplicación, explicando conocimientos más avanzados sobre modelos grandes y enriqueciéndolos más. conocimiento. Un grupo diverso de conferenciantes, ¡esperamos que se una!
Número de capítulo | Nombre del capítulo | Introducción al curso | video | Material didáctico y código | Resumen de puntos de conocimiento. |
---|---|---|---|---|---|
Conferencia 1 | Transformador | Principio de autoatención de múltiples cabezales. Método de procesamiento de enmascaramiento de autoatención enmascarada. Capacitación en tareas de traducción automática basada en transformadores. | enlace | enlace | enlace |
Conferencia 2 | BERT | Diseño de modelo BERT basado en Transformer Encoder: tareas MLM y NSP. El paradigma de BERT para ajustar las tareas posteriores. | enlace | enlace | enlace |
Conferencia 3 | GPT | Diseño de modelo GPT basado en Transformer Decoder: predicción del siguiente token. Paradigma de ajuste fino de tareas posteriores de GPT. | enlace | enlace | enlace |
Conferencia 4 | GPT2 | Las principales innovaciones de GPT2 incluyen el condicionamiento de tareas y el aprendizaje de disparo cero; los detalles de implementación del modelo se basan en los cambios de GPT1. | enlace | enlace | enlace |
Conferencia 5 | MindSpore se paraleliza automáticamente | Paralelismo de datos, paralelismo de modelos, paralelismo de tuberías, optimización de memoria y otras tecnologías basadas en las características de paralelismo distribuido de MindSpore. | enlace | enlace | enlace |
Conferencia 6 | Pre-entrenamiento de código | El historial de desarrollo del preentrenamiento del código. Preprocesamiento de datos de código. El código CodeGeex entrena previamente modelos grandes. | enlace | enlace | enlace |
Conferencia 7 | Sintonización rápida | Cambie del paradigma de ajuste previo al entrenamiento al paradigma de ajuste rápido. Tecnologías relacionadas con avisos duros y avisos suaves. Simplemente cambie las indicaciones del texto de descripción. | enlace | enlace | enlace |
Conferencia 8 | Modelo grande multimodal preentrenado | El diseño, el procesamiento de datos y las ventajas del modelo grande multimodal Zidong Taichu; la descripción teórica, el marco del sistema, la situación actual y los desafíos del reconocimiento de voz. | enlace | / | / |
Conferencia 9 | Instruir afinación | La idea central del ajuste de instrucciones: permitir que el modelo comprenda la descripción de la tarea (instrucción). Limitaciones del ajuste de la instrucción: incapaz de soportar tareas innovadoras de dominio abierto, incapaz de alinear los objetivos de formación de LM y las necesidades humanas. Cadena de pensamientos: al proporcionar ejemplos en indicaciones, el modelo puede hacer inferencias. | enlace | enlace | enlace |
Conferencia 10 | RLHF | La idea central de RLHF: alinear LLM con el comportamiento humano. Desglose de la tecnología RLHF: ajuste fino de LLM, entrenamiento de modelos de recompensa basado en comentarios humanos y ajuste fino de modelos mediante el algoritmo PPO de aprendizaje por refuerzo. | enlace | enlace | Actualizando |
Conferencia 11 | ChatGLM | Estructura del modelo GLM, evolución de GLM a ChatGLM, demostración del código de implementación de inferencia de ChatGLM | enlace | enlace | enlace |
Conferencia 12 | Modelo básico de interpretación inteligente de teledetección multimodal | En este curso, el Sr. Sun Xian, subdirector del laboratorio de investigación del Instituto de Innovación en Información Aeroespacial de la Academia de Ciencias de China, explicó el modelo básico de interpretación de la teledetección multimodal, revelando el desarrollo y los desafíos de la tecnología de teledetección inteligente. en la era de los grandes modelos, y las rutas técnicas y soluciones del modelo básico de teledetección Aplicaciones de escenarios típicos. | enlace | / | enlace |
Conferencia 13 | ChatGLM2 | Análisis técnico de ChatGLM2, demostración del código de implementación de inferencia de ChatGLM2, introducción de la función ChatGLM3 | enlace | enlace | enlace |
Conferencia 14 | Principios de generación y decodificación de texto. | Tomando MindNLP como ejemplo para explicar los principios y la implementación de la tecnología de búsqueda y muestreo. | enlace | enlace | enlace |
Conferencia 15 | LLAMA | Antecedentes de LLaMA e introducción a la familia de las alpacas, análisis de la estructura del modelo LLaMA, demostración del código de implementación de inferencia de LLaMA | enlace | enlace | enlace |
Conferencia 16 | LLAMA2 | Presentamos la estructura del modelo LLAMA2 y leemos el código para demostrar la implementación del chat de LLAMA2. | enlace | enlace | enlace |
Conferencia 17 | mente pengcheng | El modelo Pengcheng Brain 200B es un modelo de lenguaje autorregresivo con 200 mil millones de parámetros. Se basa en la tecnología paralela distribuida multidimensional de MindSpore para el desarrollo a gran escala a largo plazo en el grupo de kilocards del nodo central de China Computing Network 'Pengcheng Cloud Brain II'. Entrenamiento a escala. El modelo se centra en las capacidades básicas del chino, teniendo en cuenta el inglés y algunas capacidades en varios idiomas. Ha completado el entrenamiento en tokens de 1,8T. | enlace | / | enlace |
Conferencia 18 | CPM-abeja | Presentamos el preentrenamiento, la inferencia, el ajuste y la demostración de código en vivo de CPM-Bee | enlace | enlace | enlace |
Conferencia 19 | RWKV1-4 | ¿El declive de RNN y el ascenso de Transformers Universal Transformers? Las desventajas del nuevo modelo RNN-RWKV de práctica de RWKV de "golpe" de autoatención de Transformer basado en MindNLP | enlace | / | enlace |
Conferencia 20 | MOE | La vida pasada y presente de MoE La base de implementación de MoE: comunicación AlltoAll; Mixtral 8x7b: el mejor modelo grande de MoE de código abierto en la actualidad, MoE y aprendizaje permanente, basado en la demostración de inferencia de Mixtral 8x7b de Shengsi MindSpore. | enlace | enlace | enlace |
Conferencia 21 | Ajuste eficiente de parámetros | Presentamos Lora, principios (P-Tuning) e implementación de código | enlace | enlace | enlace |
Conferencia 22 | Ingeniería rápida | Ingeniería rápida: 1. ¿Qué es Prompt? 2. ¿Cómo definir la calidad de un Aviso? 3. ¿Cómo escribir un Aviso de alta calidad? 4. ¿Cómo producir un mensaje de alta calidad? 5. Hablemos brevemente sobre algunos de los problemas que encontramos al ejecutar Prompt. | enlace | / | enlace |
Conferencia 23 | Estrategia de optimización de búsqueda automática paralela híbrida multidimensional | Tema 1·Modelo de pérdida de tiempo y dicotomía multidimensional mejorada/Tema 2·Aplicación del algoritmo APSS | arriba y abajo | enlace | |
Conferencia 24 | Académico Puyu, modelo grande, introducción a la cadena de herramientas de cadena completa y experiencia en desarrollo de agentes inteligentes. | En este curso, tenemos la suerte de invitar al Sr. Wen Xing, operador técnico y evangelista técnico de la comunidad Shusheng.Puyu, y al Sr. Geng Li, evangelista técnico de MindSpore, a explicar en detalle la herramienta de enlace completo de código abierto de Modelo grande de Shusheng.Puyu, que demuestra cómo afinar, razonar y desarrollar agentes inteligentes en Shusheng.Puyu. | enlace | / | enlace |
Conferencia 25 | TRAPO | ||||
Conferencia 26 | Análisis del módulo LangChain | Analizar modelos, indicaciones, memoria, cadenas, agentes, índices, módulos de devoluciones de llamadas y análisis de casos. | |||
Conferencia 27 | RWKV5-6 | / | |||
Conferencia 28 | Cuantificar | Introducción de la cuantificación de bits bajos y otras tecnologías de cuantificación de modelos relacionadas |