Lien d'inscription : https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(Remarque : vous devez vous inscrire pour participer au cours gratuit ! Ajoutez le groupe QQ simultanément, et les questions de cours ultérieures seront notifiées dans le groupe !)
La deuxième phase du cours sera diffusée en direct à la Station B de 14h00 à 15h00 tous les samedis à partir du 14 octobre.
Le ppt et le code de chaque cours seront progressivement téléchargés sur github avec l'enseignement, et la série de lectures vidéo sera archivée sur la station b. Vous pourrez obtenir un aperçu des points de connaissance de chaque classe et un aperçu du cours pour le suivant. classe sur le compte officiel MindSpore. Welcome to Everyone reçoit une série de grandes tâches de modèle de la communauté MindSpore à défier.
Le cycle de cours étant long, l'horaire des cours peut être légèrement modifié à mi-parcours. L'avis final fera foi. Merci de votre compréhension !
Les amis sont chaleureusement invités à participer à la construction du cours. Des développements intéressants basés sur le cours peuvent être soumis sur la plateforme de grands modèles MindSpore.
Si vous rencontrez des problèmes avec le didacticiel et le code pendant le processus d'apprentissage et que vous souhaitez que nous vous expliquions le contenu que vous souhaitez ou que vous ayez des suggestions pour le cours, vous pouvez créer un problème directement dans ce référentiel.
La classe ouverte de technologie Shengsi MindSpore bat désormais son plein. Elle est ouverte à tous les développeurs intéressés par les grands modèles. Nous vous amènerons à combiner la théorie avec le temps et à approfondir progressivement la technologie des grands modèles, du moins profond au plus profond.
Dans le premier cours terminé (Leçon 1-10), nous avons commencé avec Transformer, analysé le parcours d'évolution de ChatGPT et vous avons guidé étape par étape pour créer une version simple de "ChatGPT".
La deuxième phase en cours du cours (cours 11-) a été entièrement mise à niveau sur la base de la première phase. Elle se concentre sur l'ensemble du processus de pratique des grands modèles, du développement à l'application, expliquant des connaissances plus avancées sur les grands modèles et enrichissant davantage. connaissances. Une gamme diversifiée de conférenciers, impatients de vous rejoindre !
Numéro de chapitre | Nom du chapitre | Introduction au cours | vidéo | Didacticiel et code | Résumé des points de connaissances |
---|---|---|---|---|---|
Conférence 1 | Transformateur | Principe d’auto-attention multi-têtes. Méthode de traitement de masquage de l'auto-attention masquée. Formation aux tâches de traduction automatique basée sur un transformateur. | lien | lien | lien |
Conférence 2 | BERTE | Conception de modèle BERT basée sur Transformer Encoder : tâches MLM et NSP. Le paradigme de BERT pour affiner les tâches en aval. | lien | lien | lien |
Conférence 3 | Google Tag | Conception du modèle GPT basée sur Transformer Decoder : prédiction du prochain jeton. Paradigme de réglage fin des tâches GPT en aval. | lien | lien | lien |
Conférence 4 | GPT2 | Les principales innovations de GPT2 incluent le conditionnement des tâches et l'apprentissage Zero Shot ; les détails de mise en œuvre du modèle sont basés sur les modifications de GPT1. | lien | lien | lien |
Conférence 5 | MindSpore parallélise automatiquement | Parallélisme des données, parallélisme des modèles, parallélisme des pipelines, optimisation de la mémoire et autres technologies basées sur les caractéristiques de parallélisme distribué de MindSpore. | lien | lien | lien |
Conférence 6 | Pré-formation au code | L'historique du développement de la pré-formation au code. Prétraitement des données de code. Le code CodeGeex pré-entraîne les grands modèles. | lien | lien | lien |
Conférence 7 | Réglage rapide | Passage du paradigme de pré-entraînement-finetune au paradigme de réglage rapide. Technologies liées aux invites matérielles et logicielles. Modifiez simplement l'invite du texte de description. | lien | lien | lien |
Conférence 8 | Grand modèle multimodal pré-entraîné | La conception, le traitement des données et les avantages du grand modèle multimodal de Zidong Taichu ; l'aperçu théorique, le cadre du système, la situation actuelle et les défis de la reconnaissance vocale. | lien | / | / |
Conférence 9 | Instruire le réglage | L'idée centrale du réglage des instructions : permettre au modèle de comprendre la description de la tâche (instruction). Limites du réglage des instructions : incapable de prendre en charge des tâches innovantes dans le domaine ouvert, incapable d'aligner les objectifs de formation LM et les besoins humains. Chaîne de réflexion : en fournissant des exemples dans des invites, le modèle peut tirer des conclusions. | lien | lien | lien |
Conférence 10 | RLHF | L'idée centrale du RLHF : Aligner le LLM sur le comportement humain. Répartition de la technologie RLHF : réglage fin du LLM, formation du modèle de récompense basée sur les commentaires humains et réglage fin du modèle grâce à l'algorithme PPO d'apprentissage par renforcement. | lien | lien | Mise à jour |
Conférence 11 | ChatGLM | Structure du modèle GLM, évolution de GLM vers ChatGLM, démonstration du code de déploiement d'inférence ChatGLM | lien | lien | lien |
Conférence 12 | Modèle de base d'interprétation intelligente de télédétection multimodale | Dans ce cours, M. Sun Xian, directeur adjoint du laboratoire de recherche de l'Institut d'innovation de l'information aérospatiale de l'Académie chinoise des sciences, a expliqué le modèle de base de l'interprétation multimodale de la télédétection, révélant le développement et les défis de la technologie de télédétection intelligente. à l'ère des grands modèles, ainsi que les itinéraires et solutions techniques du modèle de base de télédétection Applications de scénarios typiques. | lien | / | lien |
Conférence 13 | ChatGLM2 | Analyse technique ChatGLM2, démonstration du code de déploiement d'inférence ChatGLM2, introduction des fonctionnalités ChatGLM3 | lien | lien | lien |
Conférence 14 | Principes de génération et de décodage de texte | Prendre MindNLP comme exemple pour expliquer les principes et la mise en œuvre de la technologie de recherche et d'échantillonnage | lien | lien | lien |
Conférence 15 | LAMA | Contexte LLaMA et introduction à la famille des alpagas, analyse de la structure du modèle LLaMA, démonstration du code de déploiement d'inférence LLaMA | lien | lien | lien |
Conférence 16 | LAMA2 | Présentation de la structure du modèle LAMA2, lecture du code pour démontrer le déploiement du chat LAMA2 | lien | lien | lien |
Conférence 17 | Esprit Pengcheng | Le modèle Pengcheng Brain 200B est un modèle de langage autorégressif avec 200 milliards de paramètres. Il est basé sur la technologie parallèle distribuée multidimensionnelle de MindSpore pour un développement à grande échelle à long terme sur le cluster kilocard « Pengcheng Cloud Brain II » du nœud central du China Computing Network. Formation à l’échelle. Le modèle se concentre sur les capacités de base du chinois, en tenant compte de l'anglais et de certaines capacités multilingues. Il a suivi une formation sur les jetons 1,8T. | lien | / | lien |
Conférence 18 | CPM-Abeille | Présentation de la pré-formation, de l'inférence, de la mise au point et de la démonstration de code en direct de CPM-Bee | lien | lien | lien |
Conférence 19 | RWKV1-4 | Le déclin du RNN et la montée en puissance des Transformers Universal ? Les inconvénients du nouveau modèle RNN-RWKV de Transformer "punch" d'auto-attention. Pratique du modèle RWKV basé sur MindNLP | lien | / | lien |
Conférence 20 | ME | La vie passée et présente du MoE Les fondements de la mise en œuvre du MoE : communication AlltoAll ; Mixtral 8x7b : le meilleur grand modèle open source du MoE à l'heure actuelle, MoE et apprentissage tout au long de la vie, basé sur la démonstration d'inférence Mixtral 8x7b de Shengsi MindSpore. | lien | lien | lien |
Conférence 21 | Ajustement efficace des paramètres | Présentation des principes de Lora (P-Tuning) et de la mise en œuvre du code | lien | lien | lien |
Conférence 22 | Ingénierie rapide | Ingénierie Prompt : 1. Qu'est-ce que Prompt ? 2. Comment définir la qualité d'un Prompt ? 3. Comment rédiger un Prompt de haute qualité ? 4. Comment produire une invite de haute qualité ? 5. Parlons brièvement de certains des problèmes que nous avons rencontrés lors de l'exécution de Prompt. | lien | / | lien |
Conférence 23 | Stratégie d'optimisation de recherche automatique parallèle hybride multidimensionnelle | Thème 1·Modèle de perte de temps et dichotomie multidimensionnelle améliorée/Thème 2·Application de l'algorithme APSS | de haut en bas | lien | |
Conférence 24 | Érudit Puyu, grand modèle open source, introduction à la chaîne d'outils complète et expérience de développement d'agents intelligents. | Dans ce cours, nous avons la chance d'inviter M. Wen Xing, l'opérateur technique et évangéliste technique de la communauté Shusheng.Puyu, et M. Geng Li, l'évangéliste technique de MindSpore, à expliquer en détail l'outil open source de lien complet de Grand modèle de chaîne Shusheng.Puyu, démontrant comment affiner, raisonner et développer des agents intelligents sur Shusheng.Puyu. | lien | / | lien |
Conférence 25 | CHIFFON | ||||
Conférence 26 | Analyse du module LangChain | Analyser les modèles, les invites, la mémoire, les chaînes, les agents, les index, les modules de rappel et l'analyse de cas | |||
Conférence 27 | RWKV5-6 | / | |||
Conférence 28 | Quantifier | Présentation de la quantification à bits faibles et d'autres technologies de quantification de modèles associées |