Registrierungslink: https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(Hinweis: Sie müssen sich registrieren, um am kostenlosen Kurs teilzunehmen! Fügen Sie gleichzeitig die QQ-Gruppe hinzu, und nachfolgende Kursangelegenheiten werden in der Gruppe benachrichtigt!)
Die zweite Kursphase wird ab dem 14. Oktober jeden Samstag von 14:00-15:00 Uhr live an Station B übertragen.
Die PPT und der Code jedes Kurses werden nach und nach zusammen mit dem Unterricht auf Github hochgeladen, und die Videowiedergabeserie wird auf Station B archiviert. Sie können einen Überblick über die Wissenspunkte jedes Kurses und eine Kursvorschau für den nächsten erhalten Klasse auf dem offiziellen MindSpore-Konto Willkommen bei Jeder erhält eine Reihe großer Modellaufgaben von der MindSpore-Community zum Herausfordern.
Da der Kurszyklus lang ist, kann es sein, dass der Stundenplan in der Mitte des Kurses leicht angepasst wird. Vielen Dank für Ihr Verständnis.
Freunde sind herzlich willkommen, sich am Aufbau des Kurses zu beteiligen. Interessante Entwicklungen auf Basis des Kurses können auf der großen Modellplattform MindSpore eingereicht werden.
Wenn Sie während des Lernprozesses Probleme mit Kursmaterialien und Code feststellen und möchten, dass wir Ihnen erklären, welche Inhalte Sie wünschen, oder Vorschläge für den Kurs haben, können Sie direkt in diesem Repository ein Problem erstellen.
Der offene Kurs zur Shengsi MindSpore-Technologie ist jetzt in vollem Gange. Er steht allen Entwicklern offen, die sich für große Modelle interessieren. Wir werden Sie dabei unterstützen, Theorie und Zeit zu kombinieren und die Technologie großer Modelle schrittweise von der flacheren zur tieferen Ebene zu vertiefen.
Im abgeschlossenen ersten Kurs (Vorlesung 1–10) haben wir mit Transformer begonnen, den Entwicklungsweg von ChatGPT analysiert und Sie Schritt für Schritt durch die Erstellung einer einfachen Version von „ChatGPT“ geführt.
Die laufende zweite Phase des Kurses (Vorlesung 11-) wurde auf der Grundlage der ersten Phase umfassend aufgewertet. Sie konzentriert sich auf die gesamte Prozesspraxis großer Modelle von der Entwicklung bis zur Anwendung, erläutert mehr aktuelles Wissen über große Modelle und bereichert diese Ein vielfältiges Angebot an Dozenten, wir freuen uns auf Ihren Beitritt!
Kapitelnummer | Kapitelname | Kurseinführung | Video | Kursunterlagen und Code | Zusammenfassung der Wissenspunkte |
---|---|---|---|---|---|
Vorlesung 1 | Transformator | Mehrkopf-Selbstaufmerksamkeitsprinzip. Maskierungsverarbeitungsmethode der maskierten Selbstaufmerksamkeit. Transformer-basiertes maschinelles Übersetzungsaufgabentraining. | Link | Link | Link |
Vorlesung 2 | BERT | BERT-Modelldesign basierend auf Transformer Encoder: MLM- und NSP-Aufgaben. BERTs Paradigma zur Feinabstimmung nachgelagerter Aufgaben. | Link | Link | Link |
Vorlesung 3 | GPT | GPT-Modelldesign basierend auf Transformer Decoder: Vorhersage des nächsten Tokens. GPT-Downstream-Aufgaben-Feinabstimmungsparadigma. | Link | Link | Link |
Vorlesung 4 | GPT2 | Zu den Kerninnovationen von GPT2 gehören Task Conditioning und Zero Shot Learning; die Details der Modellimplementierung basieren auf den Änderungen von GPT1. | Link | Link | Link |
Vorlesung 5 | MindSpore parallelisiert automatisch | Datenparallelität, Modellparallelität, Pipeline-Parallelität, Speicheroptimierung und andere Technologien, die auf den verteilten Parallelitätseigenschaften von MindSpore basieren. | Link | Link | Link |
Vorlesung 6 | Code-Vorschulung | Die Entwicklungsgeschichte des Code-Pre-Trainings. Vorverarbeitung der Codedaten. CodeGeex-Code trainiert große Modelle vorab. | Link | Link | Link |
Vorlesung 7 | Prompte Abstimmung | Wechsel vom Pretrain-Finetune-Paradigma zum Prompt-Tuning-Paradigma. Hard-Prompt- und Soft-Prompt-bezogene Technologien. Ändern Sie einfach die Eingabeaufforderung des Beschreibungstextes. | Link | Link | Link |
Vorlesung 8 | Multimodales vorab trainiertes großes Modell | Das Design, die Datenverarbeitung und die Vorteile des multimodalen Großmodells Zidong Taichu; der theoretische Überblick, der Systemrahmen, die aktuelle Situation und die Herausforderungen der Spracherkennung. | Link | / | / |
Vorlesung 9 | Tuning anweisen | Die Kernidee der Anweisungsoptimierung besteht darin, dem Modell zu ermöglichen, die Aufgabenbeschreibung (Anweisung) zu verstehen. Einschränkungen bei der Unterrichtsoptimierung: nicht in der Lage, innovative Aufgaben im offenen Bereich zu unterstützen, nicht in der Lage, LM-Trainingsziele und menschliche Bedürfnisse in Einklang zu bringen. Gedankenkette: Durch die Bereitstellung von Beispielen in Eingabeaufforderungen kann das Modell Schlussfolgerungen ziehen. | Link | Link | Link |
Vorlesung 10 | RLHF | Die Kernidee von RLHF: LLM am menschlichen Verhalten ausrichten. Aufschlüsselung der RLHF-Technologie: LLM-Feinabstimmung, Belohnungsmodelltraining basierend auf menschlichem Feedback und Modell-Feinabstimmung durch den PPO-Algorithmus für verstärktes Lernen. | Link | Link | Aktualisierung |
Vorlesung 11 | ChatGLM | GLM-Modellstruktur, Entwicklung von GLM zu ChatGLM, Demonstration des ChatGLM-Inferenz-Bereitstellungscodes | Link | Link | Link |
Vorlesung 12 | Multimodales Basismodell für die intelligente Interpretation der Fernerkundung | In diesem Kurs erläuterte Herr Sun Xian, stellvertretender Direktor des Forschungslabors des Instituts für Informationsinnovation in der Luft- und Raumfahrt der Chinesischen Akademie der Wissenschaften, das Grundmodell der multimodalen Fernerkundungsinterpretation und enthüllte die Entwicklung und Herausforderungen der intelligenten Fernerkundungstechnologie im Zeitalter großer Modelle und die technischen Wege und Lösungen des grundlegenden Fernerkundungsmodells | Link | / | Link |
Vorlesung 13 | ChatGLM2 | Technische Analyse von ChatGLM2, Demonstration des ChatGLM2-Inferenzbereitstellungscodes, Einführung der ChatGLM3-Funktion | Link | Link | Link |
Vorlesung 14 | Prinzipien der Textgenerierung und -dekodierung | Am Beispiel von MindNLP werden die Prinzipien und die Implementierung der Such- und Sampling-Technologie erläutert | Link | Link | Link |
Vorlesung 15 | LAMA | LLaMA-Hintergrund und Einführung in die Alpaka-Familie, LLaMA-Modellstrukturanalyse, Demonstration des LLaMA-Inferenz-Bereitstellungscodes | Link | Link | Link |
Vorlesung 16 | LAMA2 | Einführung in die LLAMA2-Modellstruktur und Lesen des Codes zur Demonstration der LLAMA2-Chat-Bereitstellung | Link | Link | Link |
Vorlesung 17 | Pengcheng Geist | Das Pengcheng Brain 200B-Modell ist ein autoregressives Sprachmodell mit 200 Milliarden Parametern. Es basiert auf der mehrdimensionalen verteilten Paralleltechnologie von MindSpore für die langfristige groß angelegte Entwicklung auf dem Kilocard-Cluster „Pengcheng Cloud Brain II“ des China Computing Network. Skalentraining. Das Modell konzentriert sich auf die Kernfähigkeiten des Chinesischen und berücksichtigt dabei Englisch und einige Mehrsprachenfähigkeiten. Es hat die Schulung zu 1,8T-Tokens abgeschlossen. | Link | / | Link |
Vorlesung 18 | CPM-Biene | Einführung von CPM-Bee-Vorschulung, Inferenz, Feinabstimmung und Live-Code-Demonstration | Link | Link | Link |
Vorlesung 19 | RWKV1-4 | Der Niedergang von RNN und der Aufstieg von Transformers? Die Nachteile der Selbstaufmerksamkeit „schlagen“ Transformers neues RNN-RWKV-Praxismodell des RWKV auf Basis von MindNLP | Link | / | Link |
Vorlesung 20 | MOE | Das vergangene und gegenwärtige Leben von MoE. Die Implementierungsgrundlage von MoE: AlltoAll-Kommunikation; Mixtral 8x7b: Das derzeit beste Open-Source-MoE-Großmodell, MoE und lebenslanges Lernen, basierend auf der Mixtral 8x7b-Inferenzdemonstration von Shengsi MindSpore. | Link | Link | Link |
Vorlesung 21 | Effiziente Feinabstimmung der Parameter | Einführung in Lora, (P-Tuning)-Prinzipien und Code-Implementierung | Link | Link | Link |
Vorlesung 22 | Schnelles Engineering | Prompt Engineering: 1. Was ist Prompt? 2. Wie definiere ich die Qualität eines Prompts? 3. Wie schreibe ich einen qualitativ hochwertigen Prompt? 4. Wie erstellt man eine qualitativ hochwertige Eingabeaufforderung? 5. Lassen Sie uns kurz über einige der Probleme sprechen, auf die wir bei der Ausführung von Prompt gestoßen sind. | Link | / | Link |
Vorlesung 23 | Mehrdimensionale hybride parallele automatische Suchoptimierungsstrategie | Thema 1·Zeitverlustmodell und verbesserte mehrdimensionale Dichotomie/Thema 2·Anwendung des APSS-Algorithmus | auf und ab | Link | |
Vorlesung 24 | Gelehrter. Einführung in die große Open-Source-Toolkette von Puyu und Erfahrung in der Entwicklung intelligenter Agenten | In diesem Kurs haben wir das Glück, Herrn Wen Shusheng.Puyu großes Modell, das zeigt, wie man Shusheng.Puyu verfeinert, argumentiert und intelligente Agenten entwickelt. | Link | / | Link |
Vorlesung 25 | LAPPEN | ||||
Vorlesung 26 | LangChain-Modulanalyse | Analysieren Sie Modelle, Eingabeaufforderungen, Speicher, Ketten, Agenten, Indizes, Rückrufmodule und Fallanalysen | |||
Vorlesung 27 | RWKV5-6 | / | |||
Vorlesung 28 | Quantifizieren | Einführung in die Low-Bit-Quantisierung und andere verwandte Modellquantisierungstechnologien |