ลิงค์ลงทะเบียน: https://xihe.mindspore.cn/course/foundation-model-v2/introduction
(หมายเหตุ: คุณต้องลงทะเบียนเพื่อเข้าร่วมหลักสูตรฟรี! เพิ่มกลุ่ม QQ พร้อมกัน แล้วเรื่องหลักสูตรถัดไปจะแจ้งให้ทราบในกลุ่ม!)
ระยะที่ 2 ของหลักสูตรจะมีการถ่ายทอดสดที่สถานี B ตั้งแต่เวลา 14.00-15.00 น. ทุกวันเสาร์ ตั้งแต่วันที่ 14 ตุลาคม
PPT และรหัสของแต่ละหลักสูตรจะค่อยๆ อัปโหลดไปยัง GitHub พร้อมกับการสอน และชุดการเล่นวิดีโอจะถูกจัดเก็บไว้ที่สถานี b คุณสามารถรับการทบทวนประเด็นความรู้ของแต่ละชั้นเรียนและดูตัวอย่างหลักสูตรสำหรับครั้งต่อไปได้ ในบัญชีอย่างเป็นทางการของ MindSpore ยินดีต้อนรับสู่ทุกคนจะได้รับชุดงานจำลองขนาดใหญ่จากชุมชน MindSpore ที่จะท้าทาย
เนื่องจากรอบหลักสูตรค่อนข้างยาว ตารางเรียนอาจมีการปรับเปลี่ยนเล็กน้อยโดยแจ้งให้ทราบล่วงหน้าเป็นครั้งสุดท้าย
เพื่อนๆ จะได้รับการต้อนรับอย่างอบอุ่นให้มีส่วนร่วมในการสร้างหลักสูตร สามารถส่งการพัฒนาที่น่าสนใจตามหลักสูตรไปยังแพลตฟอร์มโมเดลขนาดใหญ่ของ MindSpore
หากคุณพบปัญหาเกี่ยวกับบทเรียนและโค้ดในระหว่างกระบวนการเรียนรู้ และต้องการให้เราอธิบายเนื้อหาที่คุณต้องการ หรือมีข้อเสนอแนะสำหรับหลักสูตร คุณสามารถสร้างปัญหาได้โดยตรงในพื้นที่เก็บข้อมูลนี้
ขณะนี้คลาสเปิดเทคโนโลยี Shengsi MindSpore เปิดให้นักพัฒนาทุกคนที่สนใจโมเดลขนาดใหญ่ เราจะนำคุณไปผสมผสานทฤษฎีเข้ากับเวลา และค่อยๆ เจาะลึกเทคโนโลยีโมเดลขนาดใหญ่จากระดับตื้นไปจนถึงระดับลึก
ในหลักสูตรแรกที่สมบูรณ์ (บรรยายที่ 1-10) เราเริ่มต้นด้วย Transformer วิเคราะห์เส้นทางวิวัฒนาการของ ChatGPT และแนะนำคุณทีละขั้นตอนเพื่อสร้าง "ChatGPT" เวอร์ชันง่ายๆ
ระยะที่สองที่กำลังดำเนินอยู่ของหลักสูตร (การบรรยายที่ 11-) ได้รับการอัปเกรดอย่างครอบคลุมบนพื้นฐานของระยะแรก โดยมุ่งเน้นไปที่การฝึกปฏิบัติกระบวนการทั้งหมดของแบบจำลองขนาดใหญ่ตั้งแต่การพัฒนาไปจนถึงการใช้งาน อธิบายความรู้เกี่ยวกับแบบจำลองขนาดใหญ่ที่ล้ำหน้ามากขึ้นและเพิ่มคุณค่าให้มากขึ้น วิทยากรที่หลากหลายรอคอยที่จะเข้าร่วม!
หมายเลขบท | ชื่อบท | บทนำหลักสูตร | วิดีโอ | บทเรียนและโค้ด | สรุปประเด็นความรู้ |
---|---|---|---|---|---|
การบรรยายครั้งที่ 1 | หม้อแปลงไฟฟ้า | หลักการเอาใจใส่ตนเองแบบหลายหัว วิธีการประมวลผลการมาสก์ของการใส่ใจตนเองแบบสวมหน้ากาก การฝึกอบรมงานการแปลด้วยเครื่องที่ใช้หม้อแปลงไฟฟ้า | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 2 | เบิร์ต | การออกแบบโมเดล BERT ตาม Transformer Encoder: งาน MLM และ NSP กระบวนทัศน์ของ BERT สำหรับการปรับแต่งงานดาวน์สตรีมอย่างละเอียด | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 3 | GPT | การออกแบบโมเดล GPT ตาม Transformer Decoder: การทำนายโทเค็นถัดไป กระบวนทัศน์การปรับแต่งงานดาวน์สตรีม GPT | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 4 | GPT2 | นวัตกรรมหลักของ GPT2 ได้แก่ การปรับสภาพงานและการเรียนรู้แบบ Zero shot โดยรายละเอียดการใช้งานโมเดลจะขึ้นอยู่กับการเปลี่ยนแปลงของ GPT1 | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 5 | MindSpore จะขนานโดยอัตโนมัติ | ความเท่าเทียมของข้อมูล ความเท่าเทียมของโมเดล ความขนานของไปป์ไลน์ การเพิ่มประสิทธิภาพหน่วยความจำ และเทคโนโลยีอื่นๆ ที่อิงตามคุณลักษณะความขนานแบบกระจายของ MindSpore | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 6 | รหัสก่อนการฝึกอบรม | ประวัติการพัฒนาโค้ดก่อนการฝึกอบรม การประมวลผลข้อมูลรหัสล่วงหน้า โค้ด CodeGeex ฝึกโมเดลขนาดใหญ่ล่วงหน้า | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 7 | การปรับแต่งพร้อมท์ | เปลี่ยนจากกระบวนทัศน์ Pretrain-finetune เป็นกระบวนทัศน์การปรับพร้อมท์ เทคโนโลยีที่เกี่ยวข้องกับ Hard prompt และ Soft prompt เพียงเปลี่ยนข้อความแจ้งของคำอธิบาย | ลิงค์ | ลิงค์ | ลิงค์ |
การบรรยายครั้งที่ 8 | โมเดลขนาดใหญ่ที่ผ่านการฝึกอบรมล่วงหน้าหลายรูปแบบ | การออกแบบ การประมวลผลข้อมูล และข้อดีของโมเดลขนาดใหญ่หลายโมดัลของ Zidong Taichu ภาพรวมทางทฤษฎี กรอบระบบ สถานการณ์ปัจจุบัน และความท้าทายของการรู้จำเสียง | ลิงค์ | - | - |
การบรรยายครั้งที่ 9 | สอนปรับจูน | แนวคิดหลักของการปรับคำสั่ง: ทำให้โมเดลเข้าใจคำอธิบายงาน (คำสั่ง) ข้อจำกัดของการปรับแต่งคำสั่ง: ไม่สามารถสนับสนุนงานนวัตกรรมในโดเมนแบบเปิด ไม่สามารถปรับเป้าหมายการฝึกอบรม LM และความต้องการของมนุษย์ได้ ห่วงโซ่แห่งความคิด: แบบจำลองสามารถสรุปอนุมานได้โดยการยกตัวอย่างตามคำแนะนำ | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 10 | RLHF | แนวคิดหลักของ RLHF: จัด LLM ให้สอดคล้องกับพฤติกรรมของมนุษย์ รายละเอียดของเทคโนโลยี RLHF: การปรับแต่ง LLM อย่างละเอียด การฝึกอบรมโมเดลการให้รางวัลตามความคิดเห็นของมนุษย์ และการปรับแต่งโมเดลอย่างละเอียดผ่านอัลกอริทึม PPO การเรียนรู้แบบเสริมกำลัง | ลิงค์ | ลิงค์ | กำลังอัปเดต |
บรรยายครั้งที่ 11 | แชทGLM | โครงสร้างโมเดล GLM วิวัฒนาการจาก GLM สู่ ChatGLM การสาธิตโค้ดการปรับใช้การอนุมาน ChatGLM | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 12 | โมเดลพื้นฐานการตีความอัจฉริยะการรับรู้ระยะไกลหลายรูปแบบ | ในหลักสูตรนี้ นายซุน ซีอาน รองผู้อำนวยการห้องปฏิบัติการวิจัยของ Institute of Aerospace Information Innovation, Chinese Academy of Sciences อธิบายโมเดลพื้นฐานของการตีความการสำรวจระยะไกลหลายรูปแบบ ซึ่งเผยให้เห็นการพัฒนาและความท้าทายของเทคโนโลยีการสำรวจระยะไกลอัจฉริยะ ในยุคของโมเดลขนาดใหญ่ และเส้นทางทางเทคนิคและโซลูชันของโมเดลการสำรวจระยะไกลขั้นพื้นฐาน | ลิงค์ | - | ลิงค์ |
บรรยายครั้งที่ 13 | แชทGLM2 | การวิเคราะห์ทางเทคนิค ChatGLM2, การสาธิตการใช้งานโค้ดการอนุมาน ChatGLM2, การแนะนำคุณสมบัติ ChatGLM3 | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 14 | หลักการสร้างและถอดรหัสข้อความ | ใช้ MindNLP เป็นตัวอย่างในการอธิบายหลักการและการใช้เทคโนโลยีการค้นหาและการสุ่มตัวอย่าง | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 15 | ลามะ | ความเป็นมาของ LLaMA และการแนะนำตระกูลอัลปาก้า, การวิเคราะห์โครงสร้างโมเดล LLaMA, การสาธิตโค้ดการปรับใช้การอนุมาน LLaMA | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 16 | ลามะ2 | แนะนำโครงสร้างโมเดล LLAMA2 โดยการอ่านโค้ดเพื่อสาธิตการใช้งานแชท LLAMA2 | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 17 | ใจเผิงเฉิง | โมเดล Pengcheng Brain 200B เป็นโมเดลภาษาแบบถอยหลังอัตโนมัติด้วยพารามิเตอร์ 2 แสนล้านพารามิเตอร์ โดยใช้เทคโนโลยีแบบขนานแบบกระจายหลายมิติของ MindSpore เพื่อการพัฒนาขนาดใหญ่ในระยะยาวบนคลัสเตอร์กิโลการ์ดของโหนดฮับ 'Pengcheng Cloud Brain II' การฝึกอบรมขนาด โมเดลดังกล่าวมุ่งเน้นไปที่ความสามารถหลักของภาษาจีน โดยคำนึงถึงภาษาอังกฤษและความสามารถหลายภาษาบางส่วน โดยได้เสร็จสิ้นการฝึกอบรมเกี่ยวกับโทเค็น 1.8T | ลิงค์ | - | ลิงค์ |
บรรยายครั้งที่ 18 | CPM-บี | ขอแนะนำการฝึกอบรมล่วงหน้า CPM-Bee การอนุมาน การปรับแต่งอย่างละเอียด และการสาธิตโค้ดแบบสด | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 19 | RWKV1-4 | การลดลงของ RNN และการเพิ่มขึ้นของ Universal Transformers? ข้อเสียของการเอาใจใส่ตนเอง "หมัด" RNN-RWKV Practice ใหม่ของโมเดล RWKV ที่ใช้ MindNLP | ลิงค์ | - | ลิงค์ |
บรรยายครั้งที่ 20 | กระทรวงศึกษาธิการ | ชีวิตในอดีตและปัจจุบันของ MoE รากฐานการดำเนินงานของ MoE: การสื่อสาร AlltoAll; Mixtral 8x7b: โมเดลโอเพ่นซอร์สขนาดใหญ่ MoE ที่ดีที่สุดในปัจจุบัน MoE และการเรียนรู้ตลอดชีวิต จากการสาธิตการอนุมาน Mixtral 8x7b ของ Shengsi MindSpore | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 21 | การปรับพารามิเตอร์อย่างละเอียดอย่างมีประสิทธิภาพ | แนะนำหลักการ Lora (P-Tuning) และการใช้โค้ด | ลิงค์ | ลิงค์ | ลิงค์ |
บรรยายครั้งที่ 22 | วิศวกรรมพร้อมท์ | วิศวกรรมพร้อมท์: 1. พร้อมท์คืออะไร? 2. จะกำหนดคุณภาพของ Prompt ได้อย่างไร 3. จะเขียน Prompt คุณภาพสูงได้อย่างไร? 4. จะผลิตพร้อมท์คุณภาพสูงได้อย่างไร? 5. มาพูดคุยสั้น ๆ เกี่ยวกับปัญหาบางอย่างที่เราพบเมื่อดำเนินการพร้อมท์ | ลิงค์ | - | ลิงค์ |
บรรยายครั้งที่ 23 | กลยุทธ์การเพิ่มประสิทธิภาพการค้นหาอัตโนมัติแบบไฮบริดหลายมิติแบบคู่ขนาน | หัวข้อ 1·แบบจำลองการสูญเสียเวลาและการปรับปรุงการแบ่งขั้วหลายมิติ/หัวข้อ 2·การประยุกต์ใช้อัลกอริทึม APSS | ขึ้นและลง | ลิงค์ | |
บรรยายครั้งที่ 24 | นักวิชาการ Puyu ขนาดใหญ่โอเพ่นซอร์สแนะนำห่วงโซ่เครื่องมือเต็มรูปแบบและประสบการณ์การพัฒนาตัวแทนอัจฉริยะ | ในหลักสูตรนี้ เราโชคดีที่ได้เชิญ Mr. Wen Xing ผู้ดำเนินการด้านเทคนิคและผู้เผยแพร่ความรู้ด้านเทคนิคของชุมชน Shusheng.Puyu และ Mr. Geng Li ผู้เผยแพร่ความรู้ทางเทคนิคของ MindSpore เพื่ออธิบายรายละเอียดเกี่ยวกับเครื่องมือโอเพ่นซอร์สแบบเต็มลิงก์ของ Shusheng.Puyu โมเดลขนาดใหญ่ สาธิตวิธีการปรับแต่ง ให้เหตุผล และพัฒนาตัวแทนอัจฉริยะบน Shusheng.Puyu | ลิงค์ | - | ลิงค์ |
บรรยายครั้งที่ 25 | เศษผ้า | ||||
บรรยายครั้งที่ 26 | การวิเคราะห์โมดูล LangChain | วิเคราะห์โมเดล พรอมต์ หน่วยความจำ เชน เอเจนต์ ดัชนี โมดูลคอลแบ็ก และการวิเคราะห์เคส | |||
บรรยายครั้งที่ 27 | RWKV5-6 | - | |||
บรรยายครั้งที่ 28 | ปริมาณ | ขอแนะนำการวัดปริมาณบิตต่ำและเทคโนโลยีการวัดปริมาณแบบจำลองอื่นๆ ที่เกี่ยวข้อง |