2017 | หม้อแปลงไฟฟ้า | ความสนใจคือสิ่งที่คุณต้องการ | จุดเน้นของการวิจัยดั้งเดิมอยู่ที่งานแปล | TensorFlow + บทความ |
2018 | GPT | การปรับปรุงความเข้าใจภาษาโดย Generative Pre-Training | Transformer รุ่นแรกที่ได้รับการฝึกอบรมมาก่อน ใช้สำหรับการปรับแต่งงาน NLP ต่างๆ อย่างละเอียด และได้รับผลลัพธ์ที่ล้ำสมัย | |
2018 | เบิร์ต | BERT: การฝึกอบรมล่วงหน้าเกี่ยวกับหม้อแปลงสองทิศทางเชิงลึกเพื่อการทำความเข้าใจภาษา | โมเดลที่ได้รับการฝึกฝนขนาดใหญ่อีกโมเดลหนึ่ง ซึ่งออกแบบมาเพื่อสร้างการสรุปประโยคที่ดีขึ้น | ไพทอร์ช |
2019 | GPT-2 | โมเดลภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล | GPT เวอร์ชันที่ได้รับการปรับปรุง (และใหญ่กว่า) ซึ่งไม่ได้เผยแพร่ต่อสาธารณะในทันทีเนื่องจากข้อกังวลด้านจริยธรรม | |
2019 | DitilBERT - BERT กลั่น | DitilBERT ซึ่งเป็นเวอร์ชันกลั่นของ BERT: เล็กกว่า เร็วกว่า ถูกกว่า และเบากว่า | BERT เวอร์ชันกลั่นที่เร็วขึ้น 60% หน่วยความจำเบากว่า 40% และยังคงรักษาประสิทธิภาพของ BERT ได้ถึง 97% | |
2019 | บาร์ต | BART: การฝึกอบรมล่วงหน้าแบบ Denoising Sequence-to-Sequence สำหรับการสร้าง การแปล และความเข้าใจภาษาธรรมชาติ | โมเดลที่ได้รับการฝึกล่วงหน้าขนาดใหญ่โดยใช้สถาปัตยกรรมเดียวกันกับโมเดล Transformer ดั้งเดิม | |
2019 | T5 | สำรวจขีดจำกัดของการถ่ายโอนการเรียนรู้ด้วยตัวแปลงข้อความเป็นข้อความแบบครบวงจร | โมเดลที่ได้รับการฝึกล่วงหน้าขนาดใหญ่โดยใช้สถาปัตยกรรมเดียวกันกับโมเดล Transformer ดั้งเดิม | |
2019 | อัลเบิร์ต | อัลเบิร์ต: Lite BERT สำหรับการเรียนรู้ด้วยตนเองในการเป็นตัวแทนภาษา | | |
2019 | RoBERTa - แนวทางการฝึกอบรมล่วงหน้าของ BERT ที่ได้รับการปรับให้เหมาะสมที่สุด | RoBERTa: แนวทางการฝึกอบรมล่วงหน้าของ BERT ที่ได้รับการปรับให้เหมาะสมที่สุด | | |
2019 | CTRL | CTRL: โมเดลภาษาหม้อแปลงแบบมีเงื่อนไขสำหรับการสร้างที่ควบคุมได้ | | |
2019 | หม้อแปลงไฟฟ้า XL | Transformer-XL: โมเดลภาษาที่ใส่ใจนอกเหนือจากบริบทที่มีความยาวคงที่ | ใช้วิธีการเกิดซ้ำในสถานะที่ผ่านมา ควบคู่ไปกับการเข้ารหัสตำแหน่งที่สัมพันธ์กัน ทำให้สามารถพึ่งพาได้ในระยะยาว | |
2019 | ดิอาโบล GPT | DialoGPT: การฝึกอบรมล่วงหน้าขนาดใหญ่สำหรับการสร้างการตอบสนองการสนทนา | ได้รับการฝึกอบรมเกี่ยวกับการแลกเปลี่ยนที่เหมือนการสนทนา 147 ล้านรายการที่แยกมาจากกลุ่มความคิดเห็นของ Reddit ในช่วงระยะเวลาตั้งแต่ปี 2548 ถึง 2560 | ไพทอร์ช |
2019 | เออร์นี่ | ERNIE: การนำเสนอภาษาที่ได้รับการปรับปรุงด้วยเอนทิตีที่ให้ข้อมูล | ในบทความนี้ เราใช้ทั้งคลังข้อความขนาดใหญ่และ KG เพื่อฝึกโมเดลการนำเสนอภาษาที่ได้รับการปรับปรุง (ERNIE) ซึ่งสามารถใช้ประโยชน์จากข้อมูลคำศัพท์ วากยสัมพันธ์ และข้อมูลความรู้ได้อย่างเต็มที่ | |
2020 | GPT-3 | โมเดลภาษาเป็นผู้เรียนเพียงไม่กี่คน | GPT-2 เวอร์ชันที่ยิ่งใหญ่กว่าซึ่งสามารถทำงานได้ดีกับงานที่หลากหลายโดยไม่จำเป็นต้องปรับแต่งอย่างละเอียด (เรียกว่าการเรียนรู้แบบ Zero-Shot) | |
2020 | อีเล็คตร้า | ELECTRA: ตัวเข้ารหัสข้อความก่อนการฝึกอบรมในฐานะผู้แบ่งแยกแทนที่จะเป็นเครื่องกำเนิดไฟฟ้า | | |
2020 | เอ็มบาร์ท | การฝึกอบรมล่วงหน้าการลดสัญญาณรบกวนหลายภาษาสำหรับการแปลด้วยเครื่องประสาท | | |
2021 | CLIP (การฝึกอบรมล่วงหน้าภาษาที่ตัดกัน-รูปภาพ) | การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้จากการกำกับดูแลภาษาธรรมชาติ | CLIP เป็นโครงข่ายประสาทเทียมที่ได้รับการฝึกคู่ (รูปภาพ ข้อความ) ที่หลากหลาย สามารถใช้ภาษาธรรมชาติเพื่อคาดการณ์ตัวอย่างข้อความที่เกี่ยวข้องมากที่สุดโดยพิจารณาจากรูปภาพ โดยไม่ต้องปรับให้เหมาะสมกับงานโดยตรง เช่นเดียวกับความสามารถ Zero-Shot ของ GPT-2 และ 3 | ไพทอร์ช |
2021 | ดัล-อี | การสร้างข้อความเป็นภาพแบบ Zero-Shot | | ไพทอร์ช |
2021 | โกเฟอร์ | การปรับขนาดโมเดลภาษา: วิธีการ การวิเคราะห์ และข้อมูลเชิงลึกจากการฝึกอบรม Gopher | | |
2021 | หม้อแปลงการตัดสินใจ | หม้อแปลงการตัดสินใจ: การเรียนรู้แบบเสริมแรงผ่านการสร้างแบบจำลองลำดับ | สถาปัตยกรรมที่ทอดทิ้งปัญหาของ RL เป็นการสร้างแบบจำลองลำดับแบบมีเงื่อนไข | ไพทอร์ช |
2021 | GLam (โมเดลภาษาทั่วไป) | GLaM: การปรับขนาดโมเดลภาษาอย่างมีประสิทธิภาพด้วยผู้เชี่ยวชาญที่หลากหลาย | ในบทความนี้ เราเสนอและพัฒนาตระกูลโมเดลภาษาชื่อ GLaM (โมเดลภาษาทั่วไป) ซึ่งใช้สถาปัตยกรรมผสมของผู้เชี่ยวชาญที่เปิดใช้งานแบบกระจัดกระจายเพื่อปรับขนาดความจุของโมเดล ในขณะเดียวกันก็ทำให้ต้นทุนการฝึกอบรมลดลงอย่างมากเมื่อเทียบกับตัวแปรที่มีความหนาแน่นสูง | |
2022 | chatGPT/InstructGPT | ฝึกอบรมโมเดลภาษาให้ปฏิบัติตามคำแนะนำพร้อมคำติชมของมนุษย์ | โมเดลภาษาที่ได้รับการฝึกอบรมนี้ทำตามความตั้งใจของผู้ใช้ได้ดีกว่า GPT-3 มาก แบบจำลองนี้ได้รับการปรับให้เหมาะสม (ปรับแต่งอย่างละเอียด) โดยใช้การเรียนรู้แบบเสริมแรงพร้อมผลตอบรับจากมนุษย์ (RLHF) เพื่อให้บรรลุบทสนทนาในการสนทนา แบบจำลองนี้ได้รับการฝึกฝนโดยใช้ข้อมูลที่หลากหลายซึ่งเขียนโดยผู้คนเพื่อให้ได้คำตอบที่ฟังดูเหมือนมนุษย์ | - |
2022 | ชินชิล่า | การฝึกอบรมโมเดลภาษาขนาดใหญ่ที่เพิ่มประสิทธิภาพการประมวลผล | ใช้งบประมาณการประมวลผลเดียวกันกับ Gopher แต่มีพารามิเตอร์ 70B และข้อมูลมากกว่า 4 เท่า | - |
2022 | LaMDA - โมเดลภาษาสำหรับแอปพลิเคชันโต้ตอบ | ลามด้า | เป็นตระกูลโมเดลภาษาประสาทที่ใช้ Transformer เป็นหลักสำหรับการสนทนาโดยเฉพาะ | |
2022 | DQ-BART | DQ-BART: แบบจำลองตามลำดับต่อลำดับที่มีประสิทธิภาพผ่านการกลั่นร่วมและการหาปริมาณ | เสนอให้ร่วมกันกลั่นและกำหนดปริมาณแบบจำลอง โดยที่ความรู้จะถูกถ่ายโอนจากแบบจำลองครูที่มีความแม่นยำเต็มรูปแบบไปยังแบบจำลองนักเรียนที่มีความแม่นยำต่ำในเชิงปริมาณและกลั่น | |
2022 | ฟลามิงโก | นกฟลามิงโก: โมเดลภาษาภาพสำหรับการเรียนรู้แบบไม่กี่ช็อต | การสร้างโมเดลที่สามารถปรับให้เข้ากับงานใหม่ๆ ได้อย่างรวดเร็วโดยใช้ตัวอย่างที่มีคำอธิบายประกอบเพียงไม่กี่ตัวอย่าง ถือเป็นความท้าทายที่เปิดกว้างสำหรับการวิจัยแมชชีนเลิร์นนิงแบบหลายรูปแบบ เราขอแนะนำ Flamingo ตระกูล Visual Language Models (VLM) ที่มีความสามารถนี้ | |
2022 | กาโต้ | ตัวแทนทั่วไป | แรงบันดาลใจจากความก้าวหน้าในการสร้างแบบจำลองภาษาขนาดใหญ่ เราใช้วิธีการที่คล้ายกันในการสร้างตัวแทนทั่วไปเพียงตัวเดียวที่อยู่นอกขอบเขตของเอาต์พุตข้อความ ตัวแทน ซึ่งเราเรียกว่า Gato ทำงานเป็นนโยบายทั่วไปแบบหลายรูปแบบ หลายงาน หลายรูปแบบ | |
2022 | GODEL: การฝึกอบรมล่วงหน้าขนาดใหญ่สำหรับการโต้ตอบแบบมีเป้าหมาย | GODEL: การฝึกอบรมล่วงหน้าขนาดใหญ่สำหรับการโต้ตอบแบบมีเป้าหมาย | ตรงกันข้ามกับรุ่นก่อน ๆ เช่น DialoGPT GODEL ใช้ประโยชน์จากขั้นตอนใหม่ของการฝึกอบรมล่วงหน้าที่มีพื้นฐานซึ่งออกแบบมาเพื่อรองรับการปรับ GODEL ให้ดีขึ้นกับงานโต้ตอบดาวน์สตรีมที่หลากหลายซึ่งต้องใช้ข้อมูลภายนอกการสนทนาปัจจุบัน (เช่น ฐานข้อมูลหรือเอกสาร) เพื่อ ทำให้เกิดการตอบรับที่ดี | ไพทอร์ช |
2023 | GPT-4 | รายงานทางเทคนิค GPT-4 | ขณะนี้โมเดลยอมรับอินพุตหลายรูปแบบ: รูปภาพและข้อความ | - |
2023 | บลูมเบิร์กจีพีที | BloombergGPT: โมเดลภาษาขนาดใหญ่สำหรับการเงิน | LLM เชี่ยวชาญด้านการเงินผ่านการฝึกอบรมจากแหล่งข้อมูลที่ครอบคลุมของ Bloomberg | |
2023 | บลูม | BLOOM: โมเดลภาษาหลายภาษาแบบเปิดที่เข้าถึงได้หลายพารามิเตอร์ 176B | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) คือโมเดลภาษา Transformer ที่ใช้ตัวถอดรหัสเท่านั้น ซึ่งได้รับการฝึกฝนบน ROOTS Corpus ซึ่งเป็นชุดข้อมูลที่ประกอบด้วยแหล่งข้อมูลหลายร้อยแหล่งในภาษาธรรมชาติ 46 ภาษาและภาษาโปรแกรม 13 ภาษา (ทั้งหมด 59 ภาษา) | |
2023 | ลามะ 2 | Llama 2: Open Foundation และโมเดลการแชทที่ได้รับการปรับแต่ง | | ไพทอร์ช #1 ไพทอร์ช #2 |
2023 | คลอดด์ | คลอดด์ | Claude สามารถวิเคราะห์คำศัพท์ได้ 75,000 คำ (100,000 โทเค็น) GPT4 สามารถทำโทเค็นได้เพียง 32.7,000 โทเค็น | |
2023 | ตรวจสอบตัวเองGPT | SelfCheckGPT: การตรวจจับภาพหลอนกล่องดำแบบไม่มีทรัพยากรสำหรับโมเดลภาษาขนาดใหญ่ทั่วไป | วิธีการสุ่มตัวอย่างแบบง่ายๆ ที่สามารถใช้เพื่อตรวจสอบข้อเท็จจริงของโมเดลกล่องดำในลักษณะที่ไม่มีทรัพยากร เช่น โดยไม่ต้องใช้ฐานข้อมูลภายนอก | |