โมเดลที่น่ากลัว
แบบจำลองพื้นฐานเป็นแบบจำลองที่มีขนาดใหญ่ (เช่น Bert, Dall-E, GPT-3) ที่สามารถปรับให้เข้ากับแอพพลิเคชั่นปลายน้ำที่หลากหลาย คำนี้ได้รับความนิยมเป็นครั้งแรกโดยสถาบันปัญญาประดิษฐ์ของสแตนฟอร์ดสำหรับมนุษย์เป็นศูนย์กลาง พื้นที่เก็บข้อมูลนี้เก็บรักษารายการแบบจำลองพื้นฐานสำหรับงานวิสัยทัศน์และภาษา ไม่รวมเอกสารการวิจัยที่ไม่มีรหัส
สำรวจ
2024
- ตัวแทนภาษา (จากวิทยานิพนธ์ระดับปริญญาเอกของ Princeton Shunyu Yao บล็อก 1, blog2)
- การสำรวจอย่างเป็นระบบเกี่ยวกับแบบจำลองภาษาขนาดใหญ่สำหรับการออกแบบอัลกอริทึม (จาก City Univ. ของฮ่องกง)
- การแบ่งส่วนภาพในรูปแบบของมูลนิธิ: การสำรวจ (จากสถาบันเทคโนโลยีปักกิ่ง)
- สู่รูปแบบการมองเห็นทางภูมิศาสตร์วิสัยทัศน์: การสำรวจ (จาก Nanyang Technological University)
- การแนะนำการสร้างแบบจำลองภาษาวิสัยทัศน์ (จาก Meta)
- วิวัฒนาการของสถาปัตยกรรมแบบหลายรูปแบบ (จากมหาวิทยาลัย Purdue)
- แบบจำลองภาษาขนาดใหญ่หลายรูปแบบที่มีประสิทธิภาพ: การสำรวจ (จาก Tencent)
- แบบจำลองพื้นฐานสำหรับการทำความเข้าใจวิดีโอ: การสำรวจ (จากมหาวิทยาลัย Aalborg)
- Sora เป็นตัวจำลองโลกหรือไม่? การสำรวจที่ครอบคลุมเกี่ยวกับแบบจำลองโลกทั่วไปและอื่น ๆ (จาก Gigaai)
- บทบาทที่คาดหวังของโมเดลพื้นฐานในการพัฒนายานพาหนะอัตโนมัติ (จากมหาวิทยาลัย Tongji)
- การปรับจูนพารามิเตอร์ที่มีประสิทธิภาพสำหรับแบบจำลองขนาดใหญ่: การสำรวจที่ครอบคลุม (จาก Northeastern University)
- การทบทวนเกี่ยวกับพื้นหลังเทคโนโลยีข้อ จำกัด และโอกาสของแบบจำลองการมองเห็นขนาดใหญ่ (จาก Lehigh)
- ตัวแทน Multimodal ขนาดใหญ่: การสำรวจ (จาก CUHK)
- The Uncanny Valley: การวิเคราะห์แบบจำลองการแพร่กระจายที่ครอบคลุม (จาก MILA)
- แอปพลิเคชั่นหุ่นยนต์ในโลกแห่งความเป็นจริงของรูปแบบพื้นฐาน: บทวิจารณ์ (จาก University of Tokyo)
- จาก GPT-4 ถึงราศีเมถุนและอื่น ๆ : การประเมินภูมิทัศน์ของ MLLMs เกี่ยวกับความสามารถทั่วไปความน่าเชื่อถือและเวรกรรมผ่านสี่รังสี (จากเซี่ยงไฮ้ AI Lab)
- ต่อการรวมกันของรูปแบบพื้นฐานการมองเห็นและการเลือกปฏิบัติ: การสำรวจ (จาก JHU)
ก่อนปี 2567
- แบบจำลองพื้นฐานด้านการถ่ายภาพทางการแพทย์: การสำรวจที่ครอบคลุมและวิสัยทัศน์ในอนาคต (จาก SDSU)
- โมเดลพื้นฐานหลายรูปแบบ: จากผู้เชี่ยวชาญไปจนถึงผู้ช่วยทั่วไป (จาก Microsoft)
- สู่รูปแบบพื้นฐานทั่วไปสำหรับรังสีวิทยา (จาก SJTU)
- แบบจำลองพื้นฐานที่กำหนดยุคใหม่ในการมองเห็น: การสำรวจและมุมมอง (จาก MBZ University of AI)
- ต่อ AI ชีวการแพทย์ทั่วไป (จาก Google)
- การสำรวจอย่างเป็นระบบของวิศวกรรมที่รวดเร็วเกี่ยวกับแบบจำลองมูลนิธิวิสัยทัศน์ภาษา (จากออกซ์ฟอร์ด)
- แบบจำลองหลายรูปแบบขนาดใหญ่: หมายเหตุเกี่ยวกับการสอน CVPR 2023 (จาก Chunyuan Li, Microsoft)
- การสำรวจโมเดลภาษาขนาดใหญ่หลายรูปแบบ (จาก USTC และ Tencent)
- แบบจำลองวิสัยทัศน์ภาษาสำหรับงานวิสัยทัศน์: การสำรวจ (จาก Nanyang Technological University)
- แบบจำลองพื้นฐานสำหรับปัญญาประดิษฐ์ทางการแพทย์ทั่วไป (จาก Stanford)
- การสำรวจที่ครอบคลุมเกี่ยวกับโมเดลรากฐานที่ผ่านการฝึกอบรม: ประวัติจาก Bert ถึง Chatgpt
- การสำรวจที่ครอบคลุมเกี่ยวกับเนื้อหา Ai-Generated (AIGC): ประวัติความเป็นมาของ AI กำเนิดจาก GAN ถึง CHATGPT
- วิสัยทัศน์ภาษาก่อนการฝึกอบรม: พื้นฐานความก้าวหน้าล่าสุดและแนวโน้มในอนาคต
- เกี่ยวกับโอกาสและความเสี่ยงของแบบจำลองพื้นฐาน (การสำรวจครั้งนี้เป็นที่นิยมแนวคิดของโมเดลมูลนิธิจาก Standford) ก่อน
เอกสารตามวันที่
2024
- [11/14] การปรับขนาดกฎหมายเพื่อความแม่นยำ (จากฮาร์วาร์ด)
- [11/13] Neuralfeels ที่มีทุ่งนา: การรับรู้ visuotactile สำหรับการจัดการในมือ (จาก meta)
- [11/07] Dino-WM: World Models เกี่ยวกับคุณสมบัติด้านภาพที่ผ่านการฝึกอบรมมาก่อนเปิดใช้งานการวางแผนแบบศูนย์ (จากมหาวิทยาลัยนิวยอร์ก)
- [10/31] โครงการ SID: การจำลองตัวแทนมากมายต่ออารยธรรม AI (จาก Altera.al)
- [10/30] Tokenformer: ทบทวนการปรับขนาดหม้อแปลงด้วยพารามิเตอร์โมเดลโทเค็น (จาก Max Planck Institute for Informatics)
- [10/30] ให้รางวัลศูนย์ (จาก Richard Sutton, University of Alberta)
- [10/21] หน่วยความจำระยะยาว: รากฐานของการวิวัฒนาการตนเองของ AI (จากสถาบัน Tianqiao และ Chrissy Chen)
- [10/10] ปรับขนาดเมล็ดของคุณ: การออกแบบเคอร์เนลขนาดใหญ่ใน Convnets ไปสู่การเป็นตัวแทนสากล (จาก Cuhk)
- [10/04] ภาพยนตร์ Gen: นักแสดงของ Media Foundation Models (จาก Meta)
- [10/02] RNNs ทั้งหมดที่เราต้องการหรือไม่? (จาก MILA)
- [10/01] NGPT: หม้อแปลงปกติที่มีการเรียนรู้การเป็นตัวแทนบน hypersphere (จาก Nvidia)
- [09/30] MM1.5: วิธีการวิเคราะห์และข้อมูลเชิงลึกจากการปรับแต่ง LLM แบบหลายรูปแบบ (จาก Apple)
- [09/27] EMU3: การทำนายการเปิดตัวครั้งต่อไปคือสิ่งที่คุณต้องการ (จาก BAAI)
- [09/25] Molmo และ Pixmo: เปิดน้ำหนักและเปิดข้อมูลสำหรับรุ่นหลายรูปแบบที่ทันสมัย (จาก Allen AI)
- [09/18] QWEN2-VL: การปรับปรุงการรับรู้ของแบบจำลองวิสัยทัศน์ของโลกที่มีความละเอียดใด ๆ (จากอาลีบาบา)
- [09/18] Moshi: โมเดลพื้นฐานคำพูดสำหรับการสนทนาแบบเรียลไทม์ (จาก Kyutai)
- [08/27] โมเดลการแพร่กระจายเป็นเอ็นจิ้นเกมแบบเรียลไทม์ (จาก Google)
- [08/22] Sapiens: รากฐานสำหรับแบบจำลองการมองเห็นของมนุษย์ (จาก Meta)
- [08/14] Imagen 3 (จาก Google DeepMind)
- [07/31] The Llama 3 Herd of Models (จาก Meta)
- [07/29] Sam 2: แบ่งส่วนอะไรในรูปภาพและวิดีโอ (จาก Meta)
- [07/24] Partglee: แบบจำลองพื้นฐานสำหรับการรับรู้และแยกวิเคราะห์วัตถุใด ๆ (จากการเร่งรีบและบาย)
- [07/17] อีฟ: เปิดตัวโมเดลภาษาวิสัยทัศน์ที่ไม่มีการเข้ารหัส (จาก Baai)
- [07/12] เลเยอร์หม้อแปลงเป็นจิตรกร (จาก Sakana AI)
- [06/24] Cambrian-1: การสำรวจ LLM แบบหลายรูปแบบที่เปิดกว้างและมีวิสัยทัศน์เป็นศูนย์กลาง (จาก NYU)
- [06/13] 4M-21: แบบจำลองการมองเห็นใด ๆ สำหรับงานและวิธีการหลายสิบ (จาก EPFL และ Apple)
- [06/10] เมอร์ลิน: รูปแบบพื้นฐานภาษาวิสัยทัศน์สำหรับการตรวจเอกซเรย์คอมพิวเตอร์ 3 มิติ (จาก Stanford รหัสจะพร้อมใช้งาน)
- [06/06] Vision-LSTM: XLSTM เป็น Backbone วิสัยทัศน์ทั่วไป (จากผู้เขียน LSTM)
- [05/31] MESHXL: สนามพิกัดประสาทสำหรับแบบจำลองพื้นฐาน 3D กำเนิด (จาก Fudan)
- [05/25] MOEUT: Transformers Universal Mixture-of-Experts (จาก Stanford)
- [05/22] ความสนใจในฐานะ RNN (จาก Mila & Borealis AI)
- [05/22] Gigapath: รูปแบบพื้นฐานทั้งหมดสำหรับพยาธิสภาพดิจิตอลจากข้อมูลในโลกแห่งความเป็นจริง (จากธรรมชาติ)
- [05/21] BiomedParse: แบบจำลองพื้นฐานด้านชีวการแพทย์สำหรับการแยกวิเคราะห์ภาพชีวการแพทย์ (จาก Microsoft เวอร์ชันวารสาร)
- [05/20] Octo: นโยบายหุ่นยนต์ทั่วไปโอเพนซอร์ซ (จาก UC Berkeley)
- [05/17] กฎหมายการปรับขนาดเชิงสังเกตการณ์และการคาดการณ์ของประสิทธิภาพการทำงานของแบบจำลองภาษา (Fro Standford)
- [05/14] การทำความเข้าใจช่องว่างประสิทธิภาพระหว่างอัลกอริทึมการจัดตำแหน่งออนไลน์และออฟไลน์ (จาก Google)
- [05/09] Lumina-T2X: การเปลี่ยนข้อความเป็นรูปแบบการแก้ปัญหาและระยะเวลาใด ๆ ผ่านหม้อแปลงการแพร่กระจายขนาดใหญ่ที่ใช้การไหล (จากเซี่ยงไฮ้ AI Lab)
- [05/08] คุณแคชเพียงครั้งเดียวเท่านั้น: สถาปัตยกรรมตัวถอดรหัสสำหรับโมเดลภาษา
- [05/07] XLSTM: ขยายหน่วยความจำระยะสั้นยาว (จาก SEPP HOCHREITER ผู้เขียน LSTM)
- [05/06] การพัฒนาความสามารถทางการแพทย์หลายรูปแบบของราศีเมถุน (จาก Google)
- [05/04] U-DITS: โทเค็นตัวอย่างในหม้อแปลงการแพร่กระจายรูปตัวยู (จากมหาวิทยาลัยปักกิ่ง)
- [05/03] Vibe-Eval: ชุดประเมินผลยากสำหรับการวัดความคืบหน้าของแบบจำลองภาษาหลายรูปแบบ
- [04/30] Kan: เครือข่าย Kolmogorov-Arnold (ทางเลือกที่มีแนวโน้มของ MLPS จาก MIT)
- [04/26] เราจะไปไกลแค่ไหน GPT-4V? ปิดช่องว่างไปยังโมเดลหลายรูปแบบเชิงพาณิชย์ด้วยห้องสวีทโอเพนซอร์ซ (InternVL 1.5. จากเซี่ยงไฮ้ AI Lab)
- [04/14] TransformerFam: ความสนใจข้อเสนอแนะคือหน่วยความจำที่ทำงานได้ (จาก Google ความสนใจที่มีประสิทธิภาพ)
- [04/10] ไม่มีบริบทที่อยู่เบื้องหลัง: หม้อแปลงบริบทที่ไม่มีที่สิ้นสุดที่มีประสิทธิภาพด้วยการแทรกแซง Infini-Attention (จาก Google)
- [04/02] Octopus V2: รูปแบบภาษาระหว่างอุปกรณ์สำหรับ Super Agent (จาก Stanford)
- [04/02] ส่วนผสมของความลึก: การจัดสรรการคำนวณแบบไดนามิกในรูปแบบภาษาที่ใช้หม้อแปลง (จาก Google)
- [03/22] InternVideo2: การปรับสเกลวิดีโอแบบจำลองสำหรับความเข้าใจวิดีโอหลายรูปแบบ (จาก Shanghai AI Lab)
- [03/18] Arc2Face: รูปแบบพื้นฐานของใบหน้ามนุษย์ (จาก Imperial College London)
- [03/14] MM1: วิธีการวิเคราะห์และข้อมูลเชิงลึกจากการฝึกอบรมล่วงหน้าหลายรูปแบบ LLM (พารามิเตอร์ 30B จาก Apple)
- [03/09] Unigradicon: แบบจำลองพื้นฐานสำหรับการลงทะเบียนภาพทางการแพทย์ (จาก UNC-Chapel Hill)
- [03/05] การปรับขนาดหม้อแปลงการไหลที่แก้ไขสำหรับการสังเคราะห์ภาพความละเอียดสูง (การแพร่กระจายที่เสถียร 3. จากความเสถียร AI)
- [03/01] การเรียนรู้และการใช้ประโยชน์จากแบบจำลองโลกในการเรียนรู้การแสดงภาพ (จาก Meta)
- [03/01] Visionllama: อินเทอร์เฟซ Llama แบบครบวงจรสำหรับงานการมองเห็น (จาก Meituan)
- [02/28] CLLMS: แบบจำลองภาษาขนาดใหญ่ที่สอดคล้องกัน (จาก SJTU)
- [02/27] การแพร่กระจายของเลเยอร์ภาพโปร่งใสโดยใช้ความโปร่งใสแฝง (จาก Standford)
- [02/22] Mobilellm: การเพิ่มประสิทธิภาพโมเดลภาษาพารามิเตอร์ sub-billion สำหรับกรณีการใช้งานบนอุปกรณ์ (จาก Meta)
- [02/21] Beyond A ∗: การวางแผนที่ดีขึ้นด้วย Transformers ผ่านการค้นหาแบบไดนามิก bootstrapping (จาก meta)
- [02/20] การแพร่กระจายของเครือข่ายประสาท (การสร้างพารามิเตอร์เครือข่ายผ่านโมเดลการแพร่กระจายจาก NUS)
- [02/20] Videoprism: ตัวเข้ารหัสภาพพื้นฐานสำหรับการทำความเข้าใจวิดีโอ (จาก Google)
- [02/19] FIT: Transformer Vision Flexible สำหรับแบบจำลองการแพร่กระจาย (จาก Shanghai AI Lab)
- [02/06] Mobilevlm V2: พื้นฐานที่เร็วและแข็งแกร่งขึ้นสำหรับรูปแบบภาษาวิสัยทัศน์ (จาก meituan)
- [01/30] YOLO-WORLD: การตรวจจับวัตถุแบบเปิดโล่งแบบเรียลไทม์ (จาก Tencent และ Hust)
- [01/23] Lumiere: รูปแบบการแพร่กระจายเวลาสำหรับการสร้างวิดีโอ (จาก Google)
- [01/22] Chexagent: สู่รูปแบบพื้นฐานสำหรับการตีความ X-ray หน้าอก (จาก Stanford)
- [01/19] ความลึกอะไร: ปลดปล่อยพลังของข้อมูลที่ไม่มีป้ายกำกับขนาดใหญ่ (จาก Tiktok)
- [01/16] SIT: การสำรวจการไหลและแบบจำลองการแพร่กระจายที่ใช้การแพร่กระจายด้วยหม้อแปลงอินเตอร์พอลแรนท์ที่ปรับขนาดได้ (จาก NYU)
- [01/15] InstantID: Zero-shot identity-regensing generation ในไม่กี่วินาที (จาก Xiaohongshu)
2023
- Bioclip: รูปแบบมูลนิธิวิสัยทัศน์สำหรับต้นไม้แห่งชีวิต (CVPR 2024 กระดาษนักเรียนที่ดีที่สุด)
- MAMBA: การสร้างแบบจำลองลำดับเวลาเชิงเส้นที่มีช่องว่างสถานะที่เลือก (MAMBA ดูเหมือนจะมีประสิทธิภาพสูงกว่าหม้อแปลงขนาดใกล้เคียงกันในขณะที่ปรับขนาดเป็นเส้นตรงด้วยความยาวลำดับจาก CMU)
- FoundationPose: การประมาณ 6D Pose การประมาณและการติดตามวัตถุนวนิยาย (จาก Nvidia)
- ติดตามทุกสิ่งทุกที่ในครั้งเดียว (จาก Cornell, ICCV 2023 กระดาษนักเรียนที่ดีที่สุด)
- แบบจำลองพื้นฐานสำหรับปัญญาประดิษฐ์เชิงพื้นที่ทั่วไป (จาก IBM และ NASA)
- Llama 2: Foundation Open และรุ่นแชทที่ปรับแต่ง (จาก Meta)
- internlm-xcomposer: แบบจำลองขนาดใหญ่ของ Vision-Language สำหรับความเข้าใจและองค์ประกอบภาพขั้นสูง (จาก Shanghai AI Lab)
- โครงการทั้งหมดที่ได้รับ: สู่การรับรู้ด้วยภาพ panoptic และความเข้าใจของโลกเปิด (จาก Shanghai AI Lab)
- Meta-Transformer: กรอบการเรียนรู้แบบครบวงจรสำหรับการเรียนรู้หลายรูปแบบ (จาก Cuhk และ Shanghai Ai Lab)
- เครือข่าย Retentive: ผู้สืบทอดต่อหม้อแปลงสำหรับรุ่นภาษาขนาดใหญ่ (จาก Microsoft และ Tsinghua University)
- แบบจำลองโลกของระบบประสาทสำหรับการมองเห็นคอมพิวเตอร์ (วิทยานิพนธ์ระดับปริญญาเอกของ Anthony Hu จาก University of Cambridge)
- รับรู้อะไรก็ได้: รูปแบบการติดแท็กภาพที่แข็งแกร่ง (แบบจำลองพื้นฐานที่แข็งแกร่งสำหรับการติดแท็กรูปภาพจาก Oppo)
- ไปสู่รูปแบบการแสดงภาพของฉากทางกายภาพ (อธิบายขั้นตอนแรกในการเรียนรู้การแสดงภาพที่มีวัตถุประสงค์ทั่วไปของฉากทางกายภาพโดยใช้การทำนายภาพเท่านั้นเป็นเกณฑ์การฝึกอบรมจาก AWS)
- LIMA: น้อยกว่าสำหรับการจัดตำแหน่ง (พารามิเตอร์ 65B จาก META)
- รายงานทางเทคนิค Palm 2 (จาก Google)
- ImageBind: พื้นที่ฝังหนึ่งเพื่อผูกมัดทั้งหมด (จาก meta)
- การปรับแต่งคำแนะนำด้วยภาพ (LLAVA จาก U of Wisconsin-Madison และ Microsoft)
- ดูเหมือน: แบ่งส่วนทุกอย่างทุกที่ในครั้งเดียว (จาก University of Wisconsin-Madison, Hkust และ Microsoft)
- SAM: แบ่งส่วนอะไร (โมเดลพื้นฐานแรกสำหรับการแบ่งส่วนภาพ; จาก meta)
- Seggpt: แบ่งกลุ่มทุกอย่างในบริบท (จาก Baai, Zju และ PKU)
- รูปภาพพูดในภาพ: จิตรกรทั่วไปสำหรับการเรียนรู้ด้วยภาพในบริบท (จาก Baai, Zju และ PKU)
- Unidector: ตรวจจับทุกสิ่งในโลกเปิด: ไปสู่การตรวจจับวัตถุสากล (CVPR จาก Tsinghua และ Bnrist)
- อาจารย์ที่ไม่ได้รับการฝึก: ไปสู่รูปแบบการฝึกอบรมที่มีประสิทธิภาพของมูลนิธิวิดีโอ (จาก Chinese Academy of Sciences, University of Chinese Academy of Sciences, ห้องปฏิบัติการเซี่ยงไฮ้ AI)
- การติดตามแบบหลายรูปแบบด้วยภาพ (จากมหาวิทยาลัยเทคโนโลยีต้าเหลียนและห้องปฏิบัติการ Peng Cheng)
- สู่การสร้างแบบจำลองพื้นฐานทั่วไปสำหรับงานภาษาวิสัยทัศน์และงานการมองเห็นภาษา (จาก BATTEDANCE)
- EVA-CLIP: เทคนิคการฝึกอบรมที่ได้รับการปรับปรุงสำหรับคลิปในระดับ (จาก BAAI และ HUST)
- EVA-02: การแสดงภาพสำหรับ Neon Genesis (จาก Baai และ Hust)
- EVA-01: สำรวจขีด จำกัด ของการเรียนรู้การแสดงภาพหน้ากากในระดับ (CVPR จาก Baai และ Hust)
- LLAMA: โมเดลภาษาที่เปิดกว้างและมีประสิทธิภาพ (คอลเลกชันของแบบจำลองภาษาพื้นฐานตั้งแต่พารามิเตอร์ 7B ถึง 65B; จาก META)
- ประสิทธิผลของแม่ก่อนการฝึกอบรมสำหรับการผ่าตัดก่อนพันล้าน (จากเมตา)
- Bloomberggpt: รูปแบบภาษาขนาดใหญ่สำหรับการเงิน (พารามิเตอร์ 50 พันล้านจาก Bloomberg)
- Bloom: รูปแบบภาษาหลายภาษาแบบเปิดกว้าง 176b-parameter (งานนี้ได้รับการประสานงานโดย Bigscience ซึ่งมีเป้าหมายคือการทำให้เป็นประชาธิปไตย LLMs)
- พลิก: การปรับขนาดภาษา-ภาพการฝึกอบรมผ่านการปิดบัง (จาก meta)
- BLIP-2: Bootstrapping Pre-Image การฝึกอบรมด้วยการเข้ารหัสภาพแช่แข็งและรูปแบบภาษาขนาดใหญ่ (จากการวิจัย Saleforce)
- รายงานทางเทคนิค GPT-4 (จาก OpenAI)
- Visual Chatgpt: การพูดคุยการวาดและการแก้ไขด้วยโมเดล Visual Foundation (จาก Microsoft Research Asia)
- Uninext: การรับรู้อินสแตนซ์สากลเป็นการค้นพบวัตถุและการดึงข้อมูล (โมเดลแบบครบวงจรสำหรับงานการรับรู้อินสแตนซ์ 10 ครั้ง; CVPR จาก BATTEDANCE)
- InternVideo: โมเดลพื้นฐานวิดีโอทั่วไปผ่านการเรียนรู้ทั่วไปและการเลือกปฏิบัติ (จาก Shanghai AI Lab)
- InternImage: สำรวจโมเดลมูลนิธิวิสัยทัศน์ขนาดใหญ่ที่มีความโน้มเอียงที่ผิดรูปได้ (CVPR จาก Shanghai AI Lab)
- BRIDGETOWER: การสร้างสะพานเชื่อมระหว่างการเรียนรู้การเรียนรู้การเป็นตัวแทนของวิสัยทัศน์ (จาก Harbin Institute of Technology และ Microsoft Research Asia)
2022
- BEVT: Bert Pretraining Transformers วิดีโอ (CVPR จาก Shanghai Key Lab ของการประมวลผลข้อมูลอัจฉริยะ)
- Foundation Transformers (จาก Microsoft)
- ตัวแทนทั่วไป (รู้จักกันในชื่อ Gato, Multi-Modal, Multi-Task, Multi-embodiment Generalist Agent; จาก DeepMind)
- ไฟเบอร์: การฝึกฝนภาษาวิสัยทัศน์แบบหยาบถึงขั้นต้นด้วยฟิวชั่นในกระดูกสันหลัง (จาก Microsoft, UCLA และ New York University)
- Flamingo: รูปแบบภาษาภาพสำหรับการเรียนรู้ไม่กี่ครั้ง (จาก DeepMind)
- MetalM: รุ่นภาษาเป็นอินเทอร์เฟซอเนกประสงค์ทั่วไป (จาก Microsoft)
- Point-E: ระบบสำหรับการสร้างเมฆจุด 3 มิติจากพรอมต์ที่ซับซ้อน (การสร้างวัตถุ 3 มิติที่มีประสิทธิภาพโดยใช้โมเดลการแพร่กระจายข้อความไปยังภาพจาก OpenAI)
- การแบ่งส่วนรูปภาพโดยใช้ข้อความและรูปภาพ (CVPR จาก University of Göttingen)
- การประมาณค่าการไหลสเตอริโอและความลึก (แบบครบวงจรสำหรับการเคลื่อนไหวสามครั้งและงานการรับรู้ 3 มิติจาก ETH Zurich)
- PALI: โมเดลภาพหลายภาษาหลายภาษาร่วมกัน (จาก Google)
- Videomae: Masked Autoencoders เป็นผู้เรียนที่มีประสิทธิภาพสำหรับการฝึกอบรมวิดีโอที่ดูแลตนเอง (Neurips, จาก Nanjing University, Tencent และ Shanghai AI Lab)
- สลิป: การดูแลตนเองตรงกับภาพภาษาก่อนการฝึกอบรม (ECCV จาก UC Berkeley และ Meta)
- GLIPV2: การรวมการแปลและการทำความเข้าใจ VL (Neurips'22, จาก UW, Meta, Microsoft และ UCLA)
- Glip: การฝึกอบรมภาษา-ภาพที่มีพื้นฐาน (CVPR จาก UCLA และ Microsoft)
- Blip: Bootstrapping ภาษา-ภาพการฝึกอบรมสำหรับความเข้าใจและการสร้างวิสัยทัศน์แบบครบวงจร (จากการวิจัย Salesforce)
- Nuwa-Infinity: Autoregressive Over Autoregressive Generation สำหรับการสังเคราะห์ภาพที่ไม่มีที่สิ้นสุด (จาก Microsoft)
- ปาล์ม: การปรับแต่งภาษาแบบปรับขนาดด้วยเส้นทาง (จาก Google)
- Coca: contrastive paptioners เป็นโมเดลพื้นฐานข้อความภาพ (จาก Google)
- Parti: ปรับขนาดโมเดล Autoregressive สำหรับการสร้างข้อความเป็นภาพรวม (จาก Google)
- อินเทอร์เฟซลำดับแบบครบวงจรสำหรับงานการมองเห็น (จาก Google Research ทีมสมอง)
- Imagen: รูปแบบการแพร่กระจายข้อความไปยังภาพด้วยแสงที่มีความเข้าใจภาษาลึก (จาก Google)
- การแพร่กระจายที่เสถียร: การสังเคราะห์ภาพความละเอียดสูงด้วยแบบจำลองการแพร่กระจายแฝง (CVPR จากความเสถียรและรันเวย์)
- นอกเหนือจากเกมเลียนแบบ: การหาปริมาณและการคาดการณ์ความสามารถของโมเดลภาษา (บิ๊ก-บัลลังก์: 204 งานที่ยากมากและเป็นมาตรฐานที่หลากหลายสำหรับ LLMS ผู้เขียน 444 คนจาก 132 สถาบัน)
- CRIS: การแบ่งส่วนภาพอ้างอิงที่ขับเคลื่อนด้วยคลิป (จาก University of Sydney และ Oppo)
- Masked autoencoders เป็นผู้เรียน spatiotemporal (ส่วนขยายของแม่ไปยังวิดีโอ; Neurips จาก Meta)
- Masked Autoencoders เป็นผู้เรียนที่มีวิสัยทัศน์ที่ปรับขนาดได้ (CVPR 2022 จาก Fair)
- InstructGPT: แบบจำลองภาษาการฝึกอบรมเพื่อทำตามคำแนะนำเกี่ยวกับข้อเสนอแนะของมนุษย์ (ได้รับการฝึกฝนกับมนุษย์ในลูป; จาก OpenAI)
- อินเทอร์เฟซลำดับแบบครบวงจรสำหรับงานการมองเห็น (Neurips 2022 จาก Google)
- Dall-E2: การสร้างภาพข้อความแบบลำดับชั้นด้วยคลิปแฝง (จาก OpenAI)
- การถ่ายภาพทางการแพทย์ที่แข็งแกร่งและมีประสิทธิภาพด้วยการดูแลตนเอง (จาก Google, Georgia Tech และ Northwestern University)
- Video Swin Transformer (CVPR จาก Microsoft Research Asia)
- OFA: การรวมสถาปัตยกรรมงานและวิธีการผ่านกรอบการเรียนรู้ลำดับต่อลำดับอย่างง่าย (ICML 2022. จากอาลีบาบา)
- Mask2former: หน้ากากหน้ากากหน้ากากสำหรับการแบ่งส่วนภาพสากล (CVPR 2022, จาก Fair และ UIUC)
- Flava: รูปแบบภาษาพื้นฐานและการจัดตำแหน่งวิสัยทัศน์ (CVPR จากการวิจัย AI Facebook)
- สู่หน่วยสืบราชการลับทั่วไปเทียมผ่านรูปแบบพื้นฐานหลายรูปแบบ (การสื่อสารธรรมชาติจาก Renmin University of China)
- Filip: การฝึกอบรมภาษาแบบอินเทอร์แอคทีฟแบบอินเทอร์แอคทีฟ (ICLR, จาก Huawei และ Hkust)
- SIMVLM: รูปแบบภาษาภาพที่เรียบง่ายพร้อมการดูแลที่อ่อนแอ (ICLR จาก CMU และ Google)
- ร่อน: ไปสู่การสร้างภาพและการแก้ไขด้วยรูปแบบการแพร่กระจายด้วยข้อความชี้นำข้อความ (จาก OpenAI)
2021
- รวมงานวิสัยทัศน์และภาษาผ่านการสร้างข้อความ (จาก UNC-Chapel Hill)
- จัดตำแหน่ง: ปรับขนาดการเรียนรู้การเป็นตัวแทนของภาพและวิสัยทัศน์ด้วยการกำกับดูแลข้อความที่มีเสียงดัง (PMLR จาก Google)
- บทที่: การเรียนรู้มัลติทาสก์แบบหลายรูปแบบด้วยหม้อแปลงแบบครบวงจร (ICCV จาก Fair)
- Wenlan: การตัดทอนและภาษาโดยการฝึกอบรมก่อนการฝึกอบรมหลายรูปแบบขนาดใหญ่ (บทความนี้นำเสนอรูปแบบการฝึกอบรมก่อนการฝึกอบรมแบบหลายรูปแบบครั้งแรกของจีนที่เรียกว่า Brivl; จากมหาวิทยาลัย Renmin ของจีน)
- Codex: การประเมินรูปแบบภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมเกี่ยวกับรหัส (รูปแบบภาษา GPT แบบจำลองบนรหัสสาธารณะจาก GitHub จาก OpenAI และ AI AI)
- ฟลอเรนซ์: รูปแบบพื้นฐานใหม่สำหรับการมองเห็นคอมพิวเตอร์ (จาก Microsoft)
- Dall-E: การสร้างข้อความเป็นภาพต่อภาพ (จาก openai)
- คลิป: การเรียนรู้แบบจำลองภาพที่ถ่ายโอนได้จากการกำกับดูแลภาษาธรรมชาติ (จาก OpenAI)
- การเรียนรู้แบบไม่กี่ครั้งด้วยแบบจำลองภาษาแช่แข็ง (Neurips, จาก DeepMind)
- Swin Transformer: หม้อแปลงวิสัยทัศน์แบบลำดับชั้นโดยใช้ Windows เปลี่ยน (ICCV จาก Microsoft Research Asia)
- ภาพมีค่า 16x16 คำ: Transformers สำหรับการจดจำภาพในระดับ (Transfomer วิสัยทัศน์แรกที่มีบล็อกการแทรกตัวเองบริสุทธิ์ ICLR จาก Google)
ก่อนปี 2564
- GPT-3: โมเดลภาษาเป็นผู้เรียนไม่กี่คน (พารามิเตอร์ 175B; อนุญาตให้เรียนรู้ในบริบทเปรียบเทียบกับ GPT-2; จาก OpenAI)
- Uniter: การเรียนรู้การเป็นตัวแทนข้อความภาพสากล (จาก Microsoft)
- T5: การสำรวจขีด จำกัด ของการเรียนรู้การถ่ายโอนด้วยหม้อแปลงข้อความเป็นข้อความเป็นแบบครบวงจร (จาก Google)
- GPT-2: โมเดลภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล (พารามิเตอร์ 1.5B จาก OpenAI)
- LXMERT: การเรียนรู้การเป็นตัวแทนของการเข้ารหัสข้ามโมดูลจาก Transformers (EMNLP จาก UNC-Chapel Hill)
- เบิร์ต: การฝึกอบรมหม้อแปลงสองทิศทางลึกเพื่อความเข้าใจภาษา (จากภาษา Google AI)
- GPT: การปรับปรุงความเข้าใจภาษาโดยการฝึกอบรมก่อนกำเนิด (จาก OpenAI)
- ความสนใจคือสิ่งที่คุณต้องการ (ประสาทจาก Google และ UOT)
เอกสารตามหัวข้อ
ภาษาขนาดใหญ่/โมเดลหลายรูปแบบ
- LLAVA: การปรับแต่งการสอนด้วยภาพ (จากมหาวิทยาลัยวิสคอนซินแมดิสัน)
- MINIGPT-4: เสริมสร้างความเข้าใจภาษาวิสัยทัศน์ด้วยโมเดลภาษาขนาดใหญ่ขั้นสูง (จาก Kaust)
- รายงานทางเทคนิค GPT-4 (จาก OpenAI)
- GPT-3: โมเดลภาษาเป็นผู้เรียนไม่กี่คน (พารามิเตอร์ 175B; อนุญาตให้เรียนรู้ในบริบทเปรียบเทียบกับ GPT-2; จาก OpenAI)
- GPT-2: โมเดลภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล (พารามิเตอร์ 1.5B จาก OpenAI)
- GPT: การปรับปรุงความเข้าใจภาษาโดยการฝึกอบรมก่อนกำเนิด (จาก OpenAI)
- Llama 2: Foundation Open และรุ่นแชทที่ปรับแต่ง (จาก Meta)
- LLAMA: โมเดลภาษาที่เปิดกว้างและมีประสิทธิภาพ (รุ่นตั้งแต่พารามิเตอร์ 7B ถึง 65B; จาก META)
- T5: การสำรวจขีด จำกัด ของการเรียนรู้การถ่ายโอนด้วยหม้อแปลงข้อความเป็นข้อความเป็นแบบครบวงจร (จาก Google)
ความสนใจเชิงเส้น
- Flashattention-2: ความสนใจที่เร็วขึ้นด้วยการขนานที่ดีขึ้นและการแบ่งพาร์ติชันการทำงาน
- Flashattention: ความสนใจที่รวดเร็วและมีประสิทธิภาพอย่างรวดเร็วด้วยการรับรู้ของ IO
เกณฑ์มาตรฐานขนาดใหญ่
- OPHNET: เกณฑ์มาตรฐานวิดีโอขนาดใหญ่สำหรับการทำความเข้าใจเวิร์กโฟลว์การผ่าตัดจักษุ
- MMT-BENCH: เกณฑ์มาตรฐานหลายรูปแบบที่ครอบคลุมสำหรับการประเมินแบบจำลองภาษาวิสัยทัศน์ขนาดใหญ่ที่มีต่อมัลติทาสก์ AGI (จากเซี่ยงไฮ้ AI Lab, 2024)
- Blink: แบบจำลองภาษาขนาดใหญ่หลายรูปแบบสามารถมองเห็นได้ แต่ไม่ได้รับรู้ (เกณฑ์มาตรฐานหลายรูปแบบจาก University of Pennsylvania, 2024)
- CAD-ESTATE: คำอธิบายประกอบ CAD ขนาดใหญ่ในวิดีโอ RGB (วิดีโอ RGB พร้อมคำอธิบายประกอบ CAD จาก Google 2023)
- ImageNet: ฐานข้อมูลภาพลำดับชั้นขนาดใหญ่ (มาตรฐานการมองเห็นจาก Stanford, 2009)
การมองเห็นภาษาวิสัยทัศน์
- พลิก: การปรับขนาดภาษา-ภาพการฝึกอบรมผ่านการปิดบัง (จาก meta)
- BLIP-2: Bootstrapping Pre-Image การฝึกอบรมด้วยการเข้ารหัสภาพแช่แข็งและโมเดลภาษาขนาดใหญ่ (เสนอกลยุทธ์ VLP ทั่วไปและมีประสิทธิภาพตามวิสัยทัศน์และรูปแบบภาษาแช่แข็งนอกชั้นวางจากการวิจัย Salesforce)
- Blip: Bootstrapping ภาษา-ภาพการฝึกอบรมสำหรับความเข้าใจและการสร้างวิสัยทัศน์แบบครบวงจร (จากการวิจัย Salesforce)
- สลิป: การดูแลตนเองตรงกับภาพภาษาก่อนการฝึกอบรม (ECCV จาก UC Berkeley และ Meta)
- Glip: การฝึกอบรมภาษา-ภาพที่มีพื้นฐาน (CVPR จาก UCLA และ Microsoft)
- จัดตำแหน่ง: ปรับขนาดการเรียนรู้การเป็นตัวแทนของภาพและวิสัยทัศน์ด้วยการกำกับดูแลข้อความที่มีเสียงดัง (PMLR จาก Google)
- ภูมิภาคคลิป: การเตรียมภาพภาษาตามภูมิภาคตามภูมิภาค
- คลิป: การเรียนรู้แบบจำลองภาพที่ถ่ายโอนได้จากการกำกับดูแลภาษาธรรมชาติ (จาก OpenAI)
งานการรับรู้: การตรวจจับการแบ่งส่วนและการประมาณท่า
- SAM 2: แบ่งส่วนอะไรในรูปภาพและวิดีโอ (จาก Meta)
- FoundationPose: การประมาณ 6D Pose การประมาณและการติดตามวัตถุนวนิยาย (จาก Nvidia)
- ดูเหมือน: แบ่งส่วนทุกอย่างทุกที่ในครั้งเดียว (จาก University of Wisconsin-Madison, Hkust และ Microsoft)
- SAM: แบ่งส่วนอะไร (โมเดลพื้นฐานแรกสำหรับการแบ่งส่วนภาพ; จาก meta)
- Seggpt: แบ่งกลุ่มทุกอย่างในบริบท (จาก Baai, Zju และ PKU)
ประสิทธิภาพการฝึกอบรม
- Green AI (แนะนำแนวคิดของ Red AI กับ Green AI)
- สมมติฐานตั๋วลอตเตอรี: ค้นหาเครือข่ายประสาทที่เบาบางและฝึกอบรมได้ (สมมติฐานตั๋วลอตเตอรีจาก MIT)
สู่ข่าวกรองทั่วไปเทียม (AGI)
- สู่ AGI ในการมองเห็นคอมพิวเตอร์: บทเรียนที่เรียนรู้จาก GPT และแบบจำลองภาษาขนาดใหญ่ (จาก Huawei)
ความปลอดภัยและความรับผิดชอบของ AI
- ขอบเขตความน่าจะเป็นของอันตรายจาก AI เพื่อสร้างรั้ว (บล็อกจาก Yoshua Bengio)
- การจัดการความเสี่ยง AI ที่รุนแรงท่ามกลางความคืบหน้าอย่างรวดเร็ว (จากวิทยาศาสตร์พฤษภาคม 2567)
ที่เก็บที่น่ากลัวที่เกี่ยวข้อง
- โมเดลที่ยอดเยี่ยม
- โมเดลที่ยอดเยี่ยม-video-diffusion
- วิธีการแก้ไขรูปแบบการแก้ไขแบบจำลองที่ยอดเยี่ยม
- โมเดลที่ยอดเยี่ยม CV-foundational
- โมเดลที่มีสุขภาพดี
- เอเจนต์-multimodal-multimodal ที่ยอดเยี่ยม
- การมองเห็นคอมพิวเตอร์ในป่า (CVINW)