พื้นที่เก็บข้อมูลนี้ประกอบด้วยคอลเลกชันที่ครอบคลุมของเอกสารที่สำคัญที่สุดที่เกี่ยวข้องกับการฝึกอบรมล่วงหน้าด้านการมองเห็น ภาษา และเสียง เอกสารต่างๆ จะถูกจัดเรียงตามหมวดหมู่ และจัดเรียงตามปีและเดือนที่พิมพ์
ตารางต่อไปนี้ประกอบด้วยรายการเอกสารที่เกี่ยวข้องโดยตรงกับ CLIP หรือที่ขยาย CLIP ในทางใดทางหนึ่ง เช่น โดยการปรับปรุงกระบวนการฝึกอบรม หรือโดยการเปลี่ยนกระบวนการกรองข้อมูล ทุกรายการในตารางนี้มีความโดดเด่นโดยการเรียนรู้แบบเปรียบเทียบซึ่งเป็นวัตถุประสงค์ เบื้องต้น ของการฝึกอบรมล่วงหน้า ซึ่งตรงข้ามกับแบบจำลองมากกว่าการใช้วัตถุประสงค์ของการฝึกอบรมล่วงหน้าหลายรายการ โดยผสมผสานการเรียนรู้เชิงเปรียบเทียบเข้ากับวัตถุประสงค์ของการฝึกอบรมล่วงหน้าอื่นๆ การสร้างแบบจำลองภาษาที่สวมหน้ากาก (MLM)
แบบอย่าง | ปี | เดือน | ชื่อกระดาษ | การพัฒนานวนิยาย | อาร์ซิฟ | Github | โอเพ่นซอร์ส | ใบอนุญาต | การ์ดโมเดล | บูรณาการ OpenCLIP |
---|---|---|---|---|---|---|---|---|---|---|
คลิป | 2021 | 2 | การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้จากการกำกับดูแลภาษาธรรมชาติ | การฝึกล่วงหน้าภาษาและรูปภาพที่ตัดกันอย่างง่าย | ใบอนุญาต | การ์ดโมเดล | ||||
จัดตำแหน่ง | 2021 | 2 | ขยายขนาดการเรียนรู้การแสดงภาพและภาษาวิสัยทัศน์ด้วยการควบคุมดูแลข้อความที่มีเสียงดัง | ขยายจากคำบรรยายไปจนถึงข้อความแสดงแทนที่มีสัญญาณรบกวนเพื่อหลีกเลี่ยงการกรองและการประมวลผลภายหลังที่มีราคาแพง | การ์ดโมเดล | |||||
คลูบ | 2021 | 10 | CLOOB: เครือข่าย Hopfield สมัยใหม่พร้อม InfoLOOB มีประสิทธิภาพเหนือกว่าคลิป | หลีกเลี่ยงความอิ่มตัวของวัตถุประสงค์ InfoNCE | ใบอนุญาต | |||||
ดีคลิป | 2021 | 10 | การกำกับดูแลมีอยู่ทุกที่: กระบวนทัศน์การฝึกอบรมล่วงหน้าภาษาและรูปภาพที่ตัดกันอย่างมีประสิทธิภาพของข้อมูล | ประสิทธิภาพของข้อมูลผ่านการกำกับดูแล | ใบอนุญาต | |||||
ฟิลิป | 2021 | 11 | FILIP: การฝึกอบรมล่วงหน้าภาษา-รูปภาพเชิงโต้ตอบแบบละเอียด | เพิ่มความคล้ายคลึงกันสูงสุดของโทเค็นระหว่างฟีเจอร์ภาพและข้อความ 10 รายการเพื่อการจัดตำแหน่งความหมายที่มีประสิทธิภาพและละเอียด | ||||||
เดฟิลลิป | 2022 | 3 | การฝึกอบรมล่วงหน้าภาษาและรูปภาพที่ตัดกันอย่างเป็นประชาธิปไตย: เกณฑ์มาตรฐานคลิปของข้อมูล แบบจำลอง และการกำกับดูแล | รวม DeCLIP และ FILIP | ใบอนุญาต | |||||
พีระมิดคลิป | 2022 | 4 | PyramidCLIP: การจัดตำแหน่งคุณลักษณะแบบลำดับชั้นสำหรับการฝึกอบรมโมเดลภาษาวิสัยทัศน์ | ผ่อนคลายสมมติฐานที่ว่ารูปภาพและข้อมูลเมตาอยู่ในการติดต่อแบบหนึ่งต่อหนึ่ง | ||||||
ไคลต์ | 2022 | 4 | K-LITE: การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้ด้วยความรู้ภายนอก | เพิ่มข้อความคำบรรยายด้วยความรู้ภายนอก | ใบอนุญาต | |||||
ไซคลิป | 2022 | 5 | CyCLIP: การฝึกอบรมภาษาและรูปภาพแบบตัดกันแบบวนรอบ | ปรับให้เหมาะสมและเหมาะสมเพื่อความสอดคล้องทางเรขาคณิตในพื้นที่รูปภาพและข้อความ | ใบอนุญาต | |||||
พลิก | 2022 | 12 | การปรับขนาดการฝึกอบรมล่วงหน้าภาษา-รูปภาพผ่านการมาสก์ | การมาสก์รูปภาพก่อนการเข้ารหัสช่วยปรับปรุงการแลกเปลี่ยนความแม่นยำด้านความเร็วสำหรับ CLIP | ใบอนุญาต | |||||
โอเพ่นคลิป | 2022 | 12 | กฎมาตราส่วนที่สามารถทำซ้ำได้สำหรับการเรียนรู้ภาษาและภาพเชิงเปรียบเทียบ | การใช้ CLIP แบบโอเพ่นซอร์ส | ใบอนุญาต | การ์ดโมเดล | ||||
EVA-คลิป | 2023 | 3 | EVA-CLIP: เทคนิคการฝึกอบรมที่ได้รับการปรับปรุงสำหรับ CLIP ในวงกว้าง | ปรับปรุงการเรียนรู้การเป็นตัวแทน การเพิ่มประสิทธิภาพ และการขยายเพื่อการฝึกอบรมที่รวดเร็วยิ่งขึ้น | การ์ดโมเดล | |||||
ซิกลิป | 2023 | 3 | การสูญเสีย Sigmoid สำหรับการฝึกอบรมล่วงหน้าเกี่ยวกับภาพภาษา | การสูญเสีย Sigmoid ช่วยให้สามารถแยกการสูญเสียออกจากขนาดแบทช์ได้ | ใบอนุญาต | |||||
คลิปปา | 2023 | 5 | กฎหมายมาตราส่วนผกผันสำหรับการฝึกอบรม CLIP | ข้อมูลเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่างขนาดตัวเข้ารหัสและความยาวลำดับอินพุตการฝึก นำไปสู่การฝึกที่มีประสิทธิภาพมากขึ้น | ใบอนุญาต | |||||
เมต้าคลิป | 2023 | 9 | ข้อมูลคลิปที่เข้าใจง่าย | การศึกษาที่เข้มงวดเพื่อเปิดเผยกระบวนการจัดการข้อมูลของ CLIP | ใบอนุญาต | |||||
ดีเอฟเอ็น | 2023 | 11 | เครือข่ายการกรองข้อมูล | โมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลคุณภาพสูงสามารถใช้เพื่อกรองข้อมูลออนไลน์ขนาดใหญ่ที่ใช้ในการฝึกอบรมโมเดล CLIP สุดท้ายได้ | ใบอนุญาต | การ์ดโมเดล |
โมเดลที่ขยาย CLIP โดยการเพิ่มวัตถุประสงค์ในการฝึกอบรมล่วงหน้าเพิ่มเติม เช่น การสร้างแบบจำลองภาษาที่สวมหน้ากาก (MLM)
คำย่อที่ใช้ในตารางด้านล่างมีดังนี้:
โมเดลทั้งหมดในตารางนี้ยังใช้การเรียนรู้เชิงเปรียบเทียบแบบ CLIP เป็นวัตถุประสงค์ในการฝึกอบรมล่วงหน้า
แบบอย่าง | ปี | เดือน | ชื่อกระดาษ | เทคนิคการเตรียมการล่วงหน้า | อาร์ซิฟ | Github | โอเพ่นซอร์ส | ใบอนุญาต |
---|---|---|---|---|---|---|---|---|
ลื่น | 2021 | 12 | SLIP: การกำกับดูแลตนเองเป็นไปตามการฝึกอบรมล่วงหน้าภาษาและภาพ | สถานีอวกาศนานาชาติ | ใบอนุญาต | |||
ฟลาวา | 2021 | 12 | FLAVA: รูปแบบการจัดตำแหน่งภาษาและการมองเห็นพื้นฐาน | ITM+MMM+MIM+MLM | ใบอนุญาต | |||
บลิ๊พ | 2022 | 1 | BLIP: การฝึกอบรมล่วงหน้าภาษา-รูปภาพเพื่อการเริ่มต้นเพื่อความเข้าใจและการสร้างภาษาวิสัยทัศน์แบบครบวงจร | ไอทีเอ็ม+แอลเอ็ม | ใบอนุญาต | |||
MaskCLIP | 2022 | 8 | MaskCLIP: Masked Self-Distillation พัฒนาความก้าวหน้าของการเตรียมภาษาและภาพที่ตัดกัน | เอ็มแอลเอ็ม+เอ็มเอสดี | ||||
วิชา | 2022 | 8 | การฝึกอบรมล่วงหน้าด้านการมองเห็นและภาษาอย่างมีประสิทธิภาพด้วยแนวคิดด้านภาพและการจัดตำแหน่งตามลำดับชั้น | H-ITC+ITM+MMM+MIM+MLM | ใบอนุญาต | |||
ริลส์ | 2023 | 1 | RILS: การสร้างภาพมาสก์ขึ้นมาใหม่ในพื้นที่ความหมายภาษา | มิม | ||||
คลิปมือถือ | 2023 | 11 | MobileCLIP: โมเดลข้อความรูปภาพที่รวดเร็วผ่านการฝึกอบรมแบบเสริมหลายรูปแบบ | MMR | ใบอนุญาต |
ส่วนนี้ประกอบด้วยคอลเลกชันของเอกสารที่เกี่ยวข้องกับการฝึกอบรมล่วงหน้าแบบเปรียบเทียบสำหรับรังสีอื่นๆ เช่น ข้อมูลเสียง วิดีโอ และข้อมูล 3 มิติ
โมเดลที่ใช้การเรียนรู้เชิงเปรียบเทียบแบบ CLIP เป็นวัตถุประสงค์ในการฝึกล่วงหน้าสำหรับเสียง
แบบอย่าง | ปี | เดือน | ชื่อกระดาษ | รังสี | อาร์ซิฟ | Github | โอเพ่นซอร์ส | ใบอนุญาต |
---|---|---|---|---|---|---|---|---|
คลิปเสียง | 2021 | 6 | AudioCLIP: การขยาย CLIP ให้เป็นรูปภาพ ข้อความ และเสียง | เสียง+ภาพ+ข้อความ | ใบอนุญาต | |||
WAV2CLIP | 2021 | 10 | WAV2CLIP: เรียนรู้การแสดงเสียงที่มีประสิทธิภาพจากคลิป | เสียง+ภาพ+ข้อความ | ใบอนุญาต | |||
SpeechCLIP | 2022 | 10 | SpeechCLIP: บูรณาการคำพูดเข้ากับโมเดลภาษาและการมองเห็นที่ได้รับการฝึกอบรมล่วงหน้า | คำพูด+รูปภาพ+ข้อความ | ใบอนุญาต | |||
ตบมือ | 2023 | 4 | การฝึกอบรมภาษาและเสียงที่ตัดกันขนาดใหญ่พร้อมการรวมฟีเจอร์และการเพิ่มคำหลักเป็นคำบรรยาย | เสียง+ข้อความ | ใบอนุญาต | |||
ซีแอลวีพี | 2023 | 5 | การสังเคราะห์เสียงพูดที่ดีขึ้นผ่านการปรับขนาด | คำพูด+ข้อความ | ใบอนุญาต |
โมเดลที่ขยาย CLIP ไปยังโดเมนวิดีโอ
แบบอย่าง | ปี | เดือน | ชื่อกระดาษ | อาร์ซิฟ | Github | โอเพ่นซอร์ส | ใบอนุญาต |
---|---|---|---|---|---|---|---|
CLIP4คลิป | 2021 | 4 | CLIP4Clip: การศึกษาเชิงประจักษ์ของ CLIP สำหรับการดึงข้อมูลคลิปวิดีโอตั้งแต่ต้นจนจบ | ใบอนุญาต | |||
วีดีโอคลิป | 2021 | 9 | VideoCLIP: การฝึกอบรมล่วงหน้าที่ตรงกันข้ามสำหรับการทำความเข้าใจข้อความวิดีโอแบบ Zero-shot | ใบอนุญาต | |||
เอ็กซ์-คลิป | 2022 | 7 | X-CLIP: การเรียนรู้เชิงตัดกันแบบหลายจุดตั้งแต่ต้นจนจบสำหรับการดึงข้อความวิดีโอ | ใบอนุญาต |
โมเดลที่ขยาย CLIP ไปสู่โดเมน 3 มิติ
แบบอย่าง | ปี | เดือน | ชื่อกระดาษ | รังสี | อาร์ซิฟ | Github | โอเพ่นซอร์ส | ใบอนุญาต |
---|---|---|---|---|---|---|---|---|
พอยท์คลิป | 2021 | 12 | PointCLIP: ความเข้าใจ Point Cloud โดย CLIP | พอยต์คลาวด์ + ข้อความ | ||||
CLIP2จุด | 2022 | 10 | CLIP2Point: ถ่ายโอน CLIP ไปยัง Point Cloud Classification ด้วยการฝึกอบรมล่วงหน้าเกี่ยวกับความลึกของภาพ | พอยต์คลาวด์ + ข้อความ | ||||
พอยต์คลิปV2 | 2022 | 11 | PointCLIP V2: แจ้ง CLIP และ GPT เพื่อการเรียนรู้ 3D Open-world อันทรงพลัง | พอยต์คลาวด์ + ข้อความ | ||||
คลิป2 | 2023 | 3 | คลิปที่ 2: การฝึกอบรมภาษา-รูปภาพ-จุดที่ตัดกันล่วงหน้าจากข้อมูลคลาวด์จุดในโลกแห่งความเป็นจริง | พอยต์คลาวด์ + รูปภาพ + ข้อความ |
ยินดีบริจาค! ส่งคำขอดึงเพื่อเพิ่มกระดาษใหม่หรือเพื่ออัปเดตกระดาษที่มีอยู่ โปรดปฏิบัติตามรูปแบบของเอกสารที่มีอยู่ในตาราง ?