Model foundasi yang luar biasa
Model fondasi adalah model pretrained skala besar (misalnya, Bert, Dall-E, GPT-3) yang dapat disesuaikan dengan berbagai aplikasi hilir. Istilah ini pertama kali dipopulerkan oleh Stanford Institute for Human-Pusat Buatan Kecerdasan. Repositori ini memelihara daftar model dasar yang dikuratori untuk tugas visi dan bahasa. Makalah penelitian tanpa kode tidak termasuk.
Survei
2024
- Agen Bahasa (dari Tesis PhD Princeton Shunyu Yao. Blog1, Blog2)
- Survei Sistematik tentang Model Bahasa Besar untuk Desain Algoritma (dari City Univ. Of Hong Kong)
- Segmentasi Gambar di Era Model Yayasan: Survei (dari Beijing Institute of Technology)
- Menuju model geo-foundasi visi-bahasa: survei (dari Nanyang Technological University)
- Pengantar Pemodelan Bahasa Visi (dari Meta)
- Evolusi Arsitektur Model Multimodal (dari Universitas Purdue)
- Model Bahasa Multimodal Besar yang Efisien: Survei (dari Tencent)
- Model Yayasan untuk Pemahaman Video: Survei (dari Universitas Aalborg)
- Apakah Sora simulator dunia? Survei Komprehensif tentang Model Dunia Umum dan Beyond (dari Gigaai)
- Peran prospektif model yayasan dalam memajukan kendaraan otonom (dari Universitas Tongji)
- Parameter-efisien fine-tuning untuk model besar: survei komprehensif (dari Northeastern University)
- Ulasan tentang latar belakang, teknologi, keterbatasan, dan peluang model penglihatan besar (dari Lehigh)
- Agen multimodal besar: survei (dari CUHK)
- The Uncanny Valley: Analisis Komprehensif Model Difusi (dari MILA)
- Aplikasi Robot Dunia Nyata dari Model Yayasan: Ulasan (dari University of Tokyo)
- Dari GPT-4 ke Gemini dan Beyond: Menilai lanskap MLLM tentang generalisasi, kepercayaan dan kausalitas melalui empat modalitas (dari Shanghai Ai Lab)
- Menuju penyatuan model fondasi visual generatif dan diskriminatif: survei (dari JHU)
Sebelum 2024
- Model dasar dalam pencitraan medis: survei komprehensif dan visi masa depan (dari SDSU)
- Model Yayasan Multimodal: Dari Spesialis ke Asisten Paket Umum (dari Microsoft)
- Menuju Model Yayasan Generalis untuk Radiologi (dari SJTU)
- Model dasar yang mendefinisikan era baru dalam visi: survei dan pandangan (dari MBZ University of AI)
- Menuju AI Biomedis Generalis (dari Google)
- Survei Sistematik tentang Teknik Prompt pada Model Yayasan Bahasa Visi (dari Oxford)
- Model Multimodal Besar: Catatan Tutorial CVPR 2023 (dari Chunyuan Li, Microsoft)
- Survei tentang Model Bahasa Multimodal Besar (dari USTC dan Tencent)
- Model Visi-Bahasa untuk Tugas Visi: Survei (dari Nanyang Technological University)
- Model Yayasan untuk Kecerdasan Buatan Medis Generalis (dari Stanford)
- Survei Komprehensif tentang Model Yayasan Pretrained: Sejarah dari Bert ke Chatgpt
- Survei komprehensif konten yang dihasilkan AI (AIGC): Sejarah AI generatif dari GAN ke chatgpt
- Pra-pelatihan-visi: Dasar-dasar, kemajuan terbaru, dan tren masa depan
- Tentang Peluang dan Risiko Model Yayasan (survei ini pertama kali mempopulerkan konsep model yayasan; dari Standford)
Makalah berdasarkan Tanggal
2024
- [11/14] Hukum penskalaan untuk presisi (dari Harvard)
- [11/13] Neuralfeels dengan bidang saraf: persepsi visuotaktil untuk manipulasi di tangan (dari meta)
- [11/07] Dino-WM: Model Dunia pada Fitur Visual Pra-Terlatih Mengaktifkan Perencanaan Zero-Shot (dari New York University)
- [10/31] Proyek SID: Simulasi banyak agen menuju peradaban AI (dari altera.al)
- [10/30] Tokenformer: Memikirkan Kembali Penskalaan Transformer dengan Parameter Model Tokenisasi (dari Max Planck Institute for Informatics)
- [10/30] Pusat Hadiah (dari Richard Sutton, Universitas Alberta)
- [10/21] Memori jangka panjang: fondasi evolusi diri AI (dari Tianqiao dan Chrissy Chen Institute)
- [10/10] Meningkatkan Kernel Anda: Desain Kernel Besar di Convnets Menuju Representasi Universal (dari Cuhk)
- [10/04] Gen Film: Pemeran Model Yayasan Media (dari Meta)
- [10/02] Apakah semua yang kami butuhkan? (dari Mila)
- [10/01] NGPT: Transformator yang dinormalisasi dengan pembelajaran representasi pada hypersphere (dari NVIDIA)
- [09/30] MM1.5: Metode, Analisis & Wawasan dari Fine-tuning Multimodal LLM (dari Apple)
- [09/27] EMU3: Prediksi berikutnya adalah yang Anda butuhkan (dari Baai)
- [09/25] MOLMO dan PIXMO: Bobot terbuka dan data terbuka untuk model multimodal canggih (dari Allen AI)
- [09/18] QWEN2-VL: Meningkatkan Persepsi Model Bahasa Visi tentang Dunia pada setiap resolusi (dari Alibaba)
- [09/18] Moshi: Model Yayasan Bicara-Teks untuk Dialog Real-Time (dari Kyutai)
- [08/27] Model difusi adalah mesin game real-time (dari Google)
- [08/22] Sapiens: Foundation for Human Vision Model (dari Meta)
- [08/14] Imagen 3 (dari Google DeepMind)
- [07/31] Kawanan model Llama 3 (dari meta)
- [07/29] SAM 2: Segmen apa pun dalam gambar dan video (dari meta)
- [07/24] Partglee: Model Yayasan untuk Mengenali dan Mengurai Objek Apa pun (dari Hust dan Bytedance)
- [07/17] EVE: Meluncurkan model bahasa penglihatan bebas enkoder (dari Baai)
- [07/12] Lapisan transformator sebagai pelukis (dari Sakana AI)
- [06/24] Cambrian-1: Eksplorasi LLM multimodal yang sepenuhnya terbuka dan penuh visi (dari NYU)
- [06/13] 4M-21: Model penglihatan apa pun untuk puluhan tugas dan modalitas (dari EPFL dan Apple)
- [06/10] Merlin: Model Yayasan Bahasa Visi untuk Tomografi Terhitung 3D (dari Stanford. Code akan tersedia.)
- [06/06] Visi-LSTM: XLSTM sebagai Backbone Visi Generik (dari Penulis LSTM)
- [05/31] Meshxl: Bidang Koordinat Saraf untuk Model Yayasan 3D Generatif (dari Fudan)
- [05/25] Moeut: Campuran Transformator Universal (dari Stanford)
- [05/22] Perhatian sebagai RNN (dari Mila & Borealis AI)
- [05/22] Gigapath: Model Yayasan Slide Utuh untuk Patologi Digital dari Data Dunia Nyata (dari Nature)
- [05/21] BiomedParse: Model Yayasan Biomedis untuk Parsing Gambar Biomedis (dari Microsoft. Versi Jurnal)
- [05/20] Octo: Kebijakan Robot Generalis Sumber Terbuka (dari UC Berkeley)
- [05/17] Undang -undang penskalaan observasional dan prediktabilitas kinerja model bahasa (fro standford)
- [05/14] Memahami kesenjangan kinerja antara algoritma penyelarasan online dan offline (dari Google)
- [05/09] Lumina-T2X: Mengubah teks menjadi modalitas, resolusi, dan durasi apa pun melalui transformator difusi besar berbasis aliran (dari Shanghai Ai Lab)
- [05/08] Anda hanya cache sekali: Arsitektur Decoder-Decoder untuk Model Bahasa
- [05/07] XLSTM: Memori jangka pendek yang panjang diperluas (dari Sepp Hochreiter, penulis LSTM.)
- [05/06] Memajukan kemampuan medis multimodal Gemini (dari Google)
- [05/04] U-Dits: Token Downsample dalam Transformer Difusi Berbentuk U (dari Universitas Peking)
- [05/03] VIBE-EVAL: Suite evaluasi keras untuk mengukur kemajuan model bahasa multimodal
- [04/30] Kan: Jaringan Kolmogorov-Arnold (Alternatif MLP yang menjanjikan. Dari MIT)
- [04/26] Seberapa jauh kita ke GPT-4V? Menutup kesenjangan ke model multimodal komersial dengan suite sumber terbuka (Internvl 1.5. Dari Shanghai Ai Lab)
- [04/14] TransformerFam: Umpan balik perhatian adalah memori yang berfungsi (dari Google. Perhatian yang efisien.)
- [04/10] No No Context Behind: Efisien Infinite Context Transformers dengan Infini-Attention (dari Google)
- [04/02] Octopus V2: Model bahasa on-device untuk agen super (dari Stanford)
- [04/02] Campuran-Depths: Mengalokasikan komputasi secara dinamis dalam model bahasa berbasis transformator (dari Google)
- [03/22] InternDO2: Model Foundation Video Scaling untuk Pemahaman Video Multimodal (dari Shanghai AI Lab)
- [03/18] Arc2face: Model Yayasan Wajah Manusia (dari Imperial College London)
- [03/14] MM1: Metode, Analisis & Wawasan dari Pra-Pelatihan LLM Multimodal (Parameter 30B. Dari Apple)
- [03/09] UNIGRADICON: Model Yayasan untuk Pendaftaran Gambar Medis (dari UNC-Chapel Hill)
- [03/05] Penskalaan transformator aliran yang diperbaiki untuk sintesis gambar resolusi tinggi (difusi stabil 3. Dari stabilitas AI)
- [03/01] Belajar dan Memanfaatkan Model Dunia dalam Pembelajaran Representasi Visual (dari Meta)
- [03/01] Visionllama: Antarmuka Llama yang Terpadu untuk Tugas Visi (dari Meituan)
- [02/28] CLLMS: Konsistensi Model Bahasa Besar (dari SJTU)
- [02/27] Difusi lapisan gambar transparan menggunakan transparansi laten (dari standford)
- [02/22] Mobilellm: Mengoptimalkan Model Bahasa Parameter Sub-Billion untuk Kasus Penggunaan On-Device (dari Meta)
- [02/21] Di luar ∗: perencanaan yang lebih baik dengan transformer melalui pencarian dinamika bootstrap (dari meta)
- [02/20] Difusi jaringan saraf (menghasilkan parameter jaringan melalui model difusi. Dari NUS)
- [02/20] Videoprism: Encoder visual dasar untuk pemahaman video (dari Google)
- [02/19] Fit: Transformator Visi Fleksibel untuk Model Difusi (dari Shanghai Ai Lab)
- [02/06] Mobilevlm v2: Baseline yang lebih cepat dan lebih kuat untuk model bahasa visi (dari Meituan)
- [01/30] Yolo-Dunia: Deteksi Objek Open-Vocabulary Terbuka Real-Time (dari Tencent dan Hust)
- [01/23] Lumiere: Model difusi ruang-waktu untuk pembuatan video (dari Google)
- [01/22] Chexagent: Menuju Model Fondasi untuk Interpretasi X-Ray Dada (dari Stanford)
- [01/19] DEPTH APA SAJA: Melepaskan kekuatan data tidak berlabel skala besar (dari Tiktok)
- [01/16] Duduk: Menjelajahi aliran dan model generatif berbasis difusi dengan transformator interpolant yang dapat diskalakan (dari NYU)
- [01/15] InstantID: Generasi penyajian identitas nol-shot dalam detik (dari Xiaohongshu)
2023
- BioClip: Model Yayasan Visi untuk Pohon Kehidupan (CVPR 2024 Makalah Siswa Terbaik)
- Mamba: Pemodelan Urutan Linear-Time Dengan Ruang Negara Selektif (Mamba tampaknya mengungguli transformator berukuran serupa sementara penskalaan linier dengan panjang urutan. Dari CMU)
- FoundationPose: Estimasi Pose 6D Terpadu dan Pelacakan Objek Novel (dari NVIDIA)
- Melacak semuanya di mana -mana sekaligus (dari Cornell, ICCV 2023 Paper Siswa Terbaik)
- Model Yayasan untuk Kecerdasan Buatan Geospasial Generalis (dari IBM dan NASA)
- Llama 2: Open Foundation and Fine-Tuned Chat Models (dari Meta)
- Internlm-XComposer: Model besar-bahasa untuk pemahaman dan komposisi gambar teks canggih (dari Shanghai Ai Lab)
- Proyek semua-melihat: Menuju pengakuan visual panoptik dan pemahaman tentang dunia terbuka (dari Shanghai Ai Lab)
- Meta-transformer: Kerangka kerja terpadu untuk pembelajaran multimodal (dari Cuhk dan Shanghai AI Lab)
- Jaringan Retentif: Penerus Transformator Untuk Model Bahasa Besar (dari Microsoft dan Universitas Tsinghua)
- Neural World Models for Computer Vision (Tesis PhD Anthony Hu dari University of Cambridge)
- Kenali apa pun: Model penandaan gambar yang kuat (model fondasi yang kuat untuk penandaan gambar. Dari Oppo)
- Menuju model visual fondasi adegan fisik (menggambarkan langkah pertama menuju belajar representasi visual tujuan umum dari adegan fisik hanya menggunakan prediksi gambar sebagai kriteria pelatihan; dari AWS)
- Lima: Less lebih banyak untuk penyelarasan (parameter 65b, dari meta)
- Laporan Teknis Palm 2 (dari Google)
- ImageBind: Satu ruang penyematan untuk mengikat semuanya (dari meta)
- Tuning Instruksi Visual (LLAVA, dari U of Wisconsin-Madison dan Microsoft)
- Tampak: Segmen semuanya di mana-mana sekaligus (dari University of Wisconsin-Madison, Hkust, dan Microsoft)
- Sam: Segmen apa pun (model fondasi pertama untuk segmentasi gambar; dari meta)
- Seggpt: Menyegmentasi segala sesuatu dalam konteks (dari Baai, Zju, dan PKU)
- Gambar berbicara dalam gambar: pelukis generalis untuk pembelajaran visual dalam konteks (dari Baai, ZJU, dan PKU)
- Unidektor: Mendeteksi segala sesuatu di dunia terbuka: Menuju deteksi objek universal (CVPR, dari Tsinghua dan Bnrist)
- Guru yang tidak kedok: Menuju model yayasan video yang hemat pelatihan (dari Akademi Ilmu Pengetahuan Tiongkok, Universitas Akademi Ilmu Pengetahuan Tiongkok, Laboratorium Shanghai AI)
- Pelacakan multi-modal visual prompt (dari Dalian University of Technology dan Peng Cheng Laboratory)
- Menuju Membangun Model Yayasan Umum untuk Bahasa, Visi, dan Tugas Pemahaman Visi-Bahasa (dari Bytedance)
- Eva-Clip: Teknik pelatihan yang ditingkatkan untuk klip pada skala (dari Baai dan Hust)
- EVA-02: Representasi visual untuk Neon Genesis (dari Baai dan Hust)
- EVA-01: Menjelajahi batas-batas pembelajaran representasi visual bertopeng pada skala (CVPR, dari Baai dan Hust)
- Llama: Model Bahasa Yayasan Terbuka dan Efisien (Kumpulan Model Bahasa Yayasan Mulai dari parameter 7B hingga 65B; dari meta)
- Efektivitas pra-pretraining MAE untuk pretraining skala miliaran (dari meta)
- Bloomberggpt: Model bahasa besar untuk keuangan (50 miliar parameter; dari Bloomberg)
- BLOOM: Model bahasa multibahasa akses terbuka 176b-parameter (karya ini dikoordinasikan oleh BigScience yang tujuannya adalah untuk mendemokratisasi LLMS.)
- Flip: Scaling Bahasa-gambar pra-pelatihan melalui masking (dari meta)
- Blip-2: Bootstrapping Pre-Training Bahasa-Bahasa dengan Encoder Gambar Beku dan Model Bahasa Besar (dari Saleforce Research)
- Laporan Teknis GPT-4 (dari OpenAI)
- Visual Chatgpt: Berbicara, Menggambar dan Mengedit dengan Model Foundation Visual (dari Microsoft Research Asia)
- Uninext: persepsi instance universal sebagai penemuan dan pengambilan objek (model terpadu untuk 10 tugas persepsi instance; CVPR, dari hytedance)
- Interasional: Model Yayasan Video Umum melalui Pembelajaran Generatif dan Diskriminatif (dari Shanghai AI Lab)
- InternaMage: Menjelajahi Model Yayasan Visi Skala Besar dengan Konvolusi Deformable (CVPR, dari Shanghai AI Lab)
- Bridgetower: Membangun Jembatan Antara Encoders Dalam Pembelajaran Representasi Bahasa Visi (dari Harbin Institute of Technology dan Microsoft Research Asia)
2022
- BEVT: Bert Pretraining Video Transformers (CVPR, dari Shanghai Key Lab of Intelligent Information Processing)
- Foundation Transformers (dari Microsoft)
- Agen generalis (dikenal sebagai GATO, agen generalis multi-modal, multi-tugas, multi-embodimen; dari DeepMind)
- Fiber: Pra-pelatihan visi-visi-ke-halus dengan fusi di tulang punggung (dari Microsoft, UCLA, dan New York University)
- Flamingo: Model Bahasa Visual untuk Pembelajaran Beberapa-Shot (dari DeepMind)
- Logam: Model Bahasa adalah antarmuka tujuan umum (dari Microsoft)
- Point-E: Suatu sistem untuk menghasilkan awan titik 3D dari prompt kompleks (generasi objek 3D yang efisien menggunakan model difusi teks-ke-gambar; dari openai)
- Segmentasi Gambar Menggunakan Teks dan Prompt Gambar (CVPR, dari University of Göttingen)
- Estimasi aliran, stereo dan kedalaman pemersatu (model terpadu untuk tiga tugas dan tugas persepsi 3D; dari ETH Zurich)
- Pali: Model image bahasa multibahasa berskala bersama (dari Google)
- Videomae: Autoencoder bertopeng adalah pelajar yang hemat data untuk pra-pelatihan video yang di-swadaya (Neurips, dari Nanjing University, Tencent, dan Shanghai AI Lab)
- Slip: Mandiri Memenuhi Bahasa-Gambar Pra-Pelatihan (ECCV, dari UC Berkeley dan Meta)
- GLIPV2: Menyatu Lokalisasi dan Pemahaman VL (Neurips'22, dari UW, Meta, Microsoft, dan UCLA)
- GLIP: Pra-pelatihan gambar bahasa grounded (CVPR, dari UCLA dan Microsoft)
- BLIP: Pra-pelatihan gambar-bootstrap-bootstrap untuk pemahaman dan generasi-bahasa yang terpadu (dari Salesforce Research)
- Nuwa-Infinity: Autoregresif over Autoregressive Generation untuk Sintesis Visual Tak Terbatas (dari Microsoft)
- Palm: Pemodelan Bahasa Penskalaan dengan Jalur (dari Google)
- Coca: Captioners Kontras adalah model Yayasan Teks Gambar (dari Google)
- Parti: Model Autoregresif Scaling untuk pembuatan teks-ke-gambar yang kaya konten (dari Google)
- Antarmuka urutan terpadu untuk tugas visi (dari Google Research, Tim Otak)
- Imagen: Model difusi teks-ke-gambar fotorealistik dengan pemahaman bahasa yang mendalam (dari Google)
- Difusi stabil: Sintesis gambar resolusi tinggi dengan model difusi laten (CVPR, dari stabilitas dan landasan pacu)
- Di luar permainan imitasi: mengukur dan mengekstrapolasi kemampuan model bahasa (Big-Bench: T-204-Task Benchmark yang sangat sulit dan beragam untuk LLMS, 444 Penulis dari 132 Institusi)
- Cris: Segmentasi gambar rujukan yang digerakkan oleh klip (dari University of Sydney dan Oppo)
- Autoencoders bertopeng sebagai pelajar spatiotemporal (ekstensi MAE ke video; neurips, dari meta)
- Autoencoders bertopeng adalah pelajar penglihatan yang dapat diskalakan (CVPR 2022, dari wajar)
- Instruktur: Model Bahasa Pelatihan untuk mengikuti instruksi dengan umpan balik manusia (dilatih dengan manusia di loop; dari openai)
- Antarmuka urutan terpadu untuk tugas penglihatan (Neurips 2022, dari Google)
- Dall-E2: Pembuatan gambar teks-teks-hirarkis dengan laten klip (dari openai)
- Pencitraan medis yang kuat dan efisien dengan persiapan diri (dari Google, Georgia Tech, dan Northwestern University)
- Video Swin Transformer (CVPR, dari Microsoft Research Asia)
- OFA: menyatukan arsitektur, tugas, dan modalitas melalui kerangka pembelajaran urutan-ke-urutan (ICML 2022. Dari Alibaba.)
- Mask2former: Transformator topeng bertopeng untuk segmentasi gambar universal (CVPR 2022, dari Fair dan UIUC)
- Flava: Model Penyelarasan Bahasa dan Visi dasar (CVPR, dari Facebook AI Research)
- Menuju Kecerdasan Umum Buatan melalui Model Yayasan Multimodal (Komunikasi Alam, dari Renmin University of China)
- Filip: Pre-training-image interaktif berbutir halus (ICLR, dari Huawei dan HKust)
- SIMVLM: Model bahasa visual sederhana pretraining dengan pengawasan lemah (ICLR, dari CMU dan Google)
- Glide: Menuju pembuatan gambar fotorealistik dan pengeditan dengan model difusi yang dipandu teks (dari openai)
2021
- Menyatukan tugas penglihatan dan bahasa melalui generasi teks (dari UNC-Chapel Hill)
- Align: Meningkatkan Pembelajaran Representasi Visual dan Visi dengan Pengawasan Teks yang Berisik (PMLR, dari Google)
- Unit: Pembelajaran multimodal multitask dengan transformator terpadu (ICCV, dari wajar)
- Wenlan: Menjembatani visi dan bahasa dengan pra-pelatihan multi-modal skala besar (makalah ini menyajikan model pra-pelatihan multimodal Cina skala besar pertama yang disebut BRIVL; dari Renmin University of China)
- Codex: Mengevaluasi model bahasa besar yang dilatih pada kode (model bahasa GPT Finetuned pada kode publik dari GitHub, dari Openai dan Anthropic AI)
- Florence: Model Yayasan Baru untuk Visi Komputer (dari Microsoft)
- Dall-E: Generasi Teks-ke-Teks Zero-Shot (dari OpenAI)
- Klip: Belajar Model Visual yang Dapat Dipindahkan dari Pengawasan Bahasa Alami (dari OpenAI)
- Pembelajaran beberapa-shot multimodal dengan model bahasa beku (Neurips, dari DeepMind)
- Swin Transformer: Hierarchical Vision Transformer Menggunakan Windows Bergeser (ICCV, dari Microsoft Research Asia)
- Suatu gambar bernilai 16x16 kata: transformer untuk pengenalan gambar pada skala (transfomer penglihatan pertama dengan blok perhatian murni; iCLR, dari Google)
Sebelum 2021
- GPT-3: Model bahasa adalah beberapa pelajar shot (parameter 175b; memungkinkan pembelajaran dalam konteks dibandingkan dengan GPT-2; dari OpenAI)
- Uniter: Pembelajaran Representasi Teks Gambar Universal (dari Microsoft)
- T5: Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu (dari Google)
- GPT-2: Model bahasa adalah pelajar multitask yang tidak diawasi (parameter 1.5b; dari openai)
- LXMERT: Mempelajari representasi encoder lintas-modalitas dari Transformers (EMNLP, dari UNC-Chapel Hill)
- Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa (dari bahasa Google AI)
- GPT: Meningkatkan pemahaman bahasa dengan pra-pelatihan generatif (dari openai)
- Perhatian adalah semua yang Anda butuhkan (Neurips, dari Google dan UOT)
Makalah berdasarkan topik
Model Bahasa/Multimodal Besar
- LLAVA: Tuning Instruksi Visual (dari University of Wisconsin-Madison)
- Minigpt-4: Meningkatkan pemahaman bahasa penglihatan dengan model bahasa besar canggih (dari Kaust)
- Laporan Teknis GPT-4 (dari OpenAI)
- GPT-3: Model bahasa adalah beberapa pelajar shot (parameter 175b; memungkinkan pembelajaran dalam konteks dibandingkan dengan GPT-2; dari OpenAI)
- GPT-2: Model bahasa adalah pelajar multitask yang tidak diawasi (parameter 1.5b; dari openai)
- GPT: Meningkatkan pemahaman bahasa dengan pra-pelatihan generatif (dari openai)
- Llama 2: Open Foundation and Fine-Tuned Chat Models (dari Meta)
- Llama: Model Bahasa Yayasan Terbuka dan Efisien (model mulai dari parameter 7b hingga 65b; dari meta)
- T5: Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu (dari Google)
Perhatian linier
- Flashattention-2: Perhatian yang lebih cepat dengan paralelisme yang lebih baik dan partisi kerja
- Flashattention: Perhatian yang cepat dan efisien memori dengan kesadaran IO-
Tolok ukur besar
- Ophnet: Benchmark video skala besar untuk pemahaman alur kerja bedah mata (tolok ukur video beranotasi skala besar untuk operasi mata. Dari Monash, 2024)
- MMT-Bench: Tolok ukur multimodal yang komprehensif untuk mengevaluasi model bahasa penglihatan besar terhadap AGI multitask (dari Shanghai Ai Lab, 2024)
- Blink: Model bahasa besar multimodal dapat dilihat tetapi tidak merasakan (tolok ukur multimodal. Dari University of Pennsylvania, 2024)
- CAD-estate: Anotasi model CAD skala besar dalam video RGB (video RGB dengan anotasi CAD. Dari Google 2023)
- Imagenet: Database Gambar Hirarki Skala Besar (Vision Benchmark. Dari Stanford, 2009)
Pretraining-bahasa penglihatan
- Flip: Scaling Bahasa-gambar pra-pelatihan melalui masking (dari meta)
- BLIP-2: Bootstrapping Pre-Training-Image-Image dengan Encoder Gambar Beku dan Model Bahasa Besar (mengusulkan strategi VLP generik dan efisien berdasarkan visi beku dan model bahasa di luar rak. Dari Salesforce Research)
- BLIP: Pra-pelatihan gambar-bootstrap-bootstrap untuk pemahaman dan generasi-bahasa yang terpadu (dari Salesforce Research)
- Slip: Mandiri Memenuhi Bahasa-Gambar Pra-Pelatihan (ECCV, dari UC Berkeley dan Meta)
- GLIP: Pra-pelatihan gambar bahasa grounded (CVPR, dari UCLA dan Microsoft)
- Align: Meningkatkan Pembelajaran Representasi Visual dan Visi dengan Pengawasan Teks yang Berisik (PMLR, dari Google)
- Regionclip: pretraining image-image berbasis wilayah
- Klip: Belajar Model Visual yang Dapat Dipindahkan dari Pengawasan Bahasa Alami (dari OpenAI)
Tugas Persepsi: Estimasi Deteksi, Segmentasi, dan Pose
- Sam 2: Segmen apa pun dalam gambar dan video (dari meta)
- FoundationPose: Estimasi Pose 6D Terpadu dan Pelacakan Objek Novel (dari NVIDIA)
- Tampak: Segmen semuanya di mana-mana sekaligus (dari University of Wisconsin-Madison, Hkust, dan Microsoft)
- Sam: Segmen apa pun (model fondasi pertama untuk segmentasi gambar; dari meta)
- Seggpt: Menyegmentasi segala sesuatu dalam konteks (dari Baai, Zju, dan PKU)
Efisiensi pelatihan
- AI hijau (memperkenalkan konsep AI merah vs hijau AI)
- Hipotesis Tiket Lotere: Menemukan Jaringan Saraf yang Jarang dan Dapat Dilatih (Hipotesis Tiket Lotere, dari MIT)
Menuju Kecerdasan Umum Buatan (AGI)
- Menuju AGI dalam Visi Komputer: Pelajaran yang Dipetik Dari GPT dan Model Bahasa Besar (dari Huawei)
Keamanan dan tanggung jawab AI
- Mengikat probabilitas bahaya dari AI untuk membuat pagar pembatas (blog dari Yoshua Bengio)
- Mengelola risiko AI ekstrem di tengah kemajuan yang cepat (dari sains, Mei 2024)
Repositori yang luar biasa terkait
- Model difusi yang mengagumkan
- Model-Video-Video-Diffusion
- Metode-Method yang Luar Biasa Berbasis-Model-Image-Editing
- Model-foundasional yang luar biasa
- Model-foundasi-kesehatan yang luar biasa
- Agen-agen-multimodal-besar yang luar biasa
- Visi komputer di alam liar (cvinw)