Tolle Fundierungsmodelle
Ein Fundamentmodell ist ein groß angelegtes Modell (z. B. Bert, Dall-E, GPT-3), das an eine Vielzahl von nachgeschalteten Anwendungen angepasst werden kann. Dieser Begriff wurde erstmals vom Stanford Institute for Human-zentrierte künstliche Intelligenz populär gemacht. Dieses Repository behält eine kuratierte Liste von Grundlagenmodellen für Seh- und Sprachaufgaben bei. Forschungsarbeiten ohne Code sind nicht enthalten.
Umfrage
2024
- Sprachagenten (aus Princeton Shunyu Yaos Doktorarbeit. Blog1, Blog2)
- Eine systematische Umfrage zu großsprachigen Modellen für das Algorithmus -Design (aus der Stadt Univ. Von Hongkong)
- Bildsegmentierung in der Foundation Model ERA: Eine Umfrage (vom Peking Institute of Technology)
- Auf dem Weg zum Geo-Fundierungsmodell für Visionsprachen: Eine Umfrage (von Nanyang Technological University)
- Eine Einführung in die modellierende Visionsprachen (aus Meta)
- Die Entwicklung multimodaler Modellarchitekturen (von der Purdue University)
- Effiziente multimodale Großsprachmodelle: Eine Umfrage (von Tencent)
- Foundation -Modelle für Videoverständnisse: Eine Umfrage (von der Universität Aalborg)
- Ist Sora ein Weltsimulator? Eine umfassende Umfrage zu allgemeinen Weltmodellen und darüber hinaus (von Gigaai)
- Prospektive Rolle von Stiftungsmodellen bei der Weiterentwicklung autonomer Fahrzeuge (von der Tongji University)
- Parameter-effiziente Feinabstimmung für große Modelle: Eine umfassende Umfrage (von der Northeastern University)
- Eine Überprüfung zu Hintergrund, Technologie, Einschränkungen und Möglichkeiten großer Sehmodelle (aus Lehigh)
- Große multimodale Wirkstoffe: Eine Umfrage (aus CUHK)
- Das unheimliche Tal: Eine umfassende Analyse von Diffusionsmodellen (von MILA)
- Roboter-Anwendungen von Fundamentmodellen realer Welt: Eine Überprüfung (von der University of Tokyo)
- Von GPT-4 bis Gemini und darüber hinaus: Beurteilung der Landschaft von MLLMs auf Generalisierbarkeit, Vertrauenswürdigkeit und Kausalität durch vier Modalitäten (aus Shanghai AI Lab)
- Zur Vereinigung des generativen und diskriminativen visuellen Fundamentmodells: Eine Umfrage (von JHU)
Vor 2024
- Grundlagenmodelle in der medizinischen Bildgebung: Eine umfassende Umfrage und zukünftige Vision (von SDSU)
- Multimodal Foundation-Modelle: Von Spezialisten über allgemeine Assistenten (von Microsoft)
- In Richtung Generalist Foundation Modell für Radiologie (von SJtu)
- Grundlagenmodelle, die eine neue Ära in der Vision definieren: eine Umfrage und Aussichten (von der MBZ University of AI)
- In Richtung Generalist Biomedical AI (von Google)
- Eine systematische Untersuchung der schnellen Technik für Sehvermögensmodelle (aus Oxford)
- Große multimodale Modelle: Anmerkungen zum CVPR 2023 -Tutorial (von Chunyuan Li, Microsoft)
- Eine Umfrage zu multimodalen Großsprachmodellen (von USTC und Tencent)
- Visionsprachel-Modelle für Visionsaufgaben: Eine Umfrage (von der Nanyang Technological University)
- Stiftungsmodelle für Generalist Medical Artificial Intelligence (aus Stanford)
- Eine umfassende Umfrage zu vorbereiteten Stiftungsmodellen: Eine Geschichte von Bert bis Chatgpt
- Eine umfassende Übersicht über AI-generierte Inhalte (AIGC): eine Geschichte der generativen KI von GaN bis ChatGPT
- Visionsprachige Vorabbildung: Grundlagen, jüngste Fortschritte und zukünftige Trends
- Zu den Chancen und Risiken von Stiftungsmodellen (in dieser Umfrage wird zunächst das Konzept des Stiftungsmodells populär; aus Standford)
Papiere nach Datum
2024
- [11/14] Skalierungsgesetze für Präzision (aus Harvard)
- [11/13] Neuralfeels mit neuronalen Feldern: visuotaktile Wahrnehmung für In-Hand-Manipulation (aus Meta)
- [11/07] Dino-WM: Weltmodelle für vorgeborene visuelle Funktionen ermöglichen die Planung von Null-Shot (von der New York University)
- [10/31] Project SID: Simulationen mit vielen Agenten für die AI-Zivilisation (aus Altera.al)
- [10/30] Tokenformator: Überdenken der Transformators Skalierung mit tokenisierten Modellparametern (vom Max -Planck -Institut für Informatik)
- [10/30] Belohnungszentrierung (von Richard Sutton, Universität von Alberta)
- [10/21] Langzeitgedächtnis: Die Grundlage der AI-Selbstevolution (aus Tianqiao und Chrissy Chen Institute)
- [10/10] Skalieren Sie Ihre Kerne: Großer Kerneldesign in Überzeugungen in Richtung universeller Darstellungen (von CUHK)
- [10/04] Movie Gen: Eine Besetzung von Medienstiftungsmodellen (aus Meta)
- [10/02] Waren wir alles, was wir brauchten? (von Mila)
- [10/01] NGPT: Normalisierter Transformator mit Repräsentationslernen auf der Hypersphäre (aus Nvidia)
- MM1.5: Methoden, Analyse und Erkenntnisse aus multimodaler LLM-Feinabstimmung (von Apple)
- [09/27] EMU3: Next-Token-Vorhersage ist alles, was Sie brauchen (von Baai)
- Molmo und Pixmo: Öffnen Sie Gewichte und offene Daten für hochmoderne multimodale Modelle (von Allen AI)
- [09.09.18] Qwen2-VL: Verbesserung der Wahrnehmung der Welt der Visionsprach-Modell bei jeder Lösung (aus Alibaba)
- [09.09.18] Moshi: Ein Sprach-Text-Foundation-Modell für den Echtzeitdialog (von Kyutai)
- Diffusionsmodelle sind Echtzeit-Game-Engines (von Google)
- [08/22] Sapiens: Grundlage für menschliche Sehmodelle (aus Meta)
- Imageen 3 (von Google DeepMind)
- [07/31] Die Lama 3 -Herde von Models (aus Meta)
- [07/29] SAM 2: Segment alles in Bildern und Videos (aus Meta)
- [07/24] Partglee: Ein Fundamentmodell zum Erkennen und Analysieren von Objekten (aus Hust und Bytedance)
- [07/17] EVE: Enthüllung von Encoder-freien Visionsprachmodellen (von Baai)
- [07/12] Transformatorschichten als Maler (von Sakana AI)
- Cambrian-1: Eine vollständig offene, sehzentrierte Erkundung multimodaler LLMs (von NYU)
- 4m-21: Ein Ventum von Any-to-Just-Visionsmodell für zehn Aufgaben und Modalitäten (von EPFL und Apple)
- [06/10] Merlin: Ein Modell der Vision Language Foundation für 3D -Computertomographie (von Stanford. Code wird verfügbar sein.)
- [06/06] Vision-LSTM: XLSTM als generisches Vision Backbone (von LSTM-Autoren)
- MESHXL: Neuraler Koordinatenfeld für generative 3D -Fundamentmodelle (von Fudan)
- [05/25] MOEUT: Mischung der Experten Universal Transformers (aus Stanford)
- Aufmerksamkeit als RNN (von Mila & Borealis AI)
- [05/22] Gigapath: Ein Whole-Slide Foundation-Modell für digitale Pathologie aus realen Daten (aus der Natur)
- BiomedParse: Ein biomedizinisches Fundamentmodell für die Analyse des biomedizinischen Bildes (von Microsoft. Journalversion)
- Octo: Eine Open-Source-Roboterpolitik (von UC Berkeley)
- [05/17] Beobachtungsskalierungsgesetze und die Vorhersehbarkeit der Sprachmodellleistung (Fro Standford)
- [05/14] Verständnis der Leistungslücke zwischen Online- und Offline -Ausrichtungsalgorithmen (von Google)
- Lumina-T2X: Verwandeln Sie Text in jede Modalität, Auflösung und Dauer über fließende große Diffusionstransformatoren (aus Shanghai AI Lab)
- [05/08] Sie können nur einmal einsteuern: Decoder-Decoder-Architekturen für Sprachmodelle
- [05/07] XLSTM: Erweitertes langfristiges Kurzzeitgedächtnis (von Sepp Hochreiter, dem Autor von LSTM.)
- [05/06] Multimodale medizinische Fähigkeiten von Gemini (von Google) vorantreiben
- U-tits: Downsample-Token in U-förmigen Diffusionstransformatoren (von der Peking University)
- VIBE-EVAL: Eine harte Bewertungssuite zur Messung des Fortschritts multimodaler Sprachmodelle
- KAN: Kolmogorov-Arnold-Netzwerke (vielversprechende Alternativen von MLPs. Aus MIT)
- [04/26] Wie weit sind wir bis GPT-4V? Schließen Sie die Lücke zu kommerziellen multimodalen Modellen mit Open-Source-Suiten (Internvl 1.5. Aus Shanghai AI Lab)
- [04/14] TransformerFam: Feedback Aufmerksamkeit ist Arbeitsspeicher (von Google. Effiziente Aufmerksamkeit.)
- [04/10] Hinterlassen Sie keinen Kontext hinter sich
- [04/02] Octopus V2: Sprachmodell für Super-Agent für Super Agent (aus Stanford)
- [04/02] Mischung aus den Tiefen: Dynamisch Berechnung in transformatorbasierten Sprachmodellen (von Google) zuordnen
- [03/22] Internvideo2: Skalierung von Videofundierungsmodellen für multimodales Videoverständnis (aus Shanghai AI Lab)
- [03/18] ARC2face: Ein Fundamentmodell menschlicher Gesichter (vom Imperial College London)
- MM1: Methoden, Analyse und Erkenntnisse aus multimodalem LLM-Vorverbrauch (30B-Parameter. Aus Apple)
- [03/09] UNIGRADICON: Ein Fundamentmodell für die Registrierung von medizinischen Bild (von UNC-Chapel Hill)
- [03/05] Skalierung korrigierte Flusstransformatoren für hochauflösende Bildsynthese (Stabile Diffusion 3. Aus Stabilität AI)
- [03/01] Lern- und Nutzung von Weltmodellen im visuellen Repräsentationslernen (aus Meta)
- [03/01] Visionllama: Eine einheitliche Lama -Schnittstelle für Visionsaufgaben (von Meupuan)
- [02/28] CLLMS: Konsistenz große Sprachmodelle (von SJTU)
- [02/27] Transparente Bildschichtdiffusion unter Verwendung von latenter Transparenz (aus Standford)
- [02/22] Mobilellm: Optimierung der Parametersprachenmodelle der Unterbillion für Anwendungsfälle auf dem Gerät (aus Meta)
- [02/21] Jenseits einer ∗: Bessere Planung mit Transformatoren über Suchdynamik -Bootstrapping (aus Meta)
- [02/20] Neuronale Netzwerkdiffusion (Generierung von Netzwerkparametern über Diffusionsmodelle. Aus NUS)
- [02/20] Videooperismus: Ein grundlegender visueller Encoder für das Videoverständnis (von Google)
- [02/19] Passform: Flexibler Sehtransformator für Diffusionsmodell (aus Shanghai AI Lab)
- [02/06] Mobilevlm V2: Schnellere und stärkere Grundlinie für Vision Language Model (von Meituan)
- Yolo-world: Echtzeit Open-Vocabulary-Objekterkennung (von Tencent und Hust)
- [01/23] Lumiere: Ein Raum-Zeit-Diffusionsmodell für die Videogenerierung (von Google)
- [01/22] Chexagent: Auf dem Weg zu einem Fundamentmodell für die Röntgeninterpretation der Brust (aus Stanford)
- Tiefe alles: Die Kraft der groß angelegten, nicht maßgeblichen Daten auslassen (von TIKTOK)
- Sit: Erforschung von Fluss- und Diffusionsbasis generativen Modellen mit skalierbaren interpolenen Transformatoren (von NYU)
- [01/15] Instantid: Null-Shot-Identitäts-Erziehung in Sekunden (aus Xiaohongshu)
2023
- Bioclip: Ein Modell der Vision Foundation für den Baum des Lebens (CVPR 2024 Best Student Paper)
- MAMBA: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen (Mamba scheint über ähnliche Transformatoren zu übertreffen, während sie linear mit der Sequenzlänge skalieren. Von CMU)
- Grundlage: Unified 6D -Pose -Schätzung und Verfolgung neuer Objekte (aus Nvidia)
- Überall überall auf einmal verfolgen (von Cornell, ICCV 2023 Best Student Paper)
- Foundation -Modelle für den Generalist Geospatial Artificial Intelligence (von IBM und NASA)
- LAMA 2: Open Foundation und Feinabstimmungs-Chat-Modelle (von Meta)
- Internlm-Xcomposer: Ein Sichtsprachgerät großes Modell für das Verständnis und die Komposition des Textbild-Images (aus Shanghai AI Lab)
- Das allzustehende Projekt: Auf dem Weg zu panoptischer visueller Erkennung und Verständnis der offenen Welt (aus Shanghai AI Lab)
- Meta-Transformator: Ein einheitliches Rahmen für multimodales Lernen (aus CUHK und Shanghai AI Lab)
- Retentive Network: Ein Nachfolger des Transformators für große Sprachmodelle (von Microsoft und Tsinghua University)
- Nervenweltmodelle für Computer Vision (Doktorarbeit von Anthony Hu von der University of Cambridge)
- Erkennen Sie alles: Ein starkes Bild -Tagging -Modell (ein starkes Fundamentmodell für das Bild -Tagging. Aus OPPO)
- In Richtung visueller Fundamentmodelle physikalischer Szenen (beschreibt ein erster Schritt zum Lernen von allgemeinen visuellen Darstellungen physikalischer Szenen mit nur Bildvorhersage als Trainingskriterium; aus AWS)
- Lima: Weniger ist mehr für die Ausrichtung (65B -Parameter aus Meta)
- Palm 2 Technischer Bericht (von Google)
- ImageBind: Ein Einbettungsraum, um sie alle zu binden (aus Meta)
- Visuelle Anweisungsstimmung (LLAVA, von U of Wisconsin-Madison und Microsoft)
- Schein: Segment alles auf einmal überall (von der Universität von Wisconsin-Madison, Hkust und Microsoft)
- SAM: Segment Alles (das erste Fundamentmodell für die Bildsegmentierung; aus Meta)
- Seggpt: Segmentierung alles im Kontext (von Baai, ZJU und PKU)
- Bilder sprechen in Bildern: Ein Generalist Maler für das visuelle Lernen in Kontext (von Baai, ZJU und PKU)
- Unidector: alles in der offenen Welt nachweisen: Auf dem Weg zu universeller Objekterkennung (CVPR, von Tsinghua und Bnrist)
- Unmasked Lehrer: Auf dem Weg zur Ausbildungseffizient-Video-Stiftung (von der chinesischen Akademie der Wissenschaften, Universität der chinesischen Akademie der Wissenschaften, Shanghai AI Laboratory)
- Visuelle prompt multimodale Verfolgung (von Dalian University of Technology und Peng Cheng Laboratory)
- Um allgemeine Foundation-Modelle für Sprach-, Vision- und Visionsprachverständnisaufgaben zu bauen (aus Bytedance)
- EVA-Clip: Verbesserte Trainingstechniken für Clip in Skala (von Baai und Hust)
- EVA-02: Eine visuelle Darstellung für Neon Genesis (von Baai und Hust)
- EVA-01: Erforschung der Grenzen des maskierten visuellen Darstellungslernens im Maßstab (CVPR, von Baai und Hust)
- LLAMA: Offene und effiziente Foundation -Sprachmodelle (eine Sammlung von Fundamentsprachmodellen von 7B bis 65B Parametern; aus Meta)
- Die Wirksamkeit von MAE-Vorabstieg für milliarden Maßstäbe (aus Meta)
- BLOOMBERGGPT: Ein großes Sprachmodell für Finanzen (50 Milliarden Parameter; aus Bloomberg)
- Bloom: Ein mehrsprachiges Sprachmodell mit 176B-Parameter (diese Arbeit wurde von BigScience koordiniert, dessen Ziel es ist, LLMs zu demokratisieren.)
- Flip: Skalierung des Sprachbildes vor der Ausbildung durch Maskierung (aus Meta)
- BLIP-2: Bootstrapping-Sprachbild vor der Ausbildung mit gefrorenen Bildcodierern und Großsprachmodellen (aus der Saleforce-Forschung)
- GPT-4 Technischer Bericht (von OpenAI)
- Visual Chatgpt: Reden, Zeichnen und Bearbeiten mit visuellen Grundlage (von Microsoft Research Asia)
- Uninext: Universelle Instanzwahrnehmung als Objektentdeckung und -abruf (ein Unified Model für 10 Instanzwahrnehmungsaufgaben; CVPR, aus Bytedance)
- Internvideo: General Video Foundation -Modelle über generatives und diskriminatives Lernen (aus Shanghai AI Lab)
- Internimage: Erkundung großer Sehstiftungsmodelle mit deformierbaren Konvolutionen (CVPR, aus Shanghai AI Lab)
- BRIDGETOWER: Aufbau von Brücken zwischen Encodern im Lernen von Visionsprachen (vom Harbin Institute of Technology und Microsoft Research Asia)
2022
- BEVT: Bert -Vorbau von Video -Transformatoren (CVPR, aus Shanghai Key Lab of Intelligent Information Processing)
- Foundation -Transformatoren (von Microsoft)
- Ein Generalist (bekannt als Gato, ein multi-modaler, multi-taskischer Multi-Embodiment-Generalist; aus DeepMind)
- Faser: Grob-zu-Fine-Vision-Sprache vor dem Training mit Fusion im Rückgrat (von Microsoft, UCLA und New York University)
- Flamingo: Ein visuelles Sprachmodell für wenige Lernen (von DeepMind)
- MetalM: Sprachmodelle sind allgemeine Schnittstellen (von Microsoft)
- Point-E: Ein System zur Erzeugung von 3D-Punktwolken aus komplexen Eingabeaufforderungen (effiziente 3D-Objekterzeugung unter Verwendung eines Text-zu-Im-Im-Im-Im-Im---D-Diffusionsmodells; aus OpenAI)
- Bildsegmentierung mit Text- und Bildaufforderungen (CVPR, von der Universität Göttingen)
- Einheitliche Schätzung des Flusses, Stereo- und Tiefe (ein einheitliches Modell für drei Bewegungs- und 3D -Wahrnehmungsaufgaben; aus ETH Zürich)
- Pali: Ein gemeinsamskaliertes mehrsprachiges Sprachbildmodell (von Google)
- Videomae: Maskierte Autoencoder sind dateneffiziente Lernende für selbstüberwachende Video-Vor-Training (Neurips, von Nanjing University, Tencent und Shanghai AI Lab)
- Slip: Self-Supervision trifft vor dem Training mit Sprachbild (ECCV, von UC Berkeley und Meta)
- Glipv2: Einheitliche Lokalisierung und VL -Verständnis (Neurips'22, von UW, Meta, Microsoft und UCLA)
- GLIP: Fundiertes Sprachbild vor der Training (CVPR, von UCLA und Microsoft)
- BLIP: Bootstrapping Sprachbild Voraberziehung für einheitliche Visionsprachenverständnis und -generation (aus Salesforce-Forschung)
- Nuwa-Infinity: Autoregressiv über autoregressive Erzeugung für die unendliche visuelle Synthese (von Microsoft)
- Palm: Skalierungssprachmodellierung mit Pfaden (von Google)
- Koka: Kontrastive Bildunterschriften sind Image-Text-Foundation-Modelle (von Google)
- Parti: Skalierung autoregressive Modelle für inhaltsreiche Text-zu-Image-Generierung (von Google)
- Eine einheitliche Sequenzschnittstelle für Visionsaufgaben (aus Google Research, Brain Team)
- Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (from Google)
- Stabile Diffusion: Hochauflösende Bildsynthese mit latenten Diffusionsmodellen (CVPR, aus Stabilität und Landebahn)
- Jenseits des Nachahmungsspiels: Quantifizierung und Extrapolation der Fähigkeiten von Sprachmodellen (Big-Bench: Ein extrem schwieriger und vielfältiger Maßstab für LLMs, 444 Autoren aus 132 Institutionen)
- KRIS: Clip-gesteuerte Bildsegmentierung (von der Universität Sydney und Oppo)
- Maskierte Autoencoder als räumlich -zeitliche Lernende (Erweiterung von MAE auf Videos; Neurips aus Meta)
- Maskierte Autoencoder sind skalierbare Sehlerner (CVPR 2022 von Fair)
- InstructGPT: Trainingssprachmodelle, um Anweisungen mit menschlichem Feedback zu befolgen (ausgebildet mit Menschen in der Schleife; aus OpenAI)
- Eine einheitliche Sequenzschnittstelle für Visionsaufgaben (Neurips 2022, von Google)
- Dall-E2: Hierarchische Text-Konditionelle Bildgenerierung mit Clip Latents (von OpenAI)
- Robuste und effiziente medizinische Bildgebung mit Selbstverträglichkeit (von Google, Georgia Tech und Northwestern University)
- Video Swin Transformator (CVPR, von Microsoft Research Asia)
- OFA: Vereinheitliche Architekturen, Aufgaben und Modalitäten durch ein einfaches Lerngerüst von Sequenz zu Sequenz (ICML 2022. Aus Alibaba.)
- Mask2former: Masked-Tentention-Mask-Transformator für die universelle Bildsegmentierung (CVPR 2022, von Fair und UIUC)
- Flava: Ein grundlegendes Modell für Sprach- und Visionen (CVPR, von Facebook AI Research)
- Auf dem Weg zu künstlichen allgemeinen Intelligenz über ein multimodales Fundamentmodell (Naturkommunikation von der Renmin University of China)
- Filip: feinkörniges interaktives Sprachbild vor der Training (ICLR, von Huawei und HKUST)
- SIMVLM: Einfaches visuelles Sprachmodell, das mit schwacher Überwachung (ICLR, von CMU und Google) vorgezogen wird.
- Gleit: Auf dem Weg zu fotorealistischer Bilderzeugung und -bearbeitung mit textgesteuerten Diffusionsmodellen (von OpenAI)
2021
- Einheitliche Seh- und Sprachaufgaben durch Textgenerierung (von UNC-Chapel Hill)
- Ausrichtung: Skalierung der visuellen und sehverwöhnlichen Darstellung mit lautem Textaufsicht (PMLR, von Google)
- Einheit: Multimodales Multitask -Lernen mit einem einheitlichen Transformator (ICCV, von fair)
- Wenlan: Überbrückung von Vision und Sprache durch groß angelegte multi-modale Pre-Training (in diesem Artikel wird das erste groß angelegte chinesische multimodale Vor-Training-Modell namens Brivl; von der Renmin University of China) vorgestellt)
- Codex: Bewertung großer Sprachmodelle, die auf Code ausgebildet sind (ein auf öffentlicher Code von Github, von OpenAI und anthropischer AI bestraftem GPT -Sprachmodell)
- Florenz: Ein neues Fundamentmodell für Computer Vision (von Microsoft)
- Dall-E: Null-Shot-Text-zu-Image-Generierung (von OpenAI)
- Clip: Lernen übertragbarer visueller Modelle aus natürlicher Sprache (von OpenAI)
- Multimodales Lernen mit wenigen Scheinen mit gefrorenen Sprachmodellen (Neurips, von DeepMind)
- SWIN -Transformator: Hierarchischer Vision -Transformator mit verschobenem Windows (ICCV, von Microsoft Research Asia)
- Ein Bild ist 16x16 Wörter wert: Transformatoren für die Bilderkennung im Maßstab (der erste Vision-Transfomer mit reinen Selbstbekämpfungsblöcken; ICLR, von Google)
Vor 2021
- GPT-3: Sprachmodelle sind nur wenige Schusslernende (175b Parameter; Ermöglicht das Lernen im Kontext im Vergleich zu GPT-2; aus OpenAI).
- Uniter: Universal Image-Text Repräsentation Learning (von Microsoft)
- T5: Erforschung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator (von Google)
- GPT-2: Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende (1,5B-Parameter; aus OpenAI)
- LXMERT: Lernen von Cross-Modality-Encoder-Repräsentationen von Transformatoren (EMNLP, von UNC-Chapel Hill)
- Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis (von Google AI Sprache)
- GPT: Verbesserung des Sprachverständnisses durch generatives Vorverbrauch (von OpenAI)
- Achtung ist alles, was Sie brauchen (Neurips, von Google und UOT)
Papiere nach Thema
Große Sprache/multimodale Modelle
- LLAVA: Visuelle Unterrichtsstimmung (von der Universität von Wisconsin-Madison)
- MiniGPT-4: Verbesserung des Verständnisses der Visionsprachen mit fortgeschrittenen Großsprachenmodellen (von Kaust)
- GPT-4 Technischer Bericht (von OpenAI)
- GPT-3: Sprachmodelle sind nur wenige Schusslernende (175b Parameter; Ermöglicht das Lernen im Kontext im Vergleich zu GPT-2; aus OpenAI).
- GPT-2: Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende (1,5B-Parameter; aus OpenAI)
- GPT: Verbesserung des Sprachverständnisses durch generatives Vorverbrauch (von OpenAI)
- LAMA 2: Open Foundation und Feinabstimmungs-Chat-Modelle (von Meta)
- LLAMA: Offene und effiziente Fundamentsprachmodelle (Modelle von 7B bis 65B Parametern; aus Meta)
- T5: Erforschung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformator (von Google)
Lineare Aufmerksamkeit
- Flashattention-2: schnellere Aufmerksamkeit mit besserer Parallelität und Arbeitspartitionierung
- Flash-Daten
Große Benchmarks
- Ophnet: Ein groß angelegter Video-Benchmark für ophthalmische chirurgische Workflow-Verständnis (groß angelegte Video-Benchmark für die ophthalmische Operation. Aus Monash, 2024)
- MMT-Bench: Ein umfassender multimodaler Benchmark zur Bewertung großer Sichtsprachmodelle für Multitask AGI (aus Shanghai AI Lab, 2024)
- Blink: Multimodale Großsprachenmodelle können aber nicht wahrgenommen werden (multimodaler Benchmark. Von der Universität von Pennsylvania, 2024)
- CAD-Estate: Großes CAD-Modell-Annotation in RGB-Videos (RGB-Videos mit CAD-Annotation. Von Google 2023)
- ImageNet: Eine großflächige hierarchische Bilddatenbank (Vision Benchmark. Aus Stanford, 2009)
Visionsprachen-Vorbereitung
- Flip: Skalierung des Sprachbildes vor der Ausbildung durch Maskierung (aus Meta)
- BLIP-2: Bootstrapping-Sprachbild-Vor-Training mit gefrorenen Bildcodierern und Großsprachmodellen (schlägt eine generische und effiziente VLP-Strategie vor, die auf ausgefrorenen Sinten- und Sprachmodellen aus dem Shelf basiert. Aus Salesforce-Forschung)
- BLIP: Bootstrapping Sprachbild Voraberziehung für einheitliche Visionsprachenverständnis und -generation (aus Salesforce-Forschung)
- Slip: Self-Supervision trifft vor dem Training mit Sprachbild (ECCV, von UC Berkeley und Meta)
- GLIP: Fundiertes Sprachbild vor der Training (CVPR, von UCLA und Microsoft)
- Ausrichtung: Skalierung der visuellen und sehverwöhnlichen Darstellung mit lautem Textaufsicht (PMLR, von Google)
- RegionClip: Region basierendes Sprachbild-Vorbau
- Clip: Lernen übertragbarer visueller Modelle aus natürlicher Sprache (von OpenAI)
Wahrnehmungsaufgaben: Erkennung, Segmentierung und Posenschätzung
- SAM 2: Segmentieren Sie alles in Bildern und Videos (aus Meta)
- Grundlage: Unified 6D -Pose -Schätzung und Verfolgung neuer Objekte (aus Nvidia)
- Schein: Segment alles auf einmal überall (von der Universität von Wisconsin-Madison, Hkust und Microsoft)
- SAM: Segment Alles (das erste Fundamentmodell für die Bildsegmentierung; aus Meta)
- Seggpt: Segmentierung alles im Kontext (von Baai, ZJU und PKU)
Trainingseffizienz
- Green AI (führt das Konzept der roten AI gegen Green AI ein)
- Die Hypothese der Lotteriekasse: Spärliche, trainierbare neuronale Netzwerke (die Hypothese der Lottoausstattung, vom MIT)
Auf künstliche allgemeine Intelligenz (AGI)
- In Richtung Agi in Computer Vision: Lehren aus GPT und Großsprachenmodellen (von Huawei) gelernt
KI -Sicherheit und Verantwortung
- Begrenzung der Wahrscheinlichkeit eines Schadens einer KI, eine Leitplanke zu erstellen (Blog von Yoshua Bengio)
- Verwalten von extremen KI -Risiken inmitten schneller Fortschritte (aus der Wissenschaft, Mai 2024)
Verwandte tolle Repositories
- Awesome-Diffusion-Modelle
- Awesome-Video-Diffusion-Modelle
- Awesome-Diffusion-Modell-basierte Image-Bearbeitungs-Methoden
- Awesome-CV-Fundamodelle
- Awesome-Healthcare-Fundierungsmodelle
- Awesome-Large-Multimodal-Agents
- Computer Vision in freier Wildbahn (cvinw)