Die generative KI erlebt ein rasantes Wachstum und dieses Repository dient als umfassende Drehscheibe für Updates zur generativen KI-Forschung, Interviewmaterialien, Notizbücher und mehr!
Entdecken Sie die folgenden Ressourcen:
Wir werden dieses Repository regelmäßig aktualisieren. Halten Sie also Ausschau nach den neuesten Ergänzungen!
Viel Spaß beim Lernen!
*Aktualisiert am Ende jedes Monats
Datum | Titel | Abstrakt | Themen |
---|---|---|---|
31. Mai 2024 | LLMs erreichen die Leistung erwachsener Menschen bei Aufgaben höherer Ordnung der Theorie des Geistes | In diesem Artikel wird untersucht, inwieweit große Sprachmodelle (LLMs) eine Theorie des Geistes höherer Ordnung (ToM) entwickelt haben. die menschliche Fähigkeit, auf rekursive Weise über mehrere mentale und emotionale Zustände nachzudenken (z. B. denke ich, dass Sie glauben, dass sie es weiß). Dieses Papier baut auf früheren Arbeiten auf, indem es eine handgeschriebene Testsuite – Multi-Order Theory of Mind Q&A – vorstellt und diese verwendet, um die Leistung von fünf LLMs mit einem neu zusammengestellten Benchmark für erwachsene Menschen zu vergleichen. Wir stellen fest, dass GPT-4 und Flan-PaLM bei ToM-Aufgaben insgesamt eine Leistung auf Erwachsenenniveau oder nahezu auf Erwachsenenniveau erreichen und dass GPT-4 bei Schlussfolgerungen 6. Ordnung die Leistung von Erwachsenen übertrifft. Unsere Ergebnisse legen nahe, dass es ein Zusammenspiel zwischen Modellgröße und Feinabstimmung für die Realisierung von ToM-Fähigkeiten gibt und dass die leistungsstärksten LLMs eine allgemeine Kapazität für ToM entwickelt haben. Angesichts der Rolle, die ToM höherer Ordnung in einem breiten Spektrum kooperativer und konkurrierender menschlicher Verhaltensweisen spielt, haben diese Erkenntnisse erhebliche Auswirkungen auf benutzerorientierte LLM-Anwendungen. | Theorie des Geistes |
30. Mai 2024 | JINA CLIP: Ihr CLIP-Modell ist auch Ihr Text-Retriever | Contrastive Language-Image Pretraining (CLIP) wird häufig verwendet, um Modelle zu trainieren, Bilder und Texte in einem gemeinsamen Einbettungsraum auszurichten, indem sie auf Vektoren fester Größe abgebildet werden. Diese Modelle sind der Schlüssel zum multimodalen Informationsabruf und damit verbundenen Aufgaben. Allerdings sind CLIP-Modelle bei Nur-Text-Aufgaben im Allgemeinen schlechter als spezialisierte Textmodelle. Dies führt zu Ineffizienzen bei Informationsabrufsystemen, die separate Einbettungen und Modelle für Nur-Text- und multimodale Aufgaben vorhalten. Um dieses Problem anzugehen, schlagen wir eine neuartige kontrastive Trainingsmethode mit mehreren Aufgaben vor, mit der wir das jina-clip-v1-Modell trainieren, um die Leistung auf dem neuesten Stand der Technik sowohl bei Text-Bild- als auch bei Text-Text-Abrufaufgaben zu erreichen . | Multimodale Modelle |
30. Mai 2024 | Parrot: Effiziente Bereitstellung von LLM-basierten Anwendungen mit semantischen Variablen | Der Aufstieg großer Sprachmodelle (LLMs) hat LLM-basierte Anwendungen (auch bekannt als KI-Agenten oder Co-Piloten) ermöglicht, ein neues Software-Paradigma, das die Stärken von LLM und konventioneller Software vereint. Verschiedene LLM-Anwendungen von unterschiedlichen Mandanten könnten mithilfe mehrerer LLM-Anfragen komplexe Arbeitsabläufe entwerfen, um eine Aufgabe zu erfüllen. Sie müssen jedoch die stark vereinfachte API auf Anforderungsebene verwenden, die von den heutigen öffentlichen LLM-Diensten bereitgestellt wird, wodurch wichtige Informationen auf Anwendungsebene verloren gehen. Öffentliche LLM-Dienste müssen einzelne LLM-Anfragen blind optimieren, was zu einer suboptimalen End-to-End-Leistung von LLM-Anwendungen führt. In diesem Dokument wird Parrot vorgestellt, ein LLM-Servicesystem, das sich auf die End-to-End-Erfahrung von LLM-basierten Anwendungen konzentriert. Parrot schlägt Semantic Variable vor, eine einheitliche Abstraktion, um Wissen auf Anwendungsebene öffentlichen LLM-Diensten zugänglich zu machen. Eine semantische Variable kommentiert eine Eingabe-/Ausgabevariable in der Eingabeaufforderung einer Anfrage und erstellt die Datenpipeline, wenn mehrere LLM-Anfragen verbunden werden, und bietet so eine natürliche Möglichkeit, LLM-Anwendungen zu programmieren. Die Bereitstellung semantischer Variablen für den öffentlichen LLM-Dienst ermöglicht die Durchführung herkömmlicher Datenflussanalysen, um die Korrelation über mehrere LLM-Anfragen hinweg aufzudecken. Diese Korrelation eröffnet einen völlig neuen Optimierungsraum für die End-to-End-Leistung von LLM-basierten Anwendungen. Umfangreiche Auswertungen zeigen, dass Parrot bei beliebten und praktischen Anwendungsfällen von LLM-Anwendungen Verbesserungen um bis zu eine Größenordnung erzielen kann | LLM-Agenten |
30. Mai 2024 | Verblüfft durch Ratlosigkeit: Ratlosigkeitsbasierte Datenbereinigung mit kleinen Referenzmodellen | In dieser Arbeit untersuchen wir, ob kleine Sprachmodelle qualitativ hochwertige Teilmengen großer Textdatensätze bestimmen können, die die Leistung größerer Sprachmodelle verbessern. Während bestehende Arbeiten gezeigt haben, dass eine auf der Perplexität eines größeren Modells basierende Bereinigung qualitativ hochwertige Daten liefern kann, untersuchen wir, ob kleinere Modelle für eine auf der Perplexität basierende Bereinigung verwendet werden können und wie sich die Domänenzusammensetzung der bereinigten Daten auf die Bereinigung auswirkt. Wir zeigen, dass bei mehreren Datensatzzusammensetzungen die perplexitätsbasierte Bereinigung von Vortrainingsdaten die Leistung nachgelagerter Aufgaben deutlich verbessern kann: Die Bereinigung auf der Grundlage von mit einem 125-Millionen-Parameter-Modell berechneten Perplexitäten verbessert die durchschnittliche Leistung bei nachgelagerten Aufgaben eines 3-Milliarden-Parameter-Modells um bis zu 2,04 und erreicht eine bis zu 1,45-fache Reduzierung der Schritte vor dem Training, um eine entsprechende Grundleistung zu erreichen. Darüber hinaus zeigen wir, dass eine solche ratlosheitsbasierte Datenbereinigung auch in den übertrainierten und datenbeschränkten Regimen zu nachgelagerten Leistungssteigerungen führt. | Kleine Sprachmodelle |
30. Mai 2024 | GNN-RAG: Graph Neural Retrieval für das Denken großer Sprachmodelle | Knowledge Graphs (KGs) stellen von Menschen geschaffenes Faktenwissen in Form von Tripletts (Kopf, Relation, Schwanz) dar, die zusammen einen Graphen bilden. Die Beantwortung von Fragen über KGs (KGQA) ist die Aufgabe, natürliche Fragen zu beantworten und die Argumentation auf die von der KG bereitgestellten Informationen zu stützen. Large Language Models (LLMs) sind aufgrund ihrer bemerkenswerten Fähigkeit, natürliche Sprache zu verstehen, die hochmodernen Modelle für Qualitätssicherungsaufgaben. Andererseits werden Graph Neural Networks (GNNs) häufig für KGQA verwendet, da sie die im KG gespeicherten komplexen Graphinformationen verarbeiten können. In dieser Arbeit stellen wir GNN-RAG vor, eine neuartige Methode zur Kombination der Sprachverständnisfähigkeiten von LLMs mit den Argumentationsfähigkeiten von GNNs in einem RAG-Stil (Retrieval-Augmented Generation). Zunächst argumentiert ein GNN über einen dichten KG-Untergraphen, um Antwortkandidaten für eine bestimmte Frage abzurufen. Zweitens werden die kürzesten Pfade im KG, die Frageentitäten und Antwortkandidaten verbinden, extrahiert, um KG-Argumentationspfade darzustellen. Die extrahierten Pfade werden verbalisiert und als Eingabe für die LLM-Begründung mit RAG bereitgestellt. In unserem GNN-RAG-Framework fungiert das GNN als dichter Untergraph-Reasonator, um nützliche Diagramminformationen zu extrahieren, während der LLM seine Fähigkeit zur Verarbeitung natürlicher Sprache für die ultimative KGQA nutzt. Darüber hinaus entwickeln wir eine Retrieval Augmentation (RA)-Technik, um die KGQA-Leistung mit GNN-RAG weiter zu steigern. Experimentelle Ergebnisse zeigen, dass GNN-RAG in zwei weit verbreiteten KGQA-Benchmarks (WebQSP und CWQ) eine Leistung auf dem neuesten Stand der Technik erreicht und die GPT-4-Leistung mit einem auf 7B abgestimmten LLM übertrifft oder erreicht. Darüber hinaus zeichnet sich GNN-RAG bei Multi-Hop- und Multi-Entity-Fragen aus und übertrifft konkurrierende Ansätze bei Antwort F1 um 8,9–15,5 % Punkte. Wir stellen den Code und die KGQA-Ergebnisse unter https://github.com/cmavro/GNN-RAG zur Verfügung. | RAG zu Wissensgraphen |
29. Mai 2024 | Selbsterkundende Sprachmodelle: Aktive Präferenzerhebung für die Online-Ausrichtung | Die Präferenzoptimierung, insbesondere durch Reinforcement Learning from Human Feedback (RLHF), hat erhebliche Erfolge bei der Ausrichtung großer Sprachmodelle (LLMs) erzielt, um den menschlichen Absichten zu entsprechen. Im Gegensatz zur Offline-Ausrichtung mit einem festen Datensatz führt die Online-Erfassung von Feedback von Menschen oder KI zu Modellgenerationen in der Regel durch einen iterativen Prozess zu leistungsfähigeren Belohnungsmodellen und besser ausgerichteten LLMs. Um jedoch ein weltweit genaues Belohnungsmodell zu erreichen, ist eine systematische Erkundung erforderlich, um vielfältige Antworten zu generieren, die den riesigen Raum der natürlichen Sprache abdecken. Zufallsstichproben aus standardmäßigen belohnungsmaximierenden LLMs allein reichen nicht aus, um diese Anforderung zu erfüllen. Um dieses Problem anzugehen, schlagen wir ein zweistufiges Ziel vor, das optimistisch auf Antworten mit potenziell hoher Belohnung ausgerichtet ist, um Regionen außerhalb der Verbreitung aktiv zu erkunden. Durch die Lösung des Problems auf innerer Ebene mit der neu parametrisierten Belohnungsfunktion macht der resultierende Algorithmus namens Self-Exploring Language Models (SELM) die Notwendigkeit eines separaten RM überflüssig und aktualisiert das LLM iterativ mit einem einfachen Ziel. Im Vergleich zur Direct Preference Optimization (DPO) reduziert das SELM-Ziel die wahllose Bevorzugung unsichtbarer Extrapolationen und erhöht die Explorationseffizienz. Unsere experimentellen Ergebnisse zeigen, dass SELM bei Feinabstimmung an den Modellen Zephyr-7B-SFT und Llama-3-8B-Instruct die Leistung beim Unterricht nach Benchmarks wie MT-Bench und AlpacaEval 2.0 sowie verschiedenen akademischen Standard-Benchmarks in verschiedenen Umgebungen erheblich steigert . Unser Code und unsere Modelle sind unter https://github.com/shenao-zhang/SELM verfügbar. | Ausrichtung, Präferenzoptimierung |
28. Mai 2024 | OpenRLHF: Ein benutzerfreundliches, skalierbares und leistungsstarkes RLHF-Framework | Da große Sprachmodelle (LLMs) durch Skalierungsgesetze weiter wachsen, hat das verstärkende Lernen aus menschlichem Feedback (RLHF) aufgrund seiner herausragenden Leistung große Aufmerksamkeit erlangt. Anders als beim Vortraining oder der Feinabstimmung eines einzelnen Modells stellt die Skalierung von Reinforcement Learning aus menschlichem Feedback (RLHF) für das Training großer Sprachmodelle jedoch Koordinationsprobleme zwischen vier Modellen dar. Wir präsentieren OpenRLHF, ein Open-Source-Framework, das eine effiziente RLHF-Skalierung ermöglicht. Im Gegensatz zu bestehenden RLHF-Frameworks, die vier Modelle gemeinsam auf denselben GPUs platzieren, gestaltet OpenRLHF die Planung für die Modelle über 70B-Parameter hinaus mithilfe von Ray, vLLM und DeepSpeed neu und nutzt so eine verbesserte Ressourcennutzung und verschiedene Trainingsansätze. OpenRLHF lässt sich nahtlos in Hugging Face integrieren und bietet eine sofort einsatzbereite Lösung mit optimierten Algorithmen und Startskripten, die Benutzerfreundlichkeit gewährleistet. OpenRLHF implementiert RLHF, DPO, Rejection Sampling und andere Ausrichtungstechniken. Der OpenRLHF-Code ermöglicht die hochmoderne LLM-Entwicklung und ist unter https://github.com/OpenLLMAI/OpenRLHF verfügbar. | RLHF, Toolkit |
28. Mai 2024 | LLAMA-NAS: EFFIZIENTE NEURONALE ARCHITEKTURSUCHE NACH GROSSEN SPRACHENMODELLEN | Die Fähigkeiten moderner großer Sprachmodelle (LLMs) bei der Lösung natürlicher Sprachverarbeitung, komplexer Argumentation, Sentimentanalyse und anderen Aufgaben waren außergewöhnlich, was zu ihrer umfassenden Einführung geführt hat. Leider sind diese Fähigkeiten mit sehr hohen Speicher- und Rechenkosten verbunden, was den Einsatz von LLMs auf den meisten Hardwareplattformen ausschließt. Um dies zu mildern, schlagen wir eine effektive Methode zum Finden paretooptimaler Netzwerkarchitekturen basierend auf LLaMA2-7B unter Verwendung von One-Shot-NAS vor. Insbesondere optimieren wir LLaMA2-7B nur einmal und wenden dann eine auf genetischen Algorithmen basierende Suche an, um kleinere, weniger rechentechnisch komplexe Netzwerkarchitekturen zu finden. Wir zeigen, dass das vorab trainierte LLaMA2-7B-Netzwerk für bestimmte Standard-Benchmark-Aufgaben unnötig groß und komplex ist. Genauer gesagt demonstrieren wir eine 1,5-fache Reduzierung der Modellgröße und eine 1,3-fache Beschleunigung des Durchsatzes für bestimmte Aufgaben bei vernachlässigbarem Genauigkeitsverlust. Unsere Methode findet nicht nur kleinere, leistungsstärkere Netzwerkarchitekturen, sondern ist auch effektiver und effizienter als bestimmte Pruning- oder Sparsifizierungstechniken. Abschließend zeigen wir, wie Quantisierung unsere Methode ergänzt und dass die Größe und Komplexität der von uns gefundenen Netzwerke durch Quantisierung weiter verringert werden kann. Wir glauben, dass unsere Arbeit eine Möglichkeit bietet, automatisch LLMs zu erstellen, die auf kostengünstigeren und leichter verfügbaren Hardwareplattformen verwendet werden können. | Suche nach neuronaler Architektur, Reduzierung der Modellgröße |
28. Mai 2024 | Vergessen Sie nicht, eine Verbindung herzustellen! Verbesserung des RAG durch diagrammbasiertes Reranking | Retrieval Augmented Generation (RAG) hat die Leistung von LLM-Antworten (Large Language Model) erheblich verbessert, indem die Generierung auf dem Kontext vorhandener Dokumente basiert. Diese Systeme funktionieren gut, wenn Dokumente eindeutig für einen Fragekontext relevant sind. Aber was ist, wenn ein Dokument unvollständige Informationen oder weniger offensichtliche Zusammenhänge mit dem Kontext enthält? Und wie sollten wir über Zusammenhänge zwischen Dokumenten nachdenken? In dieser Arbeit versuchen wir, diese beiden Kernfragen zur RAG-Erzeugung zu beantworten. Wir stellen G-RAG vor, einen auf graphischen neuronalen Netzen (GNNs) basierenden Reranker zwischen dem Retriever und dem Leser in RAG. Unsere Methode kombiniert sowohl Verbindungen zwischen Dokumenten als auch semantische Informationen (über abstrakte Bedeutungsdarstellungsdiagramme), um einen kontextinformierten Ranking für RAG bereitzustellen. G-RAG übertrifft modernste Ansätze bei geringerem Rechenaufwand. Darüber hinaus bewerten wir die Leistung von PaLM 2 als Reranker und stellen fest, dass es deutlich schlechter abschneidet als G-RAG. Dieses Ergebnis unterstreicht die Bedeutung einer Neubewertung für RAG, selbst wenn große Sprachmodelle verwendet werden. | RAG für Reasoning |
27. Mai 2024 | Meteor: Mamba-basiertes Traversal of Rationale für große Sprach- und Sehmodelle | Die rasante Entwicklung großer Sprach- und Bildmodelle (LLVMs) wurde durch Fortschritte bei der Optimierung visueller Anweisungen vorangetrieben. In jüngster Zeit haben Open-Source-LLVMs hochwertige Datensätze zur Optimierung visueller Anweisungen kuratiert und zusätzliche Vision-Encoder oder mehrere Computer-Vision-Modelle verwendet, um die Leistungslücke mit leistungsstarken Closed-Source-LLVMs zu schließen. Diese Fortschritte werden auf vielfältige Informationen zurückgeführt, die für verschiedene Fähigkeiten erforderlich sind, darunter grundlegendes Bildverständnis, reales Wissen über allgemeinverständliche und nicht objektbezogene Konzepte (z. B. Diagramme, Diagramme, Symbole, Zeichen und mathematische Probleme) und Schritt-für-Schritt-Anleitungen -Schrittverfahren zur Lösung komplexer Fragestellungen. Ausgehend von den vielfältigen Informationen präsentieren wir eine neue effiziente LLVM, Mamba-basierte Traversierung von Begründungen (Meteor), die vielfältige Begründungen nutzt, um das Verständnis und die Antwortmöglichkeiten zu verbessern. Um lange Begründungen mit reichlich Informationen einzubetten, verwenden wir die Mamba-Architektur, die in der Lage ist, sequentielle Daten mit linearer Zeitkomplexität zu verarbeiten. Wir stellen ein neues Konzept der Traversierung von Begründungen vor, das eine effiziente Einbettung von Begründungen ermöglicht. Anschließend wird das Backbone Multimodal Language Model (MLM) darauf trainiert, mithilfe von Begründungen Antworten zu generieren. Durch diese Schritte erzielt Meteor erhebliche Verbesserungen der Bildverarbeitungsleistung über mehrere Bewertungsbenchmarks hinweg, die unterschiedliche Fähigkeiten erfordern, ohne die Modellgröße zu vergrößern oder zusätzliche Bildverarbeitungs-Encoder und Computer-Vision-Modelle einzusetzen. Der Code ist unter https://github.com/ByungKwanLee/Meteor verfügbar. | Zustandsraummodelle, multimodale Modelle |
27. Mai 2024 | Eine Einführung in die Vision-Language-Modellierung | Aufgrund der jüngsten Popularität von Large Language Models (LLMs) wurden mehrere Versuche unternommen, sie auf den visuellen Bereich auszudehnen. Von einem visuellen Assistenten, der uns durch unbekannte Umgebungen führen kann, bis hin zu generativen Modellen, die Bilder nur mithilfe einer Textbeschreibung auf hoher Ebene erzeugen – die Anwendungen des Vision-Language-Modells (VLM) werden unsere Beziehung zur Technologie erheblich beeinflussen. Es gibt jedoch viele Herausforderungen, die angegangen werden müssen, um die Zuverlässigkeit dieser Modelle zu verbessern. Während Sprache diskret ist, entwickelt sich das Sehen in einem viel höherdimensionalen Raum, in dem Konzepte nicht immer einfach diskretisiert werden können. Um die Mechanismen hinter der Abbildung von Vision und Sprache besser zu verstehen, präsentieren wir diese Einführung in VLMs, von der wir hoffen, dass sie jedem hilft, der in dieses Gebiet einsteigen möchte. Zunächst stellen wir vor, was VLMs sind, wie sie funktionieren und wie man sie trainiert. Anschließend präsentieren und diskutieren wir Ansätze zur Bewertung von VLMs. Obwohl sich diese Arbeit hauptsächlich auf die Zuordnung von Bildern zu Sprache konzentriert, diskutieren wir auch die Erweiterung von VLMs auf Videos. | Multimodale Modelle, Umfrage |
27. Mai 2024 | Multimodale Matroschka-Modelle | Große multimodale Modelle (LMMs) wie LLaVA haben eine starke Leistung beim visuell-linguistischen Denken gezeigt. Diese Modelle betten Bilder zunächst in eine feste große Anzahl visueller Token ein und speisen sie dann in ein Large Language Model (LLM) ein. Dieses Design führt jedoch zu einer übermäßigen Anzahl von Tokens für dichte visuelle Szenarien wie hochauflösende Bilder und Videos, was zu großer Ineffizienz führt. Es gibt zwar Token-Pruning- und Merging-Methoden, diese erzeugen jedoch eine Ausgabe mit einer einzigen Länge für jedes Bild und können sich keine Flexibilität beim Kompromiss zwischen Informationsdichte und Effizienz leisten. Inspiriert vom Konzept der Matroschka-Puppen schlagen wir M3 vor: Matroschka-Multimodalmodelle, die lernen, visuelle Inhalte als verschachtelte Sätze visueller Token darzustellen, die Informationen über mehrere grobe bis feine Granularitäten hinweg erfassen. Unser Ansatz bietet mehrere einzigartige Vorteile für LMMs: (1) Man kann die visuelle Granularität pro Testinstanz während der Inferenz explizit steuern, z. B. die Anzahl der zur Darstellung eines Bildes verwendeten Token basierend auf der erwarteten Komplexität oder Einfachheit des Inhalts anpassen; (2) M3 bietet einen Rahmen für die Analyse der für vorhandene Datensätze erforderlichen Granularität. Dabei stellen wir fest, dass Benchmarks im COCO-Stil nur etwa 9 visuelle Token benötigen, um eine ähnliche Genauigkeit wie bei der Verwendung aller 576 Token zu erzielen. (3) Unser Ansatz bietet eine Grundlage für die Untersuchung des besten Kompromisses zwischen Leistung und visueller Tokenlänge auf Stichprobenebene, wobei unsere Untersuchung zeigt, dass eine große Lücke zwischen der Oracle-Obergrenze und den aktuellen Darstellungen mit festem Maßstab besteht. | Multimodale Modelle |
27. Mai 2024 | Trans-LoRA: Auf dem Weg zu einer datenfreien, übertragbaren Parameter-effizienten Feinabstimmung | Low-Rank-Adapter (LoRA) und ihre Varianten sind beliebte Parameter-effiziente Feinabstimmungstechniken (PEFT), die der Feinabstimmungsleistung des gesamten Modells nahe kommen und dabei nur eine kleine Anzahl zusätzlicher Parameter erfordern. Diese zusätzlichen LoRA-Parameter sind spezifisch für das anzupassende Basismodell. Wenn das Basismodell veraltet und durch ein neues ersetzt werden muss, müssen alle zugehörigen LoRA-Module neu trainiert werden. Für ein solches erneutes Training ist Zugriff auf die Daten erforderlich, die zum Trainieren der LoRA für das ursprüngliche Basismodell verwendet wurden. Dies ist besonders problematisch für kommerzielle Cloud-Anwendungen, bei denen die LoRA-Module und die Basismodelle von Dienstanbietern gehostet werden, denen es möglicherweise nicht gestattet ist, proprietäre Client-Aufgabendaten zu hosten. Um dieser Herausforderung zu begegnen, schlagen wir Trans-LoRA vor – eine neuartige Methode für die verlustfreie, nahezu datenfreie Übertragung von LoRAs über Basismodelle hinweg. Unser Ansatz basiert auf synthetischen Daten zur Übertragung von LoRA-Modulen. Unter Verwendung großer Sprachmodelle entwerfen wir einen synthetischen Datengenerator, um den Datengenerierungsprozess der Teilmenge der beobachteten Aufgabendaten anzunähern. Das Training des resultierenden synthetischen Datensatzes überträgt LoRA-Module auf neue Modelle. Wir zeigen die Wirksamkeit unseres Ansatzes anhand der Modellfamilien LLama und Gemma. Unser Ansatz ermöglicht eine verlustfreie (größtenteils verbesserte) LoRA-Übertragung zwischen Modellen innerhalb und zwischen verschiedenen Basismodellfamilien und sogar zwischen verschiedenen PEFT-Methoden für eine Vielzahl von Aufgaben. | PEFT-Methoden, Feinabstimmung |
26. Mai 2024 | Self-Play-Präferenzoptimierung für die Ausrichtung des Sprachmodells | Herkömmliche Ansätze des Reinforcement Learning from Human Feedback (RLHF), die auf parametrischen Modellen wie dem Bradley-Terry-Modell basieren, können die Intransitivität und Irrationalität menschlicher Präferenzen nicht erfassen. Jüngste Fortschritte deuten darauf hin, dass die direkte Arbeit mit Präferenzwahrscheinlichkeiten zu einer genaueren Darstellung menschlicher Präferenzen führen kann, was eine flexiblere und genauere Ausrichtung des Sprachmodells ermöglicht. In diesem Artikel schlagen wir eine selbstspielbasierte Methode zur Sprachmodellausrichtung vor, die das Problem als ein Zwei-Spieler-Spiel mit konstanter Summe behandelt, das darauf abzielt, die Nash-Gleichgewichtspolitik zu identifizieren. Unser als Self-Play Preference Optimization (SPPO) bezeichneter Ansatz nähert sich dem Nash-Gleichgewicht durch iterative Richtlinienaktualisierungen an und verfügt über eine theoretische Konvergenzgarantie. Unsere Methode kann die Log-Likelihood der gewählten Antwort effektiv erhöhen und die der abgelehnten Antwort verringern, was durch symmetrischen paarweisen Verlust wie Direct Preference Optimization (DPO) und Identity Preference Optimization (IPO) nicht trivial erreicht werden kann. In unseren Experimenten mit nur 60.000 Eingabeaufforderungen (ohne Antworten) aus dem UltraFeedback-Datensatz und ohne Eingabeaufforderungserweiterung kann SPPO durch die Nutzung eines vorab trainierten Präferenzmodells PairRM mit nur 0,4B Parametern ein Modell aus der Feinabstimmung von Mistral-7B erhalten. Instruct-v0.2, das die hochmoderne längenkontrollierte Gewinnrate von 28,53 % gegen GPT-4-Turbo auf AlpacaEval erreicht 2,0. Es übertrifft auch das (iterative) DPO und IPO auf MT-Bench und dem Open LLM Leaderboard. Insbesondere wird die starke Leistung von SPPO ohne zusätzliche externe Überwachung (z. B. Antworten, Präferenzen usw.) durch GPT-4 oder andere stärkere Sprachmodelle erreicht. | Ausrichtung, Optimierung |
23. Mai 2024 | Nicht alle Sprachmodellfunktionen sind linear | In neueren Arbeiten wurde die Hypothese der linearen Darstellung vorgeschlagen: Sprachmodelle führen Berechnungen durch, indem sie eindimensionale Darstellungen von Konzepten („Merkmale“) im Aktivierungsraum manipulieren. Im Gegensatz dazu untersuchen wir, ob einige Sprachmodelldarstellungen von Natur aus mehrdimensional sein können. Wir beginnen mit der Entwicklung einer strengen Definition irreduzibler mehrdimensionaler Merkmale, die darauf basiert, ob sie in unabhängige oder nicht gleichzeitig auftretende niederdimensionale Merkmale zerlegt werden können. Motiviert durch diese Definitionen entwerfen wir eine skalierbare Methode, die spärliche Autoencoder verwendet, um automatisch mehrdimensionale Features in GPT-2 und Mistral 7B zu finden. Zu diesen automatisch erkannten Merkmalen gehören eindrucksvoll interpretierbare Beispiele, z. B. kreisförmige Merkmale, die Wochentage und Monate des Jahres darstellen. Wir identifizieren Aufgaben, bei denen genau diese Kreise verwendet werden, um Rechenprobleme mit modularer Arithmetik in Wochentagen und Monaten des Jahres zu lösen. Schließlich liefern wir mit Interventionsexperimenten an Mistral 7B und Llama 3 8B den Beweis, dass diese kreisförmigen Merkmale tatsächlich die grundlegende Berechnungseinheit in diesen Aufgaben sind, und wir finden weitere kreisförmige Darstellungen, indem wir die verborgenen Zustände für diese Aufgaben in interpretierbare Komponenten zerlegen. | Lineare Darstellungsanalyse |
23. Mai 2024 | AlignGPT: Multimodale große Sprachmodelle mit adaptiver Ausrichtungsfunktion | Multimodale Large Language Models (MLLMs) gelten allgemein als entscheidend für die Erforschung der Künstlichen Allgemeinen Intelligenz (AGI). Der Kern von MLLMs liegt in ihrer Fähigkeit, eine modalübergreifende Ausrichtung zu erreichen. Um dieses Ziel zu erreichen, folgen aktuelle MLLMs typischerweise einem zweiphasigen Trainingsparadigma: der Vortrainingsphase und der Instruktionsoptimierungsphase. Trotz ihres Erfolgs weisen diese Modelle Mängel bei der Modellierung der Ausrichtungsfähigkeiten auf. Erstens geht das Modell während der Vortrainingsphase normalerweise davon aus, dass alle Bild-Text-Paare gleichmäßig ausgerichtet sind, tatsächlich ist der Grad der Ausrichtung zwischen verschiedenen Bild-Text-Paaren jedoch inkonsistent. Zweitens umfassen die derzeit zur Feinabstimmung verwendeten Anweisungen eine Vielzahl von Aufgaben. Die Anweisungen verschiedener Aufgaben erfordern normalerweise unterschiedliche Ebenen der Ausrichtungsfähigkeiten, aber frühere MLLMs übersehen diese differenzierten Ausrichtungsanforderungen. Um diese Probleme anzugehen, schlagen wir ein neues multimodales großes Sprachmodell AlignGPT vor. Anstatt in der Vortrainingsphase alle Bildtextpaare gleich zu behandeln, weisen wir verschiedenen Bildtextpaaren unterschiedliche Ebenen von Ausrichtungsfähigkeiten zu. Anschließend kombinieren wir in der Befehlsabstimmungsphase diese verschiedenen Ebenen der Ausrichtungsfähigkeiten adaptiv, um den dynamischen Ausrichtungsanforderungen verschiedener Anweisungen gerecht zu werden. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Modell bei 12 Benchmarks eine wettbewerbsfähige Leistung erzielt. | Ausrichtung, multimodales Modell |
23. Mai 2024 | HippoRAG: Neurobiologisch inspiriertes Langzeitgedächtnis für große Sprachmodelle | Um in feindlichen und sich ständig verändernden natürlichen Umgebungen zu gedeihen, haben sich die Gehirne von Säugetieren so entwickelt, dass sie große Mengen an Wissen über die Welt speichern und kontinuierlich neue Informationen integrieren können, ohne dabei katastrophales Vergessen zu verursachen. Trotz der beeindruckenden Erfolge haben große Sprachmodelle (LLMs) selbst mit Retrievalaugmented Generation (RAG) immer noch Schwierigkeiten, eine große Menge neuer Erfahrungen nach dem Vortraining effizient und effektiv zu integrieren. In dieser Arbeit stellen wir HippoRAG vor, ein neuartiges Retrieval-Framework, das von der Hippocampus-Indexierungstheorie des menschlichen Langzeitgedächtnisses inspiriert ist, um eine tiefere und effizientere Wissensintegration über neue Erfahrungen zu ermöglichen. HippoRAG orchestriert synergistisch LLMs, Wissensgraphen und den personalisierten PageRank-Algorithmus, um die unterschiedlichen Rollen von Neocortex und Hippocampus im menschlichen Gedächtnis nachzuahmen. Wir vergleichen HippoRAG mit bestehenden RAG-Methoden zur Beantwortung von Multi-Hop-Fragen und zeigen, dass unsere Methode die modernsten Methoden deutlich übertrifft, und zwar um bis zu 20 %. Der Single-Step-Retrieval mit HippoRAG erreicht eine vergleichbare oder bessere Leistung als der iterative Retrieval wie IRCoT und ist gleichzeitig 10-30-mal günstiger und 6-13-mal schneller. Die Integration von HippoRAG in IRCoT bringt weitere erhebliche Vorteile. Abschließend zeigen wir, dass unsere Methode neue Arten von Szenarien bewältigen kann, die für bestehende Methoden unerreichbar sind. | RAG-Optimierung |
21. Mai 2024 | OmniGlue: Verallgemeinerbarer Feature-Matching mit Foundation Model Guidance | Auf dem Gebiet des Bildabgleichs sind ständig neue erlernbare Techniken zum Abgleich von Merkmalen entstanden, deren Leistung gegenüber herkömmlichen Benchmarks immer besser wird. Unsere Untersuchung zeigt jedoch, dass ihr Potenzial für reale Anwendungen trotz dieser Vorteile durch ihre begrenzten Generalisierungsfähigkeiten auf neuartige Bilddomänen eingeschränkt ist. In diesem Artikel stellen wir OmniGlue vor, den ersten lernbaren Bildvergleicher, dessen Kernprinzip die Generalisierung ist. OmniGlue nutzt umfassendes Wissen aus einem Vision-Foundation-Modell, um den Feature-Matching-Prozess zu steuern und die Generalisierung auf Domänen zu fördern, die zum Trainingszeitpunkt nicht sichtbar sind. Darüber hinaus schlagen wir einen neuartigen, von der Schlüsselpunktposition gesteuerten Aufmerksamkeitsmechanismus vor, der räumliche und Erscheinungsbildinformationen entwirrt und so zu verbesserten passenden Deskriptoren führt. Wir führen umfassende Experimente mit einer Reihe von 7 Datensätzen mit unterschiedlichen Bilddomänen durch, darunter Szenenebene, objektzentrierte Bilder und Luftbilder. Die neuartigen Komponenten von OmniGlue führen zu relativen Gewinnen in unbekannten Bereichen von 20,9 % im Vergleich zu einem direkt vergleichbaren Referenzmodell und übertreffen gleichzeitig die aktuelle LightGlue-Methode um relative 9,5 %. Code und Modell finden Sie unter https://hwjiang1510.github.io/OmniGlue. | Multimodale Modelle |
20. Mai 2024 | MoRA: High-Rank-Aktualisierung für Parameter-effiziente Feinabstimmung | Low-Rank-Adaption (LoRA) ist eine beliebte Methode zur Parametereffizienten Feinabstimmung (PEFT) für große Sprachmodelle (LLMs). In diesem Artikel analysieren wir die Auswirkungen von Low-Rank-Updates, wie sie in LoRA implementiert sind. Unsere Ergebnisse deuten darauf hin, dass der Aktualisierungsmechanismus mit niedrigem Rang die Fähigkeit von LLMs, neues Wissen effektiv zu erlernen und zu speichern, einschränken kann. Inspiriert von dieser Beobachtung schlagen wir eine neue Methode namens MoRA vor, die eine quadratische Matrix verwendet, um eine hochrangige Aktualisierung zu erreichen und gleichzeitig die gleiche Anzahl trainierbarer Parameter beizubehalten. Um dies zu erreichen, führen wir die entsprechenden Nichtparameteroperatoren ein, um die Eingabedimension zu reduzieren und die Ausgabedimension für die quadratische Matrix zu erhöhen. Darüber hinaus stellen diese Operatoren sicher, dass die Gewichtung wieder in LLMs zusammengeführt werden kann, wodurch unsere Methode wie LoRA eingesetzt werden kann. Wir führen eine umfassende Bewertung unserer Methode anhand von fünf Aufgaben durch: Instruktionsoptimierung, mathematisches Denken, kontinuierliches Vortraining, Gedächtnis und Vortraining. Unsere Methode übertrifft LoRA bei speicherintensiven Aufgaben und erreicht eine vergleichbare Leistung bei anderen Aufgaben. Unser Code wird unter https://github.com/kongds/MoRA verfügbar sein. | PEFT-Ansätze, Feinabstimmung |
19. Mai 2024 | Ihr Transformator ist insgeheim linear | Dieses Papier enthüllt eine neuartige lineare Charakteristik, die ausschließlich für Transformatordecoder gilt, darunter Modelle wie GPT, LLaMA, OPT, BLOOM und andere. Wir analysieren Einbettungstransformationen zwischen aufeinanderfolgenden Schichten und decken eine nahezu perfekte lineare Beziehung auf (Procrustes-Ähnlichkeitswert von 0,99). Aufgrund einer konstant niedrigen Ausgangsnorm der Transformatorschicht nimmt die Linearität jedoch ab, wenn die Restkomponente entfernt wird. Unsere Experimente zeigen, dass das Entfernen oder die lineare Annäherung einiger der linearsten Transformatorblöcke keinen wesentlichen Einfluss auf den Verlust oder die Modellleistung hat. Darüber hinaus führen wir in unseren Vortrainingsexperimenten an kleineren Modellen eine auf Kosinusähnlichkeit basierende Regularisierung ein, die darauf abzielt, die Schichtlinearität zu reduzieren. Diese Regularisierung verbessert die Leistungsmetriken bei Benchmarks wie Tiny Stories und SuperGLUE und verringert außerdem erfolgreich die Linearität der Modelle. Diese Studie stellt das bestehende Verständnis von Transformatorarchitekturen in Frage und legt nahe, dass ihr Betrieb möglicherweise linearer ist als bisher angenommen.1 | Transformatoranalyse |
18. Mai 2024 | Auf dem Weg zu modularen LLMs durch Aufbau und Wiederverwendung einer Bibliothek von LoRAs | Die wachsende Zahl parametereffizienter Anpassungen eines Basis-LLM (Large Language Model) erfordert die Untersuchung, ob wir solche trainierten Adapter wiederverwenden können, um die Leistung für neue Aufgaben zu verbessern. Wir untersuchen, wie man anhand von Multitask-Daten am besten eine Bibliothek von Adaptern aufbaut, und entwickeln Techniken sowohl für die Zero-Shot- als auch für die Generalisierung überwachter Tasks durch Routing in einer solchen Bibliothek. Wir vergleichen bestehende Ansätze zum Aufbau dieser Bibliothek und führen modellbasiertes Clustering (MBC) ein, eine Methode, die Aufgaben basierend auf der Ähnlichkeit ihrer Adapterparameter gruppiert und so indirekt die Übertragung über den Multitask-Datensatz optimiert. Um die Bibliothek wiederzuverwenden, stellen wir einen neuartigen Zero-Shot-Routing-Mechanismus vor, Arrow, der eine dynamische Auswahl der relevantesten Adapter für neue Eingaben ermöglicht, ohne dass eine Umschulung erforderlich ist. Wir experimentieren mit mehreren LLMs wie Phi-2 und Mistral an einem breiten Spektrum an ausstehenden Aufgaben und stellen fest, dass MBC-basierte Adapter und Arrow-Routing zu einer besseren Generalisierung auf neue Aufgaben führen. Wir unternehmen Schritte zur Schaffung modularer, anpassungsfähiger LLMs, die mit der herkömmlichen gemeinsamen Ausbildung mithalten oder diese sogar übertreffen können. | PEFT-Ansätze, Feinabstimmung, Toolkit |
16. Mai 2024 | Chameleon: Gemischtmodale Early-Fusion-Grundlagenmodelle | Wir stellen Chameleon vor, eine Familie von Token-basierten gemischtmodalen Modellen der frühen Fusion, die in der Lage sind, Bilder und Text in jeder beliebigen Reihenfolge zu verstehen und zu generieren. Wir skizzieren einen stabilen Trainingsansatz von Inception, ein Ausrichtungsrezept und eine architektonische Parametrisierung, die auf die frühfusionsbasierte, gemischte modale Umgebung zugeschnitten ist. Die Modelle werden an einem umfassenden Aufgabenbereich bewertet, darunter visuelle Fragenbeantwortung, Bildunterschrift, Textgenerierung, Bildgenerierung und Langzeitgeneration mit langer Form. Chamäleon zeigt breite und allgemeine Fähigkeiten, einschließlich hochmoderner Leistung bei Bildunterschriftenaufgaben, übertrifft LLAMA-2 in Text-Nur-Text-Aufgaben, während sie mit Modellen wie Mixtral 8x7b und Gemini-Pro wettbewerbsfähig sind, und führt nicht triviales Bild durch Generation, alles in einem einzigen Modell. Es stimmt auch mit der Leistung viel größerer Modelle ab oder übertrifft sie, einschließlich Gemini Pro und GPT-4V, gemäß den menschlichen Urteilen auf einer neuen Bewertung der gemischten Modellgenerierung, bei der entweder die Eingabeaufforderung oder die Ausgaben gemischte Sequenzen sowohl von Bildern als auch von Text enthalten . Chamäleon markiert einen signifikanten Schritt nach vorne in einer einheitlichen Modellierung vollständig multimodaler Dokumente. | Multimodaler Modelle, Foundation -Modell |
16. Mai 2024 | Many-Shot-In-Kontext-Lernen in multimodalen Fundamentmodellen | Es ist bekannt, dass Großsprachmodelle bei wenigen Schüssen im Kontextlernen (ICL) effektiv sind. Jüngste Fortschritte in multimodalen Fundamentmodellen haben es ermöglicht, beispiellose Windows -Windows beispiellose Kontext zu erforschen, um die Möglichkeit zu geben, ihre Fähigkeiten zu untersuchen, ICL mit vielen weiteren nachweisenden Beispielen durchzuführen. In dieser Arbeit bewerten wir die Leistung multimodaler Fundamentmodelle, die von wenigen Schotten bis zu vielen Scheinen skalieren. Wir vermitteln GPT-4O und Gemini 1.5 Pro in 10 Datensätzen, die mehrere Domänen (natürliche Bilder, medizinische Bilder, Fernerkundung und molekulare Bilder) und Aufgaben (Multi-Klassen, Multi-Label und feinkörnige Klassifizierung) umfassen. Wir beobachten, dass viele Shot-ICL, darunter bis zu fast 2.000 multimodale Beispiele, zu erheblichen Verbesserungen im Vergleich zu wenigen Schuss-ICL (<100 Beispiele) in allen Datensätzen führen. Darüber hinaus verbessert die Leistung von Gemini 1.5 Pro weiterhin die logarithmische linear bis zur maximalen Anzahl getesteter Beispiele für viele Datensätze. Angesichts der hohen Inferenzkosten, die mit den langen Eingabeaufforderungen verbunden sind, die für viele Schüsse erforderlich sind, untersuchen wir auch die Auswirkungen der Stapel mehrerer Abfragen in einem einzelnen API-Aufruf. Wir zeigen, dass das Batching von bis zu 50 Abfragen zu Leistungsverbesserungen unter Null-Shot und vielen-Shot-ICL führen kann, mit erheblichen Gewinnen in der Null-Shot-Einstellung auf mehreren Datensätzen und gleichzeitig die Kosten und die Latenz von pro Querform drastisch reduziert. Schließlich messen wir die ICL -Dateneffizienz der Modelle oder die Rate, mit der die Modelle aus nachweisenden Beispielen lernen. Wir stellen fest, dass GPT-4O und Gemini 1.5 Pro eine ähnliche Null-Shot-Leistung über die Datensätze in den Datensätzen erzielt werden, aber Gemini 1.5 Pro in den meisten Datensätzen eine höhere ICL-Dateneffizienz als GPT-4O aufweist. Unsere Ergebnisse deuten darauf hin, dass viele Shot-ICL es Benutzern ermöglichen könnten, multimodale Grundlagenmodelle effizient an neue Anwendungen und Domänen anzupassen. Unsere Codebasis ist öffentlich unter https://github.com/stanfordmlgroup/Manyicl verfügbar. | ICL, multimodale Modelle |
15. Mai 2024 | Lora lernt weniger und vergisst weniger | Low-Rang-Anpassung (LORA) ist eine weit verbreitete Parameter-effiziente Finetuning-Methode für Großsprachenmodelle. Lora spart Speicher, indem sie nur niedrige Störungen für ausgewählte Gewichtsmatrizen trainieren. In dieser Arbeit vergleichen wir die Leistung von LORA und die vollständige Fülle auf zwei Zieldomänen, Programmierung und Mathematik. Wir betrachten sowohl die Befehlsfonetuning (~ 100K-Eingabeaufforderung-Wirkungs-Paare) als auch die fortgesetzten Datenregime der Vorabbau (~ 10B unstrukturierte Token). Unsere Ergebnisse zeigen, dass Lora in den meisten Umgebungen die vollständige Finetuning erheblich beeinflusst. Trotzdem weist Lora eine wünschenswerte Form der Regularisierung auf: Es behält die Leistung des Basismodells bei Aufgaben außerhalb der Zieldomäne besser bei. Wir zeigen, dass LORA im Vergleich zu gemeinsamen Techniken wie Gewichtsverfall und Ausfall eine stärkere Regularisierung bietet. Es hilft auch, vielfältigere Generationen aufrechtzuerhalten. Wir zeigen, dass die vollständige Finetuning Störungen mit einem Rang lernt, der 10-100x größer ist als typische LORA-Konfigurationen, was möglicherweise einige der gemeldeten Lücken erklärt. Wir schließen ab, indem wir Best Practices für die Finetuning mit Lora vorschlagen. | Peft nähert sich, Feinabstimmung |
14. Mai 2024 | Verständnis der Leistungslücke zwischen Online- und Offline -Ausrichtungsalgorithmen | Das Verstärkungslernen aus dem menschlichen Feedback (RLHF) ist der kanonische Rahmen für die Ausrichtung des Modells in großer Sprache. Die zunehmende Beliebtheit bei Offline-Ausrichtungsalgorithmen fordert jedoch die Notwendigkeit einer On-Policy-Probenahme in RLHF in Frage. Im Kontext der Überoptimierung der Belohnung beginnen wir mit einem Öffnungssatz von Experimenten, die den klaren Vorteil von Online-Methoden gegenüber Offline-Methoden demonstrieren. Dies veranlasst uns, die Ursachen für die Leistungsdiskrepanz durch eine Reihe sorgfältig gestalteter experimenteller Ablationen zu untersuchen. Wir zeigen empirisch, dass Hypothesen wie Offline -Datenabdeckung und Datenqualität den Leistungsunterschied nicht überzeugend erklären können. Wir stellen auch fest, dass Offline -Algorithmen, während sie in der paarweisen Klassifizierung gut werden, bei Generationen, während sie in Generationen gut klassifiziert, gut ist. In der Zwischenzeit sind die von Online -Algorithmen ausgebildeten Richtlinien in Generationen gut und schlechter bei der Paarklassifizierung. Dies deutet auf ein einzigartiges Zusammenspiel zwischen diskriminierenden und generativen Fähigkeiten hin, die durch den Stichprobenprozess stark beeinflusst wird. Zuletzt stellen wir fest, dass die Leistungsdiskrepanz sowohl für kontrastive als auch für nicht kontrastive Verlustfunktionen bestehen und anscheinend nicht durch einfaches Verbrennen von politischen Netzwerken angegangen zu sein scheint. Zusammengenommen beleuchtet unsere Studie die entscheidende Rolle der On-Policy-Probenahme in der AI-Ausrichtung und deutet auf bestimmte grundlegende Herausforderungen der Offline-Alignment-Algorithmen hin. | Ausrichtung |
13. Mai 2024 | RLHF -Workflow: Von Belohnungsmodellierung bis Online RLHF | In diesem technischen Bericht präsentieren wir den Workflow des iterativen Lernens der iterativen Verstärkung aus dem menschlichen Feedback (RLHF), in dem in der LLM -Literatur der jüngsten Großsprachenmodell (LLM) das Offline -Gegenstück mit einem großen Rand in der Literatur der jüngsten großen Sprachmodell (LLM) übertrifft. Bestehende Open-Source-RLHF-Projekte sind jedoch immer noch weitgehend auf die Offline-Lernumgebung beschränkt. In diesem technischen Bericht wollen wir diese Lücke ausfüllen und ein detailliertes Rezept bereitstellen, das für Online -iterative RLHF leicht zu reproduzieren ist. Da das menschliche Online-Feedback in der Regel für Open-Source-Communities mit begrenzten Ressourcen in der Regel nicht realisierbar ist, konstruieren wir zunächst Präferenzmodelle mit verschiedenen Open-Source-Datensätzen und verwenden das konstruierte Proxy-Präferenzmodell, um das menschliche Feedback zu approximieren. Dann diskutieren wir die theoretischen Erkenntnisse und algorithmischen Prinzipien hinter dem iterativen Online -RLHF, gefolgt von einer detaillierten praktischen Implementierung. Unser ausgebildeter LLM, SFR-Iiterations-DPO-Llama-3-8b-R, erzielt eine beeindruckende Leistung bei LLM-Chatbot-Benchmarks, einschließlich AlpaCaeval-2, Arena-Hard und MT-Bench sowie anderen akademischen Benchmarken wie Humaneval und MT-Bench Truthfulqa. Wir haben gezeigt, dass beaufsichtigte Feinabstimmungen (SFT) und iterative RLHF eine modernste Leistung mit vollständig offenen Datensätzen erhalten können. Darüber hinaus haben wir unsere Modelle, kuratierte Datensätze und umfassende Schritt-für-Schritt-Code-Reiseführer öffentlich zur Verfügung gestellt. Weitere Informationen finden Sie unter https://github.com/rlhflow/rlhf-reward-modeling und https://github.com/rlhflow/online-rlhf für detailliertere Informationen. | Präferenzoptimierung, RLHF |
2. Mai 2024 | Prometheus 2: Ein Open -Source -Sprachmodell, das sich auf die Bewertung anderer Sprachmodelle spezialisiert hat | Proprietäre LMs wie GPT-4 werden häufig verwendet, um die Qualität der Antworten aus verschiedenen LMs zu bewerten. Bedenken, einschließlich Transparenz, Kontrollierbarkeit und Erschwinglichkeit, motivieren jedoch stark die Entwicklung von OpenSource LMS, die auf Bewertungen spezialisiert sind. Auf der anderen Seite weisen vorhandene Open Evaluator LMS kritische Mängel auf: 1) Sie stellen Werte aus, die sich erheblich von den von Menschen zugeordneten Menschen unterscheiden, und 2) ihnen fehlt die Flexibilität, sowohl eine direkte Bewertung als auch die paarweise Rangfolge durchzuführen. . Darüber hinaus besitzen sie nicht die Fähigkeit, basierend auf benutzerdefinierten Bewertungskriterien zu bewerten und sich stattdessen auf allgemeine Attribute wie Hilfsbereitschaft und Harmlosigkeit zu konzentrieren. Um diese Themen anzugehen, stellen wir Prometheus 2 vor, einen leistungsstärkeren Bewerter LM als der Vorgänger, der die Urteile von Menschen und GPT-4 genau widerspiegelt. Darüber hinaus ist es in der Lage, sowohl direkte Bewertungen als auch paarweise Ranking-Formate zu verarbeiten, die mit einer benutzerdefinierten Bewertungskriterien gruppiert sind. Bei vier direkten Bewertungsbenchmarks und vier paarweisen Ranking -Benchmarks bewertet Prometheus 2 die höchste Korrelation und Übereinstimmung mit Menschen und proprietären LM -Richtern unter allen getesteten offenen Bewerter LMS. Unsere Modelle, Code und Daten sind alle öffentlich verfügbar 1. | Bewertung, Agenten |
2. Mai 2024 | Wildchat: 1m Chatgpt -Interaktionsprotokolle in freier Wildbahn | Chatbots wie GPT-4 und Chatgpt bedienen jetzt Millionen von Benutzern. Trotz ihrer weit verbreiteten Verwendung bleibt ein Mangel an öffentlichen Datensätzen, die zeigen, wie diese Tools von einer Population von Benutzern in der Praxis verwendet werden. Um diese Lücke zu schließen, haben wir ChatGPT für Online-Benutzer im Austausch für ihre positive, einvernehmliche Option anonym für ihre Chat-Transkripte und Anforderungsüberschriften angeboten. Aus diesem Grund haben wir Wildchat, einen Korpus von 1 Million Benutzer-Chatgpt-Gesprächen, zusammengestellt, die aus über 2,5 Millionen Interaktionswendungen besteht. Wir vergleichen Wildchat mit anderen beliebten Benutzer-Chatbot-Interaktionsdatensätzen und stellen fest, dass unser Datensatz die vielfältigsten Benutzeraufforderungen bietet, die größte Anzahl von Sprachen enthält und die reichhaltigste Vielfalt potenziell toxischer Anwendungen für Forscher vorstellt. Zusätzlich zu Zeitstempel -Chat -Transkripten bereichern wir den Datensatz mit demografischen Daten, einschließlich der IP -Adressen des Staates, des Landes und der Hashed, neben Anforderungskopfzeilen. Diese Augmentation ermöglicht eine detailliertere Analyse des Benutzerverhaltens in verschiedenen geografischen Regionen und zeitlichen Dimensionen. Da es eine breite Palette von Anwendungsfällen erfasst, demonstrieren wir schließlich den potenziellen Nutzen des Datensatzes bei den feinabstimmenden Anweisungsmodellen. Wildchat wird unter https://wildchat.allen.ai unter AI2 Impact Lizenzen1 veröffentlicht. | Benchmark, Bewertung |
2. Mai 2024 | StoryDiffusion: Konsequente Selbstbekämpfung für Fernbild- und Videogenerierung | Für jüngste diffusionsbasierte generative Modelle, die konsistente Inhalte in einer Reihe generierter Bilder aufrechterhalten, insbesondere solche, die Probanden und komplexe Details enthalten, ist eine bedeutende Herausforderung. In diesem Artikel schlagen wir eine neue Art der Berechnung der Selbstbekämpfung vor, die als konsistente Selbstbeziehung bezeichnet wird und die Konsistenz zwischen den erzeugten Bildern und Erweiterung der vorherrschenden, vorab diffusionsbasierten Text-zu-Image-Modelle auf null Schuss erheblich stärkt. Um unsere Methode auf die langfristige Videogenerierung auszudehnen, führen wir weiter ein neuartiges motivales Bewegungsvorhersagemodul für semantische Raum mit dem Namen Semantic Motion Predictor ein. Es ist geschult, um die Bewegungsbedingungen zwischen zwei bereitgestellten Bildern in den semantischen Räumen abzuschätzen. Dieses Modul wandelt die generierte Sequenz von Bildern in Videos mit reibungslosen Übergängen und konsistenten Probanden um, die signifikant stabiler sind als die Module, die nur auf latenten Räumen basieren, insbesondere im Kontext der langen Videogenerierung. Durch das Zusammenführen dieser beiden neuartigen Komponenten kann unser Framework, der als StoryDiffusion bezeichnet wird, eine textbasierte Geschichte mit konsistenten Bildern oder Videos beschreiben, die eine Reihe von Inhalten umfassen. Die vorgeschlagene StoryDiffusion umfasst wegweisende Erkundungen in der visuellen Geschichtenerzeugung mit der Präsentation von Bildern und Videos, von denen wir hoffen, dass sie mehr Forschung aus dem Aspekt der architektonischen Modifikationen inspirieren könnte. | Multimodale Modelle, Diffusion |
2. Mai 2024 | Flamme: Tatsache-bewusstes Ausrichtung für Großsprachenmodelle | Die Ausrichtung ist ein Standardverfahren zur Feinabstimmung vor ausgebildeten Großsprachenmodellen (LLMs), um natürliche Sprachanweisungen zu befolgen und als hilfreiche AI-Assistenten zu dienen. Wir haben jedoch beobachtet, dass der konventionelle Ausrichtungsprozess die sachliche Genauigkeit von LLMs nicht verbessert und häufig zur Erzeugung von mehr falschen Tatsachen (dh Halluzination) führt. In diesem Artikel untersuchen wir, wie der LLM-Ausrichtungsprozess sachlicher wird, indem wir zunächst Faktoren identifizieren, die in beiden Ausrichtungsschritten zu einer Halluzination führen: Überwachung der Feinabstimmung (SFT) und Verstärkungslernen (RL). Insbesondere finden wir, dass die Ausbildung des LLM über neue Wissen oder unbekannte Texte eine Halluzination fördern kann. Dies macht SFT weniger sachlich, da es auf menschliche markierte Daten trainiert, die für die LLM neu sein können. Darüber hinaus können Belohnungsfunktionen, die in Standard -RL verwendet werden, auch die Halluzination fördern, da sie die LLM dazu leitet, hilfreiche Antworten auf verschiedene Anweisungen zu liefern, die häufig längere und detailliertere Antworten bevorzugen. Basierend auf diesen Beobachtungen schlagen wir eine sachlichbewusste Ausrichtung (Flame) vor, die sich aus sachlichbewussten SFT und sachlichbewussten RL durch direkte Präferenzoptimierung zusammensetzt. Experimente zeigen, dass unsere vorgeschlagenen sachlichbewussten Ausrichtungsanlagen LLMs leitet | Ausrichtung, Tatsache |
2. Mai 2024 | Nemo-Aligner: Skalierbares Toolkit für eine effiziente Modellausrichtung | Das Ausrichten von großsprachigen Modellen (LLMs) mit menschlichen Werten und Vorlieben ist für hilfreich und sicher. Das Erstellen effizienter Tools zur Durchführung von Ausrichtung kann jedoch eine Herausforderung sein, insbesondere für die größten und kompetentesten LLMs, die häufig Zehn oder Hunderte von Milliarden Parametern enthalten. Wir erstellen Nemo-Aligner, ein Toolkit für die Modellausrichtung, das die Verwendung von Hunderten von GPUs für das Training effizient skalieren kann. Nemo-Aligner verfügt über hoch optimierte und skalierbare Implementierungen für wichtige Paradigmen der Modellausrichtung wie: Verstärkungslernen aus menschlichem Feedback (RLHF), Direktpräferenzoptimierung (DPO), Steerlm und Selbsteinstellung (Self-Fine-Tuning) (Spin). Darüber hinaus unterstützt unser Toolkit die meisten Ausrichtungstechniken in einer Parameter-effizienten Fine-Tuning-Einstellung (PEFT). Nemo-Aligner ist für die Erweiterbarkeit ausgelegt, die die Unterstützung anderer Ausrichtungstechniken mit minimaler Aufwand ermöglicht. Es ist offen mit Apache 2.0-Lizenz und wir laden Community-Beiträge unter https://github.com/nvidia/nemo-aligner ein. | Ausrichtung, Toolkit |
1. Mai 2024 | Ist eine größere Batch -Größe immer besser? - Eine empirische Studie zur Modellbearbeitung mit Lama-3 | In dieser Studie wird eine gezielte Modellbearbeitungsanalyse vorgestellt, die sich auf das neueste große Sprachmodell Lama-3 konzentriert. Wir untersuchen die Wirksamkeit der populären Modellbearbeitungstechniken - Rom, Memit und Emmet, die für präzise Ebeneninterventionen ausgelegt sind. Wir identifizieren die effektivsten Schichten für gezielte Änderungen durch eine Bewertung, die bis zu 4096 Änderungen in drei unterschiedlichen Strategien umfasst: sequentielle Bearbeitung, Stapelbearbeitung und einen hybriden Ansatz, den wir als sequentielle Bearbeitung bezeichnen. Unsere Ergebnisse zeigen, dass eine zunehmende Batch-Größe der Bearbeitungsgrößen die Modellleistung erheblicher abbauen kann als die Verwendung kleinerer Bearbeitungsstapel nacheinander für die gleiche Anzahl von Änderungen. Damit argumentieren wir, dass sequentielle Modellbearbeitung eine wichtige Komponente für die Skalierungsmodellbearbeitungsmethoden ist, und zukünftige Forschungen sollten sich auf Methoden konzentrieren, die sowohl batchierte als auch sequentielle Bearbeitung kombinieren. Diese Beobachtung deutet auf eine potenzielle Einschränkung der aktuellen Modellbearbeitungsmethoden hin, die sich auf größere Batch -Größen in die Bearbeitungsgrenze vorantreiben, und wir hoffen, dass es für zukünftige Untersuchungen zur Optimierung der Stapelgrößen und der Modellbearbeitungsleistung möglich ist. | Modellbearbeitung |
1. Mai 2024 | Lora Land: 310 Feinabstimmungs-LLMs, die mit GPT-4 mit dem technischen Bericht mithalten | Die Anpassung von niedrigem Rang (LORA) hat sich als eine der am häufigsten angenommenen Methoden zur effizienten Parameter-Feinabstimmung (PEFT) großer Sprachmodelle (LLMs) herausgestellt. Lora reduziert die Anzahl der trainierbaren Parameter und Speicherverbrauch und erzielt gleichzeitig eine vergleichbare Leistung für die volle Feinabstimmung. Wir wollen die Lebensfähigkeit des Trainings und der ServierlM-Feinung mit LORA in realen Anwendungen bewerten. Zunächst messen wir die Qualität von LLMs, die mit quantisierten Niedrigrangadaptern in 10 Basismodellen und 31 Aufgaben für insgesamt 310 Modelle abgestimmt sind. Wir finden, dass 4-Bit-Lora-fein abgestimmte Modelle Basismodelle durchschnittlich 34 Punkte und GPT-4 um 10 Punkte übertreffen. Zweitens untersuchen wir die effektivsten Basismodelle für die Feinabstimmung und bewerten die korrelativen und prädiktiven Kapazitäten der Heuristik der Aufgabenkomplexität bei der Vorhersage der Ergebnisse der Feinabstimmung. Schließlich bewerten wir die Latenz- und Parallelitätsfunktionen von Lorax, einem Open-Source-Multi-Lora-Inferenzserver, der die Bereitstellung mehrerer LORA-feinstimmbeiniger Modelle auf einer einzelnen GPU unter Verwendung gemeinsamer Basismodellgewichte und dynamischer Adapterlast erleichtert. Lorax Powers Lora Land, eine Webanwendung, in der 25 Lora Fineed Mistral-7b LLMs auf einer einzelnen NVIDIA A100 GPU mit 80-GB-Speicher gehostet werden. Lora Land unterstreicht die Qualität und Kostenwirksamkeit der Verwendung mehrerer spezialisierter LLMs gegenüber einem einzigen allgemeinen LLM. | Peft nähert sich, Feinabstimmung |
Nehmen Sie über 1000 Studenten an diesem 10-wöchigen Abenteuer teil, während wir uns mit der Anwendung von LLMs über verschiedene Anwendungsfälle informieren
? ️ *Woche 1 [15. Januar 2024] *: Praktische Einführung in LLMs
? ️ *Woche 2 [22. Januar 2024] *: Aufforderung und sofortige Engineering
? ️ *Woche 3 [29. Januar 2024] *: LLM Feinabstimmung
? ️ *Woche 4 [5. Februar 2024] *: RAG (Retrieval-Augmented-Generation)
? ️ *Woche 5 [12. Februar 2024] *: Tools zum Erstellen von LLM -Apps
? ️ *Woche 6 [19. Februar 2024] *: Bewertungstechniken
? ️ *Woche 7 [26. Februar 2024] *: Erstellen Ihrer eigenen LLM -Bewerbung
? ️ *Woche 8 [4. März 2024] *: Erweiterte Funktionen und Bereitstellung
? ️ *Woche 9 [11. März 2024] *: Herausforderungen mit LLMs
? ️ *Woche 10 [18. März 2024] *: aufkommende Forschungstrends
? ️ *Woche 11 *Bonus *[25. März 2024] *: Fundamente
Großsprachenmodelle von ETH Zürich
Großsprachmodelle von Princeton verstehen
Transformers -Kurs durch Umarmungen
NLP -Kurs durch Umarmungen
CS324 - Großsprachige Modelle von Stanford
Generative KI mit großen Sprachmodellen von Coursera
Einführung in die generative KI von Coursera
Generative KI -Grundlagen von Google Cloud
Einführung in große Sprachmodelle von Google Cloud
Einführung in die generative KI von Google Cloud
Generative AI -Konzepte von DataCamp (Daniel Tedesco Data leitet @ google)
1 Stunde Einführung in LLM (große Sprachmodelle) von WecloudData
LLM Foundation -Modelle von Grund auf | Primer von Databricks
Generative KI durch Nvidia erklärt
Transformatormodelle und Bert -Modell von Google Cloud
Generatives KI -Lernplan für Entscheidungsträger von AWS
Einführung in die verantwortliche KI von Google Cloud
Grundlagen der generativen KI von Microsoft Azure
Generative KI für Anfänger von Microsoft
CHATGPT für Anfänger: Die ultimativen Anwendungsfälle für alle von Udemy
[1 Std -Talk] Intro in große Sprachmodelle von Andrej Karpathy
Chatgpt für alle durch Lernen, um Aufforderung zu lernen
Großsprachige Modelle (LLMs) (auf Englisch) von Kshitiz Verma (JK Lakshmipat University, Jaipur, Indien)
LLMOPS: Aufbau realer Anwendungen mit großsprachigen Modellen nach Udacity
Full Stack LLM Bootcamp von FSDL
Generative KI für Anfänger von Microsoft
Großsprachige Modelle: Anwendung durch Produktion durch Datenbanken
Generative AI -Fundamente von AWS
Einführung in den generativen KI -Community -Kurs von Ineuron
LLM University von Cohere
LLM Lernlabor durch Lightning AI
Langchain für die LLM -Anwendungsentwicklung durch DeepLearning.ai
Llmops von Deeplearning.ai
Automatisierte Tests für LLMOPs von DeepLearning.ai
Erstellen generativer KI -Anwendungen mit Amazon -Grundgestein von AWS
Effizient diente llms von DeepLearning.ai
Bausysteme mit der Chatgpt -API von DeepLearning.ai
Serverlose LLM -Apps mit Amazon -Grundgestein von DeepLearning.ai
Bauen von Anwendungen mit Vektordatenbanken von DeepLearning.ai
Automatisierte Tests für LLMOPs von DeepLearning.ai
Llmops von Deeplearning.ai
Bauen Sie LLM -Apps mit Langchain.js von DeepLearning.ai auf.
Fortgeschrittene Abruf für KI mit Chroma durch DeepLearning.ai
Operationalisierung von LLMs auf Azure von Coursera
Generative AI Voller Kurs - Gemini Pro, Openai, Lama, Langchain, Tinecone, Vector -Datenbanken und mehr von freecodecamp.org
Trainings- und Feinabstimmungs-LLMs für die Produktion durch ActiveLoop
Langchain & Vector -Datenbanken in der Produktion durch ActiveLoop
Verstärkungslernen aus menschlichem Feedback von DeepLearning.ai
Bauen von Anwendungen mit Vektordatenbanken von DeepLearning.ai
Finetuning Großsprachenmodelle von DeepLearning.ai
Langchain: Chat mit Ihren Daten von DeepLearning.ai
Bausysteme mit der Chatgpt -API von DeepLearning.ai
Schnelltechnik mit Lama 2 von DeepLearning.ai
Bauen von Anwendungen mit Vektordatenbanken von DeepLearning.ai
Chatgpt prompt Engineering für Entwickler von DeepLearning.ai
Fortgeschrittene Rag Orchestration -Serie von Llamaindex
Schnelle technische Spezialisierung von Coursera
Ergeuchten Sie Ihre LLM mithilfe der Abrufer Generation durch NVIDIA
Wissensgrafiken für RAG von DeepLearning.ai
Open Source -Modelle mit Umarmung von Gesicht von DeepLearning.ai
Vektordatenbanken: Von Einbettungen zu Anwendungen von DeepLearning.ai.ai
Texteinbettungen durch DeepLearning.ai verstehen und anwenden
JavaScript Rag Web Apps mit llamaNdex von DeepLearning.ai.ai
Quantisierungsgrundlagen mit umarmtem Gesicht durch DeepLearning.ai
Vorverarbeitung unstrukturierte Daten für LLM -Anwendungen durch DeepLearning.ai
Wiederherstellung der Produktion für Produktion mit Langchain & Llamaindex von ActiveLoop
Quantisierung eingehend durch DeepLearning.ai
Wenn Sie das Repository hinzufügen oder Probleme finden möchten, können Sie bitte eine PR ansprechen und sicherstellen, dass die richtige Platzierung innerhalb des entsprechenden Abschnitts oder in der korrekten Kategorie vermittelt wird.
Verwenden Sie zum Zitieren dieses Handbuchs das folgende Format:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT -Lizenz]