Die generative KI erlebt ein rasantes Wachstum und dieses Repository dient als umfassende Drehscheibe für Updates zur generativen KI-Forschung, Interviewmaterialien, Notizbücher und mehr!
Entdecken Sie die folgenden Ressourcen:
Wir werden dieses Repository regelmäßig aktualisieren. Halten Sie also Ausschau nach den neuesten Ergänzungen!
Viel Spaß beim Lernen!
*Aktualisiert am Ende jedes Monats
Datum | Titel | Abstrakt |
---|---|---|
30. September 2024 | MM1.5: Methoden, Analysen und Erkenntnisse aus der multimodalen LLM-Feinabstimmung | Wir präsentieren MM1.5, eine neue Familie multimodaler großer Sprachmodelle (MLLMs), die darauf ausgelegt sind, die Fähigkeiten zum Verständnis textreicher Bilder, zur visuellen Referenzierung und Erdung sowie zur Argumentation mit mehreren Bildern zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining und untersucht systematisch die Auswirkungen verschiedener Datenmischungen über den gesamten Modelltrainingslebenszyklus. Dazu gehören hochwertige OCR-Daten und synthetische Untertitel für das kontinuierliche Vortraining sowie eine optimierte Mischung aus visuellen Anweisungen und Optimierungsdaten für die überwachte Feinabstimmung. Unsere Modelle reichen von 1B bis 30B Parametern und umfassen sowohl dichte als auch Expertenmix-Varianten (MoE) und zeigen, dass eine sorgfältige Datenkuration und Trainingsstrategien selbst in kleinen Maßstäben (1B und 3B) zu einer starken Leistung führen können. Darüber hinaus stellen wir zwei spezielle Varianten vor: MM1.5-Video, das für das Verständnis von Videos entwickelt wurde, und MM1.5-UI, das für das Verständnis der mobilen Benutzeroberfläche zugeschnitten ist. Durch umfangreiche empirische Studien und Ablationen liefern wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungen, die unsere endgültigen Entwürfe beeinflussen, und bieten wertvolle Leitlinien für zukünftige Forschung in der MLLM-Entwicklung. |
26. September 2024 | MIO: Ein Basismodell für multimodale Token | In diesem Artikel stellen wir MIO vor, ein neuartiges Basismodell, das auf multimodalen Token basiert und in der Lage ist, Sprache, Text, Bilder und Videos durchgängig und autoregressiv zu verstehen und zu generieren. Während das Aufkommen großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MM-LLMs) aufgrund ihrer vielseitigen Fähigkeiten Fortschritte in der künstlichen allgemeinen Intelligenz vorantreibt, mangelt es ihnen immer noch an einem echten Any-to-Any-Verständnis und einer echten Any-to-Any-Generierung. Kürzlich hat die Veröffentlichung von GPT-4o das bemerkenswerte Potenzial von Any-to-Any-LLMs für komplexe reale Aufgaben gezeigt, die eine omnidirektionale Eingabe und Ausgabe über Bilder, Sprache und Text hinweg ermöglichen. Allerdings ist es eine Closed-Source-Lösung und unterstützt nicht die Generierung multimodaler verschachtelter Sequenzen. Um diese Lücke zu schließen, stellen wir MIO vor, das mithilfe einer kausalen multimodalen Modellierung auf einer Mischung diskreter Token über vier Modalitäten hinweg trainiert wird. MIO durchläuft einen vierstufigen Trainingsprozess: (1) Ausrichtungs-Vortraining, (2) verschachteltes Vortraining, (3) sprachverstärktes Vortraining und (4) umfassende überwachte Feinabstimmung verschiedener textlicher, visueller, und Sprachaufgaben. Unsere experimentellen Ergebnisse zeigen, dass MIO im Vergleich zu früheren dualmodalen Basislinien, Any-to-Any-Modellbasislinien und sogar modalitätsspezifischen Basislinien eine wettbewerbsfähige und in einigen Fällen überlegene Leistung aufweist. Darüber hinaus demonstriert MIO die erweiterten Fähigkeiten, die seiner Any-to-Any-Funktion innewohnen, wie z. B. verschachtelte Videotextgenerierung, visuelle Gedankenkette, Generierung visueller Richtlinien, instruktive Bildbearbeitung usw. |
26. September 2024 | MaskLLM: Lernbare halbstrukturierte Sparsity für große Sprachmodelle | Große Sprachmodelle (LLMs) zeichnen sich durch ihre enorme Parameteranzahl aus, die typischerweise zu erheblicher Redundanz führt. In dieser Arbeit wird MaskLLM vorgestellt, eine lernbare Bereinigungsmethode, die eine halbstrukturierte (oder „N:M“) Sparsity in LLMs etabliert, mit dem Ziel, den Rechenaufwand während der Inferenz zu reduzieren. Anstatt ein neues Wichtigkeitskriterium zu entwickeln, modelliert MaskLLM N:M-Muster explizit als lernbare Verteilung durch Gumbel-Softmax-Stichproben. Dieser Ansatz erleichtert das End-to-End-Training für große Datensätze und bietet zwei bemerkenswerte Vorteile: 1) Hochwertige Masken – unsere Methode lässt sich effektiv auf große Datensätze skalieren und lernt genaue Masken; 2) Übertragbarkeit – die probabilistische Modellierung der Maskenverteilung ermöglicht das Transferlernen von Sparsity über Domänen oder Aufgaben hinweg. Wir haben MaskLLM mithilfe einer Sparsity von 2:4 auf verschiedenen LLMs, einschließlich LLaMA-2, Nemotron-4 und GPT-3, mit Größen zwischen 843M und 15B Parametern bewertet, und unsere empirischen Ergebnisse zeigen erhebliche Verbesserungen gegenüber dem Stand der Technik Methoden. Beispielsweise erreichen führende Ansätze auf Wikitext eine Perplexität (PPL) von 10 oder mehr im Vergleich zum dichten Modell mit 5,12 PPL, MaskLLM erreicht jedoch einen deutlich niedrigeren PPL von 6,72 allein durch das Erlernen der Masken mit eingefrorenen Gewichten. Darüber hinaus ermöglicht die Lernfähigkeit von MaskLLM benutzerdefinierte Masken für die verlustfreie Anwendung von 2:4-Sparsity auf nachgelagerte Aufgaben oder Domänen. Der Code ist unter url{https://github.com/NVlabs/MaskLLM} verfügbar. |
25. September 2024 | Molmo und PixMo: Offene Gewichte und offene Daten für hochmoderne multimodale Modelle | Die fortschrittlichsten multimodalen Modelle von heute bleiben proprietär. Die stärksten Modelle mit offenem Gewicht stützen sich stark auf synthetische Daten von proprietären VLMs, um eine gute Leistung zu erzielen, indem sie diese geschlossenen Modelle effektiv in offene Modelle destillieren. Daher mangelt es der Community immer noch an grundlegendem Wissen darüber, wie man leistungsstarke VLMs von Grund auf erstellt. Wir präsentieren Molmo, eine neue Familie von VLMs, die in ihrer Offenheitsklasse auf dem neuesten Stand sind. Unsere wichtigste Innovation ist ein neuartiger, hochdetaillierter Bildunterschriftsdatensatz, der vollständig von menschlichen Annotatoren mithilfe sprachbasierter Beschreibungen gesammelt wurde. Um ein breites Spektrum an Benutzerinteraktionen zu ermöglichen, führen wir zur Feinabstimmung auch eine vielfältige Datensatzmischung ein, die Fragen und Antworten in der Wildnis und innovative 2D-Zeigedaten umfasst. Der Erfolg unseres Ansatzes hängt von einer sorgfältigen Auswahl der Details der Modellarchitektur, einer gut abgestimmten Trainingspipeline und, was am wichtigsten ist, der Qualität unserer neu gesammelten Datensätze ab, die alle veröffentlicht werden. Das klassenbeste 72B-Modell innerhalb der Molmo-Familie übertrifft nicht nur andere in der Klasse der offenen Gewichts- und Datenmodelle, sondern schneidet auch im Vergleich zu proprietären Systemen wie GPT-4o, Claude 3.5 und Gemini 1.5 sowohl bei akademischen Benchmarks als auch bei der menschlichen Bewertung gut ab . Wir werden in naher Zukunft alle unsere Modellgewichtungen, Beschriftungs- und Feinabstimmungsdaten sowie den Quellcode veröffentlichen. Ausgewählte Modellgewichte, Inferenzcode und Demo sind unter https://molmo.allenai.org verfügbar. |
25. September 2024 | VPTQ: Extreme Low-Bit-Vektor-Post-Training-Quantisierung für große Sprachmodelle | Die Skalierung der Modellgröße stellt die Bereitstellung und Inferenz von Large Language Models (LLMs) erheblich vor große Herausforderungen. Aufgrund der Redundanz der LLM-Gewichte hat sich die jüngste Forschung darauf konzentriert, die reine Gewichtungsquantisierung auf extrem niedrige Bits (sogar bis zu 2 Bits) zu verschieben. Es reduziert den Speicherbedarf, optimiert die Speicherkosten und verringert den Bedarf an Speicherbandbreite während der Inferenz. Aufgrund der numerischen Darstellungsbeschränkungen hat die herkömmliche skalarbasierte Gewichtsquantisierung jedoch Schwierigkeiten, solch extreme Low-Bit-Werte zu erreichen. Aktuelle Forschungen zur Vektorquantisierung (VQ) für LLMs haben das Potenzial für eine Modellquantisierung mit extrem niedrigen Bitraten gezeigt, indem Vektoren mithilfe von Nachschlagetabellen in Indizes komprimiert werden. In diesem Artikel stellen wir die Vector Post-Training Quantization (VPTQ) für die Quantisierung von LLMs mit extrem niedrigen Bitraten vor. Wir verwenden Optimierung zweiter Ordnung, um das LLM-VQ-Problem zu formulieren und leiten unseren Quantisierungsalgorithmusentwurf durch Lösung der Optimierung. Wir verfeinern die Gewichte weiter mithilfe der kanalunabhängigen Optimierung zweiter Ordnung für einen granularen VQ. Darüber hinaus schlagen wir durch Zerlegung des Optimierungsproblems einen kurzen und effektiven Codebuch-Initialisierungsalgorithmus vor. Wir erweitern VPTQ auch, um die Rest- und Ausreißerquantisierung zu unterstützen, was die Modellgenauigkeit erhöht und das Modell weiter komprimiert. Unsere experimentellen Ergebnisse zeigen, dass VPTQ die Ratlosigkeit der Modellquantisierung um reduziert |
24. September 2024 | Time-MoE: Zeitreihen-Grundlagenmodelle im Milliardenmaßstab mit Expertenmix | Deep Learning für die Zeitreihenvorhersage hat in den letzten Jahrzehnten erhebliche Fortschritte gemacht. Doch trotz des Erfolgs des groß angelegten Vortrainings in den Bereichen Sprache und Sehen sind vorab trainierte Zeitreihenmodelle nach wie vor in ihrer Größe begrenzt und mit hohen Kosten verbunden, was die Entwicklung größerer, leistungsfähigerer Prognosemodelle in realen Anwendungen behindert. Als Reaktion darauf führen wir Time-MoE ein, eine skalierbare und einheitliche Architektur, die darauf ausgelegt ist, größere, leistungsfähigere Prognosegrundlagenmodelle vorab zu trainieren und gleichzeitig die Inferenzkosten zu senken. Durch die Nutzung eines Sparse-Mixed-of-Experts-Designs (MoE) steigert Time-MoE die Recheneffizienz, indem für jede Vorhersage nur eine Teilmenge von Netzwerken aktiviert wird, wodurch die Rechenlast reduziert und gleichzeitig eine hohe Modellkapazität aufrechterhalten wird. Dadurch kann Time-MoE effektiv skaliert werden, ohne dass die Inferenzkosten entsprechend steigen. Time-MoE umfasst eine Familie von reinen Decoder-Transformatormodellen, die autoregressiv arbeiten und flexible Prognosehorizonte mit unterschiedlichen Eingabekontextlängen unterstützen. Wir haben diese Modelle auf unserem neu eingeführten Großdatenmodell Time-300B vorab trainiert, das sich über 9 Domänen erstreckt und über 300 Milliarden Zeitpunkte umfasst. Zum ersten Mal haben wir ein Zeitreihen-Basismodell auf bis zu 2,4 Milliarden Parameter skaliert und so eine deutlich verbesserte Prognosegenauigkeit erreicht. Unsere Ergebnisse bestätigen die Anwendbarkeit von Skalierungsgesetzen für Trainingstoken und Modellgröße im Kontext der Zeitreihenvorhersage. Im Vergleich zu dichten Modellen mit der gleichen Anzahl aktivierter Parameter oder äquivalenten Rechenbudgets übertreffen unsere Modelle diese durchweg deutlich. Diese Fortschritte positionieren Time-MoE als hochmoderne Lösung zur Bewältigung realer Herausforderungen bei der Zeitreihenvorhersage mit überlegener Leistungsfähigkeit, Effizienz und Flexibilität. |
23. September 2024 | Eine vorläufige Studie zu o1 in der Medizin: Sind wir einem KI-Arzt näher? | Große Sprachmodelle (LLMs) haben in verschiedenen Bereichen und Aufgaben bemerkenswerte Fähigkeiten gezeigt und die Grenzen unseres Wissens im Bereich Lernen und Kognition erweitert. Das neueste Modell, o1 von OpenAI, ist das erste LLM mit einer internalisierten Gedankenkettentechnik unter Verwendung von Strategien des verstärkenden Lernens. Während es bei verschiedenen allgemeinen Sprachaufgaben überraschend starke Fähigkeiten gezeigt hat, bleibt seine Leistung in Spezialgebieten wie der Medizin unbekannt. Zu diesem Zweck bietet dieser Bericht eine umfassende Untersuchung von o1 in verschiedenen medizinischen Szenarien und untersucht drei Schlüsselaspekte: Verständnis, Argumentation und Mehrsprachigkeit. Konkret umfasst unsere Auswertung 6 Aufgaben unter Verwendung von Daten aus 37 medizinischen Datensätzen, darunter zwei neu erstellte und anspruchsvollere Frage-Antwort-Aufgaben (QA), die auf professionellen medizinischen Quizfragen des New England Journal of Medicine (NEJM) und von The Lancet basieren. Diese Datensätze bieten im Vergleich zu standardmäßigen medizinischen QA-Benchmarks wie MedQA eine größere klinische Relevanz und lassen sich effektiver in die Praxis umsetzen. Unsere Analyse von o1 legt nahe, dass die verbesserte Denkfähigkeit von LLMs ihre Fähigkeit, verschiedene medizinische Anweisungen zu verstehen und in komplexen klinischen Szenarien zu argumentieren, (erheblich) verbessern kann. Bemerkenswert ist, dass o1 das vorherige GPT-4 hinsichtlich der Genauigkeit um durchschnittlich 6,2 % und 6,6 % über 19 Datensätze und zwei neu erstellte komplexe QS-Szenarien übertrifft. Mittlerweile identifizieren wir jedoch mehrere Schwachstellen sowohl in der Modellfähigkeit als auch in den bestehenden Bewertungsprotokollen, darunter Halluzinationen, inkonsistente Mehrsprachigkeitsfähigkeiten und abweichende Bewertungsmetriken. Wir veröffentlichen unsere Rohdaten und Modellergebnisse unter https://ucsc-vlaa.github.io/o1_medicine/ für zukünftige Forschung. |
21. September 2024 | Befehlsfolge ohne Befehlsabstimmung | Unter Befehlsoptimierung versteht man im Allgemeinen die Feinabstimmung eines Sprachmodells anhand von Befehls-Antwort-Paaren. Wir entdecken zwei Formen der Anpassung (Tuning), die im Vergleich zur Instruktionsoptimierung mangelhaft sind, aber dennoch zu einer Instruktionsbefolgung führen; Wir nennen dies implizite Befehlsoptimierung. Wir stellen zunächst fest, dass Anweisungs-Antwort-Paare nicht notwendig sind: Das Training ausschließlich auf Antworten ohne entsprechende Anweisungen führt zu einer Anweisungsbefolgung. Dies deutet darauf hin, dass vorab trainierte Modelle über eine Anweisungs-Antwort-Zuordnung verfügen, die dadurch sichtbar wird, dass dem Modell die gewünschte Verteilung der Antworten beigebracht wird. Dann stellen wir jedoch fest, dass es nicht notwendig ist, die gewünschte Verteilung der Antworten zu lehren: Das Training von Anweisungen und Antworten auf eng gefassten Daten wie Gedichten führt immer noch zu einem breiten Verhalten bei der Befolgung von Anweisungen wie der Generierung von Rezepten. Insbesondere wenn sich die Anweisungen stark von denen im engen Feinabstimmungsbereich unterscheiden, entsprechen die Antworten der Modelle nicht dem Stil des Feinabstimmungsbereichs. Um mit der Erklärung der impliziten Befehlsoptimierung zu beginnen, gehen wir davon aus, dass sehr einfache Änderungen an der Verteilung eines Sprachmodells zu einer Befehlsfolge führen. Wir unterstützen dies, indem wir ein regelbasiertes Sprachmodell handschriftlich verfassen, das die Befolgung von Anweisungen in einem Produkt von Experten mit einem vorab trainierten Modell ermöglicht. Die Regeln bestehen darin, die Wahrscheinlichkeit, die Sequenz zu beenden, langsam zu erhöhen, Wiederholungen zu bestrafen und die Wahrscheinlichkeiten von 15 Wörtern gleichmäßig zu ändern. Zusammenfassend lässt sich sagen, dass Anpassungen, die vorgenommen werden, ohne darauf ausgelegt zu sein, Anweisungen zu befolgen, dies implizit tun können. |
20. September 2024 | Stellen Sie sich vor: Tuning-freie personalisierte Bildgenerierung | Diffusionsmodelle haben bei verschiedenen Bild-zu-Bild-Aufgaben eine bemerkenswerte Wirksamkeit gezeigt. In dieser Forschung stellen wir Imagine yourself vor, ein hochmodernes Modell zur personalisierten Bilderzeugung. Im Gegensatz zu herkömmlichen, auf Optimierungen basierenden Personalisierungstechniken arbeitet Imagine Yourself als optimierungsfreies Modell, das es allen Benutzern ermöglicht, ein gemeinsames Framework ohne individuelle Anpassungen zu nutzen. Darüber hinaus standen frühere Arbeiten vor der Herausforderung, die Wahrung der Identität, die Befolgung komplexer Eingabeaufforderungen und die Wahrung einer guten visuellen Qualität in Einklang zu bringen, was zu Modellen mit einem starken Kopier- und Einfügeeffekt der Referenzbilder führte. Daher ist es kaum möglich, Bilder nach Aufforderungen zu erzeugen, die erhebliche Änderungen am Referenzbild erfordern, z. B. Änderungen des Gesichtsausdrucks, der Kopf- und Körperhaltung, und die Vielfalt der generierten Bilder ist gering. Um diese Einschränkungen zu beseitigen, führt unsere vorgeschlagene Methode 1) einen neuen Mechanismus zur Generierung synthetischer gepaarter Daten ein, um die Bildvielfalt zu fördern, 2) eine vollständig parallele Aufmerksamkeitsarchitektur mit drei Text-Encodern und einem vollständig trainierbaren Vision-Encoder zur Verbesserung der Texttreue und 3) a Neuartige mehrstufige Feinabstimmungsmethode von grob nach fein, die die Grenzen der visuellen Qualität schrittweise verschiebt. Unsere Studie zeigt, dass Imagine yourself das hochmoderne Personalisierungsmodell übertrifft und überlegene Fähigkeiten bei der Wahrung der Identität, der visuellen Qualität und der Textausrichtung aufweist. Dieses Modell bildet eine solide Grundlage für verschiedene Personalisierungsanwendungen. Die Ergebnisse der menschlichen Bewertung bestätigen die SOTA-Überlegenheit des Modells in allen Aspekten (Bewahrung der Identität, Texttreue und visuelle Attraktivität) im Vergleich zu den vorherigen Personalisierungsmodellen. |
19. September 2024 | Sprachmodelle zur Selbstkorrektur durch Reinforcement Learning trainieren | Selbstkorrektur ist eine höchst wünschenswerte Fähigkeit großer Sprachmodelle (LLMs), doch hat sich gezeigt, dass sie in modernen LLMs weitgehend ineffektiv ist. Aktuelle Methoden zum Training der Selbstkorrektur basieren typischerweise entweder auf mehreren Modellen, einem fortgeschritteneren Modell oder zusätzlichen Formen der Supervision. Um diese Mängel zu beheben, entwickeln wir einen mehrstufigen Online-Reinforcement-Learning-Ansatz (RL), SCoRe, der die Selbstkorrekturfähigkeit eines LLM mithilfe vollständig selbst generierter Daten erheblich verbessert. Um SCoRe zu erstellen, zeigen wir zunächst, dass Varianten der überwachten Feinabstimmung (SFT) auf offline modellgenerierten Korrekturspuren oft nicht ausreichen, um Selbstkorrekturverhalten zu vermitteln. Insbesondere beobachten wir, dass das Training über SFT entweder einer Verteilungsinkongruenz zwischen Fehlern der Datenerfassungsrichtlinie und den eigenen Antworten des Modells zum Opfer fällt oder einem Verhaltenskollaps unterliegt, bei dem das Lernen implizit nur eine bestimmte Art des Korrekturverhaltens bevorzugt, was häufig der Fall ist nicht wirksam bei der Selbstkorrektur von Testproblemen. SCoRe geht diese Herausforderungen an, indem es unter der modelleigenen Verteilung selbst generierter Korrekturspuren trainiert und eine geeignete Regularisierung verwendet, um den Lernprozess so zu steuern, dass ein Selbstkorrekturverhalten erlernt wird, das zum Testzeitpunkt wirksam ist, anstatt Antworten mit hoher Belohnung für eine gegebene Situation anzupassen prompt. Dieser Regularisierungsprozess umfasst eine Anfangsphase von Multi-Turn-RL auf einem Basismodell, um eine Richtlinieninitialisierung zu generieren, die weniger anfällig für einen Zusammenbruch ist, gefolgt von der Verwendung eines Belohnungsbonus zur Verstärkung der Selbstkorrektur. Wir stellen fest, dass SCoRe mit den Modellen Gemini 1.0 Pro und 1.5 Flash eine hochmoderne Selbstkorrekturleistung erreicht und die Selbstkorrektur der Basismodelle bei MATH und HumanEval um 15,6 % bzw. 9,1 % verbessert. |
19. September 2024 | Intelligente Skalierung: Beschleunigung des Vortrainings großer Sprachmodelle durch die Initialisierung kleiner Modelle | Die Vortrainingsphase von Sprachmodellen beginnt oft mit zufällig initialisierten Parametern. Angesichts der aktuellen Trends bei der Skalierung von Modellen kann das Training der großen Anzahl von Parametern äußerst langsam und kostspielig sein. Im Gegensatz dazu ist das Training kleiner Sprachmodelle zwar kostengünstiger, kann aber oft nicht die Genauigkeit großer Modelle erreichen. In diesem Artikel untersuchen wir eine faszinierende Idee zur Verbindung dieser beiden unterschiedlichen Regime: Können wir eine Methode entwickeln, um große Sprachmodelle mithilfe kleinerer vorab trainierter Modelle zu initialisieren? Bringt eine solche Initialisierung Vorteile hinsichtlich der Trainingszeit und der endgültigen Genauigkeit? In diesem Artikel stellen wir HyperCloning vor, eine Methode, die die Parameter eines vorab trainierten Sprachmodells auf die eines größeren Modells mit größeren verborgenen Dimensionen erweitern kann. Unsere Methode stellt sicher, dass das größere Modell die Funktionalität des kleineren Modells beibehält. Dadurch erbt das größere Modell bereits vor Trainingsbeginn die Vorhersagekraft und Genauigkeit des kleineren Modells. Wir zeigen, dass das Training eines solchen initialisierten Modells zu erheblichen Einsparungen in Bezug auf die GPU-Stunden führt, die für das Vortraining großer Sprachmodelle erforderlich sind. |
18. September 2024 | Technischer Bericht zum Qwen2.5-Coder | In diesem Bericht stellen wir die Qwen2.5-Coder-Serie vor, ein bedeutendes Upgrade gegenüber ihrem Vorgänger CodeQwen1.5. Diese Serie umfasst zwei Modelle: Qwen2.5-Coder-1.5B und Qwen2.5-Coder-7B. Als codespezifisches Modell basiert Qwen2.5-Coder auf der Qwen2.5-Architektur und wird weiterhin auf einem riesigen Korpus von über 5,5 Billionen Token vorab trainiert. Durch sorgfältige Datenbereinigung, skalierbare synthetische Datengenerierung und ausgewogene Datenmischung demonstriert Qwen2.5-Coder beeindruckende Fähigkeiten zur Codegenerierung bei gleichzeitiger Beibehaltung der allgemeinen Vielseitigkeit. Das Modell wurde für eine Vielzahl von codebezogenen Aufgaben evaluiert und erreichte in mehr als 10 Benchmarks, einschließlich Codegenerierung, -vervollständigung, -begründung und -reparatur, die Leistung auf dem neuesten Stand der Technik (SOTA) und übertraf damit durchweg größere Modelle des Modells gleiche Modellgröße. Wir glauben, dass die Veröffentlichung der Qwen2.5-Coder-Serie nicht nur die Grenzen der Forschung im Bereich Code-Intelligenz erweitern wird, sondern durch die freizügige Lizenzierung auch eine breitere Akzeptanz durch Entwickler in realen Anwendungen fördern wird. |
18. September 2024 | Eine kontrollierte Studie zur Erweiterung und Generalisierung langer Kontexte in LLMs | Umfassendes Textverständnis und kontextbezogenes Lernen erfordern Sprachmodelle, die vollständige Dokumentkontexte nutzen. Aufgrund der Implementierungsherausforderungen, die mit dem direkten Training von Modellen mit langem Kontext verbunden sind, wurden viele Methoden zur Erweiterung von Modellen für die Handhabung langer Kontexte vorgeschlagen. Aufgrund der Unterschiede in den Daten und Modellklassen war es jedoch schwierig, diese Ansätze zu vergleichen, was zu Unsicherheit darüber führte, wie die Leistung im Langzeitkontext zu bewerten ist und ob sie sich von der Standardbewertung unterscheidet. Wir implementieren ein kontrolliertes Protokoll für Erweiterungsmethoden mit einer standardisierten Bewertung unter Verwendung konsistenter Basismodelle und Erweiterungsdaten. Unsere Studie liefert mehrere Einblicke in das Verhalten im Langzeitkontext. Erstens bekräftigen wir die entscheidende Rolle der Ratlosigkeit als allgemeinem Leistungsindikator, selbst bei Aufgaben mit längerem Kontext. Zweitens stellen wir fest, dass aktuelle Methoden der ungefähren Aufmerksamkeit bei Aufgaben mit langem Kontext systematisch schlechter abschneiden. Abschließend bestätigen wir, dass auf exakter Feinabstimmung basierende Methoden im Allgemeinen innerhalb ihres Erweiterungsbereichs wirksam sind, wohingegen die Extrapolation weiterhin eine Herausforderung darstellt. Alle Codebasen, Modelle und Prüfpunkte werden Open Source zur Verfügung gestellt, was die Transparenz fördert und die weitere Forschung in diesem wichtigen Bereich der KI-Entwicklung erleichtert. |
18. September 2024 | LLMs + Persona-Plug = Personalisierte LLMs | Personalisierung spielt bei zahlreichen Sprachaufgaben und -anwendungen eine entscheidende Rolle, da Benutzer mit gleichen Anforderungen je nach ihren individuellen Interessen möglicherweise unterschiedliche Ausgaben bevorzugen. Dies hat zur Entwicklung verschiedener personalisierter Ansätze geführt, die darauf abzielen, große Sprachmodelle (LLMs) anzupassen, um maßgeschneiderte Ausgaben zu generieren, die an den Benutzerpräferenzen ausgerichtet sind. Einige davon beinhalten die Feinabstimmung eines einzigartigen, personalisierten LLM für jeden Benutzer, was für eine breite Anwendung zu teuer ist. Alternative Ansätze führen Personalisierungsinformationen im Plug-and-Play-Verfahren ein, indem sie relevante historische Texte des Benutzers als Demonstrationen abrufen. Diese auf Abruf basierende Strategie kann jedoch die Kontinuität des Benutzerverlaufs unterbrechen und die gesamten Stile und Muster des Benutzers nicht erfassen, was zu einer suboptimalen Leistung führt. Um diese Herausforderungen anzugehen, schlagen wir ein neuartiges personalisiertes LLM-Modell vor: ours{}. Es erstellt eine benutzerspezifische Einbettung für jede Person, indem alle ihre historischen Kontexte durch ein leichtgewichtiges Plug-in-Benutzereinbettungsmodul modelliert werden. Durch das Anhängen dieser Einbettung an die Aufgabeneingabe können LLMs die Gewohnheiten und Vorlieben der Benutzer besser verstehen und erfassen und so personalisiertere Ergebnisse erzeugen, ohne ihre eigenen Parameter anpassen zu müssen. Umfangreiche Experimente zu verschiedenen Aufgaben im LaMP-Benchmark (Language Model Personalization) zeigen, dass das vorgeschlagene Modell bestehende personalisierte LLM-Ansätze deutlich übertrifft. |
17. September 2024 | NVLM: Multimodale LLMs der Open Frontier-Klasse | Wir stellen NVLM 1.0 vor, eine Familie multimodaler Large-Language-Modelle (LLMs) der Grenzklasse, die modernste Ergebnisse bei Vision-Language-Aufgaben erzielen und mit den führenden proprietären Modellen (z. B. GPT-4o) und Open-Access konkurrieren Modelle (z. B. Llama 3-V 405B und InternVL 2). Bemerkenswerterweise zeigt NVLM 1.0 nach multimodalem Training eine verbesserte Nur-Text-Leistung gegenüber seinem LLM-Backbone. Im Hinblick auf das Modelldesign führen wir einen umfassenden Vergleich zwischen multimodalen LLMs nur mit Decoder (z. B. LLaVA) und auf Aufmerksamkeit basierenden Modellen (z. B. Flamingo) durch. Basierend auf den Stärken und Schwächen beider Ansätze schlagen wir eine neuartige Architektur vor, die sowohl die Trainingseffizienz als auch die Fähigkeiten zum multimodalen Denken verbessert. Darüber hinaus stellen wir ein 1-D-Kachel-Tagging-Design für kachelbasierte dynamische hochauflösende Bilder vor, das die Leistung bei multimodalen Argumentations- und OCR-bezogenen Aufgaben erheblich steigert. In Bezug auf Trainingsdaten kuratieren wir sorgfältig und stellen detaillierte Informationen zu unseren multimodalen Pretraining- und überwachten Feinabstimmungsdatensätzen bereit. Unsere Ergebnisse deuten darauf hin, dass die Qualität der Datensätze und die Aufgabenvielfalt über alle Architekturen hinweg wichtiger sind als die Skalierung, selbst während der Vortrainingsphase. Insbesondere entwickeln wir Multimodalität in Produktionsqualität für die NVLM-1.0-Modelle, die es ihnen ermöglichen, bei Vision-Language-Aufgaben hervorragende Leistungen zu erbringen und gleichzeitig die Nur-Text-Leistung im Vergleich zu ihren LLM-Backbones beizubehalten oder sogar zu verbessern. Um dies zu erreichen, erstellen und integrieren wir einen hochwertigen Nur-Text-Datensatz in das multimodale Training, zusammen mit einer beträchtlichen Menge multimodaler Mathematik- und Argumentationsdaten, was zu verbesserten Mathematik- und Codierungsfunktionen über alle Modalitäten hinweg führt. Um die Forschung auf diesem Gebiet voranzutreiben, veröffentlichen wir die Modellgewichte und werden den Code als Open Source für die Community bereitstellen: https://nvlm-project.github.io/. |
17. September 2024 | Promptriever: Durch Anweisungen geschulte Retriever können wie Sprachmodelle aufgefordert werden | Anweisungsoptimierte Sprachmodelle (LM) sind in der Lage, auf zwingende Befehle zu reagieren und bieten im Vergleich zu ihren Basisgegenstücken eine natürlichere Benutzeroberfläche. In dieser Arbeit stellen wir Promptriever vor, das erste Retrieval-Modell, das wie ein LM aufgefordert werden kann. Um Promptriever zu schulen, kuratieren und veröffentlichen wir ein neues Instruktionstrainingsset auf Instanzebene von MS MARCO, das fast 500.000 Instanzen umfasst. Promptriever erzielt nicht nur eine starke Leistung bei Standard-Abrufaufgaben, sondern befolgt auch Anweisungen. Wir beobachten: (1) große Gewinne (bis SoTA) bei der Befolgung detaillierter Relevanzanweisungen (+14,3 p-MRR / +3,1 nDCG bei FollowIR), (2) deutlich erhöhte Robustheit gegenüber lexikalischen Entscheidungen/Formulierungen in der Abfrage+Anweisung (+12,9). Robustheit@10 bei InstructIR) und (3) die Fähigkeit, Hyperparametersuche über Eingabeaufforderung durchzuführen, um die Abrufleistung zuverlässig zu verbessern (+1,4 durchschnittliche Steigerung bei BEIR). Promptriever demonstriert, dass Abrufmodelle mit Eingabeaufforderungen pro Abfrage gesteuert werden können, und schafft so die Voraussetzungen für zukünftige Arbeiten, bei denen LM-Eingabeaufforderungstechniken mit dem Informationsabruf in Einklang gebracht werden. |
17. September 2024 | Eine umfassende Bewertung quantisierter, anweisungsabgestimmter großer Sprachmodelle: Eine experimentelle Analyse bis 405B | Frühere Forschungsarbeiten haben quantisierte LLMs anhand begrenzter Metriken wie Ratlosigkeit oder einiger grundlegender Wissensaufgaben und alter Datensätze bewertet. Darüber hinaus wurden neuere Großmodelle wie Llama 3.1 mit bis zu 405B nicht gründlich untersucht. In diesem Artikel wird die Leistung von befehlsgesteuerten LLMs über verschiedene Quantisierungsmethoden (GPTQ, AWQ, SmoothQuant und FP8) an Modellen von 7B bis 405B bewertet. Anhand von 13 Benchmarks bewerten wir die Leistung bei sechs Aufgabentypen: Fragen und Antworten zum gesunden Menschenverstand, Wissen und Sprachverständnis, Befolgen von Anweisungen, Erkennung von Halluzinationen, Mathematik und Dialog. Unsere wichtigsten Ergebnisse zeigen, dass (1) die Quantisierung eines größeren LLM auf eine ähnliche Größe wie ein kleinerer FP16-LLM bei den meisten Benchmarks im Allgemeinen eine bessere Leistung erbringt, mit Ausnahme der Halluzinationserkennung und der Befolgung von Anweisungen; (2) Die Leistung variiert erheblich je nach Quantisierungsmethode, Modellgröße und Bitbreite, wobei reine Gewichtungsmethoden bei größeren Modellen häufig bessere Ergebnisse liefern. (3) Die Schwierigkeit der Aufgabe hat keinen wesentlichen Einfluss auf die Verschlechterung der Genauigkeit aufgrund der Quantisierung. und (4) die MT-Bench-Bewertungsmethode hat eine begrenzte Unterscheidungskraft unter den jüngsten leistungsstarken LLMs. |
16. September 2024 | RetrievalAchtung: Beschleunigung der LLM-Inferenz mit langem Kontext durch Vector Retrieval | Transformer-basierte Large Language Models (LLMs) haben zunehmend an Bedeutung gewonnen. Aufgrund der quadratischen Zeitkomplexität der Aufmerksamkeitsberechnung führt die Skalierung von LLMs auf längere Kontexte jedoch zu einer extrem langsamen Inferenzlatenz und einem hohen GPU-Speicherverbrauch für das Caching von Schlüsselwertvektoren (KV). In diesem Artikel wird RetrievalAttention vorgeschlagen, ein trainingsfreier Ansatz, um sowohl die Aufmerksamkeitsberechnung zu beschleunigen als auch den GPU-Speicherverbrauch zu reduzieren. Durch die Nutzung des dynamischen Sparsity-of-Attention-Mechanismus schlägt RetrievalAttention die Verwendung von ANNS-Indizes (Approximation Nearest Neighbor Search) für KV-Vektoren im CPU-Speicher vor und ruft die relevantesten mit der Vektorsuche während der Generierung ab. Leider stellen wir fest, dass die handelsüblichen ANNS-Indizes für solche Abrufaufgaben aufgrund der Out-of-Distribution (OOD) zwischen Abfragevektoren und Schlüsselvektoren im Aufmerksamkeitsmechanismus häufig unwirksam sind. RetrievalAttention geht die OOD-Herausforderung an, indem es einen aufmerksamkeitsbewussten Vektorsuchalgorithmus entwickelt, der sich an die Verteilung von Abfragevektoren anpassen kann. Unsere Auswertung zeigt, dass RetrievalAttention nur auf 1–3 % der Daten zugreifen muss und gleichzeitig eine hohe Modellgenauigkeit beibehält. Dies führt zu einer erheblichen Reduzierung der Inferenzkosten von LLMs mit langem Kontext und einem viel geringeren GPU-Speicherbedarf. Insbesondere benötigt RetrievalAttention nur eine einzige NVIDIA RTX4090 (24 GB) für die Bereitstellung von 128.000 Token in LLMs mit 8B-Parametern, wodurch ein Token in 0,188 Sekunden generiert werden kann. |
16. September 2024 | Kolmogorov-Arnold-Transformator | Transformer gelten als Eckpfeiler des modernen Deep Learning. Traditionell basieren diese Modelle auf mehrschichtigen Perzeptronschichten (MLP), um die Informationen zwischen den Kanälen zu mischen. In diesem Artikel stellen wir den Kolmogorov-Arnold-Transformer (KAT) vor, eine neuartige Architektur, die MLP-Schichten durch Schichten des Kolmogorov-Arnold-Netzwerks (KAN) ersetzt, um die Ausdruckskraft und Leistung des Modells zu verbessern. Die Integration von KANs in Transformatoren ist jedoch keine leichte Aufgabe, insbesondere im größeren Maßstab. Konkret identifizieren wir drei zentrale Herausforderungen: (C1) Basisfunktion. Die in KANs verwendete Standard-B-Spline-Funktion ist nicht für paralleles Rechnen auf moderner Hardware optimiert, was zu langsameren Inferenzgeschwindigkeiten führt. (C2) Parameter- und Berechnungsineffizienz. KAN erfordert eine eindeutige Funktion für jedes Eingabe-Ausgabe-Paar, wodurch der Rechenaufwand extrem groß wird. (C3) Gewichtsinitialisierung. Die Initialisierung von Gewichten in KANs ist aufgrund ihrer lernbaren Aktivierungsfunktionen, die für das Erreichen der Konvergenz in tiefen neuronalen Netzen von entscheidender Bedeutung sind, eine besondere Herausforderung. Um die oben genannten Herausforderungen zu bewältigen, schlagen wir drei Schlüssellösungen vor: (S1) Rationale Basis. Wir ersetzen B-Spline-Funktionen durch rationale Funktionen, um die Kompatibilität mit modernen GPUs zu verbessern. Durch die Implementierung in CUDA erreichen wir schnellere Berechnungen. (S2) Gruppe KAN. Wir teilen die Aktivierungsgewichte über eine Gruppe von Neuronen, um die Rechenlast zu reduzieren, ohne die Leistung zu beeinträchtigen. (S3) Varianzerhaltende Initialisierung. Wir initialisieren die Aktivierungsgewichte sorgfältig, um sicherzustellen, dass die Aktivierungsvarianz über die Schichten aufrechterhalten wird. Mit diesen Entwürfen übertreibt KAT effektiv und leicht herkömmliche MLP-basierte Transformatoren. |
16. September 2024 | Auf das Diagramm des Denkens | Wir führen das Diagramm von Denk (DOT) ein, ein Rahmen, das iteratives Denken in Großsprachenmodellen (LLMs) als Konstruktion eines gerichteten acyclischen Graphen (DAG) innerhalb eines einzelnen Modells modelliert. Im Gegensatz zu herkömmlichen Ansätzen, die Argumentation als lineare Ketten oder Bäume darstellen, organisiert DOT Sätze, Kritiken, Verfeinerungen und Überprüfungen in eine kohärente DAG -Struktur, sodass das Modell komplexe Argumentationswege erforschen und gleichzeitig die logische Konsistenz beibehalten können. Jeder Knoten im Diagramm entspricht einem Vorschlag, der vorgeschlagen, kritisiert, verfeinert oder verifiziert wurde, damit das LLM seine Argumentation durch natürliche Sprachfeedback iterativ verbessern kann. Durch die Nutzung einer automatisch-egressiven Next-Token-Vorhersage mit rollenspezifischen Token erleichtert DOT nahtlose Übergänge zwischen Vorschlägen von Ideen und kritisch bewertet, wodurch ein reichhaltigeres Feedback als binäre Signale liefert. Darüber hinaus formalisieren wir das DOT -Framework mithilfe der Topos -Theorie und bieten eine mathematische Grundlage, die logische Konsistenz und Klangsheit im Argumentationsprozess gewährleistet. Dieser Ansatz verbessert sowohl die Trainings- als auch die Inferenzprozesse innerhalb eines einzelnen LLM und beseitigt die Notwendigkeit mehrerer Modelle oder externer Kontrollmechanismen. DOT bietet einen konzeptionellen Rahmen für die Gestaltung von Argumentationsmodellen der nächsten Generation, wobei die Schulungseffizienz, robuste Argumentationsfunktionen und theoretische Erdung hervorgehoben werden. Der Code ist unter https://github.com/diagramof-thought/diagram-of-hought verfügbar. |
12. September 2024 | DSBench: Wie weit sind Data Science Agents auf Datenwissenschaftsexperten? | Großsprachige Modelle (LLMs) und große Sehvermögensmodelle (LVLMs) haben beeindruckende Fähigkeiten für Sprach-/Visionen gezeigt und den jüngsten Trend von Bauagenten für gezielte Anwendungen wie Einkaufsassistenten oder KI-Software-Ingenieure entzündet. In jüngster Zeit wurden viele Datenwissenschaftsbenchmarks vorgeschlagen, um ihre Leistung im Bereich Data Science zu untersuchen. Die vorhandenen Datenwissenschaftsbenchmarks sind jedoch aufgrund ihrer vereinfachten Einstellungen im Vergleich zu Datenwissenschaftsanwendungen in der realen Welt nach wie vor. Um diese Lücke zu schließen, stellen wir Dsbench vor, einen umfassenden Benchmark, der zur Bewertung von Datenwissenschaftsagenten mit realistischen Aufgaben konzipiert ist. Dieser Benchmark umfasst 466 Datenanalyseaufgaben und 74 Datenmodellierungsaufgaben, die aus Beredsamkeits- und Kaggle -Wettbewerben stammen. DSBench bietet eine realistische Einstellung, indem lange Kontexte, multimodale Aufgabenhintergründe, Argumentation mit großen Datendateien und Multi-Tisch-Strukturen und Durchführung von Datenmodellierungsaufgaben mit Multi-Tabellen umfasst. Unsere Bewertung hochmoderner LLMs, LVLMs und Agenten zeigt, dass sie mit den meisten Aufgaben zu kämpfen haben, wobei der beste Agent nur 34,12% der Datenanalyseaufgaben löst und eine relative Leistungslücke (RPG) von 34,74% erfüllt. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei der Entwicklung praktischerer, intelligenterer und autonomer Datenwissenschaftler. |
10. September 2024 | PingPong: Ein Benchmark für Rollenspiel-Sprachmodelle mit Benutzeremulation und Multi-Model-Evaluierung | Wir stellen einen neuartigen Benchmark für die Bewertung der Rollenspielfähigkeiten von Sprachmodellen ein. Unser Ansatz nutzt die Sprachmodelle selbst, um Benutzer in dynamischen, mehrstufigen Gesprächen zu emulieren und die resultierenden Dialoge zu bewerten. Das Framework besteht aus drei Hauptkomponenten: einem Spielermodell, das eine bestimmte Charakterrolle übernimmt, ein Interrogator -Modell, das das Benutzerverhalten simuliert, und ein Richtermodell, das die Konversationsqualität bewertet. Wir führten Experimente durch, in denen automatisierte Bewertungen mit menschlichen Anmerkungen verglichen wurden, um unseren Ansatz zu validieren, wodurch starke Korrelationen über mehrere Kriterien hinweg gezeigt werden. Diese Arbeit bildet eine Grundlage für eine robuste und dynamische Bewertung von Modellfunktionen in interaktiven Szenarien. |
10. September 2024 | Lama-omni: nahtlose Sprachinteraktion mit großen Sprachmodellen | Modelle wie GPT-4O ermöglichen die Echtzeit-Interaktion mit großer Sprachmodellen (LLMs) durch Sprache und verbessern die Benutzererfahrung im Vergleich zur herkömmlichen textbasierten Interaktion erheblich. Es gibt jedoch immer noch mangelnde Erkundungen darüber, wie Sprachinteraktionsmodelle auf der Grundlage von Open-Source-LLMs erstellt werden. Um dies anzugehen, schlagen wir Lama-Omni vor, eine neuartige Modellarchitektur, die für die Interaktion mit geringer Latenz und qualitativ hochwertiger Sprachinteraktion mit LLMs entwickelt wurde. Lama-omni integriert einen vorbereiteten Sprachcodierer, einen Sprachadapter, einen LLM und einen Streaming-Sprachdecoder. Es beseitigt die Notwendigkeit einer Sprachtranskription und kann gleichzeitig Text- und Sprachantworten direkt aus Sprachanweisungen mit extrem geringer Latenz erzeugen. Wir bauen unser Modell basierend auf dem neuesten Lama-3.1-8B-Instruct-Modell. Um das Modell mit Sprachinteraktionsszenarien auszurichten, erstellen wir einen Datensatz mit dem Namen namens unterrichtet2s-200k, das 200K-Sprachanweisungen und entsprechende Sprachantworten enthält. Experimentelle Ergebnisse zeigen, dass Lama-Omni im Vergleich zu früheren Sprachsprachmodellen bessere Antworten auf Inhalt und Stil mit einer Antwortlatenz von nur 226 ms liefert. Darüber hinaus dauert das Training LLAMA-AMNI weniger als 3 Tage bei nur 4 GPUs und ebnet den Weg für die effiziente Entwicklung von Sprach-Sprachmodellen in der Zukunft. |
10. September 2024 | Können große Sprachmodelle neuartige wissenschaftliche Forschungsideen freischalten? | "Eine Idee ist nichts mehr und weniger als eine neue Kombination alter Elemente" (jung, JW). Die weit verbreitete Einführung von Großsprachemodellen (LLMs) und öffentlich verfügbaren Chatgpt hat einen bedeutenden Wendepunkt in der Integration der künstlichen Intelligenz (KI) in das Alltag der Menschen markiert. Diese Studie untersucht die Fähigkeit von LLMs bei der Erstellung neuer Forschungsideen, die auf Informationen aus Forschungsarbeiten basieren. Wir führen eine gründliche Untersuchung von 4 LLMs in fünf Domänen durch (z. B. Chemie, Computer, Wirtschaft, Medizin und Physik). Wir fanden heraus, dass die von Claude-2 und GPT-4 erzeugten zukünftigen Forschungsideen stärker mit der Perspektive des Autors übereinstimmen als GPT-3,5 und Gemini. Wir haben auch festgestellt, dass Claude-2 vielfältigere zukünftige Forschungsideen erzeugt als GPT-4, GPT-3,5 und Gemini 1.0. Wir haben ferner eine menschliche Bewertung der Neuheit, Relevanz und Machbarkeit der erzeugten zukünftigen Forschungsideen durchgeführt. Diese Untersuchung bietet Einblicke in die sich entwickelnde Rolle von LLMs in der Ideengenerierung und zeigt sowohl ihre Fähigkeiten als auch die Einschränkungen hervor. Unsere Arbeit trägt zu den kontinuierlichen Bemühungen bei der Bewertung und Nutzung von Sprachmodellen zur Generierung zukünftiger Forschungsideen bei. Wir stellen unsere Datensätze und Codes öffentlich zur Verfügung. |
9. September 2024 | Songcreator: Lyrics-basierte Universal Song Generation | Musik ist ein wesentlicher Bestandteil der menschlichen Kultur und verkörpert die menschliche Intelligenz und Kreativität, von der Lieder einen wesentlichen Teil bestehen. Während verschiedene Aspekte der Songgeneration von früheren Werken wie Gesangsstimme, Gesangskomposition und instrumentaler Arrangement usw. untersucht wurden, bleibt die Erzeugung von Songs mit Gesang und Begleitung, die Texte nach wie vor eine bedeutende Herausforderung, die die Anwendung von Musikgenerierungsmodellen in der Musikgenerierung behindert. reale Welt. In diesem Licht schlagen wir Songcreator vor, ein Lieder-Generationssystem, das diese Herausforderung bewältigen soll. Das Modell enthält zwei neuartige Designs: ein sorgfältig entworfenes Dual-Sequenz-Sprachmodell (DSLM), um die Informationen von Gesang und Begleitung für die Songgenerierung zu erfassen, sowie eine zusätzliche Strategie für Aufmerksamkeitsmask für DSLM, mit der unser Modell Songs verstehen, generieren und bearbeiten kann , damit es für verschiedene Aufgaben der Songgeneration geeignet ist. Umfangreiche Experimente demonstrieren die Wirksamkeit von Songcreator, indem sie hochmoderne oder wettbewerbsfähige Auftritte bei allen acht Aufgaben erzielen. Insbesondere übertrifft es frühere Werke mit einem großen Rand in Texten zu Songs und Lyrics-to-Vocals. Darüber hinaus ist es in der Lage, die akustischen Bedingungen des Gesangs und der Begleitung des erzeugten Songs durch verschiedene Eingabeaufforderungen unabhängig zu steuern, was seine potenzielle Anwendbarkeit aufweist. Unsere Proben finden Sie unter https://songcreator.github.io/. |
9. September 2024 | Hyperagent: Generalist Software Engineering Agents zur Lösung von Codierungsaufgaben im Maßstab | Großsprachige Modelle (LLMs) haben Software Engineering (SE) revolutioniert und bemerkenswerte Funktionen in verschiedenen Codierungsaufgaben zeigen. Während jüngste Bemühungen autonome Software-Agenten hervorgebracht haben, die auf LLMs für End-to-End-Entwicklungsaufgaben basieren, sind diese Systeme in der Regel für bestimmte SE-Aufgaben entwickelt. Wir stellen Hyperagent vor, ein neuartiges Generalist-Multi-Agent-System, das ein breites Spektrum von SE-Aufgaben über verschiedene Programmiersprachen hinweg angeht, indem wir die Workflows der menschlichen Entwickler nachahmen. Bestehend aus vier spezialisierten Agenten - Planer, Navigator, Code -Editor und Executor. Hyperagent verwaltet den gesamten Lebenszyklus von SE -Aufgaben, von der ersten Konzeption bis zur endgültigen Überprüfung. Durch umfangreiche Bewertungen erzielt Hyperagent über verschiedene SE-Aufgaben, die auf dem neuesten Stand der Technik erzielt werden: Er erreicht eine Erfolgsquote von 25,01% für SWE-Bench-Lite und 31,40% für SWE-Bench-verifiziert für die Auflösung von Github und übertroffene Methoden. Darüber hinaus zeigt Hyperagent die SOTA-Leistung in der Codegenerierung auf Repository-Ebene (RepoExec) sowie in der Fehlerlokalisierung und Programmreparatur (Defekt4J), die häufig spezielle Systeme übertreffen. Diese Arbeit stellt einen erheblichen Fortschritt in Richtung vielseitiger, autonomer Wirkstoffe dar, die in der Lage sind, komplexe, mehrstufige SE-Aufgaben über verschiedene Bereiche und Sprachen hinweg zu handeln, wodurch potenziell veränderte Softwareentwicklungspraktiken verändert werden. |
9. September 2024 | Memorag: Bewegen | RAGRIEVAL-Augmented Generation (RAG) nutzt die Abrufwerkzeuge, um auf externe Datenbanken zuzugreifen, wodurch die Erzeugungsqualität großer Sprachmodelle (LLMs) durch einen optimierten Kontext verbessert wird. Die vorhandenen Abrufmethoden sind jedoch von Natur aus eingeschränkt, da sie nur die Relevanz zwischen explizit angegebenen Abfragen und gut geformtem Wissen durchführen können, jedoch nicht in der Lage sind, Aufgaben mit mehrdeutigen Informationsbedürfnissen oder unstrukturiertem Wissen zu erledigen. Infolgedessen sind vorhandene Lappensysteme in erster Linie effektiv für unkomplizierte Fragen zur Beantwortung von Fragen wirksam. In dieser Arbeit schlagen wir Memorag vor, ein neuartiges Paradigma für das Abrufen von Abrufen, das durch das Langzeitgedächtnis gestärkt wird. Memorag nimmt eine Doppelsystemarchitektur an. Einerseits verwendet es ein leichtes, aber langfristiges LLM, um den globalen Speicher der Datenbank zu bilden. Sobald eine Aufgabe vorgestellt wurde, generiert sie Entwurfsantworten und geben die Abrufwerkzeuge an, um nützliche Informationen in der Datenbank zu finden. Andererseits nutzt es eine teure, aber ausdrucksstarke LLM, die die ultimative Antwort basierend auf den abgerufenen Informationen generiert. Aufbauend auf diesem allgemeinen Rahmen optimieren wir die Leistung von Memorag weiter, indem wir seinen Hinweismechanismus und seine Auswendiglernenkapazität verbessern. In unserem Experiment erzielt Memorag über eine Vielzahl von Bewertungsaufgaben überlegene Leistung, darunter beide komplexen, bei denen herkömmliche Lappen ausfällt und unkomplizierte, bei denen häufig Lag angewendet wird. |
8. September 2024 | Einengen: Effiziente Ein-Pass-Einheitserzeugung und -abruf für LLMs | Trotz der jüngsten Fortschritte in Großsprachenmodellen (LLMs), die die generativen Funktionen für verschiedene NLP -Aufgaben erheblich verbessert haben, sind LLMs bei direktem Umgang mit Abrufaufgaben weiterhin Einschränkungen. Viele praktische Anwendungen erfordern jedoch die nahtlose Integration von Abruf und Generation. In diesem Artikel wird ein neuartiges und effizientes Einpass-Generierungs- und Abruf-Framework (OneGeral) eingeführt, das die Leistung von LLMs bei Aufgaben verbessern soll, die sowohl Generation als auch Abruf erfordern. Der vorgeschlagene Framework überbrückt die traditionell getrennten Trainingsansätze für die Generation und das Abruf durch Einbeziehung von Abruftken, die autoregressiv erzeugt wurden. Dies ermöglicht es einem einzelnen LLM, beide Aufgaben gleichzeitig in einem einheitlichen Vorwärtspass zu erledigen. Wir führen Experimente an zwei unterschiedlichen Arten von Verbundaufgaben durch, Lappen und Entitätsverbinden, um die Steckbarkeit, Effektivität und Effizienz von OneGen in Training und Inferenz zu validieren. Darüber hinaus zeigen unsere Ergebnisse, dass die Integration von Generationen und Abrufen in denselben Kontext die generativen Fähigkeiten von LLMs bei gleichzeitiger Verbesserung der Abrufleistung bewahrt. Nach unserem Kenntnisstand ist OneGer die erste, die es LLMs ermöglicht, während der Generation das Abruf von Vektor durchzuführen. |
6. September 2024 | Papiercopilot: Ein sich selbst entwickeltes und effizientes LLM-System für personalisierte akademische Unterstützung | Während sich die wissenschaftliche Forschung vermehrt, stehen Forscher vor der entmutigenden Aufgabe, große Mengen an Literatur zu navigieren und zu lesen. Bestehende Lösungen wie Dokument-QA liefern keine personalisierten und aktuellen Informationen effizient. Wir präsentieren Papiercopilot, ein sich selbst entwickeltes, effizientes LLM-System, das Forscher basiert, die auf Gedanken-, Benutzerprofilen und Hochleistungsoptimierung basieren. Insbesondere kann Papier-Copilot personalisierte Forschungsdienste anbieten und eine aktualisierte Echtzeit-Datenbank aufrechterhalten. Die quantitative Bewertung zeigt, dass Papier -Copilot nach effizienter Bereitstellung 69,92% der Zeit spart. In diesem Papier wird die Gestaltung und Implementierung von Papiercopilot beschrieben, wodurch die Beiträge zur personalisierten akademischen Unterstützung und ihr Potenzial zur Rationalisierung des Forschungsprozesses hervorgehoben werden. |
5. September 2024 | Aufmerksamkeitsköpfe großer Sprachmodelle: Eine Umfrage | Seit dem Aufkommen von Chatgpt haben sich große Sprachmodelle (LLMs) in verschiedenen Aufgaben hervorgetan, bleiben aber als Black-Box-Systeme. Infolgedessen werden die Argumentation Engpässe von LLMs hauptsächlich von ihrer internen Architektur beeinflusst. Infolgedessen haben viele Forscher begonnen, die potenziellen internen Mechanismen von LLMs zu untersuchen, wobei sich die meisten Studien auf Aufmerksamkeitsköpfe konzentrieren. Unsere Umfrage zielt darauf ab, die internen Argumentationsprozesse von LLMs aufzutragen, indem sie sich auf die zugrunde liegenden Mechanismen der Aufmerksamkeitsköpfe konzentrieren. Wir destillieren zunächst den menschlichen Denkprozess in einen vierstufigen Rahmen: Wissensrückruf, In-Kontext-Identifizierung, latentes Denken und Expressionsvorbereitung. Mit diesem Framework überprüfen wir systematisch die vorhandene Forschung, um die Funktionen spezifischer Aufmerksamkeitsköpfe zu identifizieren und zu kategorisieren. Darüber hinaus fassen wir die experimentellen Methoden zusammen, mit denen diese speziellen Köpfe ermittelt werden, und teilen sie in zwei Kategorien auf: modellierungsfreie Methoden und Modellierungsmethoden. Außerdem skizzieren wir relevante Bewertungsmethoden und Benchmarks. Schließlich diskutieren wir die Grenzen der aktuellen Forschung und schlagen mehrere potenzielle zukünftige Richtungen vor. |
5. September 2024 | Wie werden Ihre Code -LLMs ausgeführt? Stärkung der Code-Anweisungsstimmung mit hochwertigen Daten | In jüngster Zeit hat es ein wachsendes Interesse daran, zu untersuchen, wie bessere Code -Anweisungsdaten erstellt werden können. Wir beobachten jedoch, dass Codemodelle, die mit diesen Datensätzen trainiert wurden, eine hohe Leistung bei Humaneropfer aufweisen, aber bei anderen Benchmarks wie LivecodeBench schlechter werden. Nach weiteren Untersuchungen stellen wir fest, dass viele Datensätze unter schweren Datenlecks leiden. Nach dem Aufräumen der meisten durchgesickerten Daten funktionieren einige bekannte hochwertige Datensätze schlecht. Diese Entdeckung zeigt eine neue Herausforderung: Identifizieren Sie, welcher Datensatz wirklich als hochwertige Code-Anweisungsdaten qualifiziert ist. Um dies zu beheben, schlagen wir eine effiziente Code -Datenbeschneidungsstrategie zur Auswahl guter Muster vor. Unser Ansatz basiert auf drei Dimensionen: Komplexität der Anleitung, Reaktionsqualität und Unterrichtsvielfalt. Basierend auf unseren ausgewählten Daten präsentieren wir XCODER, eine Familie von Models, die aus LLAMA3 beendet sind. Unsere Experimente zeigen, dass XCoder mit weniger Trainingsdaten eine neue Leistung auf dem neuesten Stand der Technik erzielt, die die Wirksamkeit unserer Datenstrategie überprüfen. Darüber hinaus führen wir eine umfassende Analyse der Datenzusammensetzung durch und finden vor, dass vorhandene Code -Datensätze nach ihren Baumethoden unterschiedliche Merkmale aufweisen, die neue Erkenntnisse für zukünftige Code -LLMs liefern. Unsere Modelle und Datensatz sind in https://github.com/banksy23/xcoder veröffentlicht |
5. September 2024 | Vom MOOC bis MAIC: Umgestaltung des Online-Lehre und -lernens durch LLM-gesteuerte Agenten | Da die ersten Instanzen der Online -Bildung, in denen Kurse auf zugängliche und gemeinsam genutzte Online -Plattformen hochgeladen wurden, hat diese Form der Skalierung der Verbreitung des menschlichen Wissens, um ein breiteres Publikum zu erreichen, umfangreiche Diskussionen und eine weit verbreitete Akzeptanz ausgelöst. In der Erkenntnis, dass das personalisierte Lernen immer noch ein erhebliches Verbesserungspotenzial ausschöpft, wurden neue KI -Technologien kontinuierlich in dieses Lernformat integriert, was zu einer Vielzahl von Bildungsanwendungen wie Bildungsempfehlung und intelligenter Nachhilfe führte. Die Entstehung von Intelligenz in großen Sprachmodellen (LLMs) hat es ermöglicht, dass diese Bildungsverbesserungen auf einem einheitlichen Grundmodell aufgebaut werden, was eine tiefere Integration ermöglicht. In diesem Zusammenhang schlagen wir MAIC (massiven Ai-Empowered-Kurs) vor, eine neue Form der Online-Ausbildung, die LLM-gesteuerte Multi-Agent-Systeme nutzt, um ein AI-Augment-Klassenzimmer zu errichten und Skalierbarkeit mit Anpassungsfähigkeit auszugleichen. Abgesehen von der Erforschung des konzeptionellen Rahmens und der technischen Innovationen führen wir vorläufige Experimente an der Tsinghua University, einer der führenden Universitäten Chinas, durch. Aus über 100.000 Lernaufzeichnungen von mehr als 500 Schülern erhalten wir eine Reihe wertvoller Beobachtungen und Erstanalysen. Dieses Projekt wird sich weiterentwickeln und letztendlich darauf abzielen, eine umfassende offene Plattform einzurichten, die Forschung, Technologie und Anwendungen bei der Erforschung der Möglichkeiten der Online -Bildung im Zeitalter der KI großer Modell unterstützt und vereint. Wir stellen uns diese Plattform als kollaboratives Zentrum vor, das Pädagogen, Forscher und Innovatoren zusammenbringt, um die Zukunft der KI-gesteuerten Online-Bildung gemeinsam zu erforschen. |
4. September 2024 | Longcite: Ermöglichen, dass LLMs feinkörnige Zitate in Long Context QA erzeugen | Obwohl die aktuellen Lont-Context-Großsprachmodelle (LLMs) beeindruckende Kapazitäten bei der Beantwortung von Benutzerfragen auf der Grundlage umfangreicher Text gezeigt haben, erschweren die Überprüfung der Benutzer, was zu Bedenken hinsichtlich ihrer Vertrauenswürdigkeit aufgrund ihrer potenziellen Halluzinationen zu Bedenken hinsichtlich ihrer Vertrauenswürdigkeit führt. In dieser Arbeit wollen wir es mit langem Kontext-LLMs ermöglichen, Reaktionen mit feinkörnigen Zitaten auf Satzebene zu generieren und ihre Treue und Überprüfbarkeit zu verbessern. Wir führen zuerst Longbench-Cite vor, einen automatisierten Benchmark für die Beurteilung der Leistung der aktuellen LLMs in der Long-Kontext-Frage, die mit Zitaten (LQAC) beantwortet wird, und enthüllen beträchtliche Verbesserungsraum. Zu diesem Zweck schlagen wir COF (grob bis fein) vor, eine neuartige Pipeline, die off-the-Shelf-LLMs verwendet, um automatisch lang kontextbezogene QA-Instanzen mit präzisen Zitaten auf Satzebene zu generieren und diese Pipeline zu nutzen, um Longcite-45K zu konstruieren, a Großer SFT-Datensatz für LQAC. Schließlich trainieren wir Longcite-8b und Longcite-9b mit dem Longcite-45K-Datensatz und ermöglichen ihre Erzeugung genauer Antworten und feinkörniger Zitate auf Satzebene in einer einzigen Ausgabe. Die Evaluierungsergebnisse auf Longbench-Cite zeigen, dass unsere geschulten Modelle eine modernste Zitierqualität erreichen und fortschrittliche proprietäre Modelle, einschließlich GPT-4O, übertreffen. |
4. September 2024 | Longllava: Skalierung multimodaler LLMs bis 1000 Bilder effizient über eine Hybridarchitektur | Die Erweiterung der lang Kontextfähigkeiten multimodaler großer Sprachmodelle (MLLMS) ist entscheidend für Videoverständnisse, hochauflösendes Bildverständnis und multimodale Wirkstoffe. Dies beinhaltet eine Reihe systematischer Optimierungen, einschließlich Modellarchitektur, Datenkonstruktion und Schulungsstrategie, insbesondere mit Herausforderungen wie textit {degradierte Leistung mit weiteren Bildern} und textit {hohe Berechnungskosten}. In diesem Artikel passen wir die Modellarchitektur an einen Mamba- und Transformator -Blöcke an, nähern sich die Datenkonstruktion mit zeitlichen und räumlichen Abhängigkeiten zwischen mehreren Bildern und wenden eine progressive Schulungsstrategie an. Das freigegebene Modell textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} Anguage textbf {a} nd textbf {v} ision textbf {a} ssistant) ist Erster Hybrid -MLLM, was ein besseres Gleichgewicht zwischen Effizienz und Effektivität erzielte. Longllava erzielt nicht nur wettbewerbsfähige Ergebnisse über verschiedene Benchmarks, sondern hält auch einen hohen Durchsatz und einen geringen Speicherverbrauch bei. Insbesondere könnte es fast tausend Bilder in einer einzigen A100 80 -GB -GPU verarbeiten, die vielversprechende Anwendungsaussichten für eine Vielzahl von Aufgaben zeigt. |
4. September 2024 | Auf dem Weg zu einer einheitlichen Sicht des Präferenzlernens für große Sprachmodelle: eine Umfrage | Große Sprachmodelle (LLMs) weisen bemerkenswert starke Fähigkeiten auf. Einer der entscheidenden Faktoren, um Erfolg zu erzielen, ist die Ausrichtung der Output der LLM mit den menschlichen Präferenzen. Dieser Ausrichtungsprozess erfordert häufig nur eine geringe Datenmenge, um die Leistung des LLM effizient zu verbessern. Die Forschung in diesem Bereich umfasst jedoch mehrere Domänen, und die beteiligten Methoden sind relativ komplex zu verstehen. Die Beziehungen zwischen verschiedenen Methoden wurden unterbezogen, was die Entwicklung der Präferenzausrichtung begrenzte. In Anbetracht dessen zerlegen wir die bestehenden Strategien für beliebte Ausrichtungsstrategien in verschiedene Komponenten und bieten einen einheitlichen Rahmen zur Untersuchung der aktuellen Ausrichtungsstrategien, wodurch Verbindungen zwischen ihnen hergestellt werden. In dieser Umfrage zerlegen wir alle Strategien im Präferenzlernen in vier Komponenten: Modell, Daten, Feedback und Algorithmus. Diese einheitliche Ansicht bietet ein detailliertes Verständnis der bestehenden Ausrichtungsalgorithmen und eröffnet auch Möglichkeiten, die Stärken verschiedener Strategien zu synergieren. Darüber hinaus präsentieren wir detaillierte Arbeitsbeispiele für vorherrschende vorhandene Algorithmen, um ein umfassendes Verständnis für die Leser zu erleichtern. Auf der Grundlage unserer einheitlichen Perspektive untersuchen wir schließlich die Herausforderungen und zukünftigen Forschungsrichtungen, um große Sprachmodelle mit menschlichen Vorlieben auszurichten. |
4. September 2024 | Aufbau von Mathematikern mit iterativem Multi-Turn-Lernen | Jüngste Studien haben gezeigt, dass die mathematischen Lösungsfunktionen von großer Sprachmodellen (LLMs) (LLMs) durch Integration externer Tools wie Code-Dolmetscher und der Verwendung von Multi-Turn-Ketten- (COT-Argumentation) verbessert werden können. Während sich die aktuellen Methoden auf die Erzeugung der synthetischen Daten und die Überwachung der Feinabstimmung (SFT) konzentrieren, untersucht in diesem Artikel den komplementären direkten Vorzugslernenansatz zur weiteren Verbesserung der Modellleistung. Vorhandene Algorithmen für direkte Präferenzlernen sind jedoch ursprünglich für die Einzelgeschwindigkeits-Chat-Aufgabe entwickelt und befassen sich nicht vollständig mit den Komplexität des Argumentierens mit mehreren Drehungen und der externen Werkzeugintegration, die für Tool-integrierte mathematische Argumentationsaufgaben erforderlich sind. Um diese Lücke auszufüllen, stellen wir ein Multiturn Direct Preference Learning Framework ein, das auf diesen Kontext zugeschnitten ist und das Feedback von Code-Dolmetschern nutzt und die Präferenzen auf Trajektorienebene optimiert. Dieses Framework umfasst Multi-Turn-DPO und Multi-Turn-KTO als spezifische Implementierungen. Die Effektivität unseres Frameworks wird durch das Training verschiedener Sprachmodelle unter Verwendung eines erweiterten Eingabeaufforderungssatzes aus den GSM8K- und Mathematikdatensätzen validiert. Unsere Ergebnisse zeigen wesentliche Verbesserungen: Eine beaufsichtigte, fein abgestimmte GEMMA-1.1-IT-IT-7B-Modellleistung stieg bei GSM8K von 77,5% auf 83,9% und von 46,1% auf 51,2% für Math. In ähnlicher Weise verbesserte sich ein Gemma-2-IT-9B-Modell von 84,1% auf 86,3% gegenüber GSM8K und von 51,0% auf 54,5% für Mathematik. |
3. September 2024 | OLMOE: Open-Of-Experten-Sprachmodelle | Wir stellen Olmoe vor, ein vollständig offenes, hochmodernes Sprachmodell, das die spärliche Mischung aus Experten (MOE) nutzt. OLMOE-1B-7B hat 7 Milliarden (b) Parameter, verwendet jedoch nur 1b pro Eingangs-Token. Wir haben es auf 5 Billionen Token vorrain und passen es weiter an, um Olmoe-1b-7b-Instruction zu erstellen. Unsere Modelle übertreffen alle verfügbaren Modelle mit ähnlichen aktiven Parametern und übertreffen sogar größere, wie LLAMA2-13B-CHAT und Deepseekmoe-16b. Wir präsentieren verschiedene Experimente zum MOE-Training, analysieren das Routing in unserem Modell mit hoher Spezialisierung und Open-Source alle Aspekte unserer Arbeit: Modellgewichte, Trainingsdaten, Code und Protokolle. |
2. September 2024 | GENAGENT: Erstellen Sie kollaborative KI -Systeme mit automatisierter Workflow -Generierung - Fallstudien zu Comfyui | Viele frühere KI -Forschung konzentrierte sich auf die Entwicklung monolithischer Modelle, um ihre Intelligenz und Fähigkeiten zu maximieren, mit dem Hauptziel, die Leistung bei bestimmten Aufgaben zu verbessern. Im Gegensatz dazu untersucht dieses Papier einen alternativen Ansatz: kollaborative KI -Systeme, die Workflows verwenden, um Modelle, Datenquellen und Pipelines zur Lösung komplexer und vielfältiger Aufgaben zu integrieren. Wir führen Genagent vor, ein LLM-basierter Framework, das automatisch komplexe Workflows erzeugt und im Vergleich zu monolithischen Modellen eine größere Flexibilität und Skalierbarkeit bietet. Die Kerninnovation von Genagent liegt in der Darstellung von Workflows mit Code und konstruieren Workflows mit kollaborativen Agenten schrittweise. Wir implementieren Genagent auf der komfortablen Plattform und schlagen einen neuen Benchmark vor, OpenComfy. Die Ergebnisse zeigen, dass Genagent die Baseline-Ansätze sowohl in Run-Level- als auch in Aufgabenebene übertrifft, was die Fähigkeit zeigt, komplexe Workflows mit überlegener Wirksamkeit und Stabilität zu erzeugen. |
2. September 2024 | Videollamb: Langkontext Videoverständnis mit wiederkehrenden Speicherbrücken | Die jüngsten Fortschritte in großflächigen Videopranien-Modellen haben ein erhebliches Potenzial für Echtzeitplanung und detaillierte Interaktionen gezeigt. Ihre hohen Rechenanforderungen und die Knappheit an kommentierten Datensätzen begrenzen jedoch ihre praktische Fähigkeit für akademische Forscher. In dieser Arbeit stellen wir Videollamb vor, ein neuartiges Framework, das zeitliche Speicher -Token in Brückenschichten verwendet, um die Codierung ganzer Videosequenzen zusammen mit historischen visuellen Daten zu ermöglichen, wodurch die semantische Kontinuität effektiv erhalten und die Modellleistung über verschiedene Aufgaben hinweg verbessert wird. Dieser Ansatz umfasst wiederkehrende Speicher -Token und einen Szenetillationsalgorithmus, der Videos in unabhängige semantische Einheiten unterteilt, um die semantische Integrität zu bewahren. In empirisch übertrifft Videollamb die vorhandenen Videosprachenmodelle erheblich und zeigt eine Verbesserung von 5,5 Punkten gegenüber seinen Konkurrenten in drei VideoQA-Benchmarks und 2,06 Punkte zur egozentrischen Planung. Umfassende Ergebnisse in der MVBench-Show, die Videollamb-7b deutlich bessere Ergebnisse erzielt als frühere 7B-Modelle derselben LLM. Bemerkenswerterweise hält es eine robuste Leistung als Pllava, selbst wenn die Videolänge bis zu 8 Mal steigt. Außerdem haben die Rahmenabrufergebnisse auf unserer speziellen Nadel in einem Benchmark (Haystack) von Video Stack (NIAVH) die Fähigkeiten von Videollamb weiter validieren, spezifische Rahmen innerhalb langwieriger Videos genau zu identifizieren. Unser Szenetillationsalgorithmus ermöglicht auch die Erzeugung von Videounterschriften direkt, ohne zusätzliche Schulungen zu benötigen. In Bezug auf die Effizienz unterstützt Videollamb, trainiert auf 16 Frames, bis zu 320 Frames auf einer einzelnen NVIDIA A100 GPU mit linearer GPU-Speicherskalierung, um sowohl hohe Leistung als auch Kosteneffizienz zu gewährleisten, wodurch ein neues Fundament für langformale Video-Sprache festgelegt wird Modelle sowohl in akademischen als auch in praktischen Anwendungen. |
1. September 2024 | Contextcite: modellgenerierung zum kontext zuzuschreiben | Wie verwenden Sprachmodelle Informationen als Kontext, wenn eine Antwort generiert wird? Können wir schließen, ob eine bestimmte erzeugte Aussage tatsächlich im Kontext, einer Fehlinterpretation oder Herstellung beruht? Um diese Fragen zu beantworten, stellen wir das Problem der Kontextbeschreibung vor: Die Teile des Kontexts (falls vorhanden), die ein Modell zur Generierung einer bestimmten Anweisung leiteten. Wir präsentieren dann Contextcite, eine einfache und skalierbare Methode zur Kontextbeschreibung, die über jedes vorhandene Sprachmodell angewendet werden kann. Schließlich präsentieren wir den Nutzen von Contextcite durch drei Anwendungen: (1) dabei, generierte Aussagen zu überprüfen (2) Verbesserung der Antwortqualität durch Beschneiden des Kontextes und (3) Erkennung von Giftangriffen. Wir bieten Code für ContextCite unter https://github.com/madrylab/context-cite. |
31. August 2024 | LongRecipe: Rezept für eine effiziente Generalisierung des langen Kontextes in großen Sprachmodellen | Große Sprachmodelle (LLMs) stehen vor erheblichen Herausforderungen beim Umgang mit langen Kontextaufgaben aufgrund ihrer begrenzten effektiven Kontextfenstergröße während der Vorbereitung, was ihre Fähigkeit, über erweiterte Sequenzen zu verallgemeinern, einschränkt. In der Zwischenzeit ist es sehr ressourcenintensiv, das Kontextfenster in LLMs durch die Präparate zu erweitern. Um dies zu beheben, stellen wir LongRecipe vor, eine effiziente Trainingsstrategie zur Erweiterung des Kontextfensters von LLMs, einschließlich der Strategien für die Analyse von Postenindex und Trainingsoptimierung. Es simuliert Langzeiteingaben, während die Trainingseffizienz beibehalten wird, und verbessert das Verständnis des Modells für Langstreckenabhängigkeiten erheblich. Experimente mit drei Arten von LLMs zeigen, dass LongRecipe lange Sequenzen verwenden kann, während nur 30% der Fenstergröße des Zielkontextes erforderlich sind, und reduziert die Rechenressourcen der Computertraining um über 85% im Vergleich zum vollständigen Sequenztraining. Darüber hinaus bewahrt Longrecipe auch die ursprünglichen Funktionen des LLM in allgemeinen Aufgaben. Letztendlich können wir das effektive Kontextfenster von Open-Source-LLMs von 8K auf 128.000 erweitern und die Leistung in der Nähe von GPT-4 mit nur einem Tag spezielles Training unter Verwendung einer einzigen GPU mit 80 g Speicher erzielen. Unser Code wird unter https://github.com/zhiyuanhubj/longrecipe veröffentlicht. |
29. August 2024 | Mini-omni: Sprachmodelle können hören, sprechen, während Sie im Streaming denken | Die jüngsten Fortschritte in Sprachmodellen haben erhebliche Fortschritte erzielt. GPT-4O als neuer Meilenstein hat Echtzeitgespräche mit Menschen ermöglicht, die nahezu menschliche natürliche Flüssigkeit zeigen. Eine solche Wechselwirkung zwischen Mensch und Computer erfordert Modelle mit der Fähigkeit, direkt mit der Audio-Modalität Argumentation durchzuführen und beim Streaming Ausgang zu generieren. Dies bleibt jedoch über die Reichweite aktueller akademischer Modelle hinaus, da sie normalerweise von zusätzlichen TTS -Systemen für die Sprachsynthese abhängen, was zu unerwünschten Latenz führt. In diesem Artikel wird das Mini-OMNI vorgestellt, ein audiobasiertes End-to-End-Konversationsmodell, das in Echtzeit-Sprachinteraktion in der Lage ist. Um diese Fähigkeit zu erreichen, schlagen wir eine textunsicherte Sprachgenerierungsmethode zusammen mit Batch-Parallel-Strategien während der Inferenz vor, um die Leistung weiter zu steigern. Unsere Methode hilft auch dabei, die Sprachfunktionen des ursprünglichen Modells mit minimalem Abbau beizubehalten und es anderen Arbeiten zu ermöglichen, Echtzeit-Interaktionsfunktionen festzulegen. Wir nennen diese Trainingsmethode "Jedes Modell kann sprechen". Wir stellen auch den VoiceasStantant-400K-Datensatz vor, um die für die Sprachausgabe optimierten Feinabstimmung Modelle. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research. |
29th August 2024 | Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever | Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this work we propose a number of incremental improvements to the ColBERT model architecture and training pipeline, using methods shown to work in the more mature single-vector embedding model training paradigm, particularly those that apply to heterogeneous multilingual data or boost efficiency with little tradeoff . Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks. |
28th August 2024 | CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization | Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available. |
28th August 2024 | SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding | Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks. |
Join 1000+ students on this 10-week adventure as we delve into the application of LLMs across a variety of use cases
?️*Week 1 [Jan 15 2024] *: Practical Introduction to LLMs
?️*Week 2 [Jan 22 2024] *: Prompting and Prompt Engineering
?️*Week 3 [Jan 29 2024] *: LLM Fine-tuning
?️*Week 4 [Feb 5 2024] *: RAG (Retrieval-Augmented Generation)
?️*Week 5 [ Feb 12 2024] *: Tools for building LLM Apps
?️*Week 6 [Feb 19 2024] *: Evaluation Techniques
?️*Week 7 [Feb 26 2024] *: Building Your Own LLM Application
?️*Week 8 [March 4 2024] *: Advanced Features and Deployment
?️*Week 9 [March 11 2024] *: Challenges with LLMs
?️*Week 10 [March 18 2024] *: Emerging Research Trends
?️*Week 11 *Bonus* [March 25 2024] *: Foundations
Large Language Models by ETH Zurich
Understanding Large Language Models by Princeton
Transformers course by Huggingface
NLP course by Huggingface
CS324 - Large Language Models by Stanford
Generative AI with Large Language Models by Coursera
Introduction to Generative AI by Coursera
Generative AI Fundamentals by Google Cloud
Introduction to Large Language Models by Google Cloud
Introduction to Generative AI by Google Cloud
Generative AI Concepts by DataCamp (Daniel Tedesco Data Lead @ Google)
1 Hour Introduction to LLM (Large Language Models) by WeCloudData
LLM Foundation Models from the Ground Up | Primer by Databricks
Generative AI Explained by Nvidia
Transformer Models and BERT Model by Google Cloud
Generative AI Learning Plan for Decision Makers by AWS
Introduction to Responsible AI by Google Cloud
Fundamentals of Generative AI by Microsoft Azure
Generative AI for Beginners by Microsoft
ChatGPT for Beginners: The Ultimate Use Cases for Everyone by Udemy
[1hr Talk] Intro to Large Language Models by Andrej Karpathy
ChatGPT for Everyone by Learn Prompting
Large Language Models (LLMs) (In English) by Kshitiz Verma (JK Lakshmipat University, Jaipur, India)
LLMOps: Building Real-World Applications With Large Language Models by Udacity
Full Stack LLM Bootcamp by FSDL
Generative AI for beginners by Microsoft
Large Language Models: Application through Production by Databricks
Generative AI Foundations by AWS
Introduction to Generative AI Community Course by ineuron
LLM University by Cohere
LLM Learning Lab by Lightning AI
LangChain for LLM Application Development by Deeplearning.AI
LLMOps by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Building Generative AI Applications Using Amazon Bedrock by AWS
Efficiently Serving LLMs by DeepLearning.AI
Building Systems with the ChatGPT API by DeepLearning.AI
Serverless LLM apps with Amazon Bedrock by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Build LLM Apps with LangChain.js by DeepLearning.AI
Advanced Retrieval for AI with Chroma by DeepLearning.AI
Operationalizing LLMs on Azure by Coursera
Generative AI Full Course – Gemini Pro, OpenAI, Llama, Langchain, Pinecone, Vector Databases & More by freeCodeCamp.org
Training & Fine-Tuning LLMs for Production by Activeloop
LangChain & Vector Databases in Production by Activeloop
Reinforcement Learning from Human Feedback by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Finetuning Large Language Models by Deeplearning.AI
LangChain: Chat with Your Data by Deeplearning.AI
Building Systems with the ChatGPT API by Deeplearning.AI
Prompt Engineering with Llama 2 by Deeplearning.AI
Building Applications with Vector Databases by Deeplearning.AI
ChatGPT Prompt Engineering for Developers by Deeplearning.AI
Advanced RAG Orchestration series by LlamaIndex
Prompt Engineering Specialization by Coursera
Augment your LLM Using Retrieval Augmented Generation by Nvidia
Knowledge Graphs for RAG by Deeplearning.AI
Open Source Models with Hugging Face by Deeplearning.AI
Vector Databases: from Embeddings to Applications by Deeplearning.AI
Understanding and Applying Text Embeddings by Deeplearning.AI
JavaScript RAG Web Apps with LlamaIndex by Deeplearning.AI
Quantization Fundamentals with Hugging Face by Deeplearning.AI
Preprocessing Unstructured Data for LLM Applications by Deeplearning.AI
Retrieval Augmented Generation for Production with LangChain & LlamaIndex by Activeloop
Quantization in Depth by Deeplearning.AI
If you want to add to the repository or find any issues, please feel free to raise a PR and ensure correct placement within the relevant section or category.
To cite this guide, use the below format:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT License]