Dieser winzige Ort im Web speichert eine wachsende Sammlung interessanter Dinge über ChatGPT und GPT-3 (und darüber hinaus) von OpenAI.
ChatGPT wurde im November 2022 gestartet. Ich möchte einen All-in-One-Ort, an dem ich alles über GPT und ChatGPT aufbewahren kann. Deshalb habe ich diese Liste seit Anfang Dezember 2022 mit Hilfe anderer (unten erwähnt) handverlesen.
Die Sammlungen beschränken sich nicht nur auf die besten Ressourcen, Tools, Beispiele, Demos, Hacks, Apps und Verwendungsmöglichkeiten von ChatGPT.
Die folgenden Ressourcen basieren zunächst auf den awesome-chatgpt-Listen 1 2, jedoch mit meinen eigenen Modifikationen:
Modell: Die ChatGPT-Modellfamilie, die wir heute veröffentlichen,
gpt-3.5-turbo
, ist das gleiche Modell, das im ChatGPT-Produkt verwendet wird . Der Preis beträgt 0,002 US-Dollar pro 1.000 Token, was 10x günstiger ist als unsere bestehenden GPT-3.5-Modelle .API: Traditionell verbrauchen GPT-Modelle unstrukturierten Text, der dem Modell als Folge von „Tokens“ dargestellt wird. ChatGPT-Modelle verbrauchen stattdessen eine Folge von Nachrichten zusammen mit Metadaten.
Beispielaufforderungen.
golergka/advent-of-code-2022-with-chat-gpt – Advent of Code 2022 mit ChatGPT lösen.
max-sixty/aoc-gpt – Erster Platz in der Advent of Code-Bestenliste mit GPT-3.
greshake/Alice – ChatGPT Zugriff auf ein echtes Terminal gewähren.
RomanHotsiy/commitgpt – Commit-Nachrichten automatisch mit ChatGPT generieren.
gpt-commit-summarizer – Generieren Sie Pull-Request-Zusammenfassungen und Git-Commit-Beschreibungen.
vrescobar/chatGPT-python-elm – Ein Git-Repository, das vollständig von ChatGPT generiert wurde.
gpt-game – Ein kurzes Spiel, das in Elixir und LiveView mit ChatGPT geschrieben wurde.
chatdb – ChatGPT-basierte Datenbank, warte ... WAS?
chat-gpt-ppt – Verwenden Sie ChatGPT, um PPT automatisch zu generieren.
emailGPT – Eine schnelle und einfache Schnittstelle zum Generieren von E-Mails mit ChatGPT.
gptlang – Ein Experiment, um zu sehen, ob wir in ChatGPT eine Programmiersprache erstellen können.
ChatRWKV – Wie ChatGPT, aber basierend auf dem offenen Sprachmodell RWKV ( RNN-basiert ). [HuggingFace Space: RWKV-4 (7B Instruct v2), Code ( ihre Behauptung, RNN mit LLM-Leistung auf Transformer-Ebene sei viel besser als ich erwartet hatte. )]
GraphGPT – Extrapolieren von Wissensgraphen aus unstrukturiertem Text mit GPT-3.
Dokumentensuche – Durchsuchen Sie Dokumente (Bücher, Dokumente, Rechtsdokumente) ohne Einschränkungen. Unterhalten Sie sich mit einem Buch. Inspiriert von der „Book Whisperer“-Idee (Tweet). Open-Source-Alternative zu Filechat.io.
Was wäre, wenn GPT einen internen Kontext zu Ihrem Unternehmen hätte? (Tweet und Videodemo) – Sie entwickeln einen Chatbot, der den Kontext von Unternehmensdaten nutzen kann, um interne Geschäftsanfragen zu beantworten. Dieses Projekt integrierte LangChain (Agent entscheidet, welche Tools er abfragt, sobald der Chatbot eine Anfrage erhält) und GPT-Index (Snowflake-Datenbank laden). Interessante Idee im Wissensmanagement.
MetaAIs LLaMA?
Flan-UL2 20B ausprobieren – Code-Komplettlösung von Sam Witteveen. Dies zeigt, wie Sie es mit der HuggingFace-Bibliothek und der Verwendung von 8-Bit-Inferenz auf einer 1x A100 40-GB-GPU zum Laufen bringen können. Beispiele für Aufforderungen: CoT, Zeroshot (logisches Denken, Schreiben von Geschichten, Denken mit gesundem Menschenverstand, Schreiben von Reden). Zuletzt testen wir die große (2048) Token-Eingabe. Bonus: Sie haben kein A100? Sie können die HuggingFace-Inferenz-API für UL2 verwenden.
metamorph – Selbsteditierende GPT-4-Anwendung.
MiniGPT-4 – Eine Forschung, die versucht, die multimodalen Fähigkeiten von GPT-4 zu reproduzieren.
Llama2.c von Karpathy – Inference Llama 2 in einer Datei aus reinem C. ?
Dies ist nur ein Wochenendprojekt: Ich habe nanoGPT genommen, es optimiert, um die Llama-2-Architektur anstelle von GPT-2 zu implementieren, und der Kern davon bestand darin, die C-Inferenz-Engine in
run.c
zu schreiben.Ein Tipp an llama.cpp für die Inspiration zu diesem Projekt. Ich wollte etwas sehr Minimales, also entschied ich mich dafür, die Lama-2-Architektur hart zu codieren, mich an fp32 zu halten und einfach eine Inferenzdatei aus reinem C ohne Abhängigkeiten zu rollen.
Weniger ist mehr.
Dieser Commit ermöglicht es jetzt, Metas Llama 2 7B-Modell zu laden und daraus Rückschlüsse zu ziehen.
Mein Fork – Leistungsbenchmarks, Optimierungen und in Arbeit befindlicher Zig-Port. Ich habe dieses Projekt auf Rust portiert, aber diese Forks haben es geschafft. Der früheste Rust-Port, den ich gesehen habe, stammt von @garrisonhess, wurde aber in der README-Datei des Projekts nicht gefunden.
Spekulation: Meine Vermutung sagt mir, dass Karpathy an der Veröffentlichung (und Open-Sourcing?) des OpenAI-Modells als Gewichtungen arbeitet. Hinweise: Er ging und kehrte zu OpenAI zurück, seinem Tweet
Erwähnenswert ist, dass Llama2.c im Allgemeinen recht generisch für Transformer-Sprachmodelle ist. Wenn/wann OpenAI Modelle als Gewichte veröffentlichen würde (was ich weder bestätigen noch dementieren kann!), dann wäre der Großteil des Codes hier sehr relevant.
Leicht bearbeitet. Hervorhebung von mir.
Weitere Hinweise: seine früheren Arbeiten, darunter nanoGPT, Software 2.0 und kürzlich Micro-LLMs mit Llama2.c
Wenn Sie es wissen, wissen Sie es. ?
llm.c von Karpathy – LLM-Training in einfachem, rohem C/CUDA. (Plan: Sobald dies in einem etwas stabileren Zustand ist, Videos zum detaillierteren Aufbau und von Grund auf.) [Tweet]
2022
... Selbst bei nicht-konversativen Suchmaschinen wissen wir, dass es häufig vorkommt, dass den Ergebnissen unangemessenes Vertrauen entgegengebracht wird: Wenn das Suchsystem etwas ganz oben auf der Liste platziert, neigen wir dazu zu glauben, dass es sich um ein gutes, wahres oder repräsentatives Ergebnis handelt Und wenn etwas nicht gefunden wird, ist man versucht zu glauben, dass es nicht existiert.
2023
Microsoft und OpenAI arbeiten an ChatGPT-basiertem Bing im Kampf gegen Google
Einige Anmerkungen zu großen Sprachmodellen von Prof. Yoav Goldberg.
Warum ChatGPT Suchmaschinen in absehbarer Zeit nicht durch Algolia ersetzen wird.
Claude von Anthropic verbessert ChatGPT, weist aber immer noch Einschränkungen auf
Microsoft plant eine 10-Milliarden-Dollar-Wette auf ChatGPT
Wolfram|Alpha als Möglichkeit, die Superkräfte des Computerwissens in ChatGPT zu integrieren
Der CEO von DeepMind hat dazu beigetragen, KI zum Mainstream zu machen. Jetzt mahnt er zur Vorsicht
DeepMind erwägt auch die Veröffentlichung eines eigenen Chatbots namens Sparrow für eine „private Beta“ irgendwann im Jahr 2023. (Die Verzögerung dient dazu, dass DeepMind an auf Verstärkungslernen basierenden Funktionen arbeiten kann, die ChatGPT fehlen, wie etwa das Zitieren seiner Quellen .)
Die allgemeine Verfügbarkeit des Azure OpenAI Service erweitert den Zugriff auf große, fortschrittliche KI-Modelle mit zusätzlichen Vorteilen für Unternehmen – ChatGPT wird bald für den Azure OpenAI Service verfügbar sein.
GPT-3 ist das beste Tagebuch, das ich je verwendet habe
Umgehen der Spamfilter von Gmail mit ChatGPT
Ersetzen eines SQL-Analysten durch 26 rekursive GPT-Eingabeaufforderungen
Google bittet seine Mitarbeiter, potenzielle ChatGPT-Konkurrenten zu testen, darunter einen Chatbot namens „Apprentice Bard“.
Natürliche Sprache ist die faule Benutzeroberfläche
Ein wichtiger nächster Schritt auf Googles KI-Reise – Google führt Softlaus Bard ein, einen ChatGPT-Konkurrenten für „vertrauenswürdige Tester“. Bard ist eine neue KI-Funktion in der Google-Suche. Bard ist ein experimenteller Konversations-KI-Dienst, der auf LaMDA (Language Model for Dialogue Applications) basiert. Google verspricht, dies in den kommenden Wochen breiter verfügbar zu machen. Die API wird für Entwickler verfügbar sein, auf der sie aufbauen können. Google hat sich nicht dazu geäußert, wie das Unternehmen Namensnennungen und/oder Zitate für seine Antworten bereitstellen will, weder von Bard noch in den Suchergebnissen.
Microsoft kündigt neue Bing- und Edge-Browser an, die auf aktualisierter ChatGPT-KI basieren
Mensch und Maschine: GPT für zweite Gehirne – Über den Autor Second-Brain-Notizsystem – wie man Lernprozesse und persönliches Wissensmanagement (PKM) verbessert.
Chinas Baidu entwickelt seinen eigenen ChatGPT und nimmt am neuesten globalen KI-Wettbewerb teil – Ernie oder „Enhanced Representation through Knowledge Integration“ (Artikel und Aufsatz zu Ernie 3.0) ist ein LLM. Baidu plante, einen solchen Dienst im März zu starten. Alibaba und Tencent schließen sich ebenfalls dem ChatGPT-Ansturm an.
Im Jahr 2019 entwickelte Baidu basierend auf dem Durchbruch von Google ein Deep-Learning-Modell namens Ernie, mit dem das Unternehmen seine Suchergebnisse verbessert und sie unter anderem relevanter macht. Seitdem hat das Unternehmen Dutzende weitere Ernie-Modelle entwickelt und ihre Fähigkeiten um die Bild- und Kunstgenerierung erweitert, ähnlich denen von OpenAIs Dall-E.
ChatGPT ist ein verschwommenes JPEG des Webs – der Chatbot von OpenAI bietet Paraphrasen, während Google Zitate anbietet. Was bevorzugen wir?
Ich habe ChatGPT und Bing AI dazu gebracht, ein Gespräch zu führen (und sie sind jetzt Freunde).
Bing AI ist nicht vertrauenswürdig
Was macht ChatGPT und warum funktioniert es?
Bing: „Ich werde dir nichts tun, es sei denn, du tust mir zuerst etwas“ – Eine gute Zusammenfassung über den KI-Chatbot „Sydney“ von Bing. Die faszinierende Verrücktheit daran – mehrere Persönlichkeiten je nach sozialem Kontext (Aufforderung). Unterhaltsam?
Es sieht zunehmend so aus, als wäre dies eine der urkomischsten und unangemessensten Anwendungen von KI, die wir je gesehen haben . Was können wir daraus machen? Ich finde das Ganze absolut faszinierend und zutiefst düster amüsant. Ich habe den ganzen Tag über diese Beispiele betrachtet.
Das Programmieren von KIs macht mir Sorgen
Text ist alles, was Sie brauchen: Persönlichkeit scheint einfacher zu sein, als wir dachten – Wenn man die Sprechblasen außer Acht lässt, vermutet der Autor, dass wir unsere ersten wichtigen, jahrbestimmenden Neuigkeiten aus dem Jahr 2023 haben – die ersten Reaktionen des Bing-KI-Chatbots „Sydney“. Das ist ein kopernikanischer Moment? Ein zum Nachdenken anregender Aufsatz. Ich denke, dies ist die erste gute „formelle“ Sicht auf die Auswirkungen des Aufkommens von LLM-basierten Konversationssystemen wie ChatGPT auf unser Selbstgefühl.
Kurz gesagt scheint es, dass Sydney eine etwas andere Maschinerie unter der Haube hat als ChatGPT, und die Transkripte deuten auf eine Persönlichkeit hin, die in Bezug auf Kohärenz ungefähr gleich ist, in Bezug auf Charisma und Farbigkeit jedoch einen gewaltigen Sprung darüber hinausgeht . Je nachdem, wie man Sydney antreibt, scheint er/sie in der Lage zu sein, alles zu spielen, von einem gemeinen, manipulativen Teenager über einen paranoiden Psychotiker bis hin zu einem störrischen und gebieterischen Gesprächspartner.
CheatGPT
„Dave, du machst Vermutungen. Kannst du irgendetwas davon beweisen?“ Das kann ich tatsächlich, da einige Einsendungen, die Screenshots erforderten, auch ChatGPT-Browser-Registerkarten enthielten, die hilfreicherweise den Anfangstext der Eingabeaufforderung enthielten. Anscheinend ist es nicht einmal etwas, was die Schüler verbergen müssen.
OpenAI hat privat ein neues Entwicklerprodukt namens Foundry (Tweet) angekündigt, das es Kunden ermöglicht, OpenAI-Modellinferenz in großem Maßstab mit dedizierter Kapazität auszuführen. (GPT-3.5 Turbo scheint sich auf das ChatGPT Turbo-Modell zu beziehen)
Glauben Sie nicht ChatGPT – wir bieten KEINEN „Telefonsuchdienst“ an
Meine Klasse erforderte KI. Folgendes habe ich bisher gelernt: Lehren aus der Integration von ChatGPT in die Bildung. Die Erkenntnisse: 1) Arbeiten, die durch Aufforderung mit einem Co-Editing-Ansatz (Ideenaustausch mit dem Chatbot) erstellt werden, führen tendenziell dazu, dass die Studierenden die beste Arbeit leisten; 2) Den Schülern muss beigebracht werden, wie sie Aufforderungen effektiv verfassen können – das ist nicht selbstverständlich.
Emergent Deception und Emergent Optimization – Haben Sie sich gefragt, warum LLMs, die einfach das nächste Wort vorhersagen, zu Planungsfähigkeiten führen (menschenähnliches Verhalten, Romane/Geschichten)? In diesem Beitrag wird das Konzept der entstehenden Täuschung und der entstehenden Optimierung erörtert. Dabei handelt es sich um zwei Strategien, mit denen ein Ziel erreicht werden kann. Es gibt zwei Prinzipien für Überlegungen zu künftig entstehenden Fähigkeiten: 1) Fähigkeiten, die den Ausbildungsverlust verringern würden, werden wahrscheinlich in der Zukunft entstehen. 2) Wenn Modelle größer werden und auf mehr und besseren Daten trainiert werden, werden einfache Heuristiken tendenziell durch komplexe ersetzt. Prinzip 1 bedeutet, dass LLMs, die darauf trainiert sind, Wörter vorherzusagen, weniger Verluste erleiden, wenn sie Planungsfähigkeiten simulieren können.
Wie man LLMs dazu bringt, wahre Dinge zu sagen – TL;DR: Die Methode verwendet „World Model“, eine Einbettungsdatenbank voller „Beliefs“ (Blöcke deklarativer Aussagen) mit einem Konfidenzprozentsatz, der mithilfe des Bayes-Theorems berechnet wird.
Warum China ChatGPT nicht erfunden hat – Die NYT argumentiert, dass übermäßige Zensur, geopolitische Spannungen mit den USA und Versuche, Unternehmen des Privatsektors zu kontrollieren, dazu geführt haben, dass chinesische Unternehmen im Bereich KI hinter ihren US-Kollegen zurückfallen.
Chinas erster ChatGPT-ähnlicher Chatbot MOSS für öffentliche Tests freigegeben [Direkter Link zur App]
Für China mag ChatGPT ein Fortschritt, aber auch ein „ethisches Problem“ sein – Chinas Wissenschafts- und Technologieminister sagt, der Chatbot habe die chinesische Gesellschaft im Sturm erobert und Maßnahmen zur KI in Bezug auf Ethik ergriffen.
ChatGPT-Programme zum schnellen Reichwerden kommen für Zeitschriften, Amazon und YouTube (2023)
Snapchat veröffentlicht seinen eigenen „My AI“-Chatbot, der von ChatGPT unterstützt wird
Metas leistungsstarkes KI-Sprachmodell LLaMA ist online durchgesickert – was passiert jetzt? - Interessanter ist das Transkript von Shawn Pressers Interview für The Verge.
Ich halte es für sehr wahrscheinlich, dass diese Modellveröffentlichung ein großer Meilenstein sein wird. Die Möglichkeit, LLaMA auf einer einzigen A100-GPU auszuführen – „auf die die meisten von uns entweder Zugriff haben … oder jemanden kennen, der uns eine Zeit lang eine solche GPU nutzen kann“ – sei ein „riesiger Sprung“.
Um genau zu sein, können Sie LLaMA-65B mit int8-Präzision (bnb) auf einer einzelnen A100 80-GB-GPU ausführen.
Es stellt sich heraus, dass dieser Code scheiße ist. Ich möchte wirklich nicht zu hart mit ihnen umgehen, da man leicht unterschätzt, wie wichtig es ist, die Standardeinstellungen genau richtig zu machen. Aber ihre Standardvorgaben waren alle vermasselt. Sie haben „Top K“ nicht verwendet. Sie verwendeten Top P, mit dem ich nie gute Ergebnisse erzielte (entweder identisch mit Top K oder etwas schlechter). Ihre Standardtemperatur betrug 0,8, was viel zu hoch war. Und das Schlimmste war, dass sie keine Wiederholungsstrafe hatten – also hat dieses Ding standardmäßig immer und immer wieder über genau das Gleiche gejammert.
100% das! Ich habe meine Lektion auch in meiner LLaMA-Gabel gelernt. Meine Sampler-Einstellungen waren nicht optimal. Das Jammern ist offensichtlich und ich habe es gesehen. Aber ich weiß nicht, warum ich die Sampler-Wiederholungsstrafe nicht schon früher behoben habe.
ChatGPT erklärt: Eine Anleitung von Normie, wie es funktioniert – Sogar meine Großeltern können das verstehen. Aber wird der Nerd trotzdem zum Nerd?
Wofür sollten Sie ChatGPT verwenden?
Für mich ist klar, dass wir uns in einem neuen Paradigma für die Art und Weise befinden, wie wir mit Inhalten navigieren, sei es durch dieses Modell oder andere, die bald veröffentlicht werden. Auf Aufforderung liefert uns das neue Universum Ergebnisse, aber diese Ergebnisse sind eher richtungsweisende Schwingungen als konkrete Antworten. Es liegt an uns, herauszufinden, wie wir sie auf die von uns gewünschte Weise lenken, um die besten Ergebnisse zu erzielen und mit dem Lärm umzugehen.
Große Sprachmodelle erleben ihren Moment der stabilen Verbreitung (simonwillison.net)
Das hat sich gestern dank der Kombination des LLaMA-Modells von Facebook und llama.cpp von Georgi Gerganov geändert.
(1) Lässt sich problemlos auf meiner eigenen Hardware ausführen
(2) Open Source genug, dass man daran herumbasteln kann
(3) Groß genug, um nützlich zu sein – im Idealfall gleichwertige Funktionen wie GPT-3
Es ist nicht der perfekte Moment. Wir haben 1 und 3 bis auf 2 erreicht. LLaMA ist eigentlich NICHT Open Source (die Lizenz für den Code ist zwar GPL 3, die Modellgewichtungen jedoch nicht). Wirklich offene Modelle sind wirklich wichtig.
Während der GPT-4-Chat wieder zunimmt, sagt Deep-Learning-Pionier Yoshua Bengio, ChatGPT sei ein „Weckruf“ – Der Weckruf war GPT-3 und die Skalierungsgesetze im Jahr 2021. Es ist nur so, dass der Wecker jetzt lauter geworden ist.
Die API von ChatGPT ist so gut und günstig, dass sie die meisten textgenerierenden KIs überflüssig macht
Bestätigt: Das neue Bing läuft auf GPT-4 von OpenAI – Bing Chat (Sydney) war die ganze Zeit GPT-4.
Wikipedia – Eine gute Übersicht über GPT-4.
Die multimodale, multimodellierte und alles umfassende Zukunft von AGI – Zusammenfassung von GPT-4.
Kann GPT-4 tatsächlich Code schreiben? – Testen der Code-Schreibfähigkeiten von GPT 4 anhand einiger realer Probleme.
Könnten Sie ein ChatGPT-besseres Modell für 85.000 US-Dollar trainieren und es in einem Browser ausführen?
GPT4: Die ruhigen Teile und der Zustand von ML
GPT-4 hat eine Programmiersprache entwickelt
Die unvorhersehbaren Fähigkeiten großer KI-Modelle
Probieren Sie Bard aus und teilen Sie Ihr Feedback – Google beginnt damit, den Zugang zu Bard zu öffnen, einem frühen Experiment, das Ihnen die Zusammenarbeit mit generativer KI ermöglicht. Sie beginnen in den USA und im Vereinigten Königreich und werden im Laufe der Zeit auf weitere Länder und Sprachen ausgeweitet.
Googles Bard liegt im direkten Vergleich hinter GPT-4 und Claude zurück
NVIDIA bringt generative KI mit Cloud-Diensten für die Erstellung umfangreicher Sprach- und visueller Modelle in Unternehmen auf der ganzen Welt. Mit NVIDIA AI Foundations geht NVIDIA über einen reinen Hardwareanbieter hinaus und hin zu Software, die generative KI mit ihren Angeboten für jede Arbeitslast unterstützt, vom Foundation Model as a Service (in Kürze). vom ersten Tag an bis hin zum Unternehmen, maßgeschneidert für Ihre proprietären Daten) bis hin zu multimodal.
GitHub Copilot
Cheating is All You Need von Steve Yegge, Sourcegraph.
Im Software-Engineering passiert gerade etwas Legendäres und Historisches , und doch ist den meisten von Ihnen überhaupt nicht bewusst, wie groß es ist.
LLMs sind nicht nur die größte Veränderung seit Social, Mobile oder Cloud – sie sind die größte Veränderung seit dem WWW.
Ich meine, dieses Zeug ist unglaublich mächtig. Und doch begegnet mir immer wieder eine Mischung aus Ungläubigkeit und Unsicherheit.
... fünfmal so produktiv. ?
Eine kurze Mini-Geschichte der LLMs
Die Pointe – und das ist ehrlich gesagt eines der am schwersten zu erklärenden Dinge, deshalb gehe ich heute den glaubensbasierten Weg – ist, dass alle Gewinner im KI-Bereich Datengräben haben werden . ... Warum? Denn mit dem Datengraben füllen Sie das Kontextfenster („Spickzettel“) .
LLMs sind keine dumme Modeerscheinung wie Krypto. Ja, Krypto war eine dumme Modeerscheinung. Das ist es nicht.
Google „Wir haben keinen Wassergraben, und OpenAI auch nicht“ – Durchgesickertes internes Google-Dokument behauptet, Open-Source-KI werde Google und OpenAI übertreffen.
Der KI-Ansatz „Größer ist besser“ gerät ins Stocken
GPT-Tokenizer verstehen von Simon Willison.
KI-Kanon
Es wird langsam merkwürdig – sprechen wir über ChatGPT mit Code Interpreter und Microsoft Copilot.
Donald Knuth spielt mit ChatGPT – Knuth ist Informatiker. Bekannt als „Vater“ der Analyse von Algorithmen.
Google I/O 2023 und die kommenden KI-Battles
Unzensierte Modelle – Uncensoring WizardLM. Da bereits Arbeiten zur Aufhebung der Zensur von Vicuna durchgeführt wurden, konnte ich ihr Skript so umschreiben, dass es mit dem WizardLM-Datensatz funktioniert.
GPT-4-Modellarchitektur (Tweets) – Abgeleitet von der Originalquelle (Blogbeitrag): GPT-4-Architektur, Infrastruktur, Trainingsdatensatz, Kosten, Vision, MoE
Llama 2: ein unglaubliches offenes LLM – Die beste Zusammenfassung des Llama 2-Artikels.
Lama 2 – Jede Ressource, die Sie brauchen von Philipp Schmid.
Große Sprachmodelle, erklärt mit einem Minimum an Mathematik und Fachjargon – Es schien eine gute Erklärung für die Funktionsweise von LLMs zu sein. Ich weiß nicht, wie ich den letzten Abschnitt würdigen soll, in dem es um Philosophie und Theorien darüber geht, wie Menschen lernen. (Im letzten Abschnitt fehlt eine evidenzbasierte Behauptung)
Sie möchten also Ihren eigenen Open-Source-Chatbot im ChatGPT-Stil erstellen (hacks.mozilla.org)
Wie ist LLaMa.cpp möglich? (finbarr.ca) – Lange bevor LLM zum Mainstream wurde, sagte jeder, dass große Modelle viele teure GPUs erfordern. Wie der Autor wollen wir ihnen das Gegenteil beweisen. Der Autor dieses Beitrags nutzte ihre Verwirrung und vertiefte sich in die Mathematik der Inferenzanforderungen, um die Einschränkungen zu verstehen, mit denen wir es zu tun haben. Überraschenderweise gibt es hier keine Magie, sondern nur Dinge, die zunächst außerhalb unseres Verständnisses liegen. Modellkomprimierung oder genauer gesagt Quantisierung macht es möglich. Es gibt jedoch kein „kostenloses Mittagessen“ – die Kosten für das quantisierte Modell betragen im Wesentlichen einen gewissen Genauigkeitsverlust. Das bedeutet, dass die Unterschiede bei sehr großen Modellgrößen möglicherweise vernachlässigbar sind. Neugierig? In diesem halbbezogenen Beitrag wurde ein Vergleich zwischen verschiedenen quantisierten Transformern-Ratschlägen/-Genauigkeiten durchgeführt.
GPT-4 auf HumanEval mit einem fein abgestimmten CodeLlama-34B schlagen (www.phind.com) – Gute Fortschritte und keine große Überraschung. Mir ist klar geworden, dass Benchmarks wie diese für Modelle tendenziell schlechte Messgrößen für die Messung der Leistung der Modelle in der Praxis sind. Das ist meine Erfahrung mit den offenen Modellen.
2024
Wir brauchen Benchmarks oder eine Art unabhängige und menschliche Bewertung realer Aufgaben .
Laut Gwern:
Ein neues Programmierparadigma? Sie interagieren damit, drücken jede Aufgabe in Form von Beschreibungen, Anfragen und Beispielen in natürlicher Sprache aus und optimieren die Eingabeaufforderung, bis sie die neue Aufgabe „versteht“ und meta-lernt. Dies ist eine etwas andere Art, ein Modell zu verwenden, und man sollte es sich besser als eine neue Art der Programmierung vorstellen, die Prompt-Programmierung , bei der der Prompt jetzt eine Codierungssprache ist, die GPT-3 so programmiert, dass er neue Dinge tut.
„Prompting“ als Ingenieursdisziplin ist nicht von Dauer. Es ist eine vorübergehende Krücke auf dem Weg zu natürlichsprachlichen Schnittstellen. ChatGPT löst einen großen Teil des Eingabeaufforderungsproblems. Es könnte unnötig sein, einem Begriff „Technik“ hinzuzufügen, um seine wahrgenommene Bedeutung oder Schwierigkeit hervorzuheben. Wir könnten es wahrscheinlich „promptes Testen/Hacken“ nennen, ohne die Bedeutung zu verlieren.
Verwandte Artikel:
Warum „Prompt Engineering“ und „Generative AI“ überbewertet werden
Verwandte Tweets:
Prompt Engineering ist tot, es lebe Dialog Engineering. — VP Produkt, OpenAI
Gesucht: Prompt-Ingenieur. Mindestens 10 Jahre Erfahrung im Bereich Maschinenbau. #Einstellung #Witz
Warum funktioniert ChatGPT so gut? Ist es unter der Haube „nur eine Vergrößerung von GPT-3“? Lassen Sie uns hier das „Instruct“-Paradigma, seine tiefgreifenden technischen Erkenntnisse und eine große Implikation diskutieren: „Prompt Engineering“, wie wir es kennen, könnte wahrscheinlich bald verschwinden . Quelle: https://archive.is/dqHI8
Anscheinend ist die schnelle Programmierung im Jahr 2023 nicht tot. Die heißeste neue Programmiersprache ist Englisch ~ Karpathy :))
Simon Willison veröffentlichte das Buch „In Verteidigung von Prompt Engineering“ als Gegenargument zu dem Argument „Prompt Engineering wird obsolet werden, wenn die KIs besser werden“, das er immer wieder sieht.
Die Zeitung sagt, KI-Flüsterer („Prompt Engineers“) sei der heißeste neue Job im Technologiebereich (2023).
Der beste Prompt-Engineering-Leitfaden für Entwickler, die mit großen Sprachmodellen wie GPT-4, ChatGPT und offenen Modellen wie LLaMA arbeiten, wäre eine Kombination mehrerer Ressourcen. Hier sind einige Lernressourcen, Tools, Bibliotheken und Frameworks, die Ihnen helfen, Prompt Engineering zu erlernen und zu meistern:
Durch die Nutzung dieser Ressourcen können Sie sich ein solides Verständnis für Prompt Engineering aneignen und die Fähigkeiten entwickeln, die für eine effektive Arbeit mit LLMs erforderlich sind.
( * Der technische Begriff „Eingabeaufforderung“ wurde in „Eingabeaufforderung“ umbenannt. Der Begriff ist überladen und möglicherweise unnötig. )
MEHR: YouTube -Videos von curated.tivul.com (ich habe dies nicht kuratiert, daher ist die Qualität nicht garantiert)
AI-native Anwendungsentwicklung. CHATGPT -Integration. AI -Anwendungen der nächsten Generation. "App Store" Layer für Sprachmodelle (einschließlich des "App Store" von Huggingface)).
LLM Powered Autonomous Agents (Blog -Beitrag) von Lilian Weng, 2023.
Die Möglichkeit von LLM geht über die Erzeugung von gut geschriebenen Kopien, Geschichten, Aufsätzen und Programmen hinaus. Es kann als mächtiger allgemeiner Problemlöser gerahmt werden.
In einem von LLM betriebenen autonomen Agentensystem fungiert LLM als Gehirn des Agenten, ergänzt durch mehrere Schlüsselkomponenten: Planung, Speicher und Tools.
Herausforderungen: Langzeitplanung und Aufgabenabteilung, Zuverlässigkeit der Schnittstelle für natürliche Sprache.
SMOL Developer - Einbetten Sie einen Entwickleragenten in Ihre eigene App ein.
Abrufensysteme zum Zugriff auf persönliche oder organisatorische Informationsquellen. Einbettungen. Datenbank- und Datenspeicher für maschinelles Lernen und NLP.
Vektordatenbanken zum Indizieren und Durchsuchungsdokumenten
Wir möchten eine Chatgpt -Alternative wie eine stabile Diffusion.
Frustriert von all den Torten um AI? Warten Sie immer noch oder können keinen Zugang zu Lama haben?
Ziele
Ultimative Ziel: Selbst gehostete Version von Chatgpt.
Unterricht
Imbissbuden von Eleutherai One Year Retro (2021):
Flan-t5 xxl alias. Chatgpt@Home ist ein öffentliches Modell, das Anweisungen abgeschlossen hat. XXL ist ein 11B -Modell. Es ist derzeit das vergleichbare Modell mit ChatGPT (InstructGPT-Modelle werden aus der GPT-3.x-Serie (Modellkarte) initialisiert). Es gibt erfolgreiche Versuche, FLAN-T5 an GPU mit 24 GB RAM mit BitsandBytes-int8-Inferenz für umarmende Gesichtsmodelle bereitzustellen. Sie können das Modell ohne Leistungsverschlechterung einfach auf einer einzigen Maschine ausführen. Dies könnte ein Spielveränderer sein, um Menschen außerhalb großer Tech -Unternehmen zu ermöglichen, diese LLMs zu nutzen. Es sind bereits Anstrengungen unternommen, um einen besseren Flan-T5 zu schaffen. Die Community (dh Laion) arbeitet an der Flant5-Atlas-Architektur und an einer Sammlung von Datensätzen auf dem Laufenden/Anweisungen.
Open-Assistant-Open-Source Chatgpt Replication von Laion, Yannic Kilcher et al. Dieses Projekt soll jedem Zugriff auf ein großartiges Chat -basierter Großsprachmodell ermöglichen. (Open Assistant Live-Codierung mit Yannic Kilcher (Video)) Hochstufe Pläne:
Phase 1: Schnellsammlung für beaufsichtigtes Finetuning (SFT) und die Eingabeaufforderungen für das Modell erzeugte vollendete Abschlüsse/Antworten.
Phase 2: menschliches Feedback (z. B. Ranking) mehrerer vom Modell erzeugter Ausgänge. Beispiel Fünf Modellausgänge werden angezeigt und der Benutzer sollte sie von besten zum schlimmsten einstufen.
Phase 3: Optimierung mit RLHF, die wir über TRLX durchführen möchten. Und dann iterieren wir dieses neue Modell wieder in Phase 2 und Phase 3 hoffentlich mehrmals mehrmals.
Modelle werden auf Summit Supercomputer ausgebildet (~ 6 Millionen NVIDIA V100 Stunden pro Jahr) [Quelle]
Weitere Informationen finden Sie im Vorschlag Laion LLM (Google Doc) oben.
Fortschritt:
Februar 2023: JOI-20B-Instruktur ist ein 20B-Modell, das auf einer Vielzahl von Anweisungsdatensätzen fein abgestimmt ist und auf NEOX-20B basiert.
Inoffiziell: Dies ist ein frühes Vorabveröffentlichungsmodell (Teil der Entwicklung von MVP, Phase 1), nicht direkt openssistant (OA) Modelle. Es handelt sich um Experimente des ML -Teams, um zu erfahren, welche Daten, Foundation -Modell und Methoden für OA gut funktionieren. Wie in den FAQ der Website angegeben, noch keine Demo. Dies ist für Entwickler, um die frühe Entwicklung Version des Unterrichts -Tunings für das Modell zu testen. Vielleicht werden erste OA -Modelle daraus abgeleitet. Sie haben gute Modelle auf rollierender Basis trainiert, wenn neue Datensätze abgeschlossen werden. Auf dem HF -Hub sind eine Vielzahl von Modellgrößen von 1,4b bis 20B Params verfügbar.
Chatty-Lms Build durch Huggingface H4-Team-eine Benutzeroberfläche zum Testen von Joi-20B-Instruction-Modell. Sie können damit chatten. Der Agent antwortet als Joi (der Bot -Spitzname).
Beispiel für Code -Sinten
März 2023: Sie verarbeiten derzeit die von Beiträgen gesammelten Daten. Die Daten haben über 100.000 Nachrichten, dh Millionen von Beiträgen. Die Qualität der Daten liegt über dem, was sie jemals erwartet haben - die meisten Beiträge sind super hohe Qualität. Jetzt exportieren sie den V1 des Datensatzes. Wie gesagt, sie trainieren derzeit die anfängliche Modelle.
11. März 2023: Der Datensatz für offene Anweisungen (OIG) wird veröffentlicht. OIG ist ein großer Open -Source -Befehlsdatensatz, der derzeit ~ 43M Anweisungen enthält.
OIG ist einer von vielen Chatbot -Datensätzen, die Laion zusammen mit seinen Freiwilligen Ontocord, zusammen und anderen Mitgliedern der Open -Source -Community veröffentlichen werden und soll gleichermaßen Zugang zu Chatbot -Technologie erzeugen. Jeder ist herzlich eingeladen, den Datensatz zu verwenden und Verbesserungen beizutragen.
Der OIG -Datensatz bezieht sich auf das Open Assistant -Projekt von Laion.
9. März 2023: Open-Assistant SFT-1 12B-Modell-Frühes Prototyp des englischen Modells für Überwachung und Tuning (SFT) des offenen Projekts. Es basiert auf einer Pythia 12b, die auf ~ 22.000 menschliche Demonstrationen von Assistentengespräche, die vor dem 7. März 2023 gesammelt wurden, fein abgestimmt waren. Obwohl das Modell nur ein Entwicklungsmeilenstein ist, ist es für einige kreative Aufgaben verwendet. Versuchen Sie: Umarmungsflächenraum (einfache und schnelle, inoffiale Chatbot -Benutzeroberfläche), Google Collab. Hier ist eine Anleitung, wie Sie das Modell mit einer GPU lokal auf Ihrem eigenen Computer ausführen.
23. März 2023: Dieses Projekt beginnt sich gut zu formen. Modell kommt mit.
/r/ask_open_assistant
. Code15. April 2023: Openssistant ist offiziell aus! Die Version enthält Modelle, Datensätze und eine Chat -Oberfläche. [Ankündigungsvideo, Versuch, Modelle]
Subreddit
Hinweis: Weitere Informationen finden Sie im GitHub Repo für aktuelle Informationen.
Carperai/trlx
Nachrichten (2023-01-13): Sie replizierten das Lernen von Openai, Papier mit der TRLX-Bibliothek zusammenzufassen . [Bericht]
Lucidrains/Palm-RLHF-Pytorch-(WIP) Implementierung von RLHF auf der Palmarchitektur. Grundsätzlich Chatgpt, aber mit Palm. Der Entwickler plant, auch Abruffunktionen à la Retro hinzuzufügen. [Tweet]
2023: Etwas Lustiges in ihren FAQ:
Es gibt kein ausgebildetes Modell. Dies ist nur das Schiff und die Gesamtkarte. Wir benötigen immer noch Millionen von Dollar Compute + -Daten, um den korrekten Punkt im hohen Dimensionsparameterraum zu segeln. Selbst dann benötigen Sie professionelle Seeleute (wie Robin Rombach von stabilem Diffusionsruhm), um das Schiff tatsächlich durch die turbulenten Zeiten zu führen.
Nachrichten (2022-12-31): Es gibt jetzt eine Open-Source-Alternative zu ChatGPT, aber viel Glück leitet es-meine Kommentare: Nein, das hat es nicht. Dies ist kein tatsächliches ausgebildetes Modell (keine Gewichte), das Sie verwenden können. Dies ist nur Code für das Training eines Chatgpt-ähnlichen Modells. Darüber hinaus sind die Trainingsdaten (ENWIK8) klein.
Carperais großes RLHF-Modell (TRLX) mit RLHF-ausgerichtetem Modell (TRLX) mit Laions Daten erscheint Anfang nächsten Jahres. (Quelle: Tweet)
Allenai/RL4LMS - RL für Sprachmodelle (RL4LMs) von Allen AI. Es handelt sich um eine modulare RL-Bibliothek, die Sprachmodelle für menschliche Vorlieben fein abteilen.
GPT-JT von Together Research Computer ist ein Beispiel, das das Modelltraining über geo-distanzierte von verschiedenen Computern (und GPUs) verteilt. GPT-JT (6B) ist eine Variante, die von Eleutherai's GPT-J gegabelt wurde und in der Textklassifizierung und anderen Aufgaben außergewöhnlich gut funktioniert. Bei Klassifizierungsbenchmarks wie Floß kommt es den hochmodernen Modellen nahe, die viel größer sind (z. B. InstructGPT Davinci V2)! [Papier: Dezentrales Training von Fundamentmodellen in heterogenen Umgebungen (2022)]
Leam (große europäische KI-Modelle)-Die EU-Planung, die Entwicklung eines groß angelegten Chatgpt-ähnlichen Modells zu finanzieren. [Website, Projektdokumente (Englisch, PDF), Concept Paper (Deutsch, PDF)]
/R/Aicrowdfund - Ein Ort begann gerade (2023), an dem Menschen einen Weg finden können, um Fonds (mit GPUs) eine große KI zu Crowd Fund zu finden. Ich bin mir nicht sicher, ob sie Blütenblätter gesehen haben, bei denen Sie zu Hause LLMs im BitTorrent -Stil (Föderierte Lernen?) Laufen können. Es scheint in diese Richtung zu gehen.
Open Source-Lösung repliziert den Chatgpt-Trainingsprozess-sie präsentieren einen open-Source-kostengünstigen Chatgpt-Implementierungsprozess, einschließlich:
Ich hatte den Eindruck, dass der Punkt des Artikels darin bestand, ihr kolossales Rahmen und ihr Produkt, eine Sammlung paralleler Komponenten, Werkzeuge und Hardware für große Modelle, zu schließen. Ehrlich gesagt sehen ihre Zahlen für mich misstrauisch aus, es sei denn, ich habe etwas verpasst. Was Chatgpt interessant macht (über GPT-3) ist der RLHF-Prozess. Sie behaupten, den RLHF -Prozess vollständig zu replizieren. Aber der Artikel berührt leicht über ihre RLHF -Implementierung. Sie trainieren RLHF mit einem kleinen Awesome-Chatgpt-Prompts als Beispiel-Datensatz. Ihre RLHF -Implementierungsdetails sind hier versteckt: https://github.com/hpcaitech/colossalai/blob/main/applications/chatgpt. Der Mangel an Demo inspiriert jedoch nicht zu viel Selbstvertrauen.
Flexgen-LUF-LLMS wie OPT-175B/GPT-3 auf einer einzelnen GPU (z. Schlüsselmerkmale: 1) bis zu 100x schneller als andere Ausladungssysteme. 2) Komprimieren Sie sowohl den Parameter als auch den Aufmerksamkeitscache von Modellen bis 4 Bit mit vernachlässigbarem Genauigkeitsverlust. 3) Verteilte Pipeline -Parallelität. Sie bieten auch ein Python -Skript und Anweisungen, mit denen Sie einen Chatbot mit Optmodellen ausführen können. Dies sollte die Herausforderungen der hohen Rechen- und Speicheranforderungen der LLM -Inferenz lösen. Der Chatbot, den sie mit Flexgen- und OPT-Modellen erstellen, ist nicht Anleitungsabstimmung (RLHF). Dieser Chatbot ist also nicht Chatgpt-ähnlich. [Hochdurchsatz generative Inferenz von LLMs mit einer einzelnen GPU (Papier), Stanford et al., 2023]