Awesome LLM Large Language Models Notes Download - Awesome LLM Large Language Models Notes Quellcode-Download

Awesome LLM Large Language Models Notes

AI-Quellcode

1.0.0

Herunterladen

Awesome-LLM-Large-Language-Models-Notes

Bekannte LLM-Modelle nach Jahr sortiert

Kleine Einführung, Papier, Code usw.

Jahr	Name	Papier	Info	Durchführung
2017	Transformator	Aufmerksamkeit ist alles, was Sie brauchen	Der Schwerpunkt der ursprünglichen Forschung lag auf Übersetzungsaufgaben.	TensorFlow + Artikel
2018	GPT	Verbesserung des Sprachverständnisses durch generatives Vortraining	Das erste vorab trainierte Transformer-Modell, das zur Feinabstimmung verschiedener NLP-Aufgaben verwendet wurde und modernste Ergebnisse erzielte
2018	BERT	BERT: Vorschulung tiefer bidirektionaler Transformatoren zum Sprachverständnis	Ein weiteres großes vorab trainiertes Modell, das darauf ausgelegt ist, bessere Zusammenfassungen von Sätzen zu erstellen	PyTorch
2019	GPT-2	Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende	Eine verbesserte (und größere) Version von GPT, die aus ethischen Gründen nicht sofort veröffentlicht wurde
2019	DistilBERT – Destilliertes BERT	DistilBERT, eine destillierte Version von BERT: kleiner, schneller, billiger und leichter	Eine destillierte Version von BERT, die 60 % schneller ist, 40 % weniger Speicher benötigt und dennoch 97 % der Leistung von BERT beibehält
2019	BART	BART: Denoising Sequence-to-Sequence-Vortraining für die Erzeugung, Übersetzung und das Verständnis natürlicher Sprache	Große vorab trainierte Modelle, die dieselbe Architektur wie das ursprüngliche Transformer-Modell verwenden.
2019	T5	Erkundung der Grenzen des Transferlernens mit einem einheitlichen Text-zu-Text-Transformer	Große vorab trainierte Modelle, die dieselbe Architektur wie das ursprüngliche Transformer-Modell verwenden.
2019	ALBERT	ALBERT: Ein Lite-BERT für das selbstüberwachte Lernen von Sprachdarstellungen
2019	RoBERTa – Ein robust optimierter BERT-Pretraining-Ansatz	RoBERTa: Ein robust optimierter BERT-Pretraining-Ansatz
2019	STRG	CTRL: Ein bedingtes Transformer-Sprachmodell für die steuerbare Generierung
2019	Transformator XL	Transformer-XL: Aufmerksame Sprachmodelle über einen Kontext fester Länge hinaus	Verwendet eine Wiederholungsmethode über vergangene Zustände in Verbindung mit relativer Positionskodierung, die längerfristige Abhängigkeiten ermöglicht
2019	Diablo GPT	DialoGPT: Groß angelegtes generatives Vortraining für die Generierung von Konversationsantworten	Geschult anhand von 147 Millionen gesprächsähnlichen Austauschen, die aus Reddit-Kommentarketten über einen Zeitraum von 2005 bis 2017 extrahiert wurden	PyTorch
2019	ERNIE	ERNIE: Verbesserte Sprachdarstellung mit informativen Entitäten	In diesem Artikel verwenden wir sowohl große Textkorpora als auch KGs, um ein erweitertes Sprachrepräsentationsmodell (ERNIE) zu trainieren, das lexikalische, syntaktische und Wissensinformationen gleichzeitig voll ausnutzen kann.
2020	GPT-3	Sprachmodelle sind Few-Shot-Lernende	Eine noch größere Version von GPT-2, die eine Vielzahl von Aufgaben gut bewältigen kann, ohne dass eine Feinabstimmung erforderlich ist (Zero-Shot-Lernen genannt).
2020	ELEKTRA	ELECTRA: TEXT-ENCODER ALS DISKRIMINATOREN UND NICHT ALS GENERATOREN VORSCHULEN
2020	mBART	Mehrsprachiges Rauschunterdrückungs-Vortraining für neuronale maschinelle Übersetzung
2021	CLIP (Kontrastive Sprache-Bild-Vorschulung)	Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache	CLIP ist ein neuronales Netzwerk, das auf eine Vielzahl von (Bild-, Text-)Paaren trainiert wird. Es kann in natürlicher Sprache angewiesen werden, den relevantesten Textausschnitt bei einem gegebenen Bild vorherzusagen, ohne direkt für die Aufgabe zu optimieren, ähnlich wie die Zero-Shot-Funktionen von GPT-2 und 3.	PyTorch
2021	DALL-E	Zero-Shot-Text-zu-Bild-Generierung		PyTorch
2021	Gopher	Skalierende Sprachmodelle: Methoden, Analysen und Erkenntnisse von Training Gopher
2021	Entscheidungstransformator	Entscheidungstransformator: Verstärkungslernen durch Sequenzmodellierung	Eine Architektur, die das Problem von RL als bedingte Sequenzmodellierung umsetzt.	PyTorch
2021	GLam (Generalistisches Sprachmodell)	GLaM: Effiziente Skalierung von Sprachmodellen mit Expertenmix	In diesem Artikel schlagen wir eine Familie von Sprachmodellen namens GLaM (Generalist Language Model) vor und entwickeln sie, die eine spärlich aktivierte Expertenmischungsarchitektur verwendet, um die Modellkapazität zu skalieren und gleichzeitig im Vergleich zu dichten Varianten wesentlich geringere Trainingskosten verursacht.
2022	chatGPT/InstructGPT	Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen	Dieses trainierte Sprachmodell kann Benutzerabsichten viel besser verfolgen als GPT-3. Das Modell wird mithilfe von Reinforcement Learning with Human Feedback (RLHF) optimiert (feinabgestimmt), um einen Konversationsdialog zu erreichen. Das Modell wurde anhand einer Vielzahl von Daten trainiert, die von Menschen geschrieben wurden, um Antworten zu erzielen, die wie Menschen klingen.	:-:
2022	Chinchilla	Training rechenoptimaler großer Sprachmodelle	Verwendet das gleiche Rechenbudget wie Gopher, jedoch mit 70 B Parametern und viermal mehr Daten.	:-:
2022	LaMDA – Sprachmodelle für Dialoganwendungen	LaMDA	Es handelt sich um eine Familie transformatorbasierter neuronaler Sprachmodelle, die auf den Dialog spezialisiert sind
2022	DQ-BART	DQ-BART: Effizientes Sequenz-zu-Sequenz-Modell durch gemeinsame Destillation und Quantisierung	Schlagen Sie vor, das Modell gemeinsam zu destillieren und zu quantisieren, wobei das Wissen vom Lehrermodell mit voller Präzision auf das quantisierte und destillierte Schülermodell mit niedriger Präzision übertragen wird.
2022	Flamingo	Flamingo: ein visuelles Sprachmodell für Few-Shot-Lernen	Der Aufbau von Modellen, die mit nur einer Handvoll annotierter Beispiele schnell an neuartige Aufgaben angepasst werden können, ist eine offene Herausforderung für die multimodale maschinelle Lernforschung. Wir stellen Flamingo vor, eine Familie von Visual Language Models (VLM) mit dieser Fähigkeit.
2022	Gato	Ein generalistischer Agent	Inspiriert durch Fortschritte bei der groß angelegten Sprachmodellierung wenden wir einen ähnlichen Ansatz an, um einen einzelnen generalistischen Agenten zu erstellen, der über den Bereich der Textausgaben hinausgeht. Der Agent, den wir als Gato bezeichnen, arbeitet als multimodale, multitaskige, multiverkörperte generalistische Politik.
2022	GODEL: Groß angelegtes Vortraining für zielgerichteten Dialog	GODEL: Groß angelegtes Vortraining für zielgerichteten Dialog	Im Gegensatz zu früheren Modellen wie DialoGPT nutzt GODEL eine neue Phase des fundierten Vortrainings, um die Anpassung von GODEL an eine Vielzahl nachgelagerter Dialogaufgaben, die Informationen außerhalb des aktuellen Gesprächs erfordern (z. B. eine Datenbank oder ein Dokument), besser zu unterstützen gute Antworten hervorbringen.	PyTorch
2023	GPT-4	GPT-4 Technischer Bericht	Das Modell akzeptiert jetzt multimodale Eingaben: Bilder und Text	:-:
2023	BloombergGPT	BloombergGPT: Ein großes Sprachmodell für das Finanzwesen	Auf den Finanzbereich spezialisiertes LLM, geschult auf den umfangreichen Datenquellen von Bloomberg
2023	BLÜHEN	BLOOM: Ein mehrsprachiges Open-Access-Sprachmodell mit 176B Parametern	BLOOM (BigScience Large Open-Science Open-Access Multilingual Language Model) ist ein reines Decoder-Transformer-Sprachmodell, das auf dem ROOTS-Korpus trainiert wurde, einem Datensatz, der Hunderte von Quellen in 46 natürlichen und 13 Programmiersprachen (insgesamt 59) umfasst.
2023	Lama 2	Lama 2: Open Foundation und fein abgestimmte Chat-Modelle		PyTorch #1 PyTorch #2
2023	Claude	Claude	Claude kann 75.000 Wörter (100.000 Token) analysieren. GPT4 kann nur 32,7.000 Token verarbeiten.
2023	SelfCheckGPT	SelfCheckGPT: Ressourcenlose Black-Box-Halluzinationserkennung für generative große Sprachmodelle	Ein einfacher stichprobenbasierter Ansatz, mit dem Black-Box-Modelle ressourcenschonend, also ohne externe Datenbank, auf Fakten überprüft werden können.

LLM-Modelle nach Größe klassifiziert

Name	Größe (# Parameter)	Trainingstoken	Trainingsdaten
GLaM	1,2T
Gopher	280B	300B
BLÜHEN	176B		ROOTS-Korpus
GPT-3	175B
LaMDA	137B	168B	1,56 T Wörter öffentliche Dialogdaten und Webtext
Chinchilla	70B	1,4T
Lama 2	7B, 13B und 70B
BloombergGPT	50B	363B+345B
Falcon40B	40B	1T	1.000 Milliarden RefinedWeb-Token

M=Million | B=Milliarde | T=Billion

Nach Namen klassifizierte LLM-Modelle

ALBERT | Alpaka
BART | BERT | Großer Vogel | BLÜTE |
Chinchilla | CLIP | STRG | chatGPT | Claude
DALL-E | DALL-E-2 | Entscheidungstransformatoren | DialoGPT | DistilBERT | DQ-BART |
ELEKTRA | ERNIE
Flamingo | Falcon40B
Gato | Gopher | GLaM | GLEITEN | GPT | GPT-2 | GPT-3 | GPT-4 | GPT-Neo | Gödel | GPT-J
Bild | InstructGPT
Jura-1
LaMDA | Lama 2
mBART | Megatron | Minerva | MT-NLG
OPT
Palme | Pegasus
RoBERTa
SeeKer | Swin-Transformator | Schalter | SelfCheckGPT
Transformator | T5 | Flugbahntransformatoren | Transformator XL | Turing-NLG
ViT
Wu Dao 2.0 |
XLM-RoBERTa | XLNet

Klassifizierung nach Architektur

Architektur	Modelle	Aufgaben
Nur-Encoder, auch bekannt als Transformer-Modelle mit automatischer Kodierung	ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa	Satzklassifizierung, Erkennung benannter Entitäten, extraktive Fragenbeantwortung
Nur Decoder, auch bekannt als autoregressive (oder kausale) Transformer-Modelle	STRG, GPT, GPT-2, Transformer XL	Textgenerierung nach Aufforderung
Encoder-Decoder, auch bekannt als Sequenz-zu-Sequenz-Transformer-Modelle	BART, T5, Marian, mBART	Zusammenfassung, Übersetzung, generative Beantwortung von Fragen

Was ist das Besondere an HuggingFace?

HuggingFace, eine beliebte NLP-Bibliothek, bietet aber auch eine einfache Möglichkeit, Modelle über ihre Inferenz-API bereitzustellen. Wenn Sie ein Modell mit der HuggingFace-Bibliothek erstellen, können Sie es dann trainieren und in den Model Hub hochladen. Lesen Sie hier mehr darüber.
Liste der Notebooks

Pflichtlektüre für LLM-Artikel

2014 | Neuronale maschinelle Übersetzung durch gemeinsames Lernen des Ausrichtens und Übersetzens
2022 | EINE UMFRAGE ZU GPT-3
2022 | Effiziente Skalierung der Transformatorinferenz
Unverzichtbare Artikel zu vorab trainierten Sprachmodellen (PLMs)

Zusammenfassung | Bring mich auf den neuesten Stand!

Informieren Sie sich über die seltsame Welt der LLMs

Blogartikel

Erstellen eines Synthesizers mit ChatGPT
PubMed GPT: ein domänenspezifisches großes Sprachmodell für biomedizinischen Text
ChatGPT – Wo es fehlt
Tolle ChatGPT-Eingabeaufforderungen
ChatGPT vs. GPT3: Der ultimative Vergleich
Prompt Engineering 101: Einführung und Ressourcen
Transformatormodelle: eine Einführung und ein Katalog – Ausgabe 2022
Können GPT-3 oder BERT jemals Sprache verstehen?⁠ – Die Grenzen von Deep-Learning-Sprachmodellen
10 Dinge, die Sie über BERT und die Transformer-Architektur wissen müssen, die die KI-Landschaft neu gestalten
Umfassender Leitfaden zu Transformatoren
BERT entlarven: Der Schlüssel zur Leistung von Transformatormodellen
Transformer-NLP-Modelle (Meena und LaMDA): Sind sie „fühlend“ und was bedeutet das für Open-Domain-Chatbots?
Vorgefertigte Modelle mit umarmendem Gesicht: Finden Sie das beste Modell für Ihre Aufgabe
Inferenzoptimierung für große Transformatormodelle
4-teiliges Tutorial zur Funktionsweise von Transformatoren: Teil 1 | Teil 2 | Teil 3 | Teil 4
Was macht einen Dialogagenten nützlich?
Große Sprachmodelle verstehen – Eine transformative Leseliste
Schnelles Engineering
Erstellen von LLM-Anwendungen für die Produktion
Entwicklerhandbuch zu LLMOps: Prompt Engineering, LLM-Agenten und Observability
Argument für die Verwendung von RL-LLMs
Warum Google und OpenAI gegenüber den Open-Source-Communities verlieren
Sie wissen wahrscheinlich nicht, wie man Prompt Engineering durchführt!
Die ganze Geschichte großer Sprachmodelle und RLHF
Die Evaluierungen von OpenAI verstehen
Was wir über LLMs wissen (Einführung)
F***k dich, zeig mir die Aufforderung.

Kennen Sie ihre Grenzen!

ChatGPT und Wolfram|Alpha
Zahlen, die jeder LLM-Entwickler kennen sollte

Start-up-Finanzierungslandschaft

NLP-Startup-Finanzierung im Jahr 2022

Verfügbare Tutorials

Aufbau einer Suchmaschine mit einem vorab trainierten BERT-Modell
Feinabstimmung des vorab trainierten BERT-Modells für die Textklassifizierungsaufgabe
Feinabstimmung des vorab trainierten BERT-Modells anhand des Amazon-Produktbewertungsdatensatzes
Stimmungsanalyse mit Hugging Face-Transformator
Feinabstimmung des vorab trainierten BERT-Modells für die Klassifizierungsaufgabe der YELP-Überprüfung
HuggingFace-API
UmarmungGesichtsmaskenfüllung
HuggingFace NER-Namensentitätserkennung
HuggingFace-Fragen im Kontext beantworten
HuggingFace-Textgenerierung
HuggingFace Textzusammenfassung.ipynb
HuggingFace Zero-Shot-Lernen

Eine kleine Anmerkung zum Notebook-Rendering

Es stehen zwei Notebooks zur Verfügung:
- Eines mit farbigen Kästchen und Außenordner GitHub_MD_rendering
- Eines in Schwarzweiß im Ordner GitHub_MD_rendering

So führen Sie das Notebook in Google Colab aus

Die einfachste Möglichkeit wäre, dieses Repository zu klonen.
Navigieren Sie zu Google Colab und öffnen Sie das Notizbuch direkt in Colab.
Sie können es dann auch zurück auf GitHub schreiben, sofern die Erlaubnis für Colab erteilt wird. Der gesamte Vorgang ist automatisiert.

Implementierungen von Grund auf

So programmieren Sie BERT mit PyTorch
miniGPT in PyTorch
nanoGPT in PyTorch
Die TensorFlow-Implementierung von Attention ist alles, was Sie brauchen + Artikel

Expandieren

Zusätzliche Informationen