Eine kuratierte Liste von Open-Source-Anweisungsoptimierungsdatensätzen, Modellen, Artikeln und Repositories.
In Anlehnung an Longpre et al. listen wir alle vorhandenen Befehlsoptimierungsdatensätze auf, die aus herkömmlichen NLP-Aufgaben modifiziert wurden.
Freigeben | Datensätze | Anzahl der Aufgaben | Anzahl der Instanzen | Modellname | Base | Model_Size |
---|---|---|---|---|---|---|
2020-05 | UnifiedQA | 46 | 750.000 | UnifiedQA | Roberta | 110-340 M |
2021-04 | CrossFit | 159 | 71.M | BART-CrossFit | BART | 140 Mio |
2021-04 | Natural Inst v1.0 | 61 | 620 k | General BART | BART | 140 Mio |
2021-09 | Flan 2021 | 62 | 4,4 Millionen | Flan-LaMDA | LaMDA | 137B |
2021-10 | P3 | 62 | 12M | BIS, BIS+, BIS++ | T5-LM | 3-11B |
2021-10 | MetalCL | 142 | 3,5 Mio | MetalCL | GPT-2 | 770 Mio |
2021-11 | ExMix | 107 | 500 k | ExT5 | T5 | 220M-11B |
2022-04 | Super-natürliche Inst. | 1613 | 5M | Tk-Anweisung | T5-LM, mT5 | 17-13B |
2022-10 | GLM | 77 | 12M | GLM-130B | GLM | 130 v |
2022-10 | Flan 2022 | 1836 | 15M | Flan-T5, Flan-PaLM | T5-LM, PaLM | 10 M-540 B |
2022-11 | xP3 | 71 | 81M | BLOOMz, mTO | BLOOM, mT5 | 13-176B |
2022-12 | Unnatürliche Inst. | 117 | 64 k | T5-LM-Unnat. Inst. | T5-LM | 11B |
Freigeben | Modellname | Base | Model_Size | Datensätze | Anzahl der Instanzen | Sprache |
---|---|---|---|---|---|---|
2022-12 | GPT-3 Selbstinst. | GPT-3 | 175B | Selbstunterricht | 82 k | En |
03.03.2023 | Alpaka | Lama | 7B | alpaca_data | 52 k | En |
19.03.2023 | Alpaka-Lora | Lama | 7B 13B 30B | alpaca_data、alpaca_data_cleaned | 52 k | En |
23.03.2023 | Chinesisch-Vikunja | Lama | 7B 13B | BELLE、GuanacoDataset | 1M | Zh |
24.03.2023 | Alpaka-CoT | Lama | 7B | Datensatz | ---- | En Zh |
25.03.2023 | Dolly | Dolly | 6B | alpaca_data | 52 k | En |
25.03.2023 | Guanako | Lama | 7B | GuanacoDataset | 534 k | En Zh Ja De |
28.03.2023 | Chinesisches LLaMA-Alpaka | Lama | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Selbstunterricht | 2M | Zh |
29.03.2023 | ColossalChat | Lama | 7B 13B | AnleitungWild | 104 k | En Zh |
31.03.2023 | Luotuo | LLaMA ChatGLM | 7B 6B | trans_chinese_alpaca_data | 52k | Zh |
31.03.2023 | Großhirn-Lora-Alpaka | Cerebras-GPT | 2,7B | AlpacaDataCleaned | 52k | En |
Die meisten vorhandenen Datensätze sind auf Englisch. Der Großteil der Weltbevölkerung ist jedoch hinsichtlich der Verfügbarkeit von Daten für ihre Sprachen unterversorgt. Wie kann sichergestellt werden, dass jeder auf der ganzen Welt von generativer KI profitieren kann? Wir haben ein einfaches und quelloffenes Übersetzungstool auf Basis von Helsinki-NLP entwickelt, mit dem englische Datensätze kostenlos in über 100 Sprachen übersetzt werden können. Obwohl diese übersetzten Datensätze möglicherweise etwas Rauschen enthalten, dienen sie als praktikable Alternative zu kostspieligen, qualitativ hochwertigen Daten. Siehe unten.
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
Unser Tool ist für die Arbeit mit Alpaka-Daten und dem Helsinki-NLP/opus-mt-en-zh-Modell konzipiert. Unterschiedliche Datensätze oder Helsinki-NLP-Modelle führen zu unterschiedlichen Ergebnissen. Aufgrund der Einschränkungen des Modells und der Einschränkungen durch die Fähigkeiten des Modells ist die Übersetzungsqualität möglicherweise nicht immer optimal. Beispielsweise beobachteten wir Fälle wiederholter Wörter in den Übersetzungen vom Englischen ins Chinesische, was uns dazu veranlasste, „process.py“ zu entwickeln, um übersetzte Eingabeaufforderungen zu eliminieren, die Zeichenfolgen beliebiger Länge enthalten, die dreimal hintereinander vorkommen. Die finale Version stellen wir in „translated_alpaca_data.json“ zur Verfügung.
python process.py unprocessed_data_path
python process.py translated_data.json
# Das Helsinki-NLP-Modell verfügt möglicherweise über eine maximale Längenbeschränkung für Eingabesätze. Wir haben die Eingabeaufforderungen, die das Limit überschreiten, vor der Übersetzung verworfen.
Wir haben Artikel in diesem Bereich ausführlich geprüft und die wertvollsten unten aufgeführt:
Fein abgestimmte Sprachmodelle sind Zero-Shot-Lerner 2021.9
Multitasking-gesteuertes Training ermöglicht Zero-Shot-Aufgabengeneralisierung 2021.10
Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen 2022.3
Super-NaturalInstructions: Verallgemeinerung durch deklarative Anweisungen zu über 1600 NLP-Aufgaben 2022.4
Unbeaufsichtigte aufgabenübergreifende Generalisierung durch Retrieval Augmentation 2022.4
Unterrichtseinleitung: Von wenigen Beispielen zu Aufgabenbeschreibungen in natürlicher Sprache 2022.5
Skalierungsanweisungen – fein abgestimmte Sprachmodelle 2022.10
Erraten Sie die Anweisung! Umgedrehtes Lernen macht Sprachmodelle stärker Zero-Shot-Lernende 2022.10
Unnatürliche Anweisungen: Sprachmodelle mit (fast) keiner menschlichen Arbeit optimieren 2022.12
Verbesserung der aufgabenübergreifenden Generalisierung einheitlicher Tabelle-zu-Text-Modelle mit kompositorischen Aufgabenkonfigurationen 2022.12
Selbstunterricht: Sprachmodell mit selbstgenerierten Anweisungen ausrichten 2022.12
MultiInstruct: Verbesserung des multimodalen Zero-Shot-Lernens durch Instruction Tuning 2022.12
Die Flan-Sammlung: Entwerfen von Daten und Methoden für eine effektive Befehlsoptimierung 2023.1
Kontextbezogenes Unterrichtslernen 2023.2
Darüber hinaus haben wir eine Liste verwandter Repositories zur weiteren Referenz bereitgestellt.
Super-Anleitung-Lernen
awesome-instruction-dataset
ICL_PaperList
Prompt-im-Kontext-Lernen
LM-Argumentation
LLM-Reasoning-Papers
Chain-of-ThoughtsPapers
OpenICL