Dieses Repository ist die offizielle Pytorch -Implementierung des folgenden Papiers:
Yaoyiran Li, Anna Korhonen und Ivan Vulić. 2024 . In Proceedings der 62. Jahrestagung des Vereins für Computer -Linguistik (ACL 2024). [Papier]
Segel zielt darauf ab, unbeaufsichtigte Wortübersetzung / zweisprachige Lexikoninduktion (BLI) zu verbessern, indem (1) ein hochkonfidenzes Worttranslationswörterbuch mit Null-Shot-Aufforderung abgeleitet wird, (2) dann optional verfeinert und das hochverträgliche Wörterbuch iterativ mit wenigen Schussanlaufen dort verfeinert wird, wobei nur wenige Schussanlaufen dorthin bestehen, wo sie auffordert Die In-Kontext-Beispiele stammen aus dem High-Confidence-Wörterbuch in der vorherigen Iteration, und (3) leitete schließlich die Bewertung des BLI-Testsatzes mit wenigen Schichten durch, die auch In-Kontext-Proben aus dem neuesten Hochverträglichkeitsprüfungswörterbuch abgeben. Der gesamte Prozess nutzt keine Grundword-Übersetzungspaare für das Training/wenige Schüsse und verbessert die BLI-Bewertungen um 10 bis 15 Präzision@1 Punkte auf unseren BLI-Benchmarks im Vergleich zu Null-Shot-Aufforderung.
Nach unseren früheren Arbeiten ContrastiveBli, Blicer und prompt4bli werden unsere Daten aus den Xling (8 Sprachen, insgesamt 56 BLI-Anweisungen) und Panlex-Bli (15 Sprachen mit niedrigerer Ressourcen, insgesamt 210 BLI-Richtungen) erhalten.
Holen Sie sich Xling -Daten:
sh get_xling_data.sh
Für Panlex-Bli siehe bitte ./get_panlex_data, wo wir den Code zur Ableitung der einsprachigen Wort-Einbettungen bereitstellen.
Bereiten Sie das BLI -Wortschatz vor:
python run_extract_vocabularies.py
BLI-Bewertung mit Segel ausführen (definieren Sie wichtige Hyperparameter, Verzeichnisse und Sprachpaare, um manuell in Run_bli.py zu bewerten):
python run_bli.py
(Optional) Führen Sie mit Lama-Modellen mit Lama-Modellen ein, die in prompt4Bli eingeführt wurden:
python run_zero_shot.py
(Optional) Führen Sie mit ChatGPT-Modellen mit ChatGPT-Modellen eine Basislinie aus, die in forderd4BLI in fordert4BLI eingeführt wird.
python run_zero_shot_chatgpt.py
Hauptversuche (Segel):
Unsere Hauptexperimente umfassen vier vorbereitete Lama-Modelle ohne Anweisungsabbau.
Llm | (Umarme Gesicht) Modell -ID |
---|---|
Lama-7b | "Huggyllama/llama-7b" |
Lama-13b | "Huggyllama/lama-13b" |
LAMA2-7B | "meta-llama/lama-2-7b-hf" |
LAMA2-13B | "meta-llama/lama-2-13b-hf" |
UPDATE: LLAMA3-8B meta-llama/Meta-Llama-3-8B
wird jetzt auch in unserem Code-Repo unterstützt.
Zusätzliche ChatGPT-Experimente (nur Null-Shot-Aufforderung, entsprechend dem Abschnitt 4.2 unseres Papiers):
Da die Anweisungsabstimmung von ChatGPT-Modellen wahrscheinlich große parallele Daten für die maschinelle Übersetzung abdeckt, sind sie nicht für unbeaufsichtigte BLI geeignet (außerdem kann der RLHF auch Überwachungssignale der Übersetzung von Wort-/Satzebene aus Annotatoren/Benutzern enthalten ). Wir berichten von ChatGPT-Ergebnissen, die mit Null-Shot-Aufforderung nur als Referenz abgeleitet sind.
Llm | (OpenAI API) Modell -ID |
---|---|
GPT-3.5 | "GPT-3,5-Turbo-0125" |
GPT-4 | "GPT-4-Turbo-2024-04-09" |
Wir veröffentlichen auch die mit LLAMA2-13B abgeleiteten selbstgemachten Wörterbücher, wie in Abschnitt 4.2 in der Abschnitt 4.2 in. Diese hohen Konfidenzwörterbücher werden mit n IT = 1, n f = 5000 und mit Wort zurückübertretend abgeleitet.
Bitte zitieren Sie unser Papier, wenn Sie Segelbli nützlich finden.
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}