該存儲庫是以下論文的官方Pytorch實施:
Yaoyiran Li,Anna Korhonen和IvanVulić。 2024。self- a uggented i n-context l賺取無監督的單詞翻譯。在計算語言學協會第62屆年會論文集(ACL 2024)。 [紙]
SAIL旨在通過(1)通過(1)推斷出一個高信心單詞翻譯詞典,以零拍的提示, (2)可選地完善高信心詞典,在哪裡提示,很少有在哪裡提示,從而,中文中的示例來自上一次迭代中的高信心詞典, (3)最終對BLI測試集進行評估,幾乎沒有彈性提示,也從最新的高信心詞典中得出了內在樣本。整個過程不利用任何基本真相的單詞翻譯對進行訓練/少量學習,並將BLI分數提高了通常的10〜15 Precision@1分在我們的BLI基準測試中,而不是零拍攝的提示。
遵循我們以前的工作對比,blicer和stress4bli,我們的數據是從Xling(總共8種語言,56個BLI方向)和Panlex-Bli(15種低資源語言,總計210個BLI方向)獲得的。
獲取Xling數據:
sh get_xling_data.sh
對於Panlex-Bli,請參閱./get_panlex_data,我們提供用於得出單語單詞嵌入的代碼。
準備Bli詞彙:
python run_extract_vocabularies.py
使用帆進行BLI評估(定義關鍵的超參數,目錄和語言對,以在run_bli.py中手動評估):
python run_bli.py
(可選)運行零射擊提示在提示4Bli中引入的基線,並帶有Llama型號:
python run_zero_shot.py
(可選)運行零射擊提示提示基線在提示4Bli中帶有ChatGpt型號:
python run_zero_shot_chatgpt.py
主要實驗(帆):
我們的主要實驗包括四個沒有指導調查的經過闡述的駱駝模型。
LLM | (擁抱面)模型ID |
---|---|
Llama-7b | “ Huggyllama/Llama-7b” |
Llama-13b | “ Huggyllama/Llama-13b” |
Llama2-7b | “ Meta-llama/Llama-2-7b-hf” |
Llama2-13b | “ Meta-llama/Llama-2-13b-hf” |
更新:Llama3-8B meta-llama/Meta-Llama-3-8B
現在也支持我們的代碼回購。
附加的ChatGpt實驗(僅零射擊提示,對應於我們的論文第4.2節):
由於ChatGpt模型的指令調整可能涵蓋用於機器翻譯的大規模並行數據,因此它們不適合無監督的BLI(此外,RLHF還可以包括來自註釋者/用戶的單詞/句子級翻譯的監督信號)。我們報告以零拍的提示得出的chatgpt結果,僅作為參考。
LLM | (OpenAI API)型號ID |
---|---|
GPT-3.5 | “ GPT-3.5-Turbo-0125” |
GPT-4 | “ GPT-4-Turbo-2024-04-09” |
我們還發布了與Llama2-13b得出的自我提出的詞典,如本文第4.2節中的第4.2節中所討論的。這些高信心詞典通過n = 1,n f = 5000以及單詞反向翻譯推斷出來。
如果您發現Sail-Bli有用,請引用我們的紙張。
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}