sail bli下载 - sail bli源代码下载

sail bli

Ai源码

1.0.0

下载

帆布

该存储库是以下论文的官方Pytorch实施：

Yaoyiran Li，Anna Korhonen和IvanVulić。 2024。self- a uggented i n-context l赚取无监督的单词翻译。在计算语言学协会第62届年会论文集（ACL 2024）。 [纸]

SAIL旨在通过（1）通过（1）推断出一个高信心单词翻译词典，以零拍的提示， （2）可选地完善高信心词典，在哪里提示，很少有在哪里提示，从而，中文中的示例来自上一次迭代中的高信心词典， （3）最终对BLI测试集进行评估，几乎没有弹性提示，也从最新的高信心词典中得出了内在样本。整个过程不利用任何基本真相的单词翻译对进行训练/少量学习，并将BLI分数提高了通常的10〜15 Precision@1分在我们的BLI基准测试中，而不是零拍摄的提示。

依赖性

pytorch> = 1.10.1
变形金刚> = 4.28.1
OpenAi> = 1.28.1（可选）

数据

遵循我们以前的工作对比，blicer和stress4bli，我们的数据是从Xling（总共8种语言，56个BLI方向）和Panlex-Bli（15种低资源语言，总计210个BLI方向）获得的。

获取Xling数据：

sh get_xling_data.sh

对于Panlex-Bli，请参阅./get_panlex_data，我们提供用于得出单语单词嵌入的代码。

运行代码

准备Bli词汇：

python run_extract_vocabularies.py

使用帆进行BLI评估（定义关键的超参数，目录和语言对，以在run_bli.py中手动评估）：

python run_bli.py

（可选）运行零射击提示在提示4Bli中引入的基线，并带有Llama型号：

python run_zero_shot.py

（可选）运行零射击提示提示基线在提示4Bli中带有ChatGpt型号：

python run_zero_shot_chatgpt.py

在我们的工作中使用的LLM

主要实验（帆）：

我们的主要实验包括四个没有指导调查的经过阐述的骆驼模型。

LLM	（拥抱面）模型ID
Llama-7b	“ Huggyllama/Llama-7b”
Llama-13b	“ Huggyllama/Llama-13b”
Llama2-7b	“ Meta-llama/Llama-2-7b-hf”
Llama2-13b	“ Meta-llama/Llama-2-13b-hf”

更新：Llama3-8B meta-llama/Meta-Llama-3-8B现在也支持我们的代码回购。

附加的ChatGpt实验（仅零射击提示，对应于我们的论文第4.2节）：

由于ChatGpt模型的指令调整可能涵盖用于机器翻译的大规模并行数据，因此它们不适合无监督的BLI（此外，RLHF还可以包括来自注释者/用户的单词/句子级翻译的监督信号）。我们报告以零拍的提示得出的chatgpt结果，仅作为参考。

LLM	（OpenAI API）型号ID
GPT-3.5	“ GPT-3.5-Turbo-0125”
GPT-4	“ GPT-4-Turbo-2024-04-09”

自称高信心词典

我们还发布了与Llama2-13b得出的自我提出的词典，如本文第4.2节中的第4.2节中所讨论的。这些高信心词典通过_n = 1，n _f = 5000以及单词反向翻译推断出来。

引用

如果您发现Sail-Bli有用，请引用我们的纸张。

 @inproceedings { li-etal-2024-self-augmented ,
    title     = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
    author    = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
    booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,    
    year      = { 2024 }
}