هذا المستودع هو تنفيذ Pytorch الرسمي للورقة التالية:
Yaoyiran Li و Anna Korhonen و Ivan Vulić. 2024. s elf- a ugmented i n-context l كسب لترجمة الكلمات غير الخاضعة للإشراف . في وقائع الاجتماع السنوي 62 لجمعية اللغويات الحاسوبية (ACL 2024). [ورق]
تهدف SAR إلى تحسين ترجمة الكلمات غير الخاضعة للإشراف / تحريض المعجم ثنائي اللغة (BLI) بواسطة (1) استنتاج قاموس ترجمة الكلمات العالي الثقة مع طرافة صفرية ، (2) ثم تنقيح اختياريًا للقاموس عالي الثقة بشكل متكرر مع طرفي قليل من الطرفين حيث أمثلة في السياق هي من قاموس الثقة العالية في التكرار السابق ، و (3) إجراء تقييم أخيرًا على اختبار BLI مع طلقة قليلة من المشتقة أيضًا من عينات النص من أحدث قاموس الثقة العالية. لا تستفيد العملية بأكملها من أي أزواج ترجمة كلمة أرضية لتعلم التدريب/التعلم قليلًا وتحسن درجات BLI من خلال 10 ~ 15 نقطة@1 نقاط على معايير BLI الخاصة بنا مقارنة بالتقاط الصفر.
باتباع عملنا السابق ، يتم الحصول على بياناتنا و PROPRESTR4BLI ، حيث يتم الحصول على بياناتنا من XLING (8 لغات ، 56 اتجاهات BLI في المجموع) و ELSLEX-BLI (15 لغة منخفضة الموارد ، 210 اتجاهات BLI في المجموع).
الحصول على بيانات xling:
sh get_xling_data.sh
بالنسبة إلى Panlex-BLI ، يرجى الاطلاع على ./get_panlex_data ، حيث نقدم الرمز لاستخلاص تضمينات الكلمة أحادية اللغة.
إعداد المفردات BLI:
python run_extract_vocabularies.py
قم بتشغيل تقييم BLI مع SAIL (حدد المعلميات الفائقة والدولة وأزواج اللغة لتقييم يدويًا في Run_bli.py):
python run_bli.py
(اختياري) Run Zero-Shot Prompting Baseline تم تقديمه في Promper4Bli مع نماذج Llama:
python run_zero_shot.py
(اختياري) قم بتشغيل خط الأساس الصفر الذي يدفعه خط الأساس الذي تم تقديمه في Promper4Bli مع نماذج ChatGPT:
python run_zero_shot_chatgpt.py
التجارب الرئيسية (الشراع):
تشمل تجاربنا الرئيسية أربعة نماذج لاما المسبقة دون صياغة التعليمات.
LLM | (معانقة الوجه) معرف النموذج |
---|---|
لاما -7 ب | "Huggyllama/Llama-7B" |
لاما -13 ب | "Huggyllama/Llama-13B" |
لاما 2-7 ب | "Meta-llama/llama-2-7b-HF" |
Llama2-13b | "Meta-llama/llama-2-13b-HF" |
تحديث: LLAMA3-8B meta-llama/Meta-Llama-3-8B
مدعوم أيضًا في الكود الخاص بنا الآن.
تجارب chatgpt إضافية (فقط صفر طلقة ، تقابل القسم 4.2 لورقةنا):
نظرًا لأن ضبط تعليمات نماذج chatgpt من المحتمل أن يغطي بيانات متوازية واسعة النطاق للترجمة الآلية ، فهي ليست مناسبة لـ BLI غير الخاضعة للرقابة (بالإضافة إلى ذلك ، يمكن أن تتضمن RLHF أيضًا إشارات الإشراف على ترجمة مستوى الكلمات/الجملة من المشروبات الرحلية/المستخدمين ). نقوم بالإبلاغ عن نتائج chatgpt المشتقة مع صفر طلقة لا يهدف إلا كمرجع.
LLM | (Openai API) معرف النموذج |
---|---|
GPT-3.5 | "GPT-3.5-TURBO-0125" |
GPT-4 | "GPT-4-TURBO-2024-04-09" |
نطلق أيضًا القواميس ذاتية التنشيط المستمدة من LLAMA2-13B كما نوقش في القسم 4.2 في الورقة في ./AugmentedDicts-lama2-13b. يتم استنتاج هذه القواميس عالية الثقة مع n it = 1 ، n f = 5000 ، ومع ترجمة الكلمة الخلفية.
يرجى استشهاد ورقتنا إذا وجدت Sail-BLI مفيدة.
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}