Terjemahan mesin saraf (NMT) menghadapi tantangan besar saat mengolah karya sastra, terutama dalam menyampaikan ekspresi yang kaya akan konotasi budaya dan emosional seperti metafora dan metafora secara akurat. Sistem NMT tradisional sering kali tidak mampu mencapai kemampuannya. Untuk mengatasi masalah ini, tim peneliti Tencent mengembangkan sistem terjemahan baru DRT-o1, yang dirancang untuk meningkatkan akurasi dan kelancaran terjemahan karya sastra serta lebih menangkap konotasi budaya dan nuansa emosional dari karya tersebut. Sistem DRT-o1 berisi dua versi, yaitu DRT-o1-7B dan DRT-o1-14B, yang dibangun di atas Qwen2.5 dan memperkenalkan kerangka kerja multi-agen yang inovatif.
Seiring dengan semakin mendalamnya globalisasi, teknologi terjemahan mesin saraf (NMT) memainkan peran yang semakin penting dalam komunikasi lintas bahasa. Meskipun alat penerjemahan saat ini bekerja dengan baik saat memproses dokumen teknis dan teks sederhana, alat tersebut masih menghadapi banyak tantangan saat menerjemahkan teks sastra. Karya sastra seringkali mengandung ekspresi yang kaya akan konotasi budaya dan emosional seperti metafora dan metafora, dan seringkali sulit bagi sistem penerjemahan tradisional untuk menyampaikan makna yang lebih dalam secara akurat.
Untuk menutupi kekurangan ini, tim peneliti Tencent meluncurkan sistem terjemahan baru yang disebut DRT-o1. Sistem ini berisi dua versi: DRT-o1-7B dan DRT-o1-14B. Kedua model ini dibangun di atas Qwen2.5 dan memperkenalkan kerangka kerja multi-agen baru yang secara khusus dioptimalkan untuk penerjemahan metafora dan metafora. Tim peneliti mengumpulkan sekitar 400 buku bahasa Inggris domain publik dari Project Gutenberg, mengekstraksi 577.600 kalimat, dan menyaring 63.000 kalimat yang mengandung metafora dan metafora sebagai data pelatihan.
Sistem DRT-o1 menggunakan pendekatan kolaboratif yang terdiri dari tiga peran: penerjemah, konsultan, dan evaluator. Alur kerja kerangka multi-agen ini dimulai dengan identifikasi dan terjemahan satu per satu istilah-istilah kunci dalam kalimat sumber, untuk memastikan keakuratan kontekstual. Setelah terjemahan awal dihasilkan, terjemahan tersebut melewati beberapa putaran penyempurnaan dan evaluasi, sehingga menghasilkan terjemahan yang lancar dan mudah dipahami. Sistem ini dapat lebih menangkap konotasi budaya dan nuansa emosional karya sastra ketika menerjemahkannya.
Hasil eksperimen menunjukkan bahwa skor BLEU DRT-o1-7B meningkat sebesar 8,26 poin, dan skor COMET meningkat sebesar 3,36 poin, lebih baik dari pendahulunya Qwen2.5-7B-Instruct. DRT-o1-14B juga tampil baik, dengan skor BLEU meningkat sebesar 7,33 poin dan skor COMET meningkat sebesar 1,66 poin. Hasil ini menunjukkan bahwa DRT-o1 mengungguli model yang ada dalam terjemahan sastra, dan khususnya versi 7B bahkan mengungguli model QwQ-32B yang lebih besar.
Sistem DRT-o1 membawa kemajuan terobosan di bidang terjemahan mesin saraf dengan memperkenalkan kerangka kerja multi-agen dan metode penalaran rantai panjang. Ini tidak hanya meningkatkan keakuratan dan kelancaran penerjemahan, tetapi juga memberikan solusi baru untuk penerjemahan teks sastra yang kompleks.
Pintu masuk proyek: https://github.com/krystalan/DRT-o1
Menyorot:
Sistem DRT-o1 terdiri dari dua versi (7B dan 14B) dan menggunakan kerangka multi-agen untuk mengoptimalkan terjemahan metafora dan metafora.
Tim peneliti mengekstraksi dan menyaring 63.000 kalimat sastra dari 400 buku domain publik sebagai data pelatihan.
DRT-o1 telah meningkatkan skor BLEU dan COMET secara signifikan, menunjukkan kemampuan terjemahan sastra yang kuat.
Singkatnya, sistem DRT-o1 telah mencapai hasil luar biasa di bidang terjemahan sastra, dan kerangka kerja multi-agen serta data pelatihan dalam jumlah besar memberikan cara yang efektif untuk meningkatkan kualitas terjemahan. Sumber terbuka dari proyek ini juga menyediakan sumber daya berharga untuk penelitian di masa depan dan diharapkan dapat lebih mendorong pengembangan teknologi terjemahan mesin saraf dan memberikan kontribusi yang lebih besar pada komunikasi lintas budaya.