La traduction automatique neuronale (NMT) est confrontée à d'énormes défis lors du traitement d'œuvres littéraires, notamment pour transmettre avec précision des expressions riches en connotations culturelles et émotionnelles telles que les métaphores et les métaphores. Les systèmes NMT traditionnels ne sont souvent pas à la hauteur de leurs capacités. Afin de résoudre ce problème, l'équipe de recherche de Tencent a développé un nouveau système de traduction DRT-o1, conçu pour améliorer la précision et la fluidité de la traduction des œuvres littéraires et mieux capturer les connotations culturelles et les nuances émotionnelles des œuvres. Le système DRT-o1 contient deux versions, à savoir DRT-o1-7B et DRT-o1-14B, qui sont construites sur Qwen2.5 et introduisent un cadre multi-agent innovant.
À mesure que la mondialisation continue de s’approfondir, la technologie de traduction automatique neuronale (NMT) joue un rôle de plus en plus important dans la communication multilingue. Même si les outils de traduction actuels fonctionnent bien lors du traitement de documents techniques et de textes simples, ils sont encore confrontés à de nombreux défis lors de la traduction de textes littéraires. Les œuvres littéraires contiennent souvent des expressions riches en connotations culturelles et émotionnelles telles que des métaphores et des métaphores, et il est souvent difficile pour les systèmes de traduction traditionnels de transmettre avec précision leurs significations profondes.
Afin de combler cette lacune, l'équipe de recherche de Tencent a lancé un nouveau système de traduction appelé DRT-o1. Le système contient deux versions : DRT-o1-7B et DRT-o1-14B. Ces deux modèles sont construits sur Qwen2.5 et introduisent un nouveau framework multi-agent spécifiquement optimisé pour la traduction de métaphores et de métaphores. L'équipe de recherche a collecté environ 400 livres anglais du domaine public du projet Gutenberg, extrait 577 600 phrases et filtré 63 000 phrases contenant des métaphores et des métaphores comme données de formation.
Le système DRT-o1 utilise une approche collaborative composée de trois rôles : traducteur, consultant et évaluateur. Le flux de travail de ce cadre multi-agents commence par l'identification et la traduction un par un des termes clés dans la phrase source, garantissant ainsi l'exactitude contextuelle. Une fois qu'une traduction initiale est générée, elle passe par plusieurs cycles d'affinement et d'évaluation, aboutissant à une traduction fluide et facile à comprendre. Ce système permet de mieux saisir la connotation culturelle et les nuances émotionnelles des œuvres littéraires lors de leur traduction.
Les résultats expérimentaux montrent que le score BLEU du DRT-o1-7B a augmenté de 8,26 points et que le score COMET a augmenté de 3,36 points, ce qui est meilleur que son prédécesseur Qwen2.5-7B-Instruct. DRT-o1-14B a également bien performé, le score BLEU augmentant de 7,33 points et le score COMET augmentant de 1,66 points. Ces résultats montrent que DRT-o1 surpasse les modèles existants en traduction littéraire, et en particulier sa version 7B surpasse même le plus grand modèle QwQ-32B.
Le système DRT-o1 apporte des progrès révolutionnaires dans le domaine de la traduction automatique neuronale en introduisant un cadre multi-agents et des méthodes de raisonnement à longue chaîne. Il améliore non seulement la précision et la fluidité de la traduction, mais offre également de nouvelles solutions pour la traduction de textes littéraires complexes.
Entrée du projet : https://github.com/krystalan/DRT-o1
Souligner:
Le système DRT-o1 se compose de deux versions (7B et 14B) et utilise un cadre multi-agents pour optimiser la traduction des métaphores et des métaphores.
L'équipe de recherche a extrait et examiné 63 000 phrases littéraires provenant de 400 livres du domaine public comme données de formation.
DRT-o1 a considérablement amélioré ses scores BLEU et COMET, démontrant ainsi ses fortes capacités de traduction littéraire.
En bref, le système DRT-o1 a obtenu des résultats remarquables dans le domaine de la traduction littéraire, et son cadre multi-agents et ses grandes quantités de données de formation constituent un moyen efficace d'améliorer la qualité de la traduction. La source ouverte de ce projet fournit également des ressources précieuses pour les recherches futures et devrait promouvoir davantage le développement de la technologie de traduction automatique neuronale et apporter une plus grande contribution à la communication interculturelle.