ニューラル機械翻訳 (NMT) は、文学作品を処理する際、特に比喩や隠喩などの文化的および感情的な意味合いが豊富な表現を正確に伝える際に、大きな課題に直面します。従来の NMT システムでは、その機能が不十分であることがよくあります。この問題を解決するために、テンセントの研究チームは新しい翻訳システム DRT-o1 を開発しました。このシステムは、文学作品の翻訳の精度と流暢性を向上させ、作品の文化的な意味合いや感情的なニュアンスをよりよく捉えるように設計されています。 DRT-o1 システムには、DRT-o1-7B と DRT-o1-14B という 2 つのバージョンが含まれています。これらは Qwen2.5 上に構築され、革新的なマルチエージェント フレームワークを導入しています。
グローバリゼーションが深化し続けるにつれて、ニューラル機械翻訳 (NMT) テクノロジーは言語を超えたコミュニケーションにおいてますます重要な役割を果たしています。現在の翻訳ツールは、技術文書や単純なテキストを処理する場合には良好に機能しますが、文学的なテキストを翻訳する場合には依然として多くの課題に直面しています。文学作品には比喩や比喩など文化的・感情的な含意に富んだ表現が含まれることが多く、従来の翻訳システムではその深い意味を正確に伝えることが困難な場合が多くあります。
この欠点を補うために、Tencent の研究チームは DRT-o1 と呼ばれる新しい翻訳システムを立ち上げました。システムには、DRT-o1-7B と DRT-o1-14B の 2 つのバージョンが含まれています。これら 2 つのモデルは Qwen2.5 に基づいて構築されており、メタファーと隠喩の翻訳に特に最適化された新しいマルチエージェント フレームワークを導入しています。研究チームは、プロジェクト・グーテンベルクのパブリックドメインの英語書籍約400冊を収集し、57万7,600文を抽出し、比喩や暗喩を含む6万3,000文をトレーニングデータとして選別した。
DRT-o1 システムは、翻訳者、コンサルタント、評価者の 3 つの役割で構成される協調的なアプローチを使用します。このマルチエージェント フレームワークのワークフローは、原文内の重要な用語を特定して 1 つずつ翻訳することから始まり、文脈上の正確さを確保します。最初の翻訳が生成された後、複数回の改良と評価が行われ、スムーズでわかりやすい翻訳が得られます。このシステムは、文学作品を翻訳する際に、文学作品の文化的な意味合いや感情的なニュアンスをより適切に捉えることができます。
実験結果によると、DRT-o1-7B の BLEU スコアは 8.26 ポイント増加し、COMET スコアは 3.36 ポイント増加しており、以前の Qwen2.5-7B-Instruct よりも優れています。 DRT-o1-14B も良好なパフォーマンスを示し、BLEU スコアは 7.33 ポイント増加し、COMET スコアは 1.66 ポイント増加しました。これらの結果は、DRT-o1 が文芸翻訳において既存のモデルを上回っており、特にその 7B バージョンがより大型の QwQ-32B モデルをも上回っていることを示しています。
DRT-o1 システムは、マルチエージェント フレームワークと長鎖推論手法を導入することにより、ニューラル機械翻訳の分野に画期的な進歩をもたらします。翻訳の精度と流暢性が向上するだけでなく、複雑な文学テキストの翻訳に新しいソリューションも提供されます。
プロジェクト入口: https://github.com/krystalan/DRT-o1
ハイライト:
DRT-o1 システムは 2 つのバージョン (7B と 14B) で構成され、マルチエージェント フレームワークを使用してメタファーと隠喩の翻訳を最適化します。
研究チームは、パブリックドメインの書籍400冊から63,000の文学文章をトレーニングデータとして抽出し、スクリーニングした。
DRT-o1 は、BLEU および COMET スコアを大幅に向上させ、その強力な文学翻訳能力を示しています。
つまり、DRT-o1 システムは文学翻訳の分野で目覚ましい成果を上げており、そのマルチエージェント フレームワークと大量のトレーニング データは翻訳品質を向上させる効果的な方法を提供します。 このプロジェクトのオープンソースは将来の研究に貴重なリソースも提供し、ニューラル機械翻訳技術の開発をさらに促進し、異文化コミュニケーションにさらに貢献することが期待されます。