Meta の Llama 3.1 シリーズ オープン ソース モデルの最新リリースは、パフォーマンスにおいて大幅な進歩を遂げており、その 405B パラメータ バージョンは一部のクローズド ソース モデルをも上回っています。このうち、Llama3.1-8B-Instruct バージョンは、最大 131072 トークンのコンテキスト長を持つ複数の言語をサポートしており、コードや数学などの分野での推論能力を向上させるために大規模な合成データを使用してトレーニングされています。このモデルに基づいて、OpenBuddy チームは中国語の質疑応答と言語間の翻訳をサポートする OpenBuddy-Llama3.1-8B-v22.1-131K モデルを立ち上げ、多言語アプリケーションにおけるオープンソース モデルの可能性を実証しました。
Meta は最近、新世代のオープン ソース モデル シリーズ Llama3.1 をリリースしました。これには 405B パラメータ バージョンが含まれており、そのパフォーマンスは一部のベンチマーク テストにおいて GPT-4 などのクローズド ソース モデルに近い、またはそれを上回っています。 Llama3.1-8B-Instruct はシリーズの 8B パラメーター バージョンで、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語、ヒンディー語、タイ語をサポートし、コンテキストの長さは最大 131072 トークンで、知識の期限は 2023 年 12 月に更新されています。
Llama3.1-8B-Instruct の機能を強化するために、Meta は、より大きな 405B モデルによって生成された 2,500 万個を超える合成データをトレーニングに使用しました。これにより、Llama3.1-8B-Instruct は、コーディング、数学、その他のテストにおいて GPT3.5Turbo と同様の認知能力と推論能力を示すことができます。
OpenBuddy は、Llama3.1-8B-Instruct モデルを使用し、少量の中国語データでトレーニングして、中国語の質問と回答および言語間の翻訳機能を備えた新世代の OpenBuddy-Llama3.1-8B-v22.1-131k をリリースします。オープンソースのクロス言語モデル。 Llama3.1 自体には中国語機能はありませんが、トレーニング後、このモデルは、概念的な混乱を招きやすい一部の質問に対して、通常は大規模なモデルのみが生成できる回答を生成することができ、より強力な認知能力を示しています。
ただし、トレーニング データ セットと時間の制限により、OpenBuddy-Llama3.1-8B-v22.1 には中国語の知識、特に伝統的な文化の知識には依然として限界があります。それにもかかわらず、このモデルは、長文理解などのタスクでは比較的安定したパフォーマンスを示し、その元の長文機能の恩恵を受けています。
将来的に、OpenBuddy は 8B および 70B モデルの大規模なトレーニングを実施して、モデルの中国語知識の蓄積、長文能力、認知能力を強化し、405B モデルの微調整の可能性を探る予定です。
プロジェクトアドレス: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
OpenBuddy-Llama3.1-8B-v22.1-131k モデルのリリースは、オープンソースの多言語モデルの開発における新たな段階を示します。中国語の知識にはまだまだ改善の余地がありますが、今後、モデル学習の規模が拡大するにつれて、その性能がさらに向上することが期待されます。今後、OpenBuddy チームからのさらなるサプライズにご期待ください。