Downcodes の編集者は、Teuken-7B と呼ばれる 70 億パラメータの言語モデルが Hugging Face プラットフォームでリリースされ、24 の EU 公用語すべてをサポートしていることを知りました。このモデルは EU OpenGPT-X 研究プロジェクトによって開発され、ユーザーはオープン ソースとして利用できます。ほとんどの英語中心の AI 言語モデルとは異なり、Teuken-7B はゼロから構築されており、トレーニング データの約半分は英語以外のヨーロッパ言語からのものであるため、複数のヨーロッパ言語を処理する際に大きな利点があります。
Teuken-7B は 70 億のパラメータを持つ言語モデルで、現在 Hugging Face で利用可能であり、EU の公式 24 言語すべてをサポートしています。このモデルは EU OpenGPT-X 研究プロジェクトによって開発され、ユーザーはオープンソース プロジェクトとして利用できます。ほとんどの英語中心の AI 言語モデルとは異なり、Teuken-7B はゼロから構築され、トレーニング データの約半分は英語以外のヨーロッパ言語から取得されています。
画像出典注:画像はAIによって生成され、画像はサービスプロバイダーMidjourneyによって許可されています
開発チームによれば、Teuken-7B はトレーニングされたすべての言語で良好なパフォーマンスを示し、その信頼性は英語以外の言語を扱う場合に特に印象的です。ヨーロッパ言語の言語モデルのパフォーマンスを測定するために、プロジェクト チームは、主に英語に基づいていた以前の標準的なテスト方法を上回る、新しいヨーロッパ LLM ランキングも作成しました。
このリリースは、ヨーロッパの多言語 AI モデルの推進における重要な前進を示すと同時に、開発者に言語を超えたアプリケーションや研究をサポートする強力で多様なツールを提供します。
Teuken-7B のオープンソース リリースは、多言語 AI の分野に新たな可能性をもたらし、AI 技術の独立した研究開発におけるヨーロッパの積極的な取り組みを反映しています。その優れた多言語処理機能は、世界中の開発者にさらなる利便性を提供し、多言語アプリケーションの活発な開発を促進します。 Teuken-7B は今後さらに多くの分野で活躍することが期待されます。