Downcodes小编获悉,一款名为Teuken-7B的70亿参数语言模型已在Hugging Face平台发布,支持所有24种欧盟官方语言。该模型由欧盟OpenGPT-X研究项目开发,并以开源方式提供给用户。不同于多数以英语为中心的AI语言模型,Teuken-7B从零开始构建,大约一半的训练数据来自非英语的欧洲语言,这使其在处理多种欧洲语言方面具有显着优势。
Teuken-7B,一款拥有70 亿个参数的语言模型,现已在Hugging Face 上推出,支持所有24 种欧盟官方语言。该模型由欧盟OpenGPT-X 研究项目开发,并可作为开源项目供用户使用。与大多数以英语为核心的AI 语言模型不同,Teuken-7B 是从零开始构建的,约一半的训练数据来源于非英语的欧洲语言。
图源备注:图片由AI生成,图片授权服务商Midjourney
开发团队表示,Teuken-7B 在所有训练过的语言中都表现出色,尤其是在处理非英语语言时,其可靠性令人印象深刻。为衡量语言模型在欧洲语言中的表现,项目团队还创建了一个全新的欧洲LLM 排行榜,超越了以往主要基于英语的标准测试方法。
这一发布标志着欧洲在推动多语言人工智能模型方面的重大进展,同时也为开发者提供了一个强大且多样化的工具,以支持跨语言的应用和研究。
Teuken-7B的开源发布,为多语言AI领域带来了新的可能性,也体现了欧洲在AI技术自主研发上的积极努力。其出色的多语言处理能力,将为全球开发者提供更多便利,并促进跨语言应用的蓬勃发展。期待未来Teuken-7B能够在更多领域发挥作用。