Downcodes의 편집자는 Teuken-7B라는 70억 개의 매개변수 언어 모델이 Hugging Face 플랫폼에 출시되어 EU 공식 언어 24개를 모두 지원한다는 사실을 알게 되었습니다. 이 모델은 EU OpenGPT-X 연구 프로젝트에 의해 개발되었으며 사용자가 오픈 소스로 사용할 수 있습니다. 대부분의 영어 중심 AI 언어 모델과 달리 Teuken-7B는 처음부터 훈련 데이터의 약 절반이 영어가 아닌 유럽 언어에서 나오므로 여러 유럽 언어를 처리하는 데 상당한 이점을 제공합니다.
70억 개의 매개변수를 가진 언어 모델인 Teuken-7B는 이제 Hugging Face에서 사용 가능하며 24개의 EU 공식 언어를 모두 지원합니다. 이 모델은 EU OpenGPT-X 연구 프로젝트에 의해 개발되었으며 사용자가 오픈 소스 프로젝트로 사용할 수 있습니다. 대부분의 영어 중심 AI 언어 모델과 달리 Teuken-7B는 처음부터 구축되었으며 훈련 데이터의 약 절반이 영어가 아닌 유럽 언어에서 나왔습니다.
사진 출처 참고: 사진은 AI에 의해 생성되었으며 사진은 서비스 제공업체 Midjourney의 승인을 받았습니다.
개발팀은 Teuken-7B가 훈련받은 모든 언어에서 잘 작동하며, 영어가 아닌 언어를 다룰 때 신뢰성이 특히 인상적이라고 말합니다. 유럽 언어의 언어 모델 성능을 측정하기 위해 프로젝트 팀은 주로 영어를 기반으로 했던 이전 표준 테스트 방법을 능가하는 새로운 유럽 LLM 순위도 만들었습니다.
이번 릴리스는 유럽의 다국어 AI 모델 추진에 있어 중요한 진전을 의미하는 동시에 개발자에게 교차 언어 애플리케이션 및 연구를 지원하는 강력하고 다양한 도구를 제공합니다.
Teuken-7B의 오픈 소스 릴리스는 다국어 AI 분야에 새로운 가능성을 가져오고 AI 기술의 독립적인 연구 개발에 대한 유럽의 적극적인 노력을 반영합니다. 뛰어난 다국어 처리 능력은 글로벌 개발자들에게 더 많은 편의를 제공하고 다국어 애플리케이션의 활발한 개발을 촉진할 것입니다. 향후에는 Teuken-7B가 더 많은 분야에서 역할을 할 수 있을 것으로 기대된다.