Downcodes의 편집자는 Cohere가 최근 Hugging Face 플랫폼에서 공식적으로 출시된 두 가지 강력한 오픈 소스 AI 모델인 Aya Expanse 8B 및 35B를 출시했다는 사실을 알게 되었습니다. 이 두 모델은 서로 다른 언어의 기본 모델 간의 성능 격차를 해소하고, 23개 언어의 AI 기능을 크게 향상시키며, 글로벌 AI 연구자들에게 보다 편리한 도구와 보다 강력한 다국어 기능을 제공하는 것을 목표로 합니다. Aya 프로젝트는 영어가 아닌 언어 기본 모델에 대한 액세스를 확대하기 위해 노력하고 있습니다. 데이터 차익 거래 방법과 "글로벌 선호도" 교육 전략은 낮은 품질의 콘텐츠 생성을 효과적으로 방지하고 모델의 전반적인 성능과 보안을 향상시킵니다. 다음으로 두 모델의 세부 사항을 살펴보겠습니다.
최근 Cohere는 Aya 프로젝트를 통해 기본 모델의 언어 격차를 줄이는 것을 목표로 두 가지 새로운 오픈 소스 AI 모델 출시를 발표했습니다. Aya Expanse8B 및 35B라는 두 가지 새로운 모델이 이제 Hugging Face에서 구매 가능합니다. 이 두 모델의 출시로 23개 언어의 AI 성능이 대폭 향상됐다.
Cohere는 자신의 블로그에서 8B 매개변수 모델을 사용하면 전 세계 연구자가 더 쉽게 획기적인 성과를 달성할 수 있으며 32B 매개변수 모델은 업계 최고의 다중 언어 기능을 제공한다고 밝혔습니다.
Aya 프로젝트의 목표는 기본 모델에 대한 액세스를 영어 이외의 더 많은 언어로 확장하는 것입니다. 이에 앞서 코히어 연구부는 지난해 아야(Aya) 프로젝트를 시작했고, 지난 2월 101개 언어를 포괄하는 Aya101 LLM(Large Language Model)을 출시했다. 또한 Cohere는 다른 언어에 대한 모델 교육을 지원하기 위해 Aya 데이터세트도 출시했습니다.
Aya Expanse 모델은 구성 과정에서 Aya101의 많은 핵심 방법을 따릅니다. Cohere는 Aya Expanse의 개선 사항이 기계 학습 혁신의 핵심 구성 요소를 수년간 재고한 결과라고 말했습니다. 그들의 연구 방향은 주로 언어 격차를 줄이는 데 중점을 두고 있으며 데이터 차익거래, 일반 성능 및 보안을 위한 선호도 교육, 모델 병합과 같은 몇 가지 주요 혁신을 달성했습니다.
Cohere는 여러 벤치마크 테스트에서 Aya Expanse의 두 모델이 Google, Mistral, Meta와 같은 회사의 유사한 크기의 AI 모델보다 성능이 뛰어났다고 말했습니다.
그중 Aya Expanse32B는 다국어 벤치마크 테스트에서 Gemma227B, Mistral8x22B, 심지어 더 큰 Llama3.170B보다 성능이 뛰어났습니다. 소형 8B 모델도 Gemma29B, Llama3.18B, Ministral8B를 능가했으며 승률은 60.4%~70.6%에 이릅니다.
이해하기 어려운 콘텐츠가 생성되는 것을 방지하기 위해 Cohere는 데이터 차익거래(data Arbitrage)라는 데이터 샘플링 방법을 사용합니다. 이 접근 방식을 사용하면 특히 리소스가 적은 언어의 경우 더 나은 모델 교육이 가능합니다. 또한 Cohere는 모델을 '글로벌 선호도'로 안내하고 다양한 문화와 언어의 관점을 고려하여 모델 성능과 보안을 향상시키는 데 중점을 두고 있습니다.
Cohere의 Aya 프로그램은 LLM이 영어가 아닌 언어에 대한 연구에서 더 나은 성과를 낼 수 있도록 노력합니다. 많은 LLM이 결국 다른 언어로 출시되겠지만, 특히 자원이 부족한 언어의 경우 모델을 훈련할 때 데이터가 부족한 문제에 직면하는 경우가 많습니다. 따라서 다국어 AI 모델 구축을 돕는 데 있어 Cohere의 노력은 특히 중요합니다.
공식 블로그: https://cohere.com/blog/aya-expanse-connecting-our-world
가장 밝은 부분:
? **Cohere는 기본 모델의 언어 격차를 줄이고 23개 언어로 성능 개선을 지원하기 위해 노력하는 두 가지 새로운 AI 모델을 출시합니다.
**Aya Expanse 모델은 우수한 성능을 발휘하며** 다국어 벤치마크에서 많은 경쟁사보다 뛰어난 성능을 발휘합니다.
**데이터 차익거래 방법**은 모델이 품질이 낮은 콘텐츠 생성을 방지하고, 글로벌 문화 및 언어 관점에 주의를 기울이고, 다국어 AI의 훈련 효과를 향상시키는 데 도움이 됩니다.
전체적으로 Cohere가 출시한 Aya Expanse 모델은 다국어 AI 분야에서 상당한 진전을 이루었으며, 오픈 소스 특성은 글로벌 AI 커뮤니티의 연구 개발을 위한 귀중한 리소스도 제공합니다. Downcodes의 편집자는 이것이 다국어 AI 기술의 발전을 더욱 촉진하고 글로벌 정보 교환 및 공유를 촉진할 것이라고 믿습니다.