OpenBuddy 오픈 소스 대형 언어 모델 팀, Llama3.1-8B 모델의 중국어 버전 출시

저자：Eve Cole 업데이트 시간：2024-12-14 09:32:01

Meta의 최신 릴리스인 Llama 3.1 오픈 소스 모델 시리즈는 성능 면에서 획기적인 발전을 이루었으며 405B 매개변수 버전은 일부 비공개 소스 모델을 능가하기도 합니다. 그중 Llama3.1-8B-Instruct 버전은 최대 131072 토큰의 컨텍스트 길이로 여러 언어를 지원하며 대규모 합성 데이터로 훈련되어 코드 및 수학과 같은 영역에서 추론 기능을 향상시킵니다. 이 모델을 기반으로 OpenBuddy 팀은 중국어 질문 및 답변과 언어 간 번역을 지원하는 OpenBuddy-Llama3.1-8B-v22.1-131K 모델을 출시하여 다국어 애플리케이션에서 오픈 소스 모델의 잠재력을 보여주었습니다.

Meta는 최근 일부 벤치마크 테스트에서 GPT-4와 같은 비공개 소스 모델에 가깝거나 심지어 그 성능을 능가하는 405B 매개변수 버전을 포함하는 차세대 오픈 소스 모델 시리즈 Llama3.1을 출시했습니다. Llama3.1-8B-Instruct는 시리즈의 8B 매개변수 버전으로, 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 스페인어, 힌디어 및 태국어를 지원하며 컨텍스트 길이는 최대 131072토큰이며 지식 마감일은 2023년 12월로 업데이트되었습니다.

Llama3.1-8B-Instruct의 기능을 향상시키기 위해 Meta는 더 큰 405B 모델에서 생성된 2,500만 개 이상의 합성 데이터를 교육에 사용했습니다. 이를 통해 Llama3.1-8B-Instruct는 코딩, 수학 및 기타 테스트에서 GPT3.5Turbo와 유사한 인지 및 추론 기능을 보여줄 수 있습니다.

OpenBuddy는 Llama3.1-8B-Instruct 모델을 사용하고 소량의 중국어 데이터를 학습하여 중국어 질문 및 답변과 다국어 번역 기능을 갖춘 차세대 OpenBuddy-Llama3.1-8B-v22.1-131k를 출시합니다. 오픈 소스 교차 언어 모델. Llama3.1 자체에는 중국어 기능이 없지만 훈련 후 모델은 개념적 혼란을 일으키기 쉬운 일부 질문에 대해 일반적으로 더 큰 모델만 생성할 수 있는 답변을 생성할 수 있으며 더 강력한 인지 잠재력을 보여줍니다.

그러나 훈련 데이터 세트와 시간의 한계로 인해 OpenBuddy-Llama3.1-8B-v22.1은 여전히 중국어 지식, 특히 전통 문화 지식에 한계가 있습니다. 그럼에도 불구하고 이 모델은 원래의 긴 텍스트 기능의 이점을 활용하여 긴 텍스트 이해와 같은 작업에서 상대적으로 안정적인 성능을 보여줍니다.

앞으로 OpenBuddy는 8B 및 70B 모델에 대한 대규모 교육을 실시하여 모델의 중국어 지식 보유량, 긴 텍스트 능력 및 인지 능력을 강화하고 405B 모델의 미세 조정 가능성을 탐색할 계획입니다.

프로젝트 주소: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

OpenBuddy-Llama3.1-8B-v22.1-131k 모델의 출시는 오픈 소스 다국어 모델 개발의 새로운 단계를 의미합니다. 중국어 지식은 아직 개선의 여지가 있지만, 앞으로 모델 학습 규모가 확대되면서 그 성능도 더욱 향상될 것으로 기대된다. 앞으로 OpenBuddy 팀이 보여줄 더 많은 놀라움을 기대해 주세요.