RWKV 오픈 소스 재단은 현재 세계에서 가장 강력한 밀도 순수 RNN 대규모 언어 모델 중 하나인 RWKV-6-World14B 모델을 출시했습니다. 이 모델은 다국어 기능이 뛰어나 100개 이상의 언어와 코드를 지원하며 여러 벤치마크에서 Llama2 13B 및 Qwen 1.5 14B와 같은 모델보다 성능이 뛰어납니다. 뛰어난 성능은 RWKV 아키텍처 개선에서 비롯되며 훈련 과정 중 특정 벤치마크 테스트에 대한 최적화를 방지하여 모델의 실제 기능과 일반화 기능을 보장합니다. 사용자는 Hugging Face, ModelScope 및 WiseModel과 같은 플랫폼을 통해 모델을 쉽게 다운로드하고 배포할 수 있습니다.
2024년 7월 19일, RWKV 오픈소스 재단은 현재 가장 강력한 Dense 순수 RNN 대형 언어 모델인 RWKV-6-World14B 모델의 글로벌 오픈소스를 발표했습니다. 이 모델은 최신 성능 테스트에서 Llama213B와 동등한 영어 성능을 발휘했으며, 다국어 성능에서도 월등히 앞서 전 세계 100개 이상의 언어와 코드를 지원했다.
모델의 벤치마크 테스트에는 거의 14B 매개변수 규모를 갖춘 4개의 오픈 소스 대규모 언어 모델, 영어 성능을 평가하기 위한 12개의 독립적인 벤치마크 테스트, 다중 언어 기능을 평가하기 위한 xLAMBDA, xStoryCloze, xWinograd 및 xCopa의 4개의 벤치마크 테스트가 포함됩니다. RWKV-6-World14B는 이러한 테스트, 특히 종합 평가 점수가 llama213B 및 Qwen1.514B를 초과하는 Uncheatable Eval 순위 목록에서 좋은 성적을 거두었습니다.
RWKV-6-World14B 모델의 성능 향상은 RWKV-4에서 RWKV-6으로의 아키텍처 개선을 통해 이점을 얻습니다. 이 모델은 훈련 중에 벤치마크 테스트 데이터 세트를 추가하지 않았으며 특별한 최적화를 피하기 때문에 실제 능력은 점수 순위보다 강합니다. Uncheatable Eval 평가에서 RWKV-6-World14B는 지난 7월 발표된 최신 arXiv 논문, 뉴스, ao3 소설, GitHub 코드 등 실시간 데이터를 대상으로 평가해 실제 모델링 능력과 일반화 능력을 보여줬다.
현재 RWKV-6-World14B 모델은 Hugging Face, ModelScope 및 WiseModel과 같은 플랫폼을 통해 로컬로 다운로드하여 배포할 수 있습니다. Ai00은 safetensor(.st) 형식의 모델만 지원하므로 Ai00HF 웨어하우스에서 .st 형식으로 변환된 모델을 다운로드할 수도 있습니다. RWKV-6-World14B 모델을 로컬로 배포하고 추론하기 위한 그래픽 메모리 요구 사항은 정량화 방법에 따라 약 10G에서 28G까지 다양합니다.
RWKV-6-World14B 모델의 효과 미리보기에는 자연어 처리(감성분석, 기계 독해), 산문시 및 문학 창작, 코드 읽기 및 수정, 금융 논문 주제 선택 제안, 뉴스 핵심 내용 추출, 한 문장 등이 포함된다. 텍스트 확장 및 Python Snake 게임과 같은 여러 응용 프로그램 시나리오를 작성합니다.
오픈 소스로 출시된 모든 RWKV 모델은 특정 명령 및 대화 기능을 갖추고 있지만 특정 작업에 최적화되지 않은 기본 모델이라는 점에 유의해야 합니다. RWKV 모델이 특정 작업에서 좋은 성능을 발휘하도록 하려면 관련 작업의 데이터 세트를 미세 조정 훈련에 사용하는 것이 좋습니다.
프로젝트 주소:
포옹하는 얼굴: https://huggingface.co/BlinkDL/rwkv-6-world/tree/main
모델 범위:https://modelscope.cn/models/RWKV/rwkv-6-world/files
WiseModel: https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file
간단히 말해서, RWKV-6-World14B 모델의 오픈 소스는 대규모 언어 모델 분야에 새로운 혁신을 가져왔습니다. 그 강력한 성능과 광범위한 응용 가능성은 기대할 가치가 있습니다. 개발자는 자신의 필요에 따라 다양한 플랫폼에서 추가 탐색 및 적용을 다운로드하고 수행할 수 있습니다.