La Fondation Open Source RWKV a publié le modèle RWKV-6-World14B, qui est actuellement l'un des modèles de langage RNN pur et dense les plus puissants au monde. Le modèle excelle dans les capacités multilingues, prenant en charge plus de 100 langues et codes, et surpasse les modèles tels que Llama2 13B et Qwen 1.5 14B dans plusieurs benchmarks. Ses excellentes performances proviennent de l'amélioration de l'architecture RWKV et évitent l'optimisation pour des tests de référence spécifiques pendant le processus de formation, garantissant ainsi les véritables capacités et capacités de généralisation du modèle. Les utilisateurs peuvent facilement télécharger et déployer le modèle via des plateformes telles que Hugging Face, ModelScope et WiseModel.
Le 19 juillet 2024, la RWKV Open Source Foundation a annoncé l'open source mondial du modèle RWKV-6-World14B, qui est actuellement le modèle de grand langage RNN pur et dense le plus puissant. Le modèle a obtenu de bons résultats lors du dernier test de performances, avec des performances en anglais équivalentes à celles de Llama213B, et nettement en avance en termes de performances multilingues, prenant en charge plus de 100 langues et codes dans le monde.
Le test de référence du modèle comprend 4 grands modèles de langage open source avec une échelle de près de 14 milliards de paramètres, 12 tests de référence indépendants pour évaluer les performances en anglais et quatre tests de référence de xLAMBDA, xStoryCloze, xWinograd et xCopa pour évaluer les capacités multilingues. RWKV-6-World14B a obtenu de bons résultats lors de ces tests, en particulier dans le classement Uncheatable Eval, où le score d'évaluation globale a dépassé lama213B et Qwen1.514B.
L'amélioration des performances du modèle RWKV-6-World14B bénéficie des améliorations architecturales de RWKV-4 à RWKV-6. Ce modèle n'a ajouté aucun ensemble de données de test de référence pendant la formation, évitant ainsi une optimisation particulière, de sorte que sa capacité réelle est plus forte que le classement par notation. Dans l'évaluation Uncheatable Eval, RWKV-6-World14B a été évalué sur des données en temps réel telles que les derniers articles arXiv, actualités, romans ao3 et codes GitHub publiés en juillet, montrant ses capacités réelles de modélisation et de généralisation.
Actuellement, le modèle RWKV-6-World14B peut être téléchargé et déployé localement via des plateformes telles que Hugging Face, ModelScope et WiseModel. Étant donné qu'Ai00 ne prend en charge que les modèles au format safetensor (.st), vous pouvez également télécharger des modèles convertis au format .st dans l'entrepôt Ai00HF. Les besoins en mémoire graphique pour le déploiement local et la déduction du modèle RWKV-6-World14B varient d'environ 10 Go à 28 Go selon la méthode de quantification.
L'aperçu des effets du modèle RWKV-6-World14B comprend le traitement du langage naturel (analyse des sentiments, compréhension en lecture automatique), la poésie en prose et la création littéraire, la lecture et la modification de codes, les suggestions de sélection de sujets de documents financiers, l'extraction du contenu clé de l'actualité, une phrase extension de texte et écriture de plusieurs scénarios d'application tels que le jeu Python Snake.
Il convient de noter que tous les modèles RWKV publiés en open source sont des modèles de base, dotés de certaines capacités de commande et de dialogue, mais qui n'ont pas été optimisés pour des tâches spécifiques. Si vous souhaitez que le modèle RWKV fonctionne correctement sur une tâche spécifique, il est recommandé d'utiliser des ensembles de données de tâches associées pour affiner la formation.
Adresse du projet :
Visage câlin : https://huggingface.co/BlinkDL/rwkv-6-world/tree/main
ModelScope :https://modelscope.cn/models/RWKV/rwkv-6-world/files
WiseModel : https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file
En bref, l'open source du modèle RWKV-6-World14B a apporté de nouvelles avancées dans le domaine des grands modèles de langage. Ses performances puissantes et ses vastes perspectives d'application méritent d'être attendues. Les développeurs peuvent télécharger et mener une exploration et des applications plus approfondies sur diverses plates-formes en fonction de leurs propres besoins.