Téléchargement Qwen2.5 - Téléchargement du code source Qwen2.5

Qwen2.5

Visitez notre organisation Hugging Face ou ModelScope (cliquez sur les liens ci-dessus), recherchez des points de contrôle dont les noms commencent par Qwen2.5- ou visitez la collection Qwen2.5, et vous trouverez tout ce dont vous avez besoin ! Apprécier!

Pour en savoir plus sur Qwen2.5, n'hésitez pas à lire notre documentation [EN|ZH]. Notre documentation comprend les sections suivantes :

Quickstart : les utilisations de base et les démonstrations ;
Inférence : conseils pour l'inférence avec des transformateurs, y compris l'inférence par lots, le streaming, etc. ;
Exécuter localement : les instructions pour exécuter LLM localement sur CPU et GPU, avec des frameworks comme llama.cpp et Ollama ;
Déploiement : la démonstration de la façon de déployer Qwen pour l'inférence à grande échelle avec des frameworks comme vLLM , TGI , etc. ;
Quantification : la pratique de la quantification des LLM avec GPTQ, AWQ, ainsi que des conseils sur la façon de créer des fichiers GGUF quantifiés de haute qualité ;
Formation : les instructions pour la post-formation, y compris SFT et RLHF (TODO) avec des frameworks comme Axolotl, LLaMA-Factory, etc.
Framework : l'utilisation de Qwen avec des frameworks d'application, par exemple RAG, Agent, etc.
Benchmark : les statistiques sur la vitesse d'inférence et l'empreinte mémoire (disponible pour Qwen2.5).

Introduction

Au cours des trois derniers mois depuis la sortie de Qwen2, de nombreux développeurs ont créé de nouveaux modèles sur les modèles de langage Qwen2, nous fournissant ainsi de précieux commentaires. Au cours de cette période, nous nous sommes concentrés sur la création de modèles linguistiques plus intelligents et mieux informés. Aujourd'hui, nous sommes ravis de vous présenter le dernier ajout à la famille Qwen : Qwen2.5 .

Modèles de langage denses, faciles à utiliser, réservés au décodeur, disponibles en tailles 0,5B , 1,5B , 3B , 7B , 14B , 32B et 72B , et variantes de base et d'instruction.
Pré-entraîné sur notre dernier ensemble de données à grande échelle, englobant jusqu'à 18 T de jetons.
Améliorations significatives du suivi des instructions, de la génération de textes longs (plus de 8 000 jetons), de la compréhension des données structurées (par exemple, des tableaux) et de la génération de sorties structurées, en particulier JSON.
Plus résilient à la diversité des invites du système, améliorant la mise en œuvre des jeux de rôle et la définition des conditions pour les chatbots.
La longueur du contexte prend en charge jusqu'à 128 000 jetons et peut générer jusqu'à 8 000 jetons.
Prise en charge multilingue de plus de 29 langues, dont le chinois, l'anglais, le français, l'espagnol, le portugais, l'allemand, l'italien, le russe, le japonais, le coréen, le vietnamien, le thaï, l'arabe, etc.

Nouvelles

2024.09.19 : Nous avons lancé la série Qwen2.5. Cette fois, il existe 3 tailles de modèles supplémentaires : 3B, 14B et 32B pour plus de possibilités. Consultez notre blog pour en savoir plus !
06/06/2024 : Nous avons sorti la série Qwen2. Consultez notre blog !
2024.03.28 : Nous avons publié le premier modèle MoE de Qwen : Qwen1.5-MoE-A2.7B ! Temporairement, seuls les transformateurs HF et vLLM prennent en charge le modèle. Nous ajouterons bientôt le support de llama.cpp, mlx-lm, etc. Consultez notre blog pour plus d'informations !
05/02/2024 : Nous avons lancé la série Qwen1.5.

Performance

Les résultats détaillés de l'évaluation sont rapportés dans ce ? bloguer.

Pour connaître les exigences en matière de mémoire GPU et le débit respectif, consultez les résultats ici .

Démarrage rapide

? Transformateurs de visage câlins

La dernière version des transformers est recommandée (au moins 4.37.0). Nous montrons ici un extrait de code pour vous montrer comment utiliser le modèle de chat avec transformers :

 from transformers import AutoModelForCausalLM , AutoTokenizer

model_name = "Qwen/Qwen2.5-7B-Instruct"

model = AutoModelForCausalLM . from_pretrained (
    model_name ,
    torch_dtype = "auto" ,
    device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( model_name )

prompt = "Give me a short introduction to large language model."
messages = [
    { "role" : "system" , "content" : "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." },
    { "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
    messages ,
    tokenize = False ,
    add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( model . device )

generated_ids = model . generate (
    ** model_inputs ,
    max_new_tokens = 512
)
generated_ids = [
    output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]

response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]

Pour les modèles quantifiés, nous vous conseillons d'utiliser les correspondants GPTQ et AWQ, à savoir Qwen2.5-7B-Instruct-GPTQ-Int8 et Qwen2.5-7B-Instruct-AWQ .

? ModèlePortée

Nous conseillons fortement aux utilisateurs, en particulier ceux de Chine continentale, d'utiliser ModelScope. snapshot_download peut vous aider à résoudre les problèmes liés au téléchargement des points de contrôle.

Exécuter localement

Ollama

Après avoir installé ollama, vous pouvez lancer le service ollama avec la commande suivante :

ollama serve
# You need to keep this service running whenever you are using ollama

Pour extraire un point de contrôle du modèle et exécuter le modèle, utilisez la commande ollama run . Vous pouvez spécifier une taille de modèle en ajoutant un suffixe à qwen2.5 , tel que :0.5b , :1.5b , :7b ou :72b :

ollama run qwen2.5:7b
# To exit, type "/bye" and press ENTER

Vous pouvez également accéder au service ollama via son API compatible OpenAI. Veuillez noter que vous devez (1) maintenir ollama serve en cours d'exécution lorsque vous utilisez l'API et (2) exécuter ollama run qwen2.5:7b avant d'utiliser cette API pour vous assurer que le point de contrôle du modèle est préparé.

 from openai import OpenAI
client = OpenAI (
    base_url = 'http://localhost:11434/v1/' ,
    api_key = 'ollama' ,  # required but ignored
)
chat_completion = client . chat . completions . create (
    messages = [
        {
            'role' : 'user' ,
            'content' : 'Say this is a test' ,
        }
    ],
    model = 'qwen2.5:7b' ,
)

Pour plus de détails, veuillez visiter ollama.ai.

lama.cpp

Téléchargez nos fichiers GGUF fournis ou créez-les vous-même, et vous pourrez les utiliser directement avec le dernier llama.cpp avec une commande sur une seule ligne :

./llama-cli -m < path-to-file > -n 512 -co -sp -cnv -p " You are Qwen, created by Alibaba Cloud. You are a helpful assistant. "

Pour des guides supplémentaires, veuillez vous référer à notre documentation.

MLX-LM

Si vous utilisez Apple Silicon, nous avons également fourni des points de contrôle compatibles avec mlx-lm . Recherchez les modèles se terminant par MLX sur HuggingFace Hub, comme Qwen2.5-7B-Instruct-MLX.

LMStudio

Qwen2.5 a déjà été pris en charge par lmstudio.ai. Vous pouvez directement utiliser LMStudio avec nos fichiers GGUF.

OuvrirVINO

Qwen2.5 a déjà été pris en charge par la boîte à outils OpenVINO. Vous pouvez installer et exécuter cet exemple de chatbot avec un processeur Intel, un GPU intégré ou un GPU discret.

Interface utilisateur Web

Interface utilisateur Web de génération de texte

Vous pouvez directement utiliser text-generation-webui pour créer une démo d'interface utilisateur Web. Si vous utilisez GGUF, pensez à installer la dernière roue de llama.cpp avec le support de Qwen2.5.

fichier lama

Clonez llamafile , exécutez l'installation des sources, puis créez votre propre fichier lama avec le fichier GGUF en suivant le guide ici. Vous pouvez exécuter une ligne de commande, par exemple ./qwen.llamafile , pour créer une démo.

Déploiement

Qwen2.5 est pris en charge par plusieurs frameworks d'inférence. Nous démontrons ici l'utilisation de vLLM , SGLang et OpenLLM .

vLLM

Avertissement

Ne fonctionne pas avec vllm 0.6.3.

Nous vous conseillons d'utiliser la dernière version de vLLM pour créer un service API compatible OpenAI, y compris la prise en charge de l'utilisation des outils. Démarrez le serveur avec un modèle de chat, par exemple Qwen2.5-7B-Instruct :

vllm serve Qwen/Qwen2.5-7B-Instruct

Utilisez ensuite l'API de chat comme illustré ci-dessous :

curl http://localhost:8000/v1/chat/completions -H " Content-Type: application/json " -d ' {
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [
        {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
        {"role": "user", "content": "Tell me something about large language models."}
    ],
    "temperature": 0.7,
    "top_p": 0.8,
    "repetition_penalty": 1.05,
    "max_tokens": 512
} '

 from openai import OpenAI
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)

chat_response = client . chat . completions . create (
    model = "Qwen2.5-7B-Instruct" ,
    messages = [
        { "role" : "system" , "content" : "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." },
        { "role" : "user" , "content" : "Tell me something about large language models." },
    ],
    temperature = 0.7 ,
    top_p = 0.8 ,
    max_tokens = 512 ,
    extra_body = {
        "repetition_penalty" : 1.05 ,
    },
)
print ( "Chat response:" , chat_response )

SG Lang

Avertissement

Les API compatibles OpenAI fournies par SGLang ne prennent actuellement PAS en charge l'utilisation d'outils ou l'appel de fonctions .

Veuillez installer SGLang à partir des sources. Semblable à vLLM , vous devez lancer un serveur et utiliser le service API compatible OpenAI. Démarrez d'abord le serveur :

python -m sglang.launch_server --model-path Qwen/Qwen2.5-7B-Instruct --port 30000

Vous pouvez l'utiliser en Python comme indiqué ci-dessous :

 from sglang import function , system , user , assistant , gen , set_default_backend , RuntimeEndpoint

@ function
def multi_turn_question ( s , question_1 , question_2 ):
    s += system ( "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." )
    s += user ( question_1 )
    s += assistant ( gen ( "answer_1" , max_tokens = 256 ))
    s += user ( question_2 )
    s += assistant ( gen ( "answer_2" , max_tokens = 256 ))

set_default_backend ( RuntimeEndpoint ( "http://localhost:30000" ))

state = multi_turn_question . run (
    question_1 = "What is the capital of China?" ,
    question_2 = "List two local attractions." ,
)

for m in state . messages ():
    print ( m [ "role" ], ":" , m [ "content" ])

print ( state [ "answer_1" ])

OuvrirLLM

OpenLLM vous permet d'exécuter facilement Qwen2.5 en tant qu'API compatibles OpenAI. Vous pouvez démarrer un serveur de modèles en utilisant openllm serve . Par exemple:

openllm serve qwen2.5:7b

Le serveur est actif sur http://localhost:3000/ , fournissant des API compatibles OpenAI. Vous pouvez créer un client OpenAI pour appeler son API de chat. Pour plus d’informations, reportez-vous à notre documentation.

Utilisation des outils

Pour les capacités d'utilisation des outils, nous vous recommandons de jeter un œil à Qwen-Agent, qui fournit un wrapper autour de ces API pour prendre en charge l'utilisation d'outils ou l'appel de fonctions. L'utilisation des outils avec Qwen2.5 peut également être effectuée avec transformers Hugging Face, Ollama et vLLM. Suivez les guides de notre documentation pour voir comment activer le support.

Réglage fin

Nous vous conseillons d'utiliser des frameworks de formation, notamment Axolotl, Llama-Factory, unsloth, Swift, etc., pour affiner vos modèles avec SFT, DPO, PPO, etc.

Contrat de licence

Tous nos modèles open source, à l'exception des variantes 3B et 72B, sont sous licence Apache 2.0. Vous pouvez trouver les fichiers de licence dans les référentiels Hugging Face respectifs. Il n'est PAS nécessaire que vous soumettiez une demande d'utilisation commerciale.

Citation

Si vous trouvez notre travail utile, n'hésitez pas à nous citer.

 @misc{qwen2.5,
    title = {Qwen2.5: A Party of Foundation Models},
    url = {https://qwenlm.github.io/blog/qwen2.5/},
    author = {Qwen Team},
    month = {September},
    year = {2024}
}

@article{qwen2,
      title={Qwen2 Technical Report}, 
      author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
      journal={arXiv preprint arXiv:2407.10671},
      year={2024}
}

Contactez-nous

Si vous souhaitez laisser un message à notre équipe de recherche ou à notre équipe produit, rejoignez nos groupes Discord ou WeChat !

Développer