Download lightllm - download do código-fonte lightllm

LightLLM é uma estrutura de inferência e serviço LLM (Large Language Model) baseada em Python, notável por seu design leve, fácil escalabilidade e desempenho de alta velocidade. LightLLM aproveita os pontos fortes de inúmeras implementações de código aberto bem conceituadas, incluindo, mas não se limitando a FasterTransformer, TGI, vLLM e FlashAttention.

Documentos em inglês | 中文文档

Características

Colaboração assíncrona de três processos: tokenização, inferência de modelo e destokenização são realizadas de forma assíncrona, levando a uma melhoria considerável na utilização da GPU.
Nopad (Unpad): oferece suporte para operações de atenção nopad em vários modelos para lidar com eficiência com solicitações com grandes disparidades de comprimento.
Lote Dinâmico: permite o agendamento dinâmico de solicitações em lote
FlashAttention: incorpora FlashAttention para melhorar a velocidade e reduzir o consumo de memória da GPU durante a inferência.
Paralelismo de tensor: utiliza paralelismo de tensor em várias GPUs para inferência mais rápida.
Atenção ao token: implementa o mecanismo de gerenciamento de memória cache KV do token, permitindo zero desperdício de memória durante a inferência.
Roteador de alto desempenho: colabora com Token Attention para gerenciar meticulosamente a memória GPU de cada token, otimizando assim o rendimento do sistema.
Cache Int8KV: Este recurso aumentará a capacidade dos tokens para quase o dobro. apenas suporte de lhama.

Lista de modelos suportados

FLORESCER
LLaMA
LLaMA V2
StarCoder
Qwen-7b
Bate-papoGLM2-6b
EstagiárioLM-7b
EstagiárioVL-Chat
Qwen-VL
Qwen-VL-Chat
Qwen2-VL
Llava-7b
Llava-13b
Mixtral
Estável
MiniCPM
Fi-3
CohereForAI
DeepSeek-V2-Lite
DeepSeek-V2

Ao iniciar o Qwen-7b, você precisa definir o parâmetro '--eos_id 151643 --trust_remote_code'.

ChatGLM2 precisa definir o parâmetro '--trust_remote_code'.

InternLM precisa definir o parâmetro '--trust_remote_code'.

InternVL-Chat (Phi3) precisa definir o parâmetro '--eos_id 32007 --trust_remote_code'.

InternVL-Chat (InternLM2) precisa definir o parâmetro '--eos_id 92542 --trust_remote_code'.

Qwen2-VL-7b precisa definir o parâmetro '--eos_id 151645 --trust_remote_code' e usar 'pip install git+https://github.com/huggingface/transformers' para atualizar para a versão mais recente.

Stablelm precisa definir o parâmetro '--trust_remote_code'.

Phi-3 suporta apenas Mini e Small.

DeepSeek-V2-Lite e DeepSeek-V2 precisam definir o parâmetro '--data_type bfloat16'

Comece

Requisitos

O código foi testado com Pytorch>=1.3, CUDA 11.8 e Python 3.9. Para instalar as dependências necessárias, consulte o arquivo requirements.txt fornecido e siga as instruções conforme

 # for cuda 11.8
pip install -r requirements.txt --extra-index-url https://download.pytorch.org/whl/cu118
# this version nccl can support torch cuda graph 
pip install nvidia-nccl-cu12==2.20.5

Recipiente

Você pode usar o contêiner oficial do Docker para executar o modelo com mais facilidade. Para fazer isso, siga estas etapas:

Retire o contêiner do GitHub Container Registry:
```
docker pull ghcr.io/modeltc/lightllm:main
```

Execute o contêiner com suporte a GPU e mapeamento de portas:

docker run -it --gpus all -p 8080:8080                  
        --shm-size 1g -v your_local_path:/data/         
        ghcr.io/modeltc/lightllm:main /bin/bash

Alternativamente, você mesmo pode construir o contêiner:

docker build -t < image_name > .
docker run -it --gpus all -p 8080:8080                  
        --shm-size 1g -v your_local_path:/data/         
        < image_name > /bin/bash

Você também pode usar um script auxiliar para iniciar o contêiner e o servidor:
```
python tools/quick_launch_docker.py --help
```
Nota: Se você usar várias GPUs, pode ser necessário aumentar o tamanho da memória compartilhada adicionando --shm-size ao comando docker run .

Instalação

Instale a partir do código-fonte por

python setup.py install

Instale o pacote Triton

O código foi testado em uma variedade de GPUs, incluindo V100, A100, A800, 4090 e H800. Se você estiver executando o código em A100, A800, etc., recomendamos usar triton==3.0.0.

pip install triton==3.0.0 --no-deps

Se você estiver executando o código em H800 ou V100, poderá tentar triton-nightly para obter melhor desempenho.

pip install -U --index-url https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/Triton-Nightly/pypi/simple/ triton-nightly --no-deps

EXECUTAR LLaMA

Com roteadores e TokenAttention eficientes, o LightLLM pode ser implantado como um serviço e atingir o desempenho de taxa de transferência de última geração.

Inicie o servidor:

python -m lightllm.server.api_server --model_dir /path/llama-7B     
                                     --host 0.0.0.0                 
                                     --port 8080                    
                                     --tp 1                         
                                     --max_total_token_num 120000

O parâmetro max_total_token_num é influenciado pela memória GPU do ambiente de implementação. Você também pode especificar --mem_faction para que seja calculado automaticamente.

python -m lightllm.server.api_server --model_dir /path/llama-7B     
                                     --host 0.0.0.0                 
                                     --port 8080                    
                                     --tp 1                         
                                     --mem_faction 0.9

Para iniciar uma consulta no shell:

curl http://127.0.0.1:8080/generate     
    -X POST                             
    -d ' {"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}} ' 
    -H ' Content-Type: application/json '

Para consultar em Python:

 import time
import requests
import json

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }
data = {
    'inputs' : 'What is AI?' ,
    "parameters" : {
        'do_sample' : False ,
        'ignore_eos' : False ,
        'max_new_tokens' : 1024 ,
    }
}
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

EXECUTAR Modelos Multimodais

Execute QWen-VL

python -m lightllm.server.api_server 
    --host 0.0.0.0                 
    --port 8080                    
    --tp 1                         
    --max_total_token_num 12000    
    --trust_remote_code            
    --enable_multimodal            
    --cache_capacity 1000          
    --model_dir /path/of/Qwen-VL or /path/of/Qwen-VL-Chat

Corra Llava

python -m lightllm.server.api_server 
    --host 0.0.0.0                 
    --port 8080                    
    --tp 1                         
    --max_total_token_num 12000    
    --trust_remote_code            
    --enable_multimodal            
    --cache_capacity 1000          
    --model_dir /path/of/llava-v1.5-7b or /path/of/llava-v1.5-13b

Consulta de QWen-VL

 import time
import requests
import json
import base64

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }

uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
    images = [{ "type" : "url" , "data" : uri }]
else :
    with open ( uri , 'rb' ) as fin :
        b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
    images = [{ 'type' : "base64" , "data" : b64 }]

data = {
    "inputs" : "<img></img>Generate the caption in English with grounding:" ,
    "parameters" : {
        "max_new_tokens" : 200 ,
        # The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
        "stop_sequences" : [ " <|endoftext|>" ],
    },
    "multimodal_params" : {
        "images" : images ,
    }
}

response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

Consulta do QWen-VL-Chat

 import json
import requests
import base64

def run_once ( query , uris ):
    images = []
    for uri in uris :
        if uri . startswith ( "http" ):
            images . append ({ "type" : "url" , "data" : uri })
        else :
            with open ( uri , 'rb' ) as fin :
                b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
            images . append ({ 'type' : "base64" , "data" : b64 })

    data = {
        "inputs" : query ,
        "parameters" : {
            "max_new_tokens" : 200 ,
            # The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
            "stop_sequences" : [ " <|endoftext|>" , " <|im_start|>" , " <|im_end|>" ],
        },
        "multimodal_params" : {
            "images" : images ,
        }
    }

    # url = "http://127.0.0.1:8080/generate_stream"
    url = "http://127.0.0.1:8080/generate"
    headers = { 'Content-Type' : 'application/json' }
    response = requests . post ( url , headers = headers , data = json . dumps ( data ))
    if response . status_code == 200 :
        print ( " + result: ({})" . format ( response . json ()))
    else :
        print ( ' + error: {}, {}' . format ( response . status_code , response . text ))

"""
multi-img, multi-round:

<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
<img></img>
<img></img>
上面两张图片分别是哪两个城市？请对它们进行对比。<|im_end|>
<|im_start|>assistant
根据提供的信息，两张图片分别是重庆和北京。<|im_end|>
<|im_start|>user
这两座城市分别在什么地方？<|im_end|>
<|im_start|>assistant
"""
run_once (
    uris = [
        "assets/mm_tutorial/Chongqing.jpeg" ,
        "assets/mm_tutorial/Beijing.jpeg" ,
    ],
    query = "<|im_start|>system n You are a helpful assistant.<|im_end|> n <|im_start|>user n <img></img> n <img></img> n上面两张图片分别是哪两个城市？请对它们进行对比。<|im_end|> n <|im_start|>assistant n根据提供的信息，两张图片分别是重庆和北京。<|im_end|> n <|im_start|>user n这两座城市分别在什么地方？<|im_end|> n <|im_start|>assistant n "
)

Consulta de Llava

 import time
import requests
import json
import base64

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }

uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
    images = [{ "type" : "url" , "data" : uri }]
else :
    with open ( uri , 'rb' ) as fin :
        b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
    images = [{ 'type' : "base64" , "data" : b64 }]

data = {
    "inputs" : "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions. USER: <image> n Please explain the picture. ASSISTANT:" ,
    "parameters" : {
        "max_new_tokens" : 200 ,
    },
    "multimodal_params" : {
        "images" : images ,
    }
}

response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

Parâmetros adicionais do lanuch: --enable_multimodal , --cache_capacity , maior --cache_capacity requer shm-size maior

Suporte --tp > 1 , quando tp > 1 , o modelo visual é executado na GPU 0

A tag de imagem especial para Qwen-VL é <img></img> ( <image> para Llava), o comprimento de data["multimodal_params"]["images"] deve ser igual à contagem de tags, O número pode ser 0, 1, 2, ...

Formato de imagens de entrada: lista para dict como {'type': 'url'/'base64', 'data': xxx}

Desempenho

Desempenho do serviço

Comparamos o desempenho do serviço LightLLM e vLLM==0.1.2 no LLaMA-7B usando um A800 com memória GPU de 80G.

Para começar, prepare os dados da seguinte forma:

wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json

Inicie o serviço:

python -m lightllm.server.api_server --model_dir /path/llama-7b --tp 1 --max_total_token_num 121060 --tokenizer_mode auto

Avaliação:

 cd test
python benchmark_serving.py --tokenizer /path/llama-7b --dataset /path/ShareGPT_V3_unfiltered_cleaned_split.json --num-prompts 2000 --request-rate 200

Os resultados da comparação de desempenho são apresentados abaixo:

vLLM	LuzLLM
Tempo total: 361,79 s Taxa de transferência: 5,53 solicitações/s	Tempo total: 188,85 s Taxa de transferência: 10,59 solicitações/s

Desempenho de inferência estática

Para depuração, oferecemos scripts de teste de desempenho estático para vários modelos. Por exemplo, você pode avaliar o desempenho de inferência do modelo LLaMA por

 cd test/model
python test_llama.py

Perguntas frequentes

O tokenizer LLaMA não carrega.
- considere resolver isso executando o comando pip install protobuf==3.20.0 .
error : PTX .version 7.4 does not support .target sm_89
- inicie com bash tools/resolve_ptx_version python -m lightllm.server.api_server ...

Projetos usando lightllm

Caso você tenha um projeto que deva ser incorporado, entre em contato por e-mail ou crie um pull request.

LazyLLM : a maneira mais fácil e preguiçosa de construir aplicativos LLMs multiagentes.

Depois de instalar lightllm e lazyllm , você poderá usar o seguinte código para construir seu próprio chatbot:

 from lazyllm import TrainableModule , deploy , WebModule
# Model will be download automatically if you have an internet connection
m = TrainableModule ( 'internlm2-chat-7b' ). deploy_method ( deploy . lightllm )
WebModule ( m ). start (). wait ()