LightLLM é uma estrutura de inferência e serviço LLM (Large Language Model) baseada em Python, notável por seu design leve, fácil escalabilidade e desempenho de alta velocidade. LightLLM aproveita os pontos fortes de inúmeras implementações de código aberto bem conceituadas, incluindo, mas não se limitando a FasterTransformer, TGI, vLLM e FlashAttention.
Documentos em inglês | 中文文档
Ao iniciar o Qwen-7b, você precisa definir o parâmetro '--eos_id 151643 --trust_remote_code'.
ChatGLM2 precisa definir o parâmetro '--trust_remote_code'.
InternLM precisa definir o parâmetro '--trust_remote_code'.
InternVL-Chat (Phi3) precisa definir o parâmetro '--eos_id 32007 --trust_remote_code'.
InternVL-Chat (InternLM2) precisa definir o parâmetro '--eos_id 92542 --trust_remote_code'.
Qwen2-VL-7b precisa definir o parâmetro '--eos_id 151645 --trust_remote_code' e usar 'pip install git+' para atualizar para a versão mais recente.
Stablelm precisa definir o parâmetro '--trust_remote_code'.
Phi-3 suporta apenas Mini e Small.
DeepSeek-V2-Lite e DeepSeek-V2 precisam definir o parâmetro '--data_type bfloat16'
O código foi testado com Pytorch>=1.3, CUDA 11.8 e Python 3.9. Para instalar as dependências necessárias, consulte o arquivo requirements.txt fornecido e siga as instruções conforme
# for cuda 11.8
pip install -r requirements.txt --extra-index-url
# this version nccl can support torch cuda graph
pip install nvidia-nccl-cu12==2.20.5
Você pode usar o contêiner oficial do Docker para executar o modelo com mais facilidade. Para fazer isso, siga estas etapas:
Extraia o contêiner do GitHub Container Registry:
docker pull
Execute o contêiner com suporte a GPU e mapeamento de portas:
docker run -it --gpus all -p 8080:8080
--shm-size 1g -v your_local_path:/data/ /bin/bash
Alternativamente, você mesmo pode construir o contêiner:
docker build -t < image_name > .
docker run -it --gpus all -p 8080:8080
--shm-size 1g -v your_local_path:/data/
< image_name > /bin/bash
Você também pode usar um script auxiliar para iniciar o contêiner e o servidor:
python tools/ --help
Nota: Se você usar várias GPUs, pode ser necessário aumentar o tamanho da memória compartilhada adicionando --shm-size
ao comando docker run
python install
O código foi testado em uma variedade de GPUs, incluindo V100, A100, A800, 4090 e H800. Se você estiver executando o código em A100, A800, etc., recomendamos usar triton==3.0.0.
pip install triton==3.0.0 --no-deps
Se você estiver executando o código em H800 ou V100, poderá tentar triton-nightly para obter melhor desempenho.
pip install -U --index-url triton-nightly --no-deps
Com roteadores e TokenAttention eficientes, o LightLLM pode ser implantado como um serviço e atingir o desempenho de taxa de transferência de última geração.
Inicie o servidor:
python -m lightllm.server.api_server --model_dir /path/llama-7B
--port 8080
--tp 1
--max_total_token_num 120000
O parâmetro max_total_token_num
é influenciado pela memória GPU do ambiente de implementação. Você também pode especificar --mem_faction para que seja calculado automaticamente.
python -m lightllm.server.api_server --model_dir /path/llama-7B
--port 8080
--tp 1
--mem_faction 0.9
Para iniciar uma consulta no shell:
-d ' {"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}} '
-H ' Content-Type: application/json '
Para consultar em Python:
import time
import requests
import json
url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }
data = {
'inputs' : 'What is AI?' ,
"parameters" : {
'do_sample' : False ,
'ignore_eos' : False ,
'max_new_tokens' : 1024 ,
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
print ( response . json ())
else :
print ( 'Error:' , response . status_code , response . text )
python -m lightllm.server.api_server
--port 8080
--tp 1
--max_total_token_num 12000
--cache_capacity 1000
--model_dir /path/of/Qwen-VL or /path/of/Qwen-VL-Chat
python -m lightllm.server.api_server
--port 8080
--tp 1
--max_total_token_num 12000
--cache_capacity 1000
--model_dir /path/of/llava-v1.5-7b or /path/of/llava-v1.5-13b
import time
import requests
import json
import base64
url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }
uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
images = [{ "type" : "url" , "data" : uri }]
else :
with open ( uri , 'rb' ) as fin :
b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
images = [{ 'type' : "base64" , "data" : b64 }]
data = {
"inputs" : "Generate the caption in English with grounding:" ,
"parameters" : {
"max_new_tokens" : 200 ,
# The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
"stop_sequences" : [ " <|endoftext|>" ],
"multimodal_params" : {
"images" : images ,
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
print ( response . json ())
else :
print ( 'Error:' , response . status_code , response . text )
import json
import requests
import base64
def run_once ( query , uris ):
images = []
for uri in uris :
if uri . startswith ( "http" ):
images . append ({ "type" : "url" , "data" : uri })
else :
with open ( uri , 'rb' ) as fin :
b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
images . append ({ 'type' : "base64" , "data" : b64 })
data = {
"inputs" : query ,
"parameters" : {
"max_new_tokens" : 200 ,
# The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
"stop_sequences" : [ " <|endoftext|>" , " <|im_start|>" , " <|im_end|>" ],
"multimodal_params" : {
"images" : images ,
# url = ""
url = ""
headers = { 'Content-Type' : 'application/json' }
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
print ( " + result: ({})" . format ( response . json ()))
else :
print ( ' + error: {}, {}' . format ( response . status_code , response . text ))
multi-img, multi-round:
You are a helpful assistant.<|im_end|>
run_once (
uris = [
"assets/mm_tutorial/Chongqing.jpeg" ,
"assets/mm_tutorial/Beijing.jpeg" ,
query = "<|im_start|>system n You are a helpful assistant.<|im_end|> n <|im_start|>user n n n上面两张图片分别是哪两个城市?请对它们进行对比。<|im_end|> n <|im_start|>assistant n根据提供的信息,两张图片分别是重庆和北京。<|im_end|> n <|im_start|>user n这两座城市分别在什么地方?<|im_end|> n <|im_start|>assistant n "
import time
import requests
import json
import base64
url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }
uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
images = [{ "type" : "url" , "data" : uri }]
else :
with open ( uri , 'rb' ) as fin :
b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
images = [{ 'type' : "base64" , "data" : b64 }]
data = {
"inputs" : "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions. USER: n Please explain the picture. ASSISTANT:" ,
"parameters" : {
"max_new_tokens" : 200 ,
"multimodal_params" : {
"images" : images ,
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
print ( response . json ())
else :
print ( 'Error:' , response . status_code , response . text )
Parâmetros adicionais do lanuch:
, maior--cache_capacity
--tp > 1
, quandotp > 1
, o modelo visual é executado na GPU 0
A tag de imagem especial para Qwen-VL é
para Llava), o comprimento de
deve ser igual à contagem de tags, O número pode ser 0, 1, 2, ...
Formato de imagens de entrada: lista para dict como
{'type': 'url'/'base64', 'data': xxx}
Comparamos o desempenho do serviço LightLLM e vLLM==0.1.2 no LLaMA-7B usando um A800 com memória GPU de 80G.
Para começar, prepare os dados da seguinte forma:
Inicie o serviço:
python -m lightllm.server.api_server --model_dir /path/llama-7b --tp 1 --max_total_token_num 121060 --tokenizer_mode auto
cd test
python --tokenizer /path/llama-7b --dataset /path/ShareGPT_V3_unfiltered_cleaned_split.json --num-prompts 2000 --request-rate 200
Os resultados da comparação de desempenho são apresentados abaixo:
vLLM | LuzLLM |
Tempo total: 361,79 s Taxa de transferência: 5,53 solicitações/s | Tempo total: 188,85 s Taxa de transferência: 10,59 solicitações/s |
Para depuração, oferecemos scripts de teste de desempenho estático para vários modelos. Por exemplo, você pode avaliar o desempenho de inferência do modelo LLaMA por
cd test/model
pip install protobuf==3.20.0
.error : PTX .version 7.4 does not support .target sm_89
bash tools/resolve_ptx_version python -m lightllm.server.api_server ...
Caso você tenha um projeto que deva ser incorporado, entre em contato por e-mail ou crie um pull request.
Depois de instalar lightllm
e lazyllm
, você poderá usar o seguinte código para construir seu próprio chatbot:
from lazyllm import TrainableModule , deploy , WebModule
# Model will be download automatically if you have an internet connection
m = TrainableModule ( 'internlm2-chat-7b' ). deploy_method ( deploy . lightllm )
WebModule ( m ). start (). wait ()
Para mais informações e discussões, junte-se ao nosso servidor discord.
Este repositório é lançado sob a licença Apache-2.0.
Aprendemos muito com os seguintes projetos ao desenvolver o LightLLM.