lightllmダウンロード - lightllmソースコードのダウンロード

LightLLM は、Python ベースの LLM (Large Language Model) 推論および提供フレームワークであり、軽量設計、容易なスケーラビリティ、および高速パフォーマンスで注目に値します。 LightLLM は、FasterTransformer、TGI、vLLM、FlashAttendant など、評価の高い多数のオープンソース実装の長所を活用しています。

英語ドキュメント | 中文档

特徴

3 プロセスの非同期コラボレーション: トークン化、モデル推論、および非トークン化が非同期で実行され、GPU 使用率が大幅に向上します。
Nopad (Unpad): 複数のモデルにわたる nopad アテンション操作のサポートを提供し、長さの大きな相違があるリクエストを効率的に処理します。
動的バッチ: リクエストの動的バッチスケジュールを有効にします。
FlashAttendant: 推論中の速度を向上させ、GPU メモリの占有面積を削減するために FlashAttendant を組み込んでいます。
テンソル並列処理: 複数の GPU 上でテンソル並列処理を利用して、推論を高速化します。
トークンアテンション: トークンごとの KV キャッシュメモリ管理メカニズムを実装し、推論中のメモリの無駄をゼロにします。
高性能ルーター: Token Attend と連携して、各トークンの GPU メモリを細心の注意を払って管理し、システムのスループットを最適化します。
Int8KV キャッシュ: この機能により、トークンの容量がほぼ 2 倍に増加します。ラマのみサポート。

対応機種一覧

咲く
ラマ
LLaMA V2
スターコーダー
クウェン-7b
チャットGLM2-6b
インターンLM-7b
インターンVLチャット
クウェン-VL
Qwen-VL-チャット
クウェン2-VL
ラヴァ-7b
ラヴァ-13b
ミストラル
厩舎
MiniCPM
ファイ-3
CohereForAI
DeepSeek-V2-Lite
ディープシーク V2

Qwen-7b を起動するときは、パラメータ「--eos_id 151643 --trust_remote_code」を設定する必要があります。

ChatGLM2 はパラメータ「--trust_remote_code」を設定する必要があります。

InternLM はパラメータ「--trust_remote_code」を設定する必要があります。

InternVL-Chat(Phi3) はパラメータ「--eos_id 32007 --trust_remote_code」を設定する必要があります。

InternVL-Chat(InternLM2) はパラメータ「--eos_id 92542 --trust_remote_code」を設定する必要があります。

Qwen2-VL-7b はパラメータ「--eos_id 151645 --trust_remote_code」を設定し、「pip install git+https://github.com/huggingface/transformers」を使用して最新バージョンにアップグレードする必要があります。

Stablelm はパラメータ「--trust_remote_code」を設定する必要があります。

Phi-3 は Mini と Small のみをサポートします。

DeepSeek-V2-Lite および DeepSeek-V2 では、パラメータ「--data_type bfloat16」を設定する必要があります

始めましょう

要件

コードは、Pytorch>=1.3、CUDA 11.8、および Python 3.9 でテストされています。必要な依存関係をインストールするには、提供されているrequirements.txtを参照し、次の指示に従ってください。

 # for cuda 11.8
pip install -r requirements.txt --extra-index-url https://download.pytorch.org/whl/cu118
# this version nccl can support torch cuda graph 
pip install nvidia-nccl-cu12==2.20.5

容器

公式の Docker コンテナを使用すると、モデルをより簡単に実行できます。これを行うには、次の手順に従います。

GitHub Container Registry からコンテナーをプルします。
```
docker pull ghcr.io/modeltc/lightllm:main
```

GPU サポートとポートマッピングを使用してコンテナーを実行します。

docker run -it --gpus all -p 8080:8080                  
        --shm-size 1g -v your_local_path:/data/         
        ghcr.io/modeltc/lightllm:main /bin/bash

あるいは、コンテナを自分で構築することもできます。

docker build -t < image_name > .
docker run -it --gpus all -p 8080:8080                  
        --shm-size 1g -v your_local_path:/data/         
        < image_name > /bin/bash

ヘルパースクリプトを使用して、コンテナーとサーバーの両方を起動することもできます。
```
python tools/quick_launch_docker.py --help
```
注: 複数の GPU を使用する場合は、 docker runコマンドに--shm-size追加して、共有メモリサイズを増やす必要がある場合があります。

インストール

ソースコードからインストールするには、

python setup.py install

Triton パッケージをインストールする

コードは、V100、A100、A800、4090、H800 などのさまざまな GPU でテストされています。 A100、A800 などでコードを実行している場合は、triton==3.0.0 を使用することをお勧めします。

pip install triton==3.0.0 --no-deps

H800 または V100 でコードを実行している場合は、パフォーマンスを向上させるために triton-nightly を試すことができます。

pip install -U --index-url https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/Triton-Nightly/pypi/simple/ triton-nightly --no-deps

ランラマ

効率的な Router と TokenAttend を使用すると、LightLLM をサービスとして展開し、最先端のスループットパフォーマンスを達成できます。

サーバーを起動します。

python -m lightllm.server.api_server --model_dir /path/llama-7B     
                                     --host 0.0.0.0                 
                                     --port 8080                    
                                     --tp 1                         
                                     --max_total_token_num 120000

パラメータmax_total_token_numは、デプロイメント環境の GPU メモリの影響を受けます。 --mem_faction を指定して、自動的に計算させることもできます。

python -m lightllm.server.api_server --model_dir /path/llama-7B     
                                     --host 0.0.0.0                 
                                     --port 8080                    
                                     --tp 1                         
                                     --mem_faction 0.9

シェルでクエリを開始するには:

curl http://127.0.0.1:8080/generate     
    -X POST                             
    -d ' {"inputs":"What is AI?","parameters":{"max_new_tokens":17, "frequency_penalty":1}} ' 
    -H ' Content-Type: application/json '

Python からクエリを実行するには:

 import time
import requests
import json

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }
data = {
    'inputs' : 'What is AI?' ,
    "parameters" : {
        'do_sample' : False ,
        'ignore_eos' : False ,
        'max_new_tokens' : 1024 ,
    }
}
response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

RUN マルチモーダルモデル

QWen-VL を実行する

python -m lightllm.server.api_server 
    --host 0.0.0.0                 
    --port 8080                    
    --tp 1                         
    --max_total_token_num 12000    
    --trust_remote_code            
    --enable_multimodal            
    --cache_capacity 1000          
    --model_dir /path/of/Qwen-VL or /path/of/Qwen-VL-Chat

ランラバ

python -m lightllm.server.api_server 
    --host 0.0.0.0                 
    --port 8080                    
    --tp 1                         
    --max_total_token_num 12000    
    --trust_remote_code            
    --enable_multimodal            
    --cache_capacity 1000          
    --model_dir /path/of/llava-v1.5-7b or /path/of/llava-v1.5-13b

QWen-VL からのクエリ

 import time
import requests
import json
import base64

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }

uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
    images = [{ "type" : "url" , "data" : uri }]
else :
    with open ( uri , 'rb' ) as fin :
        b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
    images = [{ 'type' : "base64" , "data" : b64 }]

data = {
    "inputs" : "<img></img>Generate the caption in English with grounding:" ,
    "parameters" : {
        "max_new_tokens" : 200 ,
        # The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
        "stop_sequences" : [ " <|endoftext|>" ],
    },
    "multimodal_params" : {
        "images" : images ,
    }
}

response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

QWen-VL-Chat からのクエリ

 import json
import requests
import base64

def run_once ( query , uris ):
    images = []
    for uri in uris :
        if uri . startswith ( "http" ):
            images . append ({ "type" : "url" , "data" : uri })
        else :
            with open ( uri , 'rb' ) as fin :
                b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
            images . append ({ 'type' : "base64" , "data" : b64 })

    data = {
        "inputs" : query ,
        "parameters" : {
            "max_new_tokens" : 200 ,
            # The space before <|endoftext|> is important, the server will remove the first bos_token_id, but QWen tokenizer does not has bos_token_id
            "stop_sequences" : [ " <|endoftext|>" , " <|im_start|>" , " <|im_end|>" ],
        },
        "multimodal_params" : {
            "images" : images ,
        }
    }

    # url = "http://127.0.0.1:8080/generate_stream"
    url = "http://127.0.0.1:8080/generate"
    headers = { 'Content-Type' : 'application/json' }
    response = requests . post ( url , headers = headers , data = json . dumps ( data ))
    if response . status_code == 200 :
        print ( " + result: ({})" . format ( response . json ()))
    else :
        print ( ' + error: {}, {}' . format ( response . status_code , response . text ))

"""
multi-img, multi-round:

<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
<img></img>
<img></img>
上面两张图片分别是哪两个城市？请对它们进行对比。<|im_end|>
<|im_start|>assistant
根据提供的信息，两张图片分别是重庆和北京。<|im_end|>
<|im_start|>user
这两座城市分别在什么地方？<|im_end|>
<|im_start|>assistant
"""
run_once (
    uris = [
        "assets/mm_tutorial/Chongqing.jpeg" ,
        "assets/mm_tutorial/Beijing.jpeg" ,
    ],
    query = "<|im_start|>system n You are a helpful assistant.<|im_end|> n <|im_start|>user n <img></img> n <img></img> n上面两张图片分别是哪两个城市？请对它们进行对比。<|im_end|> n <|im_start|>assistant n根据提供的信息，两张图片分别是重庆和北京。<|im_end|> n <|im_start|>user n这两座城市分别在什么地方？<|im_end|> n <|im_start|>assistant n "
)

Llavaからのクエリ

 import time
import requests
import json
import base64

url = 'http://localhost:8080/generate'
headers = { 'Content-Type' : 'application/json' }

uri = "/local/path/of/image" # or "/http/path/of/image"
if uri . startswith ( "http" ):
    images = [{ "type" : "url" , "data" : uri }]
else :
    with open ( uri , 'rb' ) as fin :
        b64 = base64 . b64encode ( fin . read ()). decode ( "utf-8" )
    images = [{ 'type' : "base64" , "data" : b64 }]

data = {
    "inputs" : "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions. USER: <image> n Please explain the picture. ASSISTANT:" ,
    "parameters" : {
        "max_new_tokens" : 200 ,
    },
    "multimodal_params" : {
        "images" : images ,
    }
}

response = requests . post ( url , headers = headers , data = json . dumps ( data ))
if response . status_code == 200 :
    print ( response . json ())
else :
    print ( 'Error:' , response . status_code , response . text )

追加の起動パラメータ: --enable_multimodal 、 --cache_capacity 、より大きな--cache_capacityにはより大きなshm-sizeが必要です

--tp > 1をサポートします。 tp > 1の場合、ビジュアルモデルは GPU 0 で実行されます。

Qwen-VL の特別な画像タグは<img></img> (Llava の場合は<image> ) です。data data["multimodal_params"]["images"]の長さはタグの数と同じでなければなりません。 0、1、2、...のいずれかになります。

入力画像形式: {'type': 'url'/'base64', 'data': xxx}のような辞書のリスト

パフォーマンス

サービスパフォーマンス

80G GPU メモリを搭載した A800 を使用して、LLaMA-7B 上で LightLLM と vLLM==0.1.2 のサービスパフォーマンスを比較しました。

まず、次のようにデータを準備します。

wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json

サービスを起動します。

python -m lightllm.server.api_server --model_dir /path/llama-7b --tp 1 --max_total_token_num 121060 --tokenizer_mode auto

評価：

 cd test
python benchmark_serving.py --tokenizer /path/llama-7b --dataset /path/ShareGPT_V3_unfiltered_cleaned_split.json --num-prompts 2000 --request-rate 200

パフォーマンスの比較結果を以下に示します。

vLLM	ライトLLM
合計時間: 361.79 秒スループット: 5.53 リクエスト/秒	合計時間: 188.85 秒スループット: 10.59 リクエスト/秒

静的推論のパフォーマンス

デバッグ用に、さまざまなモデル向けの静的パフォーマンステストスクリプトを提供しています。たとえば、LLaMA モデルの推論パフォーマンスは次のように評価できます。

 cd test/model
python test_llama.py

よくある質問

LLaMA トークナイザーのロードに失敗します。
- コマンドpip install protobuf==3.20.0実行してこれを解決することを検討してください。
error : PTX .version 7.4 does not support .target sm_89
- bash tools/resolve_ptx_version python -m lightllm.server.api_server ...で起動します。

lightllmを使用したプロジェクト

組み込む必要があるプロジェクトがある場合は、電子メールで連絡するか、プルリクエストを作成してください。

LazyLLM : マルチエージェント LLM アプリケーションを構築するための最も簡単で最も怠惰な方法。
lightllmとlazyllmをインストールしたら、次のコードを使用して独自のチャットボットを構築できます。
```
 from lazyllm import TrainableModule , deploy , WebModule
# Model will be download automatically if you have an internet connection
m = TrainableModule ( 'internlm2-chat-7b' ). deploy_method ( deploy . lightllm )
WebModule ( m ). start (). wait ()
```
ドキュメント: https://lazyllm.readthedocs.io/

コミュニティ

さらに詳しい情報やディスカッションについては、Discord サーバーに参加してください。

ライセンス

このリポジトリは、Apache-2.0 ライセンスに基づいてリリースされています。

了承

LightLLM を開発する際に、次のプロジェクトから多くのことを学びました。

より高速な変圧器
テキスト生成の推論
vLLM
フラッシュアテンション1&2
OpenAI トリトン

拡大する

lightllm

特徴

対応機種一覧

始めましょう

要件

容器

インストール

ランラマ

RUN マルチモーダルモデル

QWen-VL を実行する

ランラバ

QWen-VL からのクエリ

QWen-VL-Chat からのクエリ

Llavaからのクエリ

パフォーマンス

サービスパフォーマンス

静的推論のパフォーマンス

よくある質問

lightllmを使用したプロジェクト

コミュニティ

ライセンス

了承

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

lightllm

特徴

対応機種一覧

始めましょう

要件

容器

インストール

ランラマ

RUN マルチモーダル モデル

QWen-VL を実行する

ランラバ

QWen-VL からのクエリ

QWen-VL-Chat からのクエリ

Llavaからのクエリ

パフォーマンス

サービスパフォーマンス

静的推論のパフォーマンス

よくある質問

lightllmを使用したプロジェクト

コミュニティ

ライセンス

了承

RUN マルチモーダルモデル