airllm

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

airllm_logo

เริ่มต้นอย่างรวดเร็ว | การกำหนดค่า | MacOS | ตัวอย่างสมุดบันทึก | คำถามที่พบบ่อย

AirLLM ปรับการใช้งานหน่วยความจำอนุมานให้เหมาะสม ทำให้โมเดลภาษาขนาดใหญ่ 70B สามารถรันการอนุมานบนการ์ด GPU ขนาด 4GB ใบเดียว โดยไม่ต้องหาปริมาณ การกลั่น และการตัด และคุณสามารถรัน 405B Llama3.1 บน vram 8GB ได้แล้วตอนนี้

อัพเดท

[20/08/2024] v2.11.0: รองรับ Qwen2.5

[2024/08/18] v2.10.1 รองรับการอนุมาน CPU รองรับโมเดลที่ไม่แบ่งส่วน ขอบคุณ @NavodPeiris สำหรับการทำงานที่ยอดเยี่ยม!

[2024/07/30] รองรับ Llama3.1 405B (ตัวอย่างโน้ตบุ๊ก) รองรับ การหาปริมาณ 8 บิต/4 บิต

[2024/04/20] AirLLM รองรับ Llama3 โดยกำเนิดแล้ว เรียกใช้ Llama3 70B บน GPU ตัวเดียวขนาด 4GB

[25/12/2566] v2.8.2: รองรับ MacOS ที่ใช้โมเดลภาษาขนาดใหญ่ 70B

[20/12/2566] v2.7: รองรับ AirLLMMixtral

[20/12/2566] v2.6: เพิ่ม AutoModel ตรวจจับประเภทโมเดลโดยอัตโนมัติ ไม่จำเป็นต้องจัดเตรียมคลาสโมเดลเพื่อเริ่มต้นโมเดล

[12/2023/18] v2.5: เพิ่มการดึงข้อมูลล่วงหน้าเพื่อทับซ้อนกับการโหลดโมเดลและการคำนวณ การปรับปรุงความเร็ว 10%

[2023/12/03] เพิ่มการรองรับ ChatGLM , QWen , Baichuan , Mistral , InternLM !

[2023/12/02] เพิ่มการรองรับสำหรับตัวป้องกัน ตอนนี้สนับสนุนโมเดล 10 อันดับแรกทั้งหมดในลีดเดอร์บอร์ด llm แบบเปิด

[2023/12/01] airllm 2.0. รองรับการบีบอัด: ความเร็วรันไทม์เพิ่มขึ้น 3 เท่า!

[2023/11/20] airllm เวอร์ชันเริ่มต้น!

ประวัติดารา

สารบัญ

เริ่มต้นอย่างรวดเร็ว
การบีบอัดโมเดล
การกำหนดค่า
ทำงานบน MacOS
ตัวอย่างโน๊ตบุค
รุ่นที่รองรับ
รับทราบ
คำถามที่พบบ่อย

เริ่มต้นอย่างรวดเร็ว

1. ติดตั้งแพ็คเกจ

ขั้นแรก ติดตั้งแพ็คเกจ airllm pip

pip install airllm

2. การอนุมาน

จากนั้น เริ่มต้น AirLLMLlama2 ส่งรหัส repo ID ของโมเดลที่ใช้งานอยู่ หรือเส้นทางในเครื่อง และการอนุมานสามารถทำได้คล้ายกับโมเดลหม้อแปลงทั่วไป

( คุณยังสามารถระบุเส้นทางเพื่อบันทึกโมเดลแบบแบ่งเลเยอร์ที่แยกผ่าน layer_shards_saving_path เมื่อเริ่มต้น AirLLMLlama2

 from airllm import AutoModel

MAX_LENGTH = 128
# could use hugging face model repo id:
model = AutoModel . from_pretrained ( "garage-bAInd/Platypus2-70B-instruct" )

# or use model's local path...
#model = AutoModel.from_pretrained("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")

input_text = [
        'What is the capital of United States?' ,
        #'I like',
    ]

input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH , 
    padding = False )
           
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 20 ,
    use_cache = True ,
    return_dict_in_generate = True )

output = model . tokenizer . decode ( generation_output . sequences [ 0 ])

print ( output )

หมายเหตุ: ในระหว่างการอนุมาน โมเดลดั้งเดิมจะถูกแยกย่อยและบันทึกเป็นเลเยอร์ก่อน โปรดตรวจสอบให้แน่ใจว่ามีพื้นที่ดิสก์เพียงพอในไดเร็กทอรีแคชของ Huggingface

การบีบอัดโมเดล - เร่งความเร็วการอนุมาน 3 เท่า!

เราเพิ่งเพิ่มการบีบอัดโมเดลตามการบีบอัดโมเดลตามปริมาณเชิงปริมาณแบบบล็อก ซึ่งสามารถ เพิ่มความเร็วในการอนุมานได้ สูงสุดถึง 3 เท่า โดย สูญเสียความแม่นยำไปจนแทบจะมองข้ามไป! (ดูการประเมินประสิทธิภาพเพิ่มเติม และเหตุใดเราจึงใช้การวัดปริมาณแบบบล็อกในบทความนี้)

ความเร็ว_การปรับปรุง

วิธีเปิดใช้งานความเร็วการบีบอัดโมเดล:

ขั้นตอนที่ 1 ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง bitsandbytes โดย pip install -U bitsandbytes
ขั้นตอนที่ 2 ตรวจสอบให้แน่ใจว่า airllm เวอร์ชันใหม่กว่า 2.0.0: pip install -U airllm
ขั้นตอนที่ 3 เมื่อเริ่มต้นโมเดล ให้ผ่านการบีบอัดอาร์กิวเมนต์ ('4 บิต' หรือ '8 บิต'):

 model = AutoModel . from_pretrained ( "garage-bAInd/Platypus2-70B-instruct" ,
                     compression = '4bit' # specify '8bit' for 8-bit block-wise quantization 
                    )

อะไรคือความแตกต่างระหว่างการบีบอัดโมเดลและการหาปริมาณ?

โดยปกติการหาปริมาณจะต้องวัดปริมาณทั้งน้ำหนักและการเปิดใช้งานเพื่อเร่งความเร็วให้เร็วขึ้น ซึ่งทำให้ยากต่อการรักษาความถูกต้องและหลีกเลี่ยงผลกระทบของค่าผิดปกติในอินพุตทุกประเภท

แม้ว่าในกรณีของเรา คอขวดส่วนใหญ่จะอยู่ที่การโหลดดิสก์ เราเพียงแต่ต้องทำให้ขนาดการโหลดโมเดลเล็กลงเท่านั้น ดังนั้นเราจึงต้องวัดปริมาณเฉพาะส่วนของตุ้มน้ำหนักเท่านั้น ซึ่งง่ายกว่าที่จะรับประกันความถูกต้องแม่นยำ

การกำหนดค่า

เมื่อเริ่มต้นโมเดล เรารองรับการกำหนดค่าต่อไปนี้:

การบีบอัด : ตัวเลือกที่รองรับ: 4 บิต, 8 บิตสำหรับการหาปริมาณแบบบล็อก 4 บิตหรือ 8 บิต หรือตามค่าเริ่มต้น ไม่มี หากไม่มีการบีบอัด
profiling_mode : ตัวเลือกที่รองรับ: จริงถึงการสิ้นเปลืองเวลาเอาต์พุตหรือตามค่าเริ่มต้นเป็นเท็จ
layer_shards_saving_path : ทางเลือกอื่นสำหรับบันทึกโมเดลที่แยกออก
hf_token : สามารถให้โทเค็น Huggingface ได้ที่นี่ หากดาวน์โหลดโมเดลที่มีรั้วรอบขอบชิด เช่น: meta-llama/Llama-2-7b-hf
prefetching : การดึงข้อมูลล่วงหน้าเพื่อทับซ้อนกับการโหลดโมเดลและการคำนวณ โดยค่าเริ่มต้น เปิดอยู่ สำหรับตอนนี้ มีเพียง AirLLMLlama2 เท่านั้นที่รองรับสิ่งนี้
Delete_Original : หากคุณไม่มีเนื้อที่ดิสก์มากเกินไป คุณสามารถตั้งค่า Delete_Original ให้เป็นจริงเพื่อลบโมเดลใบหน้ากอดต้นฉบับที่ดาวน์โหลดมา เก็บเฉพาะโมเดลที่แปลงแล้วเพื่อประหยัดพื้นที่ดิสก์ครึ่งหนึ่ง

แมคโอเอส

เพียงติดตั้ง airllm และรันโค้ดเหมือนกับบน linux ดูเพิ่มเติมในการเริ่มต้นอย่างรวดเร็ว

ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง mlx และ torch แล้ว
คุณอาจต้องติดตั้ง Python Native ดูเพิ่มเติมที่นี่
รองรับเฉพาะ Apple Silicon เท่านั้น

ตัวอย่าง [สมุดบันทึกหลาม] (https://github.com/lyogavin/airllm/blob/main/air_llm/examples/run_on_macos.ipynb)

ตัวอย่างสมุดบันทึก Python

ตัวอย่าง Colab ที่นี่:

ตัวอย่างรุ่นอื่นๆ (ChatGLM, QWen, Baichuan, Mistral ฯลฯ):

แชท GLM:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "THUDM/chatglm3-6b-base" )
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH , 
    padding = True )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

คิวเหวิน:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "Qwen/Qwen-7B" )
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

Baichuan, InternLM, Mistral ฯลฯ:

 from airllm import AutoModel
MAX_LENGTH = 128
model = AutoModel . from_pretrained ( "baichuan-inc/Baichuan2-7B-Base" )
#model = AutoModel.from_pretrained("internlm/internlm-20b")
#model = AutoModel.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
input_text = [ 'What is the capital of China?' ,]
input_tokens = model . tokenizer ( input_text ,
    return_tensors = "pt" , 
    return_attention_mask = False , 
    truncation = True , 
    max_length = MAX_LENGTH )
generation_output = model . generate (
    input_tokens [ 'input_ids' ]. cuda (), 
    max_new_tokens = 5 ,
    use_cache = True ,
    return_dict_in_generate = True )
model . tokenizer . decode ( generation_output . sequences [ 0 ])

หากต้องการขอรับการสนับสนุนรุ่นอื่น: ที่นี่

รับทราบ

โค้ดจำนวนมากอิงจากผลงานที่ยอดเยี่ยมของ SimJeg ในการแข่งขันสอบ Kaggle ตะโกนสุดเสียงถึง SimJeg:

บัญชี GitHub @SimJeg รหัสบน Kaggle การสนทนาที่เกี่ยวข้อง

คำถามที่พบบ่อย

1. MetadataIncompleteBuffer

safetensors_rust.SafetensorError: เกิดข้อผิดพลาดขณะทำการดีซีเรียลไลซ์ส่วนหัว: MetadataIncompleteBuffer

หากคุณพบข้อผิดพลาดนี้ สาเหตุส่วนใหญ่ที่เป็นไปได้คือพื้นที่ดิสก์ของคุณไม่เพียงพอ กระบวนการแยกโมเดลใช้ดิสก์มาก ดูสิ่งนี้ คุณอาจต้องขยายพื้นที่ดิสก์ ล้าง .cache ของ Huggingface แล้วรันใหม่

2. ValueError: max() arg เป็นลำดับว่าง

เป็นไปได้มากว่าคุณกำลังโหลดโมเดล QWen หรือ ChatGLM พร้อมคลาส Llama2 ลองดังต่อไปนี้:

สำหรับรุ่น QWen:

 from airllm import AutoModel #<----- instead of AirLLMLlama2
AutoModel . from_pretrained (...)

สำหรับรุ่น ChatGLM:

 from airllm import AutoModel #<----- instead of AirLLMLlama2
AutoModel . from_pretrained (...)

3. ข้อผิดพลาด 401 ไคลเอ็นต์....โมเดล Repo ... มีรั้วรอบขอบชิด

บางรุ่นเป็นรุ่นที่มีรั้วรอบขอบชิด ต้องใช้โทเค็น API แบบกอด คุณสามารถระบุ hf_token:

 model = AutoModel . from_pretrained ( "meta-llama/Llama-2-7b-hf" , #hf_token='HF_API_TOKEN')

4. ValueError: การขอให้แพดแต่โทเค็นไนเซอร์ไม่มีโทเค็นการแพด

โทเค็นไนเซอร์ของบางรุ่นไม่มีโทเค็นการเติม ดังนั้นคุณจึงสามารถตั้งค่าโทเค็นการเติมหรือเพียงแค่ปิดการกำหนดค่าการเติม:

 input_tokens = model . tokenizer ( input_text ,
   return_tensors = "pt" , 
   return_attention_mask = False , 
   truncation = True , 
   max_length = MAX_LENGTH , 
   padding = False  #<-----------   turn off padding 
)

อ้างถึง AirLLM

หากคุณพบว่า AirLLM มีประโยชน์ในการวิจัยของคุณและต้องการอ้างอิง โปรดใช้รายการ BibTex ต่อไปนี้:

 @software{airllm2023,
  author = {Gavin Li},
  title = {AirLLM: scaling large language models on low-end commodity computers},
  url = {https://github.com/lyogavin/airllm/},
  version = {0.0},
  year = {2023},
}