ทวิตเตอร์ (หรือที่รู้จักว่า X)
ติดตามเราทาง X | |
การติดตั้ง | ไม่เฉื่อยชา/README.md |
การเปรียบเทียบ | ตารางประสิทธิภาพ |
รุ่นที่วางจำหน่าย | Unsloth เผยแพร่ |
บล็อก | อ่านบล็อกของเรา |
เคอร์เนลทั้งหมดที่เขียนด้วยภาษา Triton ของ OpenAI เครื่องยนต์ backprop แบบแมนนวล
สูญเสียความแม่นยำ 0% - ไม่มีวิธีการประมาณ - แม่นยำทั้งหมด
ไม่มีการเปลี่ยนแปลงฮาร์ดแวร์ รองรับ NVIDIA GPU ตั้งแต่ปี 2018+ ความสามารถ CUDA ขั้นต่ำ 7.0 (V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40 ฯลฯ) ตรวจสอบ GPU ของคุณ! GTX 1070, 1080 ใช้งานได้แต่ช้า
ทำงานบน Linux และ Windows ผ่าน WSL
รองรับการปรับแต่ง QLoRA / LoRA 4 บิตและ 16 บิตผ่านบิตแซนด์ไบต์
โอเพ่นซอร์สฝึกฝนเร็วขึ้น 5 เท่า - ดู Unsloth Pro เพื่อ การฝึกฝนเร็วขึ้นสูงสุด 30 เท่า !
หากคุณฝึกโมเดลด้วย ?Unsloth คุณสามารถใช้สติกเกอร์สุดเจ๋งนี้ได้!
หากต้องการดูรายการตารางการเปรียบเทียบ ที่สามารถทำซ้ำได้ ทั้งหมด โปรดไปที่เว็บไซต์ของเรา
1A100 40GB | ?กอดหน้า | ความสนใจแบบแฟลช | ?โอเพ่นซอร์สที่ไม่เฉื่อยชา | ?Unsloth Pro |
---|---|---|---|---|
อัลปาก้า | 1x | 1.04x | 1.98x | 15.64x |
LAION ชิป2 | 1x | 0.92x | 1.61x | 20.73x |
OASST | 1x | 1.19x | 2.17x | 14.83x |
สลิมออร์ก้า | 1x | 1.18x | 2.22x | 14.82x |
ตารางเปรียบเทียบด้านล่างจัดทำโดย ?Hugging Face
ฟรี Colab T4 | ชุดข้อมูล | ?กอดหน้า | ไพทอร์ช 2.1.1 | ?ไม่เฉื่อยชา | - การลด VRAM |
---|---|---|---|---|---|
ลามะ-2 7b | OASST | 1x | 1.19x | 1.95x | -43.3% |
มิสทรัล 7b | อัลปาก้า | 1x | 1.07x | 1.56x | -13.7% |
ลามะจิ๋ว 1.1b | อัลปาก้า | 1x | 2.06x | 3.87x | -73.8% |
อ.ส.ค. กับเซเฟอร์ | อัลตร้าแชท | 1x | 1.09x | 1.55x | -18.6% |
สำหรับรุ่นที่เสถียร ให้ใช้ pip install unsloth
เราขอแนะนำให้ pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
สำหรับการติดตั้งส่วนใหญ่
️Only use Conda if you have it. If not, use Pip
เลือก pytorch-cuda=11.8,12.1
สำหรับ CUDA 11.8 หรือ CUDA 12.1 เรารองรับ python=3.10,3.11,3.12
conda สร้าง --name unsloth_env หลาม=3.11 ไพทอร์ช-คูดา=12.1 pytorch cudatoolkit xformers -c pytorch -c nvidia -c xformers -y conda เปิดใช้งาน unsloth_env pip ติดตั้ง "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"pip install --no-deps trl peft เร่งความเร็วบิตแซนด์ไบต์
mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh ทุบตี ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 rm -rf ~/miniconda3/miniconda.sh~/miniconda3/bin/conda init bash~/miniconda3/bin/conda เริ่มต้น zsh
️Do **NOT** use this if you have Conda.
Pip นั้นซับซ้อนกว่าเล็กน้อยเนื่องจากมีปัญหาการพึ่งพา คำสั่ง pip จะแตกต่างกันสำหรับเวอร์ชัน torch 2.2,2.3,2.4,2.5
และ CUDA
สำหรับเวอร์ชันไฟฉายอื่นๆ เรารองรับ torch211
, torch212
, torch220
, torch230
, torch240
และสำหรับเวอร์ชัน CUDA เรารองรับ cu118
และ cu121
และ cu124
สำหรับอุปกรณ์ Ampere (A100, H100, RTX3090) ขึ้นไป ให้ใช้ cu118-ampere
หรือ cu121-ampere
หรือ cu124-ampere
ตัวอย่างเช่น หากคุณมี torch 2.4
และ CUDA 12.1
ให้ใช้:
การติดตั้ง pip -- อัปเกรด pip pip ติดตั้ง "unsloth[cu121-torch240] @ git+https://github.com/unslothai/unsloth.git"
อีกตัวอย่างหนึ่ง หากคุณมี torch 2.5
และ CUDA 12.4
ให้ใช้:
การติดตั้ง pip -- อัปเกรด pip pip ติดตั้ง "unsloth[cu124-torch250] @ git+https://github.com/unslothai/unsloth.git"
และตัวอย่างอื่นๆ:
pip ติดตั้ง "unsloth[cu121-ampere-torch240] @ git+https://github.com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu118-ampere-torch240] @ git+https://github.com/ unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu121-torch240] @ git+https://github.com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu118-torch240] @ git+https://github. com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu121-torch230] @ git+https://github.com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu121-ampere-torch230] @ git+https: //github.com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu121-torch250] @ git+https://github.com/unslothai/unsloth.git"pip ติดตั้ง "unsloth[cu124-ampere-torch250] @ git+https://github.com/unslothai/unsloth.git"
หรือเรียกใช้คำสั่งด้านล่างในเทอร์มินัลเพื่อรับคำสั่งการติดตั้ง pip ที่เหมาะสมที่สุด :
wget -qO- https://raw.githubusercontent.com/unslothai/unsloth/main/unsloth/_auto_install.py | หลาม -
หรือรันด้านล่างด้วยตนเองใน Python REPL:
ลอง: นำเข้า torchยกเว้น: เพิ่ม ImportError('ติดตั้ง torch ผ่าน `pip ติดตั้ง torch`') จาก packaging.version นำเข้าเวอร์ชันเป็น Vv = V(torch.__version__)cuda = str(torch.version.cuda)is_ampere = torch.cuda get_device_capability()[0] >= 8if cuda != "12.1" และ cuda != "11.8" และ cuda != "12.4": เพิ่ม RuntimeError(f"CUDA = {cuda} ไม่รองรับ!")if v <= V ('2.1.0'): เพิ่ม RuntimeError(f"Torch = {v} เก่าเกินไป!")elif v <= V('2.1.1'): x = 'cu{}{}-torch211'elif v < = V('2.1.2'): x = 'cu{}{}-torch212'elif v < V('2.3.0'): x = 'cu{}{}-torch220'elif v < V(' 2.4.0'): x = 'cu{}{}-torch230'elif v < V('2.5.0'): x = 'cu{}{}-torch240'elif v < V('2.6.0') ): x = 'cu{}{}-torch250'else: เพิ่ม RuntimeError(f"Torch = {v} ใหม่เกินไป!")x = x.format(cuda.replace(".", ""), "- แอมแปร์" if is_ampere else "")print(f'pip install --upgrade pip && pip install "unsloth[{x}] @ git+https://github.com/unslothai/unsloth.git"')
หากต้องการเรียกใช้ Unsloth โดยตรงบน Windows:
ติดตั้ง Triton จาก Windows fork นี้และทำตามคำแนะนำ: https://github.com/woct0rdho/triton-windows
ใน SFTTrainer ให้ตั้งค่า dataset_num_proc=1
เพื่อหลีกเลี่ยงปัญหาการขัดข้อง:
ผู้ฝึกสอน = SFTTrainer (ชุดข้อมูล_num_proc = 1, - -
สำหรับ คำแนะนำในการติดตั้งขั้นสูง หรือหากคุณเห็นข้อผิดพลาดแปลกๆ ระหว่างการติดตั้ง:
ติดตั้ง torch
และ triton
. ไปที่ https://pytorch.org เพื่อติดตั้ง ตัวอย่างเช่น pip install torch torchvision torchaudio triton
ยืนยันว่าติดตั้ง CUDA อย่างถูกต้องหรือไม่ ลอง nvcc
หากไม่สำเร็จ คุณจะต้องติดตั้ง cudatoolkit
หรือไดรเวอร์ CUDA
ติดตั้ง xformers
ด้วยตนเอง คุณสามารถลองติดตั้ง vllm
และดูว่า vllm
สำเร็จหรือไม่ ตรวจสอบว่า xformers
ประสบความสำเร็จกับ python -m xformers.info
ไปที่ https://github.com/facebookresearch/xformers อีกทางเลือกหนึ่งคือการติดตั้ง flash-attn
สำหรับ Ampere GPU
สุดท้าย ติดตั้ง bitsandbytes
และตรวจสอบด้วย python -m bitsandbytes
ไปที่เอกสารอย่างเป็นทางการของเราเพื่อบันทึกลงใน GGUF จุดตรวจ การประเมินผล และอื่นๆ อีกมากมาย!
เรารองรับ TRL, Trainer, Seq2SeqTrainer ของ Huggingface หรือแม้แต่โค้ด Pytorch!
เราอยู่ในเอกสารอย่างเป็นทางการของ ?Hugging Face! ตรวจสอบเอกสาร SFT และเอกสาร DPO!
จากการนำเข้า unsloth FastLanguageModel จากการนำเข้า unsloth is_bfloat16_supportedimport torch จาก trl นำเข้า SFTTrainer จากหม้อแปลงนำเข้า TrainingArguments จากชุดข้อมูลนำเข้า load_datasetmax_seq_length = 2048 # รองรับ RoPE Scaling ระหว่างกัน ดังนั้นเลือกอันใดก็ได้! # รับชุดข้อมูล LAION = "https://huggingface.co/datasets/laion/OIG/ solve/main/unified_chip2.jsonl"dataset = load_dataset("json", data_files = {"train" : url}, split = "train")# โมเดล 4 บิตล่วงหน้าเชิงปริมาณที่เรารองรับการดาวน์โหลดเร็วขึ้น 4 เท่า + ไม่มี OOMs.fourbit_models = [ "unsloth/mistral-7b-v0.3-bnb-4bit", # ใหม่ Mistral v3 เร็วขึ้น 2 เท่า!unsloth/mistral-7b-instruct-v0.3-bnb-4bit", "unsloth/llama-3-8b-" bnb-4bit", # Llama-3 15 ล้านล้านโทเค็นโมเดลเร็วขึ้น 2 เท่า!"unsloth/llama-3-8b-Instruct-bnb-4bit", "unsloth/llama-3-70b-bnb-4bit", "unsloth/Phi" -3-mini-4k-instruct", # Phi-3 เร็วขึ้น 2 เท่า!"unsloth/Phi-3-medium-4k-instruct","unsloth/mistral-7b-bnb-4bit","unsloth/gemma-7b- bnb-4bit", # Gemma เร็วขึ้น 2.2 เท่า!] # โมเดลเพิ่มเติมได้ที่ https://huggingface.co/unslothmodel, tokenizer = FastLanguageModel.from_pretrained(model_name = "unsloth/llama-3-8b-bnb-4bit",max_seq_length = max_seq_length,dtype = ไม่มี,load_in_4bit = True, )# ทำการแก้ไขโมเดลและเพิ่มน้ำหนัก LoRA อย่างรวดเร็วmodel = FastLanguageModel.get_peft_model(model,r = 16,target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj" ",],lora_alpha = 16,lora_dropout = 0, # รองรับใดๆ แต่ = 0 ได้รับการปรับให้เหมาะสม bias = "none", # รองรับใดๆ แต่ = "none" ได้รับการปรับให้เหมาะสม# [ใหม่] "unsloth" ใช้ VRAM น้อยลง 30% เหมาะกับขนาดแบตช์ที่ใหญ่กว่า 2 เท่า!use_gradient_checkpointing = "unsloth", # True หรือ "unsloth" สำหรับ contextrandom_state ที่ยาวมาก = 3407,max_seq_length = max_seq_length,use_rslora = False, # เราสนับสนุนอันดับ LoRAloftq_config = None, # And LoftQ)trainer = SFTTrainer( model = model,train_dataset = dataset,dataset_text_field = "text",max_seq_length = max_seq_length,tokenizer = tokenizer,args = TrainingArguments(per_device_train_batch_size = 2,gradient_accumulation_steps = 4,warmup_steps = 10,max_steps = 60,fp16 = ไม่ใช่ is_bfloat16_supported(),bf16 = is_bfloat16_supported(),logging_steps = 1,output_dir = "outputs",optim = "adamw_8bit",seed = 3407, - )trainer.train()# ไปที่ https://github.com/unslothai/unsloth/wiki เพื่อดูเคล็ดลับขั้นสูงเช่น# (1) บันทึกเป็น GGUF / ผสานเป็น 16 บิตสำหรับ vLLM# (2) ฝึกฝนต่อจากอะแดปเตอร์ LoRA ที่บันทึกไว้ # (3) การเพิ่มลูปการประเมินผล / OOMs# (4) เทมเพลตแชทที่ปรับแต่งเอง
DPO (การเพิ่มประสิทธิภาพการตั้งค่าโดยตรง), PPO, การสร้างแบบจำลองรางวัลทั้งหมดดูเหมือนจะทำงานได้ตามการทดสอบอิสระของบุคคลที่สามจาก Llama-Factory เรามีสมุดบันทึก Google Colab เบื้องต้นสำหรับการสร้าง Zephyr บน Tesla T4 ที่นี่: สมุดบันทึก
เราอยู่ในเอกสารอย่างเป็นทางการของ ?Hugging Face! เราอยู่ในเอกสาร SFT และเอกสาร DPO!
import osos.environ["CUDA_VISIBLE_DEVICES"] = "0" # ตัวเลือกตั้งค่า ID อุปกรณ์ GPU จาก unsloth นำเข้า FastLanguageModel, PatchDPOTrainerfrom unsloth นำเข้า is_bfloat16_supportedPatchDPOTrainer() นำเข้าไฟฉายจากหม้อแปลง นำเข้า TrainingArgumentsfrom trl นำเข้า DPOTrainermodel, tokenizer = FastLanguageModel.from_pretrained(model_name = "uns โลธ/เซเฟอร์ -sft-bnb-4bit",max_seq_length = max_seq_length,dtype = ไม่มี,load_in_4bit = True, )# ทำการแก้ไขโมเดลและเพิ่มน้ำหนัก LoRA อย่างรวดเร็วmodel = FastLanguageModel.get_peft_model(model,r = 64,target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj" ",],lora_alpha = 64,lora_dropout = 0, # รองรับใดๆ แต่ = 0 ได้รับการปรับให้เหมาะสม bias = "none", # รองรับใดๆ แต่ = "none" ได้รับการปรับให้เหมาะสม# [ใหม่] "unsloth" ใช้ VRAM น้อยลง 30% เหมาะกับขนาดแบตช์ที่ใหญ่กว่า 2 เท่า!use_gradient_checkpointing = "unsloth", # True หรือ "unsloth" สำหรับ contextrandom_state ที่ยาวมาก = 3407,max_seq_length = max_seq_length, )dpo_trainer = DPOTrainer(model = model,ref_model = None,args = TrainingArguments(per_device_train_batch_size = 4,gradient_accumulation_steps = 8,warmup_ratio = 0.1,num_train_epochs = 3,fp16 = ไม่ใช่ is_bfloat16_supported(),bf16 = is_bfloat16_supported(),logging_steps = 1, optim = "adamw_8bit",seed = 42,output_dir = "เอาท์พุท", ),เบต้า = 0.1,train_dataset = YOUR_DATASET_HERE,# eval_dataset = YOUR_DATASET_HERE,tokenizer = tokenizer,max_length = 1024,max_prompt_length = 512, )dpo_trainer.train()
คลิก "โค้ด" เพื่อดูตัวอย่างที่สามารถทำซ้ำได้ทั้งหมด
"Unsloth Equal" คือตัวอย่างเวอร์ชัน PRO ของเรา โดยที่โค้ดถูกตัดออกไป การตั้งค่าทั้งหมดและเส้นโค้งการสูญเสียยังคงเหมือนเดิม
หากต้องการดูตารางการเปรียบเทียบทั้งหมด โปรดไปที่เว็บไซต์ของเรา
1A100 40GB | ?กอดหน้า | แฟลชความสนใจ 2 | ?เปิดเฉื่อยชา | ไม่เฉื่อยชาเท่าเทียมกัน | Unsloth Pro | ปลดปล่อยความเฉื่อยชาสูงสุด |
---|---|---|---|---|---|---|
อัลปาก้า | 1x | 1.04x | 1.98x | 2.48x | 5.32x | 15.64x |
รหัส | รหัส | รหัส | รหัส | รหัส | ||
วินาที | 1,040 | 1001 | 525 | 419 | 196 | 67 |
หน่วยความจำ MB | 18235 | 15365 | 9631 | 8525 | ||
บันทึกไว้แล้ว % | 15.74 | 47.18 | 53.25 |
ลิงค์ไปยังตารางประสิทธิภาพ TGS: โทเค็นต่อ GPU ต่อวินาที รุ่น: LLaMA2-7B. GPU: NVIDIA A100 * 1. ขนาดแบตช์: 4. การสะสมไล่ระดับสี: 2. อันดับ LoRA: 8. ความยาวสูงสุด: 1024.
วิธี | บิต | ทีจีเอส | กรัม | ความเร็ว |
---|---|---|---|---|
เอชเอฟ | 16 | 2392 | 18GB | 100% |
HF+FA2 | 16 | 2954 | 17GB | 123% |
เฉื่อยชา+FA2 | 16 | 4007 | 16GB | 168% |
เอชเอฟ | 4 | 2415 | 9GB | 101% |
เฉื่อยชา+FA2 | 4 | 3726 | 7GB | 160% |
1A100 40GB | กอดหน้า | แฟลชความสนใจ 2 | เปิดอันเฉื่อยชา | ไม่เฉื่อยชาเท่าเทียมกัน | Unsloth Pro | ปลดปล่อยความเฉื่อยชาสูงสุด |
---|---|---|---|---|---|---|
มิสทรัล 7บี สลิม ออร์ก้า | 1x | 1.15x | 2.15x | 2.53x | 4.61x | 13.69x |
รหัส | รหัส | รหัส | รหัส | รหัส | ||
วินาที | 1813 | 1571 | 842 | 718 | 393 | 132 |
หน่วยความจำ MB | 32853 | 19385 | 12465 | 10271 | ||
บันทึกไว้แล้ว % | 40.99 | 62.06 | 68.74 |
1A100 40GB | กอดหน้า | แฟลชความสนใจ 2 | เปิดอันเฉื่อยชา | ไม่เฉื่อยชาเท่าเทียมกัน | Unsloth Pro | ปลดปล่อยความเฉื่อยชาสูงสุด |
---|---|---|---|---|---|---|
รหัสลามะ 34B | อืม | 0.99x | 1.87x | 2.61x | 4.27x | 12.82x |
รหัส | รหัส | รหัส | รหัส | |||
วินาที | 1953 | 1982 | 1,043 | 748 | 458 | 152 |
หน่วยความจำ MB | 40000 | 33217 | 27413 | 22161 | ||
บันทึกไว้แล้ว % | 16.96 | 31.47 | 44.60 |
1T4 16GB | กอดหน้า | ความสนใจแบบแฟลช | เปิดอันเฉื่อยชา | Unsloth Pro เท่ากับ | Unsloth Pro | ปลดปล่อยความเฉื่อยชาสูงสุด |
---|---|---|---|---|---|---|
อัลปาก้า | 1x | 1.09x | 1.69x | 1.79x | 2.93x | 8.3x |
รหัส | รหัส | รหัส | รหัส | |||
วินาที | 1599 | 1468 | 942 | 894 | 545 | 193 |
หน่วยความจำ MB | 7199 | 7059 | 6459 | 5443 | ||
บันทึกไว้แล้ว % | 1.94 | 10.28 | 24.39 |
2 T4 ดีดีพี | กอดหน้า | ความสนใจแบบแฟลช | เปิดอันเฉื่อยชา | ไม่เฉื่อยชาเท่าเทียมกัน | Unsloth Pro | ปลดปล่อยความเฉื่อยชาสูงสุด |
---|---|---|---|---|---|---|
อัลปาก้า | 1x | 0.99x | 4.95x | 4.44x | 7.28x | 20.61x |
รหัส | รหัส | รหัส | ||||
วินาที | 9882 | 9946 | 1996 | 2227 | 1357 | 480 |
หน่วยความจำ MB | 9176 | 9128 | 6904 | 6782 | ||
บันทึกไว้แล้ว % | 0.52 | 24.76 | 26.09 |
Tesla T4 หนึ่งตัวบน Google Colab bsz = 2, ga = 4, max_grad_norm = 0.3, num_train_epochs = 1, seed = 3047, lr = 2e-4, wd = 0.01, optim = "adamw_8bit", schedule = "linear", schedule_steps = 10
ระบบ | จีพียู | อัลปาก้า (52K) | ลายง โอไอจี (210K) | เปิดผู้ช่วย (10K) | สลิมออร์ก้า (518K) |
---|---|---|---|---|---|
กอดหน้า | 1 ที4 | 23ชม. 15น | 56ชม. 28น | 8ชม. 38น | 391ชม. 41น |
เปิดอันเฉื่อยชา | 1 ที4 | 13 ชม. 7 นาที (1.8x) | 31 ชม. 47 น. (1.8x) | 4 ชม. 27 นาที (1.9x) | 240 ชม. 4 นาที (1.6x) |
Unsloth Pro | 1 ที4 | 3 ชม. 6 นาที (7.5x) | 5 ชม. 17 นาที (10.7x) | 1 ชม. 7 นาที (7.7x) | 59 ชม. 53 น. (6.5x) |
ปลดปล่อยความเฉื่อยชาสูงสุด | 1 ที4 | 2 ชม. 39 นาที (8.8x) | 4 ชม. 31 นาที (12.5x) | 0 ชม. 58 นาที (8.9x) | 51 ชม. 30 นาที (7.6x) |
การใช้หน่วยความจำสูงสุด
ระบบ | จีพียู | อัลปาก้า (52K) | ลายง โอไอจี (210K) | เปิดผู้ช่วย (10K) | สลิมออร์ก้า (518K) |
---|---|---|---|---|---|
กอดหน้า | 1 ที4 | 7.3GB | 5.9GB | 14.0GB | 13.3GB |
เปิดอันเฉื่อยชา | 1 ที4 | 6.8GB | 5.7GB | 7.8GB | 7.7GB |
Unsloth Pro | 1 ที4 | 6.4GB | 6.4GB | 6.4GB | 6.4GB |
ปลดปล่อยความเฉื่อยชาสูงสุด | 1 ที4 | 11.4GB | 12.4GB | 11.9GB | 14.4GB |
Tesla T4 สองตัวบน Kaggle bsz = 2, ga = 4, max_grad_norm = 0.3, num_train_epochs = 1, seed = 3047, lr = 2e-4, wd = 0.01, optim = "adamw_8bit", schedule = "linear", schedule_steps = 10
ระบบ | จีพียู | อัลปาก้า (52K) | ลายง โอไอจี (210K) | เปิดผู้ช่วย (10K) | สลิมออร์ก้า (518K) * |
---|---|---|---|---|---|
กอดหน้า | 2 ที4 | 84ชม. 47น | 163ชม. 48น | 30ชม. 51น | 13.01 น. 24 น. * |
Unsloth Pro | 2 ที4 | 3 ชม. 20 นาที (25.4x) | 5 ชม. 43 นาที (28.7x) | 1 ชม. 12 นาที (25.7x) | 71 ชม. 40 นาที (18.1x) * |
ปลดปล่อยความเฉื่อยชาสูงสุด | 2 ที4 | 3 ชม. 4 นาที (27.6x) | 5 ชม. 14 นาที (31.3x) | 1 ชม. 6 นาที (28.1x) | 54 ชม. 20 นาที (23.9x) * |
การใช้หน่วยความจำสูงสุดบนระบบ Multi GPU (2 GPU)
ระบบ | จีพียู | อัลปาก้า (52K) | ลายง โอไอจี (210K) | เปิดผู้ช่วย (10K) | สลิมออร์ก้า (518K) * |
---|---|---|---|---|---|
กอดหน้า | 2 ที4 | 8.4GB | 6GB | 7.2GB | 5.3GB | 14.3GB | 6.6GB | 10.9GB | 5.9GB * |
Unsloth Pro | 2 ที4 | 7.7GB | 4.9GB | 7.5GB | 4.9GB | 8.5GB | 4.9GB | 6.2GB | 4.7GB * |
ปลดปล่อยความเฉื่อยชาสูงสุด | 2 ที4 | 10.5GB | 5GB | 10.6GB | 5GB | 10.6GB | 5GB | 10.5GB | 5GB * |
Slim Orca bsz=1
สำหรับการวัดประสิทธิภาพทั้งหมดตั้งแต่ bsz=2
OOM เราสามารถจัดการ bsz=2
แต่เราเปรียบเทียบมันด้วย bsz=1
เพื่อความสอดคล้อง
HuyNguyen ช่วยให้การฝัง RoPE เร็วขึ้น 28%
RandomInternetPreson สำหรับยืนยันการสนับสนุน WSL
152334H สำหรับการสนับสนุน DPO แบบทดลอง
atgctg สำหรับการเน้นไวยากรณ์