Belakangan ini berbagai model fondasi yang menjadi otak AI Generatif telah dirilis, dan banyak perusahaan yang mengkaji atau mengembangkan aplikasi yang memanfaatkan model fondasi. Namun, model berskala besar tidak mudah untuk disimpulkan pada satu GPU, dan tidak mudah untuk menyajikannya untuk produksi atau menyempurnakannya.
Praktik langsung ini ditulis bagi mereka yang ingin meninjau AI Generatif dengan cepat dan menerapkannya pada produksi, memberikan panduan langkah demi langkah tentang cara melayani secara efisien dan menyempurnakan model Korea berskala besar pada infrastruktur AWS.
1_prepare-dataset-alpaca-method.ipynb
: Siapkan dataset pelatihan dari dataset instruksi. Metode ini memberi token pada setiap sampel.1_prepare-dataset-chunk-method.ipynb
: Siapkan dataset pelatihan dari dataset instruksi. Metode ini menggabungkan semua sampel dan membaginya menurut ukuran potongannya.2_local-train-debug-lora.ipynb
: Debug dengan beberapa data sampel di lingkungan pengembangan sebelum melakukan dengan sungguh-sungguh pada instance pelatihan. Jika Anda sudah terbiasa dengan fine tuning, lewati praktik ini dan lanjutkan dengan 3_sm-train-lora.ipynb.3_sm-train-lora.ipynb
: Melakukan penyesuaian pada instans pelatihan SageMaker. 1_local-inference.ipynb
: Memuat model dari Hugging Face Hub dan melakukan inferensi sederhana. Meskipun tidak diwajibkan, kami menyarankan Anda memulai dengan kursus ini jika Anda ingin mencoba modelnya.2_local-inference-deepspeed.py
& 2_run.sh
: Bereksperimen dengan inferensi terdistribusi DeepSpeed. Direkomendasikan untuk menggunakan instance atau server yang dilengkapi dengan beberapa GPU. (misalnya ml.g5.12xlarge
)3_sm-serving-djl-deepspeed-from-hub.ipynb
: Melakukan penyajian model SageMaker menggunakan wadah penyajian SageMaker DJL (Deep Java Library) (inferensi terdistribusi DeepSpeed). Server hosting mengunduh model langsung dari Hugging Face Hub.3_sm-serving-djl-deepspeed-from-hub.ipynb
: Melakukan penyajian model SageMaker menggunakan wadah penyajian SageMaker DJL (Deep Java Library) (inferensi terdistribusi DeepSpeed). Server hosting mengunduh model dari S3. Kecepatan download sangat cepat karena file diunduh secara paralel secara internal oleh s5cmd.3_sm-serving-tgi-from-hub.ipynb
: Melakukan penyajian model SageMaker menggunakan wadah penyajian SageMaker TGI (Text Generation Inferface). TGI adalah server inferensi terdistribusi yang dikembangkan oleh Hugging Face dan menunjukkan kecepatan inferensi yang sangat cepat.3_sm-serving-djl-fastertransformer-nocode.ipynb
: Melakukan penyajian model SageMaker menggunakan wadah penyajian SageMaker DJL (Deep Java Library) (inferensi terdistribusi NVIDIA FasterTransformer). Ini menunjukkan kecepatan lebih cepat daripada DeepSpeed hanya untuk model yang didukung. Untuk melakukan praktik langsung ini, kami menyarankan untuk menyiapkan sebuah instance dengan spesifikasi di bawah ini.
Alternatifnya, Anda dapat menggunakan SageMaker Studio Lab atau SageMaker Studio.
ml.t3.medium
(spesifikasi minimal)ml.m5.xlarge
(disarankan)ml.g5.2xlarge
(spesifikasi minimal)ml.g5.12xlarge
(disarankan)ml.g5.2xlarge
: Model dengan parameter 7B atau kurangml.g5.12xlarge
(disarankan) Kode contoh ini disediakan di bawah Lisensi MIT-0. Silakan merujuk ke file lisensi.