genai ko LLM
1.0.0
เมื่อเร็วๆ นี้ มีการเปิดตัวโมเดลพื้นฐานต่างๆ ที่ทำหน้าที่เป็นสมองของ Generative AI และบริษัทหลายแห่งกำลังตรวจสอบหรือพัฒนาแอปพลิเคชันที่ใช้โมเดลพื้นฐาน อย่างไรก็ตาม โมเดลขนาดใหญ่นั้นไม่ใช่เรื่องง่ายที่จะอนุมานบน GPU ตัวเดียว และไม่ใช่เรื่องง่ายที่จะให้บริการเพื่อการผลิตหรือปรับแต่งอย่างละเอียด
การปฏิบัติจริงนี้เขียนขึ้นสำหรับผู้ที่ต้องการตรวจสอบ Generative AI อย่างรวดเร็วและนำไปใช้กับการใช้งานจริง โดยให้คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการให้บริการและปรับแต่งโมเดลภาษาเกาหลีขนาดใหญ่บนโครงสร้างพื้นฐาน AWS อย่างมีประสิทธิภาพ
1_prepare-dataset-alpaca-method.ipynb
: เตรียมชุดข้อมูลการฝึกอบรมจากชุดข้อมูลคำสั่ง วิธีการนี้จะสร้างโทเค็นแต่ละตัวอย่าง1_prepare-dataset-chunk-method.ipynb
: เตรียมชุดข้อมูลการฝึกอบรมจากชุดข้อมูลคำสั่ง วิธีการนี้จะเชื่อมตัวอย่างทั้งหมดเข้าด้วยกันและแบ่งตามขนาดชิ้น2_local-train-debug-lora.ipynb
: ดีบักด้วยข้อมูลตัวอย่างบางส่วนในสภาพแวดล้อมการพัฒนาก่อนที่จะดำเนินการอย่างจริงจังกับอินสแตนซ์การฝึกอบรม หากคุณคุ้นเคยกับการปรับแต่งแบบละเอียดอยู่แล้ว โปรดข้ามการปฏิบัติจริงนี้และดำเนินการต่อด้วย 3_sm-train-lora.ipynb3_sm-train-lora.ipynb
: ดำเนินการปรับแต่งอินสแตนซ์การฝึกอบรม SageMaker อย่างละเอียด 1_local-inference.ipynb
: โหลดโมเดลจาก Hugging Face Hub และทำการอนุมานอย่างง่าย แม้ว่าจะไม่จำเป็น แต่เราขอแนะนำให้เริ่มต้นด้วยหลักสูตรนี้หากคุณต้องการลองใช้โมเดลนี้2_local-inference-deepspeed.py
& 2_run.sh
: ทดลองกับการอนุมานแบบกระจาย DeepSpeed แนะนำให้ใช้อินสแตนซ์หรือเซิร์ฟเวอร์ที่มี GPU หลายตัว (เช่น ml.g5.12xlarge
)3_sm-serving-djl-deepspeed-from-hub.ipynb
: ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย DeepSpeed ) เซิร์ฟเวอร์โฮสติ้งดาวน์โหลดโมเดลโดยตรงจาก Hugging Face Hub3_sm-serving-djl-deepspeed-from-hub.ipynb
: ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย DeepSpeed ) เซิร์ฟเวอร์โฮสต์ดาวน์โหลดโมเดลจาก S3 ความเร็วในการดาวน์โหลดเร็วมากเนื่องจากไฟล์ถูกดาวน์โหลดแบบขนานภายในด้วย s5cmd3_sm-serving-tgi-from-hub.ipynb
: ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker TGI (Text Generation Inferface) TGI เป็นเซิร์ฟเวอร์การอนุมานแบบกระจายที่พัฒนาโดย Hugging Face และแสดงความเร็วในการอนุมานที่รวดเร็วมาก3_sm-serving-djl-fastertransformer-nocode.ipynb
: ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย NVIDIA FasterTransformer) แสดงความเร็วที่เร็วกว่า DeepSpeed เฉพาะรุ่นที่รองรับเท่านั้น หากต้องการดำเนินการจริง เราขอแนะนำให้เตรียมอินสแตนซ์ตามข้อกำหนดด้านล่าง
หรือคุณสามารถใช้ SageMaker Studio Lab หรือ SageMaker Studio ได้
ml.t3.medium
(สเปคขั้นต่ำ)ml.m5.xlarge
(แนะนำ)ml.g5.2xlarge
(สเปคขั้นต่ำ)ml.g5.12xlarge
(แนะนำ)ml.g5.2xlarge
: โมเดลที่มีพารามิเตอร์ 7B หรือน้อยกว่าml.g5.12xlarge
(แนะนำ) รหัสตัวอย่างนี้มีให้ภายใต้ใบอนุญาต MIT-0 โปรดดูไฟล์ใบอนุญาต