genai ko LLM ดาวน์โหลด - genai ko LLM ดาวน์โหลดซอร์สโค้ด

genai ko LLM

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ห้องปฏิบัติการเชิงปฏิบัติ LLM เกาหลี (โมเดลภาษาขนาดใหญ่)

ภาพรวม

เมื่อเร็วๆ นี้ มีการเปิดตัวโมเดลพื้นฐานต่างๆ ที่ทำหน้าที่เป็นสมองของ Generative AI และบริษัทหลายแห่งกำลังตรวจสอบหรือพัฒนาแอปพลิเคชันที่ใช้โมเดลพื้นฐาน อย่างไรก็ตาม โมเดลขนาดใหญ่นั้นไม่ใช่เรื่องง่ายที่จะอนุมานบน GPU ตัวเดียว และไม่ใช่เรื่องง่ายที่จะให้บริการเพื่อการผลิตหรือปรับแต่งอย่างละเอียด

การปฏิบัติจริงนี้เขียนขึ้นสำหรับผู้ที่ต้องการตรวจสอบ Generative AI อย่างรวดเร็วและนำไปใช้กับการใช้งานจริง โดยให้คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการให้บริการและปรับแต่งโมเดลภาษาเกาหลีขนาดใหญ่บนโครงสร้างพื้นฐาน AWS อย่างมีประสิทธิภาพ

[จูนเนอร์] การปรับ QLoRA แบบละเอียด

คุลล์ม-พูดได้หลายภาษา-12.8B

ชื่อไฟล์

1_prepare-dataset-alpaca-method.ipynb : เตรียมชุดข้อมูลการฝึกอบรมจากชุดข้อมูลคำสั่ง วิธีการนี้จะสร้างโทเค็นแต่ละตัวอย่าง
1_prepare-dataset-chunk-method.ipynb : เตรียมชุดข้อมูลการฝึกอบรมจากชุดข้อมูลคำสั่ง วิธีการนี้จะเชื่อมตัวอย่างทั้งหมดเข้าด้วยกันและแบ่งตามขนาดชิ้น
2_local-train-debug-lora.ipynb : ดีบักด้วยข้อมูลตัวอย่างบางส่วนในสภาพแวดล้อมการพัฒนาก่อนที่จะดำเนินการอย่างจริงจังกับอินสแตนซ์การฝึกอบรม หากคุณคุ้นเคยกับการปรับแต่งแบบละเอียดอยู่แล้ว โปรดข้ามการปฏิบัติจริงนี้และดำเนินการต่อด้วย 3_sm-train-lora.ipynb
3_sm-train-lora.ipynb : ดำเนินการปรับแต่งอินสแตนซ์การฝึกอบรม SageMaker อย่างละเอียด

[Consumer] โมเดลที่ให้บริการ

คุลล์ม-พูดได้หลายภาษา-5.8B-v2
KULLM-พูดได้หลายภาษา-12.8B-v2
โคอัลปาก้า-พูดได้หลายภาษา-12.8B
โคอัลปาก้า-KoRWKV-6B

ชื่อไฟล์

1_local-inference.ipynb : โหลดโมเดลจาก Hugging Face Hub และทำการอนุมานอย่างง่าย แม้ว่าจะไม่จำเป็น แต่เราขอแนะนำให้เริ่มต้นด้วยหลักสูตรนี้หากคุณต้องการลองใช้โมเดลนี้
2_local-inference-deepspeed.py & 2_run.sh : ทดลองกับการอนุมานแบบกระจาย DeepSpeed แนะนำให้ใช้อินสแตนซ์หรือเซิร์ฟเวอร์ที่มี GPU หลายตัว (เช่น ml.g5.12xlarge )
3_sm-serving-djl-deepspeed-from-hub.ipynb : ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย DeepSpeed ) เซิร์ฟเวอร์โฮสติ้งดาวน์โหลดโมเดลโดยตรงจาก Hugging Face Hub
3_sm-serving-djl-deepspeed-from-hub.ipynb : ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย DeepSpeed ) เซิร์ฟเวอร์โฮสต์ดาวน์โหลดโมเดลจาก S3 ความเร็วในการดาวน์โหลดเร็วมากเนื่องจากไฟล์ถูกดาวน์โหลดแบบขนานภายในด้วย s5cmd
3_sm-serving-tgi-from-hub.ipynb : ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker TGI (Text Generation Inferface) TGI เป็นเซิร์ฟเวอร์การอนุมานแบบกระจายที่พัฒนาโดย Hugging Face และแสดงความเร็วในการอนุมานที่รวดเร็วมาก
3_sm-serving-djl-fastertransformer-nocode.ipynb : ดำเนินการโมเดล SageMaker ที่ให้บริการโดยใช้คอนเทนเนอร์ที่ให้บริการ SageMaker DJL (Deep Java Library) (การอนุมานแบบกระจาย NVIDIA FasterTransformer) แสดงความเร็วที่เร็วกว่า DeepSpeed เฉพาะรุ่นที่รองรับเท่านั้น