เริ่มต้นอย่างรวดเร็ว | เอกสารประกอบ | คู่มือ Zero-to-Hero
Llama Stack กำหนดและสร้างมาตรฐานชุดของบล็อคส่วนประกอบหลักที่จำเป็นในการนำแอปพลิเคชัน AI เชิงสร้างสรรค์ออกสู่ตลาด Building Block เหล่านี้นำเสนอในรูปแบบของ API ที่สามารถทำงานร่วมกันได้ โดยมีผู้ให้บริการจำนวนมากที่จัดเตรียมการใช้งานของตน
เป้าหมายของเราคือการจัดเตรียมการใช้งานแบบแพ็คเกจล่วงหน้าซึ่งสามารถดำเนินการได้ในสภาพแวดล้อมการปรับใช้ที่หลากหลาย: นักพัฒนาเริ่มต้นทำซ้ำด้วยเดสก์ท็อปหรืออุปกรณ์มือถือของพวกเขา และสามารถเปลี่ยนไปใช้การใช้งานระบบคลาวด์ภายในองค์กรหรือสาธารณะได้อย่างราบรื่น ในทุกจุดของการเปลี่ยนแปลงนี้ API ชุดเดียวกันและประสบการณ์นักพัฒนาแบบเดียวกันจะพร้อมใช้งาน
หมายเหตุ Stack API ได้รับการปรับปรุงอย่างรวดเร็ว แต่ยังคงมีงานอีกมากที่อยู่ระหว่างดำเนินการ และเราขอเชิญชวนให้ข้อเสนอแนะและการสนับสนุนโดยตรง
เรามีการใช้งาน API ต่อไปนี้ในปัจจุบัน:
การอนุมาน
ความปลอดภัย
หน่วยความจำ
ตัวแทน
อีวาล
การวัดและส่งข้อมูลทางไกล
นอกจาก API เหล่านี้แล้ว เรายังเกี่ยวข้องกับ API สำหรับการดำเนินการกับทรัพยากรที่เกี่ยวข้องด้วย (ดูแนวคิด):
โมเดล
โล่
ธนาคารหน่วยความจำ
EvalTasks
ชุดข้อมูล
ฟังก์ชั่นการให้คะแนน
เรากำลังพัฒนา API ต่อไปนี้ซึ่งจะออกเร็วๆ นี้:
หลังการฝึกอบรม
การสร้างข้อมูลสังเคราะห์
คะแนนรางวัล
API แต่ละตัวนั้นเป็นคอลเลกชันของจุดสิ้นสุด REST
Llama Stack แตกต่างจากเฟรมเวิร์กอื่นๆ ตรงที่ถูกสร้างขึ้นด้วยแนวทางการบริการ REST API เป็นหลัก การออกแบบดังกล่าวไม่เพียงแต่ช่วยให้สามารถเปลี่ยนจากการใช้งานภายในเครื่องไปเป็นการใช้งานระยะไกลได้อย่างราบรื่น แต่ยังบังคับให้การออกแบบต้องเปิดเผยมากขึ้นอีกด้วย เราเชื่อว่าข้อจำกัดนี้สามารถส่งผลให้ประสบการณ์ของนักพัฒนาซอฟต์แวร์ง่ายขึ้นและมีประสิทธิภาพมากขึ้น สิ่งนี้จำเป็นต้องแลกกับการแสดงออก แต่ถ้าเราได้รับ API ที่ถูกต้อง ก็อาจนำไปสู่แพลตฟอร์มที่ทรงพลังมากได้
เราคาดหวังว่าชุด API ที่เราออกแบบจะสามารถประกอบได้ เอเจนต์โดยสังเขปขึ้นอยู่กับ API ของ { การอนุมาน, หน่วยความจำ, ความปลอดภัย } แต่ไม่สนใจรายละเอียดการใช้งานจริง ความปลอดภัยอาจจำเป็นต้องมีการอนุมานแบบจำลอง ดังนั้นจึงสามารถขึ้นอยู่กับ Inference API ได้
เราคาดหวังที่จะมอบโซลูชั่นแบบครบวงจรสำหรับสถานการณ์การใช้งานยอดนิยม การปรับใช้เซิร์ฟเวอร์ Llama Stack บน AWS หรือศูนย์ข้อมูลส่วนตัวควรเป็นเรื่องง่าย ทั้งสองอย่างนี้ควรช่วยให้นักพัฒนาเริ่มต้นใช้งานแอปเอเจนต์ที่มีประสิทธิภาพ การประเมินโมเดล หรือบริการปรับแต่งได้ในเวลาไม่กี่นาที ทั้งหมดควรส่งผลให้มีความสามารถในการสังเกตและประสบการณ์ของนักพัฒนาที่เหมือนกัน
ในฐานะโครงการที่ริเริ่มโดย Meta เราได้เริ่มต้นด้วยการมุ่งเน้นไปที่โมเดลซีรีส์ Llama ของ Meta อย่างชัดเจน การสนับสนุนชุดโมเดลแบบเปิดที่หลากหลายนั้นไม่ใช่เรื่องง่าย และเราต้องการเริ่มต้นด้วยโมเดลที่เราเข้าใจดีที่สุด
มีระบบนิเวศที่มีชีวิตชีวาของผู้ให้บริการที่ให้การอนุมานที่มีประสิทธิภาพหรือร้านค้าเวกเตอร์ที่ปรับขนาดได้หรือโซลูชันการสังเกตที่มีประสิทธิภาพ เราต้องการให้แน่ใจว่าเป็นเรื่องง่ายสำหรับนักพัฒนาในการเลือกและเลือกการใช้งานที่ดีที่สุดสำหรับกรณีการใช้งานของพวกเขา เรายังต้องการให้แน่ใจว่าผู้ให้บริการรายใหม่จะเริ่มต้นและมีส่วนร่วมในระบบนิเวศได้อย่างง่ายดาย
นอกจากนี้ เราได้ออกแบบทุกองค์ประกอบของสแต็กเพื่อให้สามารถรวม API และทรัพยากร (เช่น โมเดล) เข้าด้วยกันได้
ตัวสร้างผู้ให้บริการ API | สภาพแวดล้อม | ตัวแทน | การอนุมาน | หน่วยความจำ | ความปลอดภัย | การวัดและส่งข้อมูลทางไกล |
---|---|---|---|---|---|---|
การอ้างอิงเมตา | โหนดเดียว | |||||
ดอกไม้ไฟ | เป็นเจ้าภาพ | |||||
ข้อมูลพื้นฐาน AWS | เป็นเจ้าภาพ | |||||
ด้วยกัน | เป็นเจ้าภาพ | |||||
โอลามา | โหนดเดียว | |||||
ทีจีไอ | โฮสต์และโหนดเดียว | |||||
โครมา | โหนดเดียว | |||||
พีจี เวคเตอร์ | โหนดเดียว | |||||
PyTorch เรียกใช้ไฟฉาย | iOS บนอุปกรณ์ |
การกระจาย | ลามะ สแต็ค ดอคเกอร์ | เริ่มการแจกจ่ายนี้ |
---|---|---|
การอ้างอิงเมตา | llamastack/distribution-meta-reference-gpu | แนะนำ |
การอ้างอิง Meta เชิงปริมาณ | llamastack/distribution-meta-reference-quantized-gpu | แนะนำ |
โอลามา | llamastack/distribution-ollama | แนะนำ |
ทีจีไอ | llamastack/การกระจาย-tgi | แนะนำ |
ด้วยกัน | llamastack/การกระจาย-ร่วมกัน | แนะนำ |
ดอกไม้ไฟ | llamastack/กระจาย-ดอกไม้ไฟ | แนะนำ |
คุณมีสองวิธีในการติดตั้งที่เก็บนี้:
ติดตั้งเป็นแพ็คเกจ : คุณสามารถติดตั้งที่เก็บได้โดยตรงจาก PyPI โดยรันคำสั่งต่อไปนี้:
pip ติดตั้ง llama-stack
ติดตั้งจากแหล่งที่มา : หากคุณต้องการติดตั้งจากซอร์สโค้ด ให้ทำตามขั้นตอนเหล่านี้:
mkdir -p ~/local cd ~/local โคลนคอมไพล์ [email protected]:meta-llama/llama-stack.git conda create -n stack python=3.10 conda เปิดใช้งานสแต็ก cd llama-stack $CONDA_PREFIX/bin/pip install -e
กรุณาตรวจสอบหน้าเอกสารของเราสำหรับรายละเอียดเพิ่มเติม
การอ้างอิง CLI
แนะนำการใช้ llama
CLI เพื่อทำงานกับโมเดล Llama (ดาวน์โหลด พร้อมท์การศึกษา) และสร้าง/เริ่มการกระจาย Llama Stack
เริ่มต้นใช้งาน
คู่มือฉบับย่อเพื่อเริ่มเซิร์ฟเวอร์ Llama Stack
สมุดบันทึก Jupyter เพื่อแนะนำวิธีใช้ข้อความธรรมดาและการอนุมานการมองเห็น llama_stack_client API
สมุดบันทึก Colab ของบทเรียน Llama Stack ที่สมบูรณ์ของหลักสูตร Llama 3.2 ใหม่บน Deeplearning.ai
คู่มือ Zero-to-Hero ที่จะแนะนำคุณเกี่ยวกับองค์ประกอบสำคัญทั้งหมดของสแต็กลามะพร้อมตัวอย่างโค้ด
มีส่วนร่วม
การเพิ่มผู้ให้บริการ API ใหม่เพื่อดูวิธีเพิ่มผู้ให้บริการ API ใหม่
ภาษา | SDK ไคลเอ็นต์ | บรรจุุภัณฑ์ |
---|---|---|
หลาม | llama-stack-client-python | |
สวิฟท์ | llama-stack-client-swift | |
โหนด | llama-stack-client-node.js | |
คอตลิน | llama-stack-client-kotlin |
ตรวจสอบ SDK ไคลเอนต์ของเราสำหรับการเชื่อมต่อกับเซิร์ฟเวอร์ Llama Stack ในภาษาที่คุณต้องการ คุณสามารถเลือกภาษาการเขียนโปรแกรม Python, node, Swift และ Kotlin เพื่อสร้างแอปพลิเคชันของคุณได้อย่างรวดเร็ว
คุณสามารถค้นหาสคริปต์ตัวอย่างเพิ่มเติมด้วย SDK ไคลเอนต์เพื่อพูดคุยกับเซิร์ฟเวอร์ Llama Stack ใน repo llama-stack-apps ของเรา