Mulai Cepat | Dokumentasi | Panduan Zero-to-Hero
Llama Stack mendefinisikan dan menstandarkan serangkaian blok bangunan inti yang diperlukan untuk menghadirkan aplikasi AI generatif ke pasar. Blok penyusun ini disajikan dalam bentuk API yang dapat dioperasikan dengan serangkaian Penyedia Layanan yang menyediakan implementasinya.
Sasaran kami adalah menyediakan implementasi yang sudah dikemas sebelumnya yang dapat dioperasikan di berbagai lingkungan penerapan: pengembang mulai melakukan iterasi dengan Desktop atau perangkat seluler mereka dan dapat dengan lancar bertransisi ke penerapan cloud lokal atau publik. Di setiap titik dalam transisi ini, tersedia kumpulan API yang sama dan pengalaman pengembang yang sama.
⚠️ Catatan Stack API berkembang pesat, namun masih banyak pekerjaan yang sedang berjalan dan kami mengundang masukan serta kontribusi langsung.
Kami memiliki implementasi API berikut yang berfungsi saat ini:
Kesimpulan
Keamanan
Ingatan
Agen
evaluasi
Telemetri
Selain API ini, kami juga menghubungkan API untuk beroperasi dengan sumber daya terkait (lihat Konsep):
Model
Perisai
Bank Memori
Tugas Evaluasi
Kumpulan data
Fungsi Penilaian
Kami juga sedang mengerjakan API berikut yang akan segera dirilis:
Pasca Pelatihan
Pembuatan Data Sintetis
Penilaian Hadiah
Masing-masing API itu sendiri adalah kumpulan titik akhir REST.
Tidak seperti kerangka kerja lainnya, Llama Stack dibangun dengan pendekatan yang berorientasi pada layanan dan mengutamakan REST API. Desain seperti ini tidak hanya memungkinkan transisi yang mulus dari penerapan lokal ke penerapan jarak jauh, namun juga memaksa desain menjadi lebih deklaratif. Kami yakin pembatasan ini dapat menghasilkan pengalaman pengembang yang lebih sederhana dan tangguh. Hal ini tentu akan merugikan ekspresivitas, namun jika kita menggunakan API yang tepat, hal ini dapat menghasilkan platform yang sangat kuat.
Kami berharap kumpulan API yang kami desain dapat dikomposisi. Agen secara abstrak bergantung pada API { Inferensi, Memori, Keamanan } tetapi tidak peduli dengan detail implementasi sebenarnya. Keamanan itu sendiri mungkin memerlukan inferensi model dan karenanya dapat bergantung pada API Inferensi.
Kami berharap dapat memberikan solusi siap pakai untuk skenario penerapan yang populer. Seharusnya mudah untuk menerapkan server Llama Stack di AWS atau di pusat data pribadi. Salah satu dari hal ini akan memungkinkan pengembang untuk memulai dengan aplikasi agen yang kuat, evaluasi model, atau layanan penyesuaian dalam hitungan menit. Semuanya harus menghasilkan observabilitas dan pengalaman pengembang yang seragam.
Sebagai proyek yang diprakarsai Meta, kami memulai dengan secara eksplisit berfokus pada rangkaian model Llama Meta. Mendukung berbagai model terbuka bukanlah tugas yang mudah dan kami ingin memulai dengan model yang paling kami pahami.
Terdapat ekosistem Penyedia yang dinamis yang menyediakan inferensi efisien atau penyimpanan vektor yang dapat diskalakan atau solusi observasi yang kuat. Kami ingin memastikan kemudahan bagi pengembang untuk memilih implementasi terbaik untuk kasus penggunaan mereka. Kami juga ingin memastikan kemudahan bagi Penyedia baru untuk bergabung dan berpartisipasi dalam ekosistem.
Selain itu, kami telah merancang setiap elemen Stack sedemikian rupa sehingga API serta Sumber Daya (seperti Model) dapat digabungkan.
Pembuat Penyedia API | Lingkungan | Agen | Kesimpulan | Ingatan | Keamanan | Telemetri |
---|---|---|---|---|---|---|
Referensi Meta | Node Tunggal | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
Kembang api | Dihosting | ✔️ | ✔️ | ✔️ | ||
Batuan Dasar AWS | Dihosting | ✔️ | ✔️ | |||
Bersama | Dihosting | ✔️ | ✔️ | ✔️ | ||
Ollama | Node Tunggal | ✔️ | ||||
TGI | Node yang Dihosting dan Tunggal | ✔️ | ||||
Kroma | Node Tunggal | ✔️ | ||||
Vektor PG | Node Tunggal | ✔️ | ||||
Eksekutor PyTorch | iOS di perangkat | ✔️ | ✔️ |
Distribusi | Llama Stack Docker | Mulai Distribusi Ini |
---|---|---|
Referensi Meta | llamastack/distribusi-meta-reference-gpu | Memandu |
Referensi Meta Terkuantisasi | llamastack/distribusi-meta-referensi-terkuantisasi-gpu | Memandu |
Ollama | llamastack/distribusi-ollama | Memandu |
TGI | llamastack/distribusi-tgi | Memandu |
Bersama | llamastack/distribusi-bersama | Memandu |
Kembang api | llamastack/distribusi-kembang api | Memandu |
Anda memiliki dua cara untuk menginstal repositori ini:
Instal sebagai paket : Anda dapat menginstal repositori langsung dari PyPI dengan menjalankan perintah berikut:
pip instal llama-stack
Instal dari sumber : Jika Anda lebih suka menginstal dari kode sumber, ikuti langkah-langkah berikut:
mkdir -p ~/cd lokal ~/local git clone [email protected]:meta-llama/llama-stack.git conda buat -n tumpukan python=3.10 conda aktifkan tumpukan cd llama-stack $CONDA_PREFIX/bin/pip install -e .
Silakan periksa halaman Dokumentasi kami untuk lebih jelasnya.
Referensi CLI
Panduan menggunakan llama
CLI untuk bekerja dengan model Llama (unduh, pelajari petunjuknya), dan membangun/memulai distribusi Llama Stack.
Memulai
Panduan cepat untuk memulai server Llama Stack.
Notebook Jupyter untuk memandu cara menggunakan API llama_stack_client inferensi teks dan visi sederhana
Buku catatan Colab pelajaran Llama Stack lengkap dari kursus Llama 3.2 baru di Deeplearning.ai.
Panduan Zero-to-Hero yang memandu Anda melalui semua komponen utama tumpukan llama dengan contoh kode.
Berkontribusi
Menambahkan Penyedia API baru untuk memandu cara menambahkan penyedia API baru.
Bahasa | SDK Klien | Kemasan |
---|---|---|
ular piton | llama-stack-klien-python | |
Cepat | llama-stack-klien-swift | |
simpul | llama-stack-klien-node | |
Kotlin | llama-stack-klien-kotlin |
Lihat SDK klien kami untuk terhubung ke server Llama Stack dalam bahasa pilihan Anda, Anda dapat memilih dari bahasa pemrograman python, node, swift, dan kotlin untuk membangun aplikasi Anda dengan cepat.
Anda dapat menemukan lebih banyak contoh skrip dengan SDK klien untuk berkomunikasi dengan server Llama Stack di repo llama-stack-apps kami.