Terima kasih telah berkembang dengan model Llama. Sebagai bagian dari rilis LLAMA 3.1, kami telah mengkonsolidasikan github repo dan menambahkan beberapa repo tambahan karena kami telah memperluas fungsionalitas Llama menjadi tumpukan E2E Llama. Silakan gunakan repo berikut ke depan:
Jika Anda memiliki pertanyaan, jangan ragu untuk mengajukan masalah pada salah satu repo di atas dan kami akan melakukan yang terbaik untuk merespons secara tepat waktu.
Terima kasih!
Kami membuka kunci kekuatan model bahasa besar. Llama 2 sekarang dapat diakses oleh individu, pencipta, peneliti, dan bisnis dari semua ukuran sehingga mereka dapat bereksperimen, berinovasi, dan skala ide -ide mereka secara bertanggung jawab.
Rilis ini mencakup bobot model dan kode awal untuk model bahasa Llama yang sudah terlatih dan disesuaikan-mulai dari parameter 7b hingga 70b.
Repositori ini dimaksudkan sebagai contoh minimal untuk memuat model Llama 2 dan menjalankan inferensi. Untuk contoh yang lebih rinci memanfaatkan wajah pelukan, lihat Llama-Recipes.
Lihat update.md. Juga untuk daftar pertanyaan yang sering diajukan, lihat di sini.
Untuk mengunduh bobot model dan tokenizer, silakan kunjungi situs web meta dan terima lisensi kami.
Setelah permintaan Anda disetujui, Anda akan menerima URL yang ditandatangani melalui email. Kemudian jalankan skrip unduhan.sh, lulus URL yang disediakan ketika diminta untuk memulai unduhan.
Prasyarat: Pastikan Anda telah menginstal wget
dan md5sum
. Kemudian jalankan skrip: ./download.sh
.
Ingatlah bahwa tautan berakhir setelah 24 jam dan sejumlah unduhan. Jika Anda mulai melihat kesalahan seperti 403: Forbidden
, Anda selalu dapat merepresentasikan kembali tautan.
Kami juga memberikan unduhan tentang wajah pelukan. Anda dapat meminta akses ke model dengan mengakui lisensi dan mengisi formulir dalam kartu model repo. Setelah melakukannya, Anda harus mendapatkan akses ke semua model LLAMA dari suatu versi (Code Llama, Llama 2, atau Penjaga Llama) dalam waktu 1 jam.
Anda dapat mengikuti langkah -langkah di bawah ini untuk bangun dengan cepat dan berjalan dengan model Llama 2. Langkah -langkah ini akan memungkinkan Anda menjalankan inferensi cepat secara lokal. Untuk contoh lebih lanjut, lihat Repositori Resep Llama 2.
Dalam conda env dengan klon Pytorch / Cuda yang tersedia dan unduh repositori ini.
Dalam Direktori Level Top Run:
pip install -e .
Kunjungi situs web meta dan daftar untuk mengunduh model.
Setelah terdaftar, Anda akan mendapatkan email dengan URL untuk mengunduh model. Anda akan membutuhkan URL ini saat menjalankan skrip unduhan.sh.
Setelah Anda mendapatkan email, navigasikan ke Repositori Llama yang diunduh dan jalankan skrip unduhan.sh.
Setelah model yang Anda inginkan telah diunduh, Anda dapat menjalankan model secara lokal menggunakan perintah di bawah ini:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Catatan
llama-2-7b-chat/
dengan jalur ke direktori pos pemeriksaan dan tokenizer.model
Anda. Model dengan jalur ke model tokenizer Anda.–nproc_per_node
harus diatur ke nilai MP untuk model yang Anda gunakan.max_seq_len
dan max_batch_size
sesuai kebutuhan.Model yang berbeda membutuhkan nilai model paralel (MP) yang berbeda:
Model | MP |
---|---|
7b | 1 |
13b | 2 |
70b | 8 |
Semua model mendukung panjang urutan hingga 4096 token, tetapi kami pra-alokasi cache sesuai dengan nilai max_seq_len
dan max_batch_size
. Jadi atur itu sesuai dengan perangkat keras Anda.
Model -model ini tidak disempurnakan untuk obrolan atau tanya jawab. Mereka harus diminta sehingga jawaban yang diharapkan adalah kelanjutan alami dari prompt.
Lihat example_text_completion.py
untuk beberapa contoh. Untuk mengilustrasikan, lihat perintah di bawah ini untuk menjalankannya dengan model LLAMA-2-7B ( nproc_per_node
perlu diatur ke nilai MP
):
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
Model yang disesuaikan dilatih untuk aplikasi dialog. Untuk mendapatkan fitur dan kinerja yang diharapkan untuk mereka, pemformatan spesifik yang ditentukan dalam chat_completion
perlu diikuti, termasuk tag INST
dan <<SYS>>
, token BOS
dan EOS
, dan whitespace dan breaklines di antaranya (kami merekomendasikan panggilan strip()
pada input untuk menghindari ruang ganda).
Anda juga dapat menggunakan pengklasifikasi tambahan untuk memfilter input dan output yang dianggap tidak aman. Lihat Llama-Recipes Repo untuk contoh cara menambahkan pemeriksa keselamatan ke input dan output kode inferensi Anda.
Contoh Menggunakan LLAMA-2-7B-CHAT:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2 adalah teknologi baru yang membawa risiko potensial. Pengujian yang dilakukan sampai saat ini belum - dan tidak bisa - mencakup semua skenario. Untuk membantu pengembang mengatasi risiko ini, kami telah membuat panduan penggunaan yang bertanggung jawab. Rincian lebih lanjut dapat ditemukan di makalah penelitian kami juga.
Harap laporkan perangkat lunak "bug", atau masalah lain dengan model melalui salah satu cara berikut:
Lihat model_card.md.
Model dan bobot kami dilisensikan untuk peneliti dan entitas komersial, menjunjung tinggi prinsip -prinsip keterbukaan. Misi kami adalah untuk memberdayakan individu, dan industri melalui peluang ini, sambil mendorong lingkungan penemuan dan kemajuan AI etis.
Lihat file lisensi, serta kebijakan penggunaan kami yang dapat diterima
Untuk pertanyaan umum, FAQ dapat ditemukan di sini yang akan terus diperbarui dari waktu ke waktu ketika pertanyaan baru muncul.
Repo untuk rilis LLAMA asli ada di cabang llama_v1
.