?Model Memeluk Wajah |. Blog |. Situs Web |
Kami memanfaatkan kekuatan model bahasa besar. Versi terbaru Llama kami kini tersedia bagi individu, pencipta, peneliti, dan bisnis dari segala ukuran sehingga mereka dapat bereksperimen, berinovasi, dan mengembangkan ide mereka secara bertanggung jawab.
Rilis ini mencakup bobot model dan kode awal untuk model bahasa Llama 3 yang telah dilatih sebelumnya dan disesuaikan dengan instruksi, termasuk ukuran parameter dari 8B hingga 70B.
Repositori ini dimaksudkan sebagai contoh minimal memuat model Llama 3 dan menjalankan inferensi. Lihat resep llama untuk contoh lebih detail.
Untuk mengunduh bobot model dan tokenizer, silakan kunjungi situs web Meta Llama dan terima perjanjian lisensi kami.
Setelah mengirimkan permintaan Anda, Anda akan menerima URL yang ditandatangani melalui email. Kemudian jalankan skrip download.sh, lewati URL yang disediakan saat diminta untuk memulai pengunduhan.
Prasyarat: Pastikan Anda telah menginstal wget
dan md5sum
. Kemudian jalankan skrip: ./download.sh
.
Perlu diingat bahwa tautan tersebut akan kedaluwarsa setelah 24 jam dan sejumlah unduhan tertentu. Jika Anda mulai melihat kesalahan seperti 403: Forbidden
, Anda selalu dapat meminta ulang tautan tersebut.
Kami juga menawarkan unduhan di Hugging Face, termasuk format trafo dan llama3
asli. Untuk mengunduh beban dari Hugging Face, ikuti langkah-langkah berikut:
original
. Anda juga dapat mengunduhnya dari baris perintah jika Anda menginstal pip install huggingface-hub
: huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include " original/* " --local-dir meta-llama/Meta-Llama-3-8B-Instruct
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers . pipeline (
"text-generation" ,
model = "meta-llama/Meta-Llama-3-8B-Instruct" ,
model_kwargs = { "torch_dtype" : torch . bfloat16 },
device = "cuda" ,
)
Anda dapat dengan cepat mulai menggunakan model Llama 3 dengan mengikuti langkah-langkah di bawah ini. Langkah-langkah ini akan memungkinkan Anda melakukan inferensi cepat secara lokal. Untuk contoh lebih lanjut, lihat repositori resep Llama.
Kloning dan unduh repositori ini di lingkungan conda dengan PyTorch/CUDA diinstal.
Jalankan di direktori teratas:
pip install -e .
Kunjungi situs web Meta Llama dan daftar untuk mengunduh model.
Setelah mendaftar, Anda akan menerima email berisi URL untuk mendownload model. Anda memerlukan URL ini saat menjalankan skrip download.sh.
Setelah Anda menerima email, navigasikan ke repositori llama yang Anda unduh dan jalankan skrip download.sh.
Setelah mengunduh model yang diperlukan, Anda dapat menjalankan model secara lokal menggunakan perintah berikut:
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir Meta-Llama-3-8B-Instruct/
--tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model
--max_seq_len 512 --max_batch_size 6
Melihat
Meta-Llama-3-8B-Instruct/
dengan jalur direktori pos pemeriksaan Anda dan Meta-Llama-3-8B-Instruct/tokenizer.model
dengan jalur model tokenizer Anda.–nproc_per_node
harus disetel ke nilai MP model yang Anda gunakan.max_seq_len
dan max_batch_size
sesuai kebutuhan.Model yang berbeda memerlukan nilai paralelisme model (MP) yang berbeda:
Model | anggota parlemen |
---|---|
8B | 1 |
70B | 8 |
Semua model mendukung panjang urutan hingga 8192 token, tetapi kami mengalokasikan cache terlebih dahulu berdasarkan nilai max_seq_len
dan max_batch_size
. Oleh karena itu, tetapkan nilai-nilai ini sesuai dengan perangkat keras Anda.
Model-model ini tidak disesuaikan untuk obrolan atau tanya jawab. Perintah harus diatur sedemikian rupa sehingga jawaban yang diharapkan merupakan kelanjutan alami dari perintah tersebut.
Lihat example_text_completion.py
untuk beberapa contoh. Sebagai ilustrasi, lihat perintah di bawah ini untuk menjalankannya menggunakan model llama-3-8b ( nproc_per_node
perlu disetel ke nilai MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Model yang disempurnakan dilatih untuk aplikasi percakapan. Untuk mendapatkan karakteristik dan kinerja yang diharapkan, mereka harus mengikuti format tertentu yang ditentukan dalam ChatFormat
: perintah dimulai dengan token khusus <|begin_of_text|>
, diikuti oleh satu atau lebih pesan. Setiap pesan dimulai dengan tag <|start_header_id|>
, memiliki peran system
, user
atau assistant
, dan diakhiri dengan tag <|end_header_id|>
. Setelah baris baru ganda nn
nisi pesannya mengikuti. Akhir dari setiap pesan ditandai dengan token <|eot_id|>
.
Anda juga dapat menerapkan pengklasifikasi tambahan untuk memfilter masukan dan keluaran yang dianggap tidak aman. Lihat contoh di repositori llama-recipes tentang cara menambahkan pemeriksa keamanan ke input dan output kode inferensi Anda.
Contoh penggunaan llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 adalah teknologi baru dan memiliki potensi risiko. Pengujian yang dilakukan sejauh ini tidak – dan tidak bisa – mencakup setiap situasi. Untuk membantu pengembang mengatasi risiko ini, kami telah membuat Pedoman Penggunaan yang Bertanggung Jawab.
Silakan laporkan "bug" perangkat lunak atau masalah lain pada model melalui salah satu metode berikut:
Lihat MODEL_CARD.md.
Model dan anak timbangan kami dilisensikan kepada peneliti dan entitas komersial, dengan mematuhi prinsip terbuka. Misi kami adalah memberdayakan individu dan industri melalui peluang ini sambil mempromosikan lingkungan penemuan dan kemajuan AI yang etis.
Harap tinjau dokumen LISENSI, serta Kebijakan Penggunaan yang Dapat Diterima kami
Untuk pertanyaan yang sering diajukan, FAQ dapat dilihat di sini https://llama.meta.com/faq, ini akan terus diperbarui jika ada pertanyaan baru.