? Model Memeluk Wajah | Blog | Situs web | Memulai
Terima kasih telah mengembangkan dengan model Llama. Sebagai bagian dari rilis Llama 3.1, kami telah menggabungkan repo GitHub dan menambahkan beberapa repo tambahan seiring kami memperluas fungsionalitas Llama menjadi e2e Llama Stack. Silakan gunakan repo berikut untuk selanjutnya:
llama-models - Repo pusat untuk model dasar termasuk utilitas dasar, kartu model, lisensi dan kebijakan penggunaan
PurpleLlama - Komponen utama Llama Stack yang berfokus pada risiko keselamatan dan mitigasi waktu inferensi
llama-toolchain - Pengembangan model (inferensi/penyempurnaan/pelindung keselamatan/pembuatan data sintetis) antarmuka dan implementasi kanonik
llama-agentic-system - Sistem Llama Stack mandiri E2E, bersama dengan antarmuka dasar yang berpendirian, yang memungkinkan pembuatan aplikasi agen
llama-recipes - Skrip dan integrasi berbasis komunitas
Jika Anda memiliki pertanyaan, jangan ragu untuk mengajukan masalah pada salah satu repo di atas dan kami akan melakukan yang terbaik untuk meresponsnya tepat waktu.
Terima kasih!
Kami membuka kekuatan model bahasa besar. Llama versi terbaru kami kini dapat diakses oleh individu, pencipta, peneliti, dan bisnis dari segala skala sehingga mereka dapat bereksperimen, berinovasi, dan mengembangkan ide-ide mereka secara bertanggung jawab.
Rilis ini mencakup bobot model dan kode awal untuk model bahasa Llama 3 yang telah dilatih sebelumnya dan disesuaikan dengan instruksi — termasuk ukuran parameter 8B hingga 70B.
Repositori ini adalah contoh minimal memuat model Llama 3 dan menjalankan inferensi. Untuk contoh lebih detail, lihat resep llama.
Untuk mengunduh bobot model dan tokenizer, silakan kunjungi situs web Meta Llama dan terima Lisensi kami.
Setelah permintaan Anda disetujui, Anda akan menerima URL yang ditandatangani melalui email. Kemudian, jalankan skrip download.sh, lewati URL yang diberikan saat diminta untuk memulai pengunduhan.
Prasyarat: Pastikan Anda telah menginstal wget
dan md5sum
. Kemudian jalankan skrip: ./download.sh
.
Ingatlah bahwa tautan akan kedaluwarsa setelah 24 jam dan jumlah unduhan tertentu. Anda selalu dapat meminta ulang tautan jika Anda mulai melihat kesalahan seperti 403: Forbidden
.
Kami juga menyediakan unduhan di Hugging Face, baik dalam format trafo maupun llama3
asli. Untuk mendownload beban dari Hugging Face, silakan ikuti langkah-langkah berikut:
Kunjungi salah satu repo, misalnya meta-llama/Meta-Llama-3-8B-Instruct.
Baca dan terima lisensinya. Setelah permintaan Anda disetujui, Anda akan diberikan akses ke semua model Llama 3. Perhatikan bahwa permintaan biasanya memerlukan waktu hingga satu jam untuk diproses.
Untuk mengunduh bobot asli asli untuk digunakan dengan repo ini, klik tab "File dan versi" dan unduh konten folder original
. Anda juga dapat mengunduhnya dari baris perintah jika Anda pip install huggingface-hub
:
unduh huggingface-cli meta-llama/Meta-Llama-3-8B-Instruct --termasuk "asli/*" --local-dir meta-llama/Meta-Llama-3-8B-Instruct
Untuk digunakan dengan transformator, cuplikan alur berikut akan mengunduh dan menyimpan bobot dalam cache:
impor transformatorsimport torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = transformers.pipeline( "pembuatan teks", model="meta-llama/Meta-Llama-3-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, perangkat="cuda", )
Anda dapat mengikuti langkah-langkah di bawah ini untuk memulai dan menjalankan model Llama 3 dengan cepat. Langkah-langkah ini memungkinkan Anda menjalankan inferensi cepat secara lokal. Untuk contoh lebih lanjut, lihat gudang resep Llama.
Kloning dan unduh repositori ini dalam conda env dengan PyTorch / CUDA.
Di direktori tingkat atas, jalankan:
instalasi pip -e .
Kunjungi situs web Meta Llama dan daftar untuk mengunduh modelnya.
Setelah terdaftar, Anda akan mendapatkan email dengan URL untuk mendownload model. Anda memerlukan URL ini saat menjalankan skrip download.sh.
Setelah Anda mendapatkan email, navigasikan ke repositori llama yang Anda unduh dan jalankan skrip download.sh.
Pastikan untuk memberikan izin eksekusi ke skrip download.sh
Selama proses ini, Anda akan diminta memasukkan URL dari email.
Jangan gunakan opsi “Salin Tautan”; salin tautan dari email secara manual.
Setelah model yang Anda inginkan diunduh, Anda dapat menjalankan model secara lokal menggunakan perintah di bawah ini:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruksikan/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Catatan
Ganti Meta-Llama-3-8B-Instruct/
dengan jalur ke direktori pos pemeriksaan Anda dan Meta-Llama-3-8B-Instruct/tokenizer.model
dengan jalur ke model tokenizer Anda.
–nproc_per_node
harus disetel ke nilai MP untuk model yang Anda gunakan.
Sesuaikan parameter max_seq_len
dan max_batch_size
sesuai kebutuhan.
Contoh ini menjalankan example_chat_completion.py yang ditemukan di repositori ini, tetapi Anda dapat mengubahnya ke file .py lain.
Model yang berbeda memerlukan nilai model-paralel (MP) yang berbeda:
Model | anggota parlemen |
---|---|
8B | 1 |
70B | 8 |
Semua model mendukung panjang urutan hingga 8192 token, tetapi kami mengalokasikan cache terlebih dahulu sesuai dengan nilai max_seq_len
dan max_batch_size
. Jadi aturlah sesuai dengan perangkat keras Anda.
Model-model ini tidak disesuaikan untuk obrolan atau tanya jawab. Mereka harus diarahkan sedemikian rupa sehingga jawaban yang diharapkan merupakan kelanjutan alami dari pertanyaan tersebut.
Lihat example_text_completion.py
untuk beberapa contoh. Sebagai ilustrasi, lihat perintah di bawah ini untuk menjalankannya dengan model llama-3-8b ( nproc_per_node
perlu disetel ke nilai MP
):
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
Model yang telah disempurnakan dilatih untuk aplikasi dialog. Untuk mendapatkan fitur dan kinerja yang diharapkan, pemformatan spesifik yang ditentukan dalam ChatFormat
perlu diikuti: Perintah dimulai dengan token khusus <|begin_of_text|>
, yang kemudian diikuti oleh satu atau lebih pesan. Setiap pesan dimulai dengan tag <|start_header_id|>
, system
peran, user
atau assistant
, dan tag <|end_header_id|>
. Setelah baris baru ganda nn
, isi pesan mengikuti. Akhir dari setiap pesan ditandai dengan token <|eot_id|>
.
Anda juga dapat menerapkan pengklasifikasi tambahan untuk memfilter masukan dan keluaran yang dianggap tidak aman. Lihat repo llama-recipes untuk contoh cara menambahkan pemeriksa keamanan ke input dan output kode inferensi Anda.
Contoh penggunaan llama-3-8b-chat:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3 adalah teknologi baru yang membawa potensi risiko saat digunakan. Pengujian yang dilakukan hingga saat ini belum – dan tidak dapat – mencakup semua skenario. Untuk membantu pengembang mengatasi risiko ini, kami telah membuat Panduan Penggunaan yang Bertanggung Jawab.
Silakan laporkan “bug” perangkat lunak apa pun atau masalah lain pada model melalui salah satu cara berikut:
Melaporkan masalah dengan model: https://github.com/meta-llama/llama3/issues
Melaporkan konten berisiko yang dihasilkan oleh model: developer.facebook.com/llama_output_feedback
Melaporkan bug dan masalah keamanan: facebook.com/whitehat/info
Lihat MODEL_CARD.md.
Model dan anak timbangan kami dilisensikan untuk peneliti dan entitas komersial, dengan menjunjung tinggi prinsip keterbukaan. Misi kami adalah memberdayakan individu dan industri melalui peluang ini sambil mengembangkan lingkungan penemuan dan kemajuan AI yang etis.
Lihat file LISENSI, serta Kebijakan Penggunaan yang Dapat Diterima yang menyertainya
Untuk pertanyaan umum, FAQ dapat ditemukan di sini, yang akan diperbarui seiring waktu seiring dengan munculnya pertanyaan baru.