Llama es un modelo de lenguaje grande (LLM) abierto y accesible diseñado para que desarrolladores, investigadores y empresas creen, experimenten y escale de manera responsable sus ideas de IA generativa. Como parte de un sistema fundamental, sirve como base para la innovación en la comunidad global. Algunos aspectos clave:
Acceso abierto : fácil acceso a modelos de lenguajes grandes y de vanguardia, lo que fomenta la colaboración y los avances entre desarrolladores, investigadores y organizaciones.
Amplio ecosistema : los modelos de Llama se han descargado cientos de millones de veces, hay miles de proyectos comunitarios creados en Llama y el soporte de la plataforma es amplio, desde proveedores de nube hasta nuevas empresas: ¡el mundo está construyendo con Llama!
Confianza y seguridad : los modelos Llama son parte de un enfoque integral de confianza y seguridad, lanzando modelos y herramientas que están diseñados para permitir la colaboración comunitaria y fomentar la estandarización del desarrollo y uso de herramientas de confianza y seguridad para la IA generativa.
Nuestra misión es empoderar a las personas y a la industria a través de esta oportunidad y al mismo tiempo fomentar un entorno de descubrimiento y avances éticos en la IA. Los pesos del modelo están autorizados para investigadores y entidades comerciales, respetando los principios de apertura.
Modelo | Fecha de lanzamiento | Tamaños de modelo | Longitud del contexto | Tokenizador | Política de uso aceptable | Licencia | Tarjeta modelo |
---|---|---|---|---|---|---|---|
Llama 2 | 18/07/2023 | 7B, 13B, 70B | 4k | Frase | Política de uso | Licencia | Tarjeta modelo |
Llama 3 | 18/04/2024 | 8B, 70B | 8K | Basado en TikToken | Política de uso | Licencia | Tarjeta modelo |
Llama 3.1 | 23/07/2024 | 8B, 70B, 405B | 128K | Basado en TikToken | Política de uso | Licencia | Tarjeta modelo |
Llama 3.2 | 25/09/2024 | 1B, 3B | 128K | Basado en TikToken | Política de uso | Licencia | Tarjeta modelo |
Llama 3.2-Visión | 25/09/2024 | 11B, 90B | 128K | Basado en TikToken | Política de uso | Licencia | Tarjeta modelo |
Para descargar los pesos del modelo y el tokenizador:
Visita el sitio web de Meta Llama.
Lea y acepte la licencia.
Una vez que se apruebe su solicitud, recibirá una URL firmada por correo electrónico.
Instale Llama CLI: pip install llama-stack
. ( <-- Comience aquí si ya recibió un correo electrónico. )
Ejecute llama model list
para mostrar los últimos modelos disponibles y determinar la identificación del modelo que desea descargar. NOTA : Si desea versiones anteriores de modelos, ejecute llama model list --show-all
para mostrar todos los modelos de Llama disponibles.
Ejecutar: llama download --source meta --model-id CHOSEN_MODEL_ID
Pase la URL proporcionada cuando se le solicite iniciar la descarga.
Recuerda que los enlaces caducan a las 24 horas y una determinada cantidad de descargas. Siempre puedes volver a solicitar un enlace si comienzas a ver errores como 403: Forbidden
.
Debe instalar las siguientes dependencias (además del archivo requirements.txt
en el directorio raíz de este repositorio) para ejecutar los modelos:
pip install torch fairscale fire blobfile
Después de instalar las dependencias, puede ejecutar los scripts de ejemplo (dentro del subdirectorio llama_models/scripts/
) de la siguiente manera:
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-Instruct PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
El script anterior debe usarse con un modelo de Instrucción (Chat). Para un modelo base, use el script llama_models/scripts/example_text_completion.py
. Tenga en cuenta que puede utilizar estos scripts con las series de modelos Llama3 y Llama3.1.
Para ejecutar modelos más grandes con paralelismo tensorial, debes modificarlo como:
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) ejecución de antorcha --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --model_parallel_size $NGPUS
Para obtener más flexibilidad en la ejecución de inferencia (incluida la ejecución de inferencia FP8), consulte el repositorio Llama Stack
.
También ofrecemos descargas en Hugging Face, tanto en transformadores como en formatos nativos llama3
. Para descargar los pesos de Hugging Face, siga estos pasos:
Visite uno de los repositorios, por ejemplo meta-llama/Meta-Llama-3.1-8B-Instruct.
Lea y acepte la licencia. Una vez que se apruebe su solicitud, se le otorgará acceso a todos los modelos de Llama 3.1, así como a las versiones anteriores. Tenga en cuenta que las solicitudes solían tardar hasta una hora en procesarse.
Para descargar los pesos nativos originales para usar con este repositorio, haga clic en la pestaña "Archivos y versiones" y descargue el contenido de la carpeta original
. También puedes descargarlos desde la línea de comando si pip install huggingface-hub
:
huggingface-cli descargar meta-llama/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir meta-llama/Meta-Llama-3.1-8B-Instruct
NOTA Los pesos nativos originales de meta-llama/Meta-Llama-3.1-405B no estarían disponibles a través de este repositorio de HugginFace.
Para usarlo con transformadores, el siguiente fragmento de canalización descargará y almacenará en caché los pesos:
importar transformadoresimportar antorchamodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = transformadores.pipeline( "text-spawn", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": antorcha.bfloat16}, dispositivo="cuda", )
Puedes instalar este repositorio como un paquete simplemente haciendo pip install llama-models
Los modelos de llamas son una nueva tecnología que conlleva riesgos potenciales con su uso. Las pruebas realizadas hasta la fecha no han cubierto (ni podrían) cubrir todos los escenarios. Para ayudar a los desarrolladores a abordar estos riesgos, hemos creado la Guía de uso responsable.
Para preguntas comunes, las preguntas frecuentes se pueden encontrar aquí, que se actualizarán con el tiempo a medida que surjan nuevas preguntas.