Llama는 개발자, 연구원 및 기업이 생성 AI 아이디어를 구축, 실험 및 책임감 있게 확장할 수 있도록 설계된 액세스 가능한 개방형 LLM(대형 언어 모델)입니다. 이는 기반 시스템의 일부로서 글로벌 커뮤니티 혁신의 기반 역할을 합니다. 몇 가지 주요 측면:
오픈 액세스 : 최첨단 대규모 언어 모델에 쉽게 액세스하여 개발자, 연구원 및 조직 간의 협업과 발전을 촉진합니다.
광범위한 생태계 : Llama 모델은 수억 번 다운로드되었으며 Llama를 기반으로 구축된 수천 개의 커뮤니티 프로젝트가 있으며 플랫폼 지원은 클라우드 제공업체에서 스타트업까지 광범위합니다. 전 세계가 Llama를 통해 구축되고 있습니다!
신뢰 및 안전 : Llama 모델은 신뢰와 안전에 대한 포괄적인 접근 방식의 일부이며, 커뮤니티 협업을 지원하고 생성 AI를 위한 신뢰 및 안전 도구의 개발 및 사용 표준화를 장려하도록 설계된 모델과 도구를 출시합니다.
우리의 임무는 발견 환경과 윤리적인 AI 발전을 조성하는 동시에 이 기회를 통해 개인과 산업에 힘을 실어주는 것입니다. 모델 가중치는 개방성 원칙을 유지하면서 연구원 및 상업 단체에 대해 라이센스가 부여됩니다.
모델 | 출시일 | 모델 크기 | 컨텍스트 길이 | 토크나이저 | 허용되는 사용 정책 | 특허 | 모델 카드 |
---|---|---|---|---|---|---|---|
라마 2 | 2023년 7월 18일 | 7B, 13B, 70B | 4K | 문장 조각 | 이용정책 | 특허 | 모델 카드 |
라마 3 | 2024년 4월 18일 | 8B, 70B | 8K | TikToken 기반 | 이용정책 | 특허 | 모델 카드 |
라마 3.1 | 2024년 7월 23일 | 8B, 70B, 405B | 128K | TikToken 기반 | 이용정책 | 특허 | 모델 카드 |
라마 3.2 | 2024년 9월 25일 | 1B, 3B | 128K | TikToken 기반 | 이용정책 | 특허 | 모델 카드 |
라마 3.2-비전 | 2024년 9월 25일 | 11B, 90B | 128K | TikToken 기반 | 이용정책 | 특허 | 모델 카드 |
모델 가중치 및 토크나이저를 다운로드하려면 다음을 수행하세요.
메타 라마 웹사이트를 방문하세요.
라이센스를 읽고 동의하십시오.
요청이 승인되면 이메일을 통해 서명된 URL을 받게 됩니다.
Llama CLI를 설치합니다: pip install llama-stack
. ( <-- 이미 이메일을 받으셨다면 여기에서 시작하세요. )
llama model list
실행하여 사용 가능한 최신 모델을 표시하고 다운로드하려는 모델 ID를 결정하세요. 참고 : 이전 버전의 모델을 원하는 경우 llama model list --show-all
실행하여 사용 가능한 모든 Llama 모델을 표시하세요.
실행: llama download --source meta --model-id CHOSEN_MODEL_ID
다운로드를 시작하라는 메시지가 표시되면 제공된 URL을 전달합니다.
링크는 24시간 후 일정량의 다운로드가 완료되면 만료된다는 점을 기억하세요. 403: Forbidden
과 같은 오류가 표시되기 시작하면 언제든지 링크를 다시 요청할 수 있습니다.
모델을 실행하려면 다음 종속성을 설치해야 합니다(이 리포지토리의 루트 디렉터리에 있는 requirements.txt
외에).
pip install torch fairscale fire blobfile
종속성을 설치한 후 다음과 같이 예제 스크립트( llama_models/scripts/
하위 디렉터리 내)를 실행할 수 있습니다.
#!/bin/bashCHECKPOINT_DIR=~/.llama/checkpoints/Meta-Llama3.1-8B-지시 PYTHONPATH=$(git rev-parse --show-toplevel) torchrun llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR
위 스크립트는 Instruct(채팅) 모델과 함께 사용해야 합니다. 기본 모델의 경우 llama_models/scripts/example_text_completion.py
스크립트를 사용합니다. Llama3 및 Llama3.1 시리즈 모델 모두에서 이러한 스크립트를 사용할 수 있습니다.
텐서 병렬성을 사용하여 더 큰 모델을 실행하려면 다음과 같이 수정해야 합니다.
#!/bin/bashNGPUS=8 PYTHONPATH=$(git rev-parse --show-toplevel) 토치런 --nproc_per_node=$NGPUS llama_models/scripts/example_chat_completion.py $CHECKPOINT_DIR --모델_병렬_크기 $NGPUS
추론 실행(FP8 추론 실행 포함)에 대한 유연성을 높이려면 Llama Stack
저장소를 참조하세요.
또한 Hugging Face에서는 변환기와 기본 llama3
형식 모두의 다운로드를 제공합니다. Hugging Face에서 가중치를 다운로드하려면 다음 단계를 따르세요.
예를 들어 Meta-llama/Meta-Llama-3.1-8B-Instruct와 같은 저장소 중 하나를 방문하세요.
라이센스를 읽고 동의하십시오. 요청이 승인되면 모든 Llama 3.1 모델과 이전 버전에 대한 액세스 권한이 부여됩니다. 요청을 처리하는 데 최대 1시간이 걸렸습니다.
이 리포지토리에 사용할 원래 기본 가중치를 다운로드하려면 "파일 및 버전" 탭을 클릭하고 original
폴더의 콘텐츠를 다운로드하세요. pip install huggingface-hub
사용하면 명령줄에서 다운로드할 수도 있습니다.
Huggingface-cli 다운로드 메타-라마/Meta-Llama-3.1-8B-Instruct --include "original/*" --local-dir Meta-llama/Meta-Llama-3.1-8B-Instruct
참고 Meta-llama/Meta-Llama-3.1-405B의 원래 기본 가중치는 이 HugginFace 저장소를 통해 사용할 수 없습니다.
변환기와 함께 사용하기 위해 다음 파이프라인 조각은 가중치를 다운로드하고 캐시합니다.
import Transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = Transformers.pipeline( "text- Generation", model="meta-llama/Meta-Llama-3.1-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, 장치="cuda", )
pip install llama-models
수행하여 이 저장소를 패키지로 설치할 수 있습니다.
라마 모델은 사용 시 잠재적인 위험을 수반하는 신기술입니다. 현재까지 수행된 테스트는 모든 시나리오를 다루지는 않았으며 그럴 수도 없습니다. 개발자가 이러한 위험을 해결하는 데 도움을 주기 위해 책임 있는 사용 가이드를 만들었습니다.
일반적인 질문에 대해서는 여기에서 FAQ를 찾을 수 있으며, 새로운 질문이 생길 때마다 업데이트됩니다.