? 포옹 얼굴의 모델 | 블로그 | 웹사이트 | 시작하기
Llama 모델을 개발해 주셔서 감사합니다. Llama 3.1 릴리스의 일부로 GitHub 저장소를 통합하고 Llama의 기능을 e2e Llama 스택으로 확장하면서 몇 가지 추가 저장소를 추가했습니다. 앞으로는 다음 저장소를 사용해 주세요.
llama-models - 기본 유틸리티, 모델 카드, 라이센스 및 사용 정책을 포함한 기초 모델을 위한 중앙 저장소
PurpleLlama - 안전 위험 및 추론 시간 완화에 초점을 맞춘 Llama Stack의 핵심 구성 요소
llama-toolchain - 모델 개발(추론/미세 조정/안전 방패/합성 데이터 생성) 인터페이스 및 정식 구현
llama-agentic-system - 에이전트 애플리케이션 생성을 가능하게 하는 독자적인 기본 인터페이스와 함께 E2E 독립형 Llama 스택 시스템
llama-recipes - 커뮤니티 중심 스크립트 및 통합
질문이 있는 경우 언제든지 위 저장소 중 하나에 문제를 제출해 주시면 적시에 답변해 드리기 위해 최선을 다하겠습니다.
감사합니다!
우리는 대규모 언어 모델의 힘을 활용하고 있습니다. 이제 모든 규모의 개인, 창작자, 연구원, 기업이 최신 버전의 Llama에 액세스하여 책임감 있게 아이디어를 실험하고 혁신하고 확장할 수 있습니다.
이 릴리스에는 8B~70B 매개변수 크기를 포함하여 사전 훈련되고 명령 조정된 Llama 3 언어 모델을 위한 모델 가중치와 시작 코드가 포함되어 있습니다.
이 저장소는 Llama 3 모델을 로드하고 추론을 실행하는 최소한의 예입니다. 더 자세한 예를 보려면 라마 레시피를 참조하세요.
모델 가중치와 토크나이저를 다운로드하려면 Meta Llama 웹사이트를 방문하여 라이선스에 동의하세요.
요청이 승인되면 이메일을 통해 서명된 URL을 받게 됩니다. 그런 다음 download.sh 스크립트를 실행하여 다운로드를 시작하라는 메시지가 표시되면 제공된 URL을 전달합니다.
전제조건: wget
및 md5sum
설치되어 있는지 확인하십시오. 그런 다음 ./download.sh
스크립트를 실행합니다.
링크는 24시간 후 일정량의 다운로드가 완료되면 만료된다는 점을 기억하세요. 403: Forbidden
과 같은 오류가 표시되기 시작하면 언제든지 링크를 다시 요청할 수 있습니다.
또한 Hugging Face에서는 변환기와 기본 llama3
형식 모두의 다운로드를 제공합니다. Hugging Face에서 가중치를 다운로드하려면 다음 단계를 따르세요.
예를 들어 Meta-llama/Meta-Llama-3-8B-Instruct와 같은 저장소 중 하나를 방문하세요.
라이센스를 읽고 동의하십시오. 요청이 승인되면 모든 Llama 3 모델에 대한 액세스 권한이 부여됩니다. 요청을 처리하는 데 최대 1시간이 걸렸습니다.
이 리포지토리에 사용할 원래 기본 가중치를 다운로드하려면 "파일 및 버전" 탭을 클릭하고 original
폴더의 콘텐츠를 다운로드하세요. pip install huggingface-hub
사용하면 명령줄에서 다운로드할 수도 있습니다.
Huggingface-cli 다운로드 메타-라마/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-llama/Meta-Llama-3-8B-Instruct
변환기와 함께 사용하기 위해 다음 파이프라인 조각은 가중치를 다운로드하고 캐시합니다.
import Transformersimport torchmodel_id = "meta-llama/Meta-Llama-3-8B-Instruct"pipeline = Transformers.pipeline( "text- Generation", model="meta-llama/Meta-Llama-3-8B-Instruct", model_kwargs ={"torch_dtype": torch.bfloat16}, 장치="cuda", )
아래 단계에 따라 Llama 3 모델을 빠르게 시작하고 실행할 수 있습니다. 이러한 단계를 통해 로컬에서 빠른 추론을 실행할 수 있습니다. 더 많은 예를 보려면 Llama 레시피 저장소를 참조하세요.
PyTorch/CUDA를 사용하여 conda env에 이 저장소를 복제하고 다운로드합니다.
최상위 디렉터리에서 다음을 실행합니다.
pip 설치 -e .
Meta Llama 웹사이트를 방문하여 등록하고 모델을 다운로드하세요.
등록이 완료되면 모델을 다운로드할 수 있는 URL이 포함된 이메일을 받게 됩니다. download.sh 스크립트를 실행할 때 이 URL이 필요합니다.
이메일을 받으면 다운로드한 라마 저장소로 이동하여 download.sh 스크립트를 실행하세요.
download.sh 스크립트에 실행 권한을 부여하십시오.
이 과정에서 이메일의 URL을 입력하라는 메시지가 표시됩니다.
"링크 복사" 옵션을 사용하지 마십시오. 이메일의 링크를 수동으로 복사하세요.
원하는 모델이 다운로드되면 아래 명령을 사용하여 모델을 로컬로 실행할 수 있습니다.
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
메모
Meta-Llama-3-8B-Instruct/
체크포인트 디렉터리 경로로 바꾸고 Meta-Llama-3-8B-Instruct/tokenizer.model
토크나이저 모델 경로로 바꾸세요.
–nproc_per_node
는 사용 중인 모델의 MP 값으로 설정되어야 합니다.
필요에 따라 max_seq_len
및 max_batch_size
매개변수를 조정합니다.
이 예제에서는 이 저장소에 있는 example_chat_completion.py를 실행하지만 이를 다른 .py 파일로 변경할 수 있습니다.
모델마다 다른 모델 병렬(MP) 값이 필요합니다.
모델 | 국회의원 |
---|---|
8B | 1 |
70B | 8 |
모든 모델은 최대 8192개 토큰의 시퀀스 길이를 지원하지만 max_seq_len
및 max_batch_size
값에 따라 캐시를 사전 할당합니다. 따라서 하드웨어에 따라 설정하십시오.
이러한 모델은 채팅이나 Q&A용으로 미세 조정되지 않았습니다. 예상되는 대답이 프롬프트의 자연스러운 연속이 되도록 프롬프트를 표시해야 합니다.
몇 가지 예는 example_text_completion.py
참조하세요. 설명하려면 아래 명령을 참조하여 llama-3-8b 모델로 이를 실행하세요( nproc_per_node
MP
값으로 설정해야 함).
torchrun --nproc_per_node 1 example_text_completion.py --ckpt_dir Meta-Llama-3-8B/ --tokenizer_path Meta-Llama-3-8B/tokenizer.model --max_seq_len 128 --max_batch_size 4
미세 조정된 모델은 대화 응용 프로그램을 위해 훈련되었습니다. 예상되는 기능과 성능을 얻으려면 ChatFormat
에 정의된 특정 형식을 따라야 합니다. 프롬프트는 <|begin_of_text|>
특수 토큰으로 시작하고 그 뒤에 하나 이상의 메시지가 따릅니다. 각 메시지는 <|start_header_id|>
태그, 역할 system
, user
또는 assistant
및 <|end_header_id|>
태그로 시작됩니다. 이중 개행 nn
뒤에는 메시지 내용이 이어집니다. 각 메시지의 끝은 <|eot_id|>
토큰으로 표시됩니다.
안전하지 않은 것으로 간주되는 입력 및 출력을 필터링하기 위해 추가 분류자를 배포할 수도 있습니다. 추론 코드의 입력 및 출력에 안전 검사기를 추가하는 방법에 대한 예는 llama-recipes 저장소를 참조하세요.
llama-3-8b-chat 사용 예:
torchrun --nproc_per_node 1 example_chat_completion.py --ckpt_dir Meta-Llama-3-8B-Instruct/ --tokenizer_path Meta-Llama-3-8B-Instruct/tokenizer.model --max_seq_len 512 --max_batch_size 6
Llama 3는 사용 시 잠재적인 위험을 수반하는 신기술입니다. 현재까지 수행된 테스트는 모든 시나리오를 다루지는 않았으며 그럴 수도 없습니다. 개발자가 이러한 위험을 해결하는 데 도움을 주기 위해 책임 있는 사용 가이드를 만들었습니다.
다음 방법 중 하나를 통해 모델의 소프트웨어 "버그" 또는 기타 문제를 보고해 주십시오.
모델 문제 보고: https://github.com/meta-llama/llama3/issues
모델에 의해 생성된 위험한 콘텐츠 보고:developers.facebook.com/llama_output_feedback
버그 및 보안 문제 보고: facebook.com/whitehat/info
MODEL_CARD.md를 참조하세요.
우리의 모델과 가중치는 개방성 원칙을 유지하면서 연구원 및 상업 단체를 위해 라이센스가 부여되었습니다. 우리의 임무는 발견 환경과 윤리적인 AI 발전을 조성하는 동시에 이 기회를 통해 개인과 산업에 힘을 실어주는 것입니다.
LICENSE 파일과 함께 제공되는 허용 가능한 사용 정책을 참조하세요.
일반적인 질문에 대해서는 여기에서 FAQ를 찾을 수 있으며, 새로운 질문이 발생할 때마다 업데이트됩니다.