라마 모델을 개발해 주셔서 감사합니다. Llama 3.1 릴리스의 일환으로 Github Repos를 통합하고 LLAMA의 기능을 E2E LLAMA 스택으로 확장함에 따라 몇 가지 추가 리포지토리를 추가했습니다. 앞으로 다음과 같은 저장소를 사용하십시오.
궁금한 점이 있으시면 위의 저장소 중 하나에 문제를 제기 해 주시면 적시에 응답하기 위해 최선을 다하겠습니다.
감사합니다!
우리는 큰 언어 모델의 힘을 잠금 해제하고 있습니다. LLAMA 2는 이제 모든 규모의 개인, 제작자, 연구원 및 사업에 접근하여 책임감있게 아이디어를 실험, 혁신 및 확장 할 수 있도록합니다.
이 릴리스에는 모델 가중치 및 미리 훈련 된 미세 조정 된 Llama 언어 모델에 대한 시작 코드 (7b ~ 70b 매개 변수)가 포함됩니다.
이 저장소는 LLAMA 2 모델을로드하고 추론을 실행하는 최소한의 예입니다. 포옹 얼굴을 활용하는 자세한 예제는 Llama-recipes를 참조하십시오.
update.md를 참조하십시오. 자주 묻는 질문의 실행 목록에 대해서는 여기를 참조하십시오.
모델 가중치 및 토큰 화기를 다운로드하려면 Meta 웹 사이트를 방문하여 라이센스를 수락하십시오.
요청이 승인되면 이메일을 통해 서명 된 URL을 받게됩니다. 그런 다음 다운로드를 시작하라는 메시지가 표시 될 때 제공된 URL을 전달한 Download.sh 스크립트를 실행하십시오.
사전 반품 : wget
및 md5sum
설치되어 있는지 확인하십시오. 그런 다음 스크립트를 실행하십시오 : ./download.sh
.
24 시간 후에 링크가 만료되고 일정량의 다운로드가 만료됩니다. 403: Forbidden
과 같은 오류를보기 시작하면 언제든지 링크를 다시 요청할 수 있습니다.
우리는 또한 포옹 얼굴에 다운로드를 제공하고 있습니다. 라이센스를 인정하고 Repo의 모델 카드에 양식을 작성하여 모델에 대한 액세스를 요청할 수 있습니다. 그렇게하면 1 시간 이내에 버전의 모든 라마 (Code Llama, Llama 2 또는 Llama Guard)에 액세스해야합니다.
아래 단계를 따라 Llama 2 모델로 빠르게 일어나고 실행할 수 있습니다. 이 단계를 통해 빠른 추론을 현지에서 실행할 수 있습니다. 더 많은 예는 Llama 2 레시피 저장소를 참조하십시오.
Pytorch / Cuda 사용 가능한 클론이있는 콘다 에서이 저장소를 다운로드하십시오.
최상위 디렉토리 실행에서 :
pip install -e .
메타 웹 사이트를 방문하여 모델을 다운로드하려면 등록하십시오.
등록되면 모델을 다운로드 할 수있는 URL이 포함 된 이메일이 표시됩니다. Download.sh 스크립트를 실행하면이 URL이 필요합니다.
이메일을 받으면 다운로드 한 LLAMA 저장소로 이동하여 다운로드를 실행하십시오 .SH 스크립트.
원하는 모델이 다운로드되면 아래 명령을 사용하여 로컬로 모델을 실행할 수 있습니다.
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
메모
llama-2-7b-chat/
체크 포인트 디렉토리 및 tokenizer.model
로가는 경로로 교체하십시오.–nproc_per_node
는 사용중인 모델의 MP 값으로 설정해야합니다.max_seq_len
및 max_batch_size
매개 변수를 조정하십시오.다른 모델은 다른 모델-럴렐 (MP) 값이 필요합니다.
모델 | MP |
---|---|
7b | 1 |
13b | 2 |
70b | 8 |
모든 모델은 최대 4096 개의 토큰까지 시퀀스 길이를 지원하지만 max_seq_len
및 max_batch_size
값에 따라 캐시를 사전 할당합니다. 하드웨어에 따라 설정하십시오.
이 모델은 채팅 또는 Q & A를 위해 미세 구성되지 않습니다. 예상 대답이 자연스럽게 프롬프트의 연속이되도록 프롬프트를 제출해야합니다.
몇 가지 예는 example_text_completion.py
참조하십시오. 예를 들어, LLAMA-2-7B 모델로 실행하려면 아래 명령을 참조하십시오 ( nproc_per_node
MP
값으로 설정해야합니다).
torchrun --nproc_per_node 1 example_text_completion.py
--ckpt_dir llama-2-7b/
--tokenizer_path tokenizer.model
--max_seq_len 128 --max_batch_size 4
미세 조정 된 모델은 대화 응용 프로그램을 위해 훈련되었습니다. 예상되는 기능과 성능을 얻으려면 chat_completion
에 정의 된 특정 형식을 따라야합니다. INST
및 <<SYS>>
태그, BOS
및 EOS
토큰, 그리고 사이의 공백 및 브레이크 라인을 포함하여 ( strip()
이중 공백을 피하기 위해 입력).
안전하지 않은 것으로 간주되는 입력 및 출력을 필터링하기 위해 추가 분류기를 배포 할 수도 있습니다. 추론 코드의 입력 및 출력에 안전 검사기를 추가하는 방법의 예는 Llama-Recipes Repo를 참조하십시오.
llama-2-7b-chat을 사용한 예 :
torchrun --nproc_per_node 1 example_chat_completion.py
--ckpt_dir llama-2-7b-chat/
--tokenizer_path tokenizer.model
--max_seq_len 512 --max_batch_size 6
Llama 2는 사용에 잠재적 인 위험을 초래하는 새로운 기술입니다. 현재까지 수행 된 테스트는 모든 시나리오를 다룰 수 없으며 볼 수는 없습니다. 개발자가 이러한 위험을 해결하도록 돕기 위해 책임있는 사용 안내서를 만들었습니다. 자세한 내용은 연구 논문에서도 확인할 수 있습니다.
다음 수단 중 하나를 통해 소프트웨어 "버그"또는 모델의 기타 문제를보고하십시오.
model_card.md를 참조하십시오.
우리의 모델과 가중치는 연구원과 상업 단체 모두에게 라이센스가 부여되어 개방의 원칙을지지합니다. 우리의 사명은이 기회를 통해 개인과 산업을 강화하는 동시에 발견과 윤리적 AI 발전의 환경을 조성하는 것입니다.
라이센스 파일 및 수용 가능한 사용 정책을 참조하십시오.
일반적인 질문의 경우, FAQ는 여기에서 찾을 수 있으며 새로운 질문이 생길 때 시간이 지남에 따라 최신 상태로 유지됩니다.
원래 LLAMA 릴리스의 저장소는 llama_v1
브랜치에 있습니다.