bigscience
1.0.0
대형 언어 모델 연구 워크숍 - 언어 모델의 여름 21
현재 우리는 2개의 코드 저장소를 가지고 있습니다:
현재 이 저장소에서 가장 활동적인 세그먼트는 다음과 같습니다.
다음과 같은 특정 측면에 대한 README가 있습니다.
일부 주요 교육에 대한 실험 및 결과에 대한 자세한 기록을 보관하고 있지만 다음은 가장 중요한 결과에 대한 요약을 포함하는 문서입니다. 배운 교훈
한 시간에 한 번씩 허브에 동기화되는 원격 로그 파일에 대해 이 tail -f
like 스크립트를 실행하여 훈련 로그를 실시간으로 볼 수 있습니다.
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
아키텍처 및 확장 기준 실행: 화려한 트릭은 없고 GPT2만 사용됩니다. 다음은 각 텐서보드에 대한 링크입니다:
크기 | 1B3 | 760M | 3억 5천만 | 125M |
---|---|---|---|---|
C4 + 낮은 워밍업 | 에이 | 비 | 기음 | |
OSCAR + 낮은 워밍업 | 에프 | |||
C4 + 높은 워밍업 | 이자형 | |||
OSCAR + 높은 워밍업 | d(현재 기준선) | g | 시간 | 나 |
더미 + 높은 워밍업 | 중 | j | 케이 | 엘 |
104B - 수정되지 않은 Megatron gpt2 - 훈련 불안정성을 다루는 방법을 배우기 위한 더 넓은 숨겨진 크기 포함
한 시간에 한 번씩 허브에 동기화되는 원격 로그 파일에 대해 이 tail -f
like 스크립트를 실행하여 훈련 로그를 실시간으로 볼 수 있습니다.
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
현재 진행중인 메인 트레이닝입니다
tr11-176B-ml
한 시간에 한 번씩 허브에 동기화되는 원격 로그 파일에 대해 이 tail -f
like 스크립트를 실행하여 훈련 로그를 실시간으로 볼 수 있습니다.
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt