Workshop de pesquisa sobre grandes modelos de linguagem - O verão dos modelos de linguagem 21
No momento temos 2 repositórios de código:
Atualmente, os segmentos mais ativos deste repo são:
Temos READMEs para aspectos específicos, como:
Embora mantenhamos crônicas detalhadas de experimentos e descobertas de alguns dos principais treinamentos, aqui está um documento que contém um resumo das descobertas mais importantes: Lições aprendidas
Você pode assistir aos logs de treinamento ao vivo executando este script semelhante tail -f
em um arquivo de log remoto que é sincronizado com o hub uma vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Execuções de linha de base de arquitetura e escalonamento: sem truques sofisticados, apenas GPT2. Aqui estão os links para os respectivos tensorboards:
Tamanho | 1B3 | 760 milhões | 350 milhões | 125 milhões |
---|---|---|---|---|
C4 + aquecimento baixo | um | b | c | |
OSCAR + aquecimento baixo | f | |||
C4 + aquecimento alto | e | |||
OSCAR + aquecimento alto | d (linha de base atual) | g | h | eu |
Pilha + aquecimento alto | eu | j | k | eu |
104B - Megatron gpt2 não modificado - com tamanho oculto extra amplo para aprender como lidar com instabilidades de treinamento
Você pode assistir aos logs de treinamento ao vivo executando este script semelhante tail -f
em um arquivo de log remoto que é sincronizado com o hub uma vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Este é o treinamento principal atual
tr11-176B-ml
Você pode assistir aos logs de treinamento ao vivo executando este script semelhante tail -f
em um arquivo de log remoto que é sincronizado com o hub uma vez por hora:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt