Исследовательский семинар по большим языковым моделям - Лето языковых моделей 21
На данный момент у нас есть 2 репозитория кода:
На данный момент наиболее активными сегментами этого репо являются:
У нас есть README для конкретных аспектов, таких как:
Хотя мы ведем подробные хроники экспериментов и результатов некоторых основных тренингов, вот документ, содержащий краткое изложение наиболее важных результатов: Извлеченные уроки
Вы можете просмотреть журналы тренировок в реальном времени, запустив этот скрипт, подобный tail -f
через удаленный файл журнала, который синхронизируется с хабом один раз в час:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr1-13B-logs/resolve/main/main_log.txt
Базовые возможности архитектуры и масштабирования: никаких хитростей, только GPT2. Вот ссылки на соответствующие тензорные доски:
Размер | 1Б3 | 760М | 350М | 125М |
---|---|---|---|---|
C4 + низкий разогрев | а | б | с | |
ОСКАР + низкая разминка | ж | |||
C4 + высокий разогрев | е | |||
ОСКАР + высокая разминка | d (текущий базовый уровень) | г | час | я |
Навал + высокая разминка | м | дж | к | л |
104B — немодифицированный Megatron gpt2 — с очень широким скрытым размером, чтобы научиться справляться с нестабильностью тренировок.
Вы можете просмотреть журналы тренировок в реальном времени, запустив этот скрипт, подобный tail -f
через удаленный файл журнала, который синхронизируется с хабом один раз в час:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -sI $u]=~/content-length: (d+)/;
print qx[curl -sr $b-$e -L $u] if $e>$b; $b=$e; sleep 300}'
https://cdn-lfs.huggingface.co/bigscience/tr8-104B-logs/b2cc478d5ae7c9ec937ea2db1d2fe09de593fa2ec38c171d6cc5dca094cd79f9
Это текущий основной тренинг
tr11-176B-мл
Вы можете просмотреть журналы тренировок в реальном времени, запустив этот скрипт, подобный tail -f
через удаленный файл журнала, который синхронизируется с хабом один раз в час:
perl -e '$u=shift; $b=0; while(1){($e)=qx[curl -LsI $u]=~/2 200.*?content-length: (d+)/s;
print qx[curl -Lsr $b-$e $u] if $e>$b; $b=$e; sleep 300}'
https://huggingface.co/bigscience/tr11-176B-ml-logs/resolve/main/logs/main/main_log.txt