Nous Research проводит новаторский эксперимент: использует глобально распределенные машины для предварительного обучения модели большого языка (LLM) с 1,5 миллиардами параметров. Этот эксперимент подрывает традиционную централизованную модель обучения, позволяет избежать дорогостоящих и энергозатратных центров обработки данных и транслирует процесс обучения в режиме реального времени через свой веб-сайт distro.nousresearch.com, демонстрируя производительность модели и карты расположения оборудования. Этот шаг не только снижает затраты на обучение, но, что более важно, он, как ожидается, снизит входной барьер для больших языковых моделей, позволяя большему количеству небольших команд и отдельных лиц участвовать в исследованиях и разработках генеративного ИИ.
В быстро развивающейся области генеративного искусственного интеллекта команда Nous Research проводит уникальный эксперимент: они используют машины, распределенные по всему миру, для предварительного обучения модели большого языка (LLM) с 1,5 миллиардами параметров. Этот процесс позволяет избежать традиционного подхода и требует централизованного подхода. развитие в дорогих и энергоемких центрах обработки данных или суперкластерах.
Nous Research также транслирует процесс предварительного обучения в прямом эфире на своем специальном веб-сайте distro.nousresearch.com, демонстрируя производительность модели в различных оценочных тестах в режиме реального времени и предоставляя карту расположения оборудования, участвующего в обучении, охватывающую несколько мест в США и Европа. На момент публикации этой статьи оставшееся время предварительной подготовки составляет примерно 57 часов (т.е. 2,3 дня), и более 75% процесса обучения пройдено.
Предварительное обучение — это первый и самый основной этап обучения LLM, который включает в себя обучение большому объему текстовых данных для изучения статистических свойств и структуры языка. На этом этапе модель фиксирует закономерности языка, синтаксиса и контекстуальных отношений между словами путем обработки обширных наборов текстовых данных. Этот процесс дает модели широкое понимание языка, способность генерировать связный текст и выполнять различные языковые задачи. После предварительного обучения модель также необходимо настроить для конкретных задач или областей.
Если этот план окажется успешным, Nous Research докажет, что передовые технологии LLM по-прежнему можно обучать без дорогостоящих суперкластеров или передачи с малой задержкой, что ознаменует новую эру распределенного обучения ИИ. Этот подход к обучению с открытым исходным кодом может изменить динамику власти генеративного искусственного интеллекта, сделав небольшие команды и некорпоративных участников более конкурентоспособными в этой области.
Новая технология, используемая Nous, называется Nous DisTrO (распределенное обучение через Интернет), которая предназначена для снижения требований к пропускной способности связи между графическими процессорами во время процесса предварительного обучения. Согласно последнему выпуску Nous Research, DisTrO может снизить требования к связи до 10 000 раз, позволяя поддерживать конкурентоспособные показатели конвергенции и кривые потерь при более медленных и более доступных интернет-соединениях.
Кроме того, основным достижением DisTrO является эффективное сжатие объема данных, которыми обмениваются графические процессоры, без ущерба для производительности модели. Эта технология основана на более раннем алгоритме оптимизации развязанного импульса (DeMo), который также направлен на значительное снижение требований к связи между графическими процессорами при сохранении производительности обучения.
Что касается аппаратного обеспечения, процесс предварительного обучения Nous Research поддерживается многими известными партнерами, такими как Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud и Andromeda Cluster, которые совместно предоставляют необходимое гетерогенное оборудование для полного тестирования DisTrO в реальных распределенных средах. системы.
Вход в блог: https://nousresearch.com/
Этот эксперимент Nous Research не только совершил прорыв в технологиях, но, что более важно, предоставил новую идею и возможности исследователям ИИ во всем мире, предвещая изменение модели обучения ИИ. В будущем, возможно, появится больше подобных проектов распределенного обучения, что еще больше снизит порог входа в технологии ИИ и будет способствовать энергичному развитию области ИИ.