Nous Research запускает революционный оптимизатор обучения ИИ DisTrO, который ломает ситуацию, когда обучение крупным моделям ИИ доступно только крупным корпоративным гигантам. DisTrO может значительно сократить объем передачи данных между несколькими графическими процессорами и эффективно обучать модели ИИ даже в обычных сетевых средах. Это значительно снизит порог обучения моделей ИИ и позволит большему количеству людей и учреждений участвовать в разработке технологий ИИ. и разработка продолжается. Ожидается, что эта инновационная технология полностью изменит модель исследований и разработок в области ИИ и будет способствовать популяризации и развитию технологии ИИ.
Недавно исследовательская группа Nous Research принесла интересную новость в технологический круг. Они запустили новый оптимизатор под названием DisTrO (Распределенное Интернет-обучение). Рождение этой технологии означает, что мощные модели искусственного интеллекта являются не только патентом крупных компаний, но и обычные люди также имеют возможность использовать собственные компьютеры для эффективного обучения дома.
Магия DisTrO в том, что она может значительно уменьшить объем информации, которую необходимо передавать между несколькими графическими процессорами (GPU) при обучении модели ИИ. Благодаря этой инновации мощные модели ИИ можно обучать в обычных сетевых условиях и даже позволить отдельным лицам или учреждениям по всему миру объединять усилия для совместной разработки технологий ИИ.
Согласно технической статье Nous Research, повышение эффективности DisTrO поразительно. Эффективность обучения с его использованием в 857 раз выше, чем у обычного алгоритма All-Reduce. При этом объем информации, передаваемой при каждом обучении. шаг также уменьшен с 74,4 ГБ до 74,4 ГБ. Такие улучшения не только делают обучение быстрее и дешевле, но также означают, что больше людей имеют возможность участвовать в этой области.
Nous Research заявила на своей социальной платформе, что благодаря DisTrO исследователям и учреждениям больше не нужно полагаться на определенную компанию для управления и контроля процесса обучения, что дает им больше свободы для инноваций и экспериментов. Эта открытая конкурентная среда способствует технологическому прогрессу и в конечном итоге приносит пользу всему обществу.
При обучении ИИ требования к оборудованию часто непомерно высоки. В частности, в нашу эпоху высокопроизводительные графические процессоры Nvidia становятся все более дефицитными и дорогими, и только некоторые хорошо финансируемые компании могут позволить себе бремя такого обучения. Однако философия Nous Research прямо противоположна. Они стремятся открыть обучение моделей ИИ для общественности с меньшими затратами и стремятся позволить большему количеству людей участвовать.
DisTrO работает за счет сокращения накладных расходов на связь на четыре-пять порядков за счет уменьшения необходимости в полной градиентной синхронизации между графическими процессорами. Это нововведение позволяет обучать модели искусственного интеллекта на более медленных интернет-соединениях, причем скорости загрузки 100 Мбит/с и скорости выгрузки 10 Мбит/с, легко доступные для многих домохозяйств, сегодня вполне достаточно.
В предварительных тестах большой языковой модели Llama2 компании Meta DisTrO показал результаты обучения, сравнимые с традиционными методами, при этом значительно сократив объем требуемого общения. Исследователи также заявили, что, хотя пока они тестировались только на моделях меньшего размера, они предварительно предполагают, что по мере увеличения размера модели снижение требований к связи может быть более значительным, достигая даже 1000–3000 раз.
Стоит отметить, что ДиТрО хоть и делает обучение более гибким, но всё равно опирается на поддержку GPU, но теперь эти GPU не нужно собирать в одном месте, а можно рассредоточить по всему миру и взаимодействовать через обычный Интернет. Мы увидели, что DisTrO смог сравниться с традиционным методом AdamW+All-Reduce по скорости сходимости при тщательном тестировании с использованием 32 графических процессоров H100, но при этом значительно снизились требования к связи.
DisTrO подходит не только для больших языковых моделей, но также может использоваться для обучения других типов ИИ, таких как модели генерации изображений. Перспективы будущих приложений впечатляют. Кроме того, повышая эффективность обучения, DisTrO может также снизить воздействие обучения ИИ на окружающую среду, поскольку оптимизирует использование существующей инфраструктуры и снижает потребность в крупных центрах обработки данных.
Через DisTrO Nous Research не только продвигает технологические достижения в обучении искусственному интеллекту, но также способствует созданию более открытой и гибкой исследовательской экосистемы, которая открывает неограниченные возможности для будущего развития искусственного интеллекта.
Ссылка: https://venturebeat.com/ai/this-could-change-everything-nous-research-unveils-new-tool-to-train-powerful-ai-models-with-10000x-efficiency/
Появление DisTrO знаменует процесс демократизации обучения ИИ, снижает порог участия, способствует быстрому развитию и широкому применению технологий ИИ, а также привносит новую жизнеспособность и неограниченные возможности в область ИИ. Мы ожидаем, что в будущем DisTrO принесет больше сюрпризов в развитие ИИ.