Ученые используют инновационную технологию для успешного обучения модели с триллионом параметров на уровне ChatGPT

Автор：Eve Cole Время обновления：2025-01-23 16:48:02

Национальная лаборатория Ок-Ридж в США совершила крупный прорыв, используя Frontier, самый мощный суперкомпьютер в мире, для успешного обучения языковой модели, эквивалентной ChatGPT, используя только 8% своей вычислительной мощности. Модель имеет триллионы параметров. Благодаря инновационному распределенному обучению и параллельным технологиям исследовательская группа достигла 100% низкой эффективности расширения, предоставив ценный опыт и техническую информацию для обучения более масштабных языковых моделей в будущем. Это исследование не только демонстрирует мощь суперкомпьютерных технологий, но также подчеркивает важность памяти и других проблем при крупномасштабном обучении языковых моделей.

Ученые использовали самый мощный в мире суперкомпьютер для успешного обучения модели уровня ChatGPT, используя всего 8% вычислительной мощности. Прорыв произошел в Национальной лаборатории Ок-Ридж, где исследовательская группа использовала инновационную технологию для обучения языковой модели с триллионом параметров на суперкомпьютере Frontier. За счет распределенного обучения и параллельных технологий достигается 100% эффективность слабого расширения. Однако обучение больших языковых моделей по-прежнему представляет собой проблему и требует решения проблем с памятью. Исследование дает опыт обучения огромных языковых моделей в будущем и подчеркивает ключевую роль распределенного обучения и параллельных вычислений.

Этот результат исследования открывает новые возможности для развития области искусственного интеллекта, а также указывает на то, что технология обучения крупномасштабных языковых моделей в будущем будет развиваться в более эффективном и энергосберегающем направлении. Эффективное использование вычислительных ресурсов является важным направлением будущей разработки больших языковых моделей.