На конференции re:Invent 2024 года AWS представила инстансы Amazon EC2 Trn2 и Trn2UltraServers на базе чипов Trainium2, а также AI-чип Trainium3 следующего поколения. В новом поколении инстансов значительно улучшена производительность, а соотношение цены и производительности на 30–40 % выше, чем у инстансов EC2 предыдущего поколения на базе графического процессора. Этот шаг знаменует собой важный шаг для AWS в области вычислений с использованием искусственного интеллекта, предоставляя более мощные вычислительные возможности для обучения и развертывания больших языковых моделей, а также способствуя широкому применению и развитию технологий искусственного интеллекта посредством сотрудничества с многочисленными партнерами. эффективность.
На конференции AWS re:Invent 2024 года компания Amazon Web Services (AWS) объявила о запуске инстансов Amazon Elastic Compute Cloud (EC2) на базе чипов Trainium2, которые официально доступны пользователям. Цена и производительность этого нового инстанса на 30–40 % выше, чем у инстансов EC2 предыдущего поколения на базе графического процессора. «Я рад объявить о доступности инстансов Amazon EC2 Trn2 на базе Trainium2», — заявил генеральный директор AWS Мэтт Гарман.
Помимо инстансов Trn2, AWS также запустила Trn2UltraServers и продемонстрировала чип Trainium3AI следующего поколения. Экземпляры Trn2, оснащенные 16 чипами Trainium2, способны обеспечивать вычислительную производительность до 20,8 петафлопс и предназначены для обучения и развертывания больших языковых моделей (LLM) с миллиардами параметров.
Trn2UltraServers объединяет четыре сервера Trn2 в одну систему, обеспечивая до 83,2 петафлопс вычислительной мощности для достижения более высокой масштабируемости. Эти UltraServers имеют 64 взаимосвязанных чипа Trainium2 для удовлетворения потребностей клиентов в вычислительной мощности во время обучения и вывода. «Запуск экземпляров Trainium2 и Trn2UltraServers дает клиентам вычислительную мощность, необходимую для решения самых сложных моделей искусственного интеллекта», — сказал Дэвид Браун, вице-президент по вычислениям и сетям в AWS.
AWS заключила партнерское соглашение с Anthropic для запуска крупномасштабного вычислительного кластера искусственного интеллекта под названием Project Rainier, использующего сотни тысяч чипов Trainium2. Эта инфраструктура будет поддерживать разработку Anthropic, включая оптимизацию ее флагманского продукта Claude для работы на оборудовании Trainium2.
Кроме того, Databricks и Hugging Face также сотрудничают с AWS, чтобы использовать возможности Trainium для повышения производительности и экономической эффективности своих продуктов искусственного интеллекта. Databricks планирует использовать это оборудование для улучшения своей платформы искусственного интеллекта Mosaic, а Hugging Face интегрирует Trainium2 в свои инструменты разработки и развертывания искусственного интеллекта.
Среди других клиентов Trainium2 — Adobe, Poolside и Qualcomm. Гарман упомянул, что после того, как Adobe использовала Trainium2 для раннего тестирования модели вывода Firefly, результаты были очень удовлетворительными, и ожидается, что это позволит значительно сэкономить. «Poolside рассчитывает сэкономить 40% по сравнению с другими вариантами», — добавил он. «Qualcomm использует Trainium2 для разработки систем искусственного интеллекта, которые можно обучать в облаке и развертывать на периферии».
Кроме того, AWS также представила свой чип Trainium3, в котором используется 3-нанометровый процесс. Ожидается, что UltraServers на базе Trainium3 будут выпущены к концу 2025 года и будут обеспечивать в четыре раза более высокую производительность, чем UltraServers Trn2.
Чтобы оптимизировать использование оборудования Trainium, AWS также запустила Neuron SDK — набор программных инструментов, который помогает разработчикам оптимизировать модели для достижения оптимальной производительности на чипах Trainium. SDK поддерживает такие платформы, как JAX и PyTorch, что позволяет клиентам интегрировать программное обеспечение в существующие рабочие процессы с минимальными изменениями кода.
В настоящее время экземпляры Trn2 доступны в регионе Восток США (Огайо), а в будущем они будут распространены на другие регионы. UltraServers в настоящее время находится в предварительной версии.
В целом, запуск Trainium2 и связанных с ним продуктов и услуг со стороны AWS дал мощный импульс быстрому развитию области искусственного интеллекта и еще больше укрепил лидирующие позиции AWS в области облачных вычислений и искусственного интеллекта. В будущем, с запуском Trainium3, его преимущества в области ИИ-вычислений станут еще более значительными.