AWS запускает серию генеративных моделей искусственного интеллекта Nova, поддерживающих генерацию текста, изображений и видео

Автор：Eve Cole Время обновления：2024-12-17 17:48:01

Amazon AWS представила на конференции re:Invent серию мультимодальных генеративных моделей искусственного интеллекта Nova, охватывающую генерацию текста, изображений и видео, с целью предоставления более быстрых и недорогих решений искусственного интеллекта. Серия Nova включает четыре модели генерации текста (Micro, Lite, Pro и Premier), а также модель генерации изображений Nova Canvas и модель генерации видео Nova Reel, чтобы удовлетворить потребности и требования сложности различных пользователей. Эта серия моделей поддерживает несколько языков и может быть легко интегрирована с платформой AWS Bedrock, чтобы облегчить пользователям тонкую настройку и оптимизацию. AWS также обещает в будущем запустить модели преобразования речи в речь и модели «любой-к-любому», чтобы еще больше расширить возможности серии Nova.

На конференции re:Invent во вторник Amazon Web Services (AWS) объявила о запуске нового семейства мультимодальных генеративных моделей искусственного интеллекта — Nova. Выпущенная на этот раз серия Nova включает четыре модели генерации текста: Micro, Lite, Pro и Premier. Кроме того, также выпущены модель генерации изображений Nova Canvas и модель генерации видео Nova Reel.

Генеральный директор Amazon Энди Ясси заявил, что модели Micro, Lite и Pro начнут распространяться среди клиентов AWS в тот же день, а модели Premier, как ожидается, будут выпущены в начале 2025 года. Серия Nova предназначена для обработки нескольких форм ввода (включая текст, изображения и видео). Модель генерации текста специально оптимизирована для 15 языков, в основном с поддержкой английского языка.

Модель генерации текста Nova

Модели генерации текста Nova имеют разные функции и характеристики. Модель Micro известна своей минимальной задержкой и быстрым откликом, но поддерживает только ввод и вывод текста, что делает ее подходящей для задач быстрой обработки. Модель Lite поддерживает быструю обработку ввода текста, изображений и видео, а модель Pro предлагает баланс между точностью, скоростью и стоимостью. Premier — самая мощная модель, предназначенная для сложных рабочих нагрузок и подходящая для сложных приложений, требующих индивидуальных моделей.

Модели также различаются размером контекстного окна. Micro поддерживает до 100 000 слов, а модели Lite и Pro могут обрабатывать около 225 000 слов, 15 000 строк кода или 30 минут аудиоконтента. А в AWS заявили, что к началу 2025 года контекстное окно для некоторых моделей Nova расширится до 2 миллионов маркеров.

Ясси подчеркнул, что серия Nova — самая быстрая и дешевая модель искусственного интеллекта среди аналогичных продуктов. Их можно настроить на платформе разработки искусственного интеллекта AWS AWS Bedrock для дальнейшего повышения скорости и эффективности. Кроме того, серия Nova может беспрепятственно работать с собственными системами и API для выполнения различных задач автоматизации.

Nova Canvas и Nova Reel

Помимо генерации текста, AWS также запустила два инструмента для создания изображений и видео: Nova Canvas и Nova Reel. Nova Canvas позволяет пользователям создавать и редактировать изображения с помощью подсказок и обеспечивает контроль над цветовой схемой и макетом созданных изображений. Nova Reel может генерировать до шести секунд видео на основе реплик или эталонных изображений и позволяет пользователям регулировать движение камеры, включая панорамирование, вращение и масштабирование.

Вот изображения с Canvas:

Хотя Reel в настоящее время ограничена созданием коротких 6-секундных видеороликов, AWS заявляет, что вскоре будут доступны более длинные версии видео. Кроме того, AWS имеет встроенные средства контроля ответственного использования этих инструментов, включая водяные знаки и модерацию контента, чтобы избежать создания вредоносного контента.

Ясси также сообщил, что AWS разрабатывает модель преобразования речи в речь, запуск которой ожидается в первом квартале 2025 года. Эта модель будет поддерживать речевой ввод и генерировать естественную человеческую речь. Кроме того, AWS также разрабатывает модель «любой к любому», выпуск которой ожидается в середине 2025 года и которая поддерживает мультимодальное преобразование текста, голоса, изображений и видео.

AWS по-прежнему осторожно относится к конфиденциальности своих данных обучения и заявляет, что предоставит политику компенсации по вопросам авторских прав для защиты законных прав и интересов клиентов.

Вход в проект: https://aws.amazon.com/cn/ai/generative-ai/nova/

Официальный блог: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price- Performance/

В целом, запуск серии AWS Nova знаменует собой новый этап в развитии мультимодальной генеративной технологии искусственного интеллекта. Ее мощные функции, эффективная скорость и акцент на ответственном использовании дадут пользователям новый опыт работы с искусственным интеллектом. Стоит ожидать дальнейшего развития и функционального расширения серии Nova в будущем.