AWS lanza la serie Nova de modelos generativos de IA, que admiten la generación de texto, imágenes y videos

Autor：Eve Cole Fecha de actualización：2024-12-17 17:48:01

Amazon AWS lanzó la serie Nova de modelos de IA generativa multimodal en la conferencia re:Invent, que cubre la generación de texto, imágenes y videos, con el objetivo de proporcionar soluciones de IA más rápidas y de menor costo. La serie Nova incluye cuatro modelos de generación de texto (Micro, Lite, Pro y Premier), así como el modelo de generación de imágenes Nova Canvas y el modelo de generación de video Nova Reel, para satisfacer las necesidades y requisitos de complejidad de los diferentes usuarios. Esta serie de modelos admite varios idiomas y se puede integrar perfectamente con la plataforma AWS Bedrock para facilitar a los usuarios el ajuste y la optimización. AWS también promete lanzar modelos de voz a voz y modelos "cualquiera a cualquiera" en el futuro para ampliar aún más las capacidades de la serie Nova.

En la conferencia re:Invent del martes, Amazon Web Services (AWS) anunció el lanzamiento de su nueva familia de modelos de IA generativa multimodal: Nova. La serie Nova lanzada esta vez incluye cuatro modelos de generación de texto: Micro, Lite, Pro y Premier. Además, también se lanzan el modelo de generación de imágenes Nova Canvas y el modelo de generación de video Nova Reel.

El director ejecutivo de Amazon, Andy Jassy, dijo que los modelos Micro, Lite y Pro comenzarán a implementarse para los clientes de AWS ese día, mientras que se espera que los modelos Premier se lancen a principios de 2025. La serie Nova está diseñada para manejar múltiples formularios de entrada (incluidos texto, imágenes y videos). El modelo de generación de texto está especialmente optimizado para 15 idiomas, principalmente en inglés.

Modelo de generación de texto Nova

Los modelos de generación de texto Nova vienen en diferentes características y especificaciones. El modelo Micro es conocido por su latencia más baja y respuesta rápida, pero solo admite entrada y salida de texto, lo que lo hace adecuado para tareas de procesamiento rápido. El modelo Lite admite un procesamiento de entrada rápido de texto, imágenes y videos, mientras que el modelo Pro ofrece un equilibrio entre precisión, velocidad y costo. Premier es el modelo más potente, diseñado para cargas de trabajo complejas y adecuado para aplicaciones avanzadas que requieren modelos personalizados.

Los modelos también difieren en el tamaño de la ventana de contexto. El Micro admite hasta unas 100.000 palabras y los modelos Lite y Pro pueden manejar unas 225.000 palabras, 15.000 líneas de código o 30 minutos de contenido de audio. Y AWS dijo que a principios de 2025, la ventana de contexto para algunos modelos de Nova se ampliará a 2 millones de marcadores.

Jassy enfatizó que la serie Nova es el modelo de IA más rápido y de menor costo entre productos similares. Se pueden ajustar en la plataforma de desarrollo de inteligencia artificial de AWS, AWS Bedrock, para mejorar aún más la velocidad y la eficiencia. Además, la serie Nova puede funcionar a la perfección con sistemas propietarios y API para realizar una variedad de tareas de automatización.

Nova Canvas y Nova Reel

Además de la generación de texto, AWS también lanzó dos herramientas de generación de imágenes y videos: Nova Canvas y Nova Reel. Nova Canvas permite a los usuarios generar y editar imágenes mediante indicaciones y proporciona control sobre la combinación de colores y el diseño de las imágenes generadas. Nova Reel puede generar hasta seis segundos de video basado en señales o imágenes de referencia y permite a los usuarios ajustar el movimiento de la cámara, incluida la panorámica, la rotación y el zoom.

Aquí están las imágenes de Canvas:

Aunque actualmente Reel se limita a producir videos cortos de 6 segundos, AWS dice que pronto estarán disponibles versiones de video más largas. Además, AWS tiene controles de uso responsable integrados para estas herramientas, incluidas marcas de agua y moderación de contenido para evitar generar contenido dañino.

Jassy también reveló que AWS está desarrollando un modelo de voz a voz, que se espera que se lance en el primer trimestre de 2025. Este modelo admitirá la entrada de voz y generará habla humana natural. Además, AWS también está desarrollando un modelo "cualquiera a cualquiera", que se espera que se lance a mediados de 2025, que admite la conversión multimodal de texto, voz, imágenes y vídeo.

AWS sigue siendo cauteloso con respecto a la confidencialidad de sus datos de capacitación y dice que proporcionará una política de compensación en cuestiones de derechos de autor para proteger los derechos e intereses legítimos de los clientes.

Entrada del proyecto: https://aws.amazon.com/cn/ai/generative-ai/nova/

Blog oficial: https://aws.amazon.com/cn/blogs/aws/introduciendo-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/

Con todo, el lanzamiento de la serie AWS Nova marca una nueva etapa en el desarrollo de la tecnología de IA generativa multimodal. Sus potentes funciones, velocidad eficiente y énfasis en el uso responsable brindarán una nueva experiencia de IA a los usuarios. Vale la pena esperar con ansias el desarrollo continuo y la ampliación funcional de la serie Nova en el futuro.