Amazon AWS a lancé la série Nova de modèles d'IA générative multimodaux lors de la conférence re:Invent, couvrant la génération de texte, d'image et de vidéo, dans le but de fournir des solutions d'IA plus rapides et moins coûteuses. La série Nova comprend quatre modèles de génération de texte (Micro, Lite, Pro et Premier), ainsi que le modèle de génération d'images Nova Canvas et le modèle de génération vidéo Nova Reel, pour répondre aux besoins et aux exigences de complexité des différents utilisateurs. Cette série de modèles prend en charge plusieurs langues et peut être intégrée de manière transparente à la plate-forme AWS Bedrock pour faciliter le réglage et l'optimisation des utilisateurs. AWS promet également de lancer à l'avenir des modèles de synthèse vocale et des modèles « any-to-any » pour étendre davantage les capacités de la série Nova.
Lors de la conférence re:Invent mardi, Amazon Web Services (AWS) a annoncé le lancement de sa nouvelle famille de modèles d'IA générative multimodaux - Nova. La série Nova publiée cette fois comprend quatre modèles de génération de texte : Micro, Lite, Pro et Premier. De plus, le modèle de génération d'images Nova Canvas et le modèle de génération vidéo Nova Reel sont également lancés.
Le PDG d'Amazon, Andy Jassy, a déclaré que les modèles Micro, Lite et Pro commenceraient à être déployés auprès des clients AWS ce jour-là, tandis que les modèles Premier devraient être lancés début 2025. La série Nova est conçue pour gérer plusieurs formulaires de saisie (y compris du texte, des images et des vidéos). Le modèle de génération de texte est spécialement optimisé pour 15 langues, prenant principalement en charge l'anglais.
Modèle de génération de texte Nova
Les modèles de génération de texte Nova présentent différentes fonctionnalités et spécifications. Le modèle Micro est connu pour sa latence la plus faible et sa réponse rapide, mais ne prend en charge que la saisie et la sortie de texte, ce qui le rend adapté aux tâches de traitement rapides. Le modèle Lite prend en charge le traitement rapide de la saisie de texte, d'images et de vidéos, tandis que le modèle Pro offre un équilibre entre précision, vitesse et coût. Premier est le modèle le plus puissant, conçu pour les charges de travail complexes et adapté aux applications avancées nécessitant des modèles personnalisés.
Les modèles diffèrent également par la taille de la fenêtre contextuelle. Le Micro prend en charge jusqu'à environ 100 000 mots, et les modèles Lite et Pro peuvent gérer environ 225 000 mots, 15 000 lignes de code ou 30 minutes de contenu audio. Et AWS a déclaré que d'ici début 2025, la fenêtre contextuelle de certains modèles Nova s'étendrait à 2 millions de marqueurs.
Jassy a souligné que la série Nova est le modèle d'IA le plus rapide et le moins coûteux parmi les produits similaires. Ils peuvent être ajustés sur la plateforme de développement d'IA d'AWS, AWS Bedrock, pour améliorer encore la vitesse et l'efficacité. De plus, la série Nova peut fonctionner de manière transparente avec des systèmes et des API propriétaires pour effectuer diverses tâches d'automatisation.
Toile Nova et Bobine Nova
En plus de la génération de texte, AWS a également lancé deux outils de génération d'images et de vidéos : Nova Canvas et Nova Reel. Nova Canvas permet aux utilisateurs de générer et de modifier des images via des invites et permet de contrôler la palette de couleurs et la disposition des images générées. Nova Reel peut générer jusqu'à six secondes de vidéo sur la base de repères ou d'images de référence, et permet aux utilisateurs d'ajuster le mouvement de la caméra, notamment le panoramique, la rotation et le zoom.
Voici les images de Canvas :
Bien que Reel soit actuellement limité à la production de courtes vidéos de 6 secondes, AWS indique que des versions vidéo plus longues seront bientôt disponibles. De plus, AWS a intégré des contrôles d'utilisation responsable pour ces outils, notamment le filigrane et la modération du contenu pour éviter de générer du contenu nuisible.
Jassy a également révélé qu'AWS développe un modèle parole-parole, qui devrait être lancé au premier trimestre 2025. Ce modèle prendra en charge la saisie vocale et générera une parole humaine naturelle. En outre, AWS développe également un modèle « any-to-any », qui devrait être lancé mi-2025, qui prend en charge la conversion multimodale entre texte, voix, images et vidéo.
AWS reste prudent quant à la confidentialité de ses données de formation et affirme qu'il fournira une politique de compensation sur les questions de droits d'auteur afin de protéger les droits et intérêts légitimes des clients.
Entrée du projet : https://aws.amazon.com/cn/ai/generative-ai/nova/
Blog officiel : https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/
Dans l'ensemble, le lancement de la série AWS Nova marque une nouvelle étape dans le développement de la technologie d'IA générative multimodale. Ses fonctions puissantes, sa vitesse efficace et l'accent mis sur une utilisation responsable apporteront une nouvelle expérience d'IA aux utilisateurs. Le développement continu et l'expansion fonctionnelle de la série Nova méritent d'être attendus avec impatience.