Amazon AWS stellte auf der re:Invent-Konferenz die Nova-Reihe multimodaler generativer KI-Modelle vor, die die Text-, Bild- und Videogenerierung abdeckt und darauf abzielt, schnellere und kostengünstigere KI-Lösungen bereitzustellen. Die Nova-Serie umfasst vier Textgenerierungsmodelle (Micro, Lite, Pro und Premier) sowie das Bildgenerierungsmodell Nova Canvas und das Videogenerierungsmodell Nova Reel, um den Bedürfnissen und Komplexitätsanforderungen verschiedener Benutzer gerecht zu werden. Diese Modellreihe unterstützt mehrere Sprachen und kann nahtlos in die AWS Bedrock-Plattform integriert werden, um Benutzern die Feinabstimmung und Optimierung zu erleichtern. AWS verspricht außerdem, in Zukunft Speech-to-Speech-Modelle und „Any-to-Any“-Modelle auf den Markt zu bringen, um die Fähigkeiten der Nova-Serie weiter zu erweitern.
Auf der re:Invent-Konferenz am Dienstag kündigte Amazon Web Services (AWS) die Einführung seiner neuen Familie multimodaler generativer KI-Modelle an – Nova. Die diesmal erschienene Nova-Serie umfasst vier Textgenerierungsmodelle: Micro, Lite, Pro und Premier. Darüber hinaus werden auch das Bildgenerierungsmodell Nova Canvas und das Videogenerierungsmodell Nova Reel auf den Markt gebracht.
Andy Jassy, CEO von Amazon, sagte, dass die Micro-, Lite- und Pro-Modelle an diesem Tag mit der Einführung für AWS-Kunden beginnen werden, während die Premier-Modelle voraussichtlich Anfang 2025 auf den Markt kommen werden. Die Nova-Serie ist für die Verarbeitung mehrerer Eingabeformen (einschließlich Text, Bilder und Videos) konzipiert. Das Textgenerierungsmodell ist speziell für 15 Sprachen optimiert und unterstützt hauptsächlich Englisch.
Nova-Textgenerierungsmodell
Nova-Modelle zur Textgenerierung verfügen über unterschiedliche Funktionen und Spezifikationen. Das Micro-Modell ist für seine geringste Latenz und schnelle Reaktion bekannt, unterstützt jedoch nur die Texteingabe und -ausgabe und eignet sich daher für schnelle Verarbeitungsaufgaben. Das Lite-Modell unterstützt die schnelle Eingabeverarbeitung von Text, Bildern und Videos, während das Pro-Modell ein ausgewogenes Verhältnis zwischen Genauigkeit, Geschwindigkeit und Kosten bietet. Premier ist das leistungsstärkste Modell, das für komplexe Arbeitslasten konzipiert ist und sich für erweiterte Anwendungen eignet, die angepasste Modelle erfordern.
Die Modelle unterscheiden sich auch in der Größe des Kontextfensters. Das Micro unterstützt bis zu etwa 100.000 Wörter und die Lite- und Pro-Modelle können etwa 225.000 Wörter, 15.000 Codezeilen oder 30 Minuten Audioinhalt verarbeiten. Und AWS sagte, dass das Kontextfenster für einige Nova-Modelle bis Anfang 2025 auf 2 Millionen Marker erweitert wird.
Jassy betonte, dass die Nova-Serie das schnellste und kostengünstigste KI-Modell unter ähnlichen Produkten sei. Sie können auf der KI-Entwicklungsplattform AWS Bedrock von AWS verfeinert werden, um Geschwindigkeit und Effizienz weiter zu verbessern. Darüber hinaus kann die Nova-Serie nahtlos mit proprietären Systemen und APIs zusammenarbeiten, um eine Vielzahl von Automatisierungsaufgaben auszuführen.
Nova Canvas und Nova Reel
Zusätzlich zur Textgenerierung hat AWS auch zwei Tools zur Bild- und Videogenerierung auf den Markt gebracht: Nova Canvas und Nova Reel. Nova Canvas ermöglicht Benutzern das Generieren und Bearbeiten von Bildern über Eingabeaufforderungen und bietet Kontrolle über das Farbschema und Layout der generierten Bilder. Nova Reel kann bis zu sechs Sekunden Video basierend auf Hinweisen oder Referenzbildern generieren und ermöglicht Benutzern die Anpassung der Kamerabewegung, einschließlich Schwenken, Drehen und Zoomen.
Hier sind die Bilder von Canvas:
Obwohl Reel sich derzeit auf die Produktion kurzer 6-Sekunden-Videos beschränkt, gibt AWS an, dass bald längere Videoversionen verfügbar sein werden. Darüber hinaus verfügt AWS über integrierte Kontrollen zur verantwortungsvollen Nutzung dieser Tools, einschließlich Wasserzeichen und Inhaltsmoderation, um die Generierung schädlicher Inhalte zu vermeiden.
Jassy gab außerdem bekannt, dass AWS ein Speech-to-Speech-Modell entwickelt, das voraussichtlich im ersten Quartal 2025 auf den Markt kommt. Dieses Modell wird die Spracheingabe unterstützen und natürliche menschliche Sprache erzeugen. Darüber hinaus entwickelt AWS auch ein „Any-to-Any“-Modell, das voraussichtlich Mitte 2025 veröffentlicht wird und die multimodale Konvertierung von Text, Sprache, Bildern und Video unterstützt.
AWS bleibt hinsichtlich der Vertraulichkeit seiner Trainingsdaten vorsichtig und kündigt an, eine Entschädigungsrichtlinie für Urheberrechtsfragen bereitzustellen, um die legitimen Rechte und Interessen der Kunden zu schützen.
Projekteingang: https://aws.amazon.com/cn/ai/generative-ai/nova/
Offizieller Blog: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/
Alles in allem markiert die Einführung der AWS Nova-Serie eine neue Etappe in der Entwicklung der multimodalen generativen KI-Technologie. Ihre leistungsstarken Funktionen, ihre effiziente Geschwindigkeit und der Schwerpunkt auf verantwortungsvollem Einsatz werden den Benutzern ein neues KI-Erlebnis bieten. Es lohnt sich, auf die Weiterentwicklung und Funktionserweiterung der Nova-Serie in der Zukunft zu blicken.