AWS lança série Nova de modelos generativos de IA, com suporte para geração de texto, imagem e vídeo

Autor：Eve Cole Data da Última Atualização：2024-12-17 17:48:01

A Amazon AWS lançou a série Nova de modelos de IA generativos multimodais na conferência re:Invent, abrangendo geração de texto, imagem e vídeo, com o objetivo de fornecer soluções de IA mais rápidas e de baixo custo. A série Nova inclui quatro modelos de geração de texto (Micro, Lite, Pro e Premier), bem como o modelo de geração de imagens Nova Canvas e o modelo de geração de vídeo Nova Reel, para atender às necessidades e requisitos de complexidade de diferentes usuários. Esta série de modelos oferece suporte a vários idiomas e pode ser perfeitamente integrada à plataforma AWS Bedrock para facilitar o ajuste e a otimização dos usuários. A AWS também promete lançar modelos de fala para fala e modelos “qualquer para qualquer” no futuro para expandir ainda mais os recursos da série Nova.

Na conferência re:Invent na terça-feira, a Amazon Web Services (AWS) anunciou o lançamento de sua nova família de modelos de IA generativos multimodais – Nova. A série Nova lançada desta vez inclui quatro modelos de geração de texto: Micro, Lite, Pro e Premier. Além disso, também são lançados o modelo de geração de imagens Nova Canvas e o modelo de geração de vídeo Nova Reel.

O CEO da Amazon, Andy Jassy, disse que os modelos Micro, Lite e Pro começarão a ser lançados para clientes AWS naquele dia, enquanto os modelos Premier deverão ser lançados no início de 2025. A série Nova foi projetada para lidar com vários formulários de entrada (incluindo texto, imagens e vídeos). O modelo de geração de texto é especialmente otimizado para 15 idiomas, suportando principalmente o inglês.

Modelo de geração de texto Nova

Os modelos de geração de texto Nova vêm em diferentes recursos e especificações. O modelo Micro é conhecido por sua menor latência e resposta rápida, mas suporta apenas entrada e saída de texto, tornando-o adequado para tarefas de processamento rápido. O modelo Lite suporta processamento rápido de entrada de texto, imagens e vídeos, enquanto o modelo Pro oferece um equilíbrio entre precisão, velocidade e custo. Premier é o modelo mais poderoso, projetado para cargas de trabalho complexas e adequado para aplicações avançadas que exigem modelos customizados.

Os modelos também diferem no tamanho da janela de contexto. O Micro suporta até cerca de 100.000 palavras, e os modelos Lite e Pro podem lidar com cerca de 225.000 palavras, 15.000 linhas de código ou 30 minutos de conteúdo de áudio. E a AWS disse que até o início de 2025, a janela de contexto para alguns modelos Nova se expandirá para 2 milhões de marcadores.

Jassy enfatizou que a série Nova é o modelo de IA mais rápido e de menor custo entre produtos similares. Eles podem ser ajustados na plataforma de desenvolvimento de IA da AWS, AWS Bedrock, para melhorar ainda mais a velocidade e a eficiência. Além disso, a série Nova pode funcionar perfeitamente com sistemas proprietários e APIs para executar diversas tarefas de automação.

Nova Canvas e Nova Reel

Além da geração de texto, a AWS também lançou duas ferramentas de geração de imagens e vídeos: Nova Canvas e Nova Reel. O Nova Canvas permite aos usuários gerar e editar imagens por meio de prompts e fornece controle sobre o esquema de cores e layout das imagens geradas. O Nova Reel pode gerar até seis segundos de vídeo com base em sugestões ou imagens de referência e permite aos usuários ajustar o movimento da câmera, incluindo panorâmica, rotação e zoom.

Aqui estão as imagens do Canvas:

Embora o Reel esteja atualmente limitado à produção de vídeos curtos de 6 segundos, a AWS afirma que versões de vídeo mais longas estarão disponíveis em breve. Além disso, a AWS incorporou controles de uso responsável para essas ferramentas, incluindo marcas d'água e moderação de conteúdo para evitar a geração de conteúdo prejudicial.

Jassy também revelou que a AWS está desenvolvendo um modelo de fala para fala, que deverá ser lançado no primeiro trimestre de 2025. Este modelo suportará entrada de fala e gerará fala humana natural. Além disso, a AWS também está desenvolvendo um modelo “qualquer para qualquer”, com lançamento previsto para meados de 2025, que suporta conversão multimodal em texto, voz, imagens e vídeo.

A AWS permanece cautelosa quanto à confidencialidade de seus dados de treinamento e afirma que fornecerá uma política de compensação em questões de direitos autorais para proteger os direitos e interesses legítimos dos clientes.

Entrada do projeto: https://aws.amazon.com/cn/ai/generative-ai/nova/

Blog oficial: https://aws.amazon.com/cn/blogs/aws/introduzindo-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/

Em suma, o lançamento da série AWS Nova marca uma nova etapa no desenvolvimento da tecnologia de IA generativa multimodal. Suas funções poderosas, velocidade eficiente e ênfase no uso responsável trarão uma nova experiência de IA aos usuários. Vale a pena esperar pelo desenvolvimento contínuo e pela expansão funcional da série Nova no futuro.