AWS, 텍스트, 이미지 및 비디오 생성을 지원하는 생성 AI 모델 Nova 시리즈 출시

저자：Eve Cole 업데이트 시간：2024-12-17 17:48:01

Amazon AWS는 re:Invent 컨퍼런스에서 더 빠르고 저렴한 AI 솔루션 제공을 목표로 텍스트, 이미지 및 비디오 생성을 다루는 다중 모드 생성 AI 모델의 Nova 시리즈를 출시했습니다. Nova 시리즈에는 다양한 사용자의 요구와 복잡성 요구 사항을 충족하기 위해 4가지 텍스트 생성 모델(Micro, Lite, Pro 및 Premier)과 이미지 생성 모델 Nova Canvas 및 비디오 생성 모델 Nova Reel이 포함되어 있습니다. 이 모델 시리즈는 여러 언어를 지원하며 AWS Bedrock 플랫폼과 원활하게 통합되어 사용자가 세부 조정 및 최적화를 용이하게 할 수 있습니다. AWS는 또한 Nova 시리즈의 기능을 더욱 확장하기 위해 향후 음성 대 음성 모델과 "any-to-any" 모델을 출시할 것을 약속합니다.

화요일 re:Invent 컨퍼런스에서 Amazon Web Services(AWS)는 새로운 다중 모드 생성 AI 모델 제품군인 Nova의 출시를 발표했습니다. 이번에 출시된 노바 시리즈에는 텍스트 생성 모델인 마이크로(Micro), 라이트(Lite), 프로(Pro), 프리미어(Premier) 4종과 이미지 생성 모델인 노바 캔버스(Nova Canvas), 영상 생성 모델인 노바 릴(Nova Reel)도 출시됐다.

Amazon CEO Andy Jassy는 그날부터 Micro, Lite 및 Pro 모델이 AWS 고객에게 출시되기 시작할 것이며 Premier 모델은 2025년 초에 출시될 것으로 예상된다고 말했습니다. Nova 시리즈는 다양한 입력 형식(텍스트, 이미지, 비디오 포함)을 처리하도록 설계되었습니다. 텍스트 생성 모델은 주로 영어를 지원하는 15개 언어에 최적화되어 있습니다.

Nova 텍스트 생성 모델

Nova 텍스트 생성 모델은 다양한 기능과 사양으로 제공됩니다. Micro 모델은 대기 시간이 가장 낮고 응답 속도가 빠른 것으로 알려져 있지만 텍스트 입력 및 출력만 지원하므로 빠른 처리 작업에 적합합니다. Lite 모델은 텍스트, 이미지, 비디오의 빠른 입력 처리를 지원하는 반면 Pro 모델은 정확성, 속도 및 비용 간의 균형을 제공합니다. Premier는 복잡한 워크로드를 위해 설계되었으며 맞춤형 모델이 필요한 고급 애플리케이션에 적합한 가장 강력한 모델입니다.

모델은 컨텍스트 창 크기도 다릅니다. Micro는 최대 약 100,000단어를 지원하며 Lite 및 Pro 모델은 약 225,000단어, 15,000줄의 코드 또는 30분 분량의 오디오 콘텐츠를 처리할 수 있습니다. 그리고 AWS는 2025년 초까지 일부 Nova 모델의 컨텍스트 창이 200만 개 마커로 확장될 것이라고 밝혔습니다.

Jassy는 Nova 시리즈가 유사 제품 중 가장 빠르고 저렴한 AI 모델이라고 강조했습니다. AWS의 AI 개발 플랫폼인 AWS Bedrock에서 미세 조정하여 속도와 효율성을 더욱 향상시킬 수 있습니다. 또한 Nova 시리즈는 독점 시스템 및 API와 원활하게 작동하여 다양한 자동화 작업을 수행할 수 있습니다.

Nova 캔버스 및 Nova 릴

AWS는 텍스트 생성 외에도 Nova Canvas와 Nova Reel이라는 두 가지 이미지 및 비디오 생성 도구도 출시했습니다. Nova Canvas를 사용하면 사용자는 프롬프트를 통해 이미지를 생성 및 편집할 수 있으며 생성된 이미지의 색 구성표와 레이아웃을 제어할 수 있습니다. Nova Reel은 큐 또는 참조 이미지를 기반으로 최대 6초의 비디오를 생성할 수 있으며 사용자가 팬, 회전, 확대/축소를 포함한 카메라 움직임을 조정할 수 있습니다.

Canvas의 이미지는 다음과 같습니다.

Reel은 현재 6초 길이의 짧은 비디오만 제작할 수 있도록 제한되어 있지만 AWS에서는 더 긴 비디오 버전도 곧 제공할 것이라고 밝혔습니다. 또한 AWS에는 유해한 콘텐츠 생성을 방지하기 위한 워터마킹 및 콘텐츠 조정을 포함하여 이러한 도구에 대한 책임감 있는 사용 제어 기능이 내장되어 있습니다.

Jassy는 또한 AWS가 2025년 1분기에 출시될 예정인 음성-음성 모델을 개발 중이라고 밝혔습니다. 이 모델은 음성 입력을 지원하고 자연스러운 인간 음성을 생성합니다. 또한 AWS는 텍스트, 음성, 이미지 및 비디오 전반에 걸쳐 다중 모드 변환을 지원하는 "any-to-any" 모델을 개발 중이며 2025년 중반에 출시될 예정입니다.

프로젝트 입구: https://aws.amazon.com/cn/ai/generative-ai/nova/

공식 블로그: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/

전체적으로 AWS Nova 시리즈의 출시는 다중 모드 생성 AI 기술 개발의 새로운 단계를 의미하며, 강력한 기능, 효율적인 속도 및 책임감 있는 사용에 대한 강조는 사용자에게 새로운 AI 경험을 선사할 것입니다. 앞으로도 노바 시리즈의 지속적인 개발과 기능 확장이 기대된다.