초고속 텍스트 음성 변환 모델 Lightning: 매우 짧은 대기 시간, 100밀리초로 10초의 오디오 생성

저자：Eve Cole 업데이트 시간：2024-11-29 14:41:01

Downcodes의 편집자는 미국 AI 스타트업 최소형.ai가 새로운 TTS(텍스트 음성 변환) 모델 Lightning을 출시했다는 사실을 알게 되었습니다. 그 속도는 놀랍습니다. 최대 10초의 오디오를 생성하는 데 100밀리초밖에 걸리지 않습니다! 이는 음성 로봇 개발 및 적용 비용을 크게 절감하고 접근성을 향상시키며 전 세계 개발자에게 좋은 소식을 전할 TTS 기술의 큰 도약을 의미합니다. Lightning은 영어와 힌디어의 다양한 악센트를 지원하며 앞으로 더 많은 언어를 지원할 예정이며 분당 $0.02라는 매우 경쟁력 있는 가격을 제공합니다.

최근 캘리포니아주 샌프란시스코에 본사를 둔 AI 스타트업 최소형.ai는 100밀리초에 최대 10초의 오디오를 생성할 수 있는 텍스트 음성 변환(TTS) 모델인 신제품 라이트닝(Lightning)을 출시했습니다. 이 기술의 발전을 통해 전 세계 개발자는 대기 시간이 매우 짧은 매우 현실적인 음성 로봇 애플리케이션을 구축하여 구현 비용을 절감하고 애플리케이션 접근성을 향상시킬 수 있습니다.

Lightning은 현재 영어와 힌디어의 다양한 악센트를 지원하며 팀은 시장 수요를 충족하기 위해 더 많은 언어를 신속하게 추가할 계획입니다. 이 모델의 가격은 분당 US$0.02(약 INR 1.6)로 음성 봇 개발자에게 매우 비용 효과적인 솔루션을 제공하며 애플리케이션의 운영 비용은 분당 INR 1 미만으로 제어됩니다. 음성로봇을 통해 시장 접근성을 확대하고 있습니다.

스트리밍 미디어 및 네트워크 소켓에 의존하여 서버 부담을 늘리고 확장성을 복잡하게 만드는 기존 TTS 모델과 달리 Lightning은 간단한 REST API 설계를 사용하여 약 100밀리초 내에 오디오를 전달하므로 지속적인 스트리밍 서버 압박으로 인한 문제를 방지합니다. 이러한 빠른 처리 능력과 비용 효율성은 음성 로봇 산업에서 중요한 대안이 됩니다.

라이트닝의 제품 기능은 다음과 같이 요약할 수 있습니다.

1. 속도와 효율성. 세계에서 가장 빠른 텍스트 음성 변환으로 알려진 Lightning 모델은 100밀리초 안에 10초의 매우 사실적인 오디오를 생성하여 실시간 음성 합성을 달성하여 신속한 응답 요구를 충족합니다.

2. 컴팩트함과 호환성. 1GB 미만의 비디오 메모리가 필요한 이 모델은 크기가 작고 대부분의 소비자 및 엣지 장치에서 쉽게 실행될 수 있어 하드웨어 요구 사항이 줄어듭니다.

3. 다국어 지원. 다중 언어 및 악센트 지원은 현재 영어와 힌디어의 다중 악센트를 지원하며 글로벌 사용자의 요구를 충족하기 위해 더 많은 언어를 빠르게 추가할 계획입니다.

4. 고도로 맞춤화 가능합니다. 스타일 디퓨저는 특별한 스타일 디퓨저를 사용하여 사용자 요구에 따라 오디오 스타일을 조정하여 생성된 음성을 더욱 자연스럽고 감성적으로 만듭니다.

5. 통합이 용이합니다. REST API 통합은 간단한 REST API 인터페이스를 제공하므로 개발자는 Lightning 모델을 기존 시스템에 신속하게 통합할 수 있으므로 복잡한 WebSocket 연결이 필요하지 않습니다.

6. 모든 기업에 적합한 분당 US$0.04부터 시작하는 친절한 가격과 사용량이 많은 기업을 위한 맞춤형 요금제가 제공됩니다.

가장 작은.ai는 IIT Guwahati 졸업생인 Sudarshan Kamath와 Akshat Mandloi가 설립했습니다. Kamath는 최소형.ai의 저가 전략은 데이터 품질과 모델 효율성에 중점을 두는 것이라고 말했습니다. “우리 모델은 ElevenLabs와 같은 경쟁사보다 훨씬 작지만 고도로 정제된 데이터를 통해 고품질 음성 출력을 달성합니다.”라고 그는 설명했습니다.

Lightning에 대한 조기 액세스 권한을 얻은 음성 봇 개발자는 오디오 품질을 향상시키면서 운영 비용을 8배 절감했다고 보고했습니다. 실시간 음성 봇 애플리케이션 외에도 Lightning을 사용하여 Instagram 및 YouTube와 같은 플랫폼에서 오디오북 및 소셜 미디어 콘텐츠에 대한 음성 해설을 만들 수도 있습니다. 개발자가 아닌 사람도 Waves Speech 플랫폼을 통해 Lightning에 액세스할 수 있으며 현재 베타 버전인 음성 복제 및 악센트 변환과 같은 기능을 경험할 수 있습니다.

Analytical India Magazine과의 독점적인 상호 작용에서 Kamath는 다음과 같이 말했습니다. "우리가 구축을 시작했을 때 음성 봇에 필요한 기존 모델이 인도어에 대해 충분히 성숙되지 않았다는 것을 깨달았습니다. 영어가 아닌 언어에 대한 기존 모델은 단순히 이에 미치지 못했습니다. 생산이 필요합니다."

올해 6월 최소형.ai는 짧은 오디오 클립을 통해 음성 복제를 경쟁력 있는 가격으로 지원하는 AWAAZ 모델도 출시했습니다. 이 모델은 지역 언어 시장의 확장 가능한 애플리케이션을 충족하고 엔터프라이즈급 보안 및 규정 준수를 제공하도록 설계되었습니다. Kamath는 사명에 대해 질문을 받았을 때 "음성 AI 기술의 엄청난 발전에도 불구하고 왜 수십억 명의 사람들이 AI 음성으로 매일 의사소통하지 못하는가? 이것이 우리가 해결하려고 노력하는 질문입니다."라고 말했습니다.

프로젝트 입구: https://smallest.ai/blog/lightning-fast-text-to-speech

Lightning 모델의 출현은 의심할 여지없이 음성 합성 기술의 새로운 기준을 제시합니다. 고효율, 저비용 및 손쉬운 통합은 음성 로봇 애플리케이션의 인기와 혁신을 촉진하고 더 많은 개발자와 기업에 새로운 기회를 제공할 것입니다. Downcodes의 편집자는 Lightning이 앞으로 더 많은 언어와 기능을 지원하여 전 세계 사용자에게 더 편리하고 더 나은 음성 경험을 제공할 수 있기를 바랍니다.