AI 음성 복제 및 텍스트 음성 변환 API에 주력하는 스타트업 ElevenLabs는 최근 눈길을 끄는 새로운 기능을 출시했습니다. 사용자는 완전한 대화형 AI 에이전트를 독립적으로 구축할 수 있습니다. 이번 업데이트는 ElevenLabs가 순수한 음성 기술 제공업체에서 더욱 포괄적인 AI 솔루션 제공업체로 변모했음을 의미하며, 개발자에게 전례 없는 맞춤화 공간을 제공하고 AI 대화 분야에서 더욱 치열한 경쟁을 예고합니다. 다운코드 편집자는 이 새로운 기능의 강력한 기능에 대한 심층적인 이해를 제공할 것입니다.
이제 사용자는 음성 억양, 응답 길이 등 ElevenLabs 개발자 플랫폼의 필요에 따라 대화 에이전트의 다양한 변수를 사용자 정의할 수 있습니다.
ElevenLabs는 과거에 주로 다양한 음성 및 텍스트 음성 변환 서비스를 제공해 왔습니다. 회사의 성장 책임자인 Sam Sklar는 TechCrunch에 많은 고객이 이미 대화형 AI 에이전트를 만들기 위해 플랫폼을 사용하고 있다고 말했습니다. 그러나 지식 기반을 통합하고 고객 중단을 처리하는 것이 가장 큰 과제입니다. 그래서 ElevenLabs는 이 프로세스를 더 쉽게 만들기 위해 완전한 대화형 봇 파이프라인을 구축하기로 결정했습니다.
사용자는 ElevenLabs 계정에 로그인하거나, 템플릿을 선택하거나, 새 프로젝트를 생성하여 대화형 에이전트 구축을 시작할 수 있습니다. 상담원의 기본 언어, 첫 번째 메시지 및 시스템 프롬프트를 선택하여 상담원의 성격을 확인할 수 있습니다.
또한 개발자는 대규모 언어 모델(예: Gemini, GPT 또는 Claude), 응답 온도(창의성을 결정) 및 토큰 사용 제한을 선택해야 합니다.
사용자는 대화형 봇의 기능을 향상시키기 위해 필요에 따라 파일, URL 또는 텍스트 블록과 같은 지식 기반을 추가할 수도 있습니다. 동시에 자체 사용자 정의 대형 언어 모델을 봇과 통합할 수 있습니다. ElevenLabs의 SDK는 Python, JavaScript, React 및 Swift와 호환되며 추가 사용자 정의를 위해 WebSocket API도 제공합니다.
또한 회사는 사용자가 상담원과 통화한 고객의 이름 및 이메일과 같은 데이터 수집 기준을 정의하고 자연어를 사용하여 통화 성공을 평가하기 위한 기준을 정의할 수 있도록 허용합니다.
ElevenLabs는 기존 텍스트 음성 변환 파이프라인을 활용하는 동시에 새로운 대화형 AI 제품을 위한 음성 텍스트 변환 기능을 개발하고 있습니다. 현재는 별도의 Speech-to-Text API를 제공하고 있지 않으나 향후 출시할 가능성이 있어 Google, Microsoft, Amazon 등의 Speech-to-Text API와 경쟁하게 될 것입니다. OpenAI의 Whisper, AssemblyAI, Deepgram, Speechmatics 및 Gladia API가 경쟁합니다.
이 회사는 30억 달러 이상의 가치로 새로운 자금을 조달할 계획이며 대화 에이전트를 구축하고 있는 Vapi 및 Retell과 같은 다른 음성 AI 스타트업과 경쟁하고 있습니다. 게다가 ElevenLabs는 OpenAI의 실시간 대화 API와 경쟁할 것입니다. 그러나 ElevenLabs는 맞춤화 능력과 모델 전환의 유연성이 경쟁 우위를 점할 것이라고 믿습니다.
ElevenLabs의 이 새로운 기능은 AI 음성 분야의 경쟁력을 강화할 뿐만 아니라 개발자에게 더욱 강력하고 개인화된 대화형 AI 에이전트를 구축할 수 있는 편리한 도구를 제공합니다. 앞으로 일레븐랩스는 음성-텍스트 기능 출시와 맞춤형 옵션 추가로 AI 대화 분야에서 한 자리를 차지할 것으로 기대된다. Downcodes의 편집자는 계속해서 개발에 관심을 기울일 것입니다.